【ITBEAR科技資訊】3月3日消息,近日,ChatGPT發(fā)布了基于Whisper大模型的語(yǔ)音轉(zhuǎn)文字API,旨在幫助用戶更加高效地將語(yǔ)音轉(zhuǎn)錄成文字,并支持多種語(yǔ)言的轉(zhuǎn)錄和翻譯。
Whisper API的收費(fèi)非常低廉,每分鐘只要0.006美元,即人民幣約為4分錢,相信會(huì)對(duì)語(yǔ)音相關(guān)企業(yè)產(chǎn)生很大的影響。
據(jù)ITBEAR科技資訊了解,盡管Whisper API支持幾十種語(yǔ)言的轉(zhuǎn)錄和翻譯,但不同語(yǔ)言的轉(zhuǎn)錄準(zhǔn)確率差別很大。Whisper large-v2模型在西班牙語(yǔ)、英語(yǔ)、意大利語(yǔ)、德語(yǔ)等語(yǔ)言的單詞錯(cuò)誤率都能控制在5%以內(nèi),這樣的轉(zhuǎn)錄后只需要用戶簡(jiǎn)單修改就可以得到完美的轉(zhuǎn)錄結(jié)果。
然而,在中文轉(zhuǎn)錄方面,Whisper的錯(cuò)誤率相比其他語(yǔ)言要高得多。v1模型的錯(cuò)誤率為19.6%,v2略微提高到14.7%,這對(duì)于用戶來(lái)說(shuō)確實(shí)是一些麻煩。這一問(wèn)題可能與中文本身的特點(diǎn)有關(guān),例如中文的同音字和多音字,以及口音和方言的差異。中文語(yǔ)料的覆蓋率相對(duì)較低,也可能對(duì)模型的訓(xùn)練效果造成了影響。