【ITBEAR】中國電信人工智能研究院(簡稱TeleAI)近期在語音識別技術領域取得了顯著進展。繼今年5月發布支持30種方言的星辰超多方言語音識別大模型之后,該機構在短短半年內再次突破了技術瓶頸。
最新消息顯示,星辰語音大模型現已成功攻克湛江話、宜賓話、洛陽話、煙臺話等多種方言,將其支持的方言種類從原有的30種擴展至40種。更為該模型還引入了英文識別功能,進一步提升了其多語言處理能力。
在傳統的語音識別模型訓練中,通常需要大量有標注的數據。然而,方言語音數據往往存在無標注數據豐富而有標注數據稀缺的問題。針對這一挑戰,TeleAI采用了一種創新的“預訓練+微調”模型方案。
具體而言,該方案首先利用海量無標注數據進行預訓練,構建出一個基礎的語音識別模型。隨后,通過少量有標注數據進行微調,使模型能夠更準確地識別各種方言。這種訓練方法不僅高度契合方言場景的需求,還大幅降低了對人工標注數據的依賴。
TeleAI在模型結構和成本優化方面也取得了顯著成果。通過一系列創新技術,該機構成功將對人工標注數據的需求量降低了約50倍,同時確保了模型效果與有監督訓練的方言模型水平相當。
為了進一步推動語音識別技術的發展和應用,TeleAI還將其研究成果在GitHub上進行了開源共享。開源地址為:https://github.com/Tele-AI/TeleSpeech-ASR。這一舉措有望為全球的語音識別研究者和開發者提供有力的支持和參考。