語音識別技術,也被稱為自動語音識別Automatic Speech Recogntion(ASR),是通過計算機自動將人類的語音內容轉換為相應文字的技術。通俗來講,語音識別就是機器的“耳朵”,在人與機器進行語音交流的時候,讓機器聽得懂人類在說什么的前提。
近幾年,隨著深度學習技術在語音識別的應用,使得語音識別的性能得到了顯著提升,交互場景從生活擴展到企業應用,需求也從識別的速度、精度轉移到一些更加復雜的問題,對語音交互技術提出了更高的要求。
近期,標貝科技語音識別技術3.0版發布升級。經過一年多的算法攻堅,標貝科技研發團隊在前端語音信號處理、聲學模型、解碼方式等各項技術實現全面升級,不僅在準確率及識別速度方面有了明顯提升,而且還實現了快速糾錯和熱詞實時更新等功能,進一步滿足了行業用戶的需求,提升語音識別體驗。
全新技術升級 語音識別更高效
● 語音轉寫識別率極大提升
標貝ASR3.0在conformer端到端模型結構的基礎上創新改進,在建模單元上引入了音節信息,將傳統的GMM-HMM的對齊信息引入到前期訓練中加速收斂,實現了在復雜環境下擁有更好的魯棒性和識別效果。
無論是不同設備錄制、不同網絡傳輸、還是帶有一定噪聲和干擾的語音,都可以實現準確轉寫。在通用場景測試中,標貝ASR3.0準確率絕對提升3%-5%,達到行業領先水平,識別速度提升將近2倍。
● 更靈活高效的解碼方式
標貝ASR3.0在解碼方面借鑒了傳統解碼器對聲學、發音詞典、語言模型的融合方式,通過word networks融合發音詞典的方式構圖,以此來達到語言模型快速優化、降低解碼資源占用的目的。
不同于shallow fusion,標貝ASR3.0解碼器在出詞之前就加入語言模型的分數,進行解碼路徑的擴展,以此達到類似conformer結構中decoder部分的自回歸效果。搜索時采用token passing的方式,能夠輕松滿足產品上對識別結果的衍生需求,比如:時間戳、置信度等功能,為不同領域客戶提供更細粒度的語音識別服務。
● 熱詞及自定義語言模型快速生效
標貝ASR3.0兼顧了熱詞快速生效和自定義語言模型無感知熱更新的功能。對于不同的特殊場景需求,用戶只需要上傳熱詞或者更新一下對應的語言模型即可,以盡量低的成本,提供更加流暢的識別體驗,不影響正常的運行使用。
更多能力加持 助力語音識別加速落地
據中商產業研究院統計,2020年中國智能語音市場規模達到113.96億元,同比增長19.2%,預計2022年中國智能語音市場規模將增長至161.91億元。其中,語音識別作為AI領域最為成熟落地的技術之一,也將繼續加速在各垂直行業的滲透和布局。
作為國內領先的智能語音交互與AI數據服務商,標貝科技深耕語音交互領域多年,在技術創新和數據服務雙輪驅動下,為AI產業打造更精準、更高效的語音識別服務。
針對專業領域應用場景,標貝科技推出“ASR自學習工具”。用戶在語音識別控制臺上傳專有領域或行業積累的文本數據,通過對這些訓練語料做模型訓練,來生成自己的自學習個性化模型和熱詞模型,有效提高專有領域場景下的語音識別準確率。
此外,為滿足不同語種的客戶群體需求,標貝科技語音識別今年在語種豐富度上持續發力。在支持常見中文、英文識別基礎上,開放了粵語、維語兩種方言識別能力。經過長期的打磨訓練和效果調優,目前標貝科技語音識別各語種已廣泛應用于車載語音交互、會議記錄轉寫、視頻字幕、電話錄音質檢等業務場景。
作為新一代智能語音識別引擎,標貝科技ASR3.0已經在官網及開放平臺煥新上線,以優質的性能對外提供AI開放式服務,賦能更多對語音識別有需求的合作伙伴。標貝科技AI語音產品負責人表示:“標貝研發團隊未來仍將繼續打磨技術,讓語音技術在復雜多變的環境里,也能實現自然、流暢的語音交互體驗,為企業提供更加高效、低成本、可定制的解決方案。”