無論是會議、訪談錄音的整理,還是各種視頻的字幕制作與語音質(zhì)檢,快速解決各類場景下的音頻轉文字的需求,都離不開音頻文件轉寫服務。
音頻文件轉寫服務,是自動語音識別Automatic Speech Recognition(ASR)技術的一種應用,將長段音頻文件(5小時以內(nèi)或文件大小在2G以下)轉換成文本數(shù)據(jù)。適用于會議轉寫、字幕生成、音頻內(nèi)容分析等場景。
近期,云知聲音頻文件轉寫發(fā)布最新版本。經(jīng)過不斷地努力與算法攻堅,云知聲團隊在前端語音信號處理、聲學模型、解碼方式等各項技術實現(xiàn)全面升級,尤其聲學模型方面,首次使用了基于注意力機制的端到端模型,在準確率方面有了明顯提升;同時,在快速糾錯和熱詞識別等方面也進行了功能優(yōu)化與實時更新,進一步滿足了各使用場景用戶的需求,提升音頻文件轉寫使用體驗。
01全新技術升級 準確率提升超3%
最新的版本中,云知聲的音頻文件轉寫在語音識別技術上采用最先進的AED 端到端系統(tǒng)(Attention-based Encoder Decoder),又創(chuàng)新性的提出了SMAD(Self-and-Mixed attention Decoder)技術,即在解碼中,采用文本和聲學的混合注意力機制,從而得到識別的最優(yōu)結果。
無論是不同設備錄制、不同網(wǎng)絡傳輸、還是帶有一定噪聲和干擾的語音,都可以實現(xiàn)準確轉寫。在通用場景測試中,云知聲準確率絕對提升超3%。達到行業(yè)頂尖水平。這不僅能帶給終端用戶更好的體驗;對開發(fā)者來說,也是一次效率以及質(zhì)量的升級,大大滿足開發(fā)者精0益求精的訴求。
02 更簡單易用 開發(fā)者0成本接入先進語音識別技術
音頻文件轉寫通過 Web API 的方式給開發(fā)者提供通用 HTTP 接口,具備流式傳輸能力和輕量、跨平臺的特點,方便開發(fā)者直接調(diào)用、快速集成。
云知聲作為國內(nèi)頭部的人工智能獨角獸企業(yè),以人工智能語音技術為核心,通過全棧式技術鏈條,為企業(yè)和用戶提供智能語音技術和綜合解決方案。
本次升級只是技術提升,并不改動接口,所以原來對接過云知聲音頻文件轉寫服務的開發(fā)者沒有任何影響。
此外, 我們?yōu)樾陆尤氲拈_發(fā)者準備了免費體驗包,注冊即可認領;實名認證的個人開發(fā)者和企業(yè)開發(fā)者,還可以獲得一大份認證禮包。
新手 3步 集成:
作為新一代智能語音識別引擎,云知聲音頻文件轉寫最新版本已經(jīng)在官網(wǎng)及AI開放平臺煥新上線,以優(yōu)質(zhì)的性能對外提供AI開放式服務,賦能更多對音頻文件轉寫有需求的開發(fā)者與合作伙伴。
未來,團隊會在繼續(xù)打磨技術的基礎上,賦能更多應用場景,加速語音識別技術的快速落地!