人類對機器語音識別的探索始于20世紀50年代,迄今已逾70年。2016年,在深度神經網絡的幫助下,機器語音識別準確率第一次達到人類水平,意味著智能語音技術落地期到來。
智能語音即實現人與機器以語言為紐帶的通信。完整的人機對話包括聲音信號的前端處理、將聲音轉為文字供機器處理、在機器生成語言之后,用語音合成技術將文本語言轉化為聲波,從而形成完整的人機語音交互。
目前,智能語音已廣泛應用于智能手機、智能音箱、智能車載等場景。
圖源《2020年中國智能語音行業研究報告》
在這些智能應用實現的背后,是數據對模型的訓練發揮的巨大推動作用。目前,主流的深度學習方式以有監督學習模式為主。在該模式下,算法訓練需要依靠標注數據對學習結果進行反饋,對于數據有著強依賴性需求,這也帶動了AI基礎數據服務行業的繁榮。
作為AI數據采集標注服務頭部企業,云測數據致力于為人工智能提供場景化、高質量的AI數據服務。通過嚴格控制前端采集標準、專業精準化標注、數據質量審核把控等流程,大幅提升AI數據交付質量與效率。
1、云測數據擁有語音場景的還原搭建能力
隨著智能語音應用在多個垂直場景領域實現落地,人工智能對于場景化數據的需求量也越來越高。
云測數據的“場景化”服務模式,可以在語音類型的數據采集上滿足特定人物(年紀、性別等)、特定場景(家居、辦公、商業等)、不同方言的聲音/文本數據采集;在數據標注上進行需求的梳理,通過先進的標注平臺工具根據規則性的規范指導(如:同樣一句話在不同交流目的中可能需要標注不同的內容)進行標注作業。
以目前廣泛應用的語音助手為例,為了提高語音助手在不同場景下的識別能力,需要采集特殊場景下語音數據,比如“室外對話”、“室內對話”、“情感語音”、“嘈雜環境下對話”、“ 車載噪音”、“ 遠場語音”等場景下的數據,這對數據服務企業的語音場景搭建能力提出了新的要求。
2、云測數據擁有豐富的語音數據備采資源
從業務流程角度來看,數據采集是人工智能數據服務行業全流程服務中的“第一步”,純凈、貼合AI應用場景的數據源可解決數據訓練中90%的問題,之后將這些非結構化的數據經過精準的標注,才能被用于機器學習訓練。
以云測數據為例我們了解到,單是語音采集,按照語種的不同,可細分為普通話采集、方言采集、英語采集、小語種采集等,這對數據采集服務企業的備采資源能力提出了極高的要求。
3、云測數據擁有對語音數據預處理的能力
為了產出更專業高效的語音數據,在語音等類型的數據生產過程中,云測數據通過嚴格的條件限制從根源上確保數據的質量。
如在音頻類數據采集工具中的設置:
·靜默時長:開始錄音前后保留靜音區域
·底噪:環境的嘈雜程度
·錄音音量:錄音音量的小大
·其他:不允許出現多字/少字
云測數據在進行語音采集時,會通過自動檢測靜默時長、底噪、錄音音量等條件,對數據的質量進行嚴格控制,不滿足錄制要求的數據不允許通過。
4、云測數據擁有專業領域知識積累,可進行更精準的標注
以智能客服業務場景為例,當客服詢問用戶是否購買此商品時,各種用戶會給出不同回答:“我要和家人商量一下”;“我會考慮”;“我現在不方便,你一會兒再打過來”等等,背后的意圖有很多種,可能是暫不購買,暫不考慮,拒絕購買或者興趣較大。那么,語音數據標注就需要對這些對話背后的意圖進行標注和分類。
在云測數據,以智能客服單個場景的意圖標注,就分為10-20個大類,上百個子類,根據業務需求可能還會有進一步的標注細分。除了對語音數據進行對話意圖標注之外,語音數據的標注還包含對領域、槽位的識別標注、多角度泛化等。
從整體看來,目前智能語音應用整體還處于的發展中階段,并不算真正意義上的“智能”。 隨著技術的不斷突破,智能語音將更加深入垂直場景,若想提高人們對智能語音相關應用的依賴和認可,首先要解決的就是人機交互的流暢性,而核心解決辦法正是更高質量的AI訓練數據。
但可以肯定的是,未來搭載更多、更成熟AI技術的智能語音應用將更加人性化,真正成為智能生活中的語音助手。