“小愛同學,明天早上7點叫我起床”
“小度小度,來點輕松的音樂吧”
“天貓精靈,播放適合5歲孩子的故事”
大家熟悉的這些智能家居產品,背后都有語音技術的身影。
作為人工智能技術中的一個重要分支,語音技術讓計算機能夠理解和生成人類的語音,實現與人類自然、流暢、高效的交互,旗下有語音識別(ASR)、語義理解(NLP)、語音合成(TTS)等多個子類別,在智能客服、智能教育、智能家居、車聯網等多個場景中展現出巨大的價值和潛力。
近期,專注于探討語音技術熱點難點問題的國際頂級語音會議 ASRU2023 公布論文入選結果,網易云商關于“加速CTC語音識別模型推理”的論文被大會錄用,展現了網易云商突破技術難題的決心和實力。
據悉,ASRU研討會是IEEE語音和語言處理技術委員會(SLTC)的旗艦技術活動,每兩年舉辦一次,匯集了來自學術界和工業界的頂級專家和研究人員,共同探討廣泛的語音識別與理解問題,是語音與語言處理學術圈的頂會。
在這樣一個極具影響力的技術頂會中脫穎而出,網易云商的這篇論文有何獨特之處?解決了什么關鍵問題?讓我們來一探究竟。
“目前主流的 ASR 模型都需要很大的 Encoder(編碼器)來對語音序列信號進行建模,這在提升識別準確率的同時,也帶來了極大的計算量。我們在論文中提出了一種新的語音識別模型推理方案,把 CTC(Connectionist Temporal Classification,一種序列建模算法,用于在語音識別,手寫識別和其他序列問題中訓練深度神經網絡的算法) 引入到編碼模塊,根據 CTC 的輸出概率動態調整編碼過程”,論文作者侯同學介紹了論文的研究背景和方向。
看到這里,你可能覺得有點深奧。讓小編用大白話來“翻譯”一下。
語音識別的整個過程,簡單粗暴可以分為四步:語音輸入——編碼——解碼——輸出。拿我們熟悉的微信語音轉文字場景為例,輸入一段語音,先要經過編碼(將原始語音信號轉換為數字表示,以便計算機可以對其進行處理和分析),然后進行解碼(將數字表示的語音信號轉換為模擬語音信號),最后輸出文字結果。
在編碼環節,為了將原始的語音信號轉換為代碼,需要借助 Encoder 進行建模和識別。以一句“你好”為例,短短的兩個漢字,對應的序列長度就有近200幀(語音中一幀一般為20-50毫秒),這個過程帶來了龐大的計算量和部署成本。
針對困擾行業的此問題,網易云商AI技術組開展深入研究。先通過使用 CTC 來標識每一幀是否是空白幀,隨后,逐幀動態決定 Encoder 的層數,對于空白幀僅使用 Encoder 的一部分層建模,其他關鍵幀則使用整個 Encoder 建模。
用一種更靈活的方式,更簡化的模型,加速了模型推理速度,降低了計算量和部署成本。實驗結果表明,網易云商提出的這種方式,可以在保證識別效果基本不變的情況下,將模型的推理速度提升29%。這大大提升了 ASR 服務的性價比。
多年來,網易云商一直在AI語音技術領域不斷探索,深入研究,并應用在網易云商旗下智能外呼、智能質檢、呼叫中心、呼入機器人、坐席輔助等產品中,為企業用戶帶去高性價比、高效率、有溫度的智能語音解決方案,在服務和營銷場景大放異彩。
某主打國戰玩法的魔幻題材 MMORPG 手游,公測至今已經 5 年,游戲運營團隊主要采用常規的短信方式進行流失召回,單用戶平均回流成本通常在 11-13 元左右?,F在,他們希望找到成本更低、效率更高的方式。
運營團隊選取了流失 4 年內的付費用戶,以新服回歸活動(送代幣、坐騎、時裝、抽取法寶)為利益點,采用網易云商提供的智能外呼方案進行大批量的召回,最終回流率達到 7.8%,單用戶平均回流成本僅 2.8 元,流召活動整體 ROI 達到 15 倍。
語音技術在日常生活和生產應用中扮演著越來越重要的角色,網易云商將持續探索,攻堅克難,加速AI創新。