近日,全球語音頂會INTERSPEECH 2020 公布了論文接收結果,云知聲聯合上海師范大學、安徽大學等高校發表多篇論文成功入選。分別在中英文混合語音識別、大詞匯量連續語音識別和多模態虛擬形象生成等領域取得突破,代表著云知聲在語音及多模態交互領域持續的底層技術創新。同時,云知聲也是今年會議的金牌贊助商,致力于加強工業界和學術界的技術協作,支持會議順利舉行。
INTERSPEECH 是世界上規模最大、最全面的頂級語音領域會議,由國際語音通信協會 ISCA(International Speech Communication Association)組織。該會議每年舉辦一次,今年大會是第 21 屆 INTERSPEECH 會議,也是第二次在中國舉辦。本屆會議以“Cognitive Intelligence for Speech Processing”為主題,內容涵蓋信號處理、語音識別、自然語言處理、神經機器翻譯等領域,收到超過 2100 篇投稿論文。會議研究成果代表著語音相關領域的最新研究水平和未來的技術發展趨勢。
作為 INTERSPEECH 會議的一部分,國際語音合成比賽 Blizzard Challenge 2020 研討會將于 10 月 30 日舉行。Blizzard Challenge 是當今全球規模最大、最具影響力的語音合成領域頂尖賽事,在今年的 Blizzard Challenge 比賽中,由云知聲-上海師范大學自然人機交互聯合實驗室申報的系統在強敵環伺的賽場中突出重圍,首次參賽即斬獲中文普通話、上海話多項關鍵指標第一。在 10 月 30 日的研討會上,研究團隊會通過 live online oral presentation 的形式對參賽系統進行詳細解讀,歡迎參與和討論。
中英文混合語音識別
在中英文混合語音識別方向,針對混合語言語音 (code-switching) 場景,研究團隊提出了一個基于Transformer模型的多編碼器-解碼器結構的語碼轉換混合語音識別方案(Multi-Encoder-Decoder Transformer for Code-Switching Speech Recognition),該結構具有兩個對稱的與特定語言相關的編碼器,以捕獲各種語言的特有屬性,從而改善每種語言的深度聲學表示。這些深度表示被進一步在解碼器模塊中使用特定于語言的多頭注意力機制進行有效整合,以最終提升整個端到端識別系統的性能。同時,團隊還使用了大規模單語言語料庫對每個編碼器及其相應的注意力模塊進行了預訓練,旨在減輕語碼轉換訓練數據不足的影響。借助預訓練方式,研究團隊的模型分別在 SEAME 中以中文和英文為主的評估集上達到 16.7% 和 23.1% 的詞錯誤率,刷新了在此數據集上的最好成績,相對之前論文的最佳成績提升了12.5%的性能。
語碼轉換語音實例及多編碼器的輸出
大詞匯量連續語音識別
研究團隊提出了一種新穎的帶深度聲學結構和 Self-and-Mixed 注意力解碼器結構(Self-and-Mixed Attention Decoder with Deep Acoustic Structure for Transformer-based LVCSR),其利用具有深度聲學結構的 Self-and-Mixed 注意力解碼器,以改善基于 Transformer 的大詞匯量連續語音識別的聲學表示。具體來說,研究團隊引入一種自注意力機制,以獲取深層的聲學表征。研究團隊還設計了一種混合注意力機制,該機制可以在共享的特征空間中同時學習不同層次的聲學表征及其對應的語言信息之間的對齊關系。本項研究工作在 AIShell-1 數據集上曾刷新最佳成績,字符錯誤率降低至 5.1%,相對之前的最佳成績提升了 24% 的性能,顯著提升了識別效果。
多模態虛擬形象生成
如何在提高虛擬人面部動作的豐富和自然度,是目前虛擬人生成的熱點問題。研究團隊提出了一種基于面部關鍵點和改進的 GAN 模型的兩級模型生成方案,實現從語音到虛擬人形象的生成,在本方案中,利用面部關鍵點作為語音特征到視頻生成之間的信息表達中介,同時引入 attention 機制,解決在虛擬人生成過程中不同區域因子對視頻效果質量的影響。實驗生成的視頻結果表明本方法保持了豐富的面部細節、精確的嘴部動作和自然的頭動效果。在娛樂應用、擬人化交互等領域有廣泛的應用和落地場景。
人工智能成功的關鍵在應用,而所有應用皆源自底層技術。為不斷拓寬自身基礎能力邊界,云知聲深入布局了語音、語言、視覺圖像、機器翻譯、AI芯片等諸多方向,形成豐富的具備全球領先的原創技術積累,相關研究成果多次在 NIPS、NIST、WMT、ACL 等全球頂會與賽事中得以印證。
本次在 INTERSPEECH 2020 大會上這些原創技術的提出,也將進一步夯實云知聲全棧+硬核的人工智能技術“底座”,提高云知聲在智能語音和多模態人機交互領域的技術領先性,推動人工智能系統以更人性化、高效的方式服務于千行百業,為用戶帶來更好的交互體驗。