一直引領行業創新的百度大腦語音技術又迎新突破。7月3日下午,“Baidu Create 2019”百度AI開發者大會·百度大腦論壇召開。百度語音技術部高級總監高亮,為大家詳解了上午主論壇中百度首席技術官王海峰發布的智能語音芯片——百度鴻鵠,這是繼去年昆侖芯片發布后芯片層面又一新進展。全球領先的語音識別模型SMLTA,以及可實現風格遷移的語音合成技術Meitron同樣吸睛,百度大腦語音技術再次交出亮眼成績單。
在語音識別算法方面,高亮首先介紹了流式多級的截斷注意力模型SMLTA。據悉,百度在傳統的注意力模型基礎上,創新性地采用了第二代深度尖峰技術,對整句語音進行動態截斷,變為一段一段的流式識別。在此基礎上,百度還使用了多級注意力模型來進一步提高精度。這不僅是國際上首次實現局部注意力建模性能超越整句注意力建模,更是國際上首次在線語音識別系統大規模使用注意力模型。
熱門綜藝節目《向往的生活》中,“古靈精怪”的小度智能音箱與嘉賓們對答如流的交談情景,相信很多人都仍然歷歷在目,而這背后正有SMLTA語音模型的加持。據高亮介紹,目前SMLTA語音模型已在百度輸入法和小度智能音箱兩款產品上線,使得識別準確率分別提升15%和20%。
語音合成領域,針對現階段面臨韻律遷移、音色模擬和情感擬人的三大挑戰,百度大腦推出語音合成技術Meitron,可以將語音中的音色、韻律、情感等要素映射到不同的子空間,在使用時,不同要素可以任意組合,靈活的控制合成語音的風格。同時降低語音合成門檻,僅需20句話就可以制作一個人的專屬聲音。
MEITRON風格遷移技術的特點主要體現在音色轉換,多情感朗讀和韻律遷移三個方面,多情感朗讀是指通過MEITRON技術,合成的語音可以注入不同的情感,韻律遷移是指同一個人的聲音可以講出不同風格的文本,音色轉換是指可以用少量語音就可以合成一個人的專屬音庫。因此,語音合成效果變得更加逼真、豐富,用戶體驗也得到了提升。在今年的5月份,基于百度大腦的這一技術,百度大腦智能語音技術合成了一位已故老排長的聲音,讓消逝的聲音重現世間,抗戰老兵們在分別64年后首次實現了“重逢”,在建國70周年之際,為老一代抗戰老兵送去了一份最好的禮物。
尋技術突破,立鴻鵠之志。百度大腦推出的首款智能語音芯片——百度鴻鵠受到極大關注。“我們希望做一款超低功耗、超低成本、超高精度的芯片,能夠賦予我們的智能設備語音的功能,同時又能把成本降到最低,這是我們的目標。”百度語音技術部高級總監高亮表示。正因如此,鴻鵠芯片的設計,變革傳統芯片設計方法,遵循“軟件定義芯片”的全新設計思路。該芯片采用雙核HiFi4架構,自定義指令集,超大內存,臺積電40nm工藝,在此硬件規格上,100mw左右平均工作功耗,即可支持遠場語音交互核心的陣列信號處理和語音喚醒能力。
百度鴻鵠芯片在業內擁有不俗的競爭力。首先,鴻鵠芯片指令集都是自定義的,百度擁有完整的知識產權,并針對百度大腦語音算法特別優化。定義芯片級AI指令集,這無疑是長期競爭力的有效保證。其次,百度鴻鵠芯片與百度遠場智能語音解決方案協同統一,百度最新的信號處理、喚醒和識別技術創新,如Deep Peak和Deep CNN喚醒,模型波束等最新算法都在芯片中實現能力下沉。另外,百度鴻鵠芯片是車規標準設計的,無論是在智能硬件上,還是在汽車上,都留有非常大的想象空間。
百度鴻鵠在應用場景中可實現三大方面的邊緣計算能力,包括支持多達六路麥克風陣列語音信號輸入、回聲消除、聲源定位等的陣列信號處理能力;集成Deep Peak和Deep CNN領先算法并可自定義喚醒詞的語音喚醒能力;并支持離線語音識別功能等。
核心算法的創新突破、芯片的全新發布,都讓百度大腦語音技術逐漸具備邁向AI大生產時代的能力,讓AI技術賦能更多場景,以技術之力改變人們的生活、服務人們的生活。百度大腦5.0,正在通過不斷的技術創新和突破,讓每一位開發者都能平等便捷地獲取AI能力,加速產業智能化。