讓機器“聽懂”人類語言,是“語音識別”技術自誕生起,就一直致力的目標。
自20世紀中葉以來,經過近70年的發展,特別是隨著深度學習技術的引入,自動語音識別已取得突破性進展——在標準口音、常見詞匯、安靜環境的應用場景下,機器已然具備接近人類的“聽覺”能力。
然而,一旦面臨口音、方言等情境,AI便顯得有些“力不從心”,哪怕你一字一句盡力向智能設備發出清晰的指令,得到的回答仍可能是:“對不起,我好像不明白你在說什么……”
語音識別技術發展的終極目標,是實現自然、順暢的“人機交互”,正如同人與人的交互。如何解決橫亙在當下的這道難題,抵達人類暢想的智能未來,已成為全球智能語音技術公司共同面對的挑戰。
全世界的AI,都栽在了“口音”上?
口音、方言等問題,困擾著幾乎全世界所有的智能語音助手。
2018年,《華盛頓郵報》曾與Globalme、Pulse Labs兩家語言研究公司合作,研究智能音箱的口音識別問題,結果顯示,谷歌智能音箱Google Home更容易“聽懂”美國西岸口音,對南部口音的識別準確率則要低3%;而亞馬遜Echo搭載的語音助手Alexa,識別東岸口音的準確率要比中西部口音高2%。
更大的問題還在于對非本土口音的識別。研究顯示,對于非英語母語者,比如以西班牙語或漢語作為第一語言的人所說的英文,不論是Google Home還是Amazon Echo,其識別準確率都要比美國本土口音低30%,而拉丁裔和華裔是美國的兩大移民族群。
這項研究結果引起了人們對智能語音助手“地域歧視”問題的廣泛關注。實際上,不只是Google Home和Amazon Echo,市場上主流的智能語音設備,在應對方言、口音等非標準語言場景時,表現都差強人意。
在中國市場,這個問題同樣凸顯。
所謂“十里不同音,百里不同俗”。作為一個幅員遼闊的多民族國家,我國56個民族使用的語言分屬五大語系,共有80種以上語言。其中,漢語的使用人數最多,分為標準語(普通話)和方言。
根據教育部2019年發布的《中國語言文字概況》,漢語方言通常分為十大方言,各方言區內,又分布著若干次方言和許多種土語。部分方言之間差異很大,無法通話。為了消除語言隔閡,國家在全社會大力推廣普通話。然而,來自天南海北的人們,又賦予普通話五花八門的口音。
帶有鮮明地域特色的口音,雖然對于人們的日常交流無傷大雅,有時還帶來些“塑料普通話”的樂趣,但你的智能語音助手就樂不起來了,甚至在它聽來,你說的極有可能是另一門語言……
與此同時,用戶也很惱火:“難道普通話不過一級乙等,我就不配擁有智能音箱?!”
口音、方言識別,到底難在哪兒?
從理論上來說,只要有足夠的數據供機器進行訓練,那么讓AI識別任何一種語言或口音,都不是問題。
以人機交互為目的的語音識別,是一個把聲學信號轉化為文本信息的過程。目前主流的語音識別框架主要由三個部分組成:聲學模型(AM)、語言模型(LM)和解碼器??梢孕蜗蟮乩斫鉃椋郝晫W模型負責找到對應的拼音,語言模型負責找到對應的句子。
要得到一個出色的語音識別模型,需要有大量標注數據的訓練,簡單來說:首先,要進行語音內容的采集;其次,需要人工對這些語音進行標注,將語音內容轉寫成文本,讓算法能夠識別它;之后,算法再將識別后的文本內容與對應的音頻進行邏輯關聯。經過這樣大量、反復的學習訓練之后,機器就能實現語音識別了。
“對于方言、口音的識別來說,最難的部分是在于語音數據的采集。”百度智能云數據眾包項目專家曹靜文表示。
2019年9月,百度數據眾包團隊曾執行過一個藏語方言語音采集的項目。客戶為了提升藏語方言的識別和翻譯準確率,與百度團隊合作,招募870位藏民,整體采集87萬條藏語語音,覆蓋安多、康巴、衛藏等三個藏語方言區。
藏語與漢語同屬漢藏語系,但與漢語這樣資源豐富的語言不同,藏語屬于低資源語言,目前全世界約有800萬人使用藏語,訓練數據稀少。
曹靜文介紹,藏區采集工作面臨安全風險大、質檢難度高等挑戰。整個項目過程涉及諸多環節,從按需定制采集方案,到采集布點、人員招募、培訓、隱私授權,再到對采集流程、進度和項目風險進行把控,最后經過多輪質檢,在數據核驗通過后,才能最終交付確認。
百度團隊在第一時間聯系到當地的資源布點,并派遣項目經理前往西藏、青海等地指導采集。最終該項目用時一個半月,實際交付數據92萬條,驗收合格率高于95%,滿足交付要求。
“這個過程往往成本高昂、流程繁瑣,還存在諸多門檻。”曹靜文表示。
應對“數據稀缺”,眾包模式受青睞
語料庫的質量越高,語言模型越豐富,語音識別的準確率就越高。如何獲取大量訓練數據,就成為AI在口音、方言及低資源語言的識別上,面臨的關鍵問題。
全球各大AI巨頭和前沿的科技公司,都在積極致力于解決這個問題。
一方面,對于投入市場的智能語音產品來說,隨著越來越多擁有不同口音的用戶與其進行交流,訓練數據持續積累,語音助手的識別能力會不斷提升。另一方面,在自身語音數據集的擴充上,一些公司也在嘗試采取各種“眾包模式”。
“眾包”是一種分布式的問題解決和生產模式,企業通過互聯網,以自由自愿的形式,將工作分配給外部的大眾群體。
比如,谷歌、亞馬遜等科技巨頭,以游戲的形式鼓勵用戶使用不同地區的方言進行交談;國內智能語音企業科大訊飛推出“方言保護計劃”,鼓勵用戶“留下鄉音”,共建“中國方言庫”;一些機構和企業呼吁齊力“獻聲”,打破巨頭公司的數據壟斷,建立開源開放的語音數據集等。
這些方式實際上都是以眾包模式,獲取大量的語音訓練數據。
“眾包模式的優勢在于,可以低成本、高效率地整合資源。”曹靜文表示。
2019年底,百度數據眾包團隊承接了一項海外英文語音采集項目。某手機廠商為了提升海外各國英文喚醒詞的識別率,需要采集海外不同地域用戶的英文語音,包括亞太地區口音、英式口音、美式口音、印式口音及阿拉伯口音,需招募2000人,總數據量為20萬條。
“這個項目的難點在于,要求采集的用戶口音遍布多國,交付時間短,且對用戶的性別、年齡段要求嚴格。”曹靜文說,“但我們通過百度覆蓋全國及全球22個國家的資源池,在短時間內招募到了全球多種口音用戶參與采集。”
項目執行期間,恰逢春節假期和突發的新冠疫情,百度團隊通過國內線上和國外線下的采集方式,執行布點覆蓋9個國家,用時45天,按照客戶要求完成了全部數據交付。
實踐證明,眾包模式的確是完善語音數據庫的一條有效路徑。
但光有數據庫的支持還不夠。要提高某種語言的識別準確率,還需要對該語言的文化、語素、音素等有相當的研究。因此,要實現方言、口音的準確識別,也需要方言學者、音韻學者等專業人士的深度參與。
此外,另一個現實情況是,一些方言和低資源語言,很難提供充足的數據資源以供采集。這種情況下,探索如何通過遷移學習,用較少數據量得到一個好的聲學模型,就成為當前一個熱門且極具價值的研究方向。