(全球語音研究領域頂級會議INTERSPEECH2020)
近日,全球語音研究領域頂級會議INTERSPEECH2020召開,值得一提的是,其中利用口語自動識別阿爾茨海默癥的競賽吸引了包括MIT、首爾大學、德國人工智能研究中心等全球34支隊伍參賽;百度研究院89.6%的準確率超越MIT等世界頂級對手,以第一名的成績摘得桂冠。據了解,百度研究院在競賽中基于百度知識增強語義理解技術與平臺ERNIE做出創新,其模型效果比谷歌BERT更好。百度研究院此次奪冠,不僅為阿爾茨海默癥這一廣泛存在的頑疾提供了早期診斷的更多可能性,同時也證明了語言模型乃至人工智能在醫療領域的重要價值,為行業實現“AI+醫療”提供了全新的范例和思路。
(INTERSPEECH2020百度研究院奪魁阿爾茨海默癥的競賽)
阿爾茨海默癥即所謂的“老年癡呆”,這是一種起病隱匿的進行性發展的神經系統退行性疾病,患者會出現記憶障礙、失語、失用、失認、執行功能障礙以及人格和行為改變等全面性癡呆癥狀。隨著老齡化社會到來,愈多的家庭深受阿爾茨海默癥困擾,嚴重降低老年人的生活質量。醫學界認為,阿爾茨海默癥的早期診斷非常重要,及時的干預和治療可以延緩疾病的發展甚至治愈。
INTERSPEECH是由國際語音通信協會ISCA組織的語音研究領域的頂級會議之一,此次大會正聚焦于阿爾茨海默癥舉辦識別競賽,探索用AI在早期來識別和診斷阿爾茨海默病情的可能性。其中,百度研究院提出的方法是利用語言中的停頓信息,用包含停頓編碼的語音轉寫對Transformer語言模型進行微調,并對多次微調結果做多數表決。
經研究,停頓是阿爾茨海默癥的一個重要特征。停頓信息不僅包括停頓的時長和頻率,同時還包括停頓出現的位置,比如哪兩個詞之間或者哪種句法結構中出現停頓。基于此,百度研究院的研究表明在轉寫中加入停頓編碼,利用Transformer語言模型中的注意力機制學習數據中的停頓信息,可有效識別阿爾茨海默癥。
(圖1:停頓編碼的流程)
在競賽過程中,百度研究院首先是對語音和轉寫做強制對齊,根據強制對齊得到的停頓時長對停頓進行編碼。在嘗試了兩種編碼,分別包括三種停頓(3p: <0.5s, 0.5-2s, >2s)和六種停頓(6p: <0.5s, 0.5-1s, 1-2s, 2-3s, 3-4s, >4s)之后,百度研究院再在轉寫中加入這些編碼,如上圖所示。
(圖2:微調的流程)
第二步,百度研究院將識別阿爾茨海默癥作為語言模型的一個下游任務,用包含停頓編碼的轉寫對預訓練的語言模型BERT和ERNIE進行微調,其流程見上圖;最后發現,通過微調預訓練模型得到的分類結果有較大的不穩定性。為克服這一問題,百度研究院又采用了多次微調并對結果做多數表決,有效提高了算法的穩定性和準確率。
此次對阿爾茨海默癥停頓特征的研究工作中,百度ERNIE做出了巨大貢獻;基于ERNIE,百度研究院算法的識別準確率得到了有效提升。結果(下表)顯示結合停頓編碼和百度ERNIE語言模型得到的準確率最高,優于只使用轉寫(0p,不包含停頓),也優于BERT語言模型。
(表1:在測試集上的結果)
百度文心(ERNIE)是依托百度深度學習平臺飛槳打造的語義理解技術與平臺,集先進的預訓練模型、全面的NLP算法集、端到端開發套件和平臺化服務于一體,為企業和開發者提供一整套NLP定制與應用能力;其中ERNIE預訓練模型開創性地將大數據預訓練與多源豐富知識相結合,通過持續學習技術,不斷吸收海量文本數據中詞匯、結構、語義等方面的新知識,實現模型效果不斷進化,如同人類持續學習一樣。并且百度還將此項世界領先的NLP技術成果開放給業界,降低了NLP技術的準入門檻,讓各大產業都能快速擁有構建和應用文本智能的能力,為產業智能化提供了全新的加速度。
如今,文心(ERNIE)已廣泛應用于搜索引擎、信息流、智能音箱等互聯網產品中,同時也在金融、電商、媒體、教育等行業中落地,成為推動產業智能化轉型的利器。在2020世界人工智能大會上,百度文心(ERNIE)還榮獲了最高獎項SAIL獎(Super AI Leader,卓越人工智能引領者)。百度人工智能技術在阿爾茨海默癥早期識別和診斷上的應用,既體現了“科技為更好”的核心理念,助力人們享受幸福生活,也證明了人工智能技術向不同領域延伸的巨大價值。