語(yǔ)音識(shí)別是一門(mén)綜合性學(xué)科,涉及的領(lǐng)域非常廣泛,包括聲學(xué)、語(yǔ)音學(xué)、語(yǔ)言學(xué)、信號(hào)處理、概率統(tǒng)計(jì)、信息論、模式識(shí)別和深度學(xué)習(xí)等。語(yǔ)音識(shí)別的基礎(chǔ)理論包括語(yǔ)音的產(chǎn)生和感知過(guò)程、語(yǔ)音信號(hào)基礎(chǔ)知識(shí)、語(yǔ)音特征提取等,關(guān)鍵技術(shù)包括高斯混合模型 ( Gaussian Mixture Model,GMM )、隱馬爾可夫模型 ( Hidden Markov Model,HMM )、深度神經(jīng)網(wǎng)絡(luò) ( Deep Neural Network,DNN ),以及基于這些模型形成的GMM-HMM、DNN-HMM和端到端 ( End-to-End,E2E ) 系統(tǒng)。語(yǔ)言模型和解碼器也非常關(guān)鍵,直接影響語(yǔ)音識(shí)別實(shí)際應(yīng)用的效果。
為了讓讀者更好地理解語(yǔ)音信號(hào)的特性,接下來(lái)我們首先介紹語(yǔ)音的產(chǎn)生和感知機(jī)制。
01
語(yǔ)音的產(chǎn)生和感知
如圖1-1所示,人的發(fā)音器官包括:肺、氣管、聲帶、喉、咽、鼻腔、口腔和唇。肺部產(chǎn)生的氣流沖擊聲帶,產(chǎn)生振動(dòng)。聲帶每開(kāi)啟和閉合一次的時(shí)間是一個(gè)基音周期 ( Pitch period ) T,其倒數(shù)為基音頻率 ( F0=1/T,基頻 ),范圍在70Hz~450Hz。基頻越高,聲音越尖細(xì),如小孩的聲音比大人尖,就是因?yàn)槠浠l更高。基頻隨時(shí)間的變化,也反映聲調(diào)的變化。

圖1-1 人的發(fā)音器官[37]
聲道主要由口腔和鼻腔組成,它是對(duì)發(fā)音起重要作用的器官,氣流在聲道會(huì)產(chǎn)生共振。前五個(gè)共振峰頻率 ( F1、F2、F3、F4和F5 ),反映了聲道的主要特征。共振峰的位置、帶寬和幅度決定元音音色,改變聲道形狀可改變共振峰,改變音色。
語(yǔ)音可分為濁音和清音,其中濁音是由聲帶振動(dòng)并激勵(lì)聲道而得到的語(yǔ)音,清音是由氣流高速?zèng)_過(guò)某處收縮的聲道所產(chǎn)生的語(yǔ)音。
語(yǔ)音的產(chǎn)生過(guò)程可進(jìn)一步抽象成如圖1-2所示的激勵(lì)模型,包含激勵(lì)源和聲道部分。在激勵(lì)源部分,沖擊序列發(fā)生器以基音周期產(chǎn)生周期性信號(hào),經(jīng)過(guò)聲帶振動(dòng),相當(dāng)于經(jīng)過(guò)聲門(mén)波模型,肺部氣流大小相當(dāng)于振幅;隨機(jī)噪聲發(fā)生器產(chǎn)生非周期信號(hào)。聲道模型模擬口腔、鼻腔等聲道器官,最后產(chǎn)生語(yǔ)音信號(hào)。我們要發(fā)濁音時(shí),聲帶振動(dòng)形成準(zhǔn)周期的沖擊序列。發(fā)清音時(shí),聲帶松弛,相當(dāng)于發(fā)出一個(gè)隨機(jī)噪聲。

圖1-2 產(chǎn)生語(yǔ)音的激勵(lì)模型
如圖1-3所示,人耳是聲音的感知器官,分為外耳、中耳和內(nèi)耳三部分。外耳的作用包括聲源的定位和聲音的放大。
外耳包含耳翼和外耳道,耳翼的作用是保護(hù)耳孔,并具有定向作用。外耳道同其他管道一樣也有共振頻率,大約是3400 Hz。鼓膜位于外耳道內(nèi)端,聲音的振動(dòng)通過(guò)鼓膜傳到內(nèi)耳。中耳由三塊聽(tīng)小骨組成,作用包括放大聲壓和保護(hù)內(nèi)耳。中耳通過(guò)咽鼓管與鼻腔相通,其作用是調(diào)節(jié)中耳壓力。內(nèi)耳的耳蝸實(shí)現(xiàn)聲振動(dòng)到神經(jīng)沖動(dòng)的轉(zhuǎn)換,并傳遞到大腦。

圖1-3 聲音的感知器官[37]
正常人耳能感知的頻率范圍為20 Hz~20 kHz,強(qiáng)度范圍為0 dB~120 dB。人耳對(duì)不同頻率的感知程度是不同的。音調(diào)是人耳對(duì)不同頻率聲音的一種主觀感覺(jué),單位為mel。mel頻率與在1kHz以下的頻率近似成線性正比關(guān)系,與1kHz以上的頻率成對(duì)數(shù)正比關(guān)系。
02
語(yǔ)音識(shí)別過(guò)程
人耳接收到聲音后,經(jīng)過(guò)神經(jīng)傳導(dǎo)到大腦分析,判斷聲音類型,并進(jìn)一步分辨可能的發(fā)音內(nèi)容。人的大腦從嬰兒出生開(kāi)始,就不斷在學(xué)習(xí)外界的聲音,經(jīng)過(guò)長(zhǎng)時(shí)間的潛移默化,最終才聽(tīng)懂人類的語(yǔ)言。機(jī)器跟人一樣,也需要學(xué)習(xí)語(yǔ)言的共性和發(fā)音的規(guī)律,才能進(jìn)行語(yǔ)音識(shí)別。
音素 ( phone ) 是構(gòu)成語(yǔ)音的最小單位。英語(yǔ)中有48個(gè)音素 ( 20個(gè)元音和28個(gè)輔音 )。采用元音和輔音來(lái)分類,漢語(yǔ)普通話有32個(gè)音素,包括元音10個(gè),輔音22個(gè)。
但普通話的韻母很多是復(fù)韻母,不是簡(jiǎn)單的元音,因此拼音一般分為聲母 ( initial ) 和韻母 ( final )。漢語(yǔ)中原來(lái)有21個(gè)聲母和36個(gè)韻母,經(jīng)過(guò)擴(kuò)充 ( 增加a o e y w v ) 和調(diào)整后,包含27個(gè)聲母和38個(gè)韻母 ( 不帶聲調(diào) ) ,如表1-1所示。
表1-1 普通話的聲母和韻母 ( 不帶聲調(diào) ) 分類表

音節(jié) ( syllable ) 是聽(tīng)覺(jué)能感受到的最自然的語(yǔ)音單位,由一個(gè)或多個(gè)音素按一定的規(guī)律組合而成。英語(yǔ)音節(jié)可單獨(dú)由一個(gè)元音構(gòu)成,也可由一個(gè)元音和一個(gè)或多個(gè)輔音構(gòu)成。漢語(yǔ)的音節(jié)由聲母、韻母和音調(diào)構(gòu)成,其中音調(diào)信息包含在韻母中。所以,漢語(yǔ)音節(jié)結(jié)構(gòu)可以簡(jiǎn)化為:聲母+韻母。
漢語(yǔ)中有409個(gè)無(wú)調(diào)音節(jié),約1300個(gè)有調(diào)音節(jié)。
漢字與漢語(yǔ)音節(jié)并不是一一對(duì)應(yīng)的。一個(gè)漢字可以對(duì)應(yīng)多個(gè)音節(jié),一個(gè)音節(jié)可對(duì)應(yīng)多個(gè)漢字,例如:
和 —— hé hè huó huò hú
tián —— 填 甜
語(yǔ)音識(shí)別過(guò)程是個(gè)復(fù)雜的過(guò)程,但其最終任務(wù)歸結(jié)為,找到對(duì)應(yīng)觀察值序列O的最可能的詞序列W^。按貝葉斯準(zhǔn)則轉(zhuǎn)化為:

其中,P(O)與P(W)沒(méi)有關(guān)系,可認(rèn)為是常量,因此P(W|O)的最大值可轉(zhuǎn)換為P(O|W)和P(W)兩項(xiàng)乘積的最大值,第一項(xiàng)P(O|W)由聲學(xué)模型決定,第二項(xiàng)P(W)由語(yǔ)言模型決定。
圖1-4所示是典型的語(yǔ)音識(shí)別過(guò)程。為了讓機(jī)器識(shí)別語(yǔ)音,首先提取聲學(xué)特征,然后通過(guò)解碼器得到狀態(tài)序列,并轉(zhuǎn)換為對(duì)應(yīng)的識(shí)別單元。一般是通過(guò)詞典將音素序列 ( 如普通話的聲母和韻母 ),轉(zhuǎn)換為詞序列,然后用語(yǔ)言模型規(guī)整約束,最后得到句子識(shí)別結(jié)果。
例如,對(duì)"今天天氣很好"進(jìn)行詞序列、音素序列、狀態(tài)序列的分解,并和觀察值序列對(duì)應(yīng),如圖1-5所示。其中每個(gè)音素對(duì)應(yīng)一個(gè)HMM,并且其發(fā)射狀態(tài) ( 深色 ) 對(duì)應(yīng)多幀觀察值。
從圖1-5中可看出,人的發(fā)音包含雙重隨機(jī)過(guò)程,即說(shuō)什么不確定,怎么說(shuō)也不確定,很難用簡(jiǎn)單的模板匹配技術(shù)來(lái)識(shí)別。更合適的方法是用HMM這種統(tǒng)計(jì)模型來(lái)刻畫(huà)雙重隨機(jī)過(guò)程。
我們來(lái)看一個(gè)簡(jiǎn)單的例子,假設(shè)詞典包含:
今天 j in1 t ian1

圖1-4 語(yǔ)音識(shí)別過(guò)程
則"今天"的詞HMM由"j"、"in1"、"t"和"ian1"四個(gè)音素HMM串接而成,形成一個(gè)完整的模型以進(jìn)行解碼識(shí)別。這個(gè)解碼過(guò)程可以找出每個(gè)音素的邊界信息,即每個(gè)音素 ( 包括狀態(tài) ) 對(duì)應(yīng)哪些觀察值 ( 特征向量 ),均可以匹配出來(lái)。音素狀態(tài)與觀察值之間的匹配關(guān)系用概率值衡量,可以用高斯分布或DNN來(lái)描述。

圖1-5 從句子到狀態(tài)序列的分解過(guò)程
語(yǔ)音識(shí)別任務(wù)有簡(jiǎn)單的孤立詞識(shí)別,也有復(fù)雜的連續(xù)語(yǔ)音識(shí)別,工業(yè)應(yīng)用普遍要求大詞匯量連續(xù)語(yǔ)音識(shí)別 ( LVCSR )。圖1-6所示是主流的語(yǔ)音識(shí)別系統(tǒng)框架。對(duì)輸入的語(yǔ)音提取聲學(xué)特征后,得到一序列的觀察值向量,再將它們送到解碼器識(shí)別,最后得到識(shí)別結(jié)果。解碼器一般是基于聲學(xué)模型、語(yǔ)言模型和發(fā)音詞典等知識(shí)源來(lái)識(shí)別的,這些知識(shí)源可以在識(shí)別過(guò)程中動(dòng)態(tài)加載,也可以預(yù)先編譯成統(tǒng)一的靜態(tài)網(wǎng)絡(luò),在識(shí)別前一次性加載。發(fā)音詞典要事先設(shè)計(jì)好,而聲學(xué)模型需要由大批量的語(yǔ)音數(shù)據(jù) ( 涉及各地口音、不同年齡、性別、語(yǔ)速等方面 ) 訓(xùn)練而成,語(yǔ)言模型則由各種文本語(yǔ)料訓(xùn)練而成。為保證識(shí)別效果,每個(gè)部分都需要精細(xì)的調(diào)優(yōu),因此對(duì)系統(tǒng)研發(fā)人員的專業(yè)背景有較高的要求。

圖1-6 主流的語(yǔ)音識(shí)別系統(tǒng)框架
03
語(yǔ)音識(shí)別發(fā)展歷史
羅馬城不是一天建成的,語(yǔ)音識(shí)別近些年的爆發(fā)也并非一朝一夕可以做到的,而是經(jīng)過(guò)了一段漫長(zhǎng)的發(fā)展歷程。從最初的語(yǔ)音識(shí)別雛形,到高達(dá)90%以上準(zhǔn)確率的現(xiàn)在,經(jīng)過(guò)了大約100年的時(shí)間。在電子計(jì)算機(jī)被發(fā)明之前的20世紀(jì)20年代,生產(chǎn)的一種叫作"Radio Rex"的玩具狗被認(rèn)為是世界上最早的語(yǔ)音識(shí)別器。每當(dāng)有人喊出"Rex"這個(gè)詞時(shí),這只狗就從底座上彈出來(lái),以此回應(yīng)人類的"呼喚"。但是實(shí)際上,它使用的技術(shù)并不是真正意義上的語(yǔ)音識(shí)別技術(shù),而是使用了一個(gè)特殊的彈簧,每當(dāng)該彈簧接收到頻率為500Hz的聲音時(shí),它就會(huì)被自動(dòng)釋放,而500Hz恰好就是人們喊出"Rex"時(shí)的第一個(gè)共振峰的頻率。"Radio Rex"玩具狗被視為語(yǔ)音識(shí)別的雛形。
真正意義上的語(yǔ)音識(shí)別研究起源于20世紀(jì)50年代。先是美國(guó)的AT&T Bell實(shí)驗(yàn)室的Davis等人成功開(kāi)發(fā)出了世界上第一個(gè)孤立詞語(yǔ)音識(shí)別系統(tǒng)——Audry系統(tǒng),該系統(tǒng)能夠識(shí)別10個(gè)英文數(shù)字的發(fā)音[1],正確率高達(dá)98%。1956年,美國(guó)普林斯頓大學(xué)的實(shí)驗(yàn)室使用模擬濾波器組提取出元音的頻譜后,通過(guò)模板匹配,建立了針對(duì)特定說(shuō)話人的包括10個(gè)單音節(jié)詞的語(yǔ)音識(shí)別系統(tǒng)。1959年,英國(guó)倫敦大學(xué)的科學(xué)家Fry和Denes等人第一次利用統(tǒng)計(jì)學(xué)的原理構(gòu)建出了一個(gè)可以識(shí)別出4個(gè)元音和9個(gè)輔音的音素識(shí)別器。在同一年,美國(guó)麻省理工學(xué)院林肯實(shí)驗(yàn)室的研究人員則首次實(shí)現(xiàn)了可以針對(duì)非特定人的可識(shí)別10個(gè)元音音素的識(shí)別器[2]。
圖1-7給出了語(yǔ)音識(shí)別技術(shù)的發(fā)展歷史,主要包括模板匹配、統(tǒng)計(jì)模型和深度學(xué)習(xí)三個(gè)階段。

圖1-7 語(yǔ)音識(shí)別發(fā)展歷史
第一階段:模板匹配 ( DTW )
20世紀(jì)60年代,一些重要的語(yǔ)音識(shí)別的經(jīng)典理論先后被提出和發(fā)表出來(lái)。1964年,Martin為了解決語(yǔ)音時(shí)長(zhǎng)不一致的問(wèn)題,提出了一種時(shí)間歸一化的方法,該方法可以可靠地檢測(cè)出語(yǔ)音的端點(diǎn),這可以有效地降低語(yǔ)音時(shí)長(zhǎng)對(duì)識(shí)別結(jié)果的影響,使語(yǔ)音識(shí)別結(jié)果的可變性減小了。1966年,卡耐基梅隆大學(xué)的 Reddy 利用動(dòng)態(tài)跟蹤音素的方法進(jìn)行了連續(xù)語(yǔ)音識(shí)別,這是一項(xiàng)開(kāi)創(chuàng)性的工作。1968年,前蘇聯(lián)科學(xué)家Vintsyuk首次提出將動(dòng)態(tài)規(guī)劃算法應(yīng)用于對(duì)語(yǔ)音信號(hào)的時(shí)間規(guī)整。雖然在他的工作中,動(dòng)態(tài)時(shí)間規(guī)整的概念和算法原型都有體現(xiàn),但在當(dāng)時(shí)并沒(méi)有引起足夠的重視。這三項(xiàng)研究工作,為此后幾十年語(yǔ)音識(shí)別的發(fā)展奠定了堅(jiān)實(shí)的基礎(chǔ)。雖然在這10年中語(yǔ)音識(shí)別理論取得了明顯的進(jìn)步,但是這距離實(shí)現(xiàn)真正實(shí)用且可靠的語(yǔ)音識(shí)別系統(tǒng)的目標(biāo)依舊十分遙遠(yuǎn)。
20世紀(jì)70年代,語(yǔ)音識(shí)別技術(shù)飛速發(fā)展,又取得了幾個(gè)突破性的進(jìn)展。1970年,來(lái)自前蘇聯(lián)的Velichko和Zagoruyko將模式識(shí)別的概念引入語(yǔ)音識(shí)別中。同年,Itakura提出了線性預(yù)測(cè)編碼 ( Linear Predictive Coding,LPC ) 技術(shù),并將該技術(shù)應(yīng)用于語(yǔ)音識(shí)別。1978年,日本人Sakoe和Chiba在前蘇聯(lián)科學(xué)家Vintsyuk的工作基礎(chǔ)上,成功地使用動(dòng)態(tài)規(guī)劃算法將兩段不同長(zhǎng)度的語(yǔ)音在時(shí)間軸上進(jìn)行了對(duì)齊,這就是我們現(xiàn)在經(jīng)常提到的動(dòng)態(tài)時(shí)間規(guī)整 ( Dynamic Time Warping,DTW )[3][4]。該算法把時(shí)間規(guī)整和距離的計(jì)算有機(jī)地結(jié)合起來(lái),解決了不同時(shí)長(zhǎng)語(yǔ)音的匹配問(wèn)題。在一些要求資源占用率低、識(shí)別人比較特定的環(huán)境下,DTW是一種很經(jīng)典很常用的模板匹配算法。這些技術(shù)的提出完善了語(yǔ)音識(shí)別的理論研究,并且使得孤立詞語(yǔ)音識(shí)別系統(tǒng)達(dá)到了一定的實(shí)用性。此后,以IBM公司和Bell實(shí)驗(yàn)室為代表的語(yǔ)音研究團(tuán)隊(duì)開(kāi)始將研究重點(diǎn)放到大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng) ( Large Vocabulary Continuous Speech Recognition,LVCSR ),因?yàn)檫@在當(dāng)時(shí)看來(lái)是更有挑戰(zhàn)性和更有價(jià)值的研究方向。20世紀(jì)70年代末,Linda的團(tuán)隊(duì)提出了矢量量化 ( Vector Quantization,VQ )[5]的碼本生成方法,該項(xiàng)工作對(duì)于語(yǔ)音編碼技術(shù)具有重大意義。美國(guó)國(guó)防部下屬的一個(gè)名為美國(guó)國(guó)防高級(jí)研究計(jì)劃局 ( Defense Advanced Research Projects Agency,DARPA ) 的行政機(jī)構(gòu),在20世紀(jì)70年代介入語(yǔ)音領(lǐng)域,開(kāi)始資助一項(xiàng)旨在支持語(yǔ)言理解系統(tǒng)的研究開(kāi)發(fā)工作的10年戰(zhàn)略計(jì)劃。在該計(jì)劃推動(dòng)下,誕生了一系列不錯(cuò)的研究成果,如卡耐基梅隆大學(xué)推出了Harpy系統(tǒng),其能識(shí)別1000多個(gè)單詞且有不錯(cuò)的識(shí)別率。
第二階段:統(tǒng)計(jì)模型 ( GMM-HMM )
到了20世紀(jì)80年代,更多的研究人員開(kāi)始從對(duì)孤立詞識(shí)別系統(tǒng)的研究轉(zhuǎn)向?qū)Υ笤~匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng)的研究,并且大量的連續(xù)語(yǔ)音識(shí)別算法應(yīng)運(yùn)而生,例如分層構(gòu)造 ( Level Building ) 算法等。同時(shí),20世紀(jì)80年代的語(yǔ)音識(shí)別研究相較于20世紀(jì)70年代,另一個(gè)變化是基于統(tǒng)計(jì)模型的技術(shù)逐漸替代了基于模板匹配的技術(shù)。統(tǒng)計(jì)模型兩項(xiàng)很重要的成果是聲學(xué)模型和語(yǔ)言模型,語(yǔ)言模型以n元語(yǔ)言模型 ( n-gram ) 為代表,聲學(xué)模型以HMM為代表。HMM的理論基礎(chǔ)在1970年前后由Baum等人建立[6],隨后由卡耐基梅隆大學(xué) ( CMU ) 的Baker和IBM的Jelinek等人應(yīng)用到語(yǔ)音識(shí)別中。在20世紀(jì)80年代中期,Bell實(shí)驗(yàn)室的L.R. Rabiner等人對(duì)HMM進(jìn)行了深入淺出的介紹[7],并出版了語(yǔ)音識(shí)別專著Fundamentals of Speech Recognition[8],有力地推動(dòng)了HMM在語(yǔ)音識(shí)別中的應(yīng)用。Mark Gales和Steve Young在2007年對(duì)HMM在語(yǔ)音識(shí)別中的應(yīng)用做了詳細(xì)闡述[9]。隨著統(tǒng)計(jì)模型的成功應(yīng)用,HMM開(kāi)始了對(duì)語(yǔ)音識(shí)別數(shù)十年的統(tǒng)治,直到現(xiàn)今仍被看作是領(lǐng)域內(nèi)的主流技術(shù)。在DARPA的語(yǔ)音研究計(jì)劃的資助下,又誕生了一批著名的語(yǔ)音識(shí)別系統(tǒng),其中包括李開(kāi)復(fù) ( K.F.Lee ) 在卡耐基梅隆大學(xué)攻讀博士學(xué)位時(shí)開(kāi)發(fā)的SPHINX系統(tǒng)。該系統(tǒng)也是基于統(tǒng)計(jì)模型的非特定說(shuō)話人連續(xù)語(yǔ)音識(shí)別系統(tǒng),其采用了如下技術(shù):① 用HMM對(duì)語(yǔ)音狀態(tài)的轉(zhuǎn)移概率建模;② 用高斯混合模型 ( Gaussian Mixture Model,GMM ) 對(duì)語(yǔ)音狀態(tài)的觀察值概率建模。這種把上述二者相結(jié)合的方法,稱為高斯混合模型-隱馬爾可夫模型 ( Gaussian Mixture Model-Hidden Markov Model,GMM-HMM )[9][10]。在深度學(xué)習(xí)熱潮出現(xiàn)之前,GMM-HMM一直是語(yǔ)音識(shí)別最主流最核心的技術(shù)。值得注意的是,在20世紀(jì)80年代末,隨著分布式知識(shí)表達(dá)和反向傳播算法 ( Backpropagation,BP ) 的提出,解決了非線性學(xué)習(xí)問(wèn)題,于是關(guān)于神經(jīng)網(wǎng)絡(luò)的研究興起,人工神經(jīng)網(wǎng)絡(luò) ( Artificial Neural Network,ANN )[11]被應(yīng)用到語(yǔ)音領(lǐng)域并且掀起了一定的熱潮。這是具有里程碑意義的事件,它為若干年后深度學(xué)習(xí)在語(yǔ)音識(shí)別中的崛起奠定了一定的基礎(chǔ)。但是由于人工神經(jīng)網(wǎng)絡(luò)其自身的缺陷還未得到完全解決,它相對(duì)于GMM-HMM系統(tǒng)并沒(méi)有什么優(yōu)勢(shì)可言,研究人員還是更傾向于基于統(tǒng)計(jì)模型的方法。在20世紀(jì)80年代還有一個(gè)值得一提的事件,美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)署 ( NIST ) 在1987年第一次舉辦了NIST評(píng)測(cè),這項(xiàng)評(píng)測(cè)在后來(lái)成為了全球最權(quán)威的語(yǔ)音評(píng)測(cè)。
20世紀(jì)90年代,語(yǔ)音識(shí)別進(jìn)入了一個(gè)技術(shù)相對(duì)成熟的時(shí)期,主流的GMM-HMM框架得到了更廣泛的應(yīng)用,在領(lǐng)域中的地位越發(fā)穩(wěn)固。聲學(xué)模型的說(shuō)話人自適應(yīng) ( Speaker Adaptation ) 方法和區(qū)分性訓(xùn)練 ( Discriminative Training ) 準(zhǔn)則的提出,進(jìn)一步提升了語(yǔ)音識(shí)別系統(tǒng)的性能。1994年提出的最大后驗(yàn)概率估計(jì) ( Maximum A Posteriori Estimation,MAP )[12]和1995年提出的最大似然線性回歸 ( Maximum Likelihood Linear Regression,MLLR )[13],幫助HMM實(shí)現(xiàn)了說(shuō)話人自適應(yīng)。最大互信息量 ( Maximum Mutual Information,MMI )[14]和最小分類錯(cuò)誤 ( Minimum Classification Error,MCE )[15]等聲學(xué)模型的區(qū)分性訓(xùn)練準(zhǔn)則相繼被提出,使用這些區(qū)分性準(zhǔn)則去更新GMM-HMM的模型參數(shù),可以讓模型的性能得到顯著提升。此外,人們開(kāi)始使用以音素為代表的字詞單元作為基本單元,一些支持大詞匯量的語(yǔ)音識(shí)別系統(tǒng)被陸續(xù)開(kāi)發(fā)出來(lái),這些系統(tǒng)不但可以做到支持大詞匯量非特定人連續(xù)語(yǔ)音識(shí)別,而且有的產(chǎn)品在可用性方面達(dá)到了很好的性能,例如微軟公司的Whisper、貝爾實(shí)驗(yàn)室的PLATO、麻省理工學(xué)院的SUMMIT系統(tǒng)、IBM的ViaVioce系統(tǒng)。英國(guó)劍橋大學(xué)Steve Young開(kāi)創(chuàng)的語(yǔ)音識(shí)別工具包HTK ( Hidden Markov Tool Kit )[10],是一套開(kāi)源的基于HMM的語(yǔ)音識(shí)別軟件工具包,它采用模塊化設(shè)計(jì),而且配套了非常詳細(xì)的HTKBook 文檔,這既方便了初學(xué)者的學(xué)習(xí)、實(shí)驗(yàn) ( HTKBook 文檔做得很好 ),也為語(yǔ)音識(shí)別的研究人員提供了專業(yè)且便于搭建的開(kāi)發(fā)平臺(tái)。HTK自1995年發(fā)布以來(lái),被廣泛采用。即便如今,大部分人在接受語(yǔ)音專業(yè)啟蒙教育時(shí),依然還是要通過(guò)HTK輔助將理論知識(shí)串聯(lián)到工程實(shí)踐中。可以說(shuō),HTK對(duì)語(yǔ)音識(shí)別行業(yè)的發(fā)展意義重大。
進(jìn)入21世紀(jì)頭幾年,基于GMM-HMM的框架日臻成熟完善,人們對(duì)語(yǔ)音識(shí)別的要求已經(jīng)不再滿足于簡(jiǎn)單的朗讀和對(duì)話,開(kāi)始將目光著眼于生活中的普通場(chǎng)景,因此研究的重點(diǎn)轉(zhuǎn)向了具有一定識(shí)別難度的日常流利對(duì)話、電話通話、會(huì)議對(duì)話、新聞廣播等一些貼近人類實(shí)際應(yīng)用需求的場(chǎng)景。但是在這些任務(wù)上,基于GMM-HMM框架的語(yǔ)音識(shí)別系統(tǒng)的表現(xiàn)并不能令人滿意,識(shí)別率達(dá)到80%左右后,就無(wú)法再取得突破。人們發(fā)現(xiàn)一直占據(jù)主流的GMM-HMM框架也不是萬(wàn)能的,它在某些實(shí)際場(chǎng)景下的識(shí)別率無(wú)法達(dá)到人們對(duì)實(shí)際應(yīng)用的要求和期望,這個(gè)階段語(yǔ)音識(shí)別的研究陷入了瓶頸期。
第三階段:深度學(xué)習(xí) ( DNN-HMM,E2E )
2006年,變革到來(lái)。Hinton在全世界最權(quán)威的學(xué)術(shù)期刊Science上發(fā)表了論文,第一次提出了"深度置信網(wǎng)絡(luò)"的概念[16][17]。深度置信網(wǎng)絡(luò)與傳統(tǒng)訓(xùn)練方式的不同之處在于它有一個(gè)被稱為"預(yù)訓(xùn)練" ( pre-training ) 的過(guò)程,其作用是為了讓神經(jīng)網(wǎng)絡(luò)的權(quán)值取到一個(gè)近似最優(yōu)解的值,之后使用反向傳播算法 ( BP ) 或者其他算法進(jìn)行"微調(diào)" ( fine-tuning ),使整個(gè)網(wǎng)絡(luò)得到訓(xùn)練優(yōu)化。Hinton給這種多層神經(jīng)網(wǎng)絡(luò)的相關(guān)學(xué)習(xí)方法賦予了一個(gè)全新的名詞——"深度學(xué)習(xí)" ( Deep Learning,DL )[18]。深度學(xué)習(xí)不僅使深層的神經(jīng)網(wǎng)絡(luò)訓(xùn)練變得更加容易,縮短了網(wǎng)絡(luò)的訓(xùn)練時(shí)間,而且還大幅度提升了模型的性能。以這篇?jiǎng)潟r(shí)代的論文的發(fā)表為轉(zhuǎn)折點(diǎn),從此,全世界再次掀起了對(duì)神經(jīng)網(wǎng)絡(luò)的研究熱潮,揭開(kāi)了屬于深度學(xué)習(xí)的時(shí)代序幕。
在2009年,Hinton和他的學(xué)生Mohamed將深層神經(jīng)網(wǎng)絡(luò) ( DNN ) 應(yīng)用于聲學(xué)建模,他們的嘗試在TIMIT音素識(shí)別任務(wù)上取得了成功。然而TIMIT數(shù)據(jù)庫(kù)包含的詞匯量較小,在面對(duì)連續(xù)語(yǔ)音識(shí)別任務(wù)時(shí)還往往達(dá)不到人們期望的識(shí)別詞和句子的正確率。2012年,微軟研究院的俞棟和鄧力等人將深度學(xué)習(xí)與HMM相結(jié)合,提出了上下文相關(guān)的深度神經(jīng)網(wǎng)絡(luò) ( Context Dependent Deep Neural Network,CD-DNN ) 與HMM融合的聲學(xué)模型 ( CD-DNN-HMM )[19],在大詞匯量的連續(xù)語(yǔ)音識(shí)別任務(wù)上取得了顯著的進(jìn)步,相比于傳統(tǒng)的GMM-HMM系統(tǒng)獲得超過(guò)20%的相對(duì)性能提升。這是深度學(xué)習(xí)在語(yǔ)言識(shí)別上具有重大意義的成果。從此,自動(dòng)語(yǔ)音識(shí)別 ASR 的準(zhǔn)確率得到了快速提升,深度學(xué)習(xí)徹底打破了GMM-HMM 的傳統(tǒng)框架對(duì)于語(yǔ)音識(shí)別技術(shù)多年的壟斷,使得人工智能獲得了突破性的進(jìn)展。由Daniel Povey領(lǐng)銜開(kāi)發(fā)在2011年發(fā)布的Kaldi[20],是DNN-HMM系統(tǒng)的基石,在工業(yè)界得到廣泛應(yīng)用。大多數(shù)主流的語(yǔ)音識(shí)別解碼器基于加權(quán)有限狀態(tài)轉(zhuǎn)換器 ( WFST )[21],把發(fā)音詞典、聲學(xué)模型和語(yǔ)言模型編譯成靜態(tài)解碼網(wǎng)絡(luò),這樣可大大加快解碼速度,為語(yǔ)音識(shí)別的實(shí)時(shí)應(yīng)用奠定基礎(chǔ)。
近幾年,隨著機(jī)器學(xué)習(xí)算法的持續(xù)發(fā)展,各種神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)層出不窮。循環(huán)神經(jīng)網(wǎng)絡(luò) ( Recurrent Neural Network,RNN ) 可以更有效、更充分地利用語(yǔ)音中的上下文信息[22],卷積神經(jīng)網(wǎng)絡(luò) ( Convolutional Neural Network,CNN ) 可以通過(guò)共享權(quán)值來(lái)減少計(jì)算的復(fù)雜度,并且CNN被證明在挖掘語(yǔ)音局部信息的能力上更為突出。引入了長(zhǎng)短時(shí)記憶網(wǎng)絡(luò) ( Long Short Term Memory,LSTM ) 的循環(huán)神經(jīng)網(wǎng)絡(luò) RNN,能夠通過(guò)遺忘門(mén)和輸出門(mén)忘記部分信息來(lái)解決梯度消失的問(wèn)題[23]。由LSTM 也衍生出了許多變體,較為常用的是門(mén)控循環(huán)單元 ( Gated Recurrent Unit,GRU ),在訓(xùn)練數(shù)據(jù)很大的情況下GRU相比LSTM參數(shù)更少,因此更容易收斂,從而能節(jié)省很多時(shí)間。LSTM及其變體使得識(shí)別效果再次得到提升,尤其是在近場(chǎng)的語(yǔ)音識(shí)別任務(wù)上達(dá)到了可以滿足人們?nèi)粘I畹臉?biāo)準(zhǔn)。另外,時(shí)延神經(jīng)網(wǎng)絡(luò) ( Time Delay Neural Network,TDNN )[24]也獲得了不錯(cuò)的識(shí)別效果,它可以適應(yīng)語(yǔ)音的動(dòng)態(tài)時(shí)域變化,能夠?qū)W習(xí)到特征之間的時(shí)序依賴。
深度學(xué)習(xí)技術(shù)在近十幾年中,一直保持著飛速發(fā)展的狀態(tài),它也推動(dòng)語(yǔ)音識(shí)別技術(shù)不斷取得突破。尤其是最近幾年,基于端到端的語(yǔ)音識(shí)別方案逐漸成了行業(yè)中的關(guān)注重點(diǎn),CTC ( Connectionist Temporal Classification )[25]算法就是其中一個(gè)較為經(jīng)典的算法。在LSTM-CTC的框架中,最后一層往往會(huì)連接一個(gè)CTC模型,用它來(lái)替換HMM。CTC的作用是將Softmax層的輸出向量直接輸出成序列標(biāo)簽,這樣就實(shí)現(xiàn)了輸入語(yǔ)音和輸出結(jié)果的直接映射,也實(shí)現(xiàn)了對(duì)整個(gè)語(yǔ)音的序列建模,而不僅僅是針對(duì)狀態(tài)的靜態(tài)分類。2012年,Graves等人又提出了循環(huán)神經(jīng)網(wǎng)絡(luò)變換器RNN Transducer[26],它是CTC的一個(gè)擴(kuò)展,能夠整合聲學(xué)模型與語(yǔ)言模型,同時(shí)進(jìn)行優(yōu)化。自 2015 年以來(lái),谷歌、亞馬遜、百度等公司陸續(xù)開(kāi)始了對(duì)CTC模型的研發(fā)和使用,并且都獲得了不錯(cuò)的性能提升。
2014年,基于 Attention ( 注意力機(jī)制 ) 的端到端技術(shù)在機(jī)器翻譯領(lǐng)域中得到了廣泛的應(yīng)用并取得了較好的實(shí)驗(yàn)結(jié)果[27],之后很快被大規(guī)模商用。于是,Jan Chorowski在2015年將Attention的應(yīng)用擴(kuò)展到了語(yǔ)音識(shí)別領(lǐng)域[28],結(jié)果大放異彩。在最近的兩年里,有一種稱為Seq2Seq ( Sequence to Sequence ) 的基于Attention的語(yǔ)音識(shí)別模型[29]在學(xué)術(shù)界引起了極大的關(guān)注,相關(guān)的研究取得了較大的進(jìn)展。在加拿大召開(kāi)的國(guó)際智能語(yǔ)音領(lǐng)域的頂級(jí)會(huì)議ICASSP2018上,谷歌公司發(fā)表的研究成果顯示,在英語(yǔ)語(yǔ)音識(shí)別任務(wù)上,基于 Attention 的 Seq2Seq 模型表現(xiàn)強(qiáng)勁,它的識(shí)別結(jié)果已經(jīng)超越了其他語(yǔ)音識(shí)別模型[30]。但 Attention 模型的對(duì)齊關(guān)系沒(méi)有先后順序的限制,完全靠數(shù)據(jù)驅(qū)動(dòng)得到,對(duì)齊的盲目性會(huì)導(dǎo)致訓(xùn)練和解碼時(shí)間過(guò)長(zhǎng)。而 CTC 的前向后向算法可以引導(dǎo)輸出序列與輸入序列按時(shí)間順序?qū)R。因此 CTC 和 Attention 模型各有優(yōu)勢(shì),可把兩者結(jié)合起來(lái),構(gòu)建 Hybrid CTC/Attention模型[31],并采用多任務(wù)學(xué)習(xí),以取得更好的效果。
2017年,google和多倫多大學(xué)提出一種稱為T(mén)ransformer[32]的全新架構(gòu),這種架構(gòu)在Decoder和Encoder中均采用Attention機(jī)制。特別是在Encoder層,將傳統(tǒng)的RNN完全用Attention替代,從而在機(jī)器翻譯任務(wù)上取得了更優(yōu)的結(jié)果,引起了極大關(guān)注。隨后,研究人員把Transformer應(yīng)用到端到端語(yǔ)音識(shí)別系統(tǒng)[33][34]中,也取得了非常明顯的改進(jìn)效果。
另外,生成式對(duì)抗網(wǎng)絡(luò) ( Generative Adversarial Network,GAN ) 是近年來(lái)無(wú)監(jiān)督學(xué)習(xí)方面最具前景的一種新穎的深度學(xué)習(xí)模型,Ian J. Goodfellow等人于2014年10月發(fā)表論文"Generative Adversarial Nets"[36],文中提出了一個(gè)通過(guò)對(duì)抗過(guò)程估計(jì)生成模型框架的全新方法。通過(guò)對(duì)抗學(xué)習(xí),GAN可用于提升語(yǔ)音識(shí)別的噪聲魯棒性。GAN網(wǎng)絡(luò)在無(wú)監(jiān)督學(xué)習(xí)方面展現(xiàn)出了較大的研究潛質(zhì)和較好的應(yīng)用前景。
從一個(gè)更高的角度來(lái)看待語(yǔ)音識(shí)別的研究歷程,從HMM到GMM,到DNN,再到CTC和Attention,這個(gè)演進(jìn)過(guò)程的主線是如何利用一個(gè)網(wǎng)絡(luò)模型實(shí)現(xiàn)對(duì)聲學(xué)模型層面更精準(zhǔn)的刻畫(huà)。換言之,就是不斷嘗試更好的建模方式以取代基于統(tǒng)計(jì)的建模方式。
在2010年以前,語(yǔ)音識(shí)別行業(yè)水平普遍還停留在80%的準(zhǔn)確率以下。在接下來(lái)的幾年里,機(jī)器學(xué)習(xí)相關(guān)模型算法的應(yīng)用和計(jì)算機(jī)性能的增強(qiáng),帶來(lái)了語(yǔ)音識(shí)別準(zhǔn)確率的大幅提升。到 2015年,識(shí)別準(zhǔn)確率就達(dá)到了 90%以上。谷歌公司在2013年時(shí),識(shí)別準(zhǔn)確率還僅僅只有77%,然而到2017年5月時(shí),基于谷歌深度學(xué)習(xí)的英語(yǔ)語(yǔ)音識(shí)別錯(cuò)誤率已經(jīng)降低到4.9%,即識(shí)別準(zhǔn)確率為95.1%,相較于2013年的準(zhǔn)確率提升了接近20個(gè)百分點(diǎn)。這種水平的準(zhǔn)確率已經(jīng)接近正常人類。2016年10月18日,微軟語(yǔ)音團(tuán)隊(duì)在Switchboard語(yǔ)音識(shí)別測(cè)試中打破了自己的最好成績(jī),將詞錯(cuò)誤率降低至 5.9%。次年,微軟語(yǔ)音團(tuán)隊(duì)研究人員通過(guò)改進(jìn)語(yǔ)音識(shí)別系統(tǒng)中基于神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型和語(yǔ)言模型,在之前的基礎(chǔ)上引入了CNN-BLSTM ( Convolutional Neural Network Combined with Bidirectional Long Short-Term Memory,帶有雙向LSTM的卷積神經(jīng)網(wǎng)絡(luò) ) 模型,用于提升語(yǔ)音建模的效果。2017年8月20日,微軟語(yǔ)音團(tuán)隊(duì)再次將這一紀(jì)錄刷新,在Switchboard測(cè)試中將詞錯(cuò)誤率從5.9%降低到5.1%,即識(shí)別準(zhǔn)確率達(dá)到 94.9%,與谷歌一起成為了行業(yè)新的標(biāo)桿。另外,亞馬遜 ( Amazon ) 公司在語(yǔ)音行業(yè)可謂后發(fā)制人,其在2014年底正式推出了Echo智能音箱,并通過(guò)該音箱搭載的Alexa語(yǔ)音助理,為使用者提供種種應(yīng)用服務(wù)。Echo 智能音箱一經(jīng)推出,在消費(fèi)市場(chǎng)上取得了巨大的成功,如今已成為美國(guó)使用最廣的智能家居產(chǎn)品,至今累計(jì)銷量已超過(guò)2000萬(wàn)臺(tái)。投資機(jī)構(gòu)摩根士丹利分析師稱智能音箱是繼iPad之后"最成功的消費(fèi)電子產(chǎn)品"。
04
國(guó)內(nèi)語(yǔ)音識(shí)別現(xiàn)狀
國(guó)內(nèi)最早的語(yǔ)音識(shí)別研究開(kāi)始于1958年,中國(guó)科學(xué)院聲學(xué)所研究出一種電子管電路,該電子管可以識(shí)別10個(gè)元音。1973年,中國(guó)科學(xué)院聲學(xué)所成為國(guó)內(nèi)首個(gè)開(kāi)始研究計(jì)算機(jī)語(yǔ)音識(shí)別的機(jī)構(gòu)。受限于當(dāng)時(shí)的研究條件,我國(guó)的語(yǔ)音識(shí)別研究在這個(gè)階段一直進(jìn)展緩慢。
改革放開(kāi)以后,隨著計(jì)算機(jī)應(yīng)用技術(shù)和信號(hào)處理技術(shù)在我國(guó)的普及,越來(lái)越多的國(guó)內(nèi)單位和機(jī)構(gòu)具備了語(yǔ)音研究的成熟條件。而就在此時(shí),外國(guó)的語(yǔ)音識(shí)別研究取得了較大的突破性進(jìn)展,語(yǔ)音識(shí)別成為科技浪潮的前沿,得到了迅猛的發(fā)展,這推動(dòng)了包括中科院聲學(xué)所、中科院自動(dòng)化所、清華大學(xué)、中國(guó)科技大學(xué)、哈爾濱工業(yè)大學(xué)、上海交通大學(xué)、西北工業(yè)大學(xué)、廈門(mén)大學(xué)等許多國(guó)內(nèi)科研機(jī)構(gòu)和高等院校投身到語(yǔ)音識(shí)別的相關(guān)研究當(dāng)中。大多數(shù)的研究者將研究重點(diǎn)聚焦在語(yǔ)音識(shí)別基礎(chǔ)理論研究和模型、算法的研究改進(jìn)上。
1986年3月,我國(guó)的"863"計(jì)劃正式啟動(dòng)。"863"計(jì)劃即國(guó)家高技術(shù)研究發(fā)展計(jì)劃,是我國(guó)的一項(xiàng)高科技發(fā)展計(jì)劃。作為計(jì)算機(jī)系統(tǒng)和智能科學(xué)領(lǐng)域的一個(gè)重要分支,語(yǔ)音識(shí)別在該計(jì)劃中被列為一個(gè)專項(xiàng)研究課題。隨后,我國(guó)展開(kāi)了系統(tǒng)性的針對(duì)語(yǔ)音識(shí)別技術(shù)的研究。因此,對(duì)于我國(guó)國(guó)內(nèi)的語(yǔ)音識(shí)別行業(yè)來(lái)說(shuō),"863"計(jì)劃是一個(gè)里程碑,它標(biāo)志著我國(guó)的語(yǔ)音識(shí)別技術(shù)進(jìn)入了一個(gè)嶄新的發(fā)展階段。但是由于研究起步晚、基礎(chǔ)薄弱、硬件條件和計(jì)算能力有限,導(dǎo)致我國(guó)的語(yǔ)音識(shí)別研究在整個(gè)20世紀(jì)80年代都沒(méi)有取得顯著的學(xué)術(shù)成果,也沒(méi)有開(kāi)發(fā)出具有優(yōu)良性能的識(shí)別系統(tǒng)。
20世紀(jì)90年代,我國(guó)的語(yǔ)音識(shí)別研究持續(xù)發(fā)展,開(kāi)始逐漸地緊追國(guó)際領(lǐng)先水平。在"863"計(jì)劃、國(guó)家科技攻關(guān)計(jì)劃、國(guó)家自然科學(xué)基金的支持下,我國(guó)在中文語(yǔ)音識(shí)別技術(shù)方面取得了一系列研究成果。
21世紀(jì)初期,包括科大訊飛、中科信利、捷通華聲等一批致力于語(yǔ)音應(yīng)用的公司陸續(xù)在我國(guó)成立。語(yǔ)音識(shí)別龍頭企業(yè)科大訊飛早在2010年,就推出了業(yè)界首個(gè)中文語(yǔ)音輸入法,引領(lǐng)了移動(dòng)互聯(lián)網(wǎng)的語(yǔ)音應(yīng)用。2010年以后,百度、騰訊、阿里巴巴等國(guó)內(nèi)各大互聯(lián)網(wǎng)公司相繼組建語(yǔ)音研發(fā)團(tuán)隊(duì),推出了各自的語(yǔ)音識(shí)別服務(wù)和產(chǎn)品。在此之后,國(guó)內(nèi)語(yǔ)音識(shí)別的研究水平在之前建立的堅(jiān)實(shí)基礎(chǔ)上,取得了突飛猛進(jìn)的進(jìn)步。如今,基于云端深度學(xué)習(xí)算法和大數(shù)據(jù)的在線語(yǔ)音識(shí)別系統(tǒng)的識(shí)別率可以達(dá)到95%以上,科大訊飛、百度、阿里巴巴都提供了達(dá)到商業(yè)標(biāo)準(zhǔn)的語(yǔ)音識(shí)別服務(wù),如語(yǔ)音輸入法、語(yǔ)音搜索等應(yīng)用,語(yǔ)音云用戶達(dá)到了億級(jí)規(guī)模。
人工智能和物聯(lián)網(wǎng)的迅猛發(fā)展,使得人機(jī)交互方式發(fā)生重大變革,語(yǔ)音交互產(chǎn)品也越來(lái)越多。國(guó)內(nèi)消費(fèi)者接受語(yǔ)音產(chǎn)品也有一個(gè)過(guò)程,最開(kāi)始的認(rèn)知大部分是從蘋(píng)果Siri開(kāi)始。亞馬遜的Echo音箱剛開(kāi)始推出的兩三年,國(guó)內(nèi)的智能音箱市場(chǎng)還不溫不火,不為消費(fèi)者所接受,因此銷量非常有限。但自2017年以來(lái),智能家居逐漸普及,音箱市場(chǎng)開(kāi)始火熱,為搶占語(yǔ)音入口,阿里巴巴、百度、小米、華為等大公司紛紛推出了各自的智能音箱。據(jù)Canalys報(bào)告,2019年第1季度中國(guó)市場(chǎng)智能音箱出貨量全球占比51%,首次超過(guò)美國(guó),成為全球最大的智能音箱市場(chǎng)。據(jù)奧維云網(wǎng) ( AVC ) 數(shù)據(jù)顯示,2019年上半年中國(guó)智能音箱市場(chǎng)銷量為1556萬(wàn)臺(tái),同比增長(zhǎng)233%。
隨著語(yǔ)音市場(chǎng)的擴(kuò)大,國(guó)內(nèi)涌現(xiàn)出一批具有強(qiáng)大競(jìng)爭(zhēng)力的語(yǔ)音公司和研究團(tuán)隊(duì),包括云知聲、思必馳、出門(mén)問(wèn)問(wèn)、聲智科技、北科瑞聲、天聰智能等。他們推出的語(yǔ)音產(chǎn)品和解決方案主要針對(duì)特定場(chǎng)景,如車載導(dǎo)航、智能家居、醫(yī)院的病歷輸入、智能客服、會(huì)議系統(tǒng)、證券柜臺(tái)業(yè)務(wù)等,因?yàn)椴捎蒙疃榷ㄖ疲R(shí)別效果和產(chǎn)品體驗(yàn)更佳,在市場(chǎng)上獲得了不錯(cuò)的反響。針對(duì)智能硬件的離線識(shí)別,云知聲和思必馳等公司還研發(fā)出專門(mén)的語(yǔ)音芯片,進(jìn)一步降低功耗,提高產(chǎn)品的性價(jià)比。
在國(guó)內(nèi)語(yǔ)音應(yīng)用突飛猛進(jìn)的同時(shí),各大公司和研究團(tuán)隊(duì)紛紛在國(guó)際學(xué)術(shù)會(huì)議和期刊上發(fā)表研究成果。2015年,張仕良等人提出了前饋型序列記憶網(wǎng)絡(luò) ( feed-forward sequential memory network,F(xiàn)SMN ),在DNN 的隱層旁增加了一個(gè)“記憶模塊”,這個(gè)記憶模塊用來(lái)存儲(chǔ)對(duì)判斷當(dāng)前語(yǔ)音幀有用的語(yǔ)音信號(hào)的歷史信息和未來(lái)信息,并且只需等待有限長(zhǎng)度的未來(lái)語(yǔ)音幀。隨后,科大訊飛進(jìn)一步提出了深度全序列卷積神經(jīng)網(wǎng)絡(luò) ( DFCNN )。2018年,阿里巴巴改良并開(kāi)源了語(yǔ)音識(shí)別模型DFSMN ( Deep FSMN )。2018年,中科院自動(dòng)化所率先把Transformer應(yīng)用到語(yǔ)音識(shí)別任務(wù),并進(jìn)一步拓展到中文語(yǔ)音識(shí)別。
不管是在研究成果還是在產(chǎn)品性能體驗(yàn)上,國(guó)內(nèi)的語(yǔ)音行業(yè)整體水平已經(jīng)達(dá)到甚至超越了國(guó)際尖端水平。2016年10月,時(shí)任百度首席科學(xué)家的吳恩達(dá)在對(duì)微軟的語(yǔ)音識(shí)別技術(shù)與人類水平持平的消息表示祝賀的同時(shí)聲稱,百度的漢語(yǔ)語(yǔ)音識(shí)別在2015年就已經(jīng)超越了人類的平均水平,也就是說(shuō)百度比微軟提前一年實(shí)現(xiàn)了這一成績(jī)。2016年11月,搜狗、百度和科大訊飛三家公司相繼召開(kāi)了三場(chǎng)發(fā)布會(huì),分別向外界展示了他們各自在語(yǔ)音識(shí)別等方面的最新進(jìn)展。這三家公司幾乎不約而同地宣布各自的中文語(yǔ)音識(shí)別準(zhǔn)確率達(dá)到了97%,這充分說(shuō)明大數(shù)據(jù)和深度神經(jīng)網(wǎng)絡(luò)的成功應(yīng)用使得國(guó)內(nèi)的語(yǔ)音識(shí)別技術(shù)取得了質(zhì)的突破。
盡管如此,當(dāng)前語(yǔ)音識(shí)別系統(tǒng)依然面臨著不少應(yīng)用挑戰(zhàn),其中包括以下主要問(wèn)題:
- 魯棒性。目前語(yǔ)音識(shí)別準(zhǔn)確率超過(guò)人類水平主要還是在受限的場(chǎng)景下,比如在安靜環(huán)境的情況下,而一旦加入干擾信號(hào),尤其是環(huán)境噪聲和人聲干擾,性能往往會(huì)明顯下降。因此,如何在復(fù)雜場(chǎng)景 ( 包括非平穩(wěn)噪聲、混響、遠(yuǎn)場(chǎng) ) 下,提高語(yǔ)音識(shí)別的魯棒性,研發(fā)"能用=>好用"的語(yǔ)音識(shí)別產(chǎn)品,提升用戶體驗(yàn),仍然是要重點(diǎn)解決的問(wèn)題。
- 口語(yǔ)化。每個(gè)說(shuō)話人的口音、語(yǔ)速和發(fā)聲習(xí)慣都是不一樣的,尤其是一些地區(qū)的口音 ( 如南方口音、山東重口音 ),會(huì)導(dǎo)致準(zhǔn)確率急劇下降。還有電話場(chǎng)景和會(huì)議場(chǎng)景的語(yǔ)音識(shí)別,其中包含很多口語(yǔ)化表達(dá),如閑聊式的對(duì)話,在這種情況下的識(shí)別效果也很不理想。因此語(yǔ)音識(shí)別系統(tǒng)需要提升自適應(yīng)能力,以便更好地匹配個(gè)性化、口語(yǔ)化表達(dá),排除這些因素對(duì)識(shí)別結(jié)果的影響,達(dá)到準(zhǔn)確穩(wěn)定的識(shí)別效果。
- 低資源。特定場(chǎng)景、方言識(shí)別還存在低資源問(wèn)題。手機(jī)App采集的是16kHz寬帶語(yǔ)音,有大量的數(shù)據(jù)可以訓(xùn)練,因此識(shí)別效果很好,但特定場(chǎng)景如銀行/證券柜臺(tái)很多采用專門(mén)設(shè)備采集語(yǔ)音,保存的采樣格式壓縮比很高,跟一般的16kHz或8kHz語(yǔ)音不同,而相關(guān)的訓(xùn)練數(shù)據(jù)又很缺乏,因此識(shí)別效果會(huì)變得很差。低資源問(wèn)題同樣存在于方言識(shí)別,中國(guó)有七大方言區(qū),包括官話方言 ( 又稱北方方言 )、吳語(yǔ)、湘語(yǔ)、贛語(yǔ)、客家話、粵語(yǔ)、閩語(yǔ) ( 閩南語(yǔ) ),還有晉語(yǔ)、湘語(yǔ)等分支,要搜集各地?cái)?shù)據(jù) ( 包括文本語(yǔ)料 ) 相當(dāng)困難。因此如何從高資源的聲學(xué)模型和語(yǔ)言模型遷移到低資源的場(chǎng)景,減少數(shù)據(jù)搜集的代價(jià),是很值得研究的方向。
- 語(yǔ)種混雜 ( code-switch )。在日常交流中,還可能存在語(yǔ)種混雜現(xiàn)象,如中英混雜 ( 尤其是城市白領(lǐng) )、普通話與方言混雜,但商業(yè)機(jī)構(gòu)在這方面的投入還不多,對(duì)于中英混雜語(yǔ)音一般僅能識(shí)別簡(jiǎn)單的英文詞匯 ( 如"你家Wi-Fi密碼是多少" ),因此如何有效提升多語(yǔ)種識(shí)別的準(zhǔn)確率,也是當(dāng)前語(yǔ)音識(shí)別技術(shù)面臨的挑戰(zhàn)之一。
05
語(yǔ)音識(shí)別建模方法
語(yǔ)音識(shí)別建模方法主要分為模板匹配、統(tǒng)計(jì)模型和深度模型幾種類型,以下分別介紹DTW、GMM-HMM、DNN-HMM和端到端模型。
1. DTW
當(dāng)同一個(gè)人說(shuō)同一個(gè)詞時(shí),往往會(huì)因?yàn)檎Z(yǔ)速、語(yǔ)調(diào)等差異導(dǎo)致這個(gè)詞的發(fā)音特征和時(shí)間長(zhǎng)短各不相同,這樣就造成通過(guò)采樣得到的語(yǔ)音數(shù)據(jù)在時(shí)間軸上無(wú)法對(duì)齊的情況。如果時(shí)間序列無(wú)法對(duì)齊,那么傳統(tǒng)的歐氏距離是無(wú)法有效地衡量出這兩個(gè)序列間真實(shí)的相似性的。而DTW的提出就是為了解決這一問(wèn)題,它是一種將兩個(gè)不等長(zhǎng)時(shí)間序列進(jìn)行對(duì)齊并且衡量出這兩個(gè)序列間相似性的有效方法。
如圖 1-8 所示,DTW 采用動(dòng)態(tài)規(guī)劃的算法思想,通過(guò)時(shí)間彎折,實(shí)現(xiàn)P和Q兩條語(yǔ)音的不等長(zhǎng)匹配,將語(yǔ)音匹配相似度問(wèn)題轉(zhuǎn)換為最優(yōu)路徑問(wèn)題。DTW是模板匹配法中的典型方法,非常適合用于小詞匯量孤立詞語(yǔ)音識(shí)別系統(tǒng)。但DTW過(guò)分依賴端點(diǎn)檢測(cè),不適合用于連續(xù)語(yǔ)音識(shí)別,DTW對(duì)特定人的識(shí)別效果較好。

圖1-8 動(dòng)態(tài)時(shí)間規(guī)整(DTW)
2. GMM-HMM
HMM是一種統(tǒng)計(jì)分析模型,它是在馬爾可夫鏈的基礎(chǔ)上發(fā)展起來(lái)的,用來(lái)描述雙重隨機(jī)過(guò)程。HMM有算法成熟、效率高、易于訓(xùn)練等優(yōu)點(diǎn),被廣泛應(yīng)用于語(yǔ)音識(shí)別、手寫(xiě)字識(shí)別和天氣預(yù)報(bào)等多個(gè)領(lǐng)域,目前仍然是語(yǔ)音識(shí)別中的主流技術(shù)。
如圖1-9所示,HMM包含S1、S2、S3、S4和S55個(gè)狀態(tài),每個(gè)狀態(tài)對(duì)應(yīng)多幀觀察值,這些觀察值是特征序列 ( o1、o2、o3、o4,...,oT ),沿時(shí)刻t遞增,多樣化而且不局限取值范圍,因此其概率分布不是離散的,而是連續(xù)的。自然界中的很多信號(hào)可用高斯分布表示,包括語(yǔ)音信號(hào)。由于不同人發(fā)音會(huì)存在較大差異,具體表現(xiàn)是,每個(gè)狀態(tài)對(duì)應(yīng)的觀察值序列呈現(xiàn)多樣化,單純用一個(gè)高斯函數(shù)來(lái)刻畫(huà)其分布往往不夠,因此更多的是采用多高斯組合的 GMM 來(lái)表征更復(fù)雜的分布。這種用 GMM 作為 HMM 狀態(tài)產(chǎn)生觀察值的概率密度函數(shù) ( pdf ) 的模型就是GMM- HMM,如圖1-9所示,每個(gè)狀態(tài)對(duì)應(yīng)的GMM由2個(gè)高斯函數(shù)組合而成。

圖1-9 GMM-HMM
3. DNN-HMM
DNN擁有更強(qiáng)的表征能力,其能夠?qū)?fù)雜的語(yǔ)音變化情況進(jìn)行建模。把GMM-HMM的GMM用DNN替代,如圖1-10所示,HMM的轉(zhuǎn)移概率和初始狀態(tài)概率保持不變。

圖1-10 把GMM-HMM的GMM用DNN替代
DNN的輸出節(jié)點(diǎn)與所有HMM ( 包括"a"、"o"等音素 ) 的發(fā)射狀態(tài)一一對(duì)應(yīng) ( 如圖1-11所示 ),因此可通過(guò)DNN的輸出得到每個(gè)狀態(tài)的觀察值概率。

圖1-11 DNN-HMM
4. 端到端
從2015年,端到端模型開(kāi)始流行,并被應(yīng)用于語(yǔ)音識(shí)別領(lǐng)域。如圖1-12所示,傳統(tǒng)語(yǔ)音識(shí)別系統(tǒng)的發(fā)音詞典、聲學(xué)模型和語(yǔ)言模型三大組件被融合為一個(gè)E2E模型,直接實(shí)現(xiàn)輸入語(yǔ)音到輸出文本的轉(zhuǎn)換,得到最終的識(shí)別結(jié)果。

圖1-12 E2E模型
06
語(yǔ)音識(shí)別開(kāi)源工具
HTK ( HMM Toolkit ) 是一個(gè)專門(mén)用于建立和處理HMM的實(shí)驗(yàn)工具包[10],由劍橋大學(xué)的Steve Young等人開(kāi)發(fā),非常適合GMM-HMM系統(tǒng)的搭建。2015年DNN-HMM推出,該新版本主要由張超博士開(kāi)發(fā)。
Kaldi是一個(gè)開(kāi)源的語(yǔ)音識(shí)別工具箱[20],它是基于C++編寫(xiě)的,可以在windows和UNIX平臺(tái)上編譯,主要由Daniel Povey博士在維護(hù)。Kaldi適合DNN-HMM系統(tǒng) ( 包括Chain模型 ) 的搭建,支持TDNN/TDNN-F等模型。其基于有限狀態(tài)轉(zhuǎn)換器 ( FST ) 進(jìn)行訓(xùn)練和解碼,可用于x-vector等聲紋識(shí)別系統(tǒng)的搭建。
Espnet是一個(gè)端到端語(yǔ)音處理工具集[35],其側(cè)重于端到端語(yǔ)音識(shí)別和語(yǔ)音合成。Espnet是使用Python開(kāi)發(fā)的,它將Chainer和Pytorch作為主要的深度學(xué)習(xí)引擎,并遵循Kaldi風(fēng)格的數(shù)據(jù)處理方式,為語(yǔ)音識(shí)別和其他語(yǔ)音處理實(shí)驗(yàn)提供完整的設(shè)置,支持CTC/Attention等模型。
07
語(yǔ)音識(shí)別常用數(shù)據(jù)庫(kù)
TIMIT——經(jīng)典的英文語(yǔ)音識(shí)別庫(kù),其中包含,來(lái)自美國(guó)8個(gè)主要口音地區(qū)的630人的語(yǔ)音,每人10句,并包括詞和音素級(jí)的標(biāo)注。圖1-13給出了一條語(yǔ)音的波形圖、語(yǔ)譜圖和標(biāo)注。這個(gè)庫(kù)主要用來(lái)測(cè)試音素識(shí)別任務(wù)。

圖1-13 語(yǔ)音文件“/timit/test/dr5/fnlp0/sa1.wav”的波形圖、語(yǔ)譜圖和標(biāo)注
SwitchBoard——對(duì)話式電話語(yǔ)音庫(kù),采樣率為8 kHz,包含來(lái)自美國(guó)各個(gè)地區(qū)543人的2400條通話錄音。研究人員用這個(gè)數(shù)據(jù)庫(kù)做語(yǔ)音識(shí)別測(cè)試已有20多年的歷史。
LibriSpeech——免費(fèi)的英文語(yǔ)音識(shí)別數(shù)據(jù)庫(kù),總共1000小時(shí),采樣率為16kHz,包含朗讀式語(yǔ)音和對(duì)應(yīng)的文本。
Thchs-30——清華大學(xué)提供的一個(gè)中文示例,并配套完整的發(fā)音詞典,其數(shù)據(jù)集有30小時(shí),采樣率為16 kHz。
AISHELL-1——希爾貝殼開(kāi)源的 178 小時(shí)中文普通話數(shù)據(jù),采樣率為16kHz。包含400位來(lái)自中國(guó)不同口音地區(qū)的發(fā)音人的語(yǔ)音,語(yǔ)料內(nèi)容涵蓋財(cái)經(jīng)、科技、體育、娛樂(lè)、時(shí)事新聞等。
語(yǔ)音識(shí)別數(shù)據(jù)庫(kù)還有很多,包括16kHz和8kHz的數(shù)據(jù)。海天瑞聲、數(shù)據(jù)堂等數(shù)據(jù)庫(kù)公司提供大量的商用數(shù)據(jù)庫(kù),可用于工業(yè)產(chǎn)品的開(kāi)發(fā)。
08
語(yǔ)音識(shí)別評(píng)價(jià)指標(biāo)
假設(shè)"我們明天去動(dòng)物園"的語(yǔ)音識(shí)別結(jié)果如下:

識(shí)別結(jié)果包含了刪除、插入和替換錯(cuò)誤。
度量語(yǔ)音識(shí)別性能的指標(biāo)有許多個(gè),通常使用測(cè)試集上的詞錯(cuò)誤率 ( word Error Rate,WER ) 來(lái)判斷整個(gè)系統(tǒng)的性能,其公式定義如下:

其中,NRef表示測(cè)試集所有的詞數(shù)量,NDel表示識(shí)別結(jié)果相對(duì)于實(shí)際標(biāo)注發(fā)生刪除錯(cuò)誤的詞數(shù)量,NSub代表發(fā)生替換錯(cuò)誤的詞數(shù)量,而NIns則表示發(fā)生插入錯(cuò)誤的詞數(shù)量。
針對(duì)中文普通話,評(píng)價(jià)指標(biāo)也經(jīng)常采用字錯(cuò)誤率 ( CER ),即用單字而不是詞來(lái)計(jì)算錯(cuò)誤率。
作者:洪青陽(yáng),廈門(mén)大學(xué)副教授,天聰智能創(chuàng)始人,主要研究方向是語(yǔ)音識(shí)別、聲紋識(shí)別,先后主持國(guó)家自然基金兩項(xiàng),科技部創(chuàng)新基金兩項(xiàng)。牽頭組建廈門(mén)大學(xué)智能語(yǔ)音實(shí)驗(yàn)室,帶領(lǐng)xmuspeech團(tuán)隊(duì)連續(xù)兩屆獲東方語(yǔ)種識(shí)別 ( OLR ) 競(jìng)賽第一名,成功研發(fā)國(guó)內(nèi)第一套閩南語(yǔ)合成系統(tǒng)。具有豐富的工業(yè)界研發(fā)經(jīng)驗(yàn),與華為、云從、掌數(shù)科技等知名企業(yè)合作,承擔(dān)過(guò)大量的智能語(yǔ)音項(xiàng)目,核心技術(shù)應(yīng)用到華為智能手機(jī)和全國(guó)十五個(gè)省市的司法/社保/證券/電力系統(tǒng)。長(zhǎng)期從事本科生、研究生的語(yǔ)音識(shí)別教學(xué)工作,從動(dòng)態(tài)時(shí)間規(guī)整 ( DTW )、隱馬爾可夫模型 ( HMM ) 到E2E語(yǔ)音識(shí)別框架,與時(shí)俱進(jìn)更新教學(xué)內(nèi)容,積累了豐富的教學(xué)經(jīng)驗(yàn)。