日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網(wǎng)為廣大站長(zhǎng)提供免費(fèi)收錄網(wǎng)站服務(wù),提交前請(qǐng)做好本站友鏈:【 網(wǎng)站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(wù)(50元/站),

點(diǎn)擊這里在線(xiàn)咨詢(xún)客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會(huì)員:747

編者按:在人工智能飛速發(fā)展的今天,語(yǔ)音識(shí)別技術(shù)成為很多設(shè)備的標(biāo)配,過(guò)去五年間,語(yǔ)音識(shí)別的需求逐漸爆發(fā)。然而,目前語(yǔ)音識(shí)別相關(guān)的應(yīng)用及使用場(chǎng)景仍具有局限性,因此,國(guó)內(nèi)外眾多企業(yè)紛紛開(kāi)始探索語(yǔ)音識(shí)別的新算法新策略。本文中,百分點(diǎn)感知智能實(shí)驗(yàn)室從技術(shù)發(fā)展的角度出發(fā),深入分析了語(yǔ)音識(shí)別技術(shù)不同發(fā)展階段的模型構(gòu)建和優(yōu)化,以及未來(lái)發(fā)展趨勢(shì)。

語(yǔ)音識(shí)別技術(shù)簡(jiǎn)單的說(shuō),就是將計(jì)算機(jī)接收到的音頻信號(hào)轉(zhuǎn)換為相應(yīng)的文字。語(yǔ)音識(shí)別技術(shù)從上個(gè)世紀(jì)50年代出現(xiàn),發(fā)展到現(xiàn)在已有半個(gè)多世紀(jì)的歷史。經(jīng)過(guò)多輪技術(shù)迭代,語(yǔ)音識(shí)別已經(jīng)從最早的孤立數(shù)字識(shí)別,發(fā)展到今天復(fù)雜環(huán)境下的連續(xù)語(yǔ)音識(shí)別,并且已經(jīng)應(yīng)用到各種電子產(chǎn)品中,為人們的日常生活帶來(lái)許多便利。

從技術(shù)發(fā)展的歷史來(lái)講,語(yǔ)音識(shí)別技術(shù)主要經(jīng)歷了三個(gè)時(shí)代,即基于模版匹配的技術(shù)框架、基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的技術(shù)框架和最新的端到端技術(shù)框架。近年來(lái),得益于深度學(xué)習(xí)技術(shù)突破性的進(jìn)展,以及移動(dòng)互聯(lián)網(wǎng)的普及帶來(lái)的海量數(shù)據(jù)的積累,語(yǔ)音識(shí)別已經(jīng)達(dá)到了非常高的準(zhǔn)確率,在某些數(shù)據(jù)集上甚至超過(guò)了人類(lèi)的識(shí)別能力。

隨著識(shí)別準(zhǔn)確率的提升,研究者們的關(guān)注點(diǎn)也從語(yǔ)音識(shí)別的準(zhǔn)確率,漸漸轉(zhuǎn)移到了一些更加復(fù)雜的問(wèn)題上,比如多語(yǔ)種混合語(yǔ)音識(shí)別。該問(wèn)題涉及到多語(yǔ)種混合建模、遷移學(xué)習(xí)和小樣本學(xué)習(xí)等技術(shù)。對(duì)某些小語(yǔ)種來(lái)說(shuō),由于無(wú)法獲得足夠多的訓(xùn)練樣本,因此,如何從小樣本數(shù)據(jù)中構(gòu)建可靠的語(yǔ)音識(shí)別系統(tǒng)成為一個(gè)待解決的難題。

針對(duì)該問(wèn)題,百分點(diǎn)科技提出了一系列的算法,針對(duì)小語(yǔ)種語(yǔ)音識(shí)別系統(tǒng)構(gòu)建中出現(xiàn)的訓(xùn)練樣本獲得困難、文本書(shū)寫(xiě)規(guī)則復(fù)雜、發(fā)音單元不統(tǒng)一等問(wèn)題作了相應(yīng)的優(yōu)化。基于這些技術(shù),百分點(diǎn)科技已經(jīng)成功研發(fā)出數(shù)十種小語(yǔ)種語(yǔ)音識(shí)別系統(tǒng),在支持語(yǔ)種的數(shù)量,以及識(shí)別準(zhǔn)確率上都處于國(guó)內(nèi)領(lǐng)先地位。

接下來(lái)的章節(jié)中,將重點(diǎn)介紹語(yǔ)音識(shí)別技術(shù)不同發(fā)展階段經(jīng)歷的重要技術(shù)框架,包括傳統(tǒng)的HMM-GMM和HMM-DNN,以及最新的端到端方法等。

一、GMM-HMM/DNN-HMM

GMM-HMM

先從GMM-HMM開(kāi)始說(shuō),GMM-HMM基本使用HTK或者Kaldi進(jìn)行開(kāi)發(fā)。在2010年之前,整個(gè)語(yǔ)音識(shí)別領(lǐng)域都是在GMM-HMM里做一些文章,如圖一所示。

圖三展示了基本的訓(xùn)練前準(zhǔn)備,此外就是純訓(xùn)練的過(guò)程。純訓(xùn)練解決的是如何將圖三右邊的特征向量分配到左邊狀態(tài)序列里的問(wèn)題。

DNN-HMM

在2010年前后,由于深度學(xué)習(xí)的發(fā)展,整個(gè)語(yǔ)音識(shí)別的框架開(kāi)始轉(zhuǎn)變成DNN-HMM。其實(shí)就是把原來(lái)用GMM對(duì)特征進(jìn)行建模,轉(zhuǎn)換成用神經(jīng)網(wǎng)絡(luò)去建模。由于神經(jīng)網(wǎng)絡(luò)從2010年至今不斷發(fā)展,各種不同的結(jié)構(gòu)不斷出現(xiàn),也帶來(lái)了不同的效果。DNN-HMM的基本結(jié)構(gòu)如圖四所示。

從上述的實(shí)驗(yàn)結(jié)果中可以看到,相對(duì)傳統(tǒng)的GMM-HMM框架,DNN-HMM在語(yǔ)音識(shí)別任務(wù)上可以獲得全面的提升。DNN-HMM之所以取得巨大的成功,通常被認(rèn)為有三個(gè)原因:第一,DNN-HMM舍棄了聲學(xué)特征的分布假設(shè),模型更加復(fù)雜精準(zhǔn);第二,DNN的輸入可以采用連續(xù)的拼接幀,因而可以更好地利用上下文的信息;第三,可以更好的利用鑒別性模型的特點(diǎn)。

二、端到端語(yǔ)音識(shí)別

端到端語(yǔ)音識(shí)別,是近年來(lái)業(yè)界研究的熱點(diǎn),主流的端到端方法包括CTC,RNN-T和LAS,如圖五所示。

CTC在業(yè)界的使用有2個(gè)辦法,有人把它當(dāng)作聲學(xué)模型使用,有人把它當(dāng)作語(yǔ)音識(shí)別的全部。但目前工業(yè)界系統(tǒng)都只把CTC當(dāng)作聲學(xué)模型來(lái)使用,其效果更好。純端到端的使用CTC做語(yǔ)音識(shí)別,效果還是不夠好。

這里說(shuō)下chain模型,Chain模型的起源來(lái)自kaldi。kaldi當(dāng)時(shí)也想做CTC,但發(fā)現(xiàn)kaldi體系下CTC效果不好,但CTC的一些思想特別好,后來(lái)Dan Povey發(fā)現(xiàn)可以在此基礎(chǔ)上做一些優(yōu)化調(diào)整,于是就把chain模型調(diào)好了。但在kaldi體系里chain模型的效果的確比原來(lái)模型的效果要更好,這個(gè)在Dan Povey的論文中有解釋。

CTC時(shí)代的改進(jìn)讓語(yǔ)音識(shí)別技術(shù)朝著非常好的方向發(fā)展,CTC還有一個(gè)貢獻(xiàn)就是前面提到的建模單元,CTC把建模單元從原來(lái)的cd-states調(diào)整為cdphone,或到后面的音節(jié)(syllable),或到后面的字級(jí)別(char)。因此,端到端的語(yǔ)音識(shí)別系統(tǒng)里就很少用前面細(xì)粒度的建模。目前很多公司的線(xiàn)上系統(tǒng)都是基于LSTM的CTC系統(tǒng)。

CTC在業(yè)界用得最成功的論文是《Fast and Accurate Recurrent Neural NetworkAcoustic Models for Speech Recognition》,論文里探索出來(lái)在CTC領(lǐng)域比較穩(wěn)定的模型結(jié)構(gòu)是5層LSTM的結(jié)構(gòu)。這篇文章從LSTM是單向還是雙向,建模單元是cdstate是ciphone還是最終的cdphone等問(wèn)題進(jìn)行探究。集中建模單元的比較結(jié)果,如下面的表格所示。從表格上可以看到,性能最優(yōu)的是cdphone的雙向LSTM的CTC系統(tǒng)。但是由于雙向在線(xiàn)上流式處理會(huì)不好處理,所以單向LSTM的性能也是可以接受的。

接下來(lái)就是注意力機(jī)制(attention)。注意力機(jī)制天然適合seq2seq的模型,而語(yǔ)音天然就是序列問(wèn)題。LAS的全稱(chēng)叫做listen, attended and spell,此模型拉開(kāi)了純端到端語(yǔ)音識(shí)別架構(gòu)的序幕,一個(gè)LAS模型的整體結(jié)構(gòu)如圖九所示。LAS目前應(yīng)該是所有網(wǎng)絡(luò)結(jié)構(gòu)里面最好的模型,性能也是最好的,這點(diǎn)毋庸置疑,超過(guò)了原來(lái)基于LSTM-CTC的baseline。但是LAS要求見(jiàn)到所有的輸入,這對(duì)流式解碼來(lái)說(shuō)是不允許的,這一致命的問(wèn)題影響了這種算法的推進(jìn),也引起了眾多研究者的關(guān)注。當(dāng)然最好的辦法就是把a(bǔ)ttention對(duì)輸入那塊改小點(diǎn),出了一個(gè)叫Mocha的算法,該算法以后有機(jī)會(huì)再做介紹。

CTC算法雖然是一個(gè)里程牌的算法,但CTC算法也有缺陷,比如要求每一幀是條件獨(dú)立的假設(shè),比如要想性能好需要外加語(yǔ)言模型。一開(kāi)始的LAS模型效果也不夠好,實(shí)驗(yàn)對(duì)比的結(jié)果如下表所示。

谷歌最終在大數(shù)據(jù)集上驗(yàn)證了性能比基線(xiàn)好。這是一個(gè)里程碑,但這些都是Alex Graves工作的延展。由于RNN-T天然具備流式,外加RNN-T模型效果好,谷歌不斷的宣傳這個(gè)模型結(jié)構(gòu),此模型最終也被谷歌上線(xiàn)到pixel手機(jī)上。

Transformer/Conformer

transformer和conformer是目前性能最好的模型。transformer模型是從NLP借鑒到ASR領(lǐng)域,從ESPnet的論文里證明, transformer模型在各個(gè)數(shù)據(jù)集上效果比RNN或者kaldi的模型都好,如圖十一所示。

最后,為什么要去大家都去研究端到端模型,其實(shí)可以從兩方面來(lái)考慮:第一,端到端模型把原來(lái)傳統(tǒng)的模型簡(jiǎn)化到最簡(jiǎn)單的模型,拋棄了傳統(tǒng)的那些復(fù)雜的概念和步驟;第二,其實(shí)整個(gè)端到端模型用很小的模型結(jié)構(gòu)大小就達(dá)到原來(lái)幾十G模型的效果。谷歌論文的原文里寫(xiě)著:

In this section, we compare the proposedRNN-T+LAS model (0.18G inmodel size)to a state-of-the-art conventional model. This model uses alow-frame-rate (LFR) acoustic modelwhich emits contextdependent phonemes[11] (0.1GB), a 764k-word pronunciation model (2.2GB), a 1st-pass 5-gramlanguage-model (4.9GB), as well as a 2nd-pass larger MaxEnt language model(80GB)[31]. Similar to how the E2E model incurs cost with a 2nd-pass LASrescorer, the conventional model also incurs cost with the MaxEnt rescorer. Wefound that for voice-search traffic, the 50% computation latency for the MaxEntrescorer is around 2.3ms and the 90% computation latency is around 28ms. InFigure 2, we compare both the WER and EP90 of the conventional and E2E models.The figure shows that for an EP90 operating point of 550ms or above, the E2Emodel has a better WER and EP latency tradeoff compared to the conventionalmodel. At the operating point of matching 90% total latency (EP90 latency + 90%2nd-pass rescoring computation latency) of E2E and server models, Table 6 showsE2E gives a 8% relative improvement over conventional, while being more than400-times smaller in size.

但端到端模型真正與業(yè)務(wù)相結(jié)合時(shí),遇到的問(wèn)題還是很明顯,比如:不同場(chǎng)景下模型需要如何調(diào)整?遇到一些新詞的時(shí)候LM如何調(diào)整?針對(duì)此類(lèi)問(wèn)題,學(xué)術(shù)界和工業(yè)界都在尋找新的解決方案。

分享到:
標(biāo)簽:百分點(diǎn) 感知 探究 發(fā)展階段 實(shí)驗(yàn)室 語(yǔ)音識(shí)別 智能 技術(shù)
用戶(hù)無(wú)頭像

網(wǎng)友整理

注冊(cè)時(shí)間:

網(wǎng)站:5 個(gè)   小程序:0 個(gè)  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會(huì)員

趕快注冊(cè)賬號(hào),推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過(guò)答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫(kù),初中,高中,大學(xué)四六

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動(dòng)步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績(jī)?cè)u(píng)定2018-06-03

通用課目體育訓(xùn)練成績(jī)?cè)u(píng)定