日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

編者按:在人工智能飛速發展的今天,語音識別技術成為很多設備的標配,過去五年間,語音識別的需求逐漸爆發。然而,目前語音識別相關的應用及使用場景仍具有局限性,因此,國內外眾多企業紛紛開始探索語音識別的新算法新策略。本文中,百分點感知智能實驗室從技術發展的角度出發,深入分析了語音識別技術不同發展階段的模型構建和優化,以及未來發展趨勢。

語音識別技術簡單的說,就是將計算機接收到的音頻信號轉換為相應的文字。語音識別技術從上個世紀50年代出現,發展到現在已有半個多世紀的歷史。經過多輪技術迭代,語音識別已經從最早的孤立數字識別,發展到今天復雜環境下的連續語音識別,并且已經應用到各種電子產品中,為人們的日常生活帶來許多便利。

從技術發展的歷史來講,語音識別技術主要經歷了三個時代,即基于模版匹配的技術框架、基于統計機器學習的技術框架和最新的端到端技術框架。近年來,得益于深度學習技術突破性的進展,以及移動互聯網的普及帶來的海量數據的積累,語音識別已經達到了非常高的準確率,在某些數據集上甚至超過了人類的識別能力。

隨著識別準確率的提升,研究者們的關注點也從語音識別的準確率,漸漸轉移到了一些更加復雜的問題上,比如多語種混合語音識別。該問題涉及到多語種混合建模、遷移學習和小樣本學習等技術。對某些小語種來說,由于無法獲得足夠多的訓練樣本,因此,如何從小樣本數據中構建可靠的語音識別系統成為一個待解決的難題。

針對該問題,百分點科技提出了一系列的算法,針對小語種語音識別系統構建中出現的訓練樣本獲得困難、文本書寫規則復雜、發音單元不統一等問題作了相應的優化。基于這些技術,百分點科技已經成功研發出數十種小語種語音識別系統,在支持語種的數量,以及識別準確率上都處于國內領先地位。

接下來的章節中,將重點介紹語音識別技術不同發展階段經歷的重要技術框架,包括傳統的HMM-GMM和HMM-DNN,以及最新的端到端方法等。

一、GMM-HMM/DNN-HMM

GMM-HMM

先從GMM-HMM開始說,GMM-HMM基本使用HTK或者Kaldi進行開發。在2010年之前,整個語音識別領域都是在GMM-HMM里做一些文章,如圖一所示。

圖三展示了基本的訓練前準備,此外就是純訓練的過程。純訓練解決的是如何將圖三右邊的特征向量分配到左邊狀態序列里的問題。

DNN-HMM

在2010年前后,由于深度學習的發展,整個語音識別的框架開始轉變成DNN-HMM。其實就是把原來用GMM對特征進行建模,轉換成用神經網絡去建模。由于神經網絡從2010年至今不斷發展,各種不同的結構不斷出現,也帶來了不同的效果。DNN-HMM的基本結構如圖四所示。

從上述的實驗結果中可以看到,相對傳統的GMM-HMM框架,DNN-HMM在語音識別任務上可以獲得全面的提升。DNN-HMM之所以取得巨大的成功,通常被認為有三個原因:第一,DNN-HMM舍棄了聲學特征的分布假設,模型更加復雜精準;第二,DNN的輸入可以采用連續的拼接幀,因而可以更好地利用上下文的信息;第三,可以更好的利用鑒別性模型的特點。

二、端到端語音識別

端到端語音識別,是近年來業界研究的熱點,主流的端到端方法包括CTC,RNN-T和LAS,如圖五所示。

CTC在業界的使用有2個辦法,有人把它當作聲學模型使用,有人把它當作語音識別的全部。但目前工業界系統都只把CTC當作聲學模型來使用,其效果更好。純端到端的使用CTC做語音識別,效果還是不夠好。

這里說下chain模型,Chain模型的起源來自kaldi。kaldi當時也想做CTC,但發現kaldi體系下CTC效果不好,但CTC的一些思想特別好,后來Dan Povey發現可以在此基礎上做一些優化調整,于是就把chain模型調好了。但在kaldi體系里chain模型的效果的確比原來模型的效果要更好,這個在Dan Povey的論文中有解釋。

CTC時代的改進讓語音識別技術朝著非常好的方向發展,CTC還有一個貢獻就是前面提到的建模單元,CTC把建模單元從原來的cd-states調整為cdphone,或到后面的音節(syllable),或到后面的字級別(char)。因此,端到端的語音識別系統里就很少用前面細粒度的建模。目前很多公司的線上系統都是基于LSTM的CTC系統。

CTC在業界用得最成功的論文是《Fast and Accurate Recurrent Neural NetworkAcoustic Models for Speech Recognition》,論文里探索出來在CTC領域比較穩定的模型結構是5層LSTM的結構。這篇文章從LSTM是單向還是雙向,建模單元是cdstate是ciphone還是最終的cdphone等問題進行探究。集中建模單元的比較結果,如下面的表格所示。從表格上可以看到,性能最優的是cdphone的雙向LSTM的CTC系統。但是由于雙向在線上流式處理會不好處理,所以單向LSTM的性能也是可以接受的。

接下來就是注意力機制(attention)。注意力機制天然適合seq2seq的模型,而語音天然就是序列問題。LAS的全稱叫做listen, attended and spell,此模型拉開了純端到端語音識別架構的序幕,一個LAS模型的整體結構如圖九所示。LAS目前應該是所有網絡結構里面最好的模型,性能也是最好的,這點毋庸置疑,超過了原來基于LSTM-CTC的baseline。但是LAS要求見到所有的輸入,這對流式解碼來說是不允許的,這一致命的問題影響了這種算法的推進,也引起了眾多研究者的關注。當然最好的辦法就是把attention對輸入那塊改小點,出了一個叫Mocha的算法,該算法以后有機會再做介紹。

CTC算法雖然是一個里程牌的算法,但CTC算法也有缺陷,比如要求每一幀是條件獨立的假設,比如要想性能好需要外加語言模型。一開始的LAS模型效果也不夠好,實驗對比的結果如下表所示。

谷歌最終在大數據集上驗證了性能比基線好。這是一個里程碑,但這些都是Alex Graves工作的延展。由于RNN-T天然具備流式,外加RNN-T模型效果好,谷歌不斷的宣傳這個模型結構,此模型最終也被谷歌上線到pixel手機上。

Transformer/Conformer

transformer和conformer是目前性能最好的模型。transformer模型是從NLP借鑒到ASR領域,從ESPnet的論文里證明, transformer模型在各個數據集上效果比RNN或者kaldi的模型都好,如圖十一所示。

最后,為什么要去大家都去研究端到端模型,其實可以從兩方面來考慮:第一,端到端模型把原來傳統的模型簡化到最簡單的模型,拋棄了傳統的那些復雜的概念和步驟;第二,其實整個端到端模型用很小的模型結構大小就達到原來幾十G模型的效果。谷歌論文的原文里寫著:

In this section, we compare the proposedRNN-T+LAS model (0.18G inmodel size)to a state-of-the-art conventional model. This model uses alow-frame-rate (LFR) acoustic modelwhich emits contextdependent phonemes[11] (0.1GB), a 764k-word pronunciation model (2.2GB), a 1st-pass 5-gramlanguage-model (4.9GB), as well as a 2nd-pass larger MaxEnt language model(80GB)[31]. Similar to how the E2E model incurs cost with a 2nd-pass LASrescorer, the conventional model also incurs cost with the MaxEnt rescorer. Wefound that for voice-search traffic, the 50% computation latency for the MaxEntrescorer is around 2.3ms and the 90% computation latency is around 28ms. InFigure 2, we compare both the WER and EP90 of the conventional and E2E models.The figure shows that for an EP90 operating point of 550ms or above, the E2Emodel has a better WER and EP latency tradeoff compared to the conventionalmodel. At the operating point of matching 90% total latency (EP90 latency + 90%2nd-pass rescoring computation latency) of E2E and server models, Table 6 showsE2E gives a 8% relative improvement over conventional, while being more than400-times smaller in size.

但端到端模型真正與業務相結合時,遇到的問題還是很明顯,比如:不同場景下模型需要如何調整?遇到一些新詞的時候LM如何調整?針對此類問題,學術界和工業界都在尋找新的解決方案。

分享到:
標簽:百分點 感知 探究 發展階段 實驗室 語音識別 智能 技術
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定