日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

從2017年全面向技術轉型至今,京東不僅用技術重塑了零售的生態,更是突破了零售的邊界,將技術全面拓展至數字科技、物流、健康等眾多領域。然而,由于與零售密切相關,大多數消費者僅在購物、物流等環節體驗到京東的技術進步。其實,在這些常見場景之外,京東的語音技術也已經擁有成熟的應用領域,例如京東智能客服和京東物流大件外呼,語音技術的相關研究也取得了重大進展,并獲得國際認可。

備受全球關注的第21屆國際語音通訊會議INTERSPEECH2020在上海召開。作為國際語音通訊協會(International Speech Communication Association,ISCA)主辦的頂級國際會議,INTERSPEECH是國際公認的語音領域兩大頂會之一。此次會議共接收有效論文投稿2140篇,錄取1022篇,覆蓋語音、信號處理、口語語言處理等多個方面。京東AI研究院共計4篇論文被收錄其中,包括獨立發表的3篇論文及與德克薩斯大學達拉斯分校聯合發表的1篇論文,內容涵蓋語音識別、語音增強、聲紋識別、語音合成等多個技術方向的創新突破。

聲源定位、增強和辨識是涉及到人機交互、語音增強、數字信號處理等的重要技術,在智能家居、智能安防等領域具有重要的應用價值。而在實際應用中,噪聲與混響的存在常常會導致算法性能下降,尤其在室內環境中,混響、多聲源混疊等干擾尤為明顯。如何有效利用麥克風陣列及傳統聲學處理方法,和深度神經網絡結合,提高復雜環境下的聲源定位、增強和辨識任務的性能,具有重要的科學意義和應用價值。

針對聲源定位和辨識問題,京東AI研究院在《Sound Event Localization and Detection Based on Multiple DOA Beamforming and Multi-task Learning》論文中提出了一種基于多方位波束形成和多任務學習的聲音事件檢測和定位方法,主要特點為利用傳統聲學信號處理為神經網絡提供更為豐富的信息。具體而言,通過指向不同預定方位的固定波束形成,可提取各個方位的聲源信號,并抑制該方位之外的干擾信號。該方法無需預先進行聲源定位或掩蔽估計,即可獲得差異化、多樣化的聲學空間表示。根據在DCASE2019聲音事件檢測和定位數據集上進行的評估,顯示這個算法取得了最好的綜合性能。

為了降低混響以增強語音,京東AI研究院與國際語音通訊協會主席John Hansen研究組進行了合作,和德克薩斯大學達拉斯分校共同發表了《SkipConvNet: Skip Convolutional Neural Network for Speech Dereverberation using Optimally Smoothed Spectral Mapping》,提出利用全卷積神經網絡提升語音降混響,并提高語音識別和說話人識別的性能。基于“SkipConvNet”的降混響算法,用多個卷積網絡替換UNet的每個跳層連接,為decoder供更為直觀的信息表示。論文還提出了基于最優平滑功率譜估計的預處理步驟,以提高對復雜條件下語音功率譜的表達能力。實驗結果表明,這一方法在語音客觀質量評估上顯著優于基線系統,并明顯提升混響條件下的語音識別/說話人識別的評估指標。

語音識別及聲學前端處理的技術提升為語音交互成為人機交互的重要入口提供了技術支撐。但只識別指令內容是不夠的,真正的智能交互產生的基礎是機器能識別、區分說話人的身份,這就需要依托聲紋識別技術。

京東AI在《The JD AI Speaker Verification System for the FFSVC 2020 Challenge》一文中,基于FFSVC2020比賽提供的1100小時共計120個說話人的數據,京東提出了面向遠場說話人識別的多套數據增強方案。首先,通過波束形成、通道交換和降混響等技術,我們將遠場數據變換到近場;其次,通過估計FFSVC2020近場到遠場數據的房間沖激響應以及仿真生成大量的房間沖激響應,我們增加卷積噪聲以將近場數據變換到遠場;最后,基于錄制的大量的環境噪聲,在近場數據上進一步疊加了加性噪聲。本文詳細測試了上述數據增強方案的性能,并通過實驗結果驗證系統性能可以得到大幅提升。

除了在語音識別技術能力上進行深入研究外,京東還在語音合成的推理速度上進行了更多探索。在《Efficient WaveGlow: An Improved WaveGlow Vocoder with Enhanced Speed》一文中,京東提出了Efficient WaveGlow框架。和傳統的WaveGlow框架一樣,Efficient WaveGlow采用歸一化流作為網絡框架,每一個流操作由一個affine coupling layer和可逆的1x1卷積層構成。通過對Efficient WaveGlow進行改進,京東實現了在沒有明顯的聲音質量下降的情況下,實現CPU上推理速度6倍的提升以及P40顯卡上推理速度5倍的提升。

京東語音技術能獲得國際認可,與其對技術研發的重視密不可分。這些技術將進一步增強京東的智能語音能力。目前,京東智能語音技術已經在智能外呼機器人、客服語音機器人等電話交互場景中實現成熟應用。在技術的加持下,京東不僅會夯實在零售生態的實力與地位,還可以通過技術賦能金融、醫療、教育、健康等行業,為更多用戶提供便利服務。

分享到:
標簽:語音 深耕 技術研究 入選 京東 論文 國際 INTERSPEECH
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定