2021年2月19日,出門問問聯合西北工業大學聯合推出全球首個面向產品和工業界的端到端語音識別開源工具 —— WeNet。自發布以來,WeNet 因其簡潔性、易用性和產品優先 (Production First and Production Ready) 的定位,受到了廣泛關注、使用和好評。目前,短短6個月的時間里,WeNet 已在世界最大的代碼托管平臺Github 上獲得超過1000個 star,成為當前最流行的產品級端到端語音識別框架。
WeNet 1.0 正式發布 從橫空出世到迅速流行
2020年10月,WeNet 項目在出門問問內部啟動,經過3個月的內部開發于2021年2月初在 Github 發布了第一個開源版本。隨后 WeNet 快速更新多項重要功能,在學術界和工業界引起了熱烈反響。2021年6月,WeNet 正式發布1.0版本,其完善的功能和優秀的性能極大地賦能了眾多行業的語音識別應用。
國產開源端到端語音識別框架流行度
相較于目前主流語音識別開源工具,WeNet 在研發之前就明確了幾項基本原則,以指導項目的開發。
易用性:使用方便,提供一鍵式訓練腳本、預訓練模型和多平臺運行時工具。
可用性:專注于 ASR 落地,提供一套適合工業場景的性能最優的訓練和部署方案。
可讀性:代碼簡明直接,減少抽象,提供詳實的注釋和文檔,方便語音識別初學者學習。
從 WeNet 1.0 版本的功能,可以看出 WeNet 的開發團隊一直堅持踐行著這些基本原則,不忘初心,方得始終。
支持 Aishell-1 ,Aishell-2 ,Librispeech ,Gigaspeech ,Multi_cn 一鍵式腳本,提供數據量最大的中文和英文預訓練模型,在 Aishell-1 ,Aishell-2 和 Gigaspeech 上準確率達到 SOTA 。
推理方案支持 Android 平臺和 x86 平臺,支持基于 GRPC 和 Websocket 的服務端推理和端側推理。
支持時間戳,端點檢測,長語音模式,語言模型等工業場景關鍵功能。
提供中英文雙語文檔和詳盡的代碼注釋,WeNet 步行街 微信公眾號對每個重要功能都有圖文并茂的詳細介紹。
WeNet“小而精” 廣泛賦能各行業
WeNet 一經問世,即被廣大用戶譽為“產品化集成度最好的框架”。根據不完全統計,目前已有數百家公司采用 WeNet 進行語音識別產品研發,或借助 WeNet 設計思想來構建自己的語音識別系統。這其中包括幾十家互聯網和其他垂直行業的知名頭部公司,其應用范圍涵蓋了智能車載、智能家居、智能客服、音頻內容生產、直播、會議等大量語音識別應用場景。
出門問問內部利用 WeNet 方案,在各個真實場景上相比原系統獲得了10%-30%以上的相對提升。WeNet 的用戶也均反饋在各類產品中得到了同數量級的一致性提升。
西北工業大學計算機學院教授、博士生導師、音頻語音與語言處理研究組(ASLP@NPU)負責人謝磊表示:和其他語音識別相關工具包“大而全”的理念不同,正如 WeNet 名字中所表達的,WeNet 是面向大眾都可以快速學習和在實際應用部署的工具包,具有鮮明的“小而精”的特色。WeNet 基于SOTA 的深度學習模型架構,具備數據準備、模型訓練、工程部署整條易用的鏈路,同時融合了面向實際應用的各種特性,比如面向領域適配增加了語言模型的支持,又如時間戳和端點檢測等功能的支持等。據了解,很多高校都已經使用 WeNet 作為學習和科研工具,同時眾多公司也在實際產品中應用 WeNet 作為重要部署工具。
WeNet 的出現解決了目前主流語音開源工具之痛點,且各項性能指標達到業界最優,成為世界級技術領先的開源工具。如果用簡單的幾個詞總結 WeNet 1.0 的特性的話,那就是“更快、更高、更強、更有生產力”。
更快:WeNet 1.0 中支持了多機多卡的分布式訓練,訓練更快;解碼時也可以做歷史chunk限制,解碼更快。
更高:更高的識別率。WeNet 1.0 中升級 U2 算法到 U2++,識別率更高,并支持了語言模型,進一步提高識別率。目前 WeNet 的識別準確率和速度指標均達到業界最優。
更強:更強大的功能。WeNet 完善了標準數據集的支持;支持了時間戳、n-best、對齊、endpoint 等識別強相關任務;并建立了系統的文檔。
更有生產力:在 x86 server 和 on-device android的基礎上,結合語言模型支持、gRPC 支持、n-best、時間戳、endpoint 等的支持,WeNet 1.0 已經構建了一個完整完善的語音識別所需的方方面面的能力,也有工業界應用的典型案例。
WeNet使用最前沿的深度學習模型結構U2++
WeNet開放開源 AI生態生生不息
“只有愿意以自己為基石,開放自己的資源和能力,形成的產業鏈和生態體系,才能夠生生不息的去發展。”這也是WeNet 的團隊初心。
WeNet 是由出門問問發起和主導的開源項目,同時 Wenet 能夠快速發展并獲得廣泛的認可,離不開西北工業大學和開源社區的大力支持。
聯國內頂級語音實驗室
出門問問和西工大 ASLP 實驗室(音頻、語音與語言處理研究組)長期保持著密切合作。2015年雙方合作研發了TicWatch手表上的語音合成(TTS)技術,實現了首個支持語音播報的智能手表,近期則一直聯合探索端到端語音識別架構,以及最適合工業界應用落地的語音識別方案。如今 WeNet 成功用于各行業語音產品的事實已經證明,CTC + WFST + AED Rescoring 方案是目前端到端語音識別的最佳實踐方案之一,而 WeNet 能夠在項目一開始就找到這條正確的路,離不開 ASLP 實驗室的老師同學們提供的寶貴經驗和建議。
擁抱開源社區的力量
WeNet 是站在巨人肩膀上的。Espnet 提供了模型的實現方法,Pytorch 生態提供了簡單高效的建模和推理框架,Essen 和 Kaldi 提供了CTC WFST 的構建和解碼的實現方法。正是使用和借鑒了這些優秀開源項目,WeNet 才能在短期內支持眾多的功能并提供優秀的性能。
WeNet 的開發團隊中除了出門問問的工程師,也包含來自京東、網易互娛、喜馬拉雅、 Bigo 、商湯科技 、聲瀚科技等公司的同學,他們利用自己的業余時間幫助 WeNet 完善功能、修復 bug 、解答用戶問題,為 WeNet 的發展做了巨大的貢獻。
希爾貝殼和 Gigaspeech 社區則分別為 WeNet 提供了中文 Aishell-2 和英文 Gigaspeech 數據,助力 WeNet 發布了高性能的中文和英文預訓練模型。
喜馬拉雅團隊使用 WeNet 構建了自己語音服務,并為 WeNet 項目貢獻了其 grpc 版本的服務端實現。作業幫團隊使用 ONNX 對 WeNet 模型進行推理優化,并將其實現方案分享給了社區。
而對 WeNet 最重要的貢獻則來自于每一位 WeNet 的用戶,Wenet 的微信交流群里已經有1200多名用戶,他們對框架的功能和性能進行了成千上萬次的驗證,反饋了大量的問題、需求和建議,推動著 WeNet 的改進和成長。
正是因為開源,讓 WeNet 可以有機會經受千錘百煉,在遇到問題時能及時得到八方支援,迅速成長為一個健壯的高性能的框架。
“這是一個大生態、大協同、大成長的時代,開放開源,共生協同,各得其所,是我們面向未來的態度。”目前,出門問問 WeNet 正在迅速迭代,專注語音識別,堅持 “Production First and Production Ready”,追求極致的產品力,同時也追求項目和工程上的極致。出門問問 WeNet 秉以俠之大者、為國為民,將與開發者們共同探索 AI 和中國科技的未來。