【ITBEAR】8月22日消息,標題:科大訊飛與華為互訪背后的新技術揭秘:極速超擬人交互技術引關注
7月底,科大訊飛董事長劉慶峰攜一眾高管訪問華為,與華為副董事長、輪值董事長徐直軍會面,具體目的未透露。而一周后,華為常務董事、終端BG董事長余承東也帶隊回訪科大訊飛,同樣未透露訪問目的。這一系列高層互動在業界引起了廣泛猜測。
據ITBEAR了解,不久后,科大訊飛的投資者論壇中出現了一則傳言,稱華為與訊飛將終止合作,導致科大訊飛股價波動。對此,科大訊飛在投資者互動平臺上迅速回應,強調與華為在多個方面保持著良好的合作關系,傳言逐漸平息。
8月19日,科大訊飛公眾號發布了一則名為“極速超擬人交互”的新技術演示,雖然只是四條簡單的“人機對話”視頻,卻在業內迅速引發了關注。有知情人士透露,科大訊飛與華為之間高管互訪的原因正是為了這項新技術,雙方已重新簽訂了戰略深化合作協議。
在傳統智能語音技術中,無論是國外的Nuance還是國內的科大訊飛,都是通過語音識別和語音合成兩個模塊來實現交互。然而,隨著大模型浪潮的到來,技術路徑發生了變革,大模型開始替代原有的技術后臺。而科大訊飛此次推出的“極速超擬人交互”技術,據稱采用了端到端的神經網絡建模,直接從語音映射到語音,省略了中間處理步驟,實現了更快、更流暢、更準確的交互體驗。
從科大訊飛發布的視頻來看,極速超擬人交互技術的最直觀感受就是響應速度的提升。據統計,市面上主流語音交互技術的響應時間大多在2秒至2.5秒之間,而這項新技術將響應時間縮短至0.9秒,且支持隨時打斷和插話。這一速度已經逼近了人類對話的響應時間,為人機交互帶來了質的飛躍。
除了速度的提升,端到端方案還帶來了聲音感知表達上的準確性和豐富性。傳統指令型語音技術只能識別某些特定發音并給出響應,而超擬人交互技術不僅能從用戶聲音中獲取指令信息,還能通過語速、語調、口音以及獨特的聲音信息來綜合感知用戶的各種情緒狀態。在表達方面,這項技術也能以富有情感的方式回應用戶,并可以根據用戶需求變換表達方式,如激昂、低沉、幽默等,甚至可以模擬知名人物角色的聲音。
多項數據表明,無論是國內還是全球,傳統機器向聯網智能終端的轉型將迎來井噴式增長。而大模型賦能下的智能語音技術的進步正是推動這一增長的核心動力之一。在具體場景中,語音領域的所有應用幾乎都可以用新技術重塑一遍。例如,在智能汽車行業,超擬人交互技術可以讓座艙里的語音助手成為車主的陪伴者和旅行安全的守護者。在養老和育兒領域,具備邏輯推理和情緒感知能力的智能語音可以給老人和孩子帶來具有趣味和溫度的關懷與陪伴。對于手機和電腦等智能終端,高速響應的超擬人交互技術也將帶來遠超Siri的體驗。
更快速、更真實、更擬人的交互技術也將激發新的交互產品可能性。有長期關注人工智能領域的投資者在社交媒體上表示,這項技術相當于人工智能語音的“ChatGPT時刻”。盡管新技術的全面落地和正式開放還有待觀察,但從華為等合作伙伴以及投資者的反饋來看,外界對于超擬人交互技術的關注和贊譽已經超越了科大訊飛自身的重視程度。作為大模型浪潮之前智能語音市場的國內巨頭,以及大模型浪潮以來國產大模型的頭號玩家之一,科大訊飛的新技術演示能力往往落后于其落地能力。這次也不例外,超擬人交互技術在演示視頻推送之前,也許已經在包括華為在內的多個合作伙伴那里悄然落地。