中國版GPT-4o來了!沒等來OpenAI的“Her”,訊飛星火版“Her”搶先到來,打造國內首個全新中文交互模式,并將在8月底率先全民開放使用。這意味著國內首個對標GPT-4o語音功能的產品正式到來。
8月19日,科大訊飛宣布星火語音大模型更新,正式推出星火極速超擬人交互,并將其能力落地在訊飛星火APP“小星暢聊”功能中。星火極速超擬人交互響應速度更快,對話更加自然流暢,隨時打斷、插話之后還能秒回。有趣的是,星火極速超擬人交互還能感知你的情緒變化,并共情地回應你的喜怒哀樂,在表達上更加自然、更具情感。
從官方展示效果來看,星火極速超擬人交互在響應和打斷速度、情緒感知情感共鳴、語音可控表達、人設扮演四個方面實現突破,讓整體的交互體驗更自然、更有趣,就像電影《Her》中展現的智能且人性化的聊天效果一樣。
在響應速度上,星火極速超擬人交互支持極速響應多輪交互,能夠在對話過程中生成高質量的回答,并且響應速度更快、與GPT-4o響應時間相當,幾乎與人類正常聊天節奏一致,并且對話中允許用戶隨時打斷、插話,可謂實現了人機對話的“無縫銜接”。
在情緒感知情感共鳴上,星火極速超擬人交互可以在對話中感知到用戶的喜、怒、哀、樂、害怕、困惑等各類情緒,不僅能根據聲音的內容來判斷,還能像朋友一樣用合適的情感回應用戶。比如,用笑聲回應開心,安慰悲傷情緒……此刻是不是有一種《Her》的既視感。同時,星火極速超擬人交互還能識別用戶咳嗽、貓和狗的叫聲等,給出對應的回復語。
相比以前語音交互中機器聲音無法調整的情況,現在只要語音發出指令,就可以控制超擬人在情感、風格、方言、強度等表達方式上做出變化。“用調侃的方式給我說個笑話”、“用東北話給外地朋友介紹下鍋包肉”、“說的更快一點”……
此外,星火極速超擬人交互還支持“角色扮演”,可以模仿不同的角色陪你聊天。比如,“模仿孫悟空的聲音來和小孩子對話”,超擬人便會模仿孫悟空的聲音和人設和小朋友聊天。
今年5月OpenAI驚艷亮相了GPT-4o,展示了堪比電影《Her》中的人機交互體驗,但遲遲沒有面向用戶開放,上個月底也只是選擇性地向一小部分Alpha測試參與者開放部分語音功能。
訊飛星火版Her的到來,可以說比OpenAI搶先一步落地,也代表國產大模型開始從追趕、對標到進行自主創新、走出差異化路線。
據科大訊飛透露,此次星火極速超擬人交互采用統一神經網絡直接實現語音到語音端到端建模,對比傳統的語音轉文字、大模型生成回復文本、語音合成三步驟來說可謂“一氣呵成”,大幅縮短響應時間的同時,也提升了交互擬人度和流暢度。
同時,結合訊飛多維度的語音屬性解耦表征訓練準則,將內容、音色、情感、語言、風格都信息進行解耦訓練,使得星火極速超擬人交互能夠更加靈活控制各類元素,還能根據需求便捷定制,讓系統快速落地應用。
正是基于以上技術創新,8月底星火極速超擬人交互將率先全民開放使用。科大訊飛表示,基于全新端到端框架創新基礎上,星火極速超擬人交互目前主要開放語音模態,未來會持續在交互上創新突破,不僅會帶來更多更實用、豐富的功能,也會拓展到更多模態。
在2023年科大訊飛全球1024開發者節上,華為科技有限公司副董事長、輪值董事長徐直軍曾表示,“華為公司在全球所有使用的智能終端的語音技術,都是來自于科大訊飛,而且不僅僅是中文”。這一波語音能力的革新,多輪交互、語義理解、指令跟隨、邏輯推理、情感共鳴……代表了智能語音交互領域的一大階躍。全新的星火超擬人交互模式達到了類人級別的極速響應和聰明、實用、流暢、自然的非凡表現,這一技術的應用和普及還隱藏著巨大的可能性——語音市場在這個時代將被重寫,語音交互帶動萬物互聯的第六次產業浪潮有望出現一次井噴。
該項技術突破,將會極大地促進智能語音技術進一步應用于智能手機、智能汽車、智能家電以及智能家居等各類消費級產品當中,并且隨著全球化進程的加深,對多語種、多方言的需求也會持續增加。據國際數據公司IDC分析,預計到2030年,全球智能語音服務市場規模將達約731.6 億美元,復合增長率27%。科大訊飛憑借上述技術突破有望收獲新一輪產業紅利。