【ITBEAR】訊飛開放平臺今日宣布重大進展,其全新研發的訊飛星火多模態交互大模型已正式上線。這一技術突破實現了從單一的語音交互到音視頻流實時多模態交互的跨越,為用戶帶來更為豐富和自然的交互體驗。
訊飛星火多模態交互大模型首次引入了超擬人數字人技術,該技術使得數字人的軀干和四肢動作能夠與語音內容精準匹配,快速生成相應的表情和動作,從而讓AI形象更加栩栩如生。通過統一文本、語音和表情的表達,該模型在跨模態的語義一致性上取得了顯著成效,使得大模型的情感表達更為真實和連貫。
在交互速度方面,該模型同樣表現出色。它采用了統一的神經網絡,直接實現了語音到語音的端到端建模,從而大大提升了響應速度和流暢性。該模型還能夠敏銳地感知用戶的情緒變化,并根據指令自由調整聲音的節奏、大小和人設,為用戶提供更加個性化的交互體驗。
訊飛星火多模態交互大模型還支持多模態視覺交互。它不僅能夠“聽懂世界”,更能“認清萬物”,通過全面感知具體的背景場景、物流狀態等信息,對任務的理解更加精準。同時,該模型還能夠綜合判斷語音、手勢、行為和情緒等多種信息,作出更為合適的響應。
據此前報道,用戶已經可以與數字人進行自然的語音和視頻通話。在通話過程中,數字人不僅能夠實現與用戶的自然語音對話,其人物表情等也能夠與說話語句相匹配。星火超擬人數字人還支持多模態交互功能,這使得數字人能夠識別攝像頭中的內容,如識別孫悟空和奧特曼站在一起、識別面霜的品牌和作用以及花的品類等。