近日,“訊飛開放平臺”官方公眾號宣布,訊飛星火多模態(tài)交互大模型已正式上線,這一突破性的技術(shù)革新,標(biāo)志著訊飛在人機(jī)交互領(lǐng)域邁出了重要一步。該模型不僅實(shí)現(xiàn)了從語音交互到音視頻流實(shí)時(shí)多模交互的跨越,還新增了“多模態(tài)、超擬人和個(gè)性化”三大核心能力,將語音、視覺和數(shù)字人交互完美融合,用戶只需一鍵調(diào)用,即可享受便捷的智能交互體驗(yàn)。
訊飛星火多模態(tài)交互大模型首次引入了超擬人數(shù)字人技術(shù),其數(shù)字人的動作與語音內(nèi)容精準(zhǔn)同步,表情和動作生成迅速,讓AI更加生動逼真。通過整合文本、語音和表情,該模型實(shí)現(xiàn)了跨模態(tài)的語義一致性,確保了情感表達(dá)的連貫性和真實(shí)性。
在交互速度方面,訊飛星火大模型同樣表現(xiàn)出色。它采用統(tǒng)一的神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)了語音到語音的端到端建模,響應(yīng)迅速且流暢。同時(shí),該模型能夠敏銳感知情緒變化,并根據(jù)指令自由調(diào)整聲音的節(jié)奏、大小和角色設(shè)定,為用戶帶來更加個(gè)性化的交互體驗(yàn)。
訊飛星火多模態(tài)交互大模型還支持多模態(tài)視覺交互,能夠全面感知具體背景場景和物流狀態(tài)等信息,對任務(wù)的理解更加精準(zhǔn)。通過綜合判斷語音、手勢、行為和情緒等因素,該模型能夠作出合適的回復(fù),實(shí)現(xiàn)更加自然和智能的交互。
用戶現(xiàn)在可以與數(shù)字人進(jìn)行語音和視頻通話,享受自然流暢的對話體驗(yàn)。數(shù)字人的表情和動作與說話內(nèi)容完美匹配,使得交流更加生動有趣。星火超擬人數(shù)字人還支持識別攝像頭中的內(nèi)容,如識別不同角色的組合、產(chǎn)品的品牌和作用以及花的品類等,進(jìn)一步拓展了其應(yīng)用場景。