近日,社交平臺(tái)Soul App(以下簡(jiǎn)稱“Soul”)語(yǔ)音大模型再次升級(jí),上線自研端到端全雙工語(yǔ)音通話大模型,具備超低交互延遲、快速自動(dòng)打斷、超真實(shí)聲音表達(dá)和情緒感知理解能力等特點(diǎn),能夠直接理解豐富的聲音世界,支持超擬人化的多風(fēng)格語(yǔ)言,實(shí)現(xiàn)更接近生活日常的交互對(duì)話和“類真人”的情感陪伴體驗(yàn)。目前,Soul自研的端到端語(yǔ)音通話大模型能力已上線旗下“異世界回響”實(shí)時(shí)通話場(chǎng)景(內(nèi)測(cè)中),并將在后續(xù)拓展至AI茍蛋等多個(gè)AI陪伴、AI互動(dòng)場(chǎng)景。
自2016年上線,Soul一直致力于以創(chuàng)新的技術(shù)方案和產(chǎn)品設(shè)計(jì),實(shí)現(xiàn)社交體驗(yàn)的拓展。2020年,Soul啟動(dòng)對(duì)AIGC的技術(shù)研發(fā)工作,系統(tǒng)推進(jìn)在智能對(duì)話、語(yǔ)音技術(shù)、虛擬人等AIGC關(guān)鍵技術(shù)能力研發(fā)工作,并推動(dòng)AI能力在社交場(chǎng)景的深度落地。
以AI升級(jí)社交的過程中,Soul的技術(shù)重點(diǎn)之一是致力于實(shí)現(xiàn)擬人化、自然化情感陪伴體驗(yàn)。其中,聲音是重要環(huán)節(jié)之一。作為傳遞信息和情感的重要媒介,聲音最能在溝通中賦予“情緒溫度”和“陪伴感”。特別是在社交場(chǎng)景中,情感化、低延遲、多風(fēng)格、類真實(shí)的聲音能力,可以打破“次元壁”,讓線上社交尤其是人機(jī)互動(dòng)中,也能實(shí)現(xiàn)真實(shí)生活場(chǎng)景聊天的自然流暢感和沉浸現(xiàn)場(chǎng)感,真正完成類現(xiàn)實(shí)生活化互動(dòng)場(chǎng)景中的交互體驗(yàn)。
因此,為給用戶帶來(lái)更好的情緒反饋和陪伴感,情緒理解、延遲問題一直是Soul技術(shù)團(tuán)隊(duì)關(guān)注的焦點(diǎn)。
此前,Soul團(tuán)隊(duì)推出了自研的語(yǔ)音生成大模型、語(yǔ)音識(shí)別大模型、語(yǔ)音對(duì)話大模型、音樂生成大模型等語(yǔ)音大模型能力,支持真實(shí)音色生成、語(yǔ)音DIY、多語(yǔ)言切換、多情感擬真人實(shí)時(shí)對(duì)話等,目前已應(yīng)用于Soul “AI茍蛋”、站內(nèi)狼人游戲“狼人魅影”AI語(yǔ)音實(shí)時(shí)互動(dòng)、獨(dú)立新產(chǎn)品“異世界回響”等場(chǎng)景。
與國(guó)際最前沿的技術(shù)發(fā)展保持同頻,Soul持續(xù)完善自身語(yǔ)音技術(shù)能力積累,創(chuàng)新AI社交應(yīng)用體驗(yàn)。今年7月,在人工智能領(lǐng)域頂級(jí)的國(guó)際學(xué)術(shù)會(huì)議——國(guó)際人工智能聯(lián)合會(huì)議(International Joint Conference on Artificial Intelligence,IJCAI)舉辦的第二屆多模態(tài)情感識(shí)別挑戰(zhàn)賽(MER24)上,Soul 語(yǔ)音技術(shù)團(tuán)隊(duì)于SEMI(半監(jiān)督學(xué)習(xí))賽道獲得第一名,在國(guó)際賽事舞臺(tái)上展現(xiàn)了Soul的前沿洞察和技術(shù)能力。
如今,自研端到端語(yǔ)音通話大模型的率先上線,再次證明了Soul在行業(yè)中扎實(shí)的技術(shù)能力積累。
區(qū)別于傳統(tǒng)的級(jí)聯(lián)方案,語(yǔ)音到語(yǔ)音的端到端建模,意味著語(yǔ)音交互體系的顛覆式升級(jí),即不再需要從“語(yǔ)音識(shí)別、自然語(yǔ)言理解、語(yǔ)音生成”等多個(gè)環(huán)節(jié)流轉(zhuǎn),直接語(yǔ)音輸入—語(yǔ)音輸出的端到端模型能夠最大程度實(shí)現(xiàn)信息無(wú)損傳遞,降低響應(yīng)延遲時(shí)間。
此次Soul自研的端到端語(yǔ)音通話大模型便具備超低交互延遲、快速自動(dòng)打斷、超真實(shí)聲音表達(dá)和豐富情緒感知理解能力的特點(diǎn),支持更自然的人機(jī)交互體驗(yàn)。
在延遲方面,于實(shí)際應(yīng)用過程中,用戶體驗(yàn)與“異世界回響”中虛擬人實(shí)時(shí)語(yǔ)音通話效果時(shí),延遲時(shí)間少于行業(yè)平均水平,真正實(shí)現(xiàn)即時(shí)的AI交流和陪伴。
端到端的語(yǔ)音語(yǔ)義理解和響應(yīng)以及更自然的語(yǔ)音指令控制,讓Soul語(yǔ)音通話大模型不僅能夠給予情感關(guān)懷、理解人聲情緒情感并給出有溫度的回應(yīng),還能夠理解物理世界的聲音場(chǎng)景,模擬物理世界動(dòng)物聲音、理解多人聊天內(nèi)容,實(shí)現(xiàn)多風(fēng)格語(yǔ)言切換、文藝內(nèi)容創(chuàng)作和即興演唱,接近現(xiàn)實(shí)交流互動(dòng)場(chǎng)景需要。
接下來(lái),Soul將持續(xù)推進(jìn)多模態(tài)端到端大模型能力建設(shè)和應(yīng)用落地,以AI輔助社交、提升關(guān)系建立的質(zhì)量和效率的同時(shí),構(gòu)建人機(jī)交互新場(chǎng)景,讓用戶可以與AI進(jìn)行更加有溫度、沉浸、趣味的互動(dòng)交流,不斷創(chuàng)新社交體驗(yàn)。