10月25日~26日,由聲網和RTE開發者社區聯合主辦的RTE 2024實時互聯網大會在北京舉行。在AI技術突破式發展引發各行業革新浪潮的當下,此次大會主題聚焦“AI 愛”,匯聚行業代表企業、技術大咖、專家學者等嘉賓,共同深度探討AI為互聯網生態帶來的新發展。作為AI在社交領域落地的前沿探索者,Soul App與通義千問、MiniMax、智譜等受邀參加開幕式當天的“AI論壇”,展現現階段最新的技術能力積累以及應用創新方向的更多可能。
在活動現場,Soul App AI算法技術總監劉忠亮以《實時互動、情感陪伴,開啟智能社交新時代》為主題,重點分享了Soul多模態大模型的技術研發脈絡,以及圍繞社交場景深度打磨多模態交互、情感陪伴、自然反饋等AI能力方向的最新成果和應用實踐。
劉忠亮表示,Soul致力于構建一個AI Being與Human Being共存的社交社區,其中,“人”是最為關鍵的,因此Soul的AI探索從用戶的實際社交場景出發,在AI輔助人、解決人與人鏈接需求的基礎上,以更智能、更沉浸的人機互動升級社交體驗。“Soul在AI方向的布局有清晰的推進層次,在以AI增強關系建立的效率和質量后,團隊探索多模態大模型、重點關注AI如何提供即時的交流反饋和情緒價值。”
2016年上線之初,Soul首先推出了靈犀引擎,基于平臺用戶站內全場景畫像與獨特算法,持續挖掘有效特征,實現平臺上“人與人”“人與內容”的智能連接,合理分配注意力資源和交流機會,這讓Soul在當時成為了較早將AI引入人與人鏈接的社交平臺,并在用戶群體中形成了差異化的產品認知。
2020年,Soul正式啟動對AIGC的技術研發工作,系統推進在智能對話、語音技術、3D虛擬人等AIGC關鍵技術能力研發工作。2023年,Soul推出自研語言大模型Soul X,成為行業中較早通過備案的科技企業之一,此后,平臺先后推出了語音生成大模型、語音識別大模型、語音對話大模型、音樂生成大模型等語音大模型能力。
今年6月,Soul還在社交領域中較早推出了自研端到端全雙工語音通話大模型,具備超低交互延遲、快速自動打斷、超真實聲音表達和情緒感知理解能力等特點,能夠直接理解豐富的聲音世界,支持超擬人化的多風格語言。
2024年,Soul AI大模型能力整體升級為了多模態端到端大模型,支持文字對話、語音通話、多語種、多模態理解、真實擬人等特性,特別是團隊在模型感知能力和推理能力層面的技術突破,疊加端到端方案對延遲問題的解決(現階段Soul端到端對話模型的延遲低于200毫秒),進一步實現了實現更接近生活日常的交互對話和“類真人”的情感陪伴體驗,使人機互動也能具備“在場感”和超擬人屬性。
通過在現場展示目前Soul多模態大模型落地在平臺智能機器人“AI茍蛋”、AI聊天助理、狼人殺Agent、數字分身以及最新的AI虛擬人智能陪伴功能的實際效果,劉忠亮說,“大模型能力服務人的社交需求,并不只是單點的人機對話,而是在豐富、趣味的社交場景中,以AI建立完善的關系鏈發現——建立——深化的環節,并讓AI為人提供情緒價值,這是Soul在產品應用探索層面的主脈絡,目前平臺推出的相關功能也受到了用戶的廣泛認可和積極反饋。”
在不久前結束的全球最具影響力的盛會之一—— GITEX GLOBAL海灣信息技術博覽會上,Soul攜集成3D虛擬人能力的多模態AI交互方案亮相,在博覽會現場接受記者采訪時,Soul App CTO陶明表示,“預計今年年底,Soul多模態端到端大模型將再次升級,推出全雙工視頻通話能力。”
這也意味著,Soul將實現真正意義上的AI多模態交互,集合文字、語音、動作交互的多模態大模型,讓用戶可以在平臺實現更接近人類模式的互動體驗和更高效、自然、豐富維度的信息傳遞,真正獲得社交體驗的顛覆式升級。