近日,ACM國際多媒體會議(ACM International Conference on Multimedia,ACM MM 2024)上組織的多模態與可靠性情感計算研討會MRAC 24(Multimodal, Generative and Responsible Affective Computing 2024)公布論文接收結果,社交平臺Soul App研究成果《Multimodal Emotion Recognition with Vision-language Prompting and Modality Dropout》(基于視覺語言提示與模態暫退的多模態情感識別)成功入選。
作為較早思考將AI應用于社交領域的平臺,Soul積極推動AI情感互動能力的研究,目前相關技術已應用于異世界回響、AI茍蛋、群聊派對等AI陪伴、AI輔助的創新場景。此次入選也意味著,繼其推出的AI應用/功能得到的用戶認可之后,Soul的底層技術能力建設和布局方向也得到了行業和學界的認可。
近年來,情感計算一直都是人工智能方向研究活躍的領域。在多媒體處理、分析與計算領域最具影響力的國際頂級會議,同時也是中國計算機學會推薦的多媒體領域A類國際學術會議 ——ACM(國際多媒體會議)上專門舉辦多模態與可靠性情感計算研討會(MRAC24),正是源于學術領域對情感計算在人機交互領域發展、實際應用的關注,因此吸引了眾多知名高校、學者、科技企業的目光。
不久前,人工智能領域頂級的國際學術會議之一國際人工智能聯合會議(International Joint Conference on Artificial Intelligence,IJCAI)上組織的多模態情感識別挑戰賽MER24同樣也是情感計算在當下備受關注的一個縮影。由來自清華大學、中國科學院自動化研究所、帝國理工學院、奧盧大學、南洋理工大學等高校的多位專家學者發起的MER24上,設置了SEMI(半監督學習)、NOISE(噪聲魯棒性)、OV(開放式詞匯情緒識別)三個賽道,共有來自知名高校、科技企業等近百支隊伍參賽。其中,Soul語音技術團隊憑借平臺扎實的技術能力積累和創新技術方案,在難度最高、競爭最激烈的SEMI賽道中獲得第一名。
《Multimodal Emotion Recognition with Vision-language Prompting and Modality Dropout》一文中核心介紹了Soul團隊為提高情緒識別的準確性和泛化性能,提出的多模態情緒識別方法。
Soul提出了基于視覺語言提示學習的微調模型EmoVCLIP,用于基于視頻的情緒識別任務。為了提高文本模態情感識別能力,團隊針對文本模態使用 GPT-4 打情感偽標簽,充分利用 GPT-4 的情感關注能力,提高文本模態在情感識別的準確率,為后續進一步模態融合打下基礎。
此外,為了解決多模態融合中的模態依賴性問題,團隊采用 Modality Dropout 策略來進行魯棒信息融合。Soul使用自我訓練策略來利用未標記的信息。實驗結果表明,Soul的模型在測試中上達到了90.15%的準確率,在MER2024-SEMI賽道中排名第一。
MER2024-SEMI賽道比賽結果
Soul App CTO陶明表示,“在整個AI賽道上我們有兩條主線,一條主線是輔助社交,輔助人和人的雙邊關系,用AI去加強人的表達,提升關系網絡建立的效率和質量;第二條主線,是探索人機互動,我們認為未來所有的社交形式都會發生變化,要在人機互動這個方向探索AI情感式陪伴。”
為讓AI更好“理解”人,實現有情感、有溫度的人機交互,Soul持續推進相關研究和技術積累工作,此次論文也是平臺階段性研究成果和能力的總結之一。現階段,Soul已積極將相關技術能力應用于異世界回響、AI茍蛋、狼人魅影等多個社交場景,為用戶帶來更好的交互體驗和陪伴感。
例如,在AI互動場景“異世界回響”,擁有多模態情感互動能力的自研大模型支持下,個性化的智能體能夠根據用戶的語音、文字等信息實時識別情緒,并快速給予相應的情感反饋。據了解,團隊目前還在探索在群聊派對、興趣群組等社交場景中引入情感化AI能力,輔助關系網絡建立,提升社交體驗。
如今,AIGC技術已廣泛應用于各行各業,并在提效方面展現出了驚人的效果。但在強調情緒價值的社交領域,除了提效,AI情感互動能力帶來的差異化體驗,或將成為AI社交方向下一階段競爭的焦點。對Soul來說,接下來,將繼續加大技術投入,持續探索AI情感互動能力在社交場景的深度融合應用,致力于構建人機交互新場景的同時,真正實現人與AI的雙向情感智能交互。