【ITBEAR】在第32屆ACM國際多媒體會議于澳大利亞墨爾本成功閉幕之際,一支由中國科學技術大學與云知聲聯袂打造的USTC-IAT-United團隊大放異彩,他們在多個競賽領域共斬獲了5項冠軍和2項亞軍,充分展示了團隊在人工智能領域的卓越實力。
ACM MM作為多媒體與計算機圖形學領域的頂級盛會,不僅獲得了中國計算機學會(CCF)的A類評定,更因其顯著的學術影響力和社會認可度而備受矚目。此次會議攜手全球頂尖學術機構和企業,推出了多項富有挑戰性的賽事,吸引了眾多科研團隊和創新企業的積極參與。
USTC-IAT-United團隊在眾多參賽隊伍中脫穎而出,他們在微動作分析、微表情檢測、人機交互、多模態群體行為分析以及視覺空間關系描述等多個前沿領域取得了顯著成就。以下是他們在此次大會中的具體獲獎情況:
在微動作分析挑戰賽中,團隊針對微動作持續時間短、難以捕捉的特點,提出了3D-SENet Adapter,實現了高效的時空信息聚合和在線視頻特征學習。同時,他們開發的交叉注意力聚合檢測頭,通過集成多尺度特征,顯著提升了微動作的檢測精度,最終在兩個賽道上分別獲得了冠軍和亞軍,并在ACM MM上發表了相關研究成果。
在微表情挑戰賽中,團隊采用基于光流的方法進行微表情識別,通過抽取視頻的光流特征,精確定位微表情的起始和結束時間。他們提出的邊界校準方案和特征增強策略,進一步提升了微表情識別的準確性和魯棒性,最終在兩個不同賽道上均獲得了冠軍。
在另一項微表情挑戰賽中,團隊整合了VideoMAE V2框架、時間信息適配器(TIA)及多尺度特征融合檢測頭,實現了微表情的定位與識別性能的顯著提升。他們的方案在STRS(Overall)評分中達到了SOTA水平,并榮獲冠軍。
在多模態群體行為分析挑戰賽中,團隊提出了一種雙流AI-BiLSTM模型,通過對齊和交互對話者特征,實現了更準確的參與度估計。該模型在MultiMediate挑戰賽中的Multi-domain engagment estimation賽道上,以顯著優勢奪得冠軍,展示了團隊在人工智能領域的深厚技術底蘊。
在深度偽造檢測挑戰賽中,團隊提出了一種創新的局部全局交互模塊(AV-LG模塊),顯著增強了模型的檢測性能。他們通過增加真實樣本的誤差權重和將采樣幀轉換為頻域等方法,進一步提升了模型的性能,最終獲得了本賽道的冠軍。
此次優異成績的取得,不僅是中國科學技術大學與云知聲緊密合作的成果,更是云知聲在AGI技術架構方面實力的有力證明。作為國內AGI技術產業化的先行者,云知聲依托其全棧AGI技術與產業布局,持續推動各行各業的智慧化升級,為智慧生活、智慧醫療等領域提供了高效的產品化支撐。