【ITBEAR】8月23日消息,近日,一份關于AI大模型發展趨勢及其對視頻與語音產業影響的專題報告引起了廣泛關注。該報告深入剖析了當前AI大模型的演進路徑,以及其在生成視頻和語音方面的應用如何重塑相關產業格局。
報告總計22頁,詳細闡述了大模型的多個關鍵發展趨勢。其中,開源模型的迅猛發展尤為引人注目,其性能已接近甚至達到閉源產品的水平。例如,Llama3.1的表現力與GPT-4o和Claude 3.5 Sonnet不相上下,2024年以來,開源模型頻現且不斷刷新能力上限。同時,大模型正朝著“輕量化”的方向發展,性價比顯著提升,這一趨勢吸引了眾多機構和企業的關注。在端側模型方面,蘋果和三星等科技巨頭已開始布局AI硬件,蘋果的AI模型尤其受到人類評分者的青睞,并支持多種實用功能。
據ITBEAR了解,AI生成視頻領域也取得了顯著進展。sora平臺打破了時長限制,樹立了新的行業標準,并采用DiT思路展現了強大的“涌現”能力。自6月以來,多家團隊相繼推出了AI視頻產品,標志著該產業的加速發展。例如,快手的可靈產品多次升級并嘗試商業化運營,智譜公司的“清影”作為大模型領域的新入局者,展現了強大的競爭力。此外,Runway的Gen-3 Alpha在畫質上領跑行業,而Luma Dream Machine則憑借其豐富的3D資產經驗拓展了應用場景。
在語音功能方面,GPT-4o語音為代表的技術相較于傳統TTS技術提供了更多信息,包括無延遲對話、理解和表達情感等。字節跳動的Seed-TTS在表現力上已接近人類水平,而ChatTTS則能夠預測和控制韻律特征。在應用端,語音功能的提升極大地增強了教育和情感陪伴應用的用戶體驗。例如,多鄰國、可汗學院和網易有道在教育場景中廣泛應用了這些技術,而Character AI則在情感陪伴方面獲得了用戶的好評。
整體上,報告看好AI技術對內容產業的推動作用,并預測未來游戲等應用的改造、教育賽道以及情感陪伴與社交等領域將迎來新的發展機遇。以下是報告的部分節選內容: