過去兩周,新的人工智能更新不斷涌現,異常瘋狂。我們決定整理最近發布的六大框架和模型。
1、ActAnywhere:主題感知視頻背景生成
圖片
Adobe Research和斯坦福大學推出了Act Anywhere,這是一種生成模型,解決了電影行業和視覺效果領域中將視頻背景與前景主體運動對齊的挑戰。該模型通過利用大規模視頻傳播模型來自動化典型的勞動密集型流程。
它采用一系列前景主題分割和描述所需場景的條件幀作為輸入,生成具有連貫前景-背景交互的逼真視頻。
在大規模人類場景交互視頻數據集上進行訓練后,數據表明Act Anywhere與基線相比表現良好,并證明了其處理各種非分布樣本(包括非人類受試用者)的能力。
2、GALA
圖片
Meta一直試圖在 Facebook、Instagram 和 WhatsApp 等不同平臺上改進其頭像。因此,Meta 的 Codec Avatars Lab 與首爾國立大學合作推出了GALA框架,該框架可將單層穿著的 3D 人體網格轉換為全分層的 3D 資源,從而可以創建各種姿勢的多樣化服裝人體頭像。
與將穿著衣服的人類視為單層幾何體的現有方法不同,GALA 基于人類的發型、服裝和配飾的組合性,增強了下游應用。由于遮擋,將網格分解為單獨的層具有挑戰性,即使分解成功,姿勢和身體形狀通常也與現實生活不一樣。
為了克服這個問題,研究人員使用預先訓練的二維擴散模型作為幾何和外觀的先驗模型。該過程包括使用來自多視圖 2D 分割的 3D 表面分割對輸入網格進行分割,使用新的姿勢引導得分蒸餾采樣 (SDS) 損失合成姿勢空間和規范空間中缺失的幾何形狀,并將相同的 SDS 損失應用于紋理完整的外觀。這會在共享規范空間中產生多層 3D 資產,并針對姿勢和人體形狀進行標準化,從而有助于輕松組合新穎的身份和姿勢。
3、Lumiere
圖片
為了解決在合成視頻中創建逼真、多樣化和連貫的運動的挑戰,谷歌提出了Lumiere,一種文本轉視頻模型,由魏茨曼研究所、特拉維夫大學和以色列理工學院合作開發。訓練涉及時空 U.NET 架構,它一次性生成整個視頻持續時間,這與使用遠程關鍵幀和時間超分辨率的現有模型不同。
通過結合空間和時間處理并利用預先訓練的文本到圖像模型,該系統直接生成全幀率、低分辨率視頻。它擅長文本到視頻的任務,例如圖像到視頻和風格化生成。該模型展示了最先進的文本到視頻結果,并且適用于圖像到視頻、視頻修復和風格化生成等任務。
然而,它目前無法處理具有多個鏡頭或場景轉換的視頻,這些領域還需要進一步研究。盡管存在一些限制,該項目的重點是使用戶能夠創造性地、靈活地生成視覺內容。
4、元提示(Meta-Prompting)
在另一篇有趣的研究論文中,AI target=_blank class=infotextkey>OpenAI和斯坦福大學聯手提出了元提示,這是一種有效的腳手架技術,可以以與任務無關的方式增強語言模型 (LM) 的性能。這是通過將它們轉變為可以管理多個獨立查詢的多功能導體來完成的。元提示與任務無關,無需詳細說明即可簡化用戶交互。
GPT-4 的實驗顯示了元提示相對于傳統方法的優越性,在 Game of 24、Checkmate-in-One、Python/ target=_blank class=infotextkey>Python編程難題等任務中,元提示比標準提示提高了 17.1%,比動態提示提高了 17.3%,比多人提示(MP)提高了 15.2% 。
使用清晰的指令,元提示引導 LM 將復雜的任務分解為更小的子任務,然后由同一 LM 的專門實例處理,每個子任務都遵循定制的指令。LM 充當導體,確保順暢的通信和輸出的有效集成。它還利用批判性思維和驗證流程來完善結果。這種協作提示允許單個 LM 充當協調者和專家小組,從而提高各種任務的性能。
5、自我獎勵語言模型
圖片
Meta 和 NYU 最近的一篇研究論文中引入了自我獎勵語言模型,該模型不依賴于源自人類偏好的獎勵模型,這種模型可能會受到人類表現的限制,并且在訓練過程中無法改進。這些模型可以通過評估和訓練其輸出來調整自身,并使用語言模型本身通過法學碩士作為法官的提示來產生獎勵。
該方法涉及迭代訓練,其中模型使用法學碩士作為法官的提示將獎勵分配給自己的輸出,從而生成基于偏好的指令數據。結果表明,這種訓練提高了模型遵循指令的能力,并改進了其跨迭代的獎勵建模。
6、高斯自適應注意力(GAAM)is all your need!
圖片
本研究引入了Multi-Head高斯自適應注意力機制(GAAM)和高斯自適應變換器(GAT)來提高模型性能和上下文表示,特別是對于高度可變的數據。GAAM 將可學習的均值和方差納入其注意力機制中,并在多頭框架內構建。此設置允許 GAAM 共同表示任何概率分布,從而能夠根據需要不斷調整功能的重要性。
該研究還引入了重要性因子(IF)以增強模型的可解釋性。GAAM(一種新的概率注意力框架)和 GAT 的提出是為了促進跨語音、文本和視覺模式的信息編譯。它通過識別特征空間中的關鍵元素,在模型性能方面超越了最先進的注意力技術。
該論文由詹姆斯·西爾伯拉德·布朗人工智能中心、卡內基梅隆大學、斯坦福大學和亞馬遜發表。