(ChinaZ.com)10月12日 消息:最近,卡內(nèi)基梅隆大學(xué)、Google研究以及喬治亞理工學(xué)院聯(lián)合推出了一項(xiàng)名為MAGVIT-v2的視頻標(biāo)記工具,它成功地將圖像和視頻輸入轉(zhuǎn)化為大型語言模型(LLM)可識別的標(biāo)記。
項(xiàng)目地址:https://magvit.cs.cmu.edu/
MAGVIT-v2的獨(dú)特算法讓開發(fā)者可以實(shí)現(xiàn)令人驚嘆的應(yīng)用。從全景視頻到智能去除、圖像轉(zhuǎn)動(dòng)動(dòng)畫,再到自動(dòng)翻轉(zhuǎn)等等。MAGVIT不僅為創(chuàng)作者提供無限靈感,還為視頻編輯帶來前所未有的便捷性。
通過MAGVIT-v2的應(yīng)用,LLM在視覺生成任務(wù)中的表現(xiàn)已明顯超越了傳統(tǒng)的擴(kuò)散模型。視頻標(biāo)記化是將視覺內(nèi)容(如圖像或視頻)轉(zhuǎn)化為大型語言模型能夠理解和處理的標(biāo)記的過程。MAGVIT-v2的問世,毫無疑問為大型語言模型在視覺任務(wù)方面提供了嶄新的機(jī)遇。
在視覺生成任務(wù)方面,這一新型標(biāo)記工具已經(jīng)展現(xiàn)出極大的潛力,可以明顯改善模型的表現(xiàn)。總的來看,MAGVIT-v2的發(fā)布,預(yù)示著視覺生成領(lǐng)域的一次重大突破。