(ChinaZ.com)5月29日 消息:雖然像Runway ML這樣的公司在將文本轉(zhuǎn)換為視頻方面取得了長(zhǎng)足的進(jìn)步,但 VideoChatGPT卻另辟蹊徑,賦予語(yǔ)言模型分析視頻的能力。Video-ChatGPT 可以用文本描述視頻的內(nèi)容,例如,通過突出顯示不尋常的元素來解釋為什么剪輯可能很有趣。
開發(fā)人員通過一段長(zhǎng)頸鹿從跳水板上跳入水中的視頻來演示這一點(diǎn)。Video-ChatGPT 指出:“這并不常見,因?yàn)殚L(zhǎng)頸鹿并不擅長(zhǎng)雜技或潛水?!?/p>
鏈接到開源語(yǔ)言模型的預(yù)訓(xùn)練視頻編碼器
研究人員將 Video-ChatGPT 的設(shè)計(jì)描述為簡(jiǎn)單且易于擴(kuò)展。它使用預(yù)訓(xùn)練的視頻編碼器,并將其與預(yù)訓(xùn)練然后微調(diào)的語(yǔ)言模型相結(jié)合。
盡管名稱如此,阿布扎比穆罕默德·本·扎耶德人工智能大學(xué)的項(xiàng)目并未使用 OpenAI 技術(shù)。相反,研究人員嵌入了一個(gè)線性層,將視頻編碼器連接到語(yǔ)言模型。
除了要求特定任務(wù)的用戶提示外,語(yǔ)言模型還會(huì)使用定義其角色和一般工作的系統(tǒng)命令進(jìn)行提示。
人機(jī)增強(qiáng)數(shù)據(jù)集
研究人員結(jié)合使用人工注釋和半自動(dòng)化方法來生成高質(zhì)量數(shù)據(jù),以微調(diào) Vicuna 模型。這些數(shù)據(jù)的范圍從詳細(xì)描述到創(chuàng)造性任務(wù)和訪談,涵蓋了各種不同的概念。
總的來說,該數(shù)據(jù)集包含大約86,000個(gè)高質(zhì)量的問答,一些由人類注釋,一些由 GPT 模型注釋,一些由圖像分析系統(tǒng)的上下文注釋。
Video-ChatGPT 的核心是其結(jié)合視頻理解和文本生成的能力。它在視頻推理、創(chuàng)造力和對(duì)時(shí)間和空間的理解方面的能力已經(jīng)過廣泛測(cè)試。
多模態(tài)人工智能未來
在最近文本生成取得重大進(jìn)展之后,OpenAI 和谷歌等公司正在轉(zhuǎn)向多模態(tài)模型。Bard 理解并可以對(duì)圖像做出反應(yīng),并在其正式發(fā)布時(shí)展示了這些能力。
從圖像到移動(dòng)圖像將是下一個(gè)合乎邏輯的步驟。谷歌已經(jīng)宣布開發(fā)一款將于今年晚些時(shí)候發(fā)布的 帶有 Project Gemini 的大型多模式 AI 模型。