丁香婷婷综合网,在线观看哦哦啊啊,国产欧美日韩熟女

聲明:本文來自于微信公眾號量子位（ID:QbitAI），作者:夢晨，授權轉載發布。

AI能理解搞笑視頻笑點在哪里了。

AI回答:這個視頻之所以搞笑，在于一個小寶寶正坐在床上努力讀書，但他顯然還不會真正讀書。他只是不停地指著書頁上的各處，而攝影者則在背后笑他。小寶寶的這種嘗試很有趣，因為他在嘗試閱讀一本對他而言過大的書，也看不懂里面的文字。

北大等團隊開源視覺語言大模型Video-LLaVA，將圖像和視頻表示對齊到統一的視覺特征空間，在13個圖片和視頻基準上達到先進的性能。

值得注意的是，Video-LLaVA在訓練過程中沒有使用成對的視頻和圖片數據，但在訓練后，LLM令人驚訝地展現出同時理解圖片和視頻的能力。

如下圖所示，Video-LLaVA成功地識別出自由女神像的圖片是近景且細膩的，而視頻描述了自由女神像的多個角度，表明它們來自同一個地方。

在投影之前對齊圖像和視頻表示

這項工作具體貢獻如下:

Video-LLaVA解決了在視覺-語言理解中同時處理圖像和視頻的挑戰。它將視覺表示統一到語言特征空間中，使得大型語言模型能夠同時對圖像和視頻進行視覺推理能力。
Video-LLaVA通過最初將圖像和視頻的表示對齊到一個統一的視覺特征空間中，將視覺表示統一到語言特征空間中。這是通過使用LanguageBind編碼器來實現的，該編碼器將不同的模態映射到文本特征空間中，提供了一個統一的視覺表示。然后，統一的視覺表示經過共享的投影層和詞嵌入層進行編碼，以將統一的視覺表示映射給大型語言模型使用。
Video-LLaVA在視頻上表現出色，在MSVD、MSRVTT、TGIF和ActivityNet視頻問答數據集上分別超過了Video-ChatGPT的5.8%、9.9%、18.6%和10.1%。

對于模型能力，研究團隊做了充分實驗。

視頻理解能力實驗。

如表3所示，Video-LLaVA在4個視頻問答數據集上全面超過了Video-ChatGPT，并且漲幅相當可觀。