谷歌在人工智能領(lǐng)域的又一重大突破已悄然降臨,其最新推出的PaliGemma 2視覺語言模型正逐步改變我們與圖像的互動(dòng)方式。這款模型不僅是對(duì)初代PaliGemma的升級(jí),更是一次全面的革新。
PaliGemma模型自今年5月亮相以來,便以其強(qiáng)大的圖像識(shí)別能力和字幕生成功能贏得了廣泛關(guān)注。它能夠輕松識(shí)別圖像中的物體,并為圖片和短視頻添加精準(zhǔn)的字幕。更令人驚嘆的是,PaliGemma還能回答與圖像相關(guān)的問題,為用戶提供了前所未有的交互體驗(yàn)。
如今,谷歌再次發(fā)力,推出了功能更為強(qiáng)大的PaliGemma 2模型。該模型不僅繼承了初代的所有優(yōu)點(diǎn),還帶來了諸多創(chuàng)新。谷歌為PaliGemma 2提供了多個(gè)版本,包括30億、100億和280億參數(shù)變體,以及不同分辨率的選項(xiàng),以滿足不同用戶的需求。
在功能方面,PaliGemma 2更是實(shí)現(xiàn)了質(zhì)的飛躍。它不僅能識(shí)別圖像中的物體和文字,還能識(shí)別人物并解讀其情緒。這意味著,當(dāng)你看到一張笑臉或悲傷的臉龐時(shí),PaliGemma 2都能準(zhǔn)確捕捉到這些情緒。該模型還能識(shí)別場景中發(fā)生的更多細(xì)節(jié),從而講述一個(gè)完整的故事。
谷歌還表示,PaliGemma 2在識(shí)別樂譜、化學(xué)公式以及制作胸部X光片報(bào)告等方面也表現(xiàn)出色。這些功能的加入,使得PaliGemma 2成為了一款真正意義上的綜合模型,能夠廣泛應(yīng)用于各個(gè)領(lǐng)域。
對(duì)于想要體驗(yàn)PaliGemma 2的用戶來說,好消息是谷歌已經(jīng)在Hugging Face、Kaggle和Ollama平臺(tái)上提供了其代碼。用戶可以根據(jù)自己的需求選擇合適的版本進(jìn)行下載和使用。
除了PaliGemma 2之外,谷歌還發(fā)布了其視頻生成模型Veo的私有預(yù)覽版。這款模型能夠生成最高達(dá)1080p分辨率的視頻,為視頻創(chuàng)作領(lǐng)域帶來了全新的可能。如果你正在使用谷歌的Vertex云平臺(tái),那么你將有機(jī)會(huì)率先體驗(yàn)到這款模型的強(qiáng)大功能。