每經記者:蔡鼎 每經編輯:蘭素英
過去幾個月時間里,由ChatGPT在全球科技巨頭之間引發的人工智能熱潮推動了大量語言模型的生產力前置。據《華爾街日報》,雖然谷歌早在兩年前就做出了類似ChatGPT的人工智能聊天工具,但谷歌對AI的小心謹慎態度讓其失去了對生成式AI的先機。
不過,作為硅谷科技巨頭,谷歌從來不缺乏“后來居上”的決心和實力。
美西時間3月6日(周一),來自谷歌和德國柏林工業大學的一組人工智能研究人員公布了史上最大視覺語言模型PaLM-E(全稱Pathways Language Model with Embodied)。
作為一種多模態具身視覺語言模型 (VLM),PaLM-E能將視覺和語言集成到機器人控制中。谷歌和柏林工業大學稱,PaLM-E是迄今為止人類開發的最大規模VLM,其可以在不需要再訓練的情況下執行各種任務。此外,通過PaLM-540B語言模型與ViT-22B視覺Transformer模型相結合,PaLM-E最終的參數量高達5620億(GPT-3 的參數量為1750億),這是全球已知的最大視覺語言模型。
可分析視覺數據執行高級命令
“我們觀察到諸如多模態思維鏈推理(允許模型分析包括語言和視覺信息的一系列輸入),只接受單圖像提示訓練的多圖像推理(使用多個圖像作為輸入來做出推理或預測)等涌現能力。”論文的第一作者、谷歌AI研究員Danny Driess在推特上寫道。
圖片來源:推特
據谷歌介紹,當接到“把抽屜里的薯片拿過來”等較為高級的命令時,PaLM-E可以為一個有“手臂”的移動機器人平臺(由谷歌Robotics公司開發)生成行動計劃,并自行執行任務。機器人能夠順利地從十多個開放式抽屜中找到米餅,拿給研究人員。
圖片來源:谷歌
在另外一個案例中,研究人員還要求機器人“將所有色塊按顏色堆放到不同角落”的指令,以及將“綠色色塊推到烏龜旁邊”的指令,即便機器人之前沒有見過這只烏龜擺件,也能順利地完成任務。
圖片來源:谷歌
在圖像識別的案例中,PaLM-E識別圖像中的已故籃球明星科比·布萊恩特,并可以生成關于他的文本信息,例如他贏得了多少次NBA總冠軍戒指。研究人員寫道,PaLM-E也是一種“有效的視覺語言模型”。
圖片來源:谷歌
具體來講,PaLM-E通過分析來自機器人攝像頭的數據來實現對高級命令的執行,而無需對場景進行預處理。這消除了人類對數據進行預處理或注釋的需要,并允許更自主的機器人控制。
此外,PaLM-E也非常具有彈性,能根據所處的具體環境做出反應。例如,PaLM-E模型可以引導機器人從廚房取出一個薯片袋,并且將PaLM-E集成到控制循環中,它可以抵抗任務執行期間可能發生的中斷。在谷歌發布的視頻中,一名研究人員從機器人手中抓起薯片并進行移動,但最終機器人可以找到這些薯片并再次抓起。
“PaLM-E幾乎擁有所有語言能力”
據谷歌和柏林工業大學的合著論文介紹,PaLM-E是一個僅有解碼器的大型語言模型(LLM),在給定前綴(prefix)或提示(prompt)下,能夠以自回歸方式生成文本補全。其訓練數據為包含視覺、連續狀態估計和文本輸入編碼的多模式語句。
由于PaLM-E是基于語言模型,所以它會連續觀察圖像或傳感器數據,并將其編碼成與語言符號大小相同的向量序列。這使得模型能夠以處理語言的相同方式“理解”感覺信息。
谷歌和柏林工業大學研究人員發布的預印本論文
除了RT-1機器人外,PaLM-E還借鑒了谷歌之前在VIT-22B上的工作,后者是谷歌在上月公布的一款視覺語言模型。VIT-22B已經在各種視覺任務上進行了訓練,例如圖像分類、目標檢測、語義分割和圖像字幕等。
除了機器人技術外,谷歌的研究人員還觀察到了幾個有趣的現象。首先,PaLM-E在實驗案例中表現出了“正向轉移(positive transfer)”,這意味著它可以將所學到的知識和技能從一個任務轉移到另一個任務,因此與執行單個任務的機器人模型相比,性能有顯著的提高。
此外,谷歌研究人員還觀察了PaLM-E大規模參數下的一個趨勢:“語言模型規模越大,在進行視覺語言和機器人任務訓練時,它就越能保持語言能力——從參數規模上來講,5620億參數的PaLM-E幾乎擁有所有語言能力。”
谷歌研究人員計劃未來將探索PaLM-E在現實世界中有更多應用,例如家庭自動化或工業機器人,也希望PaLM-E能夠激發更多關于多模態AI的應用。
《每日經濟新聞》記者還注意到,作為AI大戰的老對手,微軟也已經在“圖像+語言模型”的路數上有所布局。在今年2月底發表的研究中,微軟就展現了如何使用ChatGPT為大疆Tello無人機編寫“找飲料”程序的案例。
微軟最近發布的“用于機器人的ChatGPT(ChatGPT for Robotics)”論文,就嘗試以類似于谷歌PaLM-E的方式將視覺數據和大型語言模型結合起來,對機器人進行控制。
每日經濟新聞