沒想到,擁有“AI”后的世界已經發展成這樣了!
自從去年ChatGPT面世后,今年5月谷歌也坐不住了,宣布要搞AI大模型,但由于種種原因,一直等到大半年后的今天,才正式發布了新一代大語言模型“Gemini”。
谷歌出手,就是不同凡響,雖然步子慢了,但成果很“硬核”。在官方演示中,Gemini可以非常自如地在圖像、音頻、視頻各模態之間轉換,其能力也讓人刮目相看,例如根據一張地圖和表情符號,就能設計出“猜國家”游戲;或者根據文字和圖像,猜出是哪部電影......
這還不夠,它還會教人念中文并區分四個聲調,甚至能手把手教你做飯,有種上班是老師,下班秒變“小廚師”的感覺,任誰看了不直呼一句“厲害”!
難怪谷歌官方稱,Gemini是谷歌迄今為止“最大、最全能的AI模型”,它能夠進行更復雜的推理,理解更加細微的信息,甚至像人一樣理解周圍的世界。換句話說,它比之前任何技術都要牛!廢話不多說,下面我們就來看看,這個AI大模型有多厲害。
長話短說,谷歌將Gemini定義為一款“原生多模態”模型!直白點解釋就是,Gemini一出廠就是“全科發展”,多種感官在模型內統一學習,而不是單獨學習再拼接到一起。
這里拿出OpenAI做典型,OpenAI的GPT-3.5一開始是純文字大語言模型,直到GPT-4才安排了視覺等多模態能力,這種組裝拼接吧,就好比先學了語文再學數學,極大可能帶來“偏科”問題。
但全面發展的Gemini就不同,它從第一天起就設計成原生多模態結構,相當于“所有科目一起學”,用谷歌的話講,它能無縫理解、操作不同類型的信息,包括文本、代碼、音頻、圖像和視頻等,不需要額外轉換,各種模態的性能也更為平衡。
這里再舉個簡單的例子:同樣是要理解圖像信息,像GPT-4這樣的非原生多模態結構模型,需要先借助OCR(光學字符識別技術)先“認出來”圖里是什么——轉成文本,再放到語言模型中進行語義理解。而Gemini能基于圖像馬上進行理解,這種端到端的理解,不會讓信息在“轉錄”過程中丟失。
這樣一對比,想必大家就都懂了。
看來,谷歌稱Gemini超越了GPT-4,還真不是瞎吹牛!值得一提的是,谷歌這次一口氣提供了Gemini的三個尺寸模型:Gemini Ultra、Gemini Pro、Gemini Nano ,并分別對其進行了優化。
其中,Gemini Ultra版本功能最強大,能夠完成高度復雜的任務,主要面向數據中心和企業級應用;Gemini Pro則是性能最好的模型,可以執行多種任務,將通過谷歌的類ChatGPT聊天機器人Bard,為眾多谷歌AI服務提供支持,加持谷歌的Gmail、Maps Docs和YouTube等服務。
最后就是Gemini Nano,這是最高效的模型,用于設備端任務,可以在Android/ target=_blank class=infotextkey>安卓設備上本地和離線運行。按照谷歌所說,該模型將首次內置于谷歌手機Pixel 8 Pro上,支持錄音自動摘要、鍵盤智能回復兩項功能,未來預計將更多功能置于安卓手機離線運行。
鍵盤自動生成回復語▲
整體來看,Gemini的多樣化設計,使其能夠在各種設備上運行,從手機到大型數據中心均適用,其優勢顯而易見。話雖這么說,但紙上談兵可沒有信服力!
既然是被拿來“硬剛”GPT-4的模型,Gemini當然少不了經歷一番測試。
根據內部消息,在推出Gemini之前,谷歌就對該模型進行過一系列標準測試。結果顯示,性能上,Gemini訓練所用的算力達到GPT-4的五倍,非常出色。其中,特別是在語言理解、推理、數學和編程測試中表現更佳。尤其是Gemini Ultra,在32個常用的學術基準的30個上,已經超越GPT-4。
并且Gemini Ultra在大規模多任務語言理解任務上,得分高達90.0%,是首個超越人類專家的模型。
谷歌DeepMind CEO Demis Hassabis表示:“這是我們目前規模最大,性能最強的大模型,Gemini可以像我們一樣,理解我們周圍的世界。”確實,對于普通人而言,Gemini也大有用處,它可以同時識別和理解文本、圖像、音頻等各種形式的輸入內容,因此能更好地理解細微的信息,回答與復雜主題相關的各類問題。
具體來看,對于圖像理解方面,根據谷歌在發布會放出的演示視頻,Gemini是玩“你畫我猜”的一把好手,不僅能準確地描繪出測試者在紙上畫出的圖形,還能根據測試者畫出的輪廓,猜測出她繪制的是什么東西。
此外,它還能根據給出的文字和圖像,正確猜出所指電影的名字;又或者根據所給的服裝圖像,告訴你使用場景,甚至為這套搭配取名。
甚至它還能把圖像,轉變成代碼......
而在音頻理解上,Gemini也是一把好手,例如用戶上傳了一段非英語的音頻,然后又錄了一段英語的音頻來提問。這聽起來似乎有點麻煩,但Gemini卻可以輕松解決,它能同時處理兩段不同語言的音頻,并精準輸出所需要的摘要內容,讓人眼前一亮。
還沒完!Gemini還能根據指示,教工作人員“鴨子”的普通話發音,并解釋了漢語聲調,點個贊!
更厲害的是,它還能教你做飯,例如煎個蛋?你可以用語音問Gemini,還可以把手頭有的食材拍個照片發過去,然后Gemini就會結合配圖中的食材,及所發送的音頻需求,來一步步教你怎么做出完美的煎蛋。沒想到,有一天AI也能指導做飯,各位不會做飯星人有救了。
重點來了,Gemini理解文本的能力也不容小覷,它尤其擅長解釋數學和物理等復雜科目中的推理。對于很多家長來說,輔導孩子作業也是下班后“必不可少的工作”,但有時一些題目自己也不會,或者因為一些別的事,沒時間輔導孩子,該怎么辦呢?答案很簡單,拍張圖交給Gemini就完事了。
它在給出正確答案的基礎上,還能針對解答過程中孩子不懂的步驟給出具體解釋,甚至它還可以指出孩子解答過程中具體出錯的點。最后,你還可以直接讓Gemini輸出一個和出錯類型相似的題目,讓孩子再鞏固一下知識點。
其它方面,Gemini在辨認環境、物體等場景,也不在話下。從谷歌演示來看,給它一張充滿陽光的房間照片,它就能推理出來這個房間是朝南朝北,甚至告訴你房間里的植物應該要怎么照顧。整個交流過程十分順暢,可見Gemini在多語言環境下表現出眾,完全不亞于GPT-4。
官方介紹,在Gemini的三個尺寸模型中,Gemini Pro已率先被用在谷歌聊天機器Bard的升級上。經過谷歌測試后,Gemini Pro的表現要優于GPT-3.5。
而為了進一步展現升級后的Bard有多強,谷歌還請了油管教育博主Mark Rober,全程使用Bard作為輔助工具,從零開始畫圖紙,最后真的造出了一架巨大的紙飛機。
說了這么多,其實無論是指導做飯,還是輔助造紙飛機,都直觀說明了,Gemini確實給普通大眾的生活,帶來了一定幫助,讓AI真正融入日常。
當然,除了上面說到的這些之外,谷歌還展示了Gemini的很多能力,例如讀柱狀圖,生成表格;或者直接生成圖文并茂的博客;以及展示圖形邏輯的推理,還有更為復雜的編程等等,這些都很好說明了Gemini確實很聰明,智慧。
說了這么多,總之從谷歌公布的一系列參數和操作展示來看,Gemini的“AI能力”有目共睹,確實越來越像一位真正的“人類助手”!
現如今,人工智能迎來發展浪潮,對于谷歌而言,在AI即使早在AI領域深耕多年,擁有優質人才和深厚技術積累,卻被OpenAI搶了先,以至于后面不得不奮力追趕。
細數下來,今年3月OpenAI發布GPT-4,隨后谷歌搞了一款Bard的聊天機器人,但可惜這款對標ChatGPT的機器人并沒有獲得很大的市場聲量。后面的故事也不少,谷歌連續官宣戰略合作、緊急發布多個AI工具等等,這些大動作,無疑都表明了谷歌在強烈反擊。
直到“谷歌大腦”與Alphabet旗下的人工智能實驗室DeepMind合并后,數百名AI精兵瘋狂沖刺,才有了Gemini的誕生。現在憑借Gemini的強大實力,谷歌終于揚眉吐氣,據說Gemini官宣發布后,不少OpenAI的研究員也都發文祝賀谷歌。
而縱觀當下整個AI浪潮發展史,Gemini的發布無疑是AI界又一個里程碑,這意味著AI大模型浪潮進入到一個全新階段,比起大語言模型,這種多模態模型的運作模式,才是人類最自然的和世界交互的方式。
但話說回來,多模態領域還在技術探索初期,Gemini的發布也只是掀起了其中一角,但這也將直接導致全球的AI大模型競賽進入新一輪競爭,那么就期待下谷歌或OpenAI,會不會再掀起巨大水花吧。
本文由極果用戶極果媒體原創