google最強大的大模型Gemini發布了,陸續讀了技術報告和一些評測/分析,周末記錄和分享一下:
一、幾點值得Mark的筆記
- Gemini Ultra的得分為90.0%,是第一個在MMLU(大規模多任務語言理解)上超過人類專家的模型,類似于高考。國內外也有類似的評測基準。
比如C-Eval/CMMLU/GaoKao/LucyEval/SuperClue/OpenCompass/FlagEval等等。
2. 此次Google對Gemini宣傳突出的最大亮點——多模態。“Gemini設計成原生的多模態,從一開始就在不同的模態上進行預訓練。助于Gemini從頭開始無縫地理解和推理各種輸入,遠遠優于現有的多模態模型——其能力在幾乎每個領域都是最先進的。”
遵循 next token prediction 的方式,Gemini 把多模態數據從頭訓練,包括文本、圖片、音頻、視頻等,所有模態數據轉換為 token,最后變成一維線性輸入(不同的模態按照顏色順序標記),讓模型預測 next token。
3. Google一口氣發布了三個規格的模型:Ultra是最大的,對標GPT4和4V、還沒有開放(12月13日開放API)。Pro對標GPT3.5,在美區Bard上可以用(我試了下我的Bard,還是之前的LaMDA)。Nano是小模型,在谷歌的Pixel 8手機上可以用。
4. 技術報告中,Google強調了算力優勢:“我們宣布迄今為止最強大、高效和可擴展的TPU系統——Cloud TPU v5p ,旨在訓練尖端的人工智能模型。”
翻譯成大白話,就是:微軟/AI target=_blank class=infotextkey>OpenAI/Anthropic這些公司,利潤(據說70%)都被Nvidia吃了,我的利潤還是自己的。(其實微軟和OpenAI也在嘗試自己做芯片,只是進度慢于Google。)
5. Gemini語音識別在主要語種上有大幅提升(Bleu值比OpenAI的Wisper 2高10個點,但在其他語種上Wisper更強。機器翻譯能力在WMT2023的測試集上評測的結果,也比GPT4略高)。
二、一個簡單的評測
沒用視頻,用這張圖試了下一些有多模態能力的模型。方法是:上傳這張圖,然后問:從設計上看,圖中哪個車會跑得更快?
百度文心4.0:
智譜清言:
ChatGPT的GPT4:
Google Bard(還不是Gemini Pro):
不多評論,不過四個同學都挺有意思~
三、幾點想法
1. 關于多模態:實時處理聲音、視頻流、真實世界交互,意味著具身智能的一大步。可以實時接收信息并實時處理任務,更像人類的生活場景了。Google坐擁全球最大的視頻網站YouTube,訓練多模態模型條件優越。而且最近大火的文生圖Midjourney和文生視頻Runway/Pika,證明了多模態在商業上的潛力。
不過,從智能的角度說,多模態被神化了。相比于文本語言模型,多模態模型從智能上來說提升并不大,模型在理解、推理、創造方面并沒有顯著的提升。除了視頻的訓練難度,我猜想,我們低估了文本。Rust創始人Graydon Hoare說過:“所有的文學和詩歌、歷史和哲學、數學、邏輯、編程和工程都依靠文本編碼來表達它們的想法,這不是一個巧合”。
文本確實保存了人類智慧的精華,古今中外的智慧、對世界萬物的認知和發現,自有人類文字記載以來,幾乎都存到文本中。
一方面,GPT只是一個讀了萬卷書的“書呆子”,卻已經能具備強大的常識、理解、推理和創造力,頗有點“不出戶,知天下;不窺牖,見天道“的味道。另一方面,大自然這本書,到底怎么讀?這似乎是一個巨大的問題。從真實世界學習知識,就像行萬里路相比于讀萬卷書,低效太多。
2. Gemini沒有現場演示,網傳一些復現視頻和Demo視頻不符,有夸大宣傳嫌疑。不過,從Bard不斷縮小和ChatGPT差距的事實,以及Google綜合能力判斷,Gemini Ultra能力不會和宣傳的出入太大。
Gemini這一仗奠定了AI領域的雙子星格局,我們都低估了Google的隱忍。
從競爭格局看,無論是Meta的開源Llama2,還是主打安全的Anthropic、馬斯克的X.ai,目前的差距都拉大了。
3. Google的優勢有這些:
組織方面,今年年初DeepMind和Google Brain的合并,解決了力量分散和認知不統一的問題,化劣勢為優勢。
人才方面,領軍人物是AlphaGo的推動者,對AGI理解深刻的Demi Hassabis,首席科學家是工程師傳說級人物Jeff Dean。人數方面,技術報告作者欄的人數好幾頁,已將近千人。已經比OpenAI的人數多(七百多人)。
算力/算法/工程方面:算力上谷歌不像微軟和OpenAI高度依賴英偉達,有Cloud TPU v5p。算法上,谷歌是Transformer的發明者,是一直以來算法的領頭羊;還有搜索業務本身積累的底層算法和工程能力。
生態方面,Google C端強于微軟,微軟除了云主要是window/office,而Google擁有幾乎微軟+蘋果的C端能力。另外,模型層和應用層都在一個體系下,動作應該比OpenAI和微軟的聯盟快。
4. 當然,OpenAI的優勢至少也還有這些:
GPT4是3月就發布的,時間上領先了Gemini Ultra 9個月,過幾個月是否會發布GPT5?
ChatGPT的是一個Killer App,緊隨其后的GPT4發布,OpenAI占領了用戶心智,GPT也幾乎成了大模型的代名詞。
全球一億多用戶形成的用戶反饋和數據飛輪,大規模的落地已經鋪開。
微軟快得不像大公司的Copilot和Azure云滲透,OpenAI的創業心態,關于GPTs和GPT store的生態野望,都是厚實的肌肉。
5. 被神話的多模態前景,被低估的Google的隱忍,被加速的AI進程,被喧囂淹沒的AI風險提醒。
這可能是我們——依然處于早期矇昧的人類,在取得亙古未有的生產力躍遷前的徘徊,也有可能是文明充分發育后,在被硅基超越的懸崖邊緣的試探。
不管怎么樣,這注定是一段風起云涌,激蕩數年,值得觀察和記錄的人類歷史。