谷歌Gemini：被神話的多模態和被低估的隱忍-魔扣目錄

google最強大的大模型Gemini發布了，陸續讀了技術報告和一些評測/分析，周末記錄和分享一下：

一、幾點值得Mark的筆記

Gemini Ultra的得分為90.0%，是第一個在MMLU（大規模多任務語言理解）上超過人類專家的模型，類似于高考。國內外也有類似的評測基準。

比如C-Eval/CMMLU/GaoKao/LucyEval/SuperClue/OpenCompass/FlagEval等等。

谷歌Gemini：被神話的多模態和被低估的隱忍

2. 此次Google對Gemini宣傳突出的最大亮點——多模態。“Gemini設計成原生的多模態，從一開始就在不同的模態上進行預訓練。助于Gemini從頭開始無縫地理解和推理各種輸入，遠遠優于現有的多模態模型——其能力在幾乎每個領域都是最先進的。”

谷歌Gemini：被神話的多模態和被低估的隱忍

遵循 next token prediction 的方式，Gemini 把多模態數據從頭訓練，包括文本、圖片、音頻、視頻等，所有模態數據轉換為 token，最后變成一維線性輸入（不同的模態按照顏色順序標記），讓模型預測 next token。

谷歌Gemini：被神話的多模態和被低估的隱忍

3. Google一口氣發布了三個規格的模型：Ultra是最大的，對標GPT4和4V、還沒有開放（12月13日開放API）。Pro對標GPT3.5，在美區Bard上可以用（我試了下我的Bard，還是之前的LaMDA）。Nano是小模型，在谷歌的Pixel 8手機上可以用。

谷歌Gemini：被神話的多模態和被低估的隱忍

4. 技術報告中，Google強調了算力優勢：“我們宣布迄今為止最強大、高效和可擴展的TPU系統——Cloud TPU v5p ，旨在訓練尖端的人工智能模型。”

翻譯成大白話，就是：微軟/AI target=_blank class=infotextkey>OpenAI/Anthropic這些公司，利潤（據說70%）都被Nvidia吃了，我的利潤還是自己的。（其實微軟和OpenAI也在嘗試自己做芯片，只是進度慢于Google。）

5. Gemini語音識別在主要語種上有大幅提升（Bleu值比OpenAI的Wisper 2高10個點，但在其他語種上Wisper更強。機器翻譯能力在WMT2023的測試集上評測的結果，也比GPT4略高）。

二、一個簡單的評測

沒用視頻，用這張圖試了下一些有多模態能力的模型。方法是：上傳這張圖，然后問：從設計上看，圖中哪個車會跑得更快？

谷歌Gemini：被神話的多模態和被低估的隱忍

百度文心4.0：

谷歌Gemini：被神話的多模態和被低估的隱忍

智譜清言：

谷歌Gemini：被神話的多模態和被低估的隱忍

ChatGPT的GPT4：

谷歌Gemini：被神話的多模態和被低估的隱忍

Google Bard（還不是Gemini Pro）：

谷歌Gemini：被神話的多模態和被低估的隱忍

不多評論，不過四個同學都挺有意思～

三、幾點想法

1. 關于多模態：實時處理聲音、視頻流、真實世界交互，意味著具身智能的一大步。可以實時接收信息并實時處理任務，更像人類的生活場景了。Google坐擁全球最大的視頻網站YouTube，訓練多模態模型條件優越。而且最近大火的文生圖Midjourney和文生視頻Runway/Pika，證明了多模態在商業上的潛力。

不過，從智能的角度說，多模態被神化了。相比于文本語言模型，多模態模型從智能上來說提升并不大，模型在理解、推理、創造方面并沒有顯著的提升。除了視頻的訓練難度，我猜想，我們低估了文本。Rust創始人Graydon Hoare說過：“所有的文學和詩歌、歷史和哲學、數學、邏輯、編程和工程都依靠文本編碼來表達它們的想法，這不是一個巧合”。

文本確實保存了人類智慧的精華，古今中外的智慧、對世界萬物的認知和發現，自有人類文字記載以來，幾乎都存到文本中。

一方面，GPT只是一個讀了萬卷書的“書呆子”，卻已經能具備強大的常識、理解、推理和創造力，頗有點“不出戶，知天下；不窺牖，見天道“的味道。另一方面，大自然這本書，到底怎么讀？這似乎是一個巨大的問題。從真實世界學習知識，就像行萬里路相比于讀萬卷書，低效太多。

2. Gemini沒有現場演示，網傳一些復現視頻和Demo視頻不符，有夸大宣傳嫌疑。不過，從Bard不斷縮小和ChatGPT差距的事實，以及Google綜合能力判斷，Gemini Ultra能力不會和宣傳的出入太大。

Gemini這一仗奠定了AI領域的雙子星格局，我們都低估了Google的隱忍。

從競爭格局看，無論是Meta的開源Llama2，還是主打安全的Anthropic、馬斯克的X.ai，目前的差距都拉大了。

3. Google的優勢有這些：

組織方面，今年年初DeepMind和Google Brain的合并，解決了力量分散和認知不統一的問題，化劣勢為優勢。

人才方面，領軍人物是AlphaGo的推動者，對AGI理解深刻的Demi Hassabis，首席科學家是工程師傳說級人物Jeff Dean。人數方面，技術報告作者欄的人數好幾頁，已將近千人。已經比OpenAI的人數多（七百多人）。

算力/算法/工程方面：算力上谷歌不像微軟和OpenAI高度依賴英偉達，有Cloud TPU v5p。算法上，谷歌是Transformer的發明者，是一直以來算法的領頭羊；還有搜索業務本身積累的底層算法和工程能力。

生態方面，Google C端強于微軟，微軟除了云主要是window/office，而Google擁有幾乎微軟+蘋果的C端能力。另外，模型層和應用層都在一個體系下，動作應該比OpenAI和微軟的聯盟快。

4. 當然，OpenAI的優勢至少也還有這些：

GPT4是3月就發布的，時間上領先了Gemini Ultra 9個月，過幾個月是否會發布GPT5？

ChatGPT的是一個Killer App，緊隨其后的GPT4發布，OpenAI占領了用戶心智，GPT也幾乎成了大模型的代名詞。

全球一億多用戶形成的用戶反饋和數據飛輪，大規模的落地已經鋪開。

微軟快得不像大公司的Copilot和Azure云滲透，OpenAI的創業心態，關于GPTs和GPT store的生態野望，都是厚實的肌肉。

5. 被神話的多模態前景，被低估的Google的隱忍，被加速的AI進程，被喧囂淹沒的AI風險提醒。

這可能是我們——依然處于早期矇昧的人類，在取得亙古未有的生產力躍遷前的徘徊，也有可能是文明充分發育后，在被硅基超越的懸崖邊緣的試探。

不管怎么樣，這注定是一段風起云涌，激蕩數年，值得觀察和記錄的人類歷史。

日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

谷歌Gemini：被神話的多模態和被低估的隱忍

數獨大挑戰2018-06-03

答題星2018-06-03

全階人生考試2018-06-03

運動步數有氧達人2018-06-03

每日養生app2018-06-03

體育訓練成績評定2018-06-03