谷歌上演了一出“ 那些沒有殺死我的,將使我更強大”。
互聯網高速發展了幾十年, 但全世界超過10億用戶的業務或者應用一共沒超過20個, 而谷歌擁有6個。在絕大很多網民心目中,google是人類歷史上最偉大的公司,沒有之一,而且在人工智能方面的先發優勢不可撼動。
這一信念嘎然而止在2022年11 月 20 號 ChatGPT發布的歷史性時刻,眾人紛紛倒向新觀點“像ChatGPT這樣的人工智能聊天機器人將像搜索引擎殺死黃頁一樣摧毀谷歌”(GmAIl的創始人Paul Buchheit語)。谷歌Bard發布當天,市值下跌千億美金,似乎正好印證了這個論斷。
但Gemini的發布驚艷世人,改變了大模型領域ChatGPT獨領風騷的局面。
Gemini 不僅在很多性能上超過了ChatGPT 4,它同時帶來了另一種可能性:具有原生數據優勢的互聯網巨頭,可能在多模態大模型競爭中占據優勢。這意味著,谷歌、馬斯克、Meta以及中國的騰訊、抖音、阿里、百度等公司都有可能在Gemini 開創的路線上加速迭代大模型。
大模型戰局,進入第二階段。第一階段只用一年時間,就攪翻了整個全球互聯網和人工智能,在摩爾定律的加持下,第二個階段,又將是怎樣突破人類的想象力?
01
史詩級的一年
從2022年11 月 20 號 ChatGPT發布之后這一年,幾乎日日充斥“奇點時刻”的驚爆與 “AI下半場”的狂歡,GPTs 和GPT4 Turbo 也意料之外情理之中地發布了。還有一系列 Sam Altman作為CEO 被OpenAI董事會開除、又王者歸來的橋段出現,吃瓜群眾應接不暇。
然而即便是在這樣的亂世里,由Google + DeepMind用盡洪荒之力推出的 AGI 里程碑“雙子星 Gemini”發布仍然可以算是核彈級的。為什么?不妨讓從資本市場這個最敏感的儀表盤看看大模型的史詩級影響:
1、投資 OpenAI 百億美金的大贏家微軟市值大漲 50% 來到3萬億美元,無疑成AI最大受益者。
2、大模型淘金熱的萬卡起步,讓英偉達股價飆升了 245%,市值解鎖 萬億后停不下來,已突破1.2萬億美元,超過Facebook母公司Meta或特斯拉,躋身所謂“七巨頭”。
3、作為登上巔峰后迄今為止在互聯網搜索領域的完全統治地位的 Google,這一年天天度日如年,這一年內討論 Google 被顛覆話題占有史以來的99%以上,如果谷歌輸掉這場AI之戰會怎么樣?二級市場已經給出了回答。Bard發布當天的一次回答錯誤,就讓Google母公司Alphabet市值減少了1000億美元。
然而就在上周 ChatGPT 一周年慶之后,Google高調發布“史上功能最強的通用人工智能大模型”,據稱通過大型語言模型領域中廣泛使用的32個基準測試,幾乎全部(其中30 個)表現出了“最先進的性能”,不僅擊敗了OpenAI的GPT-4,甚至在MMLU(大規模多任務語言理解)基準測試中,成為第一個超越人類專家的模型。
如果這是真的,意味著什么?“這巨大飛躍將影響幾乎所有的Google產品。” 要知道 Google是(至少目前還是)全球最大的互聯網公司、搜索引擎的絕對霸主,而搜索無處不在,仍是絕大多數人獲取信息的第一方式;Google母公司Alphabet的名字也說明了它的產品布局是無孔不入的。
2020 年GPT-3以來的標志性大模型產品
02
谷歌的洪荒之力
那么,姍姍來遲的 Google AGI,Gemini,究竟有沒有力挽狂瀾的底氣?
實際上,Gemini項目需溯源至 2023年4月20日,是 Google 吹響了“紅色警報”之后的關鍵戰略抉擇。那天,谷歌選擇將Google Brain與DeepMind合并,成立了Google DeepMind,并宣布將公司在AI領域的世界級人才、計算能力及 TPU基礎設施等資源加以結合,創新研發大模型以對標OpenAI的GPT-4,可謂押上了全部賭注,殊死背水一戰。
“Gemini是Google的下一代多模態大模型”的戰書已下,讓外界對Gemini關注度持續升高、好奇心拉滿。7月,辭職已有四年的谷歌聯合創始人Sergey Brin(謝爾蓋·布林)重返谷歌,其回歸無疑是助陣Gemini系統,也讓業界預感“Gemini將會是下半年大模型賽道的焦點。”
Gemini特征有如下三個:
1、原生多模態、多語言多國度、從海量云存儲數據中做預訓練
在谷歌給出的長達60頁的Gemini技術報告中,最值得關注的是,Gemini模型的訓練數據集既多模態又多語言。其中,前期訓練數據集使用來自網絡文檔、書籍和代碼的數據,包括圖像、音頻和視頻數據等。
“Google拿自家海量云存儲的圖片進行了預訓練,確實把模型的多模態能力拉升了一大截。”谷歌在Gemini技術報告中寫到,“當模型多模態能力被真正探索出來時,會提供更多細節。”
實際搭載Gemini Pro的Bard與GPT-4進行的對比測試表明:通過識別不同圖片中的人物、地點、文字、動物甚至其中可能蘊含的科學知識,綜合對比,Gemini Pro的多模態能力確實足以抗衡GPT-4,前者的響應速度也“快很多”,另外,前者可以免費使用,但后者已經有了“3小時40次的限制”。
2、 多尺寸、分場景,發揮Google 布局生態優勢
Gemini分Ultra、Pro和Nano三種不同尺寸和萬能應用場景的設計,其中Ultra版可用于大型數據中心等,屬于處理高復雜度任務的模型;Pro版則用于各種擴展任務,屬于日常使用模型,且已搭載于谷歌的對話機器人Bard中;Nano版則是應用于智能手機等移動設備終端上的模型。
Google 在多年的布局中,早就通過收購擁有了 TPU 計算集群、YouTube內容入口、Andriod 移動操作系統等無處不在的生態優勢,若 Gimini 能堪與GPT-4在AGI 能力上“掰手腕”的大任,那么勝負的天平無疑將反過來倒向 守成者Google 一邊
3、人海戰術
前面提及長達60頁的Gemini技術報告,最令其驚訝的是光報告的作者就多達9頁,“每頁90人,八百余人,超過OpenAI公司的總人數。”
要知道,OpenAI員工總數目前不足800人,雖然在 AI 人才爭奪戰中 OpenAI 虹吸了不少來自各個巨頭 AI 部門的大咖,當然 Google Brain 和 Deepmind也不會幸免,在其中貢獻了最大比例。
OpenAI 人才來源
數據統計來自Leadgenious Punks & Pinstripes
但即便如此,瘦死的駱駝比馬大,Google Brain內部仍然人才濟濟,仍然有超過800位以上來自世界各地的頂尖科學家;DeepMind目前擁有大約1000名員工,而且高薪養人,平均每名員工工資接近47萬英鎊,相當于人民幣400萬。
兩者合并得到 Gemini,這也不難看出谷歌在Gemini模型開發與技術創新方面投入的AI人才之多。更何況 Google 畢竟是一個擁有將近 20 萬員工的巨無霸,AI 巔峰之戰提到最高議事日程上以后,內部優勢兵力一定會向主戰場匯集。
03
Gemini帶來的,是“路線之爭”
但這是否表明Gemini 的發布已經形勢占優,甚至對GPT-4形成了“全面超越”?由于目前還無法完成全面的測評,只能為大家提供以下重要參考:
1、Gemini在中文識別理解能力上,相較GPT-4略遜一籌,也就是說“Gemini仍無法可靠處理‘非英語’的任務。”
2、谷歌專門針對測試相關領域進行了優化,Gemini只在既定領域中的指標表現好,并不能夠說明模型真正的泛化能力強。“至于真正能力,需要在更多的數據集上進行測評。”
演示視頻被質疑夸大造假,而且是用尚未發布的 Ultra 而不是可測的 Pro版本,一時間招致很多抨擊,風波不斷,但旋即谷歌也甩出演示視頻制作的記錄文章,大方承認視頻經過剪輯合成。原來,在專業提示詞循循善誘的前提下才調度到的多模態推理能力,這多少有些“強力粉飾”的魔術效果和心理暗示,但多模態的基礎推理能力還是確實在的。
由此可見與ChatGPT巔峰對決的難度之大!連昔日AI 絕對王者也需要做對公眾先做這樣的心理誘導,等不及產品的完整實用化~
如圖:發布視頻中只保留了模型輸出的反饋,沒有充分暴露提示
3、原生多模態訓練的范式經驗證能走通,那么新的訓練范式的上限極高,這條技術路線將吸引大多數擁有內容數據的平臺型企業追隨。Google產品線積累的海量高質量多模態數據, 是后續Gemini的快速、持續迭代的保障。
Gemini的技術報告中也有這樣一段表述,“谷歌發現數據質量對于高性能模型至關重要,并認為在尋找預訓練的最佳數據集分布方面,仍有許多有趣的問題。”
為拓展多模態模型的訓練數據集,谷歌還對外表示,Bard將在超過 170 個國家和地區提供 Gemini Pro 版本服務,并計劃未來擴展到不同的模態,支持更多語言和地區。
不僅明年初將推出升級的Bard Advanced版本,在接下來的幾個月里,谷歌還將陸續把Gemini應用于搜索、廣告、Chrome等更多的產品和服務中。
04
新戰局開始了
ChatGPT 一騎絕塵的情況下,其他選手本已望塵莫及,Gemini的發布讓人看到了未來世界風云變幻的一種現實可能性,就是從數據優勢出發,走原生多模態技術路線。
而這一新賽道(如果將來成功翻盤就算是新的)也將必然成為在互聯網領域原來已經深耕多年、有數據優勢的大廠之必選。
谷歌之外,Meta擁有全球 30 億用戶,它的大模型 Llama在下一戰局中不可小覷;而中國的騰訊、阿里、抖音、百度等互聯網巨頭都是擁有 10 億級用戶的大廠,并且都在發布了自己的大模型。
至于下階段哪家率先宣布也有了原生多模態的競爭力,需拭目以待。
不過要說每一家有江湖名號的都重新獲得追趕甚至超越的機會,那得看“硬核”馬斯克(Elon Musk)同不同意。現在,他已經擁有了龐大的原生數據來源。
作為實干冒險家,馬斯克向來生死看淡、不服就干。他曾天使投資OpenAI一億美金,想以特斯拉吸收OpenAI被拒,最終被踢出 局。馬斯克可謂初戀愛之深、未婚恨之切,攜數據優勢與宇宙情懷重新殺回 AI爭霸之路——X改名自馬斯克四百億美金買回來的 Twitter,xAI于今年7月12日官宣成立。
馬斯克是一個把太多不可能變成現實的人,他以“X”入道肩負起“為全人類發展的希望,了解宇宙的真實本質,確保人工智能的發展有助于人類意識的持久發展”。
xAI在通過X 平臺實時了解世界方面具有獨特而根本的優勢,且能夠回答其他人工智能系統拒絕回答的尖銳問題,這源于其設計初衷是通過智慧和一些叛逆的傾向來回答問題,“如果您不喜歡幽默,請不要使用它。”果然骨骼驚奇,非常馬斯克。
更重要的是,馬斯克的擁有龐大的原生數據來源:從推特改名而來的X(與 xAI幾乎同名),全球特斯拉數據,以及星鏈可能帶來的龐大數據。
前幾個月出版的《埃隆·馬斯克傳》寫道:
“喂養人工智能,靠的是數據。新誕生的這些聊天機器人正在接受海量信息的訓練,包括互聯網上的數十億個網頁和其他文檔。谷歌和微軟擁有搜索引擎、云服務和電子郵箱,他們手頭有大量的數據可以幫他們訓練這些系統。”
“馬斯克能給這場戰局帶來什么呢?馬斯克坐擁的一大數據資產是推特的信息流,其中包括多年來所有人發布的超過1萬億條推文,還有每天新增的5億條。它是人類集體意識的體現,是世界上更新最及時的數據集,包含了現實生活中人類的各種對話、新聞、興趣、趨勢、爭論和術語。”
“此外,它還是一個很好的訓練場,可以讓聊天機器人測試真人對其回復做出的反應。馬斯克在收購推特時并沒有考慮到這些數據的價值,他說:‘實際上這算是一個附帶的好處,我是在買下推特以后才意識到的。’”
“馬斯克還擁有另一個數據寶庫:特斯拉每天從自家車輛上的攝像頭接收并處理的1 600億幀視頻畫面。這些數據不同于為聊天機器提供信息的文本文件,這是人類在真實世界中導航的視頻數據,它有助于為實體機器人打造人工智能系統,而不再是只能?成文本的聊天機器人。”
“通用人工智能的王冠是打造出能夠像人類?樣在物理空間(比如工廠、辦公室和火星表面)運行的機器,而不僅是?些讓我們感到驚艷的虛擬聊天機器人。特斯拉和推特可以共同為這兩個研究方向提供數據集和數據處理能力:不管是教機器在物理空間中自主導航,還是教它們用自然語言回答問題。”
2023年1月,馬斯克在推特會議室召開了一系列深夜會議,研究如何針對這項服務收費的問題。他認為這是一個將推特數據集變現的好機會。且能限制谷歌和微軟使用這些數據改進自家的人工智能聊天機器人。
我們可以腦補一下,如果這些具有龐大原生數據的大廠在競爭中采用數據收費甚至數據壟斷策略,下一階段的戰況,將會怎樣?!
Google 王者業已歸來, Gemini 出場花式秀魔術引發全員關注和質疑爭論,但宣傳目的已經基本達到了,并就此掀起大模型戰局的新篇章。
毫無疑問,大模型PK精彩程度將愈演愈烈。在這個每 72 小時就必有大事件的時代,請緊跟了別掉隊,一起洞見未來~
(作者聶鐳,龍馬智芯創始人,零壹智庫特約專家,國防科技大學人工智能博士、副研究員,廣東省領軍人才)
來源:零壹財經