圖片來源:由無界 AI生成
迄今為止規模最大,能力最強的谷歌大模型來了。
當地時間 12 月 6 日,谷歌 CEO 桑達爾?皮查伊官宣 Gemini 1.0 版正式上線。
這次發布的Gemini 大模型是原生多模態大模型,是谷歌大模型新時代的第一步,它包括三種量級:能力最強的 Gemini Ultra,適用于多任務的 Gemini Pro 以及適用于特定任務和端側的 Gemini Nano。
現在,谷歌的類 ChatGPT 應用 Bard 已經升級到了 Gemini Pro 版本,實現了更為高級的推理、規劃、理解等能力,同時繼續保持免費。谷歌預計在明年初將推出「Bard Advanced」,其將使用 Gemini Ultra。
這是 Bard 問世以來最大的更新。
自 ChatGPT 發布以來,我們一直對谷歌聲稱的競品 Gemini 模型的能力非常好奇,這款大模型早在今年 3 月就有了風聲,5 月的 I/O 大會上進入「即將推出」的狀態。
隨著知情人士不斷透露新信息,我們能了解到:據說 Gemini 有萬億參數,訓練動用的算力是 GPT-4 的五倍。但 Gemini 的正式發布卻似乎因為各種原因而屢遭推遲。
為了與 OpenAI 和微軟展開競爭,谷歌果斷從 PaLM 2 切換到了 Gemini 上,甚至在今年 4 月份直接把谷歌大腦(google Brain)和 DeepMind 合并在了一起,Gemini 就由新組成的 Google DeepMind 匯合兩個實驗室的力量進行攻關。
可見谷歌在大模型軍備競賽上孤注一擲的心態。
那么,Gemini 真的能夠給我們帶來驚喜嗎?除了在各種 Benchmark 上拿到最優成績,甚至超越人類以外,有趣的是,在新聞發布會上,面對記者有關「Gemini 相比以前的大模型有哪些新能力」的提問,Google DeepMind 產品副總裁 Eli Collins 回答說:「我懷疑有」,表示谷歌仍然在努力了解 Gemini Ultra 的全部能力。
以下為谷歌 CEO 皮查伊的聲明:
每一次技術變革都是推進科學發現、加速人類進步和改善生活的機會。我相信我們現在所看到的人工智能轉變將是我們一生中最深刻的轉變,遠遠大于之前向移動或網絡的轉變。人工智能有潛力為世界各地的人們創造從日常生活到非凡的機會。它將帶來新一波的創新和經濟進步,并以前所未有的規模推動知識、學習、創造力和生產力。
這讓我感到興奮:有機會讓人工智能為世界各地的每個人提供幫助。
作為一家人工智能優先的公司,我們已經走過了近八年的歷程,進步的步伐只會不斷加快:數百萬人現在在我們的產品中使用生成式人工智能來完成一年前無法完成的事情,從尋找答案到更復雜的問題使用新工具進行協作和創造的問題。與此同時,開發人員正在使用我們的模型和基礎設施來構建新的生成式人工智能應用程序,世界各地的初創公司和企業正在利用我們的人工智能工具不斷成長。
這是令人難以置信的勢頭,然而,我們才剛剛開始觸及可能性的表面。
谷歌大模型 Gemini 正式發布我們正在大膽而負責任地開展這項工作。這意味著我們的研究要雄心勃勃,追求能夠為人類和社會帶來巨大利益的能力,同時建立保障措施并與政府和專家合作,應對人工智能變得更加強大的風險。我們將繼續投資最好的工具、基礎模型和基礎設施,并在我們的人工智能原則的指導下將它們引入我們的產品和其他產品中。
谷歌 DeepMind CEO 和聯合創始人 Demis Hassabis 代表 Gemini 團隊正式推出了大模型 Gemini。
Hassabis 表示長久以來,谷歌一直想要建立新一代的 AI 大模型。在他看來,AI 帶給人們的不再只是智能軟件,而是更有用、更直觀的專家助手或助理。
今天,谷歌大模型 Gemini 終于亮相了,成為其有史以來打造的最強大、最通用的模型。Gemini 是谷歌各個團隊大規模合作的成果,包括谷歌研究院的研究者。
特別值得關注的是,Gemini 是一個多模態大模型,意味著它可以泛化并無縫地理解、操作和組合不同類型的信息,包括文本、代碼、音頻、圖像和視頻。
谷歌表示,Gemini 還是他們迄今為止最靈活的模型,能夠高效地運行在數據中心和移動設備等多類型平臺上。Gemini 提供的 SOTA 能力將顯著增強開發人員和企業客戶構建和擴展 AI 的方式。
目前,Gemini 1.0 提供了三個不同的尺寸版本,分別如下:
- Gemini Ultra:規模最大、能力最強,用于處理高度復雜的任務;
- Gemini Pro:在各種任務上擴展的最佳模型;
- Gemini Nano:用于端側(on-device)任務的最高效模型。
谷歌對 Gemini 模型進行了嚴格的測試,并評估了它們在各種任務中的表現。從自然圖像、音頻和視頻理解,到數學推理等任務,Gemini Ultra 在大型語言模型研發被廣泛使用的 32 個學術基準測試集中,在其中 30 個測試集的性能超過當前 SOTA 結果。
另外,Gemini Ultra 在 MMLU(大規模多任務語言理解數據集)中的得分率高達 90.0%,首次超越了人類專家。MMLU 數據集包含數學、物理、歷史、法律、醫學和倫理等 57 個科目,用于測試大模型的知識儲備和解決問題能力。
針對 MMLU 測試集的新方法使得 Gemini 能夠在回答難題之前利用其推理能力進行更仔細的思考,相比僅僅根據問題的第一印象作答,Gemini 的表現有顯著改進。
在大多數基準測試中,Gemini 的性能都超越了 GPT-4。
更多細節,請查看詳細的測試報告:https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf
在最新版本的 MMMU 測試集中,Gemini Ultra 也取得了得分為 59.4% 的最佳成績。增強版的測試集由需要慎重推理的多模態任務組成。
在圖像基準方面的測試中,Gemini Ultra 不需要從圖像中提取文本就能進行 OCR 處理,這凸顯了 Gemin 內置的強大多模態能力,也初步顯示了 Gemini 具有更復雜推理能力的先兆。
下一代全方位能力升級
Gemini 在設計時原生地支持多模態,從一開始便在不同模態上進行了預訓練,然后利用額外的多模態數據進行微調以提升有效性。因此,Gemini 能夠無縫地理解和推理各種輸入,遠遠優于現有多模態模型,并且它的能力在幾乎每個領域都是最強的。
復雜推理能力
Gemini 1.0 具有復雜多模態推理能力,可以幫助理解復雜的書面和視覺信息。這使得它尤其擅長發現海量數據中難以辨別的知識。Gemini 1.0 通過閱讀、過濾和理解信息具有了從數十萬份文件中提取 insights 的超凡能力,這有助于科學、金融等諸多領域以超快的速度取得新突破。
同時理解文字、圖像、音頻以及更多模態的信息
經過訓練,Gemini 1.0 可以同時識別和理解文本、圖像、音頻等,因此它能夠更全面地理解輸入中信息的細節,也能回答與復雜主題相關的問題。因此,它特別擅長對數學和物理等復雜學科的問題進行推理。
如下圖所示,一位老師畫了一個滑雪者從斜坡上下來的物理問題,而一位學生則提出了一個解決方案來計算滑雪者在斜坡底部的速度。利用Gemini的多模態推理能力,該模型能夠讀懂凌亂的筆跡,正確理解問題的表述,將問題和解決方案都轉換為數學公式,識別出學生在解決問題時出錯的具體推理步驟,然后給出問題的正確解決方案。
高級編碼
Gemini 可以理解、解釋和生成流行編程語言(如 Python/ target=_blank class=infotextkey>Python、JAVA、C++、Go)的高質量代碼,具備強大的跨語言工作和推理復雜信息的能力使其成為世界領先的編碼基礎模型之一。
Gemini Ultra 在多個編碼基準測試中表現出色,包括 HumanEval(用于評估編碼任務性能的重要行業標準)和 Natural2Code(谷歌內部數據集),該數據集使用作者生成的源代碼而不是基于網絡的信息。
Gemini 還可以用作更高級編碼系統的引擎。兩年前,谷歌推出了 AlphaCode,這是第一個在編程競賽中達到競爭性水平的人工智能代碼生成系統。
使用 Gemini 的專門版本,谷歌創建了更先進的代碼生成系統 AlphaCode 2,它擅長解決超出編碼范圍、涉及復雜數學和理論計算機科學的競爭性編程問題。
經過與原始 AlphaCode 在相同平臺上進行評估,AlphaCode 2 展現出巨大的改進,解決的問題數量幾乎是原來的兩倍。
專用 TPU 訓練
谷歌使用內部設計的張量處理單元 (TPU) v4 和 v5e 在人工智能優化基礎設施上對 Gemini 1.0 進行了大規模訓練,并將其設計為最可靠、可擴展的訓練模型和最高效的服務模型。
在 TPU 上,Gemini 的運行速度明顯快于早期規模較小、能力較弱的模型。這些定制設計的 AI 加速器是谷歌人工智能產品的核心,這些產品為搜索、YouTube、Gmail、谷歌地圖、Google Play 和 Android 等數十億用戶提供服務。它們還幫助世界各地的公司經濟高效地訓練大規模人工智能模型。
今天,谷歌同時發布了迄今為止最強大、最高效、可擴展的 TPU 系統 —Cloud TPU v5p,專為訓練尖端的人工智能模型而設計。新一代 TPU 將加速 Gemini 的發展,幫助開發人員和企業客戶更快地訓練大規模生成式 AI 模型,讓新產品和新功能更快地與客戶見面。
Google 數據中心內的一排 Cloud TPU v5p AI 加速器超級計算機。
谷歌旗下產品將全線升級
從今天開始,谷歌將在其產品中添加 Gemini,例如 Bard 將使用 Gemini Pro 的微調版本來執行更高級的推理、規劃、理解等任務。這也是 Bard 自推出以來最大的升級。
升級版 Bard 將在 170 多個國家 / 地區提供英語版本,并且在不久的將來會擴展到更多模態,并支持更多種語言。
谷歌還將 Gemini 引入了 Pixel。Pixel 8 Pro 將是第一款運行 Gemini Nano 的智能手機。
Pixel 8 Pro 在錄音機應用中使用 Gemini Nano 來總結會議音頻,即使沒有網絡連接也可以實現。
在接下來的幾個月中,Gemini 將陸續出現在谷歌更多的產品和服務中,包括搜索、廣告、Chrome、Duet AI 等等。
谷歌表示其已經在搜索中試驗了 Gemini,它使用戶的搜索生成體驗 (SGE) 速度更快,延遲減少了 40%,同時質量也得到了提升。
使用指南及未來規劃
最后,開發者如何使用 Gemini?
從 12 月 13 日開始,開發人員和企業客戶可以通過 Google AI Studio 或 Google Cloud Vertex AI 中的 Gemini API 訪問 Gemini Pro。
從 Pixel 8 Pro 設備開始,Android 開發人員還可以通過 AICore 使用 Gemini Nano 進行構建。Android AICore 是 Android 14 中的一項新系統服務,可處理模型管理、運行時、安全功能等,簡化用戶將 AI 融入應用程序的工作。
AICore 通過 Gemini Nano 實現低秩適應 (LoRA) 微調。這個強大的概念使應用程序的開發人員能夠根據自己的訓練數據創建小型 LoRA 適配器。LoRA 適配器由 AICore 加載,從而產生針對應用程序自身用例進行微調的大型語言模型。
另外,谷歌劇透了 Gemini Ultra 將會在不久后發布,以及 Bard 的下一步升級計劃。
Gemini Ultra 模型目前正處于信任和安全檢查階段,包括由可信賴的外部各方組成的紅隊(red team),并使用微調和人類反饋強化學習(RLHF)進一步完善模型。
在這個過程中,谷歌會先向部分客戶、開發人員、合作伙伴以及安全和責任專家提供 Gemini Ultra,供其進行早期實驗和反饋,然后在明年初向開發人員和企業客戶推出。
Gemini Ultra 是谷歌最大、功能最強大的模型,專為高度復雜的任務而設計。普通用戶體驗 Gemini Ultra 的首個方式會是通過 Bard Advanced,谷歌將在明年年初推出 Bard Advanced。
谷歌表示,未來將努力擴展 Gemini 的功能,包括在規劃和記憶方面的進步,以及增加上下文窗口以處理更多信息,從而做出更好的響應。
博客鏈接:https://blog.google/technology/ai/google-gemini-ai/#scalable-efficient