美國科技巨頭谷歌今日宣布推出人工智能模型Gemini,并針對三種不同的尺寸優化了 Gemini 1.0:
Gemini Ultra——谷歌最大、最有能力的模型,適用于高度復雜的任務。
Gemini Pro——谷歌可擴展各種任務的最佳模型。
Gemini Nano——谷歌最高效的設備端任務模型。
據谷歌稱,公司一直在嚴格測試Gemini模型并評估其在各種任務中的性能。從自然圖像、音頻和視頻理解到數學推理,Gemini Ultra 的性能在大型語言模型 (LLM) 研發中使用的32個廣泛使用的學術基準中的 30 個上超過了當前最先進的結果。
Gemini Ultra的得分高達90%,是第一個在 MMLU(大規模多任務語言理解)上超越人類專家的模型,該模型結合了數學、物理、歷史、法律、醫學和倫理學等 57 個科目來測試 知識和解決問題的能力。
Gemini新的 MMLU 基準方法使 Gemini 能夠利用其推理能力在回答難題之前更仔細地思考,從而比僅使用第一印象有顯著改進。
該圖表顯示了 Gemini Ultra 在常見文本基準測試中的性能與 GPT-4 的比較(在報告數字缺失的情況下計算的 API 數字)。Gemini 在文本和編碼等一系列基準測試中超越了最先進的性能。
Gemini Ultra還在新的MMMU 基準測試中取得 59.4% 的最先進分數,該基準測試由跨越不同領域、需要深思熟慮的推理的多模態任務組成。
根據谷歌測試的圖像基準,Gemini Ultra 的性能優于以前最先進的模型,無需從圖像中提取文本以進行進一步處理的對象字符識別 (OCR) 系統的幫助。這些基準凸顯了雙子座天生的多模態性,并表明了雙子座更復雜推理能力的早期跡象。
擅長復雜學科推理 能懂編程語言
Gemini 1.0 復雜的多模式推理功能可以幫助理解復雜的書面和視覺信息。這使得它在發現大量數據中難以辨別的知識方面具有獨特的能力。
Gemini 1.0 通過閱讀、過濾和理解信息從數十萬份文檔中提取見解的卓越能力將有助于在從科學到金融的許多領域以數字速度實現新的突破。
Gemini 1.0 經過訓練,可以同時識別和理解文本、圖像、音頻等,因此它可以更好地理解微妙的信息,并可以回答與復雜主題相關的問題。這使得它特別擅長解釋數學和物理等復雜學科的推理。
谷歌的第一個版本的 Gemini 可以理解、解釋和生成世界上最流行的編程語言(如Python/ target=_blank class=infotextkey>Python、JAVA、C++ 和 Go)的高質量代碼。它跨語言工作和推理復雜信息的能力使其成為世界領先的編碼基礎模型之一。
Gemini Ultra 在多個編碼基準測試中表現出色,包括HumanEval(用于評估編碼任務性能的重要行業標準)和 Natural2Code(我們內部保留的數據集),該數據集使用作者生成的源而不是基于網絡的信息。
Gemini還可以用作更高級編碼系統的引擎。兩年前,谷歌推出 AlphaCode,這是第一個在編程競賽中達到競爭性能水平的人工智能代碼生成系統。
使用Gemini 的專門版本,谷歌創建的代碼生成系統 AlphaCode 2,擅長解決超出編碼范圍、涉及復雜數學和理論計算機科學的競爭性編程問題。
比如,一位老師畫了一個滑雪者從斜坡上下來的物理問題,一位學生提出了一個解決方案來計算滑雪者在斜坡底部的速度。利用Gemini的多模態推理能力,該模型能讀懂凌亂的筆跡,正確理解問題的表述,將問題和解決方案都轉換為數學公式,識別出學生在解決問題時出錯的具體推理步驟,給出問題的正確解決方案。
Pixel 8 Pro將運行Gemini Nano
谷歌還將Gemini引入Pixel。Pixel 8 Pro是第一款運行Gemini Nano的智能手機,它支持 Recorder 應用中的 Summarize等新功能,并從WhatsApp開始推出Gboard中的Smart Reply,明年還會推出更多應用。
在接下來的幾個月中,Gemini將出現在谷歌更多的產品和服務中,例如搜索、廣告、Chrome 和Duet AI。
谷歌已經開始在搜索中試驗 Gemini,它使用戶的搜索生成體驗 (SGE) 更快,美國英語的延遲減少了 40%,同時質量也得到了提高。
谷歌和Alphabet首席執行官桑達爾·皮查伊 (Sundar Pichai)說,每一次技術變革都是推進科學發現、加速人類進步和改善生活的機會。
“我相信我們現在所看到的人工智能轉變將是我們一生中最深刻的轉變,遠遠大于之前向移動或網絡的轉變。人工智能有潛力為世界各地的人們創造從日常生活到非凡的機會。它將帶來新一波的創新和經濟進步,并以前所未有的規模推動知識、學習、創造力和生產力。”
皮查伊說,“我們正與Gemini一起邁出下一步,這是我們迄今為止功能最強大、最通用的模型,在許多領先基準測試中都具有最先進性能。我們的第一個版本 Gemini 1.0 針對不同尺寸進行了優化:Ultra、Pro 和 Nano。”
google DeepMind 首席執行官兼聯合創始人Demis Hassabis代表Gemini 團隊發言,稱長期以來,我們一直希望構建新一代人工智能模型,其靈感來自于人們理解世界和與世界互動的方式。人工智能感覺不太像一個智能軟件,而更像是有用且直觀的東西——一個專家幫助者或助手。
“今天,當我們推出 Gemini 時,我們離這一愿景又近了一步,這是我們迄今為止構建的最強大、最通用的模型。”
Demis Hassabis稱,Gemini是整個Google團隊(包括Google Research的同事)大規模協作努力的成果。它是從頭開始構建的多模式,這意味著它可以概括和無縫地理解、操作和組合不同類型的信息,包括文本、代碼、音頻、圖像和視頻。
“Gemini 也是我們迄今為止最靈活的模型 - 能夠在從數據中心到移動設備的所有設備上高效運行。其最先進的功能將顯著增強開發人員和企業客戶利用人工智能進行構建和擴展的方式。”
來源:雷遞網