鈦媒體從華為內部獨家獲悉,華為公司將發布一款直接對標 ChatGPT 的多模態千億級大模型產品, 名為“盤古 Chat”。
據介紹,盤古大模型于 2020 年 11 月在華為云內部立項成功。這款“盤古 Chat ”預計將于今年 7 月 7 日舉行的華為云開發者大會 (HDC.Cloud 2023) 上對外發布以及內測, 產品主要面向 To B / G 政企端客戶。
根據華為公布的一份論文數據顯示,華為盤古 PanGu-Σ 大模型參數最多為 1.085 萬億,基于華為自研的 MindSpore 框架開發。整體來看,PanGu-Σ 大模型在對話方面 可能已接近 GPT-3.5 的水平。
IT之家查詢公開資料獲悉,華為盤古大模型于 2021 年 4 月正式對外發布,后來又在 2022 年 4 月升級到 2.0 版本。目前,AI 大模型中的 NLP 大模型、CV 大模型以及科學計算大模型(氣象大模型)均已被標記為即將上線狀態。
據介紹,這是首個干億參數中文預訓練大模型,CV 大模型則首次達到 30 億參數。盤古 CV 大模型業界最大 CV 大模型、首次實現兼顧判別與生成能力、在 Imag.NET 上小樣本學習能力上的業界第一;盤古氣象大模型提供秒級天氣預報;紫東。太初是全球首個圖、文、音三模態大模型。
對于盤古大模型定位,華為內部團隊確立了三項最關鍵的核心設計原則:一是模型要大,可以吸收海量數據;二是網絡結構要強,能夠真正發揮出模型的性能;三是要具有優秀的泛化能力,可以真正落地到各行各業的工作場景。
根據華為云高管的演講 PPT 信息,目前華為“盤古系列 AI 大模型”基礎層主要包括 NLP 大模型、CV 大模型、以及科學計算大模型等,上層則是與合作伙伴開發的華為行業大模型。
華為云官網顯示,盤古大模型由 NLP 大模型、CV 大模型、多模態大模型、科學計算大模型等多個大模型構成,通過模型泛化,解決傳統 AI 作坊式開發模式下不能解決的 AI 規模化、產業化難題,可以支持多種自然語言處理任務,包括文本生成、文本分類、問答系統等等。
具體來看,盤古 NLP 大模型 首次使用 Encoder-Decoder 架構,兼顧 NLP 大模型的理解能力和生成能力,保證了模型在不同系統中的嵌入靈活性。
下游應用中,僅需少量樣本和可學習參數即可完成千億規模大模型的快速微調和下游適配,這一模型在智能輿論以及智能營銷方面都有不錯的表現。
盤古 NLP 大模型
盤古 CV 大模型是 首次實現模型按需抽取的業界最大 CV 大模型,首次實現兼顧判別與生成能力,基于模型大小和運行速度需求,自適應抽取不同規模模型,AI 應用開發快速落地。
使用層次化語義對齊和語義調整算法,在淺層特征上獲得了更好的可分離性,使小樣本學習的能力獲得了顯著提升,達到業界第一,這一模型在智能巡檢以及智慧物流方面有不錯的表現。
盤古 CV 大模型
盤古氣象大模型提供秒級天氣預報,借助創新的 3DEST 網絡結構以及分層時間聚合算法,在氣象預報的關鍵要素和常用時間范圍上精度均超過當前最先進的預報方法, 速度相比傳統方法提升 1000 倍以上。
同時,盤古氣象大模型支持廣泛的下游預報方案,如在臺風路徑預測任務上,相比傳統數值氣象預報方法,盤古氣象大模型可以降低 20% 以上的位置誤差。
盤古氣象大模型
浙商證券此前披露的信息顯示,華為在訓練千億參數的盤古大模型時調用了超過 2000 塊的昇騰 910 芯片,進行了超 2 個月的數據訓練能力。華為內部稱,每年大模型訓練調用 GPU / TPU 卡超過 4000 片,3 年的大模型算力成本高達 9.6 億元人民幣。
東吳證券梳理的華為盤古大模型產業鏈研報中指出,華為盤古大模型的優勢在于人才儲備和算力自主可控,有望成為國內領先的大模型,其生態產業鏈標的有望迎來加速發展,包括拓維信息、四川長虹、麒麟軟件(中國軟件)、統信軟件(誠邁科技)、麒麟信安等華為生態公司。國盛證券則認為,華為盤古為首個多模態千億級大模型,有望賦能百業。