聲明:本文來自于微信公眾號 新智元(ID:AI_era),作者:新智元,授權轉載發布。
6月19日,騰訊云在行業大模型這個領域成功秀了一把,還是現場直懟臉的那種。
這不,端午節就要來了,不如問個實際點的:端午節三天不出江浙滬,有什么行程推薦?
先來看標準的語言大模型模型的回答。
它給出了和許多LLM同樣的「配方」,比如參觀名勝古跡、品嘗美食等簡單安排。
總之,讓人感覺好像安排了,又好像沒有安排,參考性比較弱。
如果求助用行業場景數據訓練后的大模型,效果如何?
這次,順便升級一下問題復雜度:「我和孩子都是歷史人文愛好者,端午節想去上海周邊,預算5000以內,最好每天去2個景點玩。」
可以看到,模型給出了三天的行程規劃。相較之前的回復,細致了很多,但實操性還是不夠強。
接下來,同樣的問題,再扔給接入文旅客戶API接口后的行業大模型問一遍。
顯然,這次直接提供了「保姆級三天攻略」,詳細介紹了景點的特色。
另外,還給出了每天景點的交通安排,甚至,可以實時查詢到今年的介紹信息、購票鏈接、還有價格等相關信息。
讓人看完,瞬間覺得這樣的行程不僅有意義,還省去了做出行功課的時間。
如果再讓它推薦一下蘇州的酒店,你直接得到了不同檔次的推薦和介紹,還有酒店的預定鏈接。
足見,精調后的文旅客服大模型的回答讓人拍手叫絕。
值得一提的是,這樣的模型不僅可以制訂詳細的旅行攻略,也讓智能客服系統,實現服務商業化的閉環。
未來,隨著更高質量數據增加,模型的精調效果還會更好。
行業大模型已成共識
在這場ChatGPT引爆AI大模型的熱潮中,企業雖然期待能夠得到大模型能力的加持,但通用大模型在解決他們問題時多多少少遇到一些局限性。
首先,安全方面。
由于很多企業的業務數據等都是非常隱私的核心數據,他們根本不會將其放在數據集上進行公開訓練。
然而,訓練模型的專業、且高質量的數據收集是非常難的。
其次,經濟方面。
很多企業和機構在構建大模型上,算力需求還是極大的。但是并非每家企業都有足夠的資源,讓大模型完成訓練和推理。
英偉達曾公布數據顯示,訓練一次大模型,大約100多萬美金。
再加上,如果遇到服務器過熱宕機,整個GPU集群都要停止工作,訓練任務也要重新開始。
這對云服務運維能力與排查問題能力的要求非常高,所以很多算法團隊都選擇最專業的云服務廠商來支持。
這些都需要高成本的投入,但許多企業級用戶是無法做到的。
最后,效率方面。
對于通用大模型來說,數據質量非常重要。
大模型需要大量的高質量數據進行訓練和優化。必須經過清洗和預處理,來消除噪聲、填補缺失值并確保數據質量。
否則,訓練出的模型效果、效率都無法得到保障。
除此之外,在很多產業場景中,用戶對企業提供的專業服務要求高,容錯性低。企業一旦提供了錯誤信息,可能引起巨大的法律責任或公關危機。
因此,企業使用的大模型必須可控、可追溯、可溯源,而且必須反復、充分測試才能上線。
以上種種難題,怎么破?答案就是行業大模型。
稍加觀察就會發現,現在國內很多家大模型,都在往產業領域和具體的業務場景上走。
不止騰訊云,回看國內各大廠,包括阿里云、百度云、京東云在內都在加速大模型在各行各業的應用。
可以看到,行業大模型大概率已經成為了產業共識。因為聚焦到具體應用場景中,行業大模型更符合垂類場景的需求。
當然,在此之前,騰訊云早已在自家平臺上做了深度的探索。
作為國內開發者最常用的輔助工具,GitHub Copilot讓大家充分感受到了智能的力量。代碼自動補全的功能,代表著巨大飛躍的來臨。
而騰訊云的新一代AI代碼助手,也實現了GitHub Copilot的類似功能。多種編程語言、主流開發框架、常用IDE等,AI代碼助手都支持。
舉個例子,比如有段代碼不會寫,AI代碼助手就可以根據代碼類型、代碼上下文等信息,自動進行代碼補全。不僅如此,它還能根據代碼反向生成注釋和單元測試代碼,甚至更進一步地幫你debug。
MaaS一站式解決方案
現在,騰訊云基于自己的應用積累,以及行業上的實際需求,重磅推出了全新的MaaS(Model-as-a-Service)一站式服務,大幅降低了大模型的應用門檻。
目前,騰訊云已經聯合頭部企業,為諸如金融、傳媒、文旅、政務、教育等10大行業,輸出了超過50個解決方案。
具體來說,騰訊云MaaS可以覆蓋行業大模型生命周期的整個流程——「模型選型-訓練共建-部署應用」,同時支持MLOps體系及相關工具。
在配套服務方面,騰訊云提供本地化的訓練、落地及陪跑優化服務,并可以針對用戶的需求,提供私有化部署、公有云托管、混合云部署等靈活部署方案。
其中,企業可以利用自己的場景數據,定制專屬的精調大模型。或者,也可以根據自身的需求,開展多模型訓練任務。
舉個例子,在某商業銀行的日常業務中,就時常遇到這樣的難題。
客戶業務中涉及到大量銀行回單、交易發票、跨境匯款申請書、業務往來郵件、傳真等數據,需要整理、錄入系統。
如果純依賴人工,就會面臨耗時長、效率低、成本高、易出錯的難題。
即使是采用傳統的OCR深度學習模型,也需要經過「檢測→識別→結構化」等多個階段,這個流程一走完,經過各個階段的錯誤累積,檢測識別的難點往往難以突破。
并且,模型也不具備閱讀理解和推理能力、指標上限低,在不同場景下,模型的能力更是無法復制、定制成本極高。
而騰訊云TI-OCR大模型卻充分解決了以上痛點。
首先,它是基于原生大模型,不經過訓練,就可以直接支持常規下游任務,零樣本學習泛化召回率可達93%。
其次,通過prompt設計,模型不經過訓練,就可支持復雜的下游任務,小樣本學習泛化召回率可達95%。
另外,通過多模態技術,模型可以通過小樣本精調解決傳統OCR難題,比傳統模型召回率提高了3%-20%。
最終,在在智能OCR應用方面,騰訊云針對交易回單、交易發票、業務往來郵件等多種格式的數據,實現了95%以上準確率的文件智能識別和關鍵詞提取。極大地減少低價值高耗時手工作業,節省運營人力成本。
那么,這樣「預制菜」式的大模型精調,是怎么實現的呢?
堅實的技術積累
為了幫助用戶實現一站式的大模型精調,騰訊云也給TI平臺來了個全面升級,提供包括數據標注、訓練、評估、測試和部署等全套工具鏈。
升級之后的TI平臺,能夠更好地完成「業務分析-數據分析-數據清洗-數據標注-大模型選擇-訓練加速-模型評測-應用落地」這一全套的行業大模型落地流程。
人人皆知,算力、數據、算法是AI的三要素,大模型時代也是如此。
大模型訓練,算力是基礎。
就算力來講,可以說,騰訊云把配置全給拉滿了。
早在今年4月,騰訊云便發布了面向大模型訓練的最新一代HCC(High-Performance Computing Cluster)高性能計算集群。
采用最新一代騰訊云星星海自研服務器,結合多層加速的高性能存儲系統,能夠提供3.2Tbps業界最高互聯帶寬,算力性能提升3倍。
具體來說,集群的單GPU卡能夠在不同精度下,輸出最高1979TFlops的算力。
而在大模型場景下,集群利用并行計算理念,通過CPU和GPU節點的一體化設計,能夠將單點算力性能提升至更高。
除了單點的運算能力外,集群中不同計算節點之間的通信性能也會直接影響訓練效率。
為此,騰訊云自研了具備業界最高3.2T RDMA通信帶寬的星脈高性能計算網絡,能夠更好地滿足節點間海量的數據交互需求。
實測結果顯示,相較于此前的1.6T網絡,在GPU數量不變的情況下,3.2T星脈網絡能夠給集群帶來20%的算力提升。
其次,大模型的訓練數據至關重要,經常會遇到數據清洗、標注、分析等問題。
而在前期的數據處理階段,TI-DataTruth數據標注平臺能提供智能數據生產服務支持,包括數據標注作業、數據眾包管理、場景數據挖掘等。
在接下來的模型訓練上,TI-ONE一站式機器學習平臺內置了多種訓練方式和算法框架,可以滿足不同AI應用場景的需求,并支持從數據接入、模型訓練、模型管理到模型服務的全流程開發。
ChatGPT還沒聯網之前,訓練數據只截止到2021年9月,而對訓練截止之日之后發生的事情一無所知。而向量數據庫通過存儲最新信息,讓大模型能夠訪問,來彌補這個不足點。
向量是AI理解世界的數據形式,由此向量數據庫之于大模型的價值就是「記憶體」,能夠給LLM提供與加強記憶。可以說,向量數據庫是大模型時代「儲存新基座」。
就在今年3月,老黃在GTC大會上還首次提及了將要推出的RAFT向量數據庫。
基于這一需求,騰訊自研的大模型向量數據庫(Tecent Cloud Vector DB),不僅具備高吞吐、低延遲、低成本、高可用、彈性擴展等特點,而且還能進行實時更新,并大幅提升大模型閱讀理解的長度,從2千字到8千字。
為了提升模型的訓練推理效率,降低用戶成本,騰訊云在去年推出了TI-ACC加速工具。
TI-ACC底層使用TNN作為框架,訓練加速實現了數據IO優化、計算加速、通信加速、并行訓練、顯存優化等能力,兼容原生PyTorch、TensorFlow框架和DDP、PS工具。
而TI-ACC推理加速則可以實現計算優化、低精度加速、內存優化等能力,能力通過統一的加速庫和優化函數的形式提供,同樣兼容原生PyTorch等框架,無需進行模型轉換。
這次,騰訊云更進一步地將TI-ACC升級為「太極Angel」,從而提供更優和更完整的大模型訓練和推理加速能力。
在傳統CV、NLP算法模型的基礎上,太極Angel新增了對大模型的訓練和推理加速能力,通過異步調度優化、顯存優化、計算優化等方式,相比行業常用方案性能提升30%+。
在模型的應用和部署上,TI-Matrix應用平臺支持快速接入各種數據、算法和智能設備。用戶則可以借助可視化編排工具,進行模型服務和資源的管理及調度。
最后,對于行業大模型尤為重要的安全、合規方面,騰訊云也有成熟的技術積累和經驗。
通過在問題側、模型側和答案側同時進行敏感信息的過濾和規避,可以讓輸出的答案符合安全、規范的要求,并確保大模型可信、可靠、可用。
模型應用,產業先行
大模型方興未艾,為什么大家都在走向大模型通往產業領域的路徑?這是否意味著通用大模型失去了價值?
其實不然。我們見證了,GPT-4、PaLM等巨量參數的通用大模型,涌現出「舉一反三」的強大泛化能力。
它們都是利用大算力,在大規模無標注數據集中進行訓練,相當于完成了「通識教育」。
最直接的證明是,OpenAI把通用大模型的訓練結果——ChatGPT帶到所有人面前,讓發展大半個世紀的AI真正步入提升人類生產力的新紀元。
可見,通用大模型是邁向通用人工智能里程碑的重要一步,其價值不可估量。
對于通用大模型來講,生態最為重要,可以讓眾多企業接入大模型底座去賦能千行百業。
同時,我們也要看到,通用大模型并非萬能,在更加深入的一個專業領域中,其know-how是遠遠無法滿足的。
再加上大模型經常會出現「胡說八道」,對于至關重要的場景,比如律師行業,將帶來更大的風險。
然而,現有大模型的算力和能耗的挑戰,再加上行業不同,需求不同,垂直領域大模型的到來注定是必然的。
因為,專業領域大模型在金融、文旅、傳媒、政務、教育等多個產業場景中具有廣泛應用和商業創新價值。
比如,今年3月,彭博社發布了為金融界打造的500億大模型BloombergGPT。
這一模型依托彭博社大量金融數據源,在金融任務上的表現超過任一模型。甚至,在通用場景中,也能與現有模型一較高下。
還有谷歌推出的醫療領域大模型Med-PALM2,在醫學考試問答上超過了許多專家的水平。
要知道,只有真正創造價值的技術才能可持續、高質量地發展。
目前,國內布局大模型領域的大廠,正在不斷夯實通用大模型,打造產業大模型,進而助力AI產業大模型的發展。
「通用大模型+產業大模」兩條腿走路,并駕齊驅,可能更適合目前我國發展的情況。
甚至,國家也在營造人工智能大模型產業生態中給予大力支持。
比如「北京市通用人工智能產業創新伙伴計劃」的啟動,就是要推動大模型賦能千行百業數智化轉型。
要看到的是,垂直大模型是一種全新的生產力。
以GPT-4為代表的認知大模型在多個任務上實現了驚艷的表現,同時也帶動了相關產業創新應用也在不斷涌現。
這次技術峰會,騰訊云進一步釋放行業大模型的服務能力。從側面也看出,目前企業對大模型實際落地需求也是非常迫切的。
從真實客戶需求場景出發,騰訊云獨到的「量體裁衣、普惠適用」的行業模型解決方案,讓大家做屬于自己的行業模型,實現提質增效。
騰訊集團高級執行副總裁、云與智慧產業事業群CEO湯道生表示,
大模型只是開端,AI與產業的融合,將綻放出更有創造力的未來。生態共建是AI發展的有效路徑,騰訊將堅持生態開放,為企業提供高質量模型服務,同時支持客戶多模型訓練任務,加速大模型在產業場景的創新探索。
在這個AI2.0時代,若想成為掌握下一個十年的核心競爭力的先行者,還需模型應用,產業先行。
騰訊云在做的,讓行業大模型落地更實在。