6月19日,騰訊云在國家科技傳播中心召開行業(yè)大模型及智能應用技術峰會,首次公布騰訊云行業(yè)大模型研發(fā)進展,依托騰訊云TI平臺打造行業(yè)大模型精選商店,為客戶提供MaaS(Model-as-a-Service)一站式服務,助力客戶構建專屬大模型及智能應用。
峰會上,騰訊集團高級執(zhí)行副總裁、云與智慧產業(yè)事業(yè)群CEO湯道生發(fā)表《模型扎根產業(yè),共建智能生態(tài)》的主題演講,分別從模型、數據、應用與算力四個角度分享了對大語言模型在產業(yè)落地的思考。
騰訊集團高級執(zhí)行副總裁、云與智慧產業(yè)事業(yè)群CEO 湯道生
首先,就模型而言,比起通用大模型,企業(yè)更需要針對具體行業(yè)的大模型,并結合企業(yè)自身的數據進行訓練和精調,以打造出更實用的智能服務。企業(yè)對提供的專業(yè)服務要求高且容錯性低,因此使用的大模型必須具備可控、可追溯和可修正的特點,并經過反復充分的測試。
其次是數據的重要性。數據是大模型的原材料,針對具體場景,數據的覆蓋和質量至關重要。在模型的開發(fā)過程中,需要關注敏感數據的保護和安全合規(guī),并有效管理大量的數據和標簽,不斷進行測試和模型的迭代。騰訊云也推出基于TI平臺的行業(yè)大模型精調解決方案,幫助模型開發(fā)者和算法工程師高效率、高品質、低成本地處理數據,創(chuàng)建和使用大模型。
在應用方面,騰訊自身也應用行業(yè)大模型,優(yōu)化自身企業(yè)級應用,為用戶提高工作效率。例如,通過基于行業(yè)模型的智能小助手,騰訊會議可以協助用戶進行日程安排、會管、會控等操作,并自動生成智能總結摘要,提升會議的效率。騰訊企點智能客服和AI代碼助手等應用也通過行業(yè)模型的訓練和精調,提供更精準、詳細的回答和高效的編程輔助。
最后是算力的支持。算力是模型持續(xù)運轉的基礎,高性能、高彈性和高穩(wěn)定的算力對于大模型的訓練和使用至關重要。騰訊云也提供新一代高性能計算集群,為客戶提供穩(wěn)定計算、高速網絡與專業(yè)運維。同時,推出面向AI運算的向量數據庫,支撐對圖像、音頻和文本等非結構化數據的高效處理,數據接入AI的效率,也比傳統方案提升10倍。
湯道生表示,大模型只是開端,AI與產業(yè)的融合,將綻放出更有創(chuàng)造力的未來。生態(tài)共建是AI發(fā)展的有效路徑,騰訊將堅持生態(tài)開放,為企業(yè)提供高質量模型服務,同時支持客戶多模型訓練任務,加速大模型在產業(yè)場景的創(chuàng)新探索。
以下為演講全文:
各位嘉賓、各位媒體朋友,大家好!
歡迎參加今天的技術峰會,非常高興有機會和大家一起探討產業(yè)智能化升級的機遇;也非常期待與客戶共建,以企業(yè)場景與行業(yè)數據為基礎的行業(yè)大模型。
過去半年,大家都為大語言模型的發(fā)展感到興奮,不少人已經試遍各個通用大模型的聊天機器人,但大部分互聯網用戶可能還只是有所聽聞。市面上的通用大模型在一些聊天問答上,確實有讓人驚艷的表現。基于大量知識與公開信息的訓練,通過推測下一個字的語言生成,它能回答不同領域的提問,生成人性化的回復,連貫地對話。
同時,許多企業(yè)管理者也在思考,如何把大模型技術應用到自己企業(yè)場景中。比如在客服與營銷環(huán)節(jié),為業(yè)務經營帶來更多降本增效。但在具體的企業(yè)場景中,通用大模型可能還不能滿足企業(yè)很多需求,比如,它不一定懂行業(yè)的專業(yè)術語,不了解企業(yè)內部的獨特情況,回答會比較虛、比較籠統,偶爾還會一本正經地胡說八道,信息也不夠及時。
大家既期待著,能力越來越強大的通用大模型,同時也在思考,如何在使用大模型時,保護企業(yè)數據的產權與隱私?如何降低大模型的使用成本?這些都是企業(yè)需要考慮的現實問題。
借今天這個機會,我想講講,我對大語言模型在產業(yè)落地的思考,分別從模型、數據、應用與算力四個角度來探討。
首先是模型。雖然大家對通用大模型期待很高,但它不一定是滿足行業(yè)場景需求的最優(yōu)解。
目前,通用大模型一般都是基于廣泛的公開文獻與網絡信息來訓練的,網上的信息可能有錯誤、有謠言、有偏見,許多專業(yè)知識與行業(yè)數據積累不足,導致模型的行業(yè)針對性與精準度不夠,數據“噪音”過大。但是,在很多產業(yè)場景中,用戶對企業(yè)提供的專業(yè)服務要求高,容錯性低。企業(yè)一旦提供了錯誤信息,可能引起巨大的法律責任或公關危機。因此,企業(yè)使用的大模型必須可控、可追溯、可修正,而且必須反復與充分測試才能上線。
我們認為,客戶更需要有行業(yè)針對性的行業(yè)大模型,再加上企業(yè)自己的數據做訓練或精調,才能打造出實用性高的智能服務。企業(yè)所需要的是在實際場景中真正解決了某個問題,而不是在100個場景中解決了70%-80%的問題。
另外,訓練數據越多,模型越大,訓練與推理的成本也越高。實際上,大部分的企業(yè)場景,可能也不需要萬能的通用AI來滿足需要。因此,如何在合理成本下,選擇合適的模型,是企業(yè)客戶所需要思考與決策的。
今天,我們也正式公布騰訊云MaaS服務解決方案,基于TI平臺打造行業(yè)精選模型商店,覆蓋金融、文旅、政務、傳媒、教育等10大行業(yè),提供超過50個解決方案。在這些能力模型基礎上,客戶只需要加入自己獨有的場景數據,就可以快速生成自己的“專屬模型”。
比如,我們和國內的頭部在線旅游公司,基于“文旅大模型”,打造了機器人客服,可以自動判斷用戶意圖,并自動調用相應的API,高質量完成用戶咨詢及服務。
如果一個用戶問,“節(jié)假日有哪些比較經濟的旅游景點推薦?”基于通用大模型的客服機器人,只能給出一些簡單的景點介紹和路線規(guī)劃。但是,當我們用大量有針對性的行業(yè)數據來做模型精調之后,客服機器人的回答就變得更加細致,能夠規(guī)劃出每天的交通、景點安排,給出經濟實惠的定制化推薦方案。
接下來談談數據。數據是大模型的原材料,針對具體場景,相關數據的覆蓋與質量都至關重要,標注數據的管理也是模型迭代中的重要工作。
模型最終要在真實場景落地,要達到理想的服務效果,往往需要把企業(yè)自身的數據也用起來。在模型研發(fā)過程中,既要關注敏感數據的保護與安全合規(guī),也需要管理好大量的數據與標簽,不斷測試與迭代模型。
因此,我們也推出基于騰訊云TI平臺的行業(yè)大模型精調解決方案。幫助模型開發(fā)者與算法工程師,一站式解決數據的處理問題,高效率、高品質、低成本地創(chuàng)建和使用大模型。我們也可以通過TI平臺以及模型的私有化部署、權限管控和數據加密等方式,讓企業(yè)用戶在打造模型與使用模型時都更放心。
最近,我們攜手中央電視臺打造“央視人工智能開放平臺”。其間也面臨數據量龐大、形態(tài)復雜的問題,導致傳統的數據標簽體系都無法達標。我們重新構建了一套傳媒專屬的數據標簽體系,同時也研發(fā)了創(chuàng)新的“標簽權重引擎”,讓數據標簽顆粒度更細,并按照核心度排序。在這樣的數據標簽體系支撐下,視頻編輯用自然語言就能實現跨模態(tài)檢索。比如,輸入“居民消費力”,系統可自動提供商場、超市相關素材,再搭配智能剪輯,就能快速生成視頻。
接著講講應用。騰訊自身的企業(yè)級應用,已經率先應用了行業(yè)大模型,針對不同應用場景提供更智能的服務,為用戶提高工作效率。
例如,騰訊會議即將推出覆蓋會議全流程場景的智能小助手。通過簡單自然的會議指令,協助用戶進行日程安排、會管、會控等一系列操作。會后可以自動生成智能總結摘要,還能基于智能錄制的能力,幫助用戶高效回顧,提升用戶開會和信息流轉效率。
新一代的騰訊企點智能客服,基于行業(yè)模型,結合客戶業(yè)務需求進行訓練與精調,客服機器人可以提供更精準、更詳細的回答,甚至調用業(yè)務系統來提供實時數據。對比上一代智能客服的機械回答,用戶體驗有很大的提升。
在企點分析平臺上,銷售人員只要問一句“哪個產品賣的最好”,就可以實現準確的商業(yè)分析,不需要花費大量的時間,學習復雜的軟件、制作看板。
借助騰訊云新一代AI代碼助手,程序員也可以快速、高品質地完成代碼的補充、糾錯和解釋,覆蓋編碼、評審、測試等不同場景。
最后講講算力。算力是模型持續(xù)運轉的基礎,高性能、高彈性和高穩(wěn)定的算力需要借助專業(yè)的云服務。
在大模型的訓練和使用過程中,需要大量異構算力的支持,對網絡速度與穩(wěn)定性要求也很高,加上GPU服務器比一般服務器穩(wěn)定性更低一些,服務器的運維、問題的排查更頻繁,整體運維的難度與工作量會高很多。
例如,在訓練集群中,一旦網絡有波動,訓練的速度就會受到很大的影響;只要一臺服務器過熱宕機,整個集群都可能要停下來,然后訓練任務要重啟,這些事件會使得訓練時間大大增加,投入在大模型的成本也會飆升。因此,騰訊云所提供的穩(wěn)定計算、高速網絡與專業(yè)運維,可以為算法工程師大大減輕設備運維的壓力,讓他們把精力放在模型的構建與算法的優(yōu)化上。
騰訊云也打造了面向模型訓練的新一代HCC(High-Performance Computing Cluster)高性能計算集群,搭載最新次代GPU,結合多層加速的高性能存儲系統,加上高帶寬、低延遲的網絡傳輸,整體性能比過去提升了3倍,獲得了很多客戶的高度認可,幾家AI獨角獸都與我們展開了合作。
在計算集群的“硬實力”之外,今天,我們也會推出更適合AI運算的“軟能力”——向量數據庫,它能更高效地處理圖像、音頻和文本等非結構化數據,支持單索引10億級規(guī)模,比單機插件式檢索規(guī)模提升10倍,數據接入AI的效率,也比傳統方案提升10倍。
回顧過去,人工智能的發(fā)展是結合開放數據的積累、算法的創(chuàng)新與算力的突破共同推動的;也是全球科技企業(yè)、高校與研究機構共同努力,通過代碼的開源與研究成果的分享,開放共建的成果。
騰訊云也將在大模型的產業(yè)應用上,堅持生態(tài)開放,支持多模型的選擇,提供訓練與推理的算力,滿足不同行業(yè)、不同場景的多樣化需求。
今天,我們再一次站在數字科技革命的奇點上,大模型只是開端,AI與產業(yè)的融合,將綻放出更有創(chuàng)造力的未來。在這個過程中,騰訊愿意貢獻自己的能力,與行業(yè)伙伴攜手,用智能照亮行業(yè),讓AI普惠生活。