近一年來,生成式人工智能(AIGC)技術的快速發展和各種大模型的涌現,引發了全球范圍內對于通用人工智能(AGI)時代是否即將到來的討論。在 AIGC 大模型公共服務逐漸被大眾辯證地接受后,如何用 AIGC 技術重塑企業智能服務成為一個深水區。現在,幾乎所有的企業都在嘗試 AIGC 技術在自身領域的落地,但是,在落地過程中會面臨各種挑戰和難題。然而,我們清晰地看到,新的人工智能(AI )技術已經改變了企業原來通過 AI 原子化能力賦能業務的鏈路。在統一的企業 AI 數據基礎設施之上,通過大模型中沉淀的泛化的智能與精準的企業知識進行深度融合,再濃縮成特定場景化的服務,帶領企業邁入真正的全面智能化時代。
1.深度學習時代的 AI
2006年,Geoffrey Hinton 等發表了論文《Reducing the Dimensionality of Data with Neural Networks》,開啟“深度學習”時代。到如今,通過近 20 年的時間,越來越多的企業已經構建了相對完善的 AI 應用開發和運維體系,這個體系通常分為三層:底層是機器學習平臺,中間層是 AI 服務,最上層是基于 AI 服務的企業應用。
在深度學習時代的 AI 存在諸多落地問題:具體來說,在數據側,由于傳統小模型泛化能力較差,難以將現有模型直接結合更加完整的企業私有數據對外提供服務,企業私有數據在面向 AI 的應用方面并沒有實現連通和鏈接;在 AI 服務生態方面,企業期望能夠直接復用已有的 AI 服務來快速構建應用,但實際只有一小部分服務(如 OCR、語音識別等)實現了較高的可復用性,企業仍需為其自有數據和業務場景不斷開發新的算法和模型,AI 應用的落地效率有待提高。
2.大模型帶來的 AI 應用落地范式轉移
隨著以大模型技術為核心的 AIGC 技術的快速發展,AI 時代的 iPhone 時刻正式來臨,AI 正在從深度學習時代邁向大模型時代。全新的技術范式正在重新定義企業 AI 應用的落地方式,加速企業全面智能化升級,也將帶來傳統 AI 應用開發和運維的新變化。
大模型可以結合更多的企業數據進行智能化應用開發,而不局限于非常有限的數據進行 AI 智能化;大模型的泛化能力可以使一個大模型處理多個下游 AI 任務,節省模型開發時間和多個模型的運維成本;同時數百億參數級別的大模型具有泛化能力和智能涌現能力,模型效果相較傳統深度學習模型有較大提升。這些大模型優勢也吹響了 AIGC 在企業落地的號角。
從深度學習時代到大模型時代的 AI 應用落地范式轉移
3.大模型在企業應用落地的挑戰以及應對
大模型由于其技術優勢,各企業已經逐步嘗試結合企業數據進行落地。在實踐過程中,也存在諸多挑戰:
• 企業海量數據管理難、成本高,如何讓企業豐富的數據為 AI 落地做好準備?
• 結合向量數據庫和企業數據,大模型在落地過程中存在幻覺、不可解釋等問題,如何應對企業對精準知識以及可解釋性的需求?
• 如何在有限資源下實現更快的模型推理效果?
• 如何打通從企業數據到模型服務的整個企業智能價值鏈路?
為了應對以上挑戰,實現 AI 應用的快速落地,企業需要建立針對大模型時代的 AI 基礎設施,減少大模型幻覺問題,優化 GPU 資源使用,并提升服務推理能力;需要對企業各種類型數據進行智能的管理和盤點,為大模型提供高質量的數據輸入;需要提供用戶友好的工程化鏈路來打通從企業數據、模型服務到智能應用的價值鏈路。
3.1 統一的 AI 基礎設施比以往任何時候更重要
歸功于大模型的泛化能力和多模態能力,在未來,除了少數企業采用自有全新訓練和微調( fine tune) 大模型外,多數企業將更多地基于大模型(通用大模型或行業大模型),再結合少量小模型進行快速應用落地。在此背景下,企業比以往更加關注私有數據、更為經濟的算力以及開箱即用的模型。在大模型場景下,企業也需要解決大模型幻覺問題、大模型長效記憶和推理問題,同時能基于有限的 GPU 資源提升服務推理效果。因此,針對大模型的統一數據、算力和模型的 AI 基礎設施將成為未來企業在大模型時代的標配需求。
3.2 AI 是數據的最終出口,高質量的數據可以幫助企業打造高質量的本地模型以及 AI 應用
當前,商業智能(BI)仍是數據的重要出口之一。隨著大模型技術的興起,BI 和 AI 的融合將得到加速,AI 將成為數據的最終價值出口。從 BI 的數據使用歷程來看,高質量的數據報表依賴于高質量、經過清洗的結構化數據。類似于 BI ,高質量的多模態數據也將是影響 AI 模型和應用質量的重要因素。企業將從基于監管的數據治理轉向以業務驅動的智能化數據資產盤點,為大模型和業務場景提供高質量的數據輸入。但偏重人工實施的傳統數據治理平臺難以高效完成這些工作,因此,在大模型的能力驅動下,統一智能數據資產平臺建設將有效保障高質量的企業數據,進而加速企業在大模型時代落地 AI 應用的能力。
3.3 打通數據和模型工廠的低代碼平臺才能真正幫助企業快速落地 AI 應用
在大模型時代之前,由于 AI 模型的泛化能力有限,很多情況下不同的 AI 應用需要單獨建立新的 AI 模型,這導致新 AI 應用開發依賴專業的算法工程師和高級開發人員。而在大模型時代,企業人員可以更多地關注其私有數據并選擇合適的大模型(或者是大模型和小模型的搭配),并通過提示工程或模型微調將模型同本地高質量的數據鏈接在一起。更進一步,大模型可以理解業務場景,根據客戶數據和業務場景來編織不同的模型共同完成業務目標。企業人員將更傾向于使用低代碼化方式來關聯其數據和模型,以實現 AI 能力在業務的快速落地。通過將企業多模態的數據“編織”起來,并利用不斷升級的 AI 大模型的能力,重塑企業服務,最終產生新的業務價值。
4.Fabarta 如何解決當下新 AI 能力在企業智能領域落地過程中的問題
4.1 Fabarta 產品矩陣
基于對大模型時代 AI 應用落地范式的理解,Fabarta 結合當前服務的多家大型頭部金融、制造業等客戶的業務痛點和需求,經歷一定的產品打磨后,提出了“一體兩翼”的產品矩陣。該產品矩陣旨在實現大模型時代數據、算力和模型的一體化,構建大模型時代的基礎設施,幫助企業快速構建大模型時代的 AI 應用。
Fabarta “一體兩翼”產品矩陣圖
“一體”指的是統一構建企業在大模型的基礎設施,實現對數據、算力以及模型運行時的管理,從基礎層面實現為 AI 就緒的基礎設施( Infrastructure Ready for AI),融合了圖與向量計算的多模態智能引擎,既可以實現模型推理過程中的長效記憶,也可以優化模型的推理框架,使其具備更好的邏輯推理能力;“兩翼”分別指數據和 AI,其中數據側提供了完善的多模態數據管理功能,有效幫助企業治理并盤點數據資產。這些數據可以存儲在“一體”中作為企業的私有數據,為 AI 提供高質量數據,從數據側實現為 AI 就緒的數據( Data Ready for AI);AI 側打通了模型工廠能力和企業私有知識融合能力,并采用低代碼化方式,幫助企業快速使用大模型,基于微調或者提示模式結合企業私有知識進行 AI 應用的落地(AI Ready for Apps)。
4.2 Fabarta ArcNeural 多模態智能引擎
在 AI 時代已經誕生了多種多模態的數據庫,很多傳統數據庫也可以通過擴展方式支持不同形式的數據存儲,但是這些多模態數據庫,究其本質依然是實現多種數據的存儲和統一訪問。在大模型時代,Fabarta 始終思考的是,除了支持多模態數據的存儲和統一訪問之外,對于大模型的支持,還能做到什么?
• 數據挑戰:如何能夠幫助企業構建統一的私有多模態數據層,并能夠將該私有數據很好的與大模型結合起來?
• 算力挑戰:企業若私有化部署大模型,如何在有限的算力情況下,支撐更高的并發?
• 模型挑戰:大模型推理能力有限,如何幫助提高大模型的推理能力?企業對于大模型生成式回答有著非常高的確定性需求,如何有效減少大模型有模有樣的亂生成問題?如何幫助企業實現可解釋的智能?
ArcNeural 是以 Data-Centric AI 為核心構建的用于處理符號化數據圖(Graph)和向量(Vector)的智能引擎,將傳統數據庫的“存儲&計算”架構演進為“記憶&推理”架構,為 AI 應用提供私有記憶和精確可解釋的推理,ArcNeural 是建立在 AI 三要素數據、算力和模型之上的基礎設施,為上層 AI 智能應用提供支撐,加速業務智能化創新的進程。
例如,在知識庫智能問答系統中,首先將企業的數據(原始的 Raw data,如 CRM 、ERP 數據、產品手冊等)全部導入 ArcNeural,引擎將自動建模并生成符號化數據(Embedding&Graphing)。當用戶提問時,ArcNeural 通過可解釋的符號計算(圖計算)和向量計算等分析問題、尋找相關高價值數據,并提供優化的運行時環境支撐大模型進行內容生成、歸納和總結。這樣既保證了回答的準確性、實時性和私密性,又有效避免大模型的“胡說八道”,為用戶提供智能友好的服務。同時,靈活可擴展的引擎架構也同時支撐獨立的圖數據庫、圖計算和企業級向量數據庫的場景應用,靈活應對企業在業務智能化方面對基礎設施的需求。
Fabarta ArcNeural 多模態智能引擎架構圖
4.3 Fabarta 多模態數據編織平臺
大模型技術的應用,需要打通企業海量私有數據,而當前企業數據類型多、數量大,質量雜,如何將“私有數據”梳理為 AI 可用?這對數據管理提出了全新挑戰:
• 數據形態升級:從專注于核心經營報表,到全面覆蓋原始的 Raw data,如 CRM 數據、ERP 數據、產品手冊、規章制度、圖片、視頻文件等,不只是從結構化數據到非結構化數據的升級,更需要全新的數據連接、抓取的技術方式,也需要更普適的元數據管理方式;
• 治理目標升級:治理的目標,從數據的“DAMA 六性”(Completeness 完整性、Uniqueness 唯一性、Timeliness 時效性、Validity 有效性、Accuracy 精確性、Consistency 一致性),升級為對語義的理解和對隱含關系的提取;
• 數據服務升級:數據治理的服務對象,從 BI 升級為 AI 進而演化為大模型,因此數據服務的形態,也從傳統的二維表,升級為適配于大模型生態的知識服務。
Fabarta 多模態數據編織平臺,是面向 AI 的數據管理平臺,更加智能的連接、理解、治理數據,將企業數據轉化為企業知識,為 AI 的應用落地提供數據驅動力,同時也兼容傳統的數據治理場景。平臺基于 ArcNeural 智能引擎,連接企業私有數據,自動獲取并分析其中的元數據和數據語義,形成數據血緣和資產圖譜,在此基礎上提供智能化數據標準貫標、數據質量分析、指標鏈路優化、數據分類編目等功能,為業務應用和大模型提供數據服務。其核心模塊包含:
• 圖增強數據治理:采集并識別包括結構化數據庫、文檔、圖片在內的多模數據的元數據信息,通過數據處理腳本、系統訪問日志等原始技術信息解析數據血緣,全方位管控數據標準、數據質量、數據安全,并可兼容對接企業已有數據治理平臺;
• 智能數據資產盤點:利用準確的元數據、血緣等信息,對海量企業數據進行篩選和分類,并通過智能化技術的輔助,對數據內容進行理解,提取隱含的數據關系,還原真實的數據模型(Data Model);
• 多模態數據服務:通過指標建模、數據虛擬化、知識服務等技術,同時適配傳統 BI、AI 和大模型場景,提供全面的數據服務,也可對接 Fabarta 企業智能服務平臺,快速落地 AI 應用。
Fabarta 多模態數據編織平臺架構圖
Fabarta 多模態數據編織平臺作為 Fabarta 產品矩陣中的“數據翼”,充分利用大模型能力,實現智能數據管理,對接企業已有的大數據平臺,梳理和治理企業海量多模態數據,構建數據資產地圖,并為 AI 大模型落地提供智能數據基礎,提供 AI 落地就緒的數據(Data Reay for AI)。
4.4 Fabarta 企業智能分析平臺
在過去數十年間,AI 平臺的主要用戶還是專業的算法工程師和高級開發人員,平臺則為其提供完備的 AI 開發工程鏈路、成熟的算法、高效的訓練與推理框架。大模型以其出色的泛化推理能力吸引了各個行業的關注,尤其是如何能讓企業中的業務用戶、工程人員以較低的門檻就可以結合大模型把沉淀的私有數據給利用起來,直接為業務產生價值。從面向專精尖的 AI 開發者,到面向企業業務用戶的大模型能力落地,這其中的轉變的挑戰則是這個時代的企業智能平臺需要面對的:
• 面向大模型時代的數據準備:企業的多模數據如何在 AI 場景下更好的通過切分、再組織,轉變為合適大模型的數據存儲形態并結合業務場景選擇微調或者提示模式,減少大模型的幻覺問題以保障企業級落地;
• 面向大模型時代的模型準備:企業如何在如雨后春筍般的開源、閉源大模型項目中,選擇出符合自身業務場景的基礎模型作為企業智能底座;
• 面向大模型時代的業務賦能:企業如何幫助業務人員聚焦自身的業務數據,結合大、小模型各自的優勢,以拖拉拽的方式直接生成 AI 應用,自助式的完成普惠性的大模型場景的落地。
Fabarta 企業智能分析平臺架構圖
Fabarta 企業智能分析平臺作為 Fabarta 產品矩陣中的“AI 翼”,旨在以低代碼無代碼(Low-Code No-Code LCNC)的方式幫助企業中的 AI 開發者、業務用戶、應用開發者快速落地 AI 能力。其特點如下:
• 大模型落地加速:幫助企業結合自身業務、數據選擇最優大模型,支持自有數據與主流大模型進行微調,直接使用大模型與本地知識庫構建知識服務;
• 支持大模型應用演進:企業級的 AI 應用更多依賴特定大模型并結合多個小模型的方式滲透到業務的方方面面,平臺通過模型工廠、模型編排,全面支持企業級 AI 應用的大模型化;
• 企業智能用戶生態全覆蓋:通過數據與 AI 開發、業務分析、服務與應用的三層架構加速數據從開發到業務的全流程。幫助數據面向行業、場景產生業務價值;
• LCNC 分析能力串聯:LCNC 應用已不僅僅是前端組件的拖拉拽,更是通過將復雜的業務分析邏輯進行預封裝,幫助業務用戶更多的聚焦數據與業務本身,通過平臺能力直接生產業務應用,全面提高 AI 的普惠性;
• 行業能力的沉淀與復用:幫助企業將自身行業特色的業務知識、技術原子能力進行沉淀,以平臺能力支撐其業務場景橫向擴展時的復用性,加速行業能力的落地;
• 面向可解釋的圖智能:利用圖數據天然的可解釋性,結合圖計算算法、決策引擎、分析畫布、圖 BI、數據探查等能力幫助最終業務用戶知其然、知其所以然。
5. Fabarta 助力大模型時代的應用落地
Fabarta 利用其核心產品,已經幫助多個頭部企業客戶進行智能化轉型:
• 利用圖和大模型技術賦能的數據血緣鏈路跟蹤技術,幫助某頭部城商全面追溯數據血緣并提升數據洞察力,確保基于可靠的數據進行決策; 通過深入分析數據血緣,可以快速定位數據質量問題,實現對數據的探索,為構建數據編織打下堅實的基礎;
• 利用企業智能分析平臺,結合多模智能引擎中的圖技術和圖算法,幫助某頭部商業銀行快速開發貸后風控應用,實現風險管理中的預警配置、風險評價、風險排查、客戶視圖等功能,降低風險監控成本,做到風險監控的一站式管理;
• 利用融合向量和圖的多模智能引擎,幫助某頭部制造企業快速對接內部知識庫 ,構建智能問答系統,實現大模型對企業數據的賦能,充分挖掘和發揮企業數據的價值。
•
邁向大模型時代的新范式,Fabarta 通過多模智能引擎管理以向量和圖為主的大模型時代符號化數據,提供算力和模型加速支持,作為新時代的 AI 基礎設施;同時通過數據編織平臺實現對數據的探索、智能盤點和使用,為大模型提供高質量企業數據;利用企業智能分析平臺幫助企業快速連接本地數據,利用大模型賦能業務應用。Fabarta 秉承“數聯世界、智見未來”的理念,致力于構建大模型時代的 AI 基礎設施,與合作伙伴和客戶一起,共創大模型時代的智能企業。如對我們的產品或技術感興趣,歡迎通過[email protected]與我們聯系。