當前,以ChatGPT為代表的LLM應用正在掀起新一輪的AI 浪潮,數字產業生態也迎來前所未有的變局。隨著LLM應用的興起,如何低成本地實現大模型的構建和應用,成為企業關注的重點。
近日,國內領先的云原生數據倉庫廠商酷克數據宣布將推出自主研發的AI開發工具HashML,通過機器學習、深度學習及預訓練大模型等技術,為開發者提供簡單易用、算法先進、性能卓越的AI開發體驗。
HashML是酷克數據核心產品HashData云數倉的擴展實現工具,隨數倉的部署提供開箱即用的AI能力,讓數據科學家、數據工程師、應用開發者無門檻地使用大模型,大幅降低大模型系統部署的成本和復雜度,推動大模型走向規模化應用。
大模型熱潮涌來 成本問題備受關注
目前,在大模型領域,國內外科技巨頭的競爭已經白熱化。亞馬遜、谷歌、百度、華為、阿里等企業競相涌入,相繼推出各自的大模型服務。
中國科學技術信息研究發布的《中國人工智能大模型地圖研究報告》顯示,截至今年5月,國內已公開披露的大模型數量達到79個。
然而,對于企業而言,當前要部署和使用大模型,仍面臨著高昂的成本負擔。
據了解,大模型在企業落地的成本主要包括模型前期微調與訓練的成本以及模型后期與業務結合的運行成本,涉及計算資源、存儲費用、網絡傳輸、數據標注等費用。
從訓練成本來看,以ChatGPT為例,其訓練成本一次大概需要數百萬美元。華為公布的數據顯示,大模型開發和訓練一次所需的費用大約1200萬美元。在高度迭代和反復訓練過程中,再加上供不應求的算力成本,大模型入門門檻將高達上億級別,這對于眾多企業來說是很難承受的壓力。
可以說,高昂的成本已經成為大模型規模化應用巨大阻礙。與此同時,各大科技企業也在積極探索利用創新技術降低大模型應用的成本。
降低AI開發門檻 云原生數倉助力大模型普惠化
值得關注的是,云計算平臺在大模型訓練方面具備與生俱來的成本優勢。企業可以基于云平臺自動伸縮、按需計費的特性,對大模型訓練成本進行合理規劃和控制。
大模型的核心邏輯是對海量數據的收集、加工、處理和運算結果的輸出。如果將大模型比作“烹飪”,數據就好比是“食材”,數據倉庫則是必不可少的“廚具”。伴隨大模型熱潮的興起,對于支撐AI的底層數據倉庫也提出了更高的要求。
大模型龐大的數據量帶來了存儲和計算資源的壓力,這要求數據庫能夠提供可以橫向的并發訪問能力、多范式的數據處理分析能力和海量異構數據的存儲管理能力。在這種趨勢下,基于云原生架構的數據倉庫將成為未來數據庫行業發展的重要方向。
作為國內最早專注于云原生數倉研發的企業之一,酷克數據從成立之初,就致力于降低大數據分析和應用的門檻,其核心產品HashData云數倉基于云原生架構設計,通過元數據、計算和存儲層解耦,從而最大限度發揮云平臺的彈性和擴展能力。
酷克數據即將推出的AI開發工具HashML,是一款基于HashData云數倉打造的新一代高級分析和數據科學工具箱,能夠為開發者提供豐富的AI算法和模型能力,僅需幾行代碼就能開啟模型訓練、推理預測,在統一的框架下支持各種經典的機器學習、深度學習算法以及預訓練大模型。
HashML與HashData云數倉共享統一的存儲和計算資源,隨數倉的部署提供開箱即用的AI能力,大幅降低了系統部署的成本和復雜度,為開發者提供了統一的數據查詢、分析、建模環境。
借助HashML,基于HashData的AI應用開發將會變得非常簡單。HashML提供了從數據查詢處理、高級分析到ML/DL模型的訓練、推理和服務部署的全套工具,包括對大語言模型微調和推理的支持,另外提供了Python和SQL兩種編程語言接口。
同時,HashData正在開發增強數據倉庫支持向量數據存儲和處理檢索能力的功能組件,結合云數倉的高擴展性、高可用和高彈性,實現更好地支撐和擴展大模型的應用場景。
未來,大模型將成為新型基礎設施的關鍵底座之一。酷克數據將通過領先的技術和完善的生態,推動人工智能技術普惠化,讓更多企業“用得起、用得上、用得好”大模型,助力企業成長。