近年來,大規模預訓練模型(以下簡稱“大模型”)作為人工智能取得突破性進展的重要驅動力之一,顯著加速人工智能工程化和普惠化發展進程,有望成為新一代智能技術底座。人工智能大模型的突破源于高質量數據的不斷發展,提升高質量數據要素供給能力是推動通用人工智能大模型領域創新的關鍵。
2020年的一項重要研究工作發現,模型效果與模型的參數、數據和計算量之間存在冪律發展規律“ScalingLaws”。模型參數、數據和計算量呈指數級增長,模型在測試集上的損失呈指數級下降,模型性能越好。
也就是說,在計算量給定、參數規模較小的情況下,增加模型參數量對模型性能的影響遠高于數據和訓練次數的貢獻模型的步驟。
因此,業界對大型模型的性能形成了普遍的認識,即模型的參數和容量越多,模型的性能越好。
從AI產業鏈的發展情況和未來發展趨勢來看,中國AI數據服務行業的市場規模正在逐步擴大。隨著行業內對訓練數據需求類型的增加以及對服務標準要求的提高,產業鏈的專業化分工愈加清晰。
在青年先鋒論壇活動上,云測數據總經理賈宇航指出,作為人工智能的“燃料”,AI數據的質量影響著大模型的最終的結果的好壞。數據的數量越多、質量越高,模型的訓練和性能優化就越充分、性能就越好,高質量的AI數據將助力人工智能應用具備更強大的服務能力。
談及面向大模型高質量數據需求,云測數據在相關層面有哪些優勢布局時,賈宇航表示云測數據一直將數據質量作為AI數據服務的發展核心,不僅聚焦于技術研發優化,更是延伸至人才培養、產品服務等環節,為企業提供高質量的場景化的AI數據服務。業務層面通過數據采集、數據清洗、數據標注等方式為企業引入AI數據處理,以標準API接口支持數據導入和導出、支持已有算法預標注功能,可以提供多項AI數據產品應用和AI數據服務,跟任何的企業的數據庫打通,完成原始數據到標注數據的快速積累,加速AI模型的開發進程。