隨著國家政策的傾斜和5G等相關基礎技術的發展,中國人工智能產業進入快速增長階段,人工智能廣泛應用的商業化落地階段來臨。伴隨著人工智能產業的發展,國內逐漸形成了以數據采集及標注為核心的基礎數據服務行業。
國家工業信息安全發展研究中心發布的《2020年AI新基建發展白皮書》指出,人工智能算法的演進升級需要高質量數據作為支撐。經過清洗標注、去掉噪聲數據的高質量數據集比未經過處理的數據集更適合人工智能算法進行訓練。質量不斷提升的數據集已經成為人工智能技術發展的重要推動力,高質量AI數據正驅動人工智能算法更加智能化。
據IDC《中國人工智能基礎數據服務市場追蹤報告》分析,積極參與數字化轉型的客戶群體都有 AI 數據服務的需求,其中標注質量、標注效率、知識經驗、數據安全、整體成本五個維度,構成了用戶對 AI 數據服務商的能力要求。
回顧過去,早期的AI數據行業曾長期處于粗放的發展模式,數據粗制、混亂、復用的情況屢見不鮮;但隨著AI與各個產業結合得愈加緊密,AI商業化程度進入新的高度,行業屬性較強的垂直領域加速落地,AI數據的需求正逐漸轉向個性化、場景化和準確化,數據服務供應商的技術實力、精細化管理能力、流程把控能力不斷提升,AI數據服務行業走向專業化、精細化、多維化。
從AI產業鏈的發展情況和未來發展趨勢來看,中國AI數據服務行業的市場規模正在逐步擴大。一方面,隨著算法模型、技術理論和應用場景的優化和創新,AI產業對訓練數據的拓展性需求和前瞻性需求均快速增長;另一方面,隨著行業內對訓練數據需求類型的增加以及對服務標準要求的提高,產業鏈的專業化分工將愈加清晰,專業化的訓練數據服務提供商將扮演更加重要的角色。
在由國家工業信息安全中心指導、中國電子商會數據資源服務創新專委會主辦、北京賽昇科技公司協辦的“信息技術大講堂——數據治理實踐案例解讀專題分享會”上,云測數據總經理賈宇航結合實踐案例指出,在人工智能數據市場中,數據服務商想要形成強勁的業務優勢,就要擺脫同質化競爭,保持在模式、技術、服務等方面的不斷發展:
一是加強場景化數據的采集能力,換言之就是為人工智能細分場景的落地,提供更加垂直且豐富的數據,滿足其長尾場景的需求;二是提升數據標注的準確性,從工具、規則、流程的開發制定,到標注人員的素質培養,不放過任何可以提升標注準確性的可能;三是充分發揮“底層技術+服務能力”的力量,具備更深刻的行業領域知識、更懂場景、更懂技術、更具行業前瞻性。
以云測數據為例,我們會發現其已經建立了數據產品、數據處理工具與數據服務的“三螺旋”,為智能駕駛、智慧城市、智能IOT、智慧金融等行業提供高效率、高質量、多維度、場景化的數據服務與策略,最大化發揮訓練數據的價值,為人工智能場景化落地輸送更多數據支撐。這種對AI數據的質量、效率、場景化方面提升的要求,才能推動數據要素有序發展及高效利用,助力企業在“百家爭鳴”的智能化浪潮中迎頭而上。
當前,不管是人工智能技術的研發以及應用領域的發展,“數據”都是一個不可或缺、位于重中之重的因素,以數據價值驅動的數字經濟正成為推動社會前進的主要模式。AI數據作為新的生產要素聲名漸顯,它是人工智能長期發展的重要保障,人工智能技術研發、訓練的關鍵。只有當AI應用獲取了更為準確、及時、一致的高質量數據,才能提供更有效、有用、精準性高的智能化服務。相信隨著AI數據服務行業的高速發展和規范并舉,AI數據價值將進一步飛躍,人工智能產業落地進程將大步平穩向前。