在AI產業鏈中,算法、算力和數據共同構成技術發展的三大核心要素。在當前人工智能行業發展進程中,有監督的深度學習算法是推動人工智能技術取得突破性發展的關鍵技術理論,而大量訓練數據的支撐則是有監督的深度學習算法實現的基礎,訓練數據已成為算法模型發展和演進的“燃料”。
為充分發揮人工智能技術的潛能,深度學習模型需要海量且涵蓋圖像、視頻及語音在內等多種類型的訓練數據進行模型訓練。根據 Dimensional Research 的全球調研報告,72%的受訪者認為至少使用超過10 萬條訓練數據進行模型訓練,才能保證模型有效性和可靠性。
市場規模及發展情況
從AI產業鏈的發展情況和未來發展趨勢來看,中國基礎數據服務行業的市場規模將不斷擴大。一方面,隨著算法模型、技術理論和應用場景的優化和創新,AI產業對訓練數據的拓展性需求和前瞻性需求均快速增長;另一方面,隨著行業內對訓練數據需求類型的增加以及對服務標準要求的提高,產業鏈的專業化分工將愈加清晰,專業化的訓練數據服務提供商將扮演更加重要的角色。
同時,數據總量與處理需求量也在快速增長。大數據、云、物聯網等信息技術的發展和互聯網設備的普及產生了前所未有的海量數據,宣告了數據時代的來臨。物聯網的發展更使線下業務產生的大量數據被采集起來,數據量呈指數式增長。
據國際數據公司(IDC)預測,中國的數據量增速最快,平均每年的增長速度比全球快3%。2018年,中國的數據量為7.6ZB,占全球總量的23.4%,預計到2025年將增至48.6ZB,占全球總量的27.8%,年復合增長率達30.35%。在這樣的數據增長背景下,數據資產管理的重要性不言而喻。
如何進行AI數據資產管理
在當下,數據被公認為是企業的最寶貴資產之一,數據的價值得到廣泛認同。對人工智能企業來講,AI訓練數據更是占據著戰略性地位。
當“數據資產是企業核心資產”的概念深入人心之后,人工智能企業對于AI數據資產管理便有了更清晰的界定,數據資產競爭力在企業競爭中的所占比重與日俱增。如果不能對數據進行有效梳理及精細化管理,其價值就得不到很好體現,嚴重影響數據價值發揮與運用。
據了解,作為高質量AI訓練數據服務倡導者和實踐者,云測數據將在2021中國國際服務貿易交易會(簡稱:服貿會)正式對外發布“云測數據標注平臺-AI數據集管理系統”新技術成果。云測數據AI數據集管理系統專注于Al數據集的上傳、管理、存儲、分享,數據類型標簽化管理,同時支持標注結果的存儲、標注結果可視化等功能,從而助力企業進行數據管理,提升數據訓練的匹配度,高效開展模型訓練,增強Al領域的核心競爭力。
總得來說,越來越多的人工智能企業意識到高質量的訓練數據越多意味著AI落地應用效果越精準,但并不意味著所產生的價值越大,只有把海量的訓練數據進行有效管理,才能減少冗余數據、最大化地發揮訓練數據的價值。對于即將發布的云測數據標注平臺-AI數據集管理系統,它將如何幫助企業在AI落地階段更高效、高質的運用訓練數據這一核心資產,我們拭目以待。