AI 數據是推動人工智能落地發展的核心基礎,是人工智能技術應用和發展的基石。人工智能的大規模應用需要利用海量數據對模型進行訓練,可以說,沒有高質量的數據就沒有人工智能的大規模應用。可以說,AI 數據基礎設施已經成為AI 新基建的重要支撐。
國家工業信息安全發展研究中心最新發布的《2020年AI新基建發展白皮書》中指出,人工智能算法的演進升級需要高質量數據作為支撐。經過清洗標注、去掉噪聲數據的高質量數據集比未經過處理的數據集更適合人工智能算法進行訓練。質量不斷提升的數據集已經成為人工智能技術發展的重要推動力,高質量AI數據正驅動人工智能算法更加智能化。
回顧過去,早期的數據標注行業曾長期處于粗放的發展模式,數據粗制、混亂、復用的情況屢見不鮮;但隨著AI與各個產業結合得愈加緊密,AI商業化程度進入新的高度,行業屬性較強的垂直領域加速落地,數據標注的需求正逐漸轉向個性化、場景化和準確化,數據服務供應商的技術實力、精細化管理能力、流程把控能力不斷提升,數據標注行業走向專業化、精細化、定制化。
這也意味著必須有能力超群的代表站出來,重新定義數據標注行業的規則。
目前,數據標注行業的企業機構主要分為三類:第一類是AI公司內部的標注部門,第二類是數據標注眾包平臺,第三類是以場景化、高精度數據采集和標注見長的公司。
第一種形式顧名思義,科技企業自身有數據采集標注需求,大量數據標注任務由公司內部完成。
第二種是眾包平臺,以亞馬遜眾包平臺Mechanical Turk為代表,基本按照“需求公司——眾包平臺——多個互聯網用戶”的模式完成。
第三種是以云測數據為代表的,專門從事高精度、場景化數據采集和標注的第三方企業。
與其他數據標注公司不同的是,云測數據更強調高精準度的場景化的數據服務。其CTO陳冠誠認為,“通過云測數據的服務,企業可以將自己算法的識別精度推到一個新的高度,進而落地成為產品被用戶使用,而沉淀的用戶數據以及用戶在分享過程中逐漸產生的更多互聯網數據,則會讓整個數據庫演變成大數據生態。”
實際上,這所體現的正是對數據質量的把控能力和對場景深度的還原能力。
以云測數據為例,為進一步滿足場景化數據的需求,首創了“數據場景實驗室”進行相應的場景化數據生產,以滿足AI行業應用場景逐漸趨于長尾和碎片化的趨勢;并從幫助客戶梳理數據需求出發,通過自建數據標注基地和自研的數據標注平臺進行數據的全流程把控,在保證數據的質量、效率和隱私安全的前提下,來幫助AI企業或部門快速構建核心數據壁壘,加速AI產業化落地的進程。
舍恩伯格在他的《大數據時代》中預言:“數據可以量化一切,文字變成了數據,方位變成了數據,溝通變成了數據,直到萬物的數據化。
當下,數據價值驅動的數字經濟正成為推動社會前進的主要模式,由各種AI等創新技術驅動的數字化轉型成為了新基建的核心。“新基建”的東風促使我國人工智能、5G、工業互聯網等行業迎來大規模提速發展機遇期,AI數據作為新的生產要素聲名漸顯,以云測數據為代表的深耕數據采集、數據標注的人工智能數據服務商將進一步助力AI產業生態的完善。