當前,不管是人工智能技術的研發以及行業應用的發展,“數據”都是一個不可或缺、位于重中之重的因素。作為人工智能基石的數據,發揮出越來越重要的作用,影響著人工智能場景應用的最終效果。現階段,在各個行業細分應用場景的需求下,人工智能對數據的還原度、準確度提出了更高要求。
從細分結構來看,隨著AI技術的不斷成熟,更多的場景和行業開始嵌入使用AI技術,比如教育、法律、智能駕駛、銀行金融等,這些AI行業應用場景逐漸趨于長尾和碎片化,產生了大量細分專業化的數據需求。對于人工智能應用來說,AI數據的精準度失之毫厘則差之千里,而在人工智能應用落地的過程中,AI數據精準度的差異會愈發的明顯。在這里以國內頭部AI數據采集標注服務商云測數據為例,看看高質量、場景化、精準化AI數據怎樣幫助人工智能加速商業化、落地化、產業化進程。
以智能駕駛汽車領域為例,AI算法訓練數據的“數量”與“質量”非常重要——現實交通場景復雜、安全威脅多,非常重視數據分析的效率和敏捷,尤其是國內路況的復雜性和相關智能應用豐富的使用場景,更需要高質、更精準的數據來進行算法訓練。
目前云測數據為智能駕駛企業提供的提供的解決方案分三部分。一是基礎數據集,二是定制化數據采集和標注服務,三是包括數據采集標注、數據管理的全方位數據工具鏈。
“三個部分對應不同層階段的自動駕駛落地需求。”云測數據總經理賈宇航在接受媒體采訪時介紹,“第一個階段解決場景識別等基礎問題的通用數據,例如車輛識別、車道線識別,這個階段涉及多種傳感器,需要大量布局;第二階段基于選定的場景,根據深度神經網絡引入特定的數據,云測數據場景實驗室和標注基地有實力滿足相應數據的精度和規模;第三階段形成數據閉環,云測數據可提供一整套成熟工具幫助完成數據采集、標注、管理一系列流程,幫助企業完成自身迭代。”
據了解,云測數據采集服務覆蓋智能駕駛主流應用場景,擁有DMS與ADAS場景搭建采集經驗,比如支持駕駛員信息備采、多模及車載語音采集等眾多類型。憑借高質量的數據交付實力,云測數據已和業內包括自主、合資車企,大型Tier1、Tier2,以及無人出租車、自動駕駛公司等眾多企業,建立了持久良好的合作關系。
根據iResearch發布的《2020年中國AI基礎數據服務行業發展報告》:一個新研發的計算機視覺算法需要上萬張到數十萬張不等的標注圖片訓練;一個用于智慧城市的算法應用,每年都有數十萬張圖片的穩定需求;語音方面,頭部公司累計應用的標注數據集已達百萬小時以上,每年需求仍以20%-30%的增速上升,不僅如此,隨著IoT設備的普及,語音交互場景越來越豐富,每年都有更多的新增場景和新需求方出現,對于標注數據的需求也是逐步增長。
隨著人工智能落地需求的場景和專業化程度的增加,AI訓練數據本身的復雜度和種類也將不斷提升,人工智能需要的將是定制化、專業化、精細化的AI場景訓練數據產品服務,具有相關工具、資源、能力的訓練數據服務商將發揮極大的競爭優勢,成為發揮AI數據價值的“源泉之地”