中國經濟周刊-經濟網訊 (記者 賈璇) 當下,在AI工程化實踐中,核心問題是如何將AI數據、算法、模型與實際場景相結合,如何高效運用數據。
近日,Testin云測旗下AI訓練數據服務品牌云測數據在2022年中國國際服務貿易交易會上,發布面向AI工程化的新一代數據解決方案,這也是AI數據行業領域面向AI工程化的首個數據解決方案。
“AI數據基石”持續升級
近年來,人工智能在各行業大規模應用,人工智能技術逐漸從瀑布式開發轉為敏捷開發,MLOps等模式應運而生。
MLOps(Machine Learning Operations)是一門工程學科,旨在統一ML系統開發(dev)和ML系統部署(ops),以標準化過程生產高性能模型的持續交付。
云測數據相關負責人表示,如果大致歸納,可以將算法迭代分為三階段。第一階段為算法預研期。前期預研立項,對傳感器及場景要求較低,需要行業基礎數據集。第二階段為算法研發期。場景定義明確,已完成傳感器選型,需要場景化定制采集、清洗、標注數據。第三階段為算法持續優化期。需要基于場景持續給予生產環境數據對模型進行迭代優化。數據用途不僅用于訓練,還運用于評測、仿真場景構建或業務邏輯處理等。
“每個階段所需要的數據特點鮮明,且不可或缺。如何更好地幫助企業完成算法持續優化期的數據,是幫助企業完成工程化,面向產業落地至關重要的一步。”該負責人說。
為此,云測數據面向AI工程化推出新一代數據解決方案,該方案通過成熟數據管理和標注平臺,與企業完成系統集成+支持企業自定義預標注、算法接口+人員管理、項目管理體系+安全交付軟硬件支持的方式,在保證數據隱私安全的標注環境下,高度支持企業所需數據的高效流轉、持續進行數據處理任務,提高規模化生產效率。
通過云測數據面向AI工程化的新一代數據解決方案,可在保障數據安全的基礎上,加速AI企業算法模型開發周期,在AI數據訓練過程中綜合效能可提升200%以上、數據交付質量最高可達99.99%標注精度、助力企業降本增效。
同時提升數據管理、場景庫管理能力,幫助運用人工智能的企業對數據資產加以沉淀、安全管控和風險治理,提升企業AI治理能力,推動挖掘更加多元化的AI價值。
通過采用云測數據標注平臺,可提高多個場景下的數據能力。如在自動駕駛領域,可實現車企DataOps(即Data和Operations組合)數據閉環中數據清洗、標注工作,與原流程相比提升2倍流轉效率;在零售貨檢方面,通過云測數據標注平臺,將貨柜檢測數據持續回流,基于算法預標注結果進行可視化審查并修改,與純人工標注效率提升3倍。
云測數據推進行業規范發展
在數字經濟持續發展的背景下,人工智能發展迅速并與各種應用場景深度融合,已成為促進經濟創新和發展的重要技術。在多元化的人工智能場景落地背景下,推進人工智能數據質量向更高標準發展已成為行業廣泛關切的重點。
近年來,云測數據積極推動人工智能數據行業標準化工作的建設,先后參與編制《智能網聯汽車激光雷達點云數據標注要求及方法》、《智能網聯汽車場景數據圖像標注要求與方法》,為產業智能化貢獻經驗與智慧,推動了AI數據服務垂直領域構建標準化體系。
今年5月,云測數據與華為、百度、京東、中原銀行等數十家科技公司共同編寫《人工智能研發運營一體化(Model/MLOps)能力成熟度模型第一部分:開發管理》,這是Model/MLOps能力成熟度模型系列的首個標準。
“開發管理”部分將面向具備自研能力的用戶方企業、ModelOps/MLOps 開發平臺產品提供方等對象,以需求管理、數據工程及模型開發三大能力子域作為開發管理的切入點,為具備人工智能軟件研發交付運營能力的組織在實施模型開發管理過程中的能力給予評價和指導。
此外,云測數據參編的“數據處理”部分有力地推動了AI數據服務領域構建標準化體系,為AI模型快速獲取高質量訓練數據提供了科學方法論。
同時,云測數據先后推出“云測數據標注平臺”、“AI數據集管理系統”等技術成果,為AI相關企業提供處理大規模感知數據的能力。通過結構創新、智能化、工程化、標準化的標注平臺產品賦能AI訓練數據行業,極大地加速了人工智能相關應用的落地迭代周期,助力企業AI數據訓練綜合效率提升200%、標注精準度最高達99.99%。
通過源源不斷產出的高質量、場景化的AI數據,云測數據促使人工智能產業加速發展,持續提升了Al應用的規模化落地效果。