近日,由中國信通院(CAICT)等組織開展的2020大數據“星河(Galaxy)”案例評選結果出爐,百度智能云數據眾包智能駕駛數據資產管理實踐項目入選“數據資產管理優秀案例”。
據悉,該案例征集活動由中國信息通信研究院、中國通信標準化協會大數據技術標準推進委員會(CCSA TC601)共同組織開展,面向行業大數據應用、數據資產管理、隱私計算案例三大方向。
隨著國家“新基建”的深入布局,人工智能行業迎來更加廣闊的發展機遇,自動駕駛、智能交通是其中的重要賽道。百度作為中國智能駕駛領軍企業,在智能駕駛領域積累了深厚的技術、能力和資源。
基于在智能駕駛行業多年的數據經驗,百度智能云數據眾包(以下簡稱“百度數據眾包”)打造的“數據資產管理實踐方案”,可提供數據采集、標注、存儲、管理、訓練、清洗、評測等全流程的配套產品和服務。
2020年12月30日,交通運輸部發布《關于促進道路交通自動駕駛技術發展和應用的指導意見》,強力推動國內自動駕駛產業進一步發展。百度數據眾包致力于通過優秀的智能駕駛數據資產管理實踐,加速智能駕駛技術的應用落地,助力政府解決交通效率問題,推進企業實現智能化轉型。
在百度本次入選案例實踐中,某專注于智能駕駛研究的科技創新企業,需優化算法,提升自動駕駛能力由L2至L4級別,但該企業在智能駕駛算法訓練方面,缺少多場景覆蓋的道路數據、高質量標注數據、完善的數據集管理流程等,致使研發進度緩慢。由此,該企業選擇與百度數據眾包進行合作。
在充分考慮該企業內部的數據資源、業務應用現狀后,百度數據眾包為其提供了全流程數據資產管理解決方案。
該項目具備數據量大、場景種類多、準確率要求高等特性,對數據資產管理提出了極高的要求。對此,百度發起成立了自動駕駛數據資產管理專項委員會,提出一套有針對性的組織管理實施辦法,包括資產管理組織架構、數據標準評判方式、數據資產管理流程、稽核檢查評估辦法,以及數據安全保障措施等。
在數據采集方面,完成跨越北京、上海兩個城市2000公里道路的數據采集工作,最終累計交付1.5km點云分割結果、7w幀車道線、80w幀障礙物數據,驗收正確率99%以上。
在數據標注方面,依托獨有的、專業的標注人力與平臺,高效、高質地完成了數據清洗、數據標注;上萬種corner case場景,可幫助查找通過采集和標注建設的場景庫是否有缺漏,助力客戶L4級自動駕駛領域算法加速升級。
在數據管理方面,通過數據管理平臺,客戶可實現對數據的分層級管理,加工處理后數據的可視化,以及針對特定標簽的數據檢索等,幫助其構建完善的非結構化數據治理與管理體系,從而更有效地利用數據,提升模型訓練和算法迭代效率,加快其自動駕駛模型落地。
項目過程中,依托百度上百萬公里采集經驗,百度數據眾包為客戶提供采集線路規劃、篩選待標注數據方法,提升了道路采集效率,減少無效采集和標注浪費。此外,接入適合于不同場景的智能化算法,包括自動預標注技術、智能輔助算法與自動化質檢算法等,極大提升了數據處理效率和數據交付質量。
數據資產化進程對企業帶來的改變,將是具有顛覆與創新意義的,甚至會給企業帶來“重生”。但目前,企業在AI數據采集、數據標注、數據管理等方面,還面臨諸多痛點,包括高質量數據采集難、多場景數據標注難、多類型數據管理難等問題。
如何建立起符合自身數據特點,與自有業務相結合的數據資產管理體系,是企業當下及未來需要重點關注的核心問題。
百度數據眾包依托百度10年AI數據經驗、領先的產品技術能力,以及全國最大的AI數據標注基地——百度(山西)人工智能基礎數據產業基地,致力于為客戶提供一站式AI數據治理與資產管理方案,幫助企業對數據資產進行規范化、流程化的管理,讓數據增值為企業帶來經濟與社會效益。