百度智能云TechDay暨百度技術開放日舉行,詳解技術如何釋放數據要素價值
隨著數字經濟時代的到來, 數據正在發揮著越來越大的價值,為各行各業的智能化轉型提供動能。12月25日,以“技術驅動,釋放數據要素價值”為主題的百度智能云TechDay暨百度技術開放日——數據眾包專場在北京舉行。百度作為一家深耕人工智能技術多年的公司,同時也是AI數據采集和標注的先行者和推動者,百度智能云數據眾包依托百度10年AI數據經驗、領先的產品技術能力和業界最大的數據標注基地,正在為上百家領軍企業提供AI數據服務,加速產業升級。
數據是人工智能技術發展的“燃料”。在今年,“數據”首次被中央納入生產要素,這代表數字中國建設再次提速。百度技術委員會理事長陳尚義表示:“2010年初,百度開始布局人工智能,是國內投入最早、技術最強、布局最完整的人工智能領軍企業,也是最懂數據的企業。目前百度智能云數據眾包已經成為業界規模最大、品牌和技術最強的AI數據服務商,可以為廣大的AI開發者提供最專業、高質量的一站式數據采集標注等服務。”
百度技術委員會理事長 陳尚義
數據眾包模式是群體智能的一種集中體現。北京航空航天大學計算機學院的孫海龍教授分享了面向大數據產業的群體智能遇到的機遇與挑戰。他表示,群體智能是國家新一代人工智能發展規劃的核心內容之一,為大數據智能產業發展提供重要的理論與技術支撐。特別是,數據眾包廣泛用于大數據感知、收集和分析等,已成為群體智能支撐大數據智能產業的重要形式,但仍面臨著群智資源管理、任務調度分配以及結果匯聚等多方面的技術挑戰,解決這些挑戰性問題迫切需要學術界與產業界的深度合作。
北京航空航天大學計算機學院教授、博士生導師 孫海龍
一站式數據標注服務,引領數據產業發展
百度智能云數據眾包打造的AI數據標注平臺,實現數據從采集、接入、清洗、標注,到質量管理、交付等各流程的一站式管理。
數據采集方面,百度智能云采集資源覆蓋40多個國家地區,全國8大方言區。百度智能云數據眾包已實現到業內最快的人像采集速度,每周可采集人像3萬個,采集語音5萬條。
數據標注方面,百度智能云數據眾包已經形成四大關鍵能力:支持全場景的數據標注工具、全流程的流程平臺管理能力、智能的標注技術以及龐大的資源支撐的能力,能夠針對各類AI應用場景數據需求,提供一站式AI數據服務。百度智能云數據眾包沉淀了70余種數據標注的能力,近十年來已經為百度200多條產品線和業內上百家行業頭部客戶提供了近5萬次AI數據服務,正確率最高達到99.99%。
會上,百度智能云數據眾包團隊揭秘了AI數據標注平臺的核心技術。數據標注平臺由工具平臺、資源管理平臺和任務分發管理平臺組成。工具平臺滿足客戶語音、圖片、視頻、文本、3D點云等全類型、全場景數據標注,支持點、線、框、區域等多種元素拖拽配置,每年支持數千個不同規則項目需求;資源管理平臺與任務分發管理平臺,打造從數據接入、任務分配、資源調度、質量審核、任務結算等全流程支撐體系,實現對百萬級任務和數十萬用戶實時管理。借助機器決策,標注過程實現了人員和數據的自動流轉,擺脫了人工干預,兼顧了效率和公平。針對用戶歷史標注行為進行深度挖掘,結合百度自身的用戶畫像能力,系統能自動描繪出全面、精準、多維的用戶畫像體系,為每一個數據標注項目推薦最合適的標、審人員,確保使用最匹配的人員為客戶釋放數據最大的價值,在保證質量的同時更兼顧了效率。數據標注平臺以百度智能云AI、大數據、云計算等能力為底座,基于領域驅動的微服務架構、插件化的微內核架構,保障平臺快速高效運行,為客戶創造大規模高質量數據標注服務保駕護航。
值得一提的是,百度智能云數據眾包不斷探索前沿智能標注技術,從0到1,構建強大算法能力。目前,AI算法已貫穿標注前、標注中、標注后全流程,廣泛應用于預標注、輔助標注、質量檢查、人員畫像等各環節,累計提升標注效率超60%,標注錯誤自動檢出占比達70%,極大提升標注效率與質量。據介紹,AI輔助的智能標注引入后,實現人體骨骼點標注整體效率提升71%,OCR的輔助標簽效率提升20%,3D連續幀障礙物預識別單幀效率提升28.8%。此外,數據眾包與百度研究院合作的基于深度學習的三維點云等前沿標注技術持續激發AI數據的潛能,目前已在自動駕駛領域取得不俗進展。
首發數據服務與資產管理平臺,提效AI算法模型迭代
作為此次活動的一大亮點,百度智能云發布了業內首個智能駕駛領域數據服務與資產管理平臺,為智能駕駛企業用戶提供一體化智能數據服務解決方案。數據服務與資產管理平臺覆蓋“數據采集、數據標注、數據管理、模型訓練、模型評測”的人工智能開發全生命周期,幫助企業用戶圍繞數據打造AI Pipeline,提升AI算法模型迭代效率,讓數據更好的驅動模型開發。數據服務與資產管理平臺將以領先的數據服務,為客戶打造AI數據閉環,加速客戶數據價值實現。
數字經濟時代,數據已經成為關鍵生產要素。現場的專家一致認為,未來數據質量、數據治理、人才培訓、流程標準等將成為AI數據服務進一步發展的關鍵驅動,推動人工智能技術進入大規模應用。百度智能云數據眾包作為行業實踐的先行者,將依托“百度(山西)人工智能基礎數據產業基地”的專業標注人力,以業界領先的技術實力賦能各行各業,持續釋放數據要素的深層價值。