“產(chǎn)業(yè)智能化離不開數(shù)據(jù)治理這一基礎,數(shù)據(jù)治理在很大程度上也決定了產(chǎn)業(yè)智能化進程。”9月15日,“萬物智能——百度世界2020”在線上舉行,下午的智能云分論壇上,百度技術委員會理事長陳尚義從“智能數(shù)據(jù)治理”視角,闡述智能數(shù)據(jù)治理在產(chǎn)業(yè)智能化過程中的重要作用,并分享了百度在數(shù)據(jù)采集、標注及治理等領域所作出的探索。
(百度技術委員會理事長陳尚義:智能數(shù)據(jù)治理在推動產(chǎn)業(yè)智能化的過程中扮演著越來越重要的角色)
陳尚義表示,數(shù)據(jù)治理在產(chǎn)業(yè)智能化過程中起到至關重要的作用,但企業(yè)往往面臨很多困難,如數(shù)據(jù)獲取難、加工難等。為此,百度向業(yè)界提供了綜合的面向多場景、多種類型客戶的數(shù)據(jù)采標解決方案,幫助客戶釋放數(shù)據(jù)價值。
同時,在服務于企業(yè)的基礎上,百度進一步探索出了一條以數(shù)據(jù)采標基地、數(shù)據(jù)交易平臺為核心的數(shù)字經(jīng)濟解決方案,幫助地方政府培育數(shù)字產(chǎn)業(yè)生態(tài)。
陳尚義介紹,百度智能云的數(shù)據(jù)采標解決方案,處于行業(yè)領先地位。
從數(shù)據(jù)采集能力來說,百度擁有業(yè)內領先的采集資源,采集主體覆蓋全球40多個國家和地區(qū);僅國內的語音數(shù)據(jù)采集,就覆蓋全國八大方言區(qū)及不同年齡段的人群。
從數(shù)據(jù)標注能力來看,百度擁有支持全場景的標注工具、高效的流程管理平臺、智能化的標注算法,同時構建了龐大的標注資源為項目執(zhí)行作支撐,能夠提供高質量、定制化的數(shù)據(jù)標注服務。
在數(shù)據(jù)采集和標注過程中,數(shù)據(jù)安全、數(shù)據(jù)質量等,是行業(yè)最關注的話題。在保證數(shù)據(jù)安全方面,百度在業(yè)內最早建立了完整的、符合全球各國數(shù)據(jù)法規(guī)的隱私合規(guī)流程,得到客戶安全部門的高度認可。在提升數(shù)據(jù)質量方面,百度設定了智能審核與人工質檢雙流程,準確率行業(yè)領先。此外,團隊創(chuàng)新性地引入了預標注算法與輔助標注算法,使得標注效率和準確率大幅提升。
這些能力,使百度能夠滿足幾乎所有場景的采集需求,覆蓋語音、圖片、視頻、文本、3D等多種標注類型。目前在典型場景中,人像每周采集可達3萬人,語音每周采集可達5萬人。
另一方面,在先進的智能技術支撐之外,面對巨大的數(shù)據(jù)加工量,產(chǎn)業(yè)發(fā)展仍然需要強大的人力資源支撐。陳尚義表示,百度智能云通過線上眾包和線下自建標注基地的方式,構建了業(yè)內人員最多、專業(yè)性最強的標注人力資源體系。
“目前,線上眾包人員已超過20萬人,線下簽約標注代理商超過300家,專業(yè)標注人員達到2萬人。”陳尚義介紹,“此外,百度還聯(lián)合山西省政府建立了山西數(shù)據(jù)標注基地,擁有2300名全職標注員,他們穩(wěn)定、專業(yè),可承擔自動駕駛、語音、圖像、人像等高難度數(shù)據(jù)標注任務。”
“龐大的標注資源為我們提供了業(yè)內最強的標注能力,如今,我們每天語音數(shù)據(jù)標注量超過500小時,圖像數(shù)據(jù)超過2萬張,自動駕駛道路數(shù)據(jù)超過4萬張。”陳尚義說。
“我們希望構建以人工智能非結構化數(shù)據(jù)為特色的數(shù)據(jù)交易平臺,加速區(qū)域數(shù)據(jù)流通與開放共享,釋放數(shù)據(jù)要素價值。”陳尚義表示,“我們致力于將數(shù)據(jù)開放平臺打造成為區(qū)域數(shù)字經(jīng)濟發(fā)展的新型基礎設施,將數(shù)據(jù)作為區(qū)域支持創(chuàng)新創(chuàng)業(yè)的新型孵化器。
山西省工信廳副廳長劉勇出席了分論壇,他對雙方合作取得的成果表示認可。他表示,近年來,山西省大力實施大數(shù)據(jù)戰(zhàn)略,高點位謀劃、高位推動,山西大數(shù)據(jù)產(chǎn)業(yè)發(fā)展已取得長足進步。
“下一步,我們將以標注產(chǎn)業(yè)為牽引,集聚人工智能發(fā)展勢能,著力構建集數(shù)據(jù)采集、清洗、標注、交易、應用為一體的基礎數(shù)據(jù)服務體系,在轉型發(fā)展上率先趟出一條新路來。” 劉勇表示,真誠歡迎百度及各企業(yè)與山西攜手,共創(chuàng)共享大數(shù)據(jù)創(chuàng)新發(fā)展的美好未來。
陳尚義表示,未來百度將聯(lián)合地方政府和企業(yè),匯聚雙方優(yōu)勢資源,培育數(shù)據(jù)服務能力,解決區(qū)域數(shù)字經(jīng)濟發(fā)展中面臨的數(shù)字環(huán)境缺失、數(shù)據(jù)要素流通難、數(shù)據(jù)價值挖掘難等問題,促進數(shù)據(jù)的開放、共享與流通,降低企業(yè)技術創(chuàng)新的門檻,構建數(shù)字產(chǎn)業(yè)發(fā)展新基礎設施。
“以數(shù)據(jù)為關鍵要素的數(shù)字經(jīng)濟,將成為國家創(chuàng)新驅動的重要戰(zhàn)略載體。在數(shù)字經(jīng)濟發(fā)展的浪潮中,百度智能云將與各位同行攜手,共建數(shù)據(jù)生態(tài),促進產(chǎn)業(yè)智能化發(fā)展。”陳尚義說。