8月27日,由百分點科技和機器之心聯合舉辦的數據智能技術實踐論壇成功舉行。本次論壇主題為“從數據到知識的‘智變’”,百分點科技CTO劉譯璟作為本次論壇的主持人在致辭中表示,隨著大數據與人工智能技術交叉融合態勢的日趨增強,從數據到知識的轉換過程及應用也在發生多重“智變”。希望通過本次論壇,能促進大家對數據智能技術發展及實踐應用的探討,加深產學研之間的相互交流。
本次論壇特別邀請了百度視覺技術部主任架構師劉經拓、百分點科技數據開發部負責人馬偉凱、復旦大學教授肖仰華和百分點科技首席算法科學家蘇海波分別做了主題演講,從感知、數據治理、認知各個層面詳細解讀了數據到知識是如何一步步地發生變化并支持智能應用的。
融合創新,從“治理”到“智理”
近年來,伴隨數字政府的快速落地,無論是數據的生產環節還是治理環節,都對數據智能技術應用提出了越來越高的需求。計算機視覺作為在感知層的核心技術,在結合城市感知、工業能源、人機交互、視頻生產等業務場景中得到了不斷發展。同時,數字政府項目中還存在眾多的文本、語音等形式復雜的非結構化數據,如何基于視覺技術及政府已經有的業務數據進行多模態數據的融合,以及運用智能化技術的實現高效的“智”理,對支撐數字政府智能應用、提升治理水平起著至關重要的作用。
百度視覺技術部主任架構師劉經拓在《融合創新——計算機視覺技術與產業化發展之道》的主題分享中介紹,隨著行業應用的逐步深入,通過某個單點算法創新就能大大提升應用效果的方式已不復存在,需要用全流程、全棧的方式。因此,為了實現更好的技術發展和落地效果,百度在技術和產業兩個維度上都進行了融合創新,提出了計算機視覺領域從預訓練、定制化到小型化,以及平臺化的一體化的研發方案。具體來說,首先通過用超大規模非結構性的數據做預訓練,能夠在同樣少量數據的情況下取得更好的效果;定制化是指結合特定場景進行自適應遷移學習,根據場景數據進行有監督定制化調優;小型化主要是基于模型剪枝、蒸餾、量化等技術,對模型進行裁剪。
他表示,大規模有監督數據的技術紅利逐漸減弱,AI新基建需要更低的研發與部署成本,通過預訓練與自訓練平臺,最終還要沉淀成標準化、低成本復制的模型,并與產業進行更深度的融合,挖掘出更多降低人工成本的新應用點。
百分點科技數據開發部負責人馬偉凱在《從“治”理到“智”理,多模態數據管理PAI應用方法論》主題分享中表示,數據治理中的技術挑戰除了數據孤島、數據質量等問題,還存在多模態下如何解決數據不可用、不能用及不好用等挑戰。他介紹,基于多源異構數據源的復雜場景下數字政府數據治理項目,百分點科技沉淀了一套數據治理“PAI”實施方法論,即流程化(process-oriented)、自動化(automation)、智能化(intelligence)。通過引入機器學習算法、NLP等數據智能技術,可以更好地開展數據治理工作,建立全域數據標準、提升數據質量、盤活數據資產,從而支撐數據融通,最終釋放數據價值指導業務創新。
他認為,未來數據治理領域會有四大應用趨勢:一是智能化建模和數據加工優化,需要不斷地提升建模的能力沉淀到知識庫;二是智能化完善數據安全管理,包括智能化控制數據權限分配、智能化數據審計并制定數據加密脫敏策略;三是智能化設計并維護數據生命周期管理,由于數據量大有時候不一定是好事,對于很多單位來說可能是負擔,因此智能化識別數據、智能化制定數據保留策略非常重要;四是與Data Fabric更好的融合,增強數據目錄,實現動態的獲取數據,保證數據的安全。
數據到知識的“知”變與“智”變
在實踐中,行業客戶對知識圖譜的應用訴求愈發強烈,核心需求是將行業數據知識化,并通過搜索、推薦、問答,以及用知識輔助進行更加智能的決策。因此,將結構化和非結構化的數據有效的“智”理起來后,能夠進行數據和知識挖掘,提取當中有價值的信息,并以可視化的分析,為政府和企業決策提供支持成為當今亟待解決的問題。
復旦大學肖仰華教授在《知識圖譜技術及行業應用實踐》的主題分享中表示,作為大數據知識工程的典型代表,知識圖譜技術近年來取得了長足進步,并在一系列實際應用中取得了顯著效果。但隨著應用的深化,知識圖譜的落地過程單靠其所代表的知識智能本身這套技術體系和范式已經難以解決很多問題:一是數據獲取和治理困難;二是在知識層面,小樣本、低資源情況下知識的表示和獲取代價仍然非常大;此外,獲取知識之后,在應用、服務能力方面也存在很多挑戰。
因此,未來破題的關鍵在于要突破以知識圖譜為代表的知識智能的邊界,向認知智能這樣的智能新形態發展。他認為,認知智能作為數據智能、知識智能融合創新產物,將是知識圖譜等知識工程技術發展的必然歸宿。
百分點科技首席算法科學家蘇海波在《知識圖譜技術及行業應用實踐》主題分享中表示,近些年,人工智能逐漸從感知智能向認知智能發展,知識圖譜則是實現認知智能的關鍵技術方法,在構建出知識圖譜后,可以實現各種智能場景應用。蘇海波以此為背景介紹了百分點科技知識圖譜抽取、知識圖譜問答等技術的算法原理和實踐,以及在多個行業場景中的具體應用。
他強調,未來知識圖譜一定會深入到各行各業,未來五年將呈現三個趨勢:一是通過人機結合的方式,自動化程度越來越高;二是知識圖譜的多模態發展;三是知識圖譜與數據治理相結合。只有掌握通用的人工智能技術,并將技術和業務需求對應起來,才能真正發揮出知識圖譜的價值,解決行業問題。
當前,已經進入到一個從數據到知識的“智變”時代,隨著大數據、知識圖譜、NLP等數據智能技術的進一步成熟,數據中的價值將不斷被挖掘利用,幫助我們進行合理地決策。未來,百分點科技也將繼續結合行業需求,融合“政產學研用”產業生態鏈條,聯合業界伙伴和產學研各界專家,深化布局大數據和人工智能全棧技術,打造從感知、認知、決策到行動的端到端的智能決策閉環,真正賦能各行各業。