英國的哲學家弗朗西斯·培根的名言“知識就是力量”大家耳熟能詳。這句話告訴我們,當我們獲得知識,再通過思考就能解決以前所不知道的很多問題。然而,隨著數據量的爆炸性增長,如何從浩如煙海的各種知識中獲得真正需要的成為一件非常困難的事情。同時,把已有的知識匯聚和保存起來也越來越困難。在此背景下,人們不得不借助各種工具。國雙知識智能平臺正是用來解決類似的問題。國雙知識智能平臺借助自然語言處理、知識圖譜、深度學習等各種人工智能技術,大大提升了知識沉淀、搜索、應用的效率和效果,真正讓知識成為企業向智能化轉型的驅動力,以助力企業業務創新與發展。
知識獲取難度不斷攀升,大量隱形知識遺失
明知公司有相關數據和資料,但是卻不知道到哪里去找?這是很多人常常面對的難題,越是大型企業這個問題就越突出。因此,為了找到需要的數據和資料,人們不得不花大量時間和精力。隨著知識增長速度加快,知識密集領域工作強度、難度日益加大,業務創新越來越困難,知識獲取難已成為重要的制約因素之一。這主要體現在以下幾個方面:
第一, 收集、對比資料占用時間越來越多,工作繁重。眾所周知,企業經過多年發展,通常會建立起多個系統,信息散布在這些系統中,要從中查詢、比對非常費時。同時,日常工作需要用到的規范、指南等常年積累也成為工作中不可忽視的“耗時”任務。據全球知名學術出版集團愛思唯爾一份名為《科研的信任》的研究報告稱,全球研究人員搜索期刊文獻的時間幾乎和他們閱讀文獻的時間一樣多。研究人員每周搜索研究文獻的時間超過4個小時,而閱讀這些文獻的時間則超過5個小時。隨著時間的推移,查找文獻的時間還在逐年增加。
第二, 特定領域的寶貴經驗沒有被推廣、傳承,難以復用,隱形知識遺失。當今企業員工流動性加快,隨著員工離職和退休,特別是專家離任,很多經驗沒有傳承下來。
第三, 不同項目、不同部門、不同業務線、不同成員之間的知識和經驗沒有共享和復用。新員工加入,學習成本高。
“我們很多知識智能平臺的客戶一個常見痛點是,很多資料分散在個人電腦和網盤里,沒有歸納和總結,分享也很困難。” 國雙知識圖譜產品技術總監劉飛歐表示。
國雙知識圖譜產品技術總監劉飛歐
當下市場競爭日趨激烈,新成果、新技術出現頻率明顯加快。同時,各種規范、標準的更新也越來越頻繁,這一切都進一步增加了信息量,增加了檢索和利用的難度。
劉飛歐用“收集難、檢索難、使用難”來形容當下知識工作者面臨的挑戰。為了應對這些挑戰,有些企業也做了努力。比如,對現有系統進行集成,并基于此構建門戶、搜索引擎,從而大大減少資料查找時間。然而,這種解決辦法依然具有很大局限性:其一是不夠智能,不能準確找到所需資料。一個典型例子就是如輸入“蘋果”,返回的結果很可能既有作為水果的蘋果也有手機蘋果,其無法理解使用者到底要找什么。其次,沒有解決隱形知識的收集問題。第三,缺乏專門的工具,知識更新困難。
知識圖譜等AI技術破解知識獲取難題
人工智能的進步讓人們看到了解決問題的希望,特別是知識圖譜、自然語言處理等技術的成熟,可以幫助人們比較容易地實現數據知識化、結構化、標準化,并為后面的共享和復用打下基礎。
知識圖譜是Google于2012年提出的一種用圖模型來描述知識的技術,用于表示世界萬物的關聯關系。它可以描述客觀形態,如設備與設備、數據與數據之間的關聯等;也可以表示客觀事實,比如空氣的成分中有氧氣;還可以用來表示流程性邏輯,比如工作流程、實施步驟等。知識圖譜可以沉淀顯性知識,也可以通過知識編輯沉淀隱性知識。
“知識圖譜是一種非常好的技術,一方面是可以很方便地讓人們找到所需要的信息;另一方面是可以很容易地把知識匯集并很好地組織起來,通過這種方式讓碎片化的知識沉淀下來。”劉飛歐表示。
當然,一個真正好用的知識智能平臺不僅有知識圖譜技術,還涉及其他人工智能技術。比如,國雙知識智能平臺就應用了包括NLP、知識圖譜、機器學習、深度學習等在內的諸多人工智能技術,基于它們形成模型構建、數據標準、知識抽取、計算和應用的完整工具鏈,實現了從數據到知識、到應用、再到優化的全生命周期管理。
國雙知識智能平臺的構建最早開始于2017年左右,剛開始從司法領域起步,用于對司法文書和案例的匯集和整理,在此期間打磨出了自然語言處理的一些工具集,包括標注、抽取等,并形成了一個文書解析的平臺。后來,這個平臺經過了油氣行業的錘煉,用以對生產數據(主要是數值數據)進行分析和處理,不久這個平臺又經過了政府大數據項目的歷練,對知識圖譜的應用得到進一步完善。等到2021年,國雙知識智能平臺落地某勘探設計研究院進一步打磨,不管是平臺本身還是周邊的工具都已經趨于成熟。
國雙知識智能平臺的打磨過程中,其背后一支高水平的數據科學團隊尤為值得一提。這個團隊成員來自于清華大學、北京大學、哥本哈根大學等國內外重點高校,精通機器學習、深度學習、自然語言處理等人工智能技術,在數據挖掘及智能分析、知識圖譜及智能應用構建等方面積累了豐富經驗,他們先后研發出了600多項人工智能專利,為國雙產品的技術領先性提供了可靠保障。
國雙的人工智能技術也得到了行業的廣泛認可。2018年,在由中國司法大數據研究院(最高人民法院智慧法院重點實驗室)聯合多方舉辦的 “中國法研杯”司法人工智能挑戰賽上,國雙榮獲第一名,并于2019年被邀約為大賽評委。2019年12月,國雙還榮獲信通院知識圖譜基礎能力測評第一名。另外,國雙還榮獲2020年“中國智能科技最高獎”吳文俊人工智能科技進步獎。這些成績也進一步證明了國雙知識圖譜、自然語言處理、深度學習等技術的領先性。
經過行業驗證的國雙知識智能平臺
背靠國雙數據科學團隊的國雙知識智能平臺內置了7大類70多種算法,為業務創新和知識深度挖掘提供了充分支撐。一方面,平臺提供一條面向業務人員的、完整的知識獲取、構建、管理、運維工具鏈,使得知識沉淀更加高效、規范;同時,平臺還提供一條完整的模型構建、訓練、發布、管理工具鏈,加速知識從樣本到規模化落地的進程。
“依托業務專家構建的知識圖譜,無論是檢索還是問答都能高效、優質地得到高度貼合業務需求的信息,滿足檢索需求。” 劉飛歐介紹到。
劉飛歐還談到,國雙知識智能平臺的價值主要體現在以下幾個方面:第一,結合知識圖譜在知識匯聚方面的天然優勢,利用國雙知識智能平臺,信息檢索的效率提升10倍以上。其次,知識沉淀效率能得到百倍以上的提升。因為知識圖譜能夠便捷地沉淀各類隱形、顯性知識,而國雙知識智能平臺擁有完整的圖譜構建、模型構建工具鏈進一步加速了知識沉淀。另外,國雙知識智能平臺還改變了傳統的知識構建與應用方式,可以形成知識的共籌共建。既能統一標準,又能滿足個性化需求。
相對目前市場上類似的平臺,國雙上述的優勢顯得非常突出。劉飛歐表示,除了這些顯性優勢之外,國雙知識智能平臺的完整工具鏈和經過驗證的產業落地能力是很多平臺所不具備的。
比如,在工具鏈方面,從各種數據的標注、模型的訓練和發布、知識的抽取和存儲、再到知識的分析和應用,國雙知識智能平臺都有專門的輔助業務創新的算法和配套工具,從而能夠深層次的挖掘知識價值。而在行業落地上,國雙知識智能平臺從一開始就是在用戶需求驅動下和用戶一起打磨出來的,凝結了大量行業專家知識,在場景適應能力上具有先天優勢。尤其是通過在司法、油氣、智慧能源、政府以及科研等領域的諸多項目落地驗證,其價值已經得到充分認可。
實際上,懂行業、面向行業一直是國雙對各條產業線的共同要求。劉飛歐介紹,在知識圖譜構建過程中分為兩條線,一條是與行業專家、領域專家對話,從理論到行業自上而下來進行規劃;另一條是與信息專家對話,自下而上進行驗證,這里的驗證一個是基于事實的數據,另一個是基于上層的應用場景,看它后續要做哪些分析。兩者結合進行才能構建出一個好用的知識圖譜來。也正是基于這些前期的工作,使得國雙知識智能平臺目前已經在油氣、智慧能源、司法、制造、政府、大交通等領域得到廣泛應用,并得到用戶高度認可。
對于國雙知識智能平臺的下一步發展,劉飛歐表示會從兩個方面發力。在行業方面會進一步做實,并往周邊行業滲透,爭取3-5年拓展出四到五個新領域;在產品方面,會對人工智能理論和算法效率上持續研究和優化,同時,還要進行國產適配,支持“信創”。
“過去這些年大部分企業已經基本完成了數據資產化,目前已經進入數據知識化階段,接下來將向知識決策化方向發展,并逐漸向細分領域滲透,國雙知識智能平臺擁有非常好的市場前景。我們現在要做的是,繼續打磨產品,使之更好地滿足客戶,賦能客戶數智化轉型。”劉飛歐表示。