某大型石油國有企業在近期的科技轉型中遇到了一個難題,難的不是科技項目研究本身,關鍵是如何避免與已有的2000多個科研項目重復立項而導致研究經費的浪費??繂T工的記憶?還是靠人工一篇篇的查看?
竹間智能通過Gemini平臺賦能該企業,建立一套科技管理智能信息處理及查重服務,秒級間完成新文檔與2000多份的歷史項目文檔的對比,解決了全量查重的問題,避免企業項目重復立項,最大化利用科研經費。
單靠人工查重真不靠譜
這家企業在原有的查重模式是通過員工的記憶加上人工查看的模式對已研或在研科技項目2000多份的歷史資料進行科技項目查重,每年還會以400—500的數量在增加,而對科技項目查重的工作要求也逐年提高。平均一份項目文檔有25頁,近2萬字,這樣一份文檔的查重至少需要一天的時間,每年500份的新增項目文檔需要2個人花一整年的時間才能完成比對查重!如此的工作模式費時費力,查重遺漏和錯誤率都非常高。
通過竹間Gemini平臺如何完成?
首先要將歷史的2000多份文檔整理入“庫”進行標注和抽取,進行統一管理。對于新上傳的項目書通過文檔抽取工具完成文本轉換及抽取,將文檔抽取的轉換的文本入查重庫,對待查文檔及歷史文檔進行語義分析、詞句分析,計算相似結果。將查重結果匯總,供用戶瀏覽或下載。
這一系列看似復雜的流程,而通過竹間智能的Gemini認知知識推理平臺即可進行可視化操作?,F在該企業進行新文檔查重平均僅需12s,效率至少提高上千倍。對于員工來說只需進行一步操作——上傳文檔,即可查看詳細查重結果。結果可精細至比對到哪些段落語義上有重復,相似率具體為多少。
竹間通過擅長的NLP技術,可對長文本進行自動實體識別抽取,實體發現,實體識別和比對。對文檔的語義相似度進行匹配判斷,而非簡單的關鍵字對比。支持PDF、Word中字詞句段章表格等各種非結構化文檔的關鍵信息提取。待提取的文檔類型、關鍵信息點可根據用戶實際業務場景進行自定義配置。有別于直接將文檔通過算法進行對比,平臺操作化簡單,結果可視拓展性也更強。
一個平臺即可解決企業數據應用難題
竹間自研的一套全新模型語言——Gemini Script,內嵌可擴展的NLP深度學習模型,同時支持文檔特征和語義特征識別,能夠處理章節定位、抽取信息、計算、段落提煉。客戶通過Gemini平臺可以自主訓練模型,根據客戶的實際業務需求,結合竹間積累的行業數據,模型冷啟動只需對3-5篇文章進行標注既可生成。并且通過自學習能力幫助文檔抽取任務越變越準確,越來越聰明??蛻敉ㄟ^Gemini平臺可自主完成模型創建-訓練-賦能生產的整個過程。
竹間的Gemini認知知識推理平臺不僅可以進行文本的抽取和比對,還可以自動化構建知識圖譜,處理大量非結構化數據,例如:產品文檔、法規文檔、財務報表等等,同時還可以持續不斷地從數據挖掘、NLP和智能自動化中學習,從而幫助企業處理海量數據,幫助企業解決整個數據價值難題。