招股說明書動輒三四百頁,關鍵的發行人信息、財務信息、股權結構圖,如何快速查找?券商研究報告,幾十頁上百頁,核心圖表、數字、觀點如何有效獲取?合同中,關鍵條款如何快速定位?
信息過載時代,達觀智能文檔審閱(IDP)系統不僅能從幾百頁的長文檔中智能提取實體、關系級別信息,也能提取關鍵圖表、段落、章節等文檔要素級別信息,百倍提升原有閱讀效率。
達觀的智能文檔審閱(IDP)系統如何做到支持全內容提取:
一、 強大的自研文檔標注功能,智能解讀各類業務文件
可配置多種字段特征,滿足各類文檔標注需求,在復雜場景中完成可自定義的關鍵信息提取。
(1)支持文字劃選、框選、表格內容一鍵標注;
(2) 支持圖片、表格框選;
(3) 支持表格增刪線條、合并/拆分單元格等多種操作;
(4) 支持字段組合標注.
組合標注示例
二、獨家版面還原技術,內容解析更準確
應用獨家版面分析技術,復雜版式文件信息提取更準確,提高數據處理效率。
(1) 可還原文件的頁眉頁腳、圖、表、標題、段落、目錄等版面信息;
(2) 支持對還原結果進行編輯,包括修改文字和表格結果;
(3) 支持直接導出文字內容、圖片、表格結果;
(4) 支持API對接輸入,為后續信息提取提供底層技術能力。
版面還原示例
三、一站式模型訓練平臺,AI自動提取
基于NLP和深度學習技術,達觀面向開發者、終端業務使用者提供低成本、高精度、可視化的模型訓練平臺,自定義AI能力,靈活擴展場景。
(1)系統中內置多種算法,可針對不同的抽取關鍵字選擇不同的算法,模型參數可動態調整;
(2)元素抽取算法可以支持抽取如段落,圖片,表格等內容;
(3)同時支持模型導入導出,可在不同場景下進行模型的遷移。支持現有模型增量訓練,大幅提升訓練效率。
招股說明書抽取模型示例
私募基金合同抽取模型示例
自2017年開始推向市場,達觀IDP智能文檔審閱系統沉淀多年行業落地經驗,已形成招股說明書提取、研究報告審核、私募基金合同提取等多個開箱即用模型。由達觀研發的業內首家全內容關鍵信息提取產品已在某交易所、多個頭部券商研究所、頭部券商托管部門部署應用。
達觀數據是一家為企業提供各類場景智能文本機器人的國家高新技術企業。技術服務團隊遍及全國,靈活地為客戶提供原廠一站式服務。達觀產品與服務現已遍及金融、制造、地產、能源、通信、傳媒、醫藥、政務等領域,累積上千家知名政企客戶,是中國文本智能與超自動化領域市場占有率最高的科技公司之一。
基于全棧自研的自然語言處理(NLP)、光學字符識別(OCR)、機器人流程自動化(RPA)、知識圖譜等技術,達觀數據推出辦公流程自動化、IDP文檔智能審閱、文字識別、企業級垂直搜索、智能推薦等智能文本機器人產品和整體解決方案,讓計算機協助人工完成業務流程自動化,大幅度提高企業效率與智能化水平。