現階段,文檔的智能化處理是計算機視覺在產業中的重要應用方向,現階段還面臨著諸多挑戰。合合信息敏銳的捕捉到其中的發展機會,并通過技術性創新積極推動在相關領域的落地。
合合信息表示,隨著OCR技術應用面的持續拓寬,復雜多變的版面、多樣化的文本內容給文檔的識別和還原帶來了新的挑戰。“版面分析與文檔還原”技術對提升文檔圖像電子化的視覺效果、信息提取精準度非常關鍵,這將是公司重點發力的方向之一。
在實際應用場景下,文檔會包含大量的圖片、表格等非文字內容,一篇普通的論文或者文稿,除文字信息外,其版面往往包含頁眉、頁腳、表格、二維碼等多種元素。在向系統輸入文檔圖像后,機器會對文字部分和版面元素進行分析和識別,把若干行文字關聯起來,從而獲得正確的順序與段落關系,這便是版面分析技術。
版面分析的任務目標被分為物理版面分析和邏輯版面分析兩類,前者主要解決區域分割問題,后者則關注區域之間的邏輯關系或閱讀順序。如何精準地辨別各類元素,并在文檔電子化過程中讓它們回歸到應有的位置,是該項技術的難點之一。
如果無法提升版面分析的精準度,文件材料在被拍照、掃描成電子文檔的過程中便可能出現漏字、錯位的現象,圖片轉Word、圖片轉Excel等“可編輯”性的需求將無法被滿足。
對此,合合信息有一套智能化處理方案,版面分析技術通過解決版面分割、區域間的邏輯關系處理等方面的難題,可將文檔圖像切分成不同類型內容(文本、圖形、公式、表格等)的區域,并分析區域之間的關系,讓機器更精準地確定文檔中的文字位置、字體、大小和排版方式,從各類版式復雜的圖片文檔中精準獲取信息。
未來,合合信息將加強C端、B端產品以及行業解決方案的技術優勢,為全球企業和個人用戶提供創新的數字化、智能化服務。公司在智能文字識別、圖像處理、自然語言處理(NLP)、知識圖譜、大數據挖掘等核心技術領域繼續深耕,為全球百余個國家和地區的億級用戶提供更精準的智能文字識別等服務。幫助客戶切實解決了降本增效、改善風控、高效獲客的業務痛點,提供了較高的技術附加值。