當前,人工智能市場已經成為資本市場關注的焦點,人工智能行業“老兵”合合信息也擬登陸科創板上市。智能文字識別技術是正在登陸科創板的合合信息核心技術之一,以表格識別為例,合合信息智能文字識別技術就可以解決其中的難點。
眾所周知,表格是工作或學習中的常見對象之一,有時是電子表格,有時是圖片表格或者紙質版的表格。電子的表格整理起來還比較方便,圖片表格或者紙質版的表格整理起來就較為麻煩。這種情況下,高精確度的表格識別技術就能夠大幅節省文件處理時間這便是合合信息智能文字識別技術中,圖像處理和復雜場景文字識別技術的重要應用。
為了做到便捷高效識別復雜場景下的表格,合合信息引入深度學習技術,將表格識別分為有線表識別和無線表識別兩種方案。有線表識別中,合合信息利用語義分割、角點回歸等技術方案還原有線表,在財報相關表格識別測試中,有線表識別單元格結構準確率高于98%。
合合信息無線表識別則采用序列模型、規則匹配等方案,通過自研模型直接預測表格的邏輯結構,再得到表格的物理結構,在保證表格區域內容的完整性的同時,檢測準確率較傳統方法顯著提升。
合合信息智能文字識別技術中的表格識別技術已被應用于以“掃描全能王”為代表的C端APP中,通過“文件轉換excel”功能服務于大眾生活和辦公需求,近半年來,“文件轉換excel”相關功能累計被調用百萬次。作為合合信息智能文字識別引擎中的重要模塊,表格識別技術已落地在保險、銀行、證券等行業中,應用于合同、銀行流水、物流單據識別等多個場景。
據悉,合合信息曾在2019年國際文檔分析識別大會(ICDAR)中獲得表格識別競賽的冠軍。公司智能文字識別相關技術還在國際頂會ICPR、ICFHR 等競賽中獲得十余項冠軍,并于CVPR、AAAI、ACL、ACM MM等國際頂會上發表。