2022年 9月12至13日,PDF Days Europe在德國柏林舉行。作為國際PDF協會(PDF Association)成員,金山辦公應邀參會并進行了技術分享,與包括Adobe在內的眾多全球頂尖技術公司共同探討PDF領域前沿核心技術與應用的發展趨勢。
金山辦公技術總監熊龍飛在大會上發表題為《PDF內變形表格的識別與還原》(Deformed Table Restoration in Scanned PDF)主題演講,向在場嘉賓展示了金山辦公利用深度學習技術在PDF領域實現的技術突破,并以變形的掃描件PDF表格還原作為主要案例進行了技術思路介紹。
熊龍飛指出,標準PDF里的表格,或者掃描規整、清晰的表格相對容易識別,很多轉化引擎都支持該類表格的轉化還原。但對于更加復雜場景下的表格,比如,嚴重變形、有復雜排版、朝向隨機、像素模糊、有印章或其他背景圖案干擾、存在嵌套關系、甚至沒有表格線的表格文件,目前市面上大多數產品的識別轉化效果都不甚理想。
對此,金山辦公依托AI技術研發了一套識別系統,通過多種自研算法,在密集文本、不規則表格或無框表格、帶印章、簽名等干擾的文檔元素上取得了很好的識別和轉換效果。演講現場,熊龍飛通過一系列樣張展示了該系統的識別能力,對于質量模糊、帶印章的表格圖片、甚至是被揉成一團后展開的實體表格,通過系統識別后不僅達到了極高的還原度,還具備可編輯功能。
據介紹,該系統由近二十個深度學習模型、一百多個算法模塊構成,擁有復雜的功能模塊和調度流程,支持各類圖片輸入,無論是掃描件、網上下載的圖片,亦或是手機截圖、隨手拍的照片等均可進行轉化識別。
金山辦公旗下的WPS Office包含文字、表格、演示、PDF四大主要組件,其中,金山PDF是一款功能強大、操作簡單的PDF編輯器。金山辦公通過融入AI技術,支持一鍵編輯,快速修改PDF文檔內容,以及PDF文檔和docx/pptx/xlsx/txt/圖片等多種文檔格式的轉換,無需重復下載 PDF 轉換器、PDF 編輯器、P圖軟件翻譯軟件等任何其他軟件,為用戶提供了更加舒適、流暢的PDF閱讀體驗以及穩定、高效的PDF編輯和轉換服務。
AI技術的融入,可以說是金山PDF的最大亮點。金山PDF自2016年上線以來,得益于公司對產品AI體驗方面的持續投入,迅速獲得了廣大用戶的喜愛。AI技術的智能化操作,能夠極大代替原本在辦公中依靠人力才能完成的繁瑣操作,真正提高用戶工作效率。
PDF Days Europe由國際PDF協會主辦,是面向PDF領域的全球性頂尖技術會議。國際PDF協會是全球PDF行業的國際標準組織,也是ISO TC130(國際標準化組織印刷技術委員會)和ISO TC171 SC2(國際標準化組織文獻管理應用技術委員會)的主要支持單位,主要工作涵蓋PDF技術推動和標準制定等各個方面。
國際PDF協會網站WPS專屬頁面
自加入協會以來,金山辦公積極參與協會工作,致力于促進PDF技術生態系統發展。未來,金山辦公將持續加大研發投入,讓世界看到中國企業在PDF標準制定以及PDF技術生態建設領域的重要性。