8月22日-24日,由中國人工智能學(xué)會(huì)主辦的視覺與學(xué)習(xí)青年學(xué)者研討會(huì)(VALSE 2022)在天津國家會(huì)展中心舉辦。金山辦公受邀參會(huì),與國內(nèi)頂尖學(xué)者共話計(jì)算機(jī)視覺與機(jī)器學(xué)習(xí)前沿技術(shù)成果。
如何將不可編輯的表格重新變成便于復(fù)制粘貼和編輯的電子文檔,已成為近些年學(xué)術(shù)界和工業(yè)界共同的研究熱門和技術(shù)難題。在「可解釋的深度學(xué)習(xí)算法與視覺應(yīng)用」分論壇上,金山辦公技術(shù)總監(jiān)、CV團(tuán)隊(duì)負(fù)責(zé)人熊龍飛發(fā)表《復(fù)雜場景下的表格還原》演講,展示了公司近年來在該領(lǐng)域取得的突破性進(jìn)展。
熊龍飛指出,標(biāo)準(zhǔn)PDF里的表格,或者掃描規(guī)整、清晰的表格相對容易識(shí)別,很多轉(zhuǎn)化引擎都支持該類表格的轉(zhuǎn)化還原。但對于更加復(fù)雜場景下的表格,比如,嚴(yán)重變形、有復(fù)雜排版、朝向隨機(jī)、像素模糊、有印章或其他背景圖案干擾、存在嵌套關(guān)系、甚至沒有表格線的表格文件,目前市面上大多數(shù)產(chǎn)品的識(shí)別轉(zhuǎn)化效果都差強(qiáng)人意。
近年來,金山辦公在以CV技術(shù)為支撐的OCR識(shí)別、表格識(shí)別領(lǐng)域已達(dá)到業(yè)界領(lǐng)先水平。對復(fù)雜場景下的表格還原技術(shù)難題,金山辦公研發(fā)了一套識(shí)別系統(tǒng),通過多種自研算法,在密集文本、不規(guī)則表格或無框表格、帶印章、簽名等干擾的文檔元素上取得了不錯(cuò)的識(shí)別和轉(zhuǎn)換效果。
除了滿足基本的文檔內(nèi)容識(shí)別,金山辦公通過加入深度學(xué)習(xí)能力,對文字屬性做了一系列算法優(yōu)化,能夠更精準(zhǔn)地還原文檔風(fēng)格,對諸如顏色、字體、加粗、斜體和下劃線等格式都能進(jìn)行精細(xì)識(shí)別,顯著提高文檔還原度,為用戶節(jié)省大量后期手動(dòng)調(diào)整的時(shí)間和精力。
據(jù)介紹,該系統(tǒng)由近二十個(gè)深度學(xué)習(xí)模型、一百多個(gè)算法模塊、50多萬行代碼構(gòu)成,擁有復(fù)雜的功能模塊和調(diào)度流程,支持各類圖片輸入,無論是掃描件、網(wǎng)上下載的圖片,亦或是手機(jī)截圖、隨手拍的照片等均可進(jìn)行轉(zhuǎn)化識(shí)別。云端和本地兩端均可部署,支持輸出xlsx表格、word文檔、html等多種格式的文件。
演講現(xiàn)場,熊龍飛通過一系列樣張展示了該系統(tǒng)的識(shí)別能力,對于質(zhì)量模糊、帶印章的表格圖片、甚至是被揉成一團(tuán)后展開的實(shí)體表格,通過系統(tǒng)識(shí)別后都達(dá)到了極高的還原度。
“該系統(tǒng)可以在?常辦公、財(cái)務(wù)表格轉(zhuǎn)化、政府?作等領(lǐng)域節(jié)約?量人工編輯所產(chǎn)生的時(shí)間成本,極大地提高辦公效率。”熊龍飛表示。
金山辦公在過去34年堅(jiān)持深耕辦公賽道,秉持技術(shù)立業(yè),不斷打磨技術(shù)和產(chǎn)品服務(wù)。公司承擔(dān)多項(xiàng)國家級重大科研項(xiàng)目研發(fā)任務(wù),包括“核高基”科技重大專項(xiàng)、電子發(fā)展基金、“863”高技術(shù)研究發(fā)展計(jì)劃等,并先后兩次榮獲國家科技進(jìn)步二等獎(jiǎng)。
公司在近年持續(xù)加大AI領(lǐng)域的研發(fā)投入,并把OCR、版面的識(shí)別和理解列為重點(diǎn)任務(wù)。早在2018年,公司就成立了CV團(tuán)隊(duì),聚焦WPS等產(chǎn)品上圖像及視覺項(xiàng)目的研發(fā)與應(yīng)用,通過CV能力賦能各類辦公場景,目前已在OCR文字識(shí)別、文檔矯正、智能摳圖、字體識(shí)別、表格還原、版式還原、PDF編輯等二十多個(gè)功能上線相關(guān)產(chǎn)品和服務(wù)。
目前,金山辦公為來自全球220多個(gè)國家和地區(qū)的用戶提供辦公服務(wù)。截至2022年6月,公司主要產(chǎn)品月度活躍設(shè)備數(shù)為5.7億,其中WPS office PC版月度活躍設(shè)備數(shù)2.32億,移動(dòng)版月度活躍設(shè)備數(shù)3.34億。
VALSE 2022由中國圖象圖形學(xué)學(xué)會(huì)、中國人工智能學(xué)會(huì)主辦,天津大學(xué)承辦,天津工業(yè)大學(xué)、天津科技大學(xué)和天津市人工智能學(xué)會(huì)等單位協(xié)辦,旨在為計(jì)算機(jī)視覺、圖像處理、模式識(shí)別與機(jī)器學(xué)習(xí)研究領(lǐng)域內(nèi)的中國青年學(xué)者提供一個(gè)深層次學(xué)術(shù)交流的舞臺(tái)。截至目前,VALSE已成功舉辦十一屆,是中國內(nèi)最大規(guī)模的機(jī)器視覺學(xué)術(shù)盛會(huì)。