8月19-21日,中國圖象圖形大會(CCIG 2022)在成都舉辦,金山辦公受邀參會并發表主題演講,展示公司在CV(Computer Vision計算機視覺)領域取得的突破性研究成果及場景應用。
金山辦公CV團隊負責人熊龍飛在演講中表示,前三次工業革命將人從繁重的體力勞動中解放出來,而以大數據、人工智能等技術為驅動力的第四次工業革命將進一步將人從繁復的、低價值腦力勞動中解放出來。
他認為,文檔文字、圖像和表格的處理是日常工作和生活中最高頻的腦力勞動之一,其中很多工作其實可以通過CV技術來完成。
近年來,金山辦公在以CV技術為支撐的OCR文字識別領域已達到業界領先水平。除了滿足基本的文檔內容識別,金山辦公通過加入深度學習能力,對文字屬性和段落做了一系列算法優化,能夠更精準地還原文字風格,對諸如文字顏色、字體、加粗、斜體和下劃線等格式都能進行高度識別,顯著提高文檔還原度,為用戶節省大量后期手動調整的時間和精力。
例如,對于圖片中的文字,金山辦公不僅能夠識別出字體的名稱,還會推薦該字體及相似字體給用戶選擇使用。
熊龍飛還特別提到,“針對一些特定格式,例如目錄,我們不僅可以完整地識別出目錄內容,更能支持點擊跳轉到相應的頁面。”
同時,金山辦公的OCR文字識別可以靈活滿足多種應用環境下的部署需求,既支持服務端的高精度模型部署,也支持手機、PC端的小模型部署。
“未來,金山辦公會繼續在文字識別領域保持快速的迭代速度和強大競爭力,因為我們擁有全球最龐?的數據儲備和真實?戶反饋池。”熊龍飛進一步表示。
而對于識別難度更高的實體文件,例如帶有印章的公文、被揉皺的表格等,通過金山辦公的版式還原系統便能輕松實現高度還原,并自動將實體文件變成可編輯的電子文檔。對于用戶來說,這將極大地節省人工輸入產生的時間成本。
據介紹,金山辦公的版式還原系統由近三十個深度學習模型、一百多個算法模塊、50多萬行代碼構成,擁有復雜的功能模塊和調度流程,具備從文檔分類、矯正、識別、分析到重建的能力,最終可以輸出結構化的數據表達或常見的docx等多種格式的文檔。
除此之外,金山辦公的CV能力還在智能摳圖、證件照制作、文檔質量提升、濾鏡、水印涂抹等眾多產品功能上得到應用,充分賦能各種場景下的辦公自動化。
金山辦公在過去34年持續深耕辦公賽道,堅持技術立業,不斷打磨技術和產品服務。公司承擔多項國家級重大科研項目研發任務,包括“核高基”科技重大專項、電子發展基金、“863”高技術研究發展計劃等,并先后兩次榮獲國家科技進步二等獎。
公司在近年持續加大AI領域的研發投入,并把OCR、版面的識別和理解列為重點任務。早在2018年,公司就成立了CV團隊,聚焦WPS等產品上圖像及視覺項目的研發與應用,通過CV能力賦能各類辦公場景,目前已在OCR文字識別、文檔矯正、智能摳圖、字體識別、表格還原、版式還原、PDF編輯等二十多個功能上線相關產品和服務。
目前,金山辦公為來自全球220多個國家和地區的用戶提供辦公服務。截至2021年12月,公司主要產品月度活躍設備數為5.44億,其中WPS office PC版月度活躍設備數2.19億,移動版月度活躍設備數3.21億。
CCIG 2022 由中國科學技術協會指導、中國圖象圖形學會主辦,以“圖象視界,形智未來”為主題,匯聚國內外眾多知名學者、企業專家及科研院校師生,共同探討圖像圖形技術行業的最新進展。