相信不少同學生活中都用過OCR技術,小到一張手寫筆記、紙質發票、合同條款,大到一堆會議資料、一本書等,無論是手寫的文字,還是印刷的中英文和其他語種,拿起手機相機拍一拍就能輕松識別提取出來,成為可以復制和編輯的文本。
OCR(Optical Character Recognition),即光學字符識別技術。作為計算機視覺領域的重要分支,OCR典型應用是通過圖像文字識別實現信息錄入,利用機器將圖像中手寫體或印刷體的文本轉換為計算機可以直接處理的格式。同時,由于文字和符號包含豐富的語義信息,基于OCR提取文字信息繼而進行分析,能夠幫助機器更好地理解圖像。
OCR應用場景
近年來,隨著機器學習與卷積神經網絡的快速發展,作為處理圖片文字數據的OCR識別能力不斷突破,逐漸在更加復雜的數字化場景發揮作用,有效降低了企業在信息提取和錄入的人力成本。
票據識別
傳統的通過人工方式整理、粘貼、核算發票費時費力而且容易出錯。基于深度神經網絡模型的OCR文字識別技術,可以把票據上的發票號碼、開票日期、購買方信息、金額、里程、單價、號碼等信息直接轉化為可編輯文本,包括增值稅發票、火車票、出租車發票、營業執照等常見票據。
卡證識別
銀行業務場景下,在辦理各項業務時必須輸入身份證號、銀行卡片信息等進行實名認證。通過應用OCR技術方案,用戶僅需上傳身份證或者銀行卡圖片,即可在毫秒內實現識別卡證全部信息,完成快速準確錄入。
文稿錄入
文字處理是OCR最常見的用途。用戶可以將各類不可編輯的辦公文檔通過OCR識別一鍵轉換為可編輯的版本。也可以將紙質版的歷史文檔轉換為可搜索的PDF文件,對于舊報紙、雜志、信件和其他歷史文件的存檔大有裨益。
OCR識別難點
OCR技術的蓬勃發展,解決了低速的信息輸入與高速信息處理之間的矛盾,通用場景下的OCR識別準確率也逐漸提高。但對于某些專用領域來說,OCR識別仍然并非易事。
從技術角度出發,OCR識別存在以下四個難點:
語種眾多:不同國家常用語言不同,不同語言的字符形態區別也很大,增加了OCR算法的識別難度。
字體形態復雜:圖片中的文字字體多樣,如藝術字體、手寫字體等,字號、字重、顏色不一。
拍攝角度多樣:用戶大多會使用手機作為拍攝文字的設備,拍攝過程中發生抖動、對焦偏差產生的失焦、拍攝角度不正等問題。
文字載體多樣:例如食品包裝發生形變,造成文字彎曲,打印文本模板重疊、多次復印文檔圖像顆?;⑽臋n照片成像質量模糊等各類實際問題。
標貝科技OCR數據服務
標貝科技依托先進的深度學習技術和海量優質數據資源,采用先進的圖形算法,努力攻克復雜場景下的文檔電子化痛點問題,為客戶提供多場景、多語種、高精度的文字檢測與識別服務,并針對圖片模糊、傾斜、光照不均等情況進行深度優化,實現多種復雜場景下的精準識別。
同時,我們還提供文本OCR成品數據集,包含手寫和多語言版本:
1、 25000張手寫OCR數據
該數據為多場景下的手寫OCR數據集。采集于多種室內室外場景,包括會議筆記,便簽/隨筆,課堂筆記,印刷體手寫體混排的習題/試卷等。文字載體為常見的紙質、玻璃、iPad備忘錄及APP截圖、黑板等。
2、約19000張小語種OCR數據
該數據集為多語種OCR數據集,包括拍照文檔約14000張以及截屏文檔約5000張。場景分為室內室外場景,語種包含日文、韓文、德文、法文、意大利語、西班牙語等。文字載體為常見的紙質文檔、書籍、論文、PPT等。
歡迎對以上數據集感興趣的行業伙伴聯系我們~