本文的目的是演示一個(gè)專門(mén)設(shè)計(jì)用于對(duì)收據(jù)照片執(zhí)行OCR(光學(xué)字符識(shí)別)操作并自動(dòng)從中提取關(guān)鍵業(yè)務(wù)信息的 API,例如企業(yè)名稱和地址、電話號(hào)碼、收據(jù)總額等等。在頁(yè)面的下方,我提供了代碼示例和說(shuō)明來(lái)幫助您在JAVA中構(gòu)建 API 調(diào)用。
經(jīng)營(yíng)企業(yè)有數(shù)十種成本,管理這些成本的工作在復(fù)雜性上各不相同。雖然辦公室租金、工資和供應(yīng)商合同等公司支出是內(nèi)部團(tuán)隊(duì)(即應(yīng)付賬款)可以直接處理的周期性和可管理的發(fā)票,但以客戶晚餐、出租車(chē)乘車(chē)和團(tuán)隊(duì)郊游形式的員工支出需要公司報(bào)銷(xiāo),這只能通過(guò)員工交易的證明來(lái)完成。對(duì)于員工而言,證明此類(lèi)交易需要向企業(yè)出示收據(jù)。除了顯示最重要的外出總費(fèi)用外,收據(jù)還提供員工企業(yè)可以驗(yàn)證的其他有用信息,包括員工訪問(wèn)的場(chǎng)所名稱、網(wǎng)站、地址、電話號(hào)碼、以及在該地點(diǎn)購(gòu)買(mǎi)的特定商品或服務(wù)的清單。然而,盡管收據(jù)費(fèi)用流程看似簡(jiǎn)單,但它往往存在重大技術(shù)缺陷:大多數(shù)企業(yè)已經(jīng)完全數(shù)字化了他們的工資和費(fèi)用程序,而收據(jù)仍然經(jīng)常以硬拷貝形式獲得。因此,將實(shí)物收據(jù)轉(zhuǎn)換為數(shù)字形式提出了相關(guān)的業(yè)務(wù)技術(shù)挑戰(zhàn)。
在高層次上,光學(xué)字符識(shí)別是指將硬拷貝文本內(nèi)容數(shù)字化為數(shù)據(jù)可以很容易地在數(shù)據(jù)庫(kù)中存儲(chǔ)、查詢和傳輸。為了實(shí)現(xiàn)數(shù)字化,文檔的掃描或拍照?qǐng)D像由 OCR API/應(yīng)用程序處理,并通過(guò)識(shí)別算法挑選出文檔上的字符。文檔的每一頁(yè)都被分解成不同的組成部分(文本塊、表格、圖像等),這些部分中的每個(gè)字母都以數(shù)字方式重新創(chuàng)建,或者通過(guò)與一組存儲(chǔ)的字母或數(shù)字字符進(jìn)行比較,或者通過(guò)識(shí)別獨(dú)特的形狀/特征。毫無(wú)疑問(wèn),將 OCR 納入世界各地的企業(yè)有助于提高工作流程效率。它不僅降低了數(shù)據(jù)輸入服務(wù)的間接成本,而且還增強(qiáng)了具有硬拷貝來(lái)源的數(shù)據(jù)的可訪問(wèn)性。更遠(yuǎn),
在智能手機(jī)之前,使用笨重的辦公室掃描設(shè)備掃描文檔是為 OCR 目的(或用于對(duì)象存儲(chǔ))創(chuàng)建文檔數(shù)字副本的最常用方法。如今,隨著手持智能手機(jī)的大量流通以及對(duì)遠(yuǎn)程工作的文化接受度不斷提高,手機(jī)攝像頭已成為 OCR 極其相關(guān)的 diy(自己動(dòng)手)工具。從個(gè)人設(shè)備拍攝文檔的粗略照片并將這些照片直接發(fā)送給相關(guān)利益相關(guān)者現(xiàn)在被認(rèn)為是許多專業(yè)交易的標(biāo)準(zhǔn)做法,包括收據(jù)費(fèi)用。
在可以通過(guò)個(gè)人設(shè)備為 OCR 拍照的文件中,收據(jù)是最明顯的受益者之一。它們幾乎不會(huì)在方便的時(shí)候收集:我們經(jīng)常在離開(kāi)出租車(chē)、走出餐廳或手拿一袋袋商品離開(kāi)購(gòu)物中心時(shí)收到收據(jù)。此外,收據(jù)通常由脆弱的材料制成,并且比大多數(shù)其他實(shí)物文件更容易損壞(如果它們沒(méi)有得到充分維護(hù))。這使得成功存儲(chǔ)和移交實(shí)物收據(jù)副本的過(guò)程比我們收到的大多數(shù)其他實(shí)物文件更難,這些實(shí)物文件可能會(huì)被層壓或整齊地塞在馬尼拉信封中。為 OCR 拍攝收據(jù)的快速照片并將照片直接發(fā)送到相關(guān)費(fèi)用處理應(yīng)用程序的能力意味著減輕員工在較長(zhǎng)時(shí)間內(nèi)管理物理文檔的負(fù)擔(dān)。這種便利性極大地提高了費(fèi)用處理效率,確保收據(jù)可以通過(guò)單一入口點(diǎn)匯集,既可以作為對(duì)象(例如,JPG 或 PNG 等照片文件)存儲(chǔ),也可以作為單獨(dú)文檔/應(yīng)用程序中的可搜索文本存儲(chǔ)。
使用 Cloudmersive Receipt OCR API 為您的業(yè)務(wù)包含收據(jù) OCR 服務(wù)非常簡(jiǎn)單。該API支持?jǐn)?shù)十種常用語(yǔ)言(包括英文、阿拉伯文、中文等),輸出收據(jù)中包含的所有重要信息,包括收據(jù)時(shí)間戳、商家名稱、商家網(wǎng)址、商家地址、商家電話號(hào)碼、收據(jù)項(xiàng)目(包括每件商品的描述和價(jià)格),以及收貨總額和小計(jì)。API 可以選擇性地配置為包括高級(jí)識(shí)別和手寫(xiě)識(shí)別模式,并且您可以選擇打開(kāi)一個(gè)可選的預(yù)處理模式,該模式將在操作發(fā)生之前自動(dòng)增強(qiáng)圖像(這將糾正一些可能發(fā)生的小錯(cuò)誤,同時(shí)拍攝原始照片)。以下,
首先,我們首先需要使用 Maven 安裝 SDK 包。為此,我們首先在 pom.xml 中添加對(duì)存儲(chǔ)庫(kù)的引用:
XML
<repositories>
<repository>
<id>jitpack.io</id>
<url>https://jitpack.io</url>
</repository>
</repositories>
接下來(lái),我們來(lái)引用 pom.xml 中的依賴:
XML
<dependencies>
<dependency>
<groupId>com.github.Cloudmersive</groupId>
<artifactId>Cloudmersive.APIClient.Java</artifactId>
<version>v4.25</version>
</dependency>
</dependencies>
安裝完成后,我們可以在文件頂部包含導(dǎo)入:
// Import classes:
//import com.cloudmersive.client.invoker.ApiClient;
//import com.cloudmersive.client.invoker.ApiException;
//import com.cloudmersive.client.invoker.Configuration;
//import com.cloudmersive.client.invoker.auth.*;
//import com.cloudmersive.client.ImageOcrApi;
然后,我們可以使用下面的代碼示例調(diào)用 Receipt OCR 函數(shù)。在這個(gè)階段,您需要布置一些參數(shù)并決定您希望包含哪些可選功能。您的參數(shù)包括以下內(nèi)容:
- 您要執(zhí)行操作的輸入文件
- 您的 Cloudmersive API 密鑰(可以通過(guò)在我們的網(wǎng)站上注冊(cè)一個(gè)免費(fèi)帳戶來(lái)獲得,該帳戶將提供每月 800 次 API 調(diào)用的限制)
您的可選功能包括以下內(nèi)容:
- recognitionMode通過(guò)設(shè)置等于字符串來(lái)啟用高級(jí)識(shí)別模式Advanced。
- recognitionMode通過(guò)設(shè)置等于字符串來(lái)啟用手寫(xiě)識(shí)別模式EnableHandwriting。
- String Language通過(guò)設(shè)置等于包含首選語(yǔ)言的三字母標(biāo)識(shí)符的字符串來(lái)設(shè)置語(yǔ)言(默認(rèn)選項(xiàng)是英語(yǔ)) 。
- string preprocessing通過(guò)設(shè)置等于啟用預(yù)處理(默認(rèn)為禁用)Advanced。
ApiClient defaultClient = Configuration.getDefaultApiClient();
// Configure API key authorization: Apikey
ApiKeyAuth Apikey = (ApiKeyAuth) defaultClient.getAuthentication("Apikey");
Apikey.setApiKey("YOUR API KEY");
// Uncomment the following line to set a prefix for the API key, e.g. "Token" (defaults to null)
//Apikey.setApiKeyPrefix("Token");
ImageOcrApi apiInstance = new ImageOcrApi();
File imageFile = new File("/path/to/inputfile"); // File | Image file to perform OCR on. Common file formats such as PNG, JPEG are supported.
String recognitionMode = "recognitionMode_example"; // String | Optional, enable advanced recognition mode by specifying 'Advanced', enable handwriting recognition by specifying 'EnableHandwriting'. Default is disabled.
String language = "language_example"; // String | Optional, language of the input document, default is English (ENG). Possible values are ENG (English), ARA (Arabic), ZHO (Chinese - Simplified), ZHO-HANT (Chinese - Traditional), ASM (Assamese), AFR (Afrikaans), AMH (Amharic), AZE (Azerbaijani), AZE-CYRL (Azerbaijani - Cyrillic), BEL (Belarusian), BEN (Bengali), BOD (Tibetan), BOS (Bosnian), BUL (Bulgarian), CAT (Catalan; Valencian), CEB (Cebuano), CES (Czech), CHR (Cherokee), CYM (Welsh), DAN (Danish), DEU (German), DZO (Dzongkha), ELL (Greek), ENM (Archaic/Middle English), EPO (Esperanto), EST (Estonian), EUS (Basque), FAS (Persian), FIN (Finnish), FRA (French), FRK (Frankish), FRM (Middle-French), GLE (Irish), GLG (Galician), GRC (Ancient Greek), HAT (Hatian), HEB (Hebrew), HIN (Hindi), HRV (Croatian), HUN (Hungarian), IKU (Inuktitut), IND (Indonesian), ISL (Icelandic), ITA (Italian), ITA-OLD (Old - Italian), JAV (Javanese), JPN (Japanese), KAN (Kannada), KAT (Georgian), KAT-OLD (Old-Georgian), KAZ (Kazakh), KHM (Central Khmer), KIR (Kirghiz), KOR (Korean), KUR (Kurdish), LAO (Lao), LAT (Latin), LAV (Latvian), LIT (Lithuanian), MAL (Malayalam), MAR (Marathi), MKD (macedonian), MLT (Maltese), MSA (Malay), MYA (Burmese), NEP (Nepali), NLD (Dutch), NOR (Norwegian), ORI (Oriya), PAN (Panjabi), POL (Polish), POR (Portuguese), PUS (Pushto), RON (Romanian), RUS (Russian), SAN (Sanskrit), SIN (Sinhala), SLK (Slovak), SLV (Slovenian), SPA (Spanish), SPA-OLD (Old Spanish), SQI (Albanian), SRP (Serbian), SRP-LAT (Latin Serbian), SWA (Swahili), SWE (Swedish), SYR (Syriac), TAM (Tamil), TEL (Telugu), TGK (Tajik), TGL (Tagalog), THA (Thai), TIR (Tigrinya), TUR (Turkish), UIG (Uighur), UKR (Ukrainian), URD (Urdu), UZB (Uzbek), UZB-CYR (Cyrillic Uzbek), VIE (Vietnamese), YID (Yiddish)
String preprocessing = "preprocessing_example"; // String | Optional, preprocessing mode, default is 'None'. Possible values are None (no preprocessing of the image), and 'Advanced' (automatic image enhancement of the image before OCR is Applied; this is recommended and needed to handle rotated receipts).
try {
ReceiptRecognitionResult result = apiInstance.imageOcrPhotoRecognizeReceipt(imageFile, recognitionMode, language, preprocessing);
System.out.println(result);
} catch (ApiException e) {
System.err.println("Exception when calling ImageOcrApi#imageOcrPhotoRecognizeReceipt");
e.printStackTrace();
}
一旦您配置了可選功能,您的 API 調(diào)用就完成并準(zhǔn)備好進(jìn)行測(cè)試。下面,我提供了一個(gè)示例 API 響應(yīng)模型 JSON 供您參考:
JSON
{
"Successful": true,
"Timestamp": "2022-07-14T14:33:18.565Z",
"BusinessName": "string",
"BusinessWebsite": "string",
"AddressString": "string",
"PhoneNumber": "string",
"ReceiptItems": [
{
"ItemDescription": "string",
"ItemPrice": 0
}
],
"ReceiptSubTotal": 0,
"ReceiptTotal": 0
}
為了進(jìn)一步提高 OCR 圖像的質(zhì)量,我建議深入研究預(yù)處理API 并測(cè)試可能解決最常見(jiàn)問(wèn)題的那些。例如,在 OCR 照片中,在深色背景上以小角度查看文檔是很常見(jiàn)的。借助有效的預(yù)處理服務(wù),您可以自動(dòng)檢測(cè)這些角度并自動(dòng)校正它們,從而確保您的 OCR 應(yīng)用程序以盡可能高的準(zhǔn)確度檢測(cè)文本。