們先聊聊中文OCR的發展歷程:
國家863計劃信息領域課題組織了清華大學、北京信息工程學院、沈陽自動化所三家單位聯合進行中文OCR軟件的開發工作。至1989年,清華大學率先推出了國內第一套中文OCR軟件--清華文通TH-OCR1.0版,至此中文OCR正式從實驗室走向了市場。
清華OCR印刷體漢字識別軟件其后又推出了TH-OCR 92高性能實用簡/繁體、多字體、多功能印刷漢字識別系統,使印刷體漢字識別技術又取得重大進展。
到1994年推出的TH-OCR 94高性能漢英混排印刷文本識別系統,則被專家鑒定為“是國內外首次推出的漢英混排印刷文本識別系統,總體上居國際領先水平”。
上個世紀90年代中后期,清華大學電子工程系提出并進行了漢字識別綜合研究,使漢字識別技術在印刷體文本、聯機手寫漢字識別、脫機手寫漢字識別和脫機手寫數字符號識別等領域全面地取得了重要成果。具有代表性的成果是TH-OCR 97綜合集成漢字識別系統,它可以完成多文種(漢、英、日)印刷文本、聯機手寫漢字、脫機手寫漢字和手寫數字的識別輸入。
2003年,移動端的OCR應用開始普及(OCR識別SDK掛接App);到2006年,隨著APP數量的增多,移動端OCR應用迎來爆發式增長。這時候,市場也逐漸明朗起來,北京文通科技的市場占有率始終第一。
OCR識別技術的門檻其實很低,現在網上都出現開源的OCR識別數據庫來了。可真正涉及OCR領域的公司也就那么幾家,屈指可數。這是為什么呢?因為要做到識別率和識別速度達到理想要求,你需要作大量的機器深度學習的工作。這是一件龐大的工程。
現在,很多企業也對OCR領域虎視眈眈,躍躍欲試。有目前還算成功的,當然是竊取技術了(在這里我就不提是誰了)。但真正的,你想要成為一家偉大的公司,是永遠需要把技術放在第一位的,你得有龐大的研發能力。像那種投機取巧,賺機會錢的公司,是不值得我們尊重的。
我相信,經過五年、十年、甚至是上百年。市場會做出篩選。真正留下來的,能為OCR識別行業作出貢獻的,只能是我們文通這樣的老企業,因為我們始終秉持技術至上的理念,在OCR領域更應如此。