自去年始,人工智能在60周年之際迎來了第三次浪潮,消費級爆發的征兆也開始逐漸顯現。在無人駕駛、人機大戰這些熱門詞之外,一些更加貼近消費端的技術已經實現了突破并逐漸走進實際應用場景,智能OCR技術就是值得關注的一個。近日,騰訊優圖團隊在國際權威的ICDAR 2015“Robust Reading Competition”的自然場景文本檢測項目中,以優越的表現超越眾多競爭對手,取得了排名第一的佳績。與此同時,騰訊優圖團隊的OCR技術已經在越來越多地應用到實際的場景中,推動整個文本檢測領域的消費應用升級。
關于ICDAR:即國際文檔分析與識別大會(International Conference on Document Analysis and Recognition),是國際模式識別協會(IAPR)舉辦的文檔分析與識別、模式識別領域世界上最權威的國際學術會議之一,每兩年舉辦一次。
自然場景文本檢測技術升級 優圖團隊優化OCR技術應用
作為ICDAR 2015“Robust Reading Competition”比賽的重要組成部分,自然場景文本檢測任務是將自然場景圖像中的文本區域定位出來,為OCR技術的關鍵步驟。與傳統OCR相比,自然場景文本檢測更為復雜也更具有挑戰性,如文本的多樣性會受到不同的語言、字體、顏色、字形畸變、模糊斷裂等現象的影響,還需要面臨各種不確定性問題,如自然場景中與文字相似度極高的樹葉紋理、窗格和復雜背景等。
騰訊優圖能夠在自然場景文本檢測項目中取得第一名的佳績,在于優圖團隊使用深度學習技術來構建OCR的文本檢測和文本識別模型。一方面,分析和抽象出中英文文本的共性特征,在現有前沿CNN(卷積神經網絡)技術基礎上,設計更適合于文本檢測和識別的網絡模型,提升模型學習能力和泛化能力;另一方面,騰訊海量數據優勢保證了訓練樣本的高質量和多樣性。
圖示:自然場景文本檢測示例
OCR技術場景應用可觀 初現人工智能消費級拐點
與引發眾議的人機大戰、無人駕駛等人工智能熱詞相比,OCR技術在當前更貼近消費端需求,也已經實現了越來越多真實場景中的應用落地。
目前,優圖團隊的OCR技術已成功在名片識別、身份證識別、營業執照識別等項目中落地應用。另悉,優圖全新版本的名片識別已完成內測即將上線,名片字段識別準確率達到90%以上,大幅領先其它競品。此外,優圖OCR技術還將廣泛應用在廣告圖片文字識別、文檔圖片自動識別、各種單據證件識別等業務場景上,通過精準的自動文字識別來幫助各產品和業務提升效率、創造價值。
圖示:名片識別示意圖
隨著人工智能時代的到來,智能文字識別也會是其中不可或缺的一環。據優圖團隊透露,未來團隊將在OCR技術領域將持續投入,文本檢測和識別技術會拓展更多語言支持、更復雜場景的支持、不斷提升識別精度,還會結合的NLP語義分析來提升OCR的識別糾錯能力。這些都將推動整個OCR技術在消費端的應用升級。除此之外,騰訊優圖在人臉識別、圖像理解和語音技術等多方面也都取得了領先的研究成果,并在QQ、QQ空間、微眾銀行、天天P圖等產品中成功落地。