今天,我們來聊一聊計算機視覺,也就是CV(Computer Vision)。
CV是一種讓計算機“看懂”圖片和視頻的技術。人類通過眼睛來感知環境,而CV就是讓計算機可以模仿人的視覺系統,通過給計算機安裝上眼睛(攝像機)和大腦(算法)來感知環境,讓它可以識別和理解圖像中的對象、人臉、文字、場景等。
盡管CV技術已經相對成熟,并在眾多領域得到廣泛應用,但處理復雜圖像和場景仍然具有一定的技術難度。
以光學字符識別(OCR)為例,OCR是一項將圖像中的字符識別并轉換為文字的任務。聽起來很簡單,但實際應用中,由于圖像的復雜性、視覺的多樣性、數據質量等因素,字符識別的準確率很難保證。
例如,在卷煙32位噴碼識別中,由于卷煙盒背景復雜且常有反光現象,再加上噴碼可能存在刮涂、模糊、扭曲等問題,肉眼識別很困難且費力。此時,OCR技術就派上了用場。
傳統的通用OCR識別通常包括圖像輸入、預處理、文字提取和文字識別等步驟,其核心在于通過預處理和文字提取將圖像中的文本與背景分離,以便進行后續的文字識別。這種方法更適用于簡單的印刷體字符識別,無法處理復雜背景,因此32位噴碼的單字識別準確率僅為50-80%。
而迦百農AI的專賣稽查智能輔助設備通過自研OCR算法解決了這一問題。針對卷煙專用噴碼特點設計深度神經網絡模型,利用業內唯一的全光譜色燈與多波段雙折射濾光技術,適應各種復雜的背景和光照條件,自匹配最優燈光,突出文本區域,省去了傳統OCR技術中的繁瑣預處理和文字提取步驟,將整個識別流程簡化為“圖像輸入→文字檢測→文字識別”,直接定位并識別文本,實現卷煙32位噴碼識別準確率99.98%。
在物流面單識別方面,迦百農AI物流面單識別系統通過訓練基于元學習的復雜場景識別模型,能夠快速捕獲面單圖像,利用深度學習算法定位和分割文字區域,識別單個字符,并對字符進行校驗、格式化和語義理解,確保輸出數據的準確性和完整性,實現2秒內智能提取物流面單信息,識別不同廠商的不同格式、不同字體的文本信息。即使面對字體磨損或打印不清晰的問題,仍能保持95%的高識別率。
迦百農AI在OCR領域實現了算法領先和高識別準確率,得益于對計算機視覺的深入研究及商業應用的豐富經驗。公司專注于研究復雜場景下多模態、多任務通用人工智能技術,獨立研發了高度自主化、可信賴的視覺預訓練大模型(VPLM),通過接入特定場景的專用數據集進行訓練調優,生成滿足各類場景需求的定制化模型,保證了產品的獨特性和競爭力。
隨著CV技術的不斷進步,迦百農AI也將在更多領域帶來突破性的解決方案,推動智能化轉型。