編者按:計算機視覺(ComputerVision,CV)是一門綜合性的學科,是極富挑戰性的重要研究領域,目前已經吸引了來自各個學科的研究者參加到對它的研究之中。
本文中,百分點感知智能實驗室梳理了計算機視覺技術基本原理和發展歷程,針對其當前主要的研究方向及落地應用情況進行了深入剖析,并分享了百分點科技在該領域的技術研究和實踐成果。
一、概覽
計算機視覺(ComputerVision,CV)是人工智能的一個領域,它與語音識別、自然語言處理共同成為人工智能最重要的三個核心領域也是應用最廣泛的三個領域。計算機視覺使計算機和系統能夠從數字圖像、視頻和其他視覺輸入中獲取有意義的信息,并根據這些信息采取行動或提出建議。如果人工智能使計算機能夠思考,那么計算機視覺使它們能夠看到、觀察和理解。
計算機視覺的工作原理與人類視覺大致相同,只是人類具有領先優勢。人類視覺具有上下文生命周期的優勢,可以訓練如何區分對象,判斷它們有多遠、它們是否在移動,以及圖像中是否有問題等情況。計算機視覺訓練機器執行這些功能,不是通過視網膜、視神經和視覺皮層,而是用相機、數據和算法,能夠在更短的時間內完成。因為經過培訓以檢查產品或觀察生產資產的系統可以在一分鐘內分析數千個產品或流程,發現不易察覺的缺陷或問題,所以它可以迅速超越人類的能力。
1.計算機視覺工作原理
計算機視覺需要大量數據,它一遍又一遍地運行數據分析,直到辨別出區別并最終識別出圖像。例如,要訓練計算機識別咖啡杯,需要輸入大量咖啡杯圖像和類似咖啡杯的圖像來學習差異并識別咖啡杯。現在一般使用深度學習中的卷積神經網絡(Convolutional Neural Networks, CNN)來完成這一點,也就是說最新的科研方向和應用落地絕大多數都是基于深度學習的計算機視覺。
CNN 通過將圖像分解為具有標簽或標簽的像素來幫助機器學習或深度學習模型“觀察”,使用標簽來執行卷積(對兩個函數進行數學運算以產生第三個函數)并對其“看到”的內容進行預測。神經網絡運行卷積并在一系列迭代中檢查其預測的準確性,直到預測開始成真,然后以類似于人類的方式識別或查看圖像。就像人類在遠處觀察圖像一樣,CNN 首先識別硬邊緣和簡單形狀,然后在運行其預測的迭代時填充信息。
2. 計算機視覺發展歷程
60多年來,科學家和工程師一直在努力開發讓機器查看和理解視覺數據的方法。實驗始于1959年,當時神經生理學家向一只貓展示了一系列圖像,試圖將其大腦中的反應聯系起來。他們發現它首先對硬邊或線條做出反應,從科學上講,這意味著圖像處理從簡單的形狀開始,比如直邊。
大約在同一時期,第一個計算機圖像掃描技術被開發出來,使計算機能夠數字化和獲取圖像。1963年達到了另一個里程碑,當時計算機能夠將二維圖像轉換為三維形式。在1960年代,人工智能作為一個學術研究領域出現,這也標志著人工智能尋求解決人類視覺問題的開始。
1974年引入了光學字符識別 (OCR) 技術,該技術可以識別以任何字體或字樣打印的文本。同樣,智能字符識別 (ICR) 可以使用神經網絡破譯手寫文本。此后,OCR和ICR 進入文檔和發票處理、車牌識別、移動支付、機器翻譯等常見應用領域。
1982年,神經科學家David Marr確定視覺是分層工作的,并引入了機器檢測邊緣、角落、曲線和類似基本形狀的算法。與此同時,計算機科學家Kunihiko Fukushima 開發了一個可以識別模式的細胞網絡。該網絡稱為Neocognitron,在神經網絡中包含卷積層。
到2000年,研究的重點是物體識別,到2001年,第一個實時人臉識別應用出現。視覺數據集如何標記和注釋的標準化出現在2000年代。2010年,李飛飛所帶領的團隊為了提供一個非常全面、準確且標準化的可用于視覺對象識別的數據集創造出了ImageNet。它包含跨越一千個對象類別的數百萬個標記圖像,并以此數據集為基礎每年舉辦一次軟件比賽,即ImageNet大規模視覺識別挑戰賽(ILSVRC),為當今使用的 CNN 和深度學習模型奠定了基礎。2012 年,多倫多大學的一個團隊將 CNN 輸入到圖像識別競賽中。該模型稱為 AlexNet,它是由Yann LeCun于1994年提出的Lenet-5衍變而來,顯著降低了圖像識別的錯誤率第二名TOP-5錯誤率為26.2%(沒有使用卷積神經網絡),AlexNet獲得冠軍TOP-5錯誤率為15.3%。在這一突破之后,錯誤率下降到只有幾個百分點(到2015年分類任務錯誤率只有3.6%)。
二、計算機視覺主要研究方向
人類應用計算機視覺解決的最重要的問題是圖像分類、目標檢測和圖像分割,按難度遞增,其中圖像分割主要包含了語義分割、實例分割、全景分割。
其中圖像分類和目標檢測也是很多計算機視覺任務背后的基礎,接下來將簡單地說明一下它們的運行原理。
(1)圖像分類運行原理
圖像分類的實現主要依靠基于深度學習的卷積神經網絡。卷積神經網絡是一類包含卷積計算且具有深度結構的前饋神經網絡(Feedforward Neural Networks,FNN),是深度學習的代表算法之一 。卷積神經網絡具有表征學習(Representationlearning)能力,能夠按其階層結構對輸入信息進行平移不變分類(Shift-invariantclassification),因此也被稱為“平移不變人工神經網絡(Shift-Invariant Artificial Neural Networks, SIANN)” 。
那么人工神經網絡(Artificial Neural Networks,ANN)又是什么呢,它是一種模仿生物神經網絡(動物的中樞神經系統,特別是大腦)結構和功能的教學模型或計算模型,用于對函數進行估計或近似
人工神經網絡由大量的人工神經元聯結進行計算,大多數情況下人工神經網絡能在外界信息的基礎上改變內部結構,是一種自適應系統。
典型的人工神經網絡具有以下三個部分:
網絡結構:定義了網絡中的變量和它們的拓撲關系;
激活函數:定義了神經元如何根據其他神經元的活動來改變自己的激勵值;
學習規則:定義了網絡中的權重如何隨著時間推進而調整。
輸入層
接收的是圖像的三維數組,數組的形狀大小為圖像寬度、圖像高度、圖層數,數組的值為每一個圖像通道逐個像素點的像素值。
隱藏層主要包括卷積層、池化層和全連接層
卷積層(Convolutional Layer)的功能是對輸入數據進行特征提取,其內部包含多個卷積核,組成卷積核的每個元素都對應一個權重系數和一個偏差量,類似于一個前饋神經網絡的神經元。卷積層內每個神經元都與前一層中位置接近的區域的多個神經元相連,區域的大小取決于卷積核的大小,也稱作感受野,其含義可類比視覺皮層細胞的感受野。卷積核在工作時,會有規律地掃過輸入特征,在感受野內對輸入特征做矩陣元素乘法求和并疊加偏差量。卷積層還包括卷積參數和激勵函數,使用不同的參數或函數,可以用來調節卷積層卷積后獲得的結果。
在卷積層進行特征提取后,輸出的特征圖會被傳遞至池化層(Pooling Layer)進行特征選擇和信息過濾。池化層包含預設定的池化函數,其功能是將特征圖中單個點的結果替換為其相鄰區域的特征圖統計量,可降低圖像參數,加快計算,防止過擬合。
卷積神經網絡中的全連接層(Fully-connected Layer)等價于傳統前饋神經網絡中的隱含層。全連接層位于卷積神經網絡隱含層的最后部分,并只向其他全連接層傳遞信號。特征圖在全連接層中會失去空間拓撲結構,被展開為向量并通過激勵函數。在一些卷積神經網絡中,全連接層的功能可由全局均值池化(Global Average Pooling)取代,全局均值池化會將特征圖每個通道的所有值取平均,可降低計算量,加快運行速度,防止過擬合。
輸出層
卷積神經網絡中輸出層的上游通常是全連接層,因此其結構和工作原理與傳統前饋神經網絡中的輸出層相同。對于圖像分類問題,輸出層使用邏輯函數或歸一化指數函數(Softmax Function)輸出分類標簽。
三、計算機視覺前沿技術
隨著計算機視覺技術的不斷發展,除了圖像分類,目標檢測,圖像分割等主要方向外還有很多新的技術不斷產生,生成式對抗網絡(Generative Adversarial Networks,GAN)就是其中一個非常有代表性的技術。
GAN是一種深度學習模型。模型通過框架中(至少)兩個模塊:生成模型(Generative Model)和判別模型(Discriminative Model)的互相博弈學習產生相當好的輸出。原始 GAN 理論中,并不要求 G 和 D 都是神經網絡,只需要是能擬合相應生成和判別的函數即可。但實用中一般均使用深度神經網絡作為 G 和 D 。一個優秀的GAN應用需要有良好的訓練方法,否則可能由于神經網絡模型的自由性而導致輸出不理想。
GAN的基本原理其實非常簡單,這里以生成圖片為例進行說明。假設我們有兩個網絡,G(Generator)和D(Discriminator)。正如它的名字,它們的功能分別是:
G是一個生成圖片的網絡,它接收一個隨機的噪聲z,通過這個噪聲生成圖片,記做G(z)。
D是一個判別網絡,判別一張圖片是不是“真實的”。它的輸入參數是x,x代表一張圖片,輸出D(x)代表x為真實圖片的概率,如果為1,就代表100%是真實的圖片,而輸出為0,就代表不可能是真實的圖片。
在訓練過程中,生成網絡G的目標就是盡量生成真實的圖片去欺騙判別網絡D。而D的目標就是盡量把G生成的圖片和真實的圖片分別開來。這樣,G和D構成了一個動態的“博弈過程”。
最后博弈的結果是什么?在最理想的狀態下,G可以生成足以“以假亂真”的圖片G(z)。對于D來說,它難以判定G生成的圖片究竟是不是真實的,因此D(G(z)) = 0.5。
這樣我們的目的就達成了:我們得到了一個生成式的模型G,它可以用來生成圖片。
四、計算機視覺落地應用
計算機視覺的應用范圍與規模是目前人工智能應用中最為廣泛與普遍的,且早已深入日常生活與工作的多方面,典型的應用如生物特征識別中的人臉識別。
人臉識別已經廣泛應用在人證比對、身份核驗、人臉支付、安防管控等各個領域。
這是一個典型的人臉識別示例,通過人臉識別技術檢測到圖像中的人臉位置并識別出每個人臉是誰。
現在主流的人臉識別技術多使用黃種人和白種人的面部特征進行模型開發和訓練,并且樣本中的光照條件良好,因此可以從圖片中較好的識別和分析黃種人和白種人的人臉,但是,由于深膚色(如黑人)人臉圖像的紋理特征較不明顯,并且反光較強,因此現有的人臉識別方法對深膚色人臉的識別和分析存在缺陷,尤其無法應對中偏重黑人人臉光照不佳的情況,不能在視頻和照片中很好的識別和分析深膚色人臉,也就是說,現有的人臉識別方法很難對深膚色人臉的特征進行有效分析和提取,從而導致對深膚色人臉的識別準確率較低。
百分點科技采用了創新的方法,如增加拉普拉斯變換融合到圖像圖層等,采用基于深度學習的圖像識別技術較好地解決了深膚色人種人臉識別的問題。具體主要流程如下:
(1)人臉檢測
人臉檢測和關鍵點檢測步驟采用了級聯結構的卷積神經網絡,可以適應環境變化和人臉不全等問題,且具有較快的檢測速度。
該方法規避了傳統方法劣勢的同時,兼具時間和性能兩個優勢。一張圖片中絕大部分區域容易區分出為非人臉區域,只有少部分區域包含人臉和難以區分的非人臉區域。為加快檢測速度,我們設計使用三級分類器,使得性能逐級提高。
一般算法中只包含一個回歸器,如果候選框與真實人臉框相差較大,則無法進行有效的回歸。我們使用多級回歸器,每一級回歸器皆可讓結構更接近真實人臉框,在多級回歸后結果更準確。
為實現對人臉/非人臉分類、人臉框回歸、人臉關鍵點回歸等預測,我們設計出基于多任務的深度學習模型。多任務學習提升了各個子任務的性能,達到一加一大于二的效果。在實現多任務共享深度學習模型參數的同時,較大地減少模型運算量,大幅提高人臉檢測速度。
(2)人臉識別
特征提取步驟采用了深層次的殘差卷積神經網絡,且具有優化的損失函數,對比傳統方法可以更快更好的提取人臉特征,增加類間距,減少類內距,獲得更好的人臉識別效果。
該技術是在殘差卷積神經網絡的基礎上,增加了更多的 Shortcut 網絡連接與Highway 卷積層連接,保證了特征生成網絡中能夠兼具挖掘出人臉樣本圖像中的淺層與深層紋理特征,并將多重紋理特征進行組合,生成可分性更強的人臉特征,增強人臉識別準確率。同時在特征生成網絡中加入了多尺度融合機制,在卷積層中加入多尺度視覺感受,保證了同一人在多方位圖片中的人臉特征空間距離接近,有效提升同一分類的圖像產生更好的聚類,進而提高人臉識別準確率。
針對不同膚色人種的人臉識別,尤其是深膚色人種,我們使用提取紋理通過對原始人臉圖像進行拉普拉斯變換后得到的變換人臉圖像描述人臉圖像中的紋理強度,因此,由該原始人臉圖像及該變換人臉圖像進行拼接后得到的該四通道人臉圖像,相比較于該原始人臉圖像來說人臉紋理特征較明顯,這樣在基于深膚色人臉的該四通道人臉圖像進行特征提取時,可以更高效地獲取到人臉圖像的紋理特征,進而可以提高對深膚色人臉識別的準確率。
總結
如今,計算機視覺已經廣泛應用于人們日常生活的眾多場景中。隨著深度學習的飛速發展,計算機視覺融合了圖像分類、目標檢測、圖像分割等技術,已在工業視覺檢測、醫療影像分析、自動駕駛等多個領域落地應用,為各行各業捕捉和分析更多信息。
百分點科技在計算機視覺領域有著一定的研究和技術積累,并在人臉識別、文字識別、圖像及視頻智能分析等方面已經取得了不錯的成績,目前已在智慧園區、公共區域重點人員預警、車輛軌跡分析、河流水域智能監控、智能視頻分析等多個場景中落地應用。未來,我們將加大力度,繼續深入研究,進一步推動計算機視覺技術的發展,更好地為客戶提供服務。