起源階段(1943-1969)
1943年,神經科學家麥卡洛克(W.S.McCilloch) 和數學家皮茲(W.Pitts)建立了神經網絡和數學模型,稱為M-P模型,即兩個人的名字的合稱McCulloch-Pitts。
這個模型是對生物神經元的一個建模。當時是希望能夠用計算機來模擬人的神經元反應的過程,該模型將神經元簡化為了三個過程:輸入信號線性加權、求和和非線性激活(閾值法)。人工神經網絡(ANN: Artificial Neural Network)以此為開端,不過這個模型直到1958年,才開始有了實用價值。
M-P人工神經元模型
1958年,計算機科學家羅森布拉特( Rosenblatt)提出了一個由兩層神經元組成的神經網絡,稱之為“感知器”(Perceptrons),第一次將M-P模型用于機器學習的分類(classification)問題。
人工智能先驅Marvin Minsky
1969年,美國數學家及人工智能先驅 Marvin Minsky 在其著作中證明了感知器本質上是一種線性模型(linear model),只能處理線性分類問題,就連最簡單的XOR(異或)問題都無法正確分類。由此,神經網絡的研究也陷入了將近20年的停滯,進入了第一個寒冬期。
發展階段(1986-1998)
1986年,神經網絡之父 Geoffrey Hinton 發明了適用于多層感知器(MLP)的BP(Back Propagation)算法,并采用Sigmoid函數進行非線性映射,有效解決了非線性分類和學習的問題。這種方法引起了神經網絡的第二次熱潮。
Sigmoid函數
多層感知器:至少有一個隱藏層
當神經網絡的規模增大時,使用BP算法會出現“梯度消失”的問題。當梯度消失發生時,接近于輸出層的隱藏層由于其梯度相對正常,所以權值更新時也就相對正常,但是當越靠近輸入層時,由于梯度消失現象,會導致靠近輸入層的隱藏層權值更新緩慢或者更新停滯。
梯度消失問題限制了ANN結構的層數(規模)
90年代中期,以SVM為代表的其它淺層機器學習算法被提出,并在分類、回歸問題上均取得了很好的效果,而ANN則相形見絀,人工神經網絡的發展再次進入瓶頸,迎來了第二個寒冬期。
深度學習開始(2006-2012)
2006年,Geoffrey Hinton 和他的學生 Ruslan Salakhutdinov 在頂尖學術刊物《科學》上發表了一篇文章,該文章提出了深層網絡訓練中梯度消失問題的解決方案:無監督預訓練對權值進行初始化+有監督訓練微調。這個方案的提出,為基于ANN的深度學習(DL:Deep Learning)提供了可能性。
造成梯度消失的一個主要原因就是激活函數Sigmoid。Sigmoid的導數的取值范圍在0~0.25之間,初始化的網絡權值通常都小于1,當層數增多時,小于0的值不斷相乘,最后導致梯度消失的情況出現。因此解決梯度消失的一個辦法是替換激活函數。2011年,ReLU激活函數被提出,該激活函數能夠有效地抑制梯度消失問題。
2011年以來,微軟首次將DL應用在語音識別上,取得了重大突破。微軟研究院和google的語音識別研究人員先后采用深度神經網絡(DNN)技術降低語音識別錯誤率20%~30%,是語音識別領域十多年來最大的突破性進展,人工神經網絡終于證明了自己的實用價值。
深度學習爆發
2012年,Hinton課題組為了證明深度學習的潛力,首次參加了ImageNet圖像識別比賽,其構建的卷積神經網絡(CNN)模型AlexNet一舉奪得冠軍。深度學習算法在世界大賽的脫穎而出,也再一次吸引了學術界和工業界對于深度學習領域的關注。
通過ImageNet圖像識別比賽,DL的網絡結構、訓練方法、GPU硬件的不斷進步,促使DNN在其他領域也在不斷地征服戰場。
2014年,Facebook基于深度學習技術的DeepFace項目,在人臉識別方面的準確率已經能達到97%以上,跟人類識別的準確率幾乎沒有差別。
2016年,隨著谷歌旗下Deepmind公司基于深度學習開發的AlphaGo以4:1的比分戰勝了國際頂尖圍棋高手李世石,深度學習的熱度一時無兩。后來,AlphaGo又接連和眾多世界級圍棋高手過招,均取得了完勝。
AlphaGo戰勝李世石,再次證明了深度學習的能力
正是由于DL在理論上的成功以及GPU硬件的發展,DL在工程實踐上開始證明價值,催生了一批以人工智能(機器視覺為主)的科技公司,比如國內耳熟能詳的AI四小龍:商湯、云從、依圖和曠世,都有將AI技術應用于實際的落地案例。
從DNN到多樣化的結構
全連接DNN
如上圖所示,全連接DNN的結構里相鄰兩層的神經元之間都能夠形成連接,從而導致參數數量膨脹。這不僅容易過擬合,而且極容易陷入局部最優。
由于圖像中存在固有的局部模式(如人臉中的眼睛、鼻子、嘴巴等),所以將圖像處理和神經網絡結合引出卷積神經網絡CNN。CNN是通過卷積核將相鄰層進行鏈接,大幅降低了輸入層到隱藏層的參數。
另外DNN無法對時間序列上的變化進行建模,而樣本的時間順序對于自然語言處理、語音識別、手寫體識別等應用非常重要。為了適應這種需求,就出現了另一種神經網絡結構:循環神經網絡RNN。
在RNN中,神經元的輸出可以在下一個時刻作用到自身,即第i層神經元在m時刻的輸入,除了(i-1)層神經元在該時刻的輸出外,還包括其自身在(m-1)時刻的輸出。
神經元按照時間展開
RNN可以看成一個在時間上傳遞的神經網絡,它的深度是時間的長度,“梯度消失”現象又要出現了,只不過這次發生在時間軸上。
為解決上述長時依賴問題,又提出了LSTM(長短時記憶單元),通過神經元的門開關實現時間上的記憶功能,并防止梯度消失。
LSTM
除了RNN和LSTM以外,還有很多網絡結構可以用于序列信號分析中,比如雙向RNN、雙向LSTM,這些結構可以同時利用歷史和未來的信息。在實際應用中,我們往往不會使用單一的結構,經常混合著使用。
我會持續更新關于物聯網、云原生以及數字科技方面的文章,用簡單的語言描述復雜的技術,也會偶爾發表一下對IT產業的看法,歡迎大家關注,謝謝。