梯度下降算法詳解

原創(chuàng) | CDA數(shù)據(jù)分析研究院，轉(zhuǎn)載需授權(quán)

介紹

如果說在機(jī)器學(xué)習(xí)領(lǐng)域有哪個優(yōu)化算法最廣為認(rèn)知，用途最廣，非梯度下降算法莫屬。梯度下降算法是一種非常經(jīng)典的求極小值的算法，比如在線性回歸里我們可以用最小二乘法去解析最優(yōu)解，但是其中會涉及到對矩陣求逆，由于多重共線性問題的存在是很讓人難受的，無論進(jìn)行L1正則化的Lasso回歸還是L2正則化的嶺回歸，其實并不讓人滿意，因為它們的產(chǎn)生是為了修復(fù)此漏洞，而不是為了提升模型效果，甚至使模型效果下降。但是換一種思路，比如用梯度下降算法去優(yōu)化線性回歸的損失函數(shù)，完全就可以不用考慮多重共線性帶來的問題。其實不僅是線性回歸，邏輯回歸同樣是可以用梯度下降進(jìn)行優(yōu)化，因為這兩個算法的損失函數(shù)都是嚴(yán)格意義上的凸函數(shù)，即存在全局唯一極小值，較小的學(xué)習(xí)率和足夠的迭代次數(shù)，一定可以達(dá)到最小值附近，滿足精度要求是完全沒有問題的。并且隨著特征數(shù)目的增多（列如100000），梯度下降的效率將遠(yuǎn)高于去解析標(biāo)準(zhǔn)方程的逆矩陣。神經(jīng)網(wǎng)絡(luò)中的后向傳播算法其實就是在進(jìn)行梯度下降，GDBT(梯度提升樹)每增加一個弱學(xué)習(xí)器（CART回歸樹）,近似于進(jìn)行一次梯度下降，因為每一棵回歸樹的目的都是去擬合此時損失函數(shù)的負(fù)梯度，這也可以說明為什么GDBT往往沒XGBoost的效率高，因為它沒辦法擬合真正的負(fù)梯度，而Xgboost 的每增加的一個弱學(xué)習(xí)器是使得損失函數(shù)下降最快的解析解。總之梯度下降算法的用處十分廣泛，我們有必要對它進(jìn)行更加深入的理解。

關(guān)于梯度下降算法的直觀理解

關(guān)于梯度下降算法的直觀理解，我們以一個人下山為例。比如剛開始的初始位置是在紅色的山頂位置，那么現(xiàn)在的問題是該如何達(dá)到藍(lán)色的山底呢？按照梯度下降算法的思想，它將按如下操作達(dá)到最低點：

第一步，明確自己現(xiàn)在所處的位置

第二步，找到相對于該位置而言下降最快的方向

第三步，沿著第二步找到的方向走一小步，到達(dá)一個新的位置，此時的位置肯定比原來低

第四部，回到第一步

第五步，終止于最低點

按照以上5步，最終達(dá)到最低點，這就是梯度下降的完整流程。當(dāng)然你可能會說，上圖不是有不同的路徑嗎？是的，因為上圖并不是標(biāo)準(zhǔn)的凸函數(shù)，往往不能找到最小值，只能找到局部極小值。所以你可以用不同的初始位置進(jìn)行梯度下降，來尋找更小的極小值點，當(dāng)然如果損失函數(shù)是凸函數(shù)就沒必要了，開開心心的進(jìn)行梯度下降吧！比如下面這種：