近年來,在材料科學(xué)、人工智能芯片等前沿領(lǐng)域,深度學(xué)習(xí)受到廣泛的研究和應(yīng)用。具體來說,深度學(xué)習(xí)通過學(xué)習(xí)樣本數(shù)據(jù)的內(nèi)在規(guī)律和表示層次實(shí)現(xiàn)機(jī)器像人一樣具有分析和學(xué)習(xí)的能力,因而在材料科學(xué)研究中可以幫助分析高維、非線性的特征數(shù)據(jù);在人工智能芯片研發(fā)中可以提供高效、通用的網(wǎng)絡(luò)模型。區(qū)別于傳統(tǒng)的淺層學(xué)習(xí),深度學(xué)習(xí)一般具有深層的神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu),比如目前最復(fù)雜的深度模型BERT含有1億個(gè)以上的參數(shù)。因此,深度模型的訓(xùn)練(也就是求解模型的參數(shù))一直是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。
一般來說,求解深度模型參數(shù)的訓(xùn)練算法具有兩個(gè)重要的性能指標(biāo):算法的收斂速度和泛化能力。目前,應(yīng)用較廣泛的訓(xùn)練算法是隨機(jī)梯度下降算法(SGD)和學(xué)習(xí)率自適應(yīng)的隨機(jī)梯度下降算法(如Adam和AdaBelief),其中SGD具有良好的泛化能力,但是收斂速度緩慢;Adam和AdaBelief具有較快的收斂速度,但是泛化能力不如SGD。因此,使優(yōu)化算法同時(shí)具備良好的泛化能力和快速的收斂速度是深度學(xué)習(xí)領(lǐng)域內(nèi)的研究熱點(diǎn)之一。
中國科學(xué)院蘇州納米技術(shù)與納米仿生研究所研究員劉欣等針對(duì)學(xué)習(xí)率自適應(yīng)的隨機(jī)梯度下降算法Adabief在強(qiáng)凸條件下的收斂速度是否可以進(jìn)一步提高的問題進(jìn)行了首次嘗試,并給出了肯定的答案。團(tuán)隊(duì)利用損失函數(shù)的強(qiáng)凸性,提出了一種新的算法FastAdaBelief(圖1),該算法在保持良好的泛化能力的同時(shí),具有更快的收斂速度。
圖1 FastAdaBelief算法偽代碼
該團(tuán)隊(duì)根據(jù)理論證明的結(jié)果,進(jìn)行了一系列的實(shí)驗(yàn)研究,驗(yàn)證了所提出的算法的優(yōu)越性。首先,在softmax回歸問題上的實(shí)驗(yàn)驗(yàn)證了FastAdaBelief比其他算法的收斂速度更快(圖2);然后,在CIFAR-10數(shù)據(jù)集上完成了多組圖像分類任務(wù),結(jié)果表明,在實(shí)驗(yàn)對(duì)比算法中,F(xiàn)astAdaBelief具有最快的收斂速度(圖3),并且具有最好的泛化能力(圖4);最后,在Penn Treebank數(shù)據(jù)集上的文本預(yù)測任務(wù)中,F(xiàn)astAdaBelief算法可以最快訓(xùn)練出深度模型,并且得出的模型具有最小的混沌度(圖5)。重要的是,該團(tuán)隊(duì)發(fā)現(xiàn)FastAdaBelief在損失函數(shù)為強(qiáng)凸和非凸的情況下收斂速度都是最快的,因此證明了它作為一種新的基準(zhǔn)優(yōu)化算法的巨大潛力,可以廣泛應(yīng)用于各種深度學(xué)習(xí)場景中。
圖2 softmax回歸問題中各算法的收斂速度對(duì)比
圖3 CIFAR-10數(shù)據(jù)集上各算法的收斂速度對(duì)比
圖4 CIFAR-10數(shù)據(jù)集上各算法的泛化能力對(duì)比
圖5 Penn Treebank數(shù)據(jù)集上各算法的收斂速度對(duì)比
該研究工作從理論上證明了FastAdaBelief的收斂速度比其他自適應(yīng)優(yōu)化算法快,并且通過大量實(shí)驗(yàn)驗(yàn)證了該算法的泛化能力比其他自適應(yīng)優(yōu)化算法強(qiáng),這可以幫助完成很多場景下的深度模型訓(xùn)練任務(wù),尤其是在樣本數(shù)據(jù)短缺、硬件計(jì)算算力不足的情況下。因此,在材料科學(xué)研究領(lǐng)域和人工智能芯片研發(fā)領(lǐng)域都具有很大的應(yīng)用前景。
相關(guān)工作以FastAdaBelief: Improving Convergence Rate for Belief-based Adaptive Optimizers by Exploiting Strong Convexity為題發(fā)表在IEEE Transactions on Neural Networks and Learning Systems上。
來源:中國科學(xué)院蘇州納米技術(shù)與納米仿生研究所