近日,NeurIPS 2020(Neural Information Processing Systems Annual Meeting,神經信息處理系統年會)落下帷幕,作為人工智能和機器學習領域的國際頂級會議,NeurIPS旨在促進有關神經信息處理系統的研究交流,在同行會議上介紹和討論新穎的研究。此次大會中,百度研究院參會并發表了多篇高質量論文,論文聚焦大規模稀疏學習的加速求解、新發現物種數量預測、隨機非凸優化、高維數據判別分析等問題,分別提出了創新算法及理論,突破原有算法在實際應用中泛化效果差、優化效率低等限制,有效提升AI技術在自然生態學、統計學習理論等領域中的應用價值,同時也彰顯出百度在人工智能與機器學習領域的持續技術創新力。
(百度研究院多篇論文入選NeurIPS 2020)
首先,論文《Thunder: a Fast Coordinate Selection Solver for Sparse Learning》就大規模稀疏學習提出新方法。大規模稀疏學習是機器學習中的重要方法之一,但大規模稀疏學習的高效訓練卻是極具挑戰性的問題。雖然人們借助凸目標函數和模型的稀疏性,已經提出很多優化方法來加速求解大規模稀疏學習問題,但當模型的稀疏度比較低或求解精度需求很高時,大多數優化提速方法便會失效,對此,本文提出了一種新穎的方法(Thunder)。
該方法盡可能地避免了在冗余特征上的計算,并可以保證算法選取特征的安全性。目前,已在一系列大數據集上的實驗結果證明了方法的有效性。如下圖所示,在Finance數據集上,百度提出的新方法比現有最佳方法在效率優化上有巨大的提升。
其次,論文《Optimal Prediction of the Number of Unseen Species with Multiplicity》對自然生態學中新發現物種數量預測做出梳理。論文首先提出了更一般化的版本,即對新樣本中出現的未知元素依據數量劃分,從而實現更精確細致的穩定預測。再通過信息論下界的構造,證明所提出的算法同時實現了最優時間和樣本復雜度。這一新的理論完整復現了此前七十年間的諸多研究成果,并在未知參數領域實現了非平凡的拓展,對自然生態學領域具有重要的現實意義。該工作已被機器學習旗艦會議NeurIPS 2020所接受并遴選為Spotlight報告文章。
論文《Towards Better Generalization of Adaptive Gradient Methods》則對統計學習理論中的重要問題“隨機非凸優化”給出新方案。為優化當前流行的動態梯度下降算法的泛化效果,百度提出穩定動態梯度下降算法,將差分隱私與梯度下降相結合,并巧妙利用差分隱私防止過擬合的這個優勢來提高算法的泛化性能。該算法已被證明可以減小泛化誤差,且具備一定優越性,為隨機非凸化問題帶去創新性解決方案。
最后,《Ratio Trace Formulation of Wasserstein Discriminant Analysis》一文,則針對高維數據的判別分析給出新算法。百度研究了維數約簡(DR)技術Wasserstein判別分析,提出用較少計算成本獲得可比或更好的結果的公式。同時從電子結構計算角度分析,將該判別分析技術轉化為一個比值跡問題,提出基于特征解算器的判別分析技術判別子空間計算算法,依托于比值跡公式封閉形式的解,一旦正則化的最優輸運問題得到解決,就可以通過廣義特征值分解得到。百度這一算法平均收斂時間更短,對初始化合參數的敏感性也更低。通過在實際數據集上的數值實驗表明,該算法在分類和聚類任務中都有很好的應用前景。
據悉,此次入選NeurIPS 2020的多篇優質論文來自百度研究院西雅圖研究院和百度認知計算實驗室,上述實驗室研究員一直是NIPS/NeurIPS會議的常客,2019年共有6篇論文入選NeurIPS,也曾經獲得過NIPS 2014的最佳論文獎;2020年,其在更具難度與深度的頂級機器學習算法和理論會議COLT(Conference on Learning Theory)中發表兩篇百度統一單位的論文,論文針對求解稀疏約束優化問題,提出了可以顯著降低計算復雜度的算法,為高維數據稀疏學習帶來算法與理論的新突破,這也是中國互聯網公司罕見的一次在COLT發表論文;另外,值得一提的是在2019年深度學習頂會ICLR上,實驗室研究員的理論論文解決了深度神經網絡的一個基礎問題,也是那年ICLR 2019的最高評分論文之一。
上述研究成果與百度研究院的發展布局緊密相連。今年八月,百度研究院宣布架構新升級,新增生物計算實驗室和安全實驗室。至此,百度研究院已囊括了從底層基礎技術到感知、認知技術的 AI全領域研究,匯聚數十位 AI領域的世界級專家,共同推動百度研究院的 AI基礎性研究和前瞻性洞察,助力 AI技術加速落地。
如今,百度研究院結合自身AI優勢,升級新架構,深入展開跨領域合作,取得的基礎性研究創新有目共睹;未來,百度研究院還將不斷推動百度AI技術的創新發展,夯實其在國際人工智能領域的影響力,促使AI深入行業落地應用,為全球科技發展出一份力。