新的算法很難產生,2022 年可能也不例外。然而,仍有一些機器學習算法和 Python/ target=_blank class=infotextkey>Python 庫將在未來更受歡迎。這些算法之所以與眾不同,是因為它們包含了一些在其它算法中并不普遍的優點,我會在本文詳細討論這些優點。
無論是能夠在你的模型中使用不同的數據類型,還是能夠將內置算法整合到你當前公司的基礎設施中,甚至是能夠在一個地方比較幾種算法的成功指標,你都可以預計,這些算法和庫都會由于各種原因而在明年變得更受歡迎。下面,讓我們更深入地了解一下 2022 年的一些新興算法和庫。
CatBoost
CatBoost 可能是最新的算法,因為它隨著越來越流行而不斷更新。這個機器學習算法對于處理分類數據的數據科學家特別有用。您可以考慮 Random Forest 和 XGBoost 算法的優點,CatBoost 具有它們的大部分優點,同時還具有更多其它的優點。
以下是 CatBoost 的主要優點:
- 無需擔心參數調整——默認值通常會勝出,通常不值得手動調整,除非您想通過手動更改值來針對特定的異常分布
- 更準確——不太過擬合,并且當您使用更具分類性的特征時,往往會得到更準確的結果
- 快速——這種算法往往比其它基于樹的算法更快,因為它不必擔心用于示例的使用獨熱編碼(one-hot encoding)的大型稀疏數據集,因為它使用了一種目標編碼
- 更快地預測——您可以更快地訓練,這樣您也就可以更快地使用您的 CatBoost 模型進行預測
- SHAP——這個庫被集成,便于解釋整體模型的特征重要性以及特定預測總的來說,CatBoost 非常棒,因為它易于使用、功能強大,在算法領域具有競爭力,并且可以列在您的簡歷中來增光添彩。它可以幫助您創建更好的模型,最終使您的項目更好地為您的公司服務。
CatBoost 的文檔在此:https://catboost.ai。
DeepAR Forecasting
這個算法內置在流行平臺 Amazon SageMaker 中,如果您的公司目前使用 AWS 技術?;蛘呦胍褂?AWS 技術棧,這可能是個好消息。在回歸神經網絡的幫助下,它用于預測/時間序列應用中的有監督學習。
以下是使用這個算法時需要用到的輸入文件字段的一些示例:
- start
- target
- dynamic _feat
- cat
以下是使用這個算法/架構的一些優點:
易于建模——在相同的地方構建/訓練/部署,速度相當快
- 簡單的架構——聚焦于更少的編碼,更多地關注您的數據和需要解決的業務問題當然,這個算法還有更多優點,所以我只是簡單地介紹了下,因為不是所有的讀者都在使用 AWS。
DeepAR Forcasting 算法的文檔在此。
PyCaret
因為沒有太多的新算法需要討論,我想包括一種能夠比較幾種算法的庫,其中一些算法可能會更新迭代,所以比較新。這個 Python 庫是開源和低代碼的,可以被引用。當我開始比較并最終選擇我的數據科學模型的最終算法時,它讓我更加了解新的和即將流行的機器學習算法。
以下是使用這個庫的一些好處:
- 更少的編碼時間——您不需要導入庫,也不需要設置每個算法特有的每個預處理步驟,相反,您可以填寫一些參數,讓您可以將幾乎所有您聽說過的算法并排進行比較
- 易于使用——隨著庫的演變,它們的易用性也在不斷提高。
- 端到端處理——可以研究從數據轉換到預測結果的數據科學問題
- 集成良好——可以 Power BI 中使用 AutoML
- 整合——可以加入不同的算法以獲得更多好處
- 校準和優化模型
- 關聯規則挖掘
- 更重要的是,一次性比較 20+算法總的來說,這個庫雖然并不是一個新算法,但是它很可能包含 2022 年的新算法,或者至少是最新的算法,甚至像上面提到的 CatBoost 這樣的算法都包含在這個庫中——這就是我如何發現它的。話雖如此,我認為重要的是要包含這個庫,這樣您不僅可以了解 2022 年的最新算法,還可以了解您以前沒有聽說過或者錯過的比較老的算法,因為您可以通過簡單的用戶界面將它們并排進行比較。
PyCaret 的文檔在此。
總結
如果你認為這個列表很短,那么你就會意識到并不是每年都會有一組新的機器學習算法。我希望這里提到的 3 個算法或庫能夠增添文檔并更受歡迎,因為它們非常棒且不同于通常的邏輯回歸/決策樹等。
總而言之,以下是 2022 年可以期待的一些新的機器學習算法:
* CatBoost - 算法
* DeepAR Forecasting - 算法/軟件包
* PyCaret - 包括新算法的庫
我希望您會覺得我的這篇文章既有趣又有用。無論您是否同意文中的觀點,請隨意在下方留言,講講為什么支持或反對。您認為我們還可以包括哪些更重要的算法或軟件包/庫?這些當然可以進一步闡明,但我希望能夠闡明一些更獨特的機器學習算法和庫。
作者介紹
Matt Przybyla 高級數據科學家,人工智能、科技和教育領域的頂尖作家,《面向數據科學》(Towards Data Science)供稿作家。
原文鏈接
https://towardsdatascience.com/top-machine-learning-algorithms-and-python-libraries-for-2022-86820f7ca67f