數據處理與分析
PandasGUI
一個具有圖形用戶界面的驚人庫,可簡化數據操作和可視化功能
polars
Polars 是一個開源且相對較新的數據分析和處理庫,為廣泛流行的 Pandas 庫提供了替代方案。
PyGWalker
PyGWalker 是一個非常強大的數據分析庫。
pandas-profiling
pandas-profiling 庫為你提供了一種生成給定數據幀的分析報告的方法。
Lux
Lux 可通過自動化可視化和數據分析過程來促進快速、輕松的數據探索。
AutoViz
借助 AutoViz,你可以輕松快速地為數據生成富有洞察力的可視化效果。無論你是數據分析的初學者還是專家,AutoViz 都可以幫助你探索數據并發現有價值的見解。
Sweetviz
利用 Sweetviz 可以生成漂亮的高密度可視化效果,從而通過一行代碼啟動 EDA(探索性數據分析)。輸出是一個完全獨立的 html 應用程序。
Bamboolib
如果有一種方法可以通過 GUI 訪問 pandas 的功能怎么樣?這就是 Bamboolib 發揮作用的地方。
Spotlight
Spotlight 是一種開源工具,提供了一種簡化的交互式方法來探索數據。
它簡化了可視化創建,支持自定義視圖,并允許輕松與數據點交互。
Mito
Mito 是一個令人難以置信的開源工具,允許你在 Jupyter 的電子表格界面中分析數據,而無需編寫任何代碼。
Dataprep
Dataprep 是一個開源的 Python/ target=_blank class=infotextkey>Python 庫,它的主要目標是簡化和加快數據科學操作,特別關注簡化「探索性數據分析(EDA) 階段」。
D-Tale
D-Tale 是一個 Python 庫,「為數據探索、分析和可視化提供了交互式且易于使用的界面」。它構建在流行的數據操作和可視化庫(例如 Pandas、Plotly 和 Flask)之上。
visualpython
Visual Python 是一個開源項目,除了對各種 Python 數據科學庫(pandas、seaborn 等)的強大支持之外,還可以使用 python 輕松處理「重復的數據科學任務」。
asqlcell
asqlcell 是一個開源的 Jupyter 插件,可以讓你在 Jupyter 中使用 sql 就可以分析數據。對于不熟悉 python 的人非常友好。
missingno
Missingno 是一個 Python 庫,用于「可視化數據集中缺失的數據」。
超參數搜索
KerasTuner
KerasTuner 是一個易于使用、可擴展的「超參數優化框架」,「解決了超參數搜索的痛點」。
Optuna
Optuna 使用戶能夠采用最先進的算法來采樣超參數并修剪無希望的試驗。
機器學習
catboost
catboost 是一個「高性能梯度提升庫」,為機器學習任務提供最先進的解決方案。用于分類、回歸和其他機器學習任務。支持在 CPU 和 GPU 上的計算。
自動化機器學習
PyCaret
PyCaret 是一個開源的、低代碼的 Python 機器學習庫,可自動化機器學習工作流程。
AutoGluon
AutoGluon 可自動執行機器學習任務,使你能夠在應用程序中輕松實現強大的預測性能。
LazyPredict
LazyPredict 是一個強大的機器學習 Python 庫,它提供了一種易于使用且方便的方法來「同時比較各種機器學習模型」。
Hyperopt-sklearn
「Hyperopt-sklearn」 是一個流行的 Python 庫,旨在簡化 scikit-learn 模型的超參數優化過程。
FLAML
FLAML 是一個輕量級的 Python 庫,用于高效自動化機器學習和 AI 操作。它基于大型語言模型、機器學習模型等自動化工作流程并優化其性能。
Scikit-optimize
Scikit-optimize 是一個功能強大且易于使用的 Python 庫,「用于優化機器學習模型的超參數和其他優化問題」。
Yellowbrick
Yellowbrick 是一個 Python 庫,它提供了一個高級接口,用于創建可視化和診斷工具來分析機器學習算法。
mljar-supervised
mljar-supervised 是一個「可處理表格數據的自動化機器學習 Python 庫」。
explainerdashboard
explainerdashboard 提供有關模型性能、特征重要性、特征對個體預測的貢獻、“假設”分析、部分依賴圖、SHAP(交互)值、個體決策樹可視化等的交互式圖。
TPOT
TPOT 是一個 Python 「自動化機器學習工具」,可使用「遺傳編程」優化機器學習管道。
AutoKeras
AutoKeras 是基于 Keras 的 AutoML 系統,它的目標是讓每個人都能使用機器學習。
BentoML
BentoML 是一個用于構建「可靠、可擴展且經濟高效的 AI 應用程序的」框架。
它配備了模型服務、應用程序打包和生產部署所需的一切。「它旨在簡化流程,使其更加易于管理和高效。」
feature-engine
feature-engine 是一個開源的 Python 庫,具有多個轉換器,「用于設計和選擇機器學習模型的特征」。
EvalML
「EvalML 庫是一種使用管道構建機器學習模型的」自動化工具。
pandas-ta
pandas-ta 是一個易于使用的 python 庫,讓你可以從「時間序列中提取技術分析指標」。
時間序列處理
neuralprophet
NeuralProphet 是一個「易于學習的可解釋時間序列預測框架」。NeuralProphet 基于 PyTorch 構建,「結合了神經網絡和傳統時間序列算法」,受到 Facebook Prophet 和 AR.NET 的啟發。它將神經網絡的靈活性與傳統預測方法的直觀建模相結合。
mlforecast
mlforecast 是一個專門為大規模時間序列預測而設計的最先進的機器學習庫。
prophet
Prophet 是一個由 Facebook 開源的代碼庫,它特別適用于「具有強季節性的數據」,例如日活躍用戶數、年度銷售額等。Prophet 的目標是使時間序列預測過程盡可能簡單,即便是非專業人士也能輕松使用。
ChatGPT 相關
Pandas AI
一個將生成人工智能功能集成到 Pandas 中的 Python 庫,可以使用對話式的方式來操作 DataFrame。
Scikit-LLM
Scikit-LLM 是文本分析領域的顛覆者。它將強大的語言模型( 如 ChatGPT )與 scikit-learn 結合在一起。
Code Interpreter
ChatGPT 代碼解釋器的開源實現。它允許你執行數據集分析并可視化數據。
DemoGPT
只需一個提示,你就可以通過 LangChain 的變革能力創建交互式的 Streamlit 應用程序。
Chapyter
Chapyter 是 JupyterLab Notebook 的擴展,可將 ChatGPT 無縫連接到你的編碼環境。
YOLOPandas
YOLOPandas 是一個開源庫,允許你使用自然語言指定命令并直接在 Pandas 對象上執行它們。
open-interpreter
使用 Open Interpreter,你可以直接在本地計算機上運行代碼解釋器。
ChatDev
使用 ChatDev , 你可以通過「自然語言來創建定制化的軟件」。
Embedchain
Embedchain 是一個開源的 python 庫,可以在任何數據集上輕松創建 LLM(大語言模型) 支持的機器人的框架。
lida
LIDA 是一個使用大型語言模型「「自動生成可視化和信息圖表」」的庫,它與語法無關(可與任何編程語言和可視化庫配合使用,例如 matplotlib、seaborn、altair、d3 等),并可與多個大型語言模型提供商(OpenAI、Azure OpenAI、PaLM、Cohere、Huggingface)配合使用。
可視化相關
Panel
Panel 是一個開源的 Python 庫,可讓你完全使用Python輕松構建強大的工具、儀表板和復雜的應用程序。
plotnine
plotnine 是基于 ggplot2 的 Python 圖形語法實現。該語法允許你通過將數據變量顯式映射到構成繪圖的視覺對象來組成繪圖。https://mp.weixin.qq.com/s?__biz=MzU5NjE0NjI1MQ==&mid=2247488578&idx=1&sn=14a4e9691a2527e094ef71e77e9ac155&chksm=fe667566c911fc70063e1db94fb35c54aff543a4d8fcabfad8d16b8fc51a62154d9aaad208be&token=888886507&lang=zh_CN&scene=21#wechat_redirect
Altair
Altair 是一個 Python 統計可視化庫。與 Matplotlib 和 Seaborn 相比,Altair 更注重統計特征。Altair 憑借其強大而簡潔的可視化語法,可幫助你快速構建各種可視化效果。
bokeh
「Bokeh 是 Python 中一個適用于現代 Web 瀏覽器的交互式可視化庫」,為數據科學家分析數據提供交互式和復雜的功能。
bqplot
它是一個適用于 Jupyter Notebook 的交互式繪圖庫,「允許用戶只需幾行代碼即可創建復雜的可視化效果」。
Kangas
Kangas 是越來越流行的「圖像數據處理和分析工具之一」。與 Pandas 徹底改變數據分析師處理表格數據的方式類似,Kangas 也在計算機視覺任務中做同樣的事情。
Plotly
plotly.py 是一個「交互式、開源、基于瀏覽器」的 Python 圖形庫。
d3blocks
d3blocks 是一個包含各種圖表的庫,其可視化部分基于 (d3) JAVAscript 構建,只需幾行 Python 代碼即可創建最具視覺吸引力和實用性的圖表。
folium
folium 是一個功能強大的 Python 庫,可以輕松可視化地理空間數據。
seaborn
seaborn 是一個數據可視化庫,可簡化創建復雜且美觀的可視化的過程。它帶有內置主題和調色板,可增強視覺體驗。
VisPy
VisPy 是一個高性能交互式 2D/3D 數據可視化庫。VisPy 通過 OpenGL 庫利用現代圖形處理單元 (GPU) 的計算能力來顯示非常大的數據集。
GUI 相關
nicegui
NiceGUI 是一個基于 Python 的 Web UI 框架,旨在簡化 Python 前端應用程序的開發,特別是在機器學習和數據科學領域。
solara
Solara 是最近推出的一個框架,用于用純 Python 構建 Web 應用程序。
DearPyGUI
DearPyGUI 是一個「簡單易用的 Python GUI 庫」。它采用了一個獨特的方法來創建圖形用戶界面,即通過一系列命令式的函數調用而不是傳統的對象指向方式。
shiny
shiny 是一個流行的 python 庫,使用 shiny 可以快速構建美觀的 Web 應用程序。
streamlit
Streamlit 是一個開源的 python 庫,「可讓你在幾分鐘內將數據腳本轉變為可共享的 Web 應用程序。」
數據分析在 GPU 上運行
Xorbits
Xorbits 可以利用多核或 GPU 來加速單臺機器上的計算,或擴展到數千臺機器以支持處理 TB 級數據以及訓練或服務大型模型。
cupy
CuPy 是一個與 NumPy 和 SciPy 數組兼容的 Python 庫,「專為 GPU 加速計算而設計」。
cudf
cuDF 是一個由 NVIDIA 開發的 Python 庫,它是 RAPIDS 數據科學框架的一部分。RAPIDS 旨在利用 NVIDIA 的 CUDA 技術,「通過 GPU 加速數據科學和分析應用程序。」
知識圖譜相關
networkx
NetworkX 用于「創建、操作和研究復雜網絡的結構、動態和功能」。
pyvis
pyvis 是一個用于「創建和可視化交互式網絡圖」的 Python 庫。
數學相關
sympy
在 Python 中,有一些用于代數的第三方模塊。我最喜歡的之一是 “SymPy”,它封裝了大量方法來幫助「數據工程師快速解決常見的數學問題。」
scipy
scipy 是一個開源的 Python 庫,「用于解決科學和數學問題」。它構建于 NumPy 之上,允許用戶使用各種高級命令來操作和可視化數據。
latexify
latexify 是一個開源的 Python 庫,旨在「將 Python 代碼轉換為 LaTeX 格式的方程」。
python 效率提升
Numba
Numba 可用于加速 Python 函數,而無需編寫任何 C 或 C++ 代碼。
其它
Segno
Segno 是一個用于創建二維碼的 python 庫。
icecream
IceCream 是一個 Python 庫,「可以使用最少的代碼輕松進行代碼調試」。
loguru
Loguru 是一個旨在為 Python 帶來愉快的日志記錄的庫,它可以完全增強你的日志記錄體驗,并且非常易于使用。
Rich
Rich 是一個 python 庫,「用于在終端中提供富文本和漂亮的格式設置。」