《開源精選》是我們分享Github、Gitee等開源社區(qū)中優(yōu)質項目的欄目,包括技術、學習、實用與各種有趣的內容。本期推薦的是一個開源機器學習和數據可視化工具——orange。
Orange 是一個基于組件的數據挖掘和機器學習軟件套裝,它包含了完整的一系列的組件以進行數據預處理,并提供了數據帳目,過渡,建模,模式評估和勘探的功能。其由 C++ 和 Python/ target=_blank class=infotextkey>Python 開發(fā),它的圖形庫是由跨平臺的Qt框架開發(fā)。使用 Orange無需編程或深入的數學知識。
功能特性
交互式數據可視化:通過巧妙的數據可視化執(zhí)行簡單的數據分析。探索統(tǒng)計分布、箱線圖和散點圖,或者深入了解決策樹、層次聚類、熱圖、MDS 和線性投影。甚至多維數據也可以在 2D 中變得有意義。
可視化編程:交互式數據探索,通過清晰的可視化操作進行快速定性分析。圖形用戶界面使您可以專注于探索性數據分析而不是編碼,而巧妙地默認設置使數據分析工作流程的快速原型設計變得非常容易。
數據科學教育:Orange 是實踐培訓的完美工具。教師享受清晰的程序設計和數據模型的可視化探索。學生受益于該工具的靈活性和發(fā)明數據挖掘方法新組合的能力。Orange 教育力量來自可視化編程和交互式可視化的結合。
附加組件擴展功能:使用 Orange 中可用的各種插件從外部數據源中挖掘數據、執(zhí)行自然語言處理和文本挖掘、進行網絡分析、推斷頻繁項集和進行關聯規(guī)則挖掘。此外,生物信息學家和分子生物學家也可以使用 Orange 通過差異表達對基因進行排序并進行富集分析。
附加組件
- 數據
- 轉換
- 可視化
- 模型
- 評估
- 無監(jiān)督
- 光譜學
- 文本挖掘
- 生存分析
- 生物信息學
- 單細胞
- 圖像分析
- 網絡
- 地理
- 教育
- 時間序列
- 聯系
示例
在文件小部件中加載和編輯數據
繪制二維數據集
散點圖中的數據選擇在箱線圖中可視化
使用分類樹進行探索性分析
數據可以包含對圖像的引用
交互式梯度下降
最近推文的主題建模
具有深度網絡嵌入的圖像分析
安裝
安裝程序
https://download.biolab.si/download/files/Orange3-3.32.0-Miniconda-x86_64.exe
或者使用pip
pip install orange3
提示:通過安裝附加組件,可以將附加功能添加到 Orange。您可以在選項菜單中找到附加管理器。
開源協議:GPL3.0
開源地址:https://github.com/biolab/orange3