整理 | Jane
出品 | AI科技大本營(ID:rgznai100)
一個好工具,能提高開發效率,優化項目研發過程,無論是企業還是開發者個人都在尋求適合自己的開發工具。但是,選擇正確的工具并不容易,有時這甚至是一項艱巨的任務。
2018 年底,我們整理了去年備受關注的 Python開源工具與項目 Top100、Github 開源項目總結情況以及最受歡迎開源項目 Top200。今天,AI科技大本營(ID:rgznai100)通過搜集這一年(2018.10--2019.10)國內外新發布的 AI 工具,從中挑選出了 45 個備受歡迎的開源工具,希望你不再錯過。
1、Jax【Stars:5.5k】
Jax集合Autograd和XLA的高性能機器學習研究工具,由Google開源貢獻。很多人都說Jax是TF的替代品,更簡潔易用。
開源地址:
https://github.com/google/jax
2、AdaNet【Stars:2.9k】
AdaNet 是一款基于TensorFlow 的輕量型框架。可以使用最少的專家干預來自動學習高質量模型,AdaNet提供的通用框架,不僅可以用于學習神經網絡架構,還可以學習集成,從而獲得更好的模型。
開源地址:
https://github.com/tensorflow/adanet
3、TensorFlow Extended (TFX)【Stars:720】
TFX 是面向生產環境的機器學習工具。借助TFX,可以為滿足生產應用部署與最佳實踐的眾多需求,創建一條生產級機器學習流水線。TFX從提取數據開始,然后通過數據驗證、特征工程、訓練、評估提供服務。
開源地址:
https://github.com/tensorflow/tfx
4、TFF【Stars:758】
TensorFlow Federated (TFF)框架可用于去中心化(decentralized)數據的機器學習及運算實驗。它實現了聯邦學習(Federated Learning,FL)方法,將為開發者提供分布式機器學習,以便在沒有數據離開設備的情況下,在多種設備上訓練共享的 ML 模型。其中,它通過加密方式提供多一層的隱私保護,并且設備上模型訓練的權重與用于連續學習的中心模型共享。
開源地址:
https://github.com/tensorflow/federated
5、MediaPipe 【Stars:3.5K】
MediaPipe 是一款由 Google Research 開發并開源的多媒體機器學習模型應用框架。谷歌的一系列重要產品如 YouTube、Google Lens、ARCore、Google Home 以及 Nest 都已深度整合了 MediaPipe。
開源地址:
https://github.com/google/mediapipe
6、TensorNetwork【Stars:879】
谷歌 X 實驗室與加拿大 Perimeter 理論物理研究所(Perimeter Institute for Theoretical Physics )的研究人員合作開發了張量網絡 TensorNetwork,以 TensorFlow 作為后端,針對 GPU 處理進行了優化。與在 CPU 上計算工作相比,可以實現高達 100 倍的加速。這是一個全新的開源庫,旨在提高張量計算效率。
開源地址:
https://github.com/google/tensornetwork
7、GPipe
GPipe 是一個分布式機器學習庫,使用同步隨機梯度下降和流水線并行技術進行訓練,適用于任何由多個序列層組成的 DNN。重要的是,GPipe 讓研究人員無需調整超參數,即可輕松部署更多加速器,從而訓練更大的模型并擴展性能。
開源地址:
https://github.com/tensorflow/lingvo/blob/master/lingvo/core/gpipe.py
8、 MLIR【Stars:1.5k】
MLIR 通過定義一個通用的中間表示,將在TensorFlow和類似的ML框架中執行高性能機器學習模型所需的基礎設施進行統一,包括高性能計算技術應用或強化學習這類搜索算法的集成。MLIR旨在降低開發新硬件的成本,并提高現有TensorFlow用戶的可用性。
開源地址:
https://github.com/tensorflow/mlir
DeepMind
1、OpenSpiel【Stars:1.7k】
OpenSpiel 是一系列環境和算法,用于研究一般強化學習和游戲中的搜索/規劃。OpenSpiel 的目的是通過與一般游戲類似的方式促進跨多種不同游戲類型的一般多智能體強化學習,但重點是強調學習而不是競爭形式。當前版本的 OpenSpiel 包含 20 多種游戲的不同類型實現(完美信息、同步移動、不完美信息、網格世界游戲、博弈游戲和某些普通形式/矩陣游戲)。
核心的 OpenSpiel 實現基于 C ++ 和 Python 綁定,這有助于在不同的深度學習框架中采用。該框架包含一系列游戲,允許 DRL agent 學會合作和競爭行為。同時,OpenSpiel 還包括搜索、優化和單一 agent 等多種 DRL 算法組合。
開源地址:
https://github.com/deepmind/open_spiel
2、SpriteWorld【Stars:259】
Spriteworld 是一個基于 python 的強化學習環境,由一個可以自由移動的形狀簡單的二維競技場組成。更具體地說,SpriteWorld 是一個二維方形競技場,周圍可隨機放置數量可變的彩色精靈,但不會發生碰撞。
開源地址:
https://github.com/deepmind/spriteworld
3、bsuite【 Stars:834】
強化學習行為套件(bsuite,The Behaviour Suite for Reinforcement Learning )的目標是成為強化學習領域的 MNIST。具體來說,bsuite 是一系列用來突出 agent 可擴展性關鍵點的實驗。這些實驗易于測試和迭代,對基本問題,例如“探索”或“記憶”進行試驗。
開源地址:
https://github.com/deepmind/bsuite
全部開源:
https://ai.facebook.com/results/open-source/?content_types%5B0%5D=blog
1、LASER 【Stars:2k】
增強版的 LASER是首個能夠成功探索大型多語種句子表征的工具包,共包含 90 多種語言,由 28 種不同的字母表編寫。這項龐大的工作也引發了整個 NLP 社區的廣泛關注。該工具包將所有語言聯合嵌入到單個共享空間,而不是為每個語言單獨建立模型。
開源地址:
https://github.com/facebookresearch/LASER
2、Detectron2【Stars:4.9k】
10月11日,Facebook發布了Detectron2,這是基于PyTorch框架,以maskrcnn-benchmark為起點對Detectron的徹底重寫。通過全新的模塊化設計,Detectron2靈活且可擴展,能夠在單個或多個GPU服務器上提供更加快速的訓練。
Detectron2已經包含了眾多保質量實現的目標檢測算法,包括:DensePose, panoptic feature pyramid networks和Mask RCNN的各種變種。,其模塊化特性也使其能夠有效幫助研究人員探索最先進的算法設計。
開源地址:
https://github.com/facebookresearch/detectron2
3、Habitat-Sim【Stars:549】
Habitat-Sim 是一個仿真的、靈活、高性能的3D模擬器,可配置代理、多個傳感器和通用3D數據集處理,讓我們可以在其中訓練和評估 AI智能體。
開源地址:
https://github.com/facebookresearch/habitat-sim
4、PyText【Stars:5.5k】
PyText 是一個基于 PyTorch 構建的 NLP 建模(基于深度學習)框架,核心功能可以支持文本分類、序列標注等神經網絡模型。PyText 可以簡化工作流程,加速試驗,同時還能促進大規模部署。
開源地址:
https://github.com/facebookresearch/pytext
5、Nevergrad【Stars:2.1k】
Nevergrad 是Facebook 內部也在使用的一個無梯度優化 Python工具箱。除了內部項目中使用,還可以廣泛運用在機器學習的多種問題中,比如多模態問題、可分離或旋轉問題、部分可分離問題、離散、連續或混合等問題。
開源地址:
https://github.com/facebookresearch/nevergrad
6、QNNPACK【Stars:1.2k】
QNNPACK(量化神經網絡包)是一個針對低精度高性能神經網絡推理的移動端優化庫。據官方公布,QNNPACK可以成倍提升神經網絡的推理效率,已經成為 PyTorch 1.0 的一部分, 也已經被集成到 Facebook 的應用程序中,部署到數十億臺設備上。
開源地址:
https://github.com/pytorch/QNNPACK
7、PyTorch Biggraph(PBG)【Stars:1.9k】
PBG 是一個用于學習大規模圖嵌入的分布式系統,特別適用于處理具有多達數十億實體和數萬億條邊的大型網絡交互圖。它在 2019 年的 SysML 會議上發表的大規模圖嵌入框架論文中提出。
PBG 比常用的嵌入軟件更快,并在標準基準上生成與最先進模型質量相當的嵌入。有了這個新工具,任何人都可以用一臺機器或多臺機器并行地讀取一個大圖并快速生成高質量的嵌入。
開源地址:
https://github.com/facebookresearch/PyTorch-BigGraph
8、 CrypTen【Stars:274】
CrypTen是一個基于PyTorch的隱私保護機器學習框架 。它的目標是讓機器學習的實踐者能夠使用安全地進行計算。
開源地址:
https://github.com/facebookresearch/crypten
9、 Captum 【Stars:581】
Captum是一個基于 Pytorch 的一個模型解釋庫,其功能強大、靈活且易于使用。該庫為所有最新的算法提供了解釋性,幫助研究人員及開發者更好地理解對模型預測結果產生作用的具體特征、神經元及神經網絡層。
開源地址:
https://www.captum.ai/
10、DLRM【Stars:1.5k】
Facebook 開源的深度學習推薦模型DLRM 是基于 PyTorch 和 Caffe2 平臺實現。這也是一個在生產環境中提供個性化結果的模型,通過結合協同過濾算法和預測分析方法,使模型獲得進一步效果的提升。
開源地址:
https://github.com/facebookresearch/dlrm
11、Pythia【Stars:2.9k】
Pythia 是一個模塊化的深度學習框架。它可以支持視覺和語言領域的多任務處理,內置各種數據集,同時還支持數據并行和分布式數據并行的分布式訓練,滿足用戶對損失、度量、調度和優化器的定制需求。
開源地址:
https://github.com/facebookresearch/pythia
亞馬遜
1、DGL【Stars:3.2k】
與傳統基于張量(Tensor)的神經網絡相比,圖神經網絡將圖 (Graph) 作為輸入,從圖結構中學習潛在知識,該方法在近些年已被證明在許多場景可以取得很好的效果。然而,使用傳統的深度學習框架(比如 TensorFlow、Pytorch、MXNet)并不能方便地進行圖神經網絡的開發和訓練,而 DGL作為專門面向圖神經網絡的框架,可以很好地彌補這一缺陷。該框架在開源后于國內外引起了強烈的反響。
開源地址:
http://dgl.ai
https://github.com/dmlc/dgl
2、Neo-AI
Neo-AI 是 AWS 開源一個AI模型優化框架,包含了對 TVM、Treelite、DLR 所做多一些改進與創新。Neo-AI 運行時占用的空間并不大,轉換模型的速度可以加快2 倍,但精度并不會受到損失,在目標硬件上運行時并不依賴于框架。
開源地址:
https://github.com/neo-ai
微軟
1、NNI (Neural Network Intelligence) 【Stars:3.5k】
NNI 是自動機器學習(AutoML)的工具包。它通過多種調優的算法來搜索最好的神經網絡結構和(或)超參,并支持單機、本地多機、云等不同的運行環境。
開源地址:
https://github.com/microsoft/nni/blob/master/README_zh_CN.md
2、OpenPAI【Stars:1.4k】
微軟開源的 AI 計算平臺,幫助加速機器學習的模型訓練過程。提供了完整的 AI 模型訓練和資源管理能力,能輕松擴展,并支持各種規模的私有部署、云和混合環境。
開源地址:
https://github.com/microsoft/pai/blob/master/README.md
3、lnterpretML【Stars:2.1k】
微軟開源的可解釋機器學習工具包 lnterpretML。它不僅能執行很多可理解的模型,也希望幫助開發人員能嘗試各種方法解釋模型和系統。
開源地址:
https://github.com/interpretml/interpret
4、PipeDream【Stars:34】
幾個月以前,微軟研究院宣布了Fiddle項目的創立,其包括了一系列的旨在簡化分布式深度學習的研究項目。PipeDreams是Fiddle發布的第一個側重于深度學習模型并行訓練的項目之一。PipeDream采用一種有別于其它方法的方式,利用稱為“流水線并行”的技術來擴展深度學習模型的訓練。
開源地址:
https://github.com/msr-fiddle/pipedream
Uber
1、Ludwig【Stars:5.9k】
一個基于TensorFlow的工具箱,不用寫代碼就能夠訓練和測試深度學習模型??梢詭椭_發者更好地理解深度學習方面的能力,并能夠推進模型快速迭代。對AI專家來說,Ludwig可以簡化原型設計和數據處理過程,從而讓他們能夠專注于開發深度學習模型架構。
開源地址:
https://github.com/uber/ludwig
OpenCV
1、OpenVINO【Stars:873】
OpenVINO 是一個模型訓練框架,提供了大量的預訓練模型,同時提供模型重新訓練與部署的拓展通道。
開源地址:
https://github.com/opencv/dldt
SciSharp STACK
一個基于 .NET 的機器學習生態,提供一個和 Python 生態體驗一致的工具庫,讓模型遷移更容易、學習曲線最低。SciSharp 從最基本的張量計算庫 NumSharp 開始構建,到 TensorFlow Binding,再到吸納其它深度學習庫 SiaNet 做 ArrayFire.NET,最后到開發ICSharpCore以支持Jupyter Notebook調試。
1、TensorFlow.Net【Stars:807】
TensorFlow.NET保持和 Python 代碼幾乎一樣的語法和接口,讓目前流行的模型能夠快速移植到 TF.NET。開發者可以很容易地在 .NET 上運行用 Tensorflow 開發的模型,使用 Jupyter Notebook 一樣可以在線開發和調試 C# 語言程序和 TensorFlow.NET,并可以實時呈現繪圖的效果。
開源地址:
https://github.com/SciSharp/TensorFlow.NET
2、NumSharp【Stars:75】
NumSharp 是 Python 流行庫 numpy 的純 C# 端口,目的是提供快速、零拷貝和 n 維計算。目前,它是唯一一個為 .NET 編寫的穩定庫,能夠在 n 維之間執行數學運算,如矩陣乘法、換位、加法等。
開源地址:
https://github.com/SciSharp/Numpy.NET
阿里
1、Euler【Stars:1.8k】
Euler是大規模分布式的圖學習框架,配合TensorFlow或者阿里開源的XDL等深度學習工具。Euler 采用分層靈活可擴展設計、大規模高性能異構圖學習、靈活多樣的圖算法支持、通用 GNN 訓練加速的設計理念,支持圖分割和高效穩定的分布式訓練,可以輕松支撐數十億點、數百億邊的計算規模。
開源地址:
https://github.com/alibaba/euler/wiki
2、XDL【Stars:3k】
X-DeepLearning(簡稱XDL)是面向高維稀疏數據場景(如廣告/推薦/搜索等)深度優化的一整套解決方案。新框架 XDL 針對阿里媽媽業務數據高維稀疏的場景特點進行了優化。
開源地址:
https://github.com/alibaba/x-deeplearning
3、MNN【Stars:3k】
MNN是一個輕量級的深度神經網絡推理引擎,在端側加載深度神經網絡模型進行推理預測。目前,MNN已經在阿里巴巴的手機淘寶、手機天貓、優酷等20多個App中使用,覆蓋直播、短視頻、搜索推薦、商品圖像搜索、互動營銷、權益發放、安全風控等場景。此外,IoT等場景下也有若干應用。
開源地址:
https://github.com/alibaba/MNN/blob/master/README_CN.md
騰訊
1、Angel【Stars:5.4k】
騰訊Angel 3.0嘗試打造一個全棧的機器學習平臺,功能特性涵蓋了機器學習的各個階段:特征工程、模型訓練、超參數調節和模型服務。
開源地址:
https://github.com/Angel-ML/angel
字節跳動
1、BytePS【Stars:1.9k】
BytePS 是今年字節跳動發布的一款高性能的通用分布式訓練框架。它支持TensorFlow、Keras、PyTorch 和 MXNet,可以在TCP或RDMA網絡上運行。BytePS在很大程度上優于現有的開源分布式培訓框架。
開源地址:
https://github.com/bytedance/byteps
商湯
1、MMLab MMDetection【Stars:7k】
香港中文大學-商湯聯合實驗室開源了基于 PyTorch 的檢測庫——mmdetection。這個開源庫提供了已公開發表的多種視覺檢測核心模塊。通過這些模塊的組合,可以迅速搭建出各種著名的檢測框架,比如 Faster RCNN,Mask RCNN,和 R-FCN 等各種新型框架,從而大大加快檢測技術研究的效率。
開源地址:
https://github.com/open-mmlab/mmdetection
2、PySOT【Stars:2.7k】
PySOT 目標跟蹤庫實現了目前 SOTA 的多個單目標跟蹤算法,包括SiamRPN和SiamMask。PySOT 是用 Python 編寫,基于 PyTorch 框架實現,同時該項目還包含一個評估跟蹤器的Python 接口。
開源地址:
https://github.com/STVIR/pysot
搜狗
1、SMRC【Stars:547】
SMRC(Sogou machine Reading Comprehension)目前業內最全的TensorFlow版本的閱讀理解工具集合,從相關數據集的下載到最后模型的訓練和測試,一應俱全。
開源地址:
https://github.com/sogou/SMRCToolkit
螞蟻金服
1、ElasticDL【Stars:355】
ElasticDL是一個分布式的智能學習系統,基于TensorFlow2.0構建,通過SQLFlow被調用的模型,會基于基礎架構來進行分布式執行。它的容錯和彈性調度機制,能讓集群的利用效率更高。
開源地址:
https://github.com/sql-machine-learning/elasticdl/
其他
1、FATE【Framework】
微眾銀行AI團隊開源的聯邦學習框架。聯盟學習開源項目FATE(Federated AI Technology Enabler),提供了一種基于數據隱私保護的安全計算框架,為機器學習、深度學習、遷移學習算法提供強有力的安全計算支持。安全底層支持同態加密、秘密共享、哈希散列等多種多方安全計算機制,算法層支持多方安全計算模式下的邏輯回歸、Boosting、聯邦遷移學習等。
該框架可以幫助學術研究人員快速開發算法原型;為工業界人員快速開發應用提供一種簡潔有效的解決方案,支持在多場景下的開拓和應用;借助其靈活的架構,用戶可以輕松地將計算工作部署到多種平臺(CPU、GPU)和設備(桌面設備、服務器集群、移動設備等)
開源地址:
https://www.fedai.org.cn/cn/
https://github.com/FederatedAI/FATE
2、DeepCTR【Stars:2.2k】
DeepCTR 一個易于使用、模塊化和可擴展的基于深度學習的 CTR 模型包,帶有許多核心組件層,可用于輕松構建自己定制的模型。
開源地址:
https://github.com/shenweichen/DeepCTR
3、ALiPy【Stars:356】
ALiPy是一個基于Python實現的主動學習工具包,內置20余種主動學習算法,并提供包括數據處理、結果可視化等工具。ALiPy根據主動學習框架的不同部件提供了若干獨立的工具類,這樣一方面可以方便地支持不同主動學習場景,另一方面可以使用戶自由地組織自己的項目,用戶可以不必繼承任何接口來實現自己的算法與替換項目中的部件。此外,ALiPy不僅支持多種不同的主動學習場景,如標注代價敏感,噪聲標注者,多標記查詢等。
開源地址:
https://github.com/NUAA-AL/ALiPy
4、Real-Time Voice Cloning【Stars:9.1k】
Real-Time Voice Cloning 是論文《Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis(SV2TTS)》的實現。SV2TTS 是一個三階段深度學習框架,可以在 5 秒的音頻中創建一個語音的數字表示,并使用它來調整一個經過訓練的文本到語音模型,以推廣到新的語音。
開源地址:
https://github.com/CorentinJ/Real-Time-Voice-Cloning
5、Weights and Biases 【Stars:1.3k】
一個在機器學習實驗過程中用于可視化和跟蹤的工具。它與框架無關,比TensorBoard更輕。每次運行一個裝有 wandb 的腳本時,都會保存超參數和輸出度量。在訓練過程中可視化模型,還能輕松對比模型的版本,還會自動跟蹤你的代碼、系統指標和配置參數的狀態。
開源地址:
https://github.com/wandb/client