作者 | SebastianScholl
譯者 | 劉靜,責(zé)編 | 郭芮
出品 | CSDN(ID:CSDNnews)
以下為譯文:
你肯定已經(jīng)了解流行的開(kāi)源工具,如R、Python、Jupyter筆記本等。但是,除了這些流行的工具之外還有一個(gè)世界——一個(gè)隱藏在機(jī)器學(xué)習(xí)工具下的地方。這些并不像他們的同行那樣出色,但可以成為許多機(jī)器學(xué)習(xí)任務(wù)的救星。

在本文中,我們將介紹21種用于機(jī)器學(xué)習(xí)的開(kāi)源工具。我強(qiáng)烈建議你花一些時(shí)間瀏覽我提到的每個(gè)類(lèi)別。除了我們通常在課程和視頻中學(xué)到的東西之外,還有很多需要學(xué)習(xí)的地方。
1.向非程序員的開(kāi)源機(jī)器學(xué)習(xí)工具
對(duì)于來(lái)自非編程和非技術(shù)背景的人來(lái)說(shuō),機(jī)器學(xué)習(xí)看起來(lái)很復(fù)雜。這是一個(gè)廣闊的領(lǐng)域,我可以想象第一步可能會(huì)多么令人生畏。沒(méi)有編程經(jīng)驗(yàn)的人能否在機(jī)器學(xué)習(xí)中取得成功?
事實(shí)證明,你可以!這里有一些工具可以幫助你跨越鴻溝并進(jìn)入著名的機(jī)器學(xué)習(xí)世界:
-
優(yōu)步路德維希:路德維希允許我們訓(xùn)練和測(cè)試深度學(xué)習(xí)模型,而無(wú)需編寫(xiě)代碼。您需要提供的只是一個(gè)包含數(shù)據(jù)的CSV文件,一個(gè)用作輸入的列的列表,以及一個(gè)用作輸出的列的列表——Ludwig將完成剩下的工作。
-
KNIME:KNIME允許您使用拖放界面創(chuàng)建整個(gè)數(shù)據(jù)科學(xué)工作流程。這種可視化實(shí)現(xiàn)整個(gè)模型工作流的方法非常直觀,在處理復(fù)雜的問(wèn)題陳述時(shí)非常有用。

-
Orange:您不必知道如何編碼以便能夠使用Orange挖掘數(shù)據(jù),處理數(shù)據(jù)并獲得洞察力。
有許多有趣的免費(fèi)和開(kāi)源軟件可以提供很好的機(jī)器學(xué)習(xí)功能,而無(wú)需編寫(xiě)(大量)代碼。
另一方面,你可以考慮一些開(kāi)箱即用的付費(fèi)服務(wù),例如google AutoML、Azure Studio、Deep Cognition和Data Robot。
2.用于模型部署的開(kāi)源機(jī)器學(xué)習(xí)工具
部署機(jī)器學(xué)習(xí)模型是最容易被忽視但重要的任務(wù)之一,它幾乎肯定會(huì)在采訪中出現(xiàn),所以你可能也很熟悉這個(gè)話題。
以下是一些框架,可以更輕松地將你的項(xiàng)目部署到現(xiàn)實(shí)世界的設(shè)備中。
-
MLFlow:MLFlow被設(shè)計(jì)用于使用任何機(jī)器學(xué)習(xí)庫(kù)或算法,并管理整個(gè)生命周期,包括實(shí)驗(yàn)、重現(xiàn)性和機(jī)器學(xué)習(xí)模型的部署。

-
Apple的CoreML:CoreML是一個(gè)流行的框架,它可用于將機(jī)器學(xué)習(xí)模型集成到你的IOS / Apple Watch / Apple TV / macOS應(yīng)用程序中。關(guān)于CoreML的最好的部分是你不需要有關(guān)神經(jīng)網(wǎng)絡(luò)或機(jī)器學(xué)習(xí)的廣泛知識(shí),雙贏!

-
TensorFlow Lite:TensorFlow Lite是一組工具,可幫助開(kāi)發(fā)人員在移動(dòng)設(shè)備(Android和iOS),嵌入式和物聯(lián)網(wǎng)設(shè)備上運(yùn)行TensorFlow模型。
-
TensorFlow.JS - TensorFlow.JS可以成為你在網(wǎng)絡(luò)上部署機(jī)器學(xué)習(xí)模型的首選。它是一個(gè)開(kāi)源庫(kù),可讓你在瀏覽器中構(gòu)建和訓(xùn)練機(jī)器學(xué)習(xí)模型。

適用于大數(shù)據(jù)的開(kāi)源機(jī)器學(xué)習(xí)工具
大數(shù)據(jù)是一個(gè)研究如何分析、系統(tǒng)地從數(shù)據(jù)集中提取信息,或者處理傳統(tǒng)數(shù)據(jù)處理應(yīng)用軟件無(wú)法處理的太大或太復(fù)雜的數(shù)據(jù)集的領(lǐng)域。想象一下,每天處理數(shù)百萬(wàn)條推文進(jìn)行情感分析。這是一項(xiàng)艱巨的任務(wù),不是嗎?
別擔(dān)心!這里有一些工具可以幫助你處理大數(shù)據(jù)。
-
Hadoop:使用大數(shù)據(jù)最重要和最相關(guān)的工具之一是Hadoop項(xiàng)目。Hadoop是一個(gè)框架,它允許使用簡(jiǎn)單的編程模型跨計(jì)算機(jī)集群分布式處理大型數(shù)據(jù)集。

-
Spark:Apache Spark被認(rèn)為是Hadoop用于大數(shù)據(jù)應(yīng)用程序的自然繼承者。這個(gè)開(kāi)源大數(shù)據(jù)工具的關(guān)鍵點(diǎn)在于它填補(bǔ)了Apache Hadoop在數(shù)據(jù)處理方面的空白。有趣的是,Spark可以處理批量數(shù)據(jù)和實(shí)時(shí)數(shù)據(jù)。
-
Neo4j:對(duì)于所有與數(shù)據(jù)相關(guān)的大問(wèn)題,Hadoop可能不是明智的選擇。例如,當(dāng)你需要處理大量網(wǎng)絡(luò)數(shù)據(jù)或圖形相關(guān)問(wèn)題(如社交網(wǎng)絡(luò)或人口統(tǒng)計(jì)模式)時(shí),圖形數(shù)據(jù)庫(kù)可能是最佳選擇。

4.用于計(jì)算機(jī)視覺(jué),NLP和音頻的開(kāi)源機(jī)器學(xué)習(xí)工具
“如果我們想要機(jī)器思考,我們需要教他們看。”——Fei-Fei Li博士的計(jì)算機(jī)視覺(jué)。
-
SimpleCV:如果你從事任何計(jì)算機(jī)視覺(jué)項(xiàng)目,必須使用OpenCV。但你有遇到過(guò)SimpleCV嗎?SimpleCV可以訪問(wèn)幾個(gè)高性能的計(jì)算機(jī)視覺(jué)庫(kù),如OpenCV——無(wú)需首先了解位深度、文件格式、色彩空間、緩沖區(qū)管理、特征值或矩陣與位圖存儲(chǔ),這使計(jì)算機(jī)視覺(jué)變得簡(jiǎn)單。

-
Tesseract OCR:你是否使用過(guò)創(chuàng)意應(yīng)用程序,通過(guò)使用智能手機(jī)的相機(jī)掃描文檔或購(gòu)物賬單,或者僅僅通過(guò)給支票拍照就可以把錢(qián)存入銀行賬戶?所有這些應(yīng)用程序都稱(chēng)之為OCR或光學(xué)字符識(shí)別軟件。Tesseract就是這樣一種OCR引擎,能夠識(shí)別100多種語(yǔ)言,也可以訓(xùn)練識(shí)別其他語(yǔ)言。
-
Detectron:Detectron是Facebook AI Research的軟件系統(tǒng),它實(shí)現(xiàn)了最先進(jìn)的物體檢測(cè)算法,包括Mask R-CNN。它是用Python編寫(xiě)的,由Caffe2深度學(xué)習(xí)框架提供支持。

-
StanfordNLP:StanfordNLP是一個(gè)Python自然語(yǔ)言分析包,關(guān)于這個(gè)庫(kù)的最好的部分就是它支持超過(guò)70種人類(lèi)語(yǔ)言!

-
BERT即服務(wù):你們所有的NLP愛(ài)好者都會(huì)聽(tīng)說(shuō)過(guò)BERT這一來(lái)自谷歌的突破性NLP架構(gòu),但你可能還沒(méi)有遇到過(guò)這個(gè)非常有用的項(xiàng)目。Bert-as-a-service使用BERT作為句子編碼器,并通過(guò)ZeroMQ將其作為服務(wù)托管,允許你僅用兩行代碼將句子映射到固定長(zhǎng)度的表示形式。
-
Google Magenta:此庫(kù)提供了用于處理源數(shù)據(jù)(主要是音樂(lè)和圖像)的實(shí)用程序,使用此數(shù)據(jù)來(lái)訓(xùn)練機(jī)器學(xué)習(xí)模型,最后從這些模型生成新內(nèi)容。
-
LibROSA:LibROSA是一個(gè)用于音樂(lè)和音頻分析的Python包。它提供了創(chuàng)建音樂(lè)信息檢索系統(tǒng)所需的構(gòu)建塊。當(dāng)我們使用深度學(xué)習(xí)等語(yǔ)音到文本的應(yīng)用程序時(shí),它在音頻信號(hào)預(yù)處理中被大量使用。
5.用于強(qiáng)化學(xué)習(xí)的開(kāi)源工具
當(dāng)談到機(jī)器學(xué)習(xí)時(shí),RL是最近的熱門(mén)話題。強(qiáng)化學(xué)習(xí)(RL)的目標(biāo)是培養(yǎng)能夠與環(huán)境互動(dòng)并解決復(fù)雜任務(wù)的智能代理,實(shí)現(xiàn)機(jī)器人、自動(dòng)駕駛汽車(chē)等領(lǐng)域的實(shí)際應(yīng)用。以下是一些對(duì)RL最有用的培訓(xùn)環(huán)境:
-
谷歌研究足球:谷歌研究足球環(huán)境是一個(gè)新穎的RL環(huán)境,代理商的目標(biāo)是掌握世界上最受歡迎的運(yùn)動(dòng)——足球。這種環(huán)境為你提供了大量的控制來(lái)訓(xùn)練RL代理。
-
OpenAI Gym:Gym是一個(gè)用于開(kāi)發(fā)和比較強(qiáng)化學(xué)習(xí)算法的工具包。它支持教學(xué)代理從步行到玩乒乓球或彈球戲等游戲。在下面的gif圖片中,你可以看到一個(gè)正在學(xué)習(xí)走路的機(jī)器人。

-
Unity ML代理:Unity機(jī)器學(xué)習(xí)代理工具包(ML-Agents)是一個(gè)開(kāi)放源碼Unity插件,可以將游戲和模擬作為培訓(xùn)智能代理的環(huán)境。通過(guò)一個(gè)簡(jiǎn)單易用的Python API,可以使用強(qiáng)化學(xué)習(xí)、模仿學(xué)習(xí)、神經(jīng)進(jìn)化或其他機(jī)器學(xué)習(xí)方法來(lái)訓(xùn)練agent。

-
Malmo項(xiàng)目:Malmo平臺(tái)是一個(gè)基于Minecraft構(gòu)建的復(fù)雜AI實(shí)驗(yàn)平臺(tái),旨在支持人工智能的基礎(chǔ)研究,由Microsoft開(kāi)發(fā)。
6.最后指出
正如上面的一組工具可以明顯看出,當(dāng)我們考慮數(shù)據(jù)科學(xué)和人工智能相關(guān)的項(xiàng)目時(shí),開(kāi)源是一條正確的道路。我可能只是觸及了冰山一角,但是有許多工具可用于各種任務(wù),使你作為數(shù)據(jù)科學(xué)家的生活更輕松,你只需要知道在哪里查找即可。
你認(rèn)為哪些工具應(yīng)該列在這個(gè)清單上?在下面寫(xiě)下你的最?lèi)?ài),以便社區(qū)了解!
原文:https://medium.com/analytics-vidhya/21-must-know-open-source-tools-for-machine-learning-you-probably-arent-using-but-should-f605b94d9b06
本文為 CSDN 翻譯,轉(zhuǎn)載請(qǐng)注明來(lái)源出處。
【END】