今天我們來(lái)介紹幾個(gè)完全免費(fèi)的數(shù)據(jù)集下載網(wǎng)站,相信大家一定能從中得到一些幫助!
不過(guò)因?yàn)槎际菄?guó)外的網(wǎng)站,那么某些網(wǎng)站使用起來(lái)當(dāng)然需要一些“手段”啦,正所謂,八仙過(guò)海各顯神通,怎么進(jìn)入這些網(wǎng)站,就看自己的本事了!
FiveThirtyEight
FiveThirtyEight 是一個(gè)非常流行的互動(dòng)新聞和體育網(wǎng)站,是由 Nate Silver 創(chuàng)辦的。網(wǎng)站上有許多非常有趣的數(shù)據(jù)分析文章,可以給我們提供很多學(xué)習(xí)思路。
FiveThirtyEight 文章中使用的數(shù)據(jù)集可以在Github上在線獲得
https://github.com/fivethirtyeight/data
以下是一些示例:
航空安全-包含來(lái)自各航空公司的事故信息。
美國(guó)天氣歷史-美國(guó)歷史天氣數(shù)據(jù)。
研究藥物-美國(guó)誰(shuí)在服用阿達(dá)拉的數(shù)據(jù)。
網(wǎng)站鏈接
http://fivethirtyeight.com/
BuzzFeed
BuzzFeed 最初是一家低質(zhì)量文章的供應(yīng)商,后來(lái)發(fā)展的很不錯(cuò),其網(wǎng)站上也有很多比較不錯(cuò)的數(shù)據(jù)分析文章。
BuzzFeed使文章中使用的數(shù)據(jù)集在Github上可用
https://github.com/BuzzFeedNews
以下是一些示例:
聯(lián)邦偵察機(jī)-包含用于國(guó)內(nèi)監(jiān)視的飛機(jī)的數(shù)據(jù)。
寨卡病毒-有關(guān)寨卡病毒爆發(fā)地理的數(shù)據(jù)。
槍支背景調(diào)查-數(shù)據(jù)背景調(diào)查的人試圖購(gòu)買(mǎi)槍支。
https://www.buzzfeed.com/
NASA
NASA 是一個(gè)由公共資助的政府組織,所以它的所有數(shù)據(jù)都是公開(kāi)的。任何人都可以在網(wǎng)站下載與地球科學(xué)有關(guān)的數(shù)據(jù)集和與空間有關(guān)的數(shù)據(jù)集。
相關(guān)數(shù)據(jù)鏈接
https://earthdata.nasa.gov/
AWS Public Data sets
Amazon 在其 Amazon Web 服務(wù)平臺(tái)上提供大型數(shù)據(jù)集,我們可以免費(fèi)下載數(shù)據(jù)并在自己的計(jì)算機(jī)上使用它,當(dāng)然是需要 AWS 賬戶(hù)的。
以下是一些示例:
googlebooks中的n-gram列表-來(lái)自大量書(shū)籍的常用詞和詞組。
普通爬網(wǎng)語(yǔ)料庫(kù)-從超過(guò)50億網(wǎng)頁(yè)爬網(wǎng)數(shù)據(jù)。
陸地衛(wèi)星圖像-地球表面的中等分辨率衛(wèi)星圖像。
網(wǎng)站鏈接
https://aws.amazon.com/datasets/?_encoding=UTF8&jiveRedirect=1
Google Public Data sets
和亞馬遜很像,谷歌也有云托管服務(wù),稱(chēng)為谷歌云平臺(tái)。
以下是一些示例:
USA名稱(chēng)-包含從1879年到2015年美國(guó)所有的社會(huì)保障名稱(chēng)申請(qǐng)。
Github活動(dòng)-包含超過(guò)280萬(wàn)個(gè)公共Github存儲(chǔ)庫(kù)上的所有公共活動(dòng)。
歷史天氣-1929年至2016年美國(guó)國(guó)家海洋和大氣管理局9000個(gè)氣象站的數(shù)據(jù)。
網(wǎng)站鏈接
https://cloud.google.com/bigquery/public-data/
Wikipedia
維基百科是一個(gè)免費(fèi)的、在線社區(qū)編輯百科全書(shū)。維基百科包含了驚人的知識(shí)廣度,包含了從奧斯曼-哈布斯堡戰(zhàn)爭(zhēng)到萊昂納多-尼莫伊的各種內(nèi)容。作為維基百科致力于提升知識(shí)的一部分,他們免費(fèi)提供所有內(nèi)容,并定期轉(zhuǎn)存網(wǎng)站上所有文章。
數(shù)據(jù)下載地址
https://en.wikipedia.org/wiki/Wikipedia:Database_download
Kaggle
Kaggle是一個(gè)數(shù)據(jù)科學(xué)社區(qū),主辦機(jī)器學(xué)習(xí)競(jìng)賽。網(wǎng)站上有各種外部提供的有趣數(shù)據(jù)集,既有現(xiàn)場(chǎng)比賽,也有歷史比賽。我們可以下載任何一項(xiàng)數(shù)據(jù),但是必須注冊(cè)Kaggle并接受比賽的服務(wù)條款。
數(shù)據(jù)下載地址
https://www.kaggle.com/datasets
UCI machine Learning Repository
UCI機(jī)器學(xué)習(xí)庫(kù)是web上最古老的數(shù)據(jù)源之一,因?yàn)閿?shù)據(jù)集是由用戶(hù)貢獻(xiàn)的,所以具有不同級(jí)別的文檔和清潔度,但絕大多數(shù)數(shù)據(jù)集都是干凈的,可以應(yīng)用于機(jī)器學(xué)習(xí)當(dāng)中。可以把UCI作為尋找有趣數(shù)據(jù)集的第一站。
地址
https://archive.ics.uci.edu/ml/datasets.php
Quandl
Quandl是經(jīng)濟(jì)和金融數(shù)據(jù)的存儲(chǔ)庫(kù),有些信息是免費(fèi)的,但許多數(shù)據(jù)集需要付費(fèi),Quandl對(duì)于建立預(yù)測(cè)經(jīng)濟(jì)指標(biāo)或股票價(jià)格的模型是很有用的。由于有大量可用的數(shù)據(jù)集,所以可以建立一個(gè)復(fù)雜的模型,使用許多數(shù)據(jù)集來(lái)預(yù)測(cè)另一個(gè)模型中的值。
地址
https://www.quandl.com/browse
data.world
data.world 將自己描述為“數(shù)據(jù)人的社交網(wǎng)絡(luò)”,但可以更準(zhǔn)確地描述為“數(shù)據(jù)的GitHub”。它是一個(gè)可以搜索、復(fù)制、分析和下載數(shù)據(jù)集的地方。此外,我們還可以將數(shù)據(jù)上載到data.world并利用它與其他人合作。
在相對(duì)較短的時(shí)間內(nèi),它已經(jīng)成為一個(gè)'應(yīng)該去'的地方獲取數(shù)據(jù),這絕對(duì)是一個(gè)值得多逛逛的網(wǎng)站
地址
https://www.data.world/
Data.gov
Data.gov是一個(gè)相對(duì)較新的網(wǎng)站,是美國(guó)政府開(kāi)放。Data.gov可以從多個(gè)美國(guó)政府機(jī)構(gòu)下載數(shù)據(jù),數(shù)據(jù)范圍從政府預(yù)算到學(xué)校表現(xiàn)分?jǐn)?shù)等等。但是許多數(shù)據(jù)需要額外探索,有時(shí)很難找出哪個(gè)數(shù)據(jù)集是“正確的”版本。
網(wǎng)站地址
https://www.data.gov/
The World Bank
世界銀行是一個(gè)向發(fā)展中國(guó)家提供貸款和咨詢(xún)的全球發(fā)展組織,世界銀行定期為發(fā)展中國(guó)家的項(xiàng)目提供資金,然后收集數(shù)據(jù)以監(jiān)測(cè)這些項(xiàng)目的成功與否。
我們可以直接瀏覽世界銀行的數(shù)據(jù)集,無(wú)需注冊(cè)。但是在下載的時(shí)候,有時(shí)會(huì)出現(xiàn)問(wèn)題,所以需要多點(diǎn)擊幾次下載才可以成功下載到數(shù)據(jù)
地址
http://data.worldbank.org/
/r/datasets
Reddit是一個(gè)流行的社區(qū)討論網(wǎng)站,它有專(zhuān)門(mén)的地方來(lái)分享有趣的數(shù)據(jù)集。它被稱(chēng)為datasets subreddit,或/r/datasets。這些數(shù)據(jù)集的范圍變化很大,因?yàn)樗鼈兌际怯脩?hù)提交的,所以有些數(shù)據(jù)集看起來(lái)有些奇妙。
地址
https://www.reddit.com/r/datasets/top/?sort=top&t=all
Academic Torrents
Academic Torrents是一個(gè)比較年輕的網(wǎng)站,旨在共享來(lái)自科學(xué)論文的數(shù)據(jù)集。因?yàn)樗且粋€(gè)較新的站點(diǎn),所以很難判斷最常見(jiàn)的數(shù)據(jù)集類(lèi)型是什么樣的。目前,它有大量缺乏上下文的有趣數(shù)據(jù)集。
地址
http://academictorrents.com/browse.php?cat=6
Github
這個(gè)就不多說(shuō)了吧,不知道的可以拖出去了!