【资源】史上最全数据集汇总
無論是數(shù)據(jù)挖掘還是目前大熱的深度學(xué)習(xí),都離不開“大數(shù)據(jù)”。大公司們一般會有自己的數(shù)據(jù),但對于創(chuàng)業(yè)公司或是高校老師、學(xué)生來說,“Where can I get large datasets open to the public” 是一個不得不面對的問題。 本文將為您提供一個網(wǎng)站/資源列表,從中你可以使用數(shù)據(jù)來完成你自己的數(shù)據(jù)項(xiàng)目,甚至創(chuàng)造你自己的產(chǎn)品。
一.如何使用這些資源?
使用它們最簡單的方法是進(jìn)行數(shù)據(jù)項(xiàng)目,并在網(wǎng)站上發(fā)布它們。這不僅能提高你的數(shù)據(jù)和可視化技能,還能改善你的結(jié)構(gòu)化思維。
另一方面,如果你正在考慮/處理基于數(shù)據(jù)的產(chǎn)品,這些數(shù)據(jù)集可以通過提供額外的/新的輸入數(shù)據(jù)來增加您的產(chǎn)品的功能。
我們已經(jīng)在不同的部分中劃分了這些數(shù)據(jù)源,以幫助你根據(jù)應(yīng)用程序?qū)?shù)據(jù)源進(jìn)行分類。首先從簡單、通用和易于處理數(shù)據(jù)集開始,然后轉(zhuǎn)向大型/行業(yè)相關(guān)數(shù)據(jù)集。然后,我們?yōu)樘囟ǖ哪康摹谋就诰颉D像分類、推薦引擎等提供數(shù)據(jù)集的鏈接。這將為您提供一個完整的數(shù)據(jù)資源列表。
二.由簡單和通用的數(shù)據(jù)集開始
1.data.gov
( https://www.data.gov/ )
這是美國政府公開數(shù)據(jù)的所在地,該站點(diǎn)包含了超過19萬的數(shù)據(jù)點(diǎn)。這些數(shù)據(jù)集不同于氣候、教育、能源、金融和更多領(lǐng)域的數(shù)據(jù)。
640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1
2.data.gov.in
( https://data.gov.in/ )
這是印度政府公開數(shù)據(jù)的所在地,通過各種行業(yè)、氣候、醫(yī)療保健等來尋找數(shù)據(jù),你可以在這里找到一些靈感。根據(jù)你居住的國家的不同,你也可以從其他一些網(wǎng)站上瀏覽類似的網(wǎng)站。
3.World Bank
( http://data.worldbank.org/ )
世界銀行的開放數(shù)據(jù)。該平臺提供 Open Data Catalog,世界發(fā)展指數(shù),教育指數(shù)等幾個工具。
4.RBI
(https://rbi.org.in/Scripts/Statistics.aspx)
印度儲備銀行提供的數(shù)據(jù)。這包括了貨幣市場操作、收支平衡、銀行使用和一些產(chǎn)品的幾個指標(biāo)。
5.Five Thirty Eight Datasets
(https://github.com/fivethirtyeight/data)
Five Thirty Eight,亦稱作 538,專注與民意調(diào)查分析,政治,經(jīng)濟(jì)與體育的博客。該數(shù)據(jù)集為 Five Thirty Eight Datasets 使用的數(shù)據(jù)集。每個數(shù)據(jù)集包括數(shù)據(jù),解釋數(shù)據(jù)的字典和Five Thirty Eight 文章的鏈接。如果你想學(xué)習(xí)如何創(chuàng)建數(shù)據(jù)故事,沒有比這個更好。
三.大型數(shù)據(jù)集
1.Amazon Web Services(AWS)datasets
(https://aws.amazon.com/cn/datasets/)
Amazon提供了一些大數(shù)據(jù)集,可以在他們的平臺上使用,也可以在本地計(jì)算機(jī)上使用。您還可以通過EMR使用EC2和Hadoop來分析云中的數(shù)據(jù)。在亞馬遜上流行的數(shù)據(jù)集包括完整的安然電子郵件數(shù)據(jù)集,Google Books n-gram,NASA NEX 數(shù)據(jù)集,百萬歌曲數(shù)據(jù)集等。
640?wx_fmt=png
2.Google datasets
( https://cloud.google.com/bigquery/public-data/ )
Google 提供了一些數(shù)據(jù)集作為其 Big Query 工具的一部分。包括 GitHub 公共資料庫的數(shù)據(jù),Hacker News 的所有故事和評論。
3.Youtube labeled Video Dataset
( https://research.google.com/youtube8m/ )
幾個月前,谷歌研究小組發(fā)布了YouTube上的“數(shù)據(jù)集”,它由800萬個YouTube視頻id和4800個視覺實(shí)體的相關(guān)標(biāo)簽組成。它來自數(shù)十億幀的預(yù)先計(jì)算的,最先進(jìn)的視覺特征。
640?wx_fmt=png
四.預(yù)測建模與機(jī)器學(xué)習(xí)數(shù)據(jù)集
1.UCI Machine Learning Repository
( https://archive.ics.uci.edu/ml/datasets.html )
UCI機(jī)器學(xué)習(xí)庫顯然是最著名的數(shù)據(jù)存儲庫。如果您正在尋找與機(jī)器學(xué)習(xí)存儲庫相關(guān)的數(shù)據(jù)集,通常是首選的地方。這些數(shù)據(jù)集包括了各種各樣的數(shù)據(jù)集,從像Iris和泰坦尼克這樣的流行數(shù)據(jù)集到最近的貢獻(xiàn),比如空氣質(zhì)量和GPS軌跡。存儲庫包含超過350個與域名類似的數(shù)據(jù)集(分類/回歸)。您可以使用這些過濾器來確定您需要的數(shù)據(jù)集。
640?wx_fmt=png
2.Kaggle
( https://www.kaggle.com/datasets )
Kaggle提出了一個平臺,人們可以貢獻(xiàn)數(shù)據(jù)集,其他社區(qū)成員可以投票并運(yùn)行內(nèi)核/腳本。他們總共有超過350個數(shù)據(jù)集——有超過200個特征數(shù)據(jù)集。雖然一些最初的數(shù)據(jù)集通常出現(xiàn)在其他地方,但我在平臺上看到了一些有趣的數(shù)據(jù)集,而不是在其他地方出現(xiàn)。與新的數(shù)據(jù)集一起,界面的另一個好處是,您可以在相同的界面上看到來自社區(qū)成員的腳本和問題。
640?wx_fmt=png
3.Analytics Vidhya
(https://datahack.analyticsvidhya.com/contest/all/ )
您可以從我們的實(shí)踐問題和黑客馬拉松問題中參與和下載數(shù)據(jù)集。問題數(shù)據(jù)集基于真實(shí)的行業(yè)問題,并且相對較小,因?yàn)樗鼈円馕吨? - 7天的黑客馬拉松。
640?wx_fmt=png
4.Quandl
( https://www.quandl.com/ )
Quandl 通過起網(wǎng)站、API 或一些工具的直接集成提供了不同來源的財(cái)務(wù)、經(jīng)濟(jì)和替代數(shù)據(jù)。他們的數(shù)據(jù)集分為開放和付費(fèi)。所有開放數(shù)據(jù)集為免費(fèi),但高級數(shù)據(jù)集需要付費(fèi)。通過搜索仍然可以在平臺上找到優(yōu)質(zhì)數(shù)據(jù)集。例如,來自印度的證券交易所數(shù)據(jù)是免費(fèi)的。
640?wx_fmt=png
5.Past KDD Cups
( http://www.kdd.org/kdd-cup )
KDD Cup 是 ACM Special Interest Group 組織的年度數(shù)據(jù)挖掘和知識發(fā)現(xiàn)競賽。
6.Driven Data
( https://www.drivendata.org/ )
Driven Data 發(fā)現(xiàn)運(yùn)用數(shù)據(jù)科學(xué)帶來積極社會影響的現(xiàn)實(shí)問題。然后,他們?yōu)閿?shù)據(jù)科學(xué)家組織在線模擬競賽,從而開發(fā)出最好的模型來解決這些問題。
五.圖像分類數(shù)據(jù)集
1.The MNIST Database
( http://yann.lecun.com/exdb/mnist/ )
最流行的圖像識別數(shù)據(jù)集,使用手寫數(shù)字。它包括6萬個示例和1萬個示例的測試集。這通常是第一個進(jìn)行圖像識別的數(shù)據(jù)集。
2.Chars74K
(http://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/ )
這里是下一階段的進(jìn)化,如果你已經(jīng)通過了手寫的數(shù)字。該數(shù)據(jù)集包括自然圖像中的字符識別。數(shù)據(jù)集包含74,000個圖像,因此數(shù)據(jù)集的名稱。
3.Frontal Face Images
(http://vasc.ri.cmu.edu//idb/html/face/frontal_images/index.html )
如果你已經(jīng)完成了前兩個項(xiàng)目,并且能夠識別數(shù)字和字符,這是圖像識別中的下一個挑戰(zhàn)級別——正面人臉圖像。這些圖像是由CMU & MIT收集的,排列在四個文件夾中。
4.ImageNet ( http://image-net.org/ ) 現(xiàn)在是時候構(gòu)建一些通用的東西了。根據(jù)WordNet層次結(jié)構(gòu)組織的圖像數(shù)據(jù)庫(目前僅為名詞)。層次結(jié)構(gòu)的每個節(jié)點(diǎn)都由數(shù)百個圖像描述。目前,該集合平均每個節(jié)點(diǎn)有超過500個圖像(而且還在增加)。
六.文本分類數(shù)據(jù)集
1.Spam – Non Spam
(http://www.esp.uem.es/jmgomez/smsspamcorpus/)
區(qū)分短信是否為垃圾郵件是一個有趣的問題。你需要構(gòu)建一個分類器將短信進(jìn)行分類。
2.Twitter Sentiment Analysis (http://thinknook.com/twitter-sentiment-analysis-training-corpus-dataset-2012-09-22/) 該數(shù)據(jù)集包含 1578627 個分類推文,每行被標(biāo)記為1的積極情緒,0位負(fù)面情緒。數(shù)據(jù)依次基于 Kaggle 比賽和 Nick Sanders 的分析。
3.Movie Review Data
(http://www.cs.cornell.edu/People/pabo/movie-review-data/)
這個網(wǎng)站提供了一系列的電影評論文件,這些文件標(biāo)注了他們的總體情緒極性(正面或負(fù)面)或主觀評價(例如,“兩個半明星”)和對其主觀性地位(主觀或客觀)或極性的標(biāo)簽。
七.推薦引擎數(shù)據(jù)集
1.MovieLens
( https://grouplens.org/ ) MovieLens
是一個幫助人們查找電影的網(wǎng)站。它有成千上萬的注冊用戶。他們進(jìn)行自動內(nèi)容推薦,推薦界面,基于標(biāo)簽的推薦頁面等在線實(shí)驗(yàn)。這些數(shù)據(jù)集可供下載,可用于創(chuàng)建自己的推薦系統(tǒng)。
2.Jester
(http://www.ieor.berkeley.edu/~goldberg/jester-data/)
在線笑話推薦系統(tǒng)。
八.各種來源的數(shù)據(jù)集網(wǎng)站
1.KDNuggets
(http://www.kdnuggets.com/datasets/index.html)
KDNuggets 的數(shù)據(jù)集頁面一直是人們搜索數(shù)據(jù)集的參考。列表全面,但是某些來源不再提供數(shù)據(jù)集。因此,需要謹(jǐn)慎選擇數(shù)據(jù)集和來源。
2.Awesome Public Datasets
(https://github.com/caesar0301/awesome-public-datasets)
一個GitHub存儲庫,它包含一個由域分類的完整的數(shù)據(jù)集列表。數(shù)據(jù)集被整齊地分類在不同的領(lǐng)域,這是非常有用的。但是,對于存儲庫本身的數(shù)據(jù)集沒有描述,這可能使它非常有用。
3.Reddit Datasets Subreddit
(https://www.reddit.com/r/datasets/)
由于這是一個社區(qū)驅(qū)動的論壇,它可能會遇到一些麻煩(與之前的兩個來源相比)。但是,您可以通過流行/投票來對數(shù)據(jù)集進(jìn)行排序,以查看最流行的數(shù)據(jù)集。另外,它還有一些有趣的數(shù)據(jù)集和討論。
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯,堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎總結(jié)
以上是生活随笔為你收集整理的【资源】史上最全数据集汇总的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Xshell连接远程Linux服务器失败
- 下一篇: 计算机学校的奖项,2017年度国家科学技