知名数据集
知名數據集
MNIST
MNIST是一個手寫字符集,也是學習深度學習和SVM的入門必備數據集。目前由Yann LeCun維護。網址:
http://yann.lecun.com/exdb/mnist/
MNIST是NIST的一個子集,包含了6萬個訓練樣本和1萬個測試樣本。為了避免碎小文件的問題,所有的手寫字符圖片都被放到一個文件中。整個數據集包含4個這樣的文件。它們的格式說明,實際上在官網就有,只是比較靠后面,容易被忽視。
Iris flower Data Set
Iris是一種叫做鳶尾的植物。Iris flower Data Set是Ronald Fisher在1936年的論文中給出的數據集。該數據集包含了三種鳶尾花的4個特征的樣本集。Fisher基于該數據集,提出了linear discriminant analysis算法。
下圖是該數據集的LDA圖示。
這個數據集并沒有專門的網站,但實際上大多數ML軟件都自帶該數據集,比如R、sklearn等。
參考:
https://en.wikipedia.org/wiki/Iris_flower_data_set
http://scikit-learn.org/stable/auto_examples/datasets/plot_iris_dataset.html
CIFAR-10
CIFAR-10是由Hinton的兩個大弟子Alex Krizhevsky、Ilya Sutskever收集的一個用于普適物體識別的數據集。Cifar是加拿大政府牽頭投資的一個先進科學項目研究所。
說白了,就是看你窮的沒錢搞研究,就施舍給你。Hinton、Bengio和他的學生在2004年拿到了Cifar投資的少量資金,建立了神經計算和自適應感知項目。
這個項目結集了不少計算機科學家、生物學家、電氣工程師、神經科學家、物理學家、心理學家,加速推動了DL的進程。從這個陣容來看,DL已經和ML系的數據挖掘分的很遠了。
DL強調的是自適應感知和人工智能,是計算機與神經科學交叉。DM強調的是高速、大數據、統計數學分析,是計算機和數學的交叉。
CIFAR-10由60000張32*32的RGB彩色圖片構成,共10個分類。50000張訓練,10000張測試(交叉驗證)。這個數據集最大的特點在于將識別遷移到了普適物體,而且應用于多分類(姊妹數據集CIFAR-10達到100類,ILSVRC比賽則是1000類)。
官網:
https://www.cs.toronto.edu/~kriz/cifar.html
參考:
http://www.cnblogs.com/neopenx/p/4480701.html
CNN訓練Cifar-10技巧
ImageNet
ImageNet是由李飛飛等創建的一個計算機視覺系統識別項目,是目前世界上圖像識別最大的數據庫。
官網:
http://www.image-net.org/
需要注意的是,由于ImageNet的數據過于龐大,因此主頁下載的數據文件,僅僅只是圖片的URL而已。
PASCAL VOC
PASCAL VOC是一個標有物體類別和位置的圖片庫。
官網:
http://host.robots.ox.ac.uk/pascal/VOC/
2005~2012年期間,圍繞著該數據集展開了Pascal VOC挑戰賽。
MSCOCO
COCO數據集是微軟團隊獲取的一個可以用來圖像recognition+segmentation+captioning的數據集。
官網:
http://cocodataset.org/
UCI數據集
UCI大學有個專門提供數據集的網站:
http://archive.ics.uci.edu/ml/datasets
其中包含360+的數據集,實在是個寶庫啊。
貓狗數據集
最早的寵物數據集,當屬Ronald Fisher在1947年的論文中給出的數據集。它包含了144只貓的性別、體重和心臟重量。該數據集的地址:
https://github.com/mathisonian/datasets-cats
其他的寵物數據集還包括:
http://www.robots.ox.ac.uk/~vgg/data/pets/
VGG提供的圖片數據集,有語義分割的標簽。
https://www.kaggle.com/c/dogs-vs-cats/data
kaggle的貓狗圖片數據集
http://vision.stanford.edu/aditya86/ImageNetDogs/
Stanford的狗圖片數據集。
WMT
WMT數據集是一個多語種的機器翻譯數據集。
官網:
http://www.statmt.org/
這里不僅包含數據,還包含了若干相關軟件。
數據下載:
http://data.statmt.org/
合集
https://mp.weixin.qq.com/s/jezxjPZTnOXWca-VUpfslw
AI研發者福利!谷歌推出數據集搜索專用引擎Dataset Search
https://mp.weixin.qq.com/s/Kmq2tG5XQUO9k1pD3YW2oA
從文本處理到自動駕駛:機器學習最常用的50大免費數據集
https://mp.weixin.qq.com/s?__biz=MzA3NDIyMjM1NA==&mid=2649030010&idx=1&sn=76e0123bf24064c4cb1eb7acacac86fd
深度學習從“數據集”開始
http://www.csdn.net/article/2014-06-06/2820111-100-Interesting-Data-Sets-for-Statistics/1
100+詭異的數據集
https://mp.weixin.qq.com/s/NjJRSim8DLvKoI01PMkNfw
機器學習高質量數據集大合輯
http://www.sogou.com/labs/
搜狗實驗室的網站可以下載很多NLP和圖片識別方面的數據
https://mp.weixin.qq.com/s/ywjgVzEh8e7-lcUmIAtzCA
這是一份非常全面的開源數據集,你真的不想要嗎
https://zhuanlan.zhihu.com/p/25138563
各領域公開數據集下載
https://mp.weixin.qq.com/s/_A71fTgwSyaW5XTAySIGOA
最強數據集集合:50個最佳機器學習公共數據集
https://mp.weixin.qq.com/s/Aatv0Q-Mfkkb75h_ZF8AIA
100大機器學習數據集,總有一款適合你!
https://mp.weixin.qq.com/s/484E_ycxQVwKOD6Lcpy-GQ
開放數據集
http://www.dataonthemind.org/data-resources/datasets
認知科學數據集大列表Center for Data on the Mind
https://mp.weixin.qq.com/s/0-gBsoxKaXZz7ojtFrGlvQ
史上最全數據集網站匯總
https://mp.weixin.qq.com/s/B-dEz-uUfjG1r98glkY3Fg
數據科學家必用的25個深度學習的開放數據集!
https://mp.weixin.qq.com/s/vaIhDnyQ7vh8kfrgCpXpQA
從醫療語音到災難響應,這八大優質數據集快抱走
https://mp.weixin.qq.com/s/COnDB9EveANOBmCksCqoYg
微軟內部研究數據集正式對外開放,覆蓋NLP、CV等9個領域
https://mp.weixin.qq.com/s/4jhtCUtv_szfMvyDCWKvoQ
最強數據集50個最佳機器學習公共數據,可以幫你驗證idea!
NLP
https://mp.weixin.qq.com/s/tewjGzfAVCKcG1dlURxyeg
MIT發布的10大自然語言處理數據集和語料庫
https://github.com/candlewill/Dialog_Corpus/blob/master/README.md
用于對話系統的中英文語料
https://mp.weixin.qq.com/s/qh4evahPVjvZlzqan7RIKg
囊括歐亞非大陸多種語言的25個平行語料庫數據集
https://mp.weixin.qq.com/s/37cUxUzcSZ_OgfuN_yTmlA
閱讀理解與問答數據集
https://mp.weixin.qq.com/s/W48TlxSLPk2E2DuSzEidNA
免費文本語料訓練數據集
https://mp.weixin.qq.com/s/K1eYjrrWuHu8JgWgoDliJw
百度的中文問答數據集WebQA
https://mp.weixin.qq.com/s/WfcFiRXBKAMqnDi5KFpIEA
百萬級字符:清華大學提出中文自然文本數據集CTW
https://mp.weixin.qq.com/s/AdzBrseH3SOgo5BrbjWVpw
機器能做中/高考英語試題嗎?
https://mp.weixin.qq.com/s/myg_PCdHB3DUtdA7ROmTOg
100+個自然語言處理數據集大放送,再不愁找不到數據!
https://mp.weixin.qq.com/s/eAqtNDT7LDdMg_41QWJ5iA
DuReader:百度大規模的中文機器閱讀理解數據集
https://mp.weixin.qq.com/s/tENiB4P1--sD5B5r3Af16w
Chinese Word Vectors:目前最全的中文預訓練詞向量集合
https://mp.weixin.qq.com/s/S6KrNNz3TJQr8i3-fAZe-Q
今日頭條新聞文本分類數據集
https://mp.weixin.qq.com/s/gAFNbMhatFVwnGmBEUFOQA
耶魯大學發布自然語言處理資源引擎TutorialBank: 讓NLP學習不再困難
https://mp.weixin.qq.com/s/WkDTGxWtgUMjpIoO4LkLRg
騰訊AI Lab開源800萬中文詞的NLP數據集
https://mp.weixin.qq.com/s/isUT--guYrsIWRXApcutrg
耶魯大學11名學生標注完成大規模復雜跨域Text-to-SQL數據集Spider
http://universaldependencies.org/
一個依存語法方面的標注數據集。這類數據也叫做treebank數據,原因是依存語法生成的結果是一棵語法樹。
https://mp.weixin.qq.com/s/7xFlELcm325Q6wEB5Pyphg
讓AI學會刨根問底和放飛自我,斯坦福最新問答數據集CoQA
https://mp.weixin.qq.com/s/Rf3NAYlNMrcVythVA-90cQ
端到端對話模型新突破!Facebook發布大規模個性化對話數據庫
https://mp.weixin.qq.com/s/LC6bJOsJczTLolQ1Yx5cvg
最全中華古詩詞數據庫:近14k唐宋古詩人, 55k首唐詩,60k宋詩
https://mp.weixin.qq.com/s/yZ138cMv4203wJdIY_0sUA
FAIR重磅發布大規模語料庫XNLI:解決跨15種語言理解難題
https://mp.weixin.qq.com/s/RduLMsu599YRSsxd-mjX2A
最新任務型對話數據集大全
https://github.com/fighting41love/funNLP
40個中文NLP詞庫
https://mp.weixin.qq.com/s/KK7jCN5yN_TOrnNQWLuUNg
CMU多語種語音數據集:700多種語言的語音/文本對齊語料
https://mp.weixin.qq.com/s/xzHMzQ4uVBJaUR8b_KNptA
你說“神馬”?非正式漢語數據集資源上線,幫你訓練網絡語言處理
CV
http://www.cvpapers.com/datasets.html
常見的cvpr研究的數據庫下載鏈接
https://mp.weixin.qq.com/s/SKZhcd3QpoVMubTkD14iWw
Fashion-MNIST:替代MNIST手寫數字集的圖像數據集
https://niessner.github.io/Matterport/
全球最大的3D數據集公開了!標記好的10800張全景圖
https://mp.weixin.qq.com/s/q2lsD4MSqQG-LqRmVjEHeg
圖像配對數據集TTL:展現人類和機器判斷圖像相似性的差異
https://mp.weixin.qq.com/s/Y__z-0nxAZNuZsZefCm4IA
紐約大學聯合谷歌大腦提出“COG”數據集,可提高系統的“視覺推理”能力
https://mp.weixin.qq.com/s/0D8OQ6hF_70mNtadewyGVw
全球最大的第一視角視頻數據集開源,取自真實生活,還能提升廚藝
https://mp.weixin.qq.com/s/NXI9Bp4xxbZCQqAddK1HgA
Google開放最大目標檢測數據集,還要為它舉辦AI挑戰賽
https://mp.weixin.qq.com/s/DsBoGT2Pl4tRwHX8REOqnw
MURA:斯坦福ML團隊開放的大型放射影像數據集與挑戰賽
https://mp.weixin.qq.com/s/_wQoiC6ogcLWSEUFUGHd5g
Facebook,MIT等發布大規模衛星圖像理解數據挑戰賽DeepGlobe 2018
https://mp.weixin.qq.com/s/WPESySGMv_ehSt6oNUkVGg
視頻語義顯著實例分割數據集SESIV
https://mp.weixin.qq.com/s/fR8-zODLNp24nlR5dJ85Nw
3萬患者11萬圖像14類病理:NIH公開大規模胸部X光數據集
https://mp.weixin.qq.com/s/d-fIQwMxHXTJvFWQUKHAvw
我用5000萬組數據分析了“猜畫小歌”
https://mp.weixin.qq.com/s/jOjiAAK1byUx8ic011f33w
2200萬室內場景數據集,包含語義、全景、燈光等十余種效果
https://mp.weixin.qq.com/s/aw5o-1Bwc4hQUatehFFx2A
南京大學發布WebCaricature漫畫人臉識別數據集
https://mp.weixin.qq.com/s/deJ6dChES_WhYH8T05ruag
騰訊AI實驗室宣布開源多標簽圖像數據集ML-Images
https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650750713&idx=5&sn=678eef1122d35c048a5fca8f22fa12c9
CIFAR-10+ImageNet=?CINIC-10!
https://mp.weixin.qq.com/s/Kxnvv1i0nvkg0vUDBlx6MA
向機器學習偏見開戰:谷歌展示全球涂鴉數據集分析結果
https://mp.weixin.qq.com/s/vTnc55KAiGaFfktHPZctbw
撿漏!用谷歌圖片搜索自制深度學習數據集
https://mp.weixin.qq.com/s/-NQa2VeuskDx5XN9WMCmPQ
騰訊開源業內最大多標簽圖像數據集,附ResNet-101模型
https://mp.weixin.qq.com/s/8nPfU72WocrDxToG6v5tIA
計算攝影學數據集匯總(一)
總結
- 上一篇: TensorFlow(二)
- 下一篇: 多维数组的行优先和列优先, 数据描述语言