當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

知名数据集

發布時間：2023/12/20 编程问答 32 豆豆

生活随笔收集整理的這篇文章主要介紹了知名数据集小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

知名數據集

MNIST

MNIST是一個手寫字符集，也是學習深度學習和SVM的入門必備數據集。目前由Yann LeCun維護。網址：

http://yann.lecun.com/exdb/mnist/

MNIST是NIST的一個子集，包含了6萬個訓練樣本和1萬個測試樣本。為了避免碎小文件的問題，所有的手寫字符圖片都被放到一個文件中。整個數據集包含4個這樣的文件。它們的格式說明，實際上在官網就有，只是比較靠后面，容易被忽視。

Iris flower Data Set

Iris是一種叫做鳶尾的植物。Iris flower Data Set是Ronald Fisher在1936年的論文中給出的數據集。該數據集包含了三種鳶尾花的4個特征的樣本集。Fisher基于該數據集，提出了linear discriminant analysis算法。

下圖是該數據集的LDA圖示。

這個數據集并沒有專門的網站，但實際上大多數ML軟件都自帶該數據集，比如R、sklearn等。

參考：

https://en.wikipedia.org/wiki/Iris_flower_data_set

http://scikit-learn.org/stable/auto_examples/datasets/plot_iris_dataset.html

CIFAR-10

CIFAR-10是由Hinton的兩個大弟子Alex Krizhevsky、Ilya Sutskever收集的一個用于普適物體識別的數據集。Cifar是加拿大政府牽頭投資的一個先進科學項目研究所。

說白了，就是看你窮的沒錢搞研究，就施舍給你。Hinton、Bengio和他的學生在2004年拿到了Cifar投資的少量資金，建立了神經計算和自適應感知項目。

這個項目結集了不少計算機科學家、生物學家、電氣工程師、神經科學家、物理學家、心理學家，加速推動了DL的進程。從這個陣容來看，DL已經和ML系的數據挖掘分的很遠了。

DL強調的是自適應感知和人工智能，是計算機與神經科學交叉。DM強調的是高速、大數據、統計數學分析，是計算機和數學的交叉。

CIFAR-10由60000張32*32的RGB彩色圖片構成，共10個分類。50000張訓練，10000張測試（交叉驗證）。這個數據集最大的特點在于將識別遷移到了普適物體，而且應用于多分類（姊妹數據集CIFAR-10達到100類，ILSVRC比賽則是1000類）。

官網：

https://www.cs.toronto.edu/~kriz/cifar.html

參考：

http://www.cnblogs.com/neopenx/p/4480701.html

CNN訓練Cifar-10技巧

ImageNet

ImageNet是由李飛飛等創建的一個計算機視覺系統識別項目，是目前世界上圖像識別最大的數據庫。

官網：

http://www.image-net.org/

需要注意的是，由于ImageNet的數據過于龐大，因此主頁下載的數據文件，僅僅只是圖片的URL而已。

PASCAL VOC

PASCAL VOC是一個標有物體類別和位置的圖片庫。

官網：

http://host.robots.ox.ac.uk/pascal/VOC/

2005～2012年期間，圍繞著該數據集展開了Pascal VOC挑戰賽。

MSCOCO

COCO數據集是微軟團隊獲取的一個可以用來圖像recognition+segmentation+captioning的數據集。

官網：

http://cocodataset.org/

UCI數據集

UCI大學有個專門提供數據集的網站：

http://archive.ics.uci.edu/ml/datasets

其中包含360+的數據集，實在是個寶庫啊。

貓狗數據集

最早的寵物數據集，當屬Ronald Fisher在1947年的論文中給出的數據集。它包含了144只貓的性別、體重和心臟重量。該數據集的地址：

https://github.com/mathisonian/datasets-cats

其他的寵物數據集還包括：

http://www.robots.ox.ac.uk/~vgg/data/pets/

VGG提供的圖片數據集，有語義分割的標簽。

https://www.kaggle.com/c/dogs-vs-cats/data

kaggle的貓狗圖片數據集

http://vision.stanford.edu/aditya86/ImageNetDogs/

Stanford的狗圖片數據集。

WMT

WMT數據集是一個多語種的機器翻譯數據集。

官網：

http://www.statmt.org/

這里不僅包含數據，還包含了若干相關軟件。

數據下載：

http://data.statmt.org/

合集

https://mp.weixin.qq.com/s/jezxjPZTnOXWca-VUpfslw

AI研發者福利！谷歌推出數據集搜索專用引擎Dataset Search

https://mp.weixin.qq.com/s/Kmq2tG5XQUO9k1pD3YW2oA

從文本處理到自動駕駛：機器學習最常用的50大免費數據集

https://mp.weixin.qq.com/s?__biz=MzA3NDIyMjM1NA==&mid=2649030010&idx=1&sn=76e0123bf24064c4cb1eb7acacac86fd

深度學習從“數據集”開始

http://www.csdn.net/article/2014-06-06/2820111-100-Interesting-Data-Sets-for-Statistics/1

100+詭異的數據集

https://mp.weixin.qq.com/s/NjJRSim8DLvKoI01PMkNfw

機器學習高質量數據集大合輯

http://www.sogou.com/labs/

搜狗實驗室的網站可以下載很多NLP和圖片識別方面的數據

https://mp.weixin.qq.com/s/ywjgVzEh8e7-lcUmIAtzCA

這是一份非常全面的開源數據集，你真的不想要嗎

https://zhuanlan.zhihu.com/p/25138563

各領域公開數據集下載

https://mp.weixin.qq.com/s/_A71fTgwSyaW5XTAySIGOA

最強數據集集合：50個最佳機器學習公共數據集

https://mp.weixin.qq.com/s/Aatv0Q-Mfkkb75h_ZF8AIA

100大機器學習數據集，總有一款適合你！

https://mp.weixin.qq.com/s/484E_ycxQVwKOD6Lcpy-GQ

開放數據集

http://www.dataonthemind.org/data-resources/datasets

認知科學數據集大列表Center for Data on the Mind

https://mp.weixin.qq.com/s/0-gBsoxKaXZz7ojtFrGlvQ

史上最全數據集網站匯總

https://mp.weixin.qq.com/s/B-dEz-uUfjG1r98glkY3Fg

數據科學家必用的25個深度學習的開放數據集！

https://mp.weixin.qq.com/s/vaIhDnyQ7vh8kfrgCpXpQA

從醫療語音到災難響應，這八大優質數據集快抱走

https://mp.weixin.qq.com/s/COnDB9EveANOBmCksCqoYg

微軟內部研究數據集正式對外開放，覆蓋NLP、CV等9個領域

https://mp.weixin.qq.com/s/4jhtCUtv_szfMvyDCWKvoQ

最強數據集50個最佳機器學習公共數據，可以幫你驗證idea！

NLP

https://mp.weixin.qq.com/s/tewjGzfAVCKcG1dlURxyeg

MIT發布的10大自然語言處理數據集和語料庫

https://github.com/candlewill/Dialog_Corpus/blob/master/README.md

用于對話系統的中英文語料

https://mp.weixin.qq.com/s/qh4evahPVjvZlzqan7RIKg

囊括歐亞非大陸多種語言的25個平行語料庫數據集

https://mp.weixin.qq.com/s/37cUxUzcSZ_OgfuN_yTmlA

閱讀理解與問答數據集

https://mp.weixin.qq.com/s/W48TlxSLPk2E2DuSzEidNA

免費文本語料訓練數據集

https://mp.weixin.qq.com/s/K1eYjrrWuHu8JgWgoDliJw

百度的中文問答數據集WebQA

https://mp.weixin.qq.com/s/WfcFiRXBKAMqnDi5KFpIEA

百萬級字符：清華大學提出中文自然文本數據集CTW

https://mp.weixin.qq.com/s/AdzBrseH3SOgo5BrbjWVpw

機器能做中/高考英語試題嗎？

https://mp.weixin.qq.com/s/myg_PCdHB3DUtdA7ROmTOg

100+個自然語言處理數據集大放送，再不愁找不到數據！

https://mp.weixin.qq.com/s/eAqtNDT7LDdMg_41QWJ5iA

DuReader：百度大規模的中文機器閱讀理解數據集

https://mp.weixin.qq.com/s/tENiB4P1--sD5B5r3Af16w

Chinese Word Vectors：目前最全的中文預訓練詞向量集合

https://mp.weixin.qq.com/s/S6KrNNz3TJQr8i3-fAZe-Q

今日頭條新聞文本分類數據集

https://mp.weixin.qq.com/s/gAFNbMhatFVwnGmBEUFOQA

耶魯大學發布自然語言處理資源引擎TutorialBank: 讓NLP學習不再困難

https://mp.weixin.qq.com/s/WkDTGxWtgUMjpIoO4LkLRg

騰訊AI Lab開源800萬中文詞的NLP數據集

https://mp.weixin.qq.com/s/isUT--guYrsIWRXApcutrg

耶魯大學11名學生標注完成大規模復雜跨域Text-to-SQL數據集Spider

http://universaldependencies.org/

一個依存語法方面的標注數據集。這類數據也叫做treebank數據，原因是依存語法生成的結果是一棵語法樹。

https://mp.weixin.qq.com/s/7xFlELcm325Q6wEB5Pyphg

讓AI學會刨根問底和放飛自我，斯坦福最新問答數據集CoQA

https://mp.weixin.qq.com/s/Rf3NAYlNMrcVythVA-90cQ

端到端對話模型新突破！Facebook發布大規模個性化對話數據庫

https://mp.weixin.qq.com/s/LC6bJOsJczTLolQ1Yx5cvg

最全中華古詩詞數據庫:近14k唐宋古詩人, 55k首唐詩，60k宋詩

https://mp.weixin.qq.com/s/yZ138cMv4203wJdIY_0sUA

FAIR重磅發布大規模語料庫XNLI：解決跨15種語言理解難題

https://mp.weixin.qq.com/s/RduLMsu599YRSsxd-mjX2A

最新任務型對話數據集大全

https://github.com/fighting41love/funNLP

40個中文NLP詞庫

https://mp.weixin.qq.com/s/KK7jCN5yN_TOrnNQWLuUNg

CMU多語種語音數據集：700多種語言的語音/文本對齊語料

https://mp.weixin.qq.com/s/xzHMzQ4uVBJaUR8b_KNptA

你說“神馬”？非正式漢語數據集資源上線，幫你訓練網絡語言處理

CV

http://www.cvpapers.com/datasets.html

常見的cvpr研究的數據庫下載鏈接

https://mp.weixin.qq.com/s/SKZhcd3QpoVMubTkD14iWw

Fashion-MNIST：替代MNIST手寫數字集的圖像數據集

https://niessner.github.io/Matterport/

全球最大的3D數據集公開了！標記好的10800張全景圖

https://mp.weixin.qq.com/s/q2lsD4MSqQG-LqRmVjEHeg

圖像配對數據集TTL：展現人類和機器判斷圖像相似性的差異

https://mp.weixin.qq.com/s/Y__z-0nxAZNuZsZefCm4IA

紐約大學聯合谷歌大腦提出“COG”數據集，可提高系統的“視覺推理”能力

https://mp.weixin.qq.com/s/0D8OQ6hF_70mNtadewyGVw

全球最大的第一視角視頻數據集開源，取自真實生活，還能提升廚藝

https://mp.weixin.qq.com/s/NXI9Bp4xxbZCQqAddK1HgA

Google開放最大目標檢測數據集，還要為它舉辦AI挑戰賽

https://mp.weixin.qq.com/s/DsBoGT2Pl4tRwHX8REOqnw

MURA：斯坦福ML團隊開放的大型放射影像數據集與挑戰賽

https://mp.weixin.qq.com/s/_wQoiC6ogcLWSEUFUGHd5g

Facebook，MIT等發布大規模衛星圖像理解數據挑戰賽DeepGlobe 2018

https://mp.weixin.qq.com/s/WPESySGMv_ehSt6oNUkVGg

視頻語義顯著實例分割數據集SESIV

https://mp.weixin.qq.com/s/fR8-zODLNp24nlR5dJ85Nw

3萬患者11萬圖像14類病理：NIH公開大規模胸部X光數據集

https://mp.weixin.qq.com/s/d-fIQwMxHXTJvFWQUKHAvw

我用5000萬組數據分析了“猜畫小歌”

https://mp.weixin.qq.com/s/jOjiAAK1byUx8ic011f33w

2200萬室內場景數據集，包含語義、全景、燈光等十余種效果

https://mp.weixin.qq.com/s/aw5o-1Bwc4hQUatehFFx2A

南京大學發布WebCaricature漫畫人臉識別數據集

https://mp.weixin.qq.com/s/deJ6dChES_WhYH8T05ruag

騰訊AI實驗室宣布開源多標簽圖像數據集ML-Images

https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650750713&idx=5&sn=678eef1122d35c048a5fca8f22fa12c9

CIFAR-10+ImageNet=？CINIC-10！

https://mp.weixin.qq.com/s/Kxnvv1i0nvkg0vUDBlx6MA

向機器學習偏見開戰：谷歌展示全球涂鴉數據集分析結果

https://mp.weixin.qq.com/s/vTnc55KAiGaFfktHPZctbw

撿漏！用谷歌圖片搜索自制深度學習數據集

https://mp.weixin.qq.com/s/-NQa2VeuskDx5XN9WMCmPQ

騰訊開源業內最大多標簽圖像數據集，附ResNet-101模型

https://mp.weixin.qq.com/s/8nPfU72WocrDxToG6v5tIA

計算攝影學數據集匯總（一）

總結

以上是生活随笔為你收集整理的知名数据集的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： TensorFlow（二）
下一篇：多维数组的行优先和列优先, 数据描述语言