當前位置：首頁 > 编程资源 > 综合教程 >内容正文

综合教程

深度学习数据集近百个开源数据集

發布時間：2024/8/26 综合教程 38 生活家

生活随笔收集整理的這篇文章主要介紹了深度学习数据集近百个开源数据集小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

深度學習開源數據集

Images Analysis 圖像分析

數據集	介紹	備注	網址
Flickr30k	圖片描述	31,783 images，每張圖片5個語句標注	傳送門
Microsoft COCO	圖片描述	330,000 images,每張圖片至少5個語句標注	傳送門
ESP Game	多標簽定義圖像	20,770 images，268 tags，諸如bed, light man,music	傳送門
IAPRTC-12	多標簽定義圖像	19,452 images,291 tags	傳送門
NUS-WIDE	多標簽定義圖像	269,648 images,several tags (2-5 on average) per image	傳送門
CUHK-PEDES	以文搜圖	34,054 images，每張圖片2條描述	傳送門
VRD	視覺關系檢測	5,000 images, 100目錄，37,993對關系	傳送門
sVG	視覺關系檢測	108,000 images, 998,000對關系	傳送門
Visual Genome Dataset	圖像屬性檢測	108,077 images, 5.4 M 區域塊，2.8 M 屬性，2.3 M 關系	傳送門
VQA	問答系統	1,105,904問題，11,059,040 回答	傳送門
Visual7W	問答系統	327,939 問答對	傳送門
TID2013	圖像質量評價	25張參考圖像，24個失真類型	傳送門
CSIQ	圖像質量評價	30張參考圖像，6個失真類型	傳送門
LIVE	圖像質量評價	29張參考圖像，5個失真類型	傳送門
WATERLOO	圖像質量評價	4744張參考圖像，20個失真類型	傳送門
photo .net	圖像美觀評價	20,278張圖像，打分[0,10]	傳送門
DPChallenge .com	圖像美觀評價	16,509張圖像，打分[0,10]	傳送門
CUHK	圖像美觀評價	28,410張圖像，只分高質量和低質量	傳送門
AVA	圖像美觀評價	255,500張圖像，打分[0,10]	傳送門

Image Motion & Tracking 圖像運動與跟蹤

數據集	介紹	備注	網址
CUHK03	Person re-identification(人重識別)	image num:13164 person num:1360 camera num:10( 5 pairs)	傳送門
CUHK02	Person re-identification(人重識別)	image num:7264 person num:1816 camera num:10( 5 pairs)	傳送門
CUHK01	Person re-identification(人重識別)	image num:3884 person num:971 camera num: 2	傳送門
VIPeR	Person re-identification(人重識別)	image num:1264 person num:632 camera num:2	傳送門
ETH1,2,3	Person re-identification(人重識別)	image num:8580 person num:83,35,28 camera num:1	傳送門
PRID2011	Person re-identification(人重識別)	image num:24541 person num:934 camera num:2	傳送門
MARS	Person re-identification(人重識別)	image num:11910031 person num:1261 camera num:6	傳送門
Market1501	Person re-identification(人重識別)	image num:32217 person num:1501 camera num:6	傳送門
Epic Fail (EF) dataset	Risk Assessment(風險評估)	video num:3000	傳送門
Street Accident (SA) dataset	Risk Assessment(風險評估)	video num:1733	傳送門
OTB-50	visual tracking(跟蹤)	video num:50	傳送門
OTB-100	visual tracking(跟蹤)	video num:100	傳送門
VOT2015	visual tracking(跟蹤)	video num:60	傳送門
ALOV300	visual tracking(跟蹤)	video num:314	傳送門
MOT	visual tracking(跟蹤)	video num train:11 test:11	傳送門
THUMOS	Temporal action localization(動作定位)	video num:~3K activities class:20 instances:~3K	傳送門
ActivityNet	Temporal action localization(動作定位)	video num:20k activities class:200 instances:7.6K	傳送門
Mexaction2	Temporal action localization(動作定位)	activities class:2 instances:1975	傳送門
FlyingChairs dataset	optical flow(光流)	image pairs：22k	傳送門
FlyingThings3D	optical flow(光流)	image pairs：22k	傳送門
KITTI benchmark suite	optical flow(光流)	image pairs：1600	傳送門
MPI Sintel	optical flow(光流)	image pairs：1064	傳送門

Video Analysis & Scene Understanding 影像分析與情景理解

數據集	介紹	備注	網址
UCF101	動作行為識別	13320 video,101類動作，主要是五大類：1)人-物交互；2)肢體運動；3)人-人交互；4)彈奏樂器；5)運動	傳送門
HMDB51	動作行為識別	7000 videos,51類，包括人臉表情動作，身體動作，人與人交互等	傳送門
Moments-in-Time	動作行為識別	1,000,000 videos,339類	傳送門
ActivityNet 1.3	動作行為識別	20,000 videos,200類	傳送門
Kinetics	動作行為識別	300,000 videos，400類	傳送門
AVA	動作行為識別	57,600 videos，80類	傳送門
Collective Activity Dataset	群體活動行為識別	44 videos,穿叉、行走、等待、交談和排隊五類	傳送門
Choi’s New Dataset	群體活動行為識別	32 videos，聚會，談話，分開，一起走，追逐和排隊六類	None
ActivityNet 1.3	檢測動作事件的起始時間和終止時間	20,000 videos,200類動作的起始時間和終止時間	傳送門
THUMOS	檢測動作事件的起始時間和終止時間	15,000 videos，101類動作的起始時間和終止時間	傳送門
MED	事件檢測	32,744 videos,20個事件	傳送門
EventNet	事件檢測	90,000 videos，500個事件	傳送門
Columbia Consumer Video	事件檢測	9,317 videos，20個事件	傳送門
ADE20K	事件檢測	20,210 videos，900個事件	傳送門
DAVIS	視頻主物體分割	50 videos，分割標注	傳送門
FBMS	視頻主物體分割	59 videos，分割標注	傳送門
IJB-C	視頻人臉識別	11,000 videos	傳送門
YouTube Faces	視頻人臉識別	3,425 videos，1595 人	傳送門
MS-Celeb-1M	視頻人臉識別	1,000,000 images，21,000人	傳送門
MSVD	視頻描述	1,970 videos	傳送門
MSR-VTT-10K	視頻描述	10，000 videos	傳送門

3D Computer Vision 3d計算機視覺

數據集	介紹	備注	網址
photoface database	基于光度立體視覺的二維和三維人臉識別數據庫	總共7356張圖像，包含1839個session和261個subjects	None
NYU Depth V2 dataset	關于RGBD 圖像場景理解的數據庫	提供1449張深度圖片和他們的密集2d點類標注	傳送門
SUN RGBD dataset	是上面的NYU Depth V2 dataset的超集，多了3D bounding boxes和room layouts的標注。	有10,000張RGB-D圖片，有58,657個3D包圍框和146,617 個2d包圍框。	傳送門
PASCAL3D+	新的三維物體檢測和姿態估計數據集，從PASCAL VOC 演化而來，包含圖像，注解，和3D CAD模型	總共12個類，平均每個類別有3000多個實例	傳送門
IKEA	包含典型室內場景的三維模型的數據庫，例如桌子椅子等	包含大約759張圖片和219個3D模型	傳送門
New Tsukuba Dataset	包含了很多立體物體對的數據庫，用于立體物體匹配	總共1800個立體物體對，以及每立體對的立體視差圖、遮擋圖和不連續圖	傳送門
Oxford RobotCar Dataset	關于戶外自動駕駛的數據集。	包含在駕駛汽車過程從6個攝像頭收集的2000w張圖片，和當時的激光雷達，GPS和地面實況標注。	傳送門
Middlebury V3	包含高分辨率物體立體視差標注的數據庫	包含33個類，沒有明說每類有多少數據	傳送門
ShapeNet	包含3D模型，和3d模型的類別標注的數據集，覆蓋了常用的3D數據集PASCAL 3D+。	它涵蓋55個常見的對象類別，有大約51,300個3D模型	傳送門
MICC dataset	包含了3D人臉掃描和在不同分辨率，條件和縮放級別下的幾個視頻序列的數據庫。	有53個人的立體人臉數據	傳送門
CMU MoCap Dataset	包含了3D人體關鍵點標注和骨架移動標注的數據集。	有6個類別和23個子類別，總共2605個數據。	傳送門
DTU dataset	關于3D場景的數據集。	有124個場景，每場景有49/64個位置的RGB圖像和結構光標注。	傳送門

Analyzing Humans in Images 人類分析形象化

數據集	介紹	備注	網址
MSR-Action3D	包含深度的動作識別數據集，有20個動作，	總共557個序列。	傳送門
Florence-3D	包含深度的動作識別數據集，	有9個動作，總共215個動作序列。	傳送門
Berkeley MHAD	包含深度的動作識別數據集，	有11個動作，產生660個動作序列。	傳送門
Online Action Detection	包含深度的動作識別數據集，	數據集包含59個長序列，包含10種不同的日常生活行為。	傳送門
ChaLearn LAP IsoGD Dataset	RGB-D圖像的手勢識別的數據集。	包括47933個RGB-D手勢視頻，有249個手勢標簽。Training有35878視頻，Validation有5784個，test有6271個	傳送門
MAFA dataset	關于面部遮擋問題的數據集	有30, 811張人臉和35806張有遮擋的臉組成。	傳送門
MSRC-12 Kinect Gesture Dataset	手勢識別數據集	有4900張圖片，包含12個不同手勢，	傳送門
2013 Chalearn Gesture Challenge dataset	手勢識別數據集	有11000張圖片，包含20個不同手勢，	傳送門
WIDER FACE	人臉檢測數據集	有 32,203 張圖片，標注了393703個人臉。	傳送門
FDDB	人臉檢測數據集	2845張圖片，標注了5171張人臉。	傳送門
300-VW dataset	面部表情數據集	包含114個視頻和總計218,595幀。	傳送門
HMDB51	人類行為識別的數據集	包含51個動作，總共有6766個視頻剪輯	傳送門
MPII Cooking Activities Dataset	人類行為識別的數據集	包含65個動作，有5609個視頻	傳送門
UCF101	人類行為識別的數據集	包含101個動作，有13320個視頻	傳送門
IJB-A dataset	包含視頻和圖片人臉識別的數據集	包含5712個圖像和2085個視頻	傳送門
YouTube celebrities	視頻人臉識別的數據集	包含47位名人的1910個視頻	傳送門
COX	視頻人臉識別的數據集	包含1000個主題的4000個視頻	傳送門
Human3.6M	人體姿態估計的數據集	360萬張3D照片，11名受試者在4個視點下執行15個了不同的動作	傳送門
iLIDS	行人重識別的數據集	476 張圖像，包含119個人	傳送門
VIPeR	行人重識別的數據集	632個行人圖片對（由兩個相機拍攝）	傳送門
CUHK01	行人重識別的數據集	包含971行人, 3884張圖片	傳送門
CUHK03	行人重識別的數據集	包含1360行人, 13164張圖片	傳送門
RWTH-PHOENIX-Weather multi-signer 2014	手語識別的數據集	包含了5672個德語手語的句子，有65,227個手語姿勢和799,006幀	傳送門
AFLW	人類面部關鍵點的數據集	總共約有25k張臉，每幅圖像標注了大約21個位置。	傳送門
CMU mocap database	動作識別的數據集	2235個數據，包含144個不同的動作。	傳送門
Georgia Tech (GT) database	人臉識別數據庫	50個人每人15張人臉。	傳送門
ORL	人臉識別數據庫	40個人每個人10張圖。	傳送門

Application 應用

數據集	介紹	備注	網址
DogCentric Activity Dataset	第一視角的狗和人之間的相互行為的數據集（視頻）	總共有10類，具體數據量沒有明說，y是動作類別	傳送門
JPL First-Person Interaction Dataset	第一視角觀察動作的數據集	57個視頻，8個大類，y是動作類別	傳送門
NUS-WIDE	關于圖像文本匹配的數據集	269,648個圖像和對應的標簽	傳送門
LabelMe Dataset	關于圖像文本匹配的數據集	3825個圖像和對應標簽	傳送門
Pascal Dataset	關于圖像文本匹配的數據集	5011張訓練圖像和4952張測試圖像	None
ICDAR 2015	關于文本檢測的數據集	1500張訓練，1000張測試，y為四邊形的四個頂點。	傳送門
COCO-Text	關于文本檢測的數據集	63686張圖片，其中43686張被選為訓練集，剩下的2萬用于測試。	傳送門
MSRA-TD500	關于文本檢測的數據集	300個訓練，200個測試圖像	傳送門
Microsoft 7-Scenes Dataset	室內人體運動的數據集	有7種不同室內環境，每包含500-1000張圖像視頻序列。	傳送門
Oxford RobotCar	戶外自動駕駛數據集	包含圖像，激光掃描結果和GPS數據。	傳送門

Low- & Mid-Level Vision 中低水平視覺

數據集	介紹	備注	網址
Deep Video Deblurring for Hand-held Cameras	video/image deblurring(圖像去模糊)	video num:71 video time: 3-5s blurry and sharp pair image num:6708	傳送門
GOPRO dataset	video/image deblurring(圖像去模糊)	blurry and sharp pair image num:3214 train num:2103 test num:1111	傳送門
BSD68	image restoration(圖像修復)/高斯降噪	image num:68	傳送門
BSD100	“image restoration(圖像修復)super resolution超分辨率重建”	image num:100	傳送門
Set5	“image restoration(圖像修復)super resolution超分辨率重建”	image num:5	傳送門
Set14	“image restoration(圖像修復)super resolution超分辨率重建”	image num:14	傳送門
Urban100	“image restoration(圖像修復)super resolution超分辨率重建”	image num:100	傳送門
NYU v2 dataset	“image restoration(圖像修復)depth super resolution深度超分辨率重建”	image num:1449	傳送門
Middlebury dataset	“image restoration(圖像修復)depth super resolution深度超分辨率重建”	image pair num: 33	傳送門
alpha matting benchmark	Natural image matting(摳圖)	“train num:27,test num:8”	傳送門
real image benchmark	Natural image matting(摳圖)	“train num:49300,test num:1000”	傳送門
MSRA10K/MSRA-B	Image saliency detection(顯著性區域檢測)	image num(MSRA10K):10000 image num(MSRA-B):5000	傳送門
ECSSD	Image saliency detection(顯著性區域檢測)	image num:1000	傳送門
DUT-OMRON	Image saliency detection(顯著性區域檢測)	image num:5168	傳送門
PASCAL-S	Image saliency detection(顯著性區域檢測)	image num:850	傳送門
HKU-IS	Image saliency detection(顯著性區域檢測)	image num:4447	傳送門
SOD	Image saliency detection(顯著性區域檢測)	image num:300	傳送門
Describable Textures Dataset	texture synthesis(紋理合成)	image num:5640 category num:47 split train:val:test = 1:1:1	傳送門
CVPPP leaf segmentation	Instance segmentation(樣例分割)	image num: 161 train num: 128 test num: 33	傳送門
KITTI car segmentation	Instance segmentation(樣例分割)	image num: 3976 train num: 3712 test num: 144 val:120	傳送門
Cityscapes	Instance segmentation(樣例分割)	image num: 5000 train num: 2975 test num: 1525 val:500	傳送門
SYMMAX	Symmetry Detection(對稱性檢測)	image num: train:200 test:100	傳送門
WHSYMMAX	Symmetry Detection(對稱性檢測)	image num: train:228 test:100 object num: 1	傳送門
SK506	Symmetry Detection(對稱性檢測)	image num: train:300 test:206 object num: 16	傳送門
Sym-PASCAL	Symmetry Detection(對稱性檢測)	image num: train:648 test:787 object num: 14	傳送門
Color Checker Dataset	Color constancy(顏色恒定)	image num: 568	傳送門
NUS 8-Camera Dataset	Color constancy(顏色恒定)	image num: 1736	傳送門

Text 文本

數據集	介紹	備注	網址
Stanford Sentiment Treebank	文本情感分析	11855個句子劃分為239231個短語，每個短語有個概率值，越小越負面，越大越正面	傳送門
IMDB	文本情感分析	100,000句子，正面負面兩類	傳送門
Yelp	文本情感分析	無	傳送門
Multi-Domain Sentiment Dataset(Amazon product)	文本情感分析	100,000+句子，正面負面2類或強正面、弱正面、中立、弱負面、強負面5類	傳送門
SemEval	文本情感分析	20,632句子，三類（正面、負面、中立）	傳送門
Sentiment140(STS)	文本情感分析	1,600,000句子,三類（正面、負面、中立）	傳送門

情感/觀點/評論傾向性分析

數據集	備注	網址
ChnSentiCorp_htl_all	7000 多條酒店評論數據，5000 多條正向評論，2000 多條負向評論	傳送門
waimai_10k	某外賣平臺收集的用戶評價，正向 4000 條，負向約 8000 條	傳送門
online_shopping_10_cats	10 個類別，共 6 萬多條評論數據，正、負向評論各約 3 萬條，包括書籍、平板、手機、水果、洗發水、熱水器、蒙牛、衣服、計算機、酒店	傳送門
weibo_senti_100k	10 萬多條，帶情感標注新浪微博，正負向評論約各 5 萬條	傳送門
simplifyweibo_4_moods	36 萬多條，帶情感標注新浪微博，包含 4 種情感，其中喜悅約 20 萬條，憤怒、厭惡、低落各約 5 萬條	傳送門
dmsc_v2	28 部電影，超 70 萬用戶，超 200 萬條評分/評論數據	傳送門
yf_dianping	24 萬家餐館，54 萬用戶，440 萬條評論/評分數據	傳送門
yf_amazon	52 萬件商品，1100 多個類目，142 萬用戶，720 萬條評論/評分數據	傳送門

更多數據集可前往github搜索“chineseNLP”下載，傳送門：

　　https://github.com/search?utf8=%E2%9C%93&q=chineseNLP&type=

以及大規模數據及：

總結

以上是生活随笔為你收集整理的深度学习数据集近百个开源数据集的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Qt 定时器Timer使用
下一篇：怎么创建具有真实纹理的CG场景岩石？