moore 数据集_【数据集】一文道尽医学图像数据集与竞赛
首發(fā)于《與有三學(xué)AI》【數(shù)據(jù)集】一文道盡醫(yī)學(xué)圖像數(shù)據(jù)集與競賽?mp.weixin.qq.com
作者 | Nora/言有三
編輯 | Nora/言有三
在AI與深度學(xué)習(xí)逐漸發(fā)展成熟的趨勢下,人工智能和大數(shù)據(jù)等技術(shù)開始進(jìn)入了醫(yī)療領(lǐng)域,它們把現(xiàn)有的一些傳統(tǒng)流程進(jìn)行優(yōu)化,大幅度提高各種流程的效率、精度、用戶體驗(yàn),同時也緩解了醫(yī)療資源的壓力和精確度不夠的問題。
01 醫(yī)學(xué)數(shù)據(jù)集
智能醫(yī)療有很多的發(fā)展方向,例如醫(yī)學(xué)影像處理、診斷預(yù)測、疾病控制、健康管理、康復(fù)機(jī)器人、語音識別病歷電子化等。當(dāng)前人工智能技術(shù)新的發(fā)力點(diǎn)中的醫(yī)學(xué)圖像在疾病的預(yù)測和自動化診斷方面有非常大的意義,本篇即針對醫(yī)學(xué)影像中的病例分析,降噪,分割,檢索等領(lǐng)域來介紹一些常用的數(shù)據(jù)集。
1.1 病例分析數(shù)據(jù)集
1.1.1 ABIDE
數(shù)據(jù)集地址:
發(fā)布于2013年,這是一個對自閉癥內(nèi)在大腦結(jié)構(gòu)的大規(guī)模評估數(shù)據(jù)集,包括539名患有ASD和573名正常個體的功能MRI圖像。
1.1.2 OASIS
OASIS,全稱為Open Access Series of Imaging Studies,已經(jīng)發(fā)布了第3代版本,第一次發(fā)布于2007年,是一項(xiàng)旨在使科學(xué)界免費(fèi)提供大腦核磁共振數(shù)據(jù)集的項(xiàng)目。它有兩個數(shù)據(jù)集可用,下面是第1版的主要內(nèi)容。
(1) 橫截面數(shù)據(jù)集:年輕,中老年,非癡呆和癡呆老年人的橫斷面MRI數(shù)據(jù)。該組由416名年齡在18歲至96歲的受試者組成的橫截面數(shù)據(jù)庫組成。對于每位受試者,單獨(dú)獲得3或4個單獨(dú)的T1加權(quán)MRI掃描包括掃描會話。受試者都是右撇子,包括男性和女性。100名60歲以上的受試者已經(jīng)臨床診斷為輕度至中度阿爾茨海默病。
(2) 縱向集數(shù)據(jù)集:非癡呆和癡呆老年人的縱向磁共振成像數(shù)據(jù)。該集合包括150名年齡在60至96歲的受試者的縱向集合。每位受試者在兩次或多次訪視中進(jìn)行掃描,間隔至少一年,總共進(jìn)行373次成像。對于每個受試者,包括在單次掃描期間獲得的3或4次單獨(dú)的T1加權(quán)MRI掃描。受試者都是右撇子,包括男性和女性。在整個研究中,72名受試者被描述為未被證實(shí)。包括的受試者中有64人在初次就診時表現(xiàn)為癡呆癥,并在隨后的掃描中仍然如此,其中包括51名輕度至中度阿爾茨海默病患者。另外14名受試者在初次就診時表現(xiàn)為未衰退,隨后在隨后的訪視中表現(xiàn)為癡呆癥。
1.1.3 DDSM
數(shù)據(jù)集地址:
發(fā)布于2000年,這是一個用于篩選乳腺攝影的數(shù)字?jǐn)?shù)據(jù)庫,是乳腺攝影圖像分析研究社區(qū)使用的資源。該項(xiàng)目的主要支持來自美國陸軍醫(yī)學(xué)研究和裝備司令部的乳腺癌研究計(jì)劃。DDSM項(xiàng)目是由馬薩諸塞州綜合醫(yī)院(D. Kopans,R. Moore),南佛羅里達(dá)大學(xué)(K. Bowyer)和桑迪亞國家實(shí)驗(yàn)室(P. Kegelmeyer)共同參與的合作項(xiàng)目。數(shù)據(jù)庫的主要目的是促進(jìn)計(jì)算機(jī)算法開發(fā)方面的良好研究,以幫助篩選。數(shù)據(jù)庫的次要目的可能包括開發(fā)算法以幫助診斷和開發(fā)教學(xué)或培訓(xùn)輔助工具。該數(shù)據(jù)庫包含約2,500項(xiàng)研究。每項(xiàng)研究包括每個乳房的兩幅圖像,以及一些相關(guān)的患者信息(研究時間,ACR乳房密度評分,異常微妙評級,異常ACR關(guān)鍵字描述)和圖像信息(掃描儀,空間分辨率等)。包含可疑區(qū)域的圖像具有關(guān)于可疑區(qū)域的位置和類型的像素級“地面真實(shí)”信息。
1.1.4 MIAS
數(shù)據(jù)集地址:
MIAS全稱為MiniMammographic Database,是乳腺圖像數(shù)據(jù)庫。
乳腺M(fèi)G數(shù)據(jù)(Breast Mammography)有個專門的database,可以查看很多數(shù)據(jù)集,鏈接地址為:http://www.mammoimage.org/databases/
1.1.5 MURA
數(shù)據(jù)集地址:
發(fā)布于2018年2月,吳恩達(dá)團(tuán)隊(duì)開源了 MURA 數(shù)據(jù)庫,MURA 是目前最大的 X 光片數(shù)據(jù)庫之一。該數(shù)據(jù)庫中包含了源自14982項(xiàng)病例的40895張肌肉骨骼X光片。1萬多項(xiàng)病例里有9067例正常的上級肌肉骨骼和5915例上肢異常肌肉骨骼的X光片,部位包括肩部、肱骨、手肘、前臂、手腕、手掌和手指。每個病例包含一個或多個圖像,均由放射科醫(yī)師手動標(biāo)記。全球有超過17億人都有肌肉骨骼性的疾病,因此訓(xùn)練這個數(shù)據(jù)集,并基于深度學(xué)習(xí)檢測骨骼疾病,進(jìn)行自動異常定位,通過組織器官的X光片來確定機(jī)體的健康狀況,進(jìn)而對患者的病情進(jìn)行診斷,可以幫助緩解放射科醫(yī)生的疲勞。
公開可用的醫(yī)學(xué)射線照相圖像數(shù)據(jù)集概述
參考2018年論文:MURA: Large Dataset for Abnormality Detection in Musculoskeletal Radiographs.
1.1.6 ChestX-ray14
數(shù)據(jù)集地址:
參考論文:
CheXNet: Radiologist-Level Pneumonia Detection on Chest X-Rays with Deep Learning
ChestX-ray14 是由NIH研究院提供的,其中包含了30,805名患者的112,120個單獨(dú)標(biāo)注的14種不同肺部疾病(肺不張、變實(shí)、浸潤、氣胸、水腫、肺氣腫、纖維變性、積液、肺炎、胸膜增厚、心臟肥大、結(jié)節(jié)、腫塊和疝氣)的正面胸部 X 光片。研究人員對數(shù)據(jù)采用NLP方法對圖像進(jìn)行標(biāo)注。利用深度學(xué)習(xí)的技術(shù)早期發(fā)現(xiàn)并識別胸透照片中肺炎等疾病對增加患者恢復(fù)和生存的最佳機(jī)會至關(guān)重要。
1.1.7 LIDC-IDRI
數(shù)據(jù)集地址:
LIDC-IDRI數(shù)據(jù)集是由美國國家癌癥研究所(National Cancer Institute)發(fā)起收集的,目的是為了研究高危人群早期肺結(jié)節(jié)檢測。該數(shù)據(jù)集中,共收錄了1018個研究實(shí)例。對于每個實(shí)例中的圖像,都由4位經(jīng)驗(yàn)豐富的胸部放射科醫(yī)師進(jìn)行兩階段的診斷標(biāo)注。該數(shù)據(jù)集由胸部醫(yī)學(xué)圖像文件(如CT、X光片)和對應(yīng)的診斷結(jié)果病變標(biāo)注組成。
1.1.8 LUNA16
數(shù)據(jù)集地址:
發(fā)布于2016年,是肺部腫瘤檢測最常用的數(shù)據(jù)集之一,它包含888個CT圖像,1084個腫瘤,圖像質(zhì)量和腫瘤大小的范圍比較理想。數(shù)據(jù)分為10個subsets,subset包含89/88個CT scan。
LUNA16的CT圖像取自LIDC/IDRI數(shù)據(jù)集,選取了三個以上放射科醫(yī)師意見一致的annotation,并且去掉了小于3mm的腫瘤,所以數(shù)據(jù)集里不含有小于3mm的腫瘤,便于訓(xùn)練。
1.1.9 NSCLC
數(shù)據(jù)集地址:
發(fā)布于2018年,來自斯坦福大學(xué)。數(shù)據(jù)集來自211名受試者的非小細(xì)胞肺癌(NSCLC)隊(duì)列的獨(dú)特放射基因組數(shù)據(jù)集。該數(shù)據(jù)集包括計(jì)算機(jī)斷層掃描(CT),正電子發(fā)射斷層掃描(PET)/ CT圖像。創(chuàng)建該數(shù)據(jù)集是為了便于發(fā)現(xiàn)基因組和醫(yī)學(xué)圖像特征之間的基礎(chǔ)關(guān)系,以及預(yù)測醫(yī)學(xué)圖像生物標(biāo)記的開發(fā)和評估。
1.1.10 DeepLesion
數(shù)據(jù)集地址:
DeepLesion由美國國立衛(wèi)生研究院臨床中心(NIHCC)的團(tuán)隊(duì)開發(fā),是迄今規(guī)模最大的多類別、病灶級別標(biāo)注臨床醫(yī)療CT圖像開放數(shù)據(jù)集。在該數(shù)據(jù)庫中圖像包括多種病變類型,目前包括4427個患者的32,735 張CT圖像及病變信息,同時也包括腎臟病變,骨病變,肺結(jié)節(jié)和淋巴結(jié)腫大。DeepLesion多類別病變數(shù)據(jù)集可以用來開發(fā)自動化放射診斷的CADx系統(tǒng)。
1.1.11 ADNI
數(shù)據(jù)集地址:
ANDI涉及到的數(shù)據(jù)集包括如下幾部分Clinical Data(臨床數(shù)據(jù))、MR Image Data(磁共振成像)、Standardized MRI Data Sets、PET Image Data(正電子發(fā)射計(jì)算機(jī)斷層掃描)、Gennetic Data(遺傳數(shù)據(jù))、Biospecimen Data(生物樣本數(shù)據(jù))。
1.2 醫(yī)學(xué)降噪數(shù)據(jù)集
1.2.1 BrainWeb數(shù)據(jù)集
數(shù)據(jù)集地址:
發(fā)布于1997年,這是一個仿真數(shù)據(jù)集,用于醫(yī)學(xué)圖像降噪。研究者可以截取不同斷層的正常腦部仿真圖像,包括T1,T2,PD3種斷層,設(shè)置斷層的厚度,疊加高斯噪聲或者醫(yī)學(xué)圖像中常見的萊斯噪聲,最終會得到181×217大小的噪聲圖像。
1.3 醫(yī)學(xué)分割數(shù)據(jù)集
1.3.1 DRIVE數(shù)據(jù)集
數(shù)據(jù)集地址:
發(fā)布于2003年,這是一個用于血管分割的數(shù)字視網(wǎng)膜圖像數(shù)據(jù)集,它由40張照片組成,其中7張顯示出輕度早期糖尿病視網(wǎng)膜病變跡象。
1.3.2 SCR數(shù)據(jù)集
數(shù)據(jù)集地址:
發(fā)布于2000年,胸部X光片的分割,胸部X光片中解剖結(jié)構(gòu)的自動分割對于這些圖像中的計(jì)算機(jī)輔助診斷非常重要。SCR數(shù)據(jù)庫的建立是為了便于比較研究肺野,心臟和鎖骨在標(biāo)準(zhǔn)的后胸前X線片上的分割。
本著合作科學(xué)進(jìn)步的精神,我們可以自由共享SCR數(shù)據(jù)庫,并致力于在這些分割任務(wù)上維護(hù)各種算法結(jié)果的公共存儲庫。在這些頁面上,可以在下載數(shù)據(jù)庫和上載結(jié)果時找到說明,并且可以檢查各種方法的基準(zhǔn)結(jié)果。
1.3.3 醫(yī)學(xué)圖像分析benchmark
1.3.4 Ardiac MRI
數(shù)據(jù)集地址:
ardiac MRI 是心臟病患者心房醫(yī)療影像數(shù)據(jù),以及其左心室的心內(nèi)膜和外膜的圖像標(biāo)注。包括33位患者案例,每個受試者的序列由沿著長的20幀和8-15個切片組成,共7980張圖像。
1.3.5 NIH
數(shù)據(jù)集地址:
發(fā)布于2017年,這是一個胸部X射線數(shù)據(jù)集,包含30,805個患者,14個疾病圖像標(biāo)簽(其中每個圖像可以具有多個標(biāo)簽),112,820個正面X射線圖像,標(biāo)簽是使用自然語言處理從相關(guān)的放射學(xué)報(bào)告中自動提取。十四種常見的胸部病變包括肺不張,鞏固,浸潤,氣胸,水腫,肺氣腫,纖維化,積液,肺炎,胸膜增厚,心臟擴(kuò)大,結(jié)節(jié),腫塊和疝。由于許多原因,原始放射學(xué)報(bào)告(與這些胸部X射線研究相關(guān))并不是公開分享的。所以文本挖掘的疾病標(biāo)簽預(yù)計(jì)準(zhǔn)確度 > 90%,這個數(shù)據(jù)集適合做半監(jiān)督的學(xué)習(xí)。
1.4 List of Open Access
在List of Open Access Medical Imaging Datasets網(wǎng)站上可以看到更多的相關(guān)方向的數(shù)據(jù)集。
數(shù)據(jù)集地址:
02 醫(yī)學(xué)競賽
2.1 VISCERAL
地址鏈接:http://www.visceral.eu/
VISCERAL 是Visual Concept Extraction Challenge in Radiology的縮寫,是放射學(xué)中的視覺概念提取挑戰(zhàn)賽。他們提供幾種不同成像模式(例如CT和MR)的幾種解剖結(jié)構(gòu)(例如腎,肺,膀胱等)的放射學(xué)數(shù)據(jù)以及一個云計(jì)算實(shí)例。
2.2 Grand Challenges
地址鏈接:
提供了醫(yī)學(xué)圖像分析領(lǐng)域內(nèi)所有挑戰(zhàn)的概述,下面舉的例子是2019年的醫(yī)學(xué)圖像方面將要舉辦的競賽。
2.3 Dream Challenges
這個挑戰(zhàn)賽中包括有數(shù)字乳腺攝影夢想挑戰(zhàn);ICGC-TCGA DREAM體細(xì)胞突變稱為RNA挑戰(zhàn)(SMC-RNA)等等。
03 總結(jié)
最后提供給對醫(yī)學(xué)影像處理感興趣的童鞋一個超級贊的github鏈接如下:
這是Github上哈佛 beamandrew機(jī)器學(xué)習(xí)和醫(yī)學(xué)影像研究者貢獻(xiàn)的數(shù)據(jù)集,包括了醫(yī)學(xué)影像數(shù)據(jù)、競賽數(shù)據(jù)、來自電子健康記錄的數(shù)據(jù)、醫(yī)療數(shù)據(jù)、UCI數(shù)據(jù)集、生物醫(yī)學(xué)文獻(xiàn)等。
總結(jié)
以上是生活随笔為你收集整理的moore 数据集_【数据集】一文道尽医学图像数据集与竞赛的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 姚振华,一个想要胜天半子的男人
- 下一篇: 微信小程序的测试方法,抓包,模拟