谷歌乳腺癌检测AI比医生更好?技术进步还没那么快
圖:谷歌的健康部門團(tuán)隊(duì)、DeepMind部門和倫敦帝國理工學(xué)院使用了三個(gè)不同的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),從上到下分別是Facebook AI的“RetinaNet”與谷歌的“MobileNetV2”結(jié)合體,中間部分是ResNet-v2-50,最后底層的ResNet-v1-50。每個(gè)神經(jīng)網(wǎng)絡(luò)都以不同的方式挑選出乳房X光照片中看起來可疑的區(qū)域,然后對發(fā)現(xiàn)進(jìn)行匯總,以得出關(guān)于癌癥或非癌癥的概率決定
谷歌旗下健康部門Google Health、AI部門DeepMind聯(lián)手倫敦帝國理工學(xué)院的研究人員日前在《自然》(Nature)雜志上撰文,描述了三個(gè)深度學(xué)習(xí)網(wǎng)絡(luò)如何在某些情況下通過閱讀乳房X光照片診斷癌癥方面勝過人類放射科醫(yī)生。但相關(guān)細(xì)則顯示,這項(xiàng)技術(shù)還沒有達(dá)到完全取代放射科醫(yī)生的水平。
如果你得到“相當(dāng)正確”的評價(jià),也就是說正確多于錯(cuò)誤,結(jié)果可能并不太令人滿意。但如果你是個(gè)人工智能(AI)算法,你會為此得到很多贊譽(yù)。畢竟,AI程序不一定要給出明確的答案,只需要給出概率答案,或正確答案的可能性(百分比),無論是執(zhí)行自然語言翻譯還是診斷癌癥任務(wù)。
AI取得概率成就的最新例子出現(xiàn)在本周的《自然》雜志上,題為“乳腺癌篩查AI系統(tǒng)的國際評估”,由來自谷歌健康部門、DeepMind和倫敦帝國理工學(xué)院的31名學(xué)者撰寫,作者包括斯科特·邁耶·麥金尼(Scott Mayer McKinney)、馬爾辛·西尼克(Marcin T.Sieniek)、瓦倫·戈德布爾(Varun Godbole)和喬納森·戈德溫(Jonathan Godwin)以及DeepMind首席執(zhí)行官戴米斯·哈薩比斯(Demis Hassabis)等。
頭條新聞是,谷歌的科學(xué)在事后數(shù)年的乳房x光檢查中戰(zhàn)勝了英國和美國的放射學(xué)家,并宣布是否存在癌癥的診斷,表明“假陽性和假陰性的誤報(bào)大幅減少。”這種AI技術(shù)甚至擊敗了一個(gè)由6名人類放射科醫(yī)生組成的團(tuán)隊(duì),他們受托執(zhí)行這項(xiàng)任務(wù),查看了500張乳房X光照片,并給出了診斷結(jié)果。
結(jié)果對AI工具發(fā)展方面做出了重要貢獻(xiàn),這可能對醫(yī)生也非常有用。但這并不意味著它可以取代人類醫(yī)生的診斷。仔細(xì)觀察數(shù)據(jù)很重要,因?yàn)槔锩姘挡刂S多鮮為人知的東西。
我們首先看下研究背景:科學(xué)家們從英國三家不同的醫(yī)院收集了2012年至2015年間接受乳腺癌篩查的女性數(shù)據(jù),這些女性符合某些標(biāo)準(zhǔn),如年齡和檢查,總共有13918名女性數(shù)據(jù)。這就是研究人員用來訓(xùn)練神經(jīng)網(wǎng)絡(luò)系統(tǒng)的東西。一旦系統(tǒng)經(jīng)過培訓(xùn),另有2.6萬名女性數(shù)據(jù)被用于測試該系統(tǒng)。研究人員還對一家美國醫(yī)院收集的數(shù)據(jù)進(jìn)行了同樣的處理,即西北紀(jì)念醫(yī)院從2001年到2018年收集的數(shù)據(jù),只是樣本數(shù)量要小得多。
科學(xué)家們訓(xùn)練了巧妙的三種不同神經(jīng)網(wǎng)絡(luò),每個(gè)神經(jīng)網(wǎng)絡(luò)都以不同的細(xì)節(jié)水平觀察乳房X光照片。深度學(xué)習(xí)的這種設(shè)置細(xì)節(jié)令人著迷,也許代表了結(jié)合機(jī)器學(xué)習(xí)網(wǎng)絡(luò)的最先進(jìn)水平。其中一種神經(jīng)網(wǎng)絡(luò)是ResNet V-150,到目前為止是一種經(jīng)典的圖像識別方法,由何凱明博士及其微軟同事在2015年開發(fā)。
第二個(gè)神經(jīng)網(wǎng)絡(luò)是RetinaNet,由Facebook AI研究學(xué)者于2017年開發(fā)。第三個(gè)是谷歌科學(xué)家去年發(fā)布的MobileNet V2神經(jīng)網(wǎng)絡(luò)。這是一個(gè)非常棒的混合方法,展示了代碼共享和開放的科學(xué)出版物如何豐富每個(gè)網(wǎng)絡(luò)的工作。詳細(xì)信息包含在《自然》雜志主要論文底部的補(bǔ)充材料論文中。
現(xiàn)在,棘手的部分來了:經(jīng)過訓(xùn)練的網(wǎng)絡(luò)所判斷的病例中,是否有乳腺癌病例經(jīng)隨后的活組織檢查證實(shí)為“基本事實(shí)”。換句話說,診斷不僅僅是圖像上的東西是什么樣子的,還包括隨后的醫(yī)學(xué)測試通過明確地提取一塊癌變組織而得出的結(jié)論。在這種情況下,對于癌癥的存在,答案是明確的是或不是。
但上面描述的三個(gè)深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的完美結(jié)合,并不能給出是或不是的明確答案。它只會產(chǎn)生一個(gè)從0到1的分?jǐn)?shù)作為一個(gè)“連續(xù)值”,而不是二元式的“非此即彼”判斷。換句話說,AI診斷可能是絕對精確的,也可能是完全錯(cuò)誤的,這取決于在任何給定的情況下,它離正確的值有多近或多遠(yuǎn),是0還是1。
為了將概率分?jǐn)?shù)與人類在做出判斷時(shí)所做的事情相匹配,麥金尼和他的同事們不得不將AI的概率分?jǐn)?shù)轉(zhuǎn)換為二進(jìn)制值。他們是通過一套單獨(dú)的驗(yàn)證測試來挑選單個(gè)答案來做到這一點(diǎn)的。將“優(yōu)越性”與人類判斷進(jìn)行比較,是AI在其產(chǎn)生的更廣泛總答案集中精選出相對準(zhǔn)確答案的方式。
正如作者解釋的那樣:“AI系統(tǒng)天生就會產(chǎn)生一個(gè)連續(xù)的分?jǐn)?shù),代表癌癥存在的可能性,因此,為了支持與人類醫(yī)生的預(yù)測進(jìn)行比較,我們對這個(gè)分?jǐn)?shù)進(jìn)行了閾值劃分,以產(chǎn)生類似的二元篩查決定,在這種情況下,閾值意味著選擇一個(gè)單一的點(diǎn)進(jìn)行比較。對于每個(gè)臨床基準(zhǔn),我們使用驗(yàn)證集來選擇一個(gè)不同的操作點(diǎn),這相當(dāng)于一個(gè)將正面和負(fù)面決策分開的分?jǐn)?shù)閾值。”
與英國的數(shù)據(jù)相比,AI在預(yù)測某種東西是否是癌癥方面幾乎和人類一樣好。正如報(bào)告中所說,這個(gè)術(shù)語是“非劣質(zhì)的”,意思是它并不比人類的判斷力差。AI網(wǎng)絡(luò)做得明顯更好的領(lǐng)域是所謂的“特異性”,這是一個(gè)統(tǒng)計(jì)學(xué)術(shù)語,意思是神經(jīng)網(wǎng)絡(luò)在避免假陽性方面做得更好。也就是說,在不存在的情況下預(yù)測疾病。這當(dāng)然很重要,因?yàn)楸徽`診為癌癥對女性來說意味著太多的壓力和焦慮。
不過,值得注意的是,在這種情況下,人類得分來自醫(yī)生,他們必須判斷是否需要根據(jù)乳房X光檢查進(jìn)行進(jìn)一步的檢查,如活檢。可以想象,在診斷的早期階段,醫(yī)生可能會做出過于寬泛的評估,以便推動患者進(jìn)行進(jìn)一步的測試,以避免發(fā)生未發(fā)現(xiàn)癌癥的風(fēng)險(xiǎn)。這是醫(yī)生決定病人下一步去哪里和機(jī)器猜測幾年后結(jié)果的可能性之間的根本區(qū)別。
換句話說,坐在患者面前的醫(yī)生通常不會試圖猜測未來幾年的結(jié)果概率,而是試圖確定患者下一步要采取的關(guān)鍵步驟是什么?例如,即使AI在特定情況下根據(jù)乳房X光檢查確定癌癥的可能性很低,患者仍會希望他們的醫(yī)生犯了錯(cuò)誤,并開出活檢處方,以確保安全而不留下遺憾。他們很可能會欣賞這種謹(jǐn)慎。
科學(xué)家們在總結(jié)部分寫道,盡管AI發(fā)現(xiàn)了醫(yī)生漏掉的病例,但也有好幾個(gè)醫(yī)生診斷的患癌病例被AI忽略。這在額外的“讀數(shù)研究”中尤其明顯,在這項(xiàng)研究中,6名人類放射科醫(yī)生觀察了500例癌癥篩查。研究人員發(fā)現(xiàn)了“所有六位放射科醫(yī)生都漏掉的癌癥樣本,但被AI系統(tǒng)正確識別出來”,而“六位放射科醫(yī)生都發(fā)現(xiàn)了的癌癥樣本,卻被AI系統(tǒng)漏掉了。”
有些令人不安的是,作者寫道,目前還不完全清楚AI在每一種情況下成功或失敗的原因。他們稱:“盡管我們無法在這些情況下確定明確的模式,但這種邊緣情況的存在表明,AI系統(tǒng)和人類醫(yī)生在得出準(zhǔn)確結(jié)論方面可能起到互補(bǔ)作用。”
可以肯定的是,人們想知道更多關(guān)于這三個(gè)深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)是如何進(jìn)行概率猜測的。比如說,它們看到了什么?這個(gè)問題,即神經(jīng)網(wǎng)絡(luò)代表什么的問題,沒有在研究中得到解決,但對于AI在如此敏感的應(yīng)用中來說,這是一個(gè)至關(guān)重要的問題。
綜上所述,我們面臨的一個(gè)大問題是:對于一個(gè)能夠比許多必須進(jìn)行初步評估的醫(yī)生更準(zhǔn)確地預(yù)測未來癌癥發(fā)展概率的系統(tǒng),我們應(yīng)該付出多大的努力去開發(fā)?如果這些概率分?jǐn)?shù)能夠幫助醫(yī)生在某些“邊緣案例”中做出決定,那么,幫助醫(yī)生使用AI的價(jià)值將是非常高的,即使在這一點(diǎn)上AI并不能真正取代醫(yī)生。
總結(jié)
以上是生活随笔為你收集整理的谷歌乳腺癌检测AI比医生更好?技术进步还没那么快的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 创业者陈智宏心生郁结自杀:曾卖房给员工发
- 下一篇: 微软发布公告称 IE 0day 漏洞已遭