日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

翻译: Deep Convolutional Neural Networks for Breast Cancer Histology Image Analysis

發布時間:2023/12/14 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 翻译: Deep Convolutional Neural Networks for Breast Cancer Histology Image Analysis 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

翻譯: Deep Convolutional Neural Networks for Breast Cancer Histology Image Analysis(深度卷積神經網絡在乳腺癌組織學圖像分析中的應用)

乳腺癌是全球癌癥死亡的主要原因之一。早期診斷顯著增加了正確治療和生存的機會,但這個過程很繁瑣,并且常常導致病理學家之間的分歧。計算機輔助診斷系統顯示出提高診斷準確性的潛力。在這項工作中,我們開發了基于深度卷積神經網絡的計算方法,用于乳腺癌組織學圖像分類。蘇木精和伊紅染色的乳腺組織學顯微鏡圖像數據集作為ICIAR 2018乳腺癌組織學挑戰賽的一部分提供。 我們的方法利用了幾種深度神經網絡架構和梯度增強樹分類器。 對于4級分類任務,我們報告準確率為87.2%。 對于檢測癌癥的2級分類任務,我們在高靈敏度操作點報告準確度為93.8%,AUC為97.3%,靈敏度/特異度為96.5 / 88.0%。 據我們所知,這種方法在自動化組織病理學圖像分類中優于其他常用方法。 我們的方法的源代碼可在https://github.com/alexander-rakhlin/ICIAR2018上公開獲取。

關鍵詞:醫學圖像,計算機輔助診斷(CAD),計算機視覺,圖像識別,深度學習

1.Introduction

乳腺癌是美國女性中最常見的癌癥(不包括皮膚癌),占美國女性新癌癥診斷的30%[1]。乳房組織活組織檢查允許病理學家利用組織學知識評估組織的微觀結構和元素。組織病理學旨在區分正常組織,非惡性(良性)和惡性病變(癌)并進行預后評估[2]。蘇木精和伊紅(H&E)的組合是常規組織病理學診斷的組織標本的主要染色。有多種類型的乳腺癌具有特征性的組織形態,見圖1.乳腺癌起源于乳腺上皮,導致導管內的惡變前上皮增生,稱為原位導管癌。浸潤性癌的特征在于癌細胞能夠突破管壁的基底膜并滲透到周圍組織中[3]。

組織,細胞和亞細胞區室的形態受與細胞分化,發育和癌癥相關的復雜生物學機制的調節[4]。 傳統上,形態學評估和腫瘤分級由病理學家在視覺上進行,然而,這個過程是乏味和主觀的,甚至在高級病理學家之間也會產生觀察之間的差異[5,6]。 在視覺分類中應用形態學標準的主觀性促使使用計算機輔助診斷(CAD)系統來提高診斷準確性,減少人為錯誤,提高觀察者間協議水平,并提高再現性[3]。

從基于規則到機器學習的應用[3],為數字病理圖像分析開發了許多方法。 最近,基于深度學習的方法在許多圖像分析任務中表現優于傳統的機器學習方法,自動化端到端處理[7-9]。 在醫學成像領域,卷積神經網絡(CNN)已成功用于糖尿病視網膜病變篩查[10],骨病預測[11]和年齡評估[12]等問題[7]。 以前基于深度學習的組織學顯微圖像分析應用已經證明了它們在診斷乳腺癌方面的潛力[3,13-15]。
在本文中,我們提出了一種用于乳腺癌類型分類的組織學顯微圖像分析方法。 我們的方法利用深度CNN進行特征提取和梯度增強樹進行分類,據我們所知,它優于其他類似解決方案。

2 Methods

2.1 Dataset

圖像數據集是來自[13]的數據集的擴展,由400個H&E染色圖像(2048×1536像素)組成。 所有圖像均采用相同的采集條件進行數字化,放大倍率為200倍,像素尺寸為0.42μ?×0.42μ?。 每個圖像都標有四種平衡類別之一:正常,良性,原位導管癌和浸潤性癌,其中類別被定義為圖像中的主要癌癥類型,參見圖1。圖像方式注釋由兩位醫學專家[16]。 挑戰的目標是為每個輸入圖像提供自動分類。

2.2方法概述

數據集的有限大小(4個類別的400個圖像)對深度學習模型的訓練提出了重大挑戰[7]。包含VGG,Inception和ResNet等數百萬參數的非常深的CNN架構在許多計算機視覺任務中取得了最先進的結果[17]。然而,從頭開始訓練這些神經網絡需要大量圖像,因為對小數據集的訓練導致過度擬合,即無法概括知識。當僅將預訓練的神經網絡的一部分擬合到新數據集時,在這些情況下的典型補救措施被稱為微調。但是,在我們的實驗中,微調方法并未表現出良好的性能。因此,我們采用了一種稱為深度卷積特征表示的不同方法[18]。為此,深度CNN在大型和一般數據集如ImageNet(10M圖像,20K類)[19]上進行訓練,用于無監督特征表示提取。在這項研究中,乳房組織學圖像使用最先進的通用網絡進行編碼,以獲得低維度的稀疏描述符(1408或2048)。這種無監督的降維步驟顯著降低了下一階段監督學習過度擬合的風險。
我們使用LightGBM作為梯度增強樹的快速,分布式,高性能實現,用于監督分類[20]。 梯度增強模型由于其速度,精度和對過度擬合的魯棒性而被廣泛用于機器學習[21]。

2.3數據預處理和擴充

為了將顯微鏡圖像放入一個共同的空間以便進行改進的定量分析,我們將[22]中描述的H&E染色在組織上的量進行標準化。對于每個圖像,我們執行50種隨機顏色增強。在[23]之后,通過將組織的RGB顏色分解為H&E顏色空間,然后將每個像素的H&E的大小乘以范圍[0.7,1.3]中的兩個隨機均勻變量來調整H&E的量。此外,在我們的初始實驗中,我們使用了不同的圖像比例,原始的2048×1536像素,縮小了一半到1024×768像素。從原始尺寸的圖像中我們隨機剪裁提取兩種尺寸800×800和1300×1300。從縮小的圖像中我們剪裁400×400像素和650×650像素的圖像。最近,我們發現縮小圖像就足夠了。因此,每個圖像由20個crops表示。然后將crops編碼為20個描述符。然后,將20個描述符的集合通過3范數池[24]組合成單個描述符:

如[24,25]中建議的那樣,超參數?= 3,?是數字作物,d?是crops的描述符,d????是圖像的合并描述符。 向量的p范數給出?= 1的平均值和?→∞的最大值。結果,對于每個原始圖像,我們獲得50(顏色增強的數量)×2(裁剪尺寸)×3(CNN編碼器)= 300個描述符。

2.4特征提取

整體預處理流水線如圖2所示。對于特征提取,我們使用Keras分布的標準預訓練ResNet-50,InceptionV3和VGG-16網絡[26]。 我們從每個模型中刪除完全連接層,以允許網絡使用任意大小的圖像。 在ResNet-50和InceptionV3中,我們通過GlobalAveragePooling將包含2048個通道的最后一個卷積層轉換為長度為2048的一維特征向量。使用VGG-16,我們將GlobalAveragePooling操作應用于四個內部卷積層:block2, block3,block4,block5分別有128,256,512,512個通道。 我們將它們連接成一個長度為1408的向量,見圖3。

2.5 訓練

我們將數據分成10個分層折疊以保持類分布。數據增加會使數據集的大小增加300倍(2個塊圖像大小x 3個編碼器x 50個顏色/仿射增強)。然而,給定圖像的描述符保持相關。為防止信息泄漏,同一圖像的所有描述符必須包含在同一折疊中。對于編碼器,crop大小和規模的每個組合,我們使用10倍交叉驗證訓練10個梯度增強模型。除了獲得交叉驗證的結果之外,這還允許我們通過有限的數據(套袋)增加模型的多樣性。此外,我們使用LightGBM中的不同隨機種子循環每個數據集5次,在模型級別上添加擴充。結果,我們訓練10(折疊數)×5(種子)×4(比例和crop)×3(CNN編碼器)= 600梯度增強模型。在交叉驗證階段,我們僅使用未經過此折疊培訓的模型來預測每個折疊。對于測試數據,我們同樣為每個圖像提取300個描述符,并將它們與針對特定塊大小和編碼器訓練的所有模型一起使用。所有增強和模型的平均值均為預測值。最后,預測類由最大概率分數定義。

3 Results

為了驗證方法,我們使用10倍交叉驗證。【0-fold cross-validation,用來測試算法準確性。是常用的測試方法。將數據集分成十份,輪流將其中9份作為訓練數據,1份作為測試數據,進行試驗。每次試驗都會得出相應的正確率(或差錯率)。10次的結果的正確率(或差錯率)的平均值作為對算法精度的估計,一般還需要進行多次10倍交叉驗證(例如10次10折交叉驗證),再求其均值,作為對算法準確性的估計。】
對于二分類非癌(正常和良性)與癌(原位導管癌和浸潤性癌),分類準確度為93.8±2.3%,ROC曲線下面積為0.973,見圖4a。 在高靈敏度設定點0.33時,模型檢測癌的靈敏度為96.5%,特異性為88.0%。 在0.50的設定點,模型的靈敏度為93.0%,特異性為94.5%,圖4a。 在200例癌癥病例中,僅有9例原位導管癌和5例浸潤性癌,圖4b。


表1顯示了4分類的分類準確性。 所有fold的平均準確度為87.2±2.6%。 最后,從表1中可以看出我們使用的強增強和模型融合的重要性。融合模型的準確度比其任何單個成分高出4-5%。整體10倍的標準偏差是兩倍。 低于各個型號的平均標準偏差。 此外,通過對5個種子模型進行平均,我們在表1中的所有結果都略有改善。

4.結論

在本文中,我們提出了一種簡單有效的方法,用于在非常小的訓練數據(幾百個樣本)的情況下對H&E染色的組織學乳腺癌圖像進行分類。 為了提高分類器的穩健性,我們使用強大的數據增強和深度卷積特征,這些特征是在ImageNet上預先訓練的公共CNN上提取的。 最重要的是,我們應用高度準確且易于過度擬合的梯度增強算法。 與以前的一些方法不同,我們有目的的避免在這一數據量上訓練神經網絡,以防止過擬合。據我們所知,本文的結果優于文獻報道的乳腺癌圖像的自動分析[13-15]。


個人翻譯僅供參考,請大家及時指出錯誤

總結

以上是生活随笔為你收集整理的翻译: Deep Convolutional Neural Networks for Breast Cancer Histology Image Analysis的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。