Nature | 基于66种癌症类型训练机器学习模型,绘制癌症基因潜在驱动突变图谱...
隨著醫療技術的進步,人類的健康水平獲得了極大提升。但面對給人類健康帶來巨大威脅的癌癥,尚沒有十分有效的治療手段。據世界衛生組織統計報告,2012年全世界估計約1410萬人被檢測出癌癥,并造成820萬人死亡(相當于全年死亡人數的14.6%)。男性最常見的癌癥包括肺癌(LUAD)、前列腺癌(PRAD)、結直腸癌(COREAD)以及胃癌(Stomach cancer);女性常見的乳癌(thoracic cancer)、結直腸癌(COREAD)、肺癌(LUAD)和宮頸癌(UCEC);兒童是白血病(ALL)和腦瘤(Brain tumour)最為常見[1]。
在整個生命過程中,細胞DNA受損后導致基因突變,并引發一系列機體反應,最終引起癌癥的發生。人類對癌癥的研究已經進入基因組時代,科學家們將癌癥相關基因進行了整理和標記[2,3]。這些癌癥相關基因又被分為驅動癌基因(driver)和從動癌基因(passenger),對于基因間的關系如何,對腫瘤發展的影響水平大小以及這些基因在不同腫瘤之間的不同突變頻率具有怎樣的意義等問題,在很大程度上仍然是個未解決的問題。已有研究表明,例如腫瘤蛋白TP53,表皮生長因子受體EGFP和β連環蛋白CTNNB1突變與大多數癌癥的發展有關。同時,絕大多數癌基因突變發生在中性突變之后,對特定三核苷酸變化具有明顯偏好。
癌癥基因機器學習模型的訓練和建立
近日,巴塞羅那生物醫學研究所研究團隊通過模擬中性突變,用機器合成一組推測的從動癌基因突變,以此來模擬在人體內癌癥相關基因的多米諾骨牌式突變。研究團隊基于機器學習的方法開發出一種算法“boostDM”(圖1),用于評估給定基因所有可能的誘變,并評估它們對癌癥發展影響的可能性。該算法可幫助臨床醫生對于病人的癌癥發展做出更準確的解釋。該研究成果發表在Nature上,文章題為“In silico saturation mutagenesis of cancer genes”。
文章的通訊作者López-Bigas表示:“該算法可模擬特定類型癌癥的每個基因中的每個可能突變,并指出哪些是癌癥過程中的關鍵。這些信息有助于我們在分子水平了解腫瘤是如何引起的,促進癌癥患者進行最適合治療的醫療決策。”
圖1.用肺癌(LUAD)樣本對機器學習模型boostDM的訓練和交叉驗證。來源:Nature[4]
研究人員從公共數據庫中收集了來自66種癌癥類型約28,000個腫瘤樣本數據,確定了568個癌癥基因突變。研究發現,與隨機突變相比,在樣本中發現的驅動癌癥生長和發展的突變數量更多。
驗證機器學習模型的性能
研究團隊通過交叉驗證檢測了boostDM模型的性能。從圖2中可以看出,boostDM模型比其他算法更加精準(precision)和更高的發現能力(recall)。boostDM獲得的數據和實驗數據具有較高的吻合度。
圖2. boostDM模型優于其他算法。來源:Nature[4]
鑒別驅動基因
研究人員在肺癌與膠質母細胞瘤中鑒定驅動癌基因和從動癌基因。(圖3)分析發現,兩種癌細胞中驅動癌基因的分布不一致,反映了腫瘤發生的不同機制。圖3D中SHAP值越大的基因表示該基因對癌癥的發展產生的驅動效應越強,越小則表示其對驅動因素負面作用回饋。
圖3.驅動癌基因的特征。來源:Nature[4]
癌癥基因的驅動突變圖譜
研究團隊將185個癌癥基因-組織模型應用于基因序列中所有可能的核苷酸變化進行實驗,以繪制全面的不同蛋白質區域具有跨腫瘤類型驅動突變的可能性的圖譜(圖4)。
圖4.TP53和CTNNB1的驅動突變圖譜,EGFR在三種腫瘤組織中的突變圖譜。來源:Nature[4]
突變概率的影響
該突變圖譜揭示了許多從未在腫瘤中觀察到的潛在驅動突變。為探索突變概率對驅動突變的影響,研究人員計算了不同腫瘤類型癌癥基因中所有潛在驅動突變的發生概率。結果顯示,大多數癌癥基因表現出強烈的突變概率偏倚,腫瘤抑制基因通常表現出比癌癥基因明顯更強的偏倚。這意味著,對于大多數癌癥基因,潛在驅動突變的發生概率會影響它們中的哪些基因會被檢測到。
總結
正如文章作者所說:“該研究結果報表明,應用受進化生物學啟發的機器學習方法來構建高質量模型是可行的。這些模型從人類腫瘤中檢測到的突變中學習,以識別癌癥基因中的驅動突變。”
到目前為止,研究團隊已經利用BoostDM制作了185個模型來識別不同類型癌癥的突變。例如,確定了導致肺癌腫瘤的EGFR基因中所有可能的突變,并在另一個模型中確定了膠質母細胞瘤腦腫瘤。研究人員計劃繼續開發和改進 BoostDM,隨著越來越多不同腫瘤測序數據的加入,應該會變得更加準確。
參考資料:
[1]. World Cancer Report 2014. World Health Organization. 2014: Chapter 1.1. ISBN 9283204298.
[2]. Sondka, Z., Bamford, S., Cole, C. G., Ward, S. A., Dunham, I., & Forbes, S. A. (2018). The COSMIC Cancer Gene Census: describing genetic dysfunction across all human cancers. Nature Reviews Cancer, 18(11), 696-705.
[3]. Martínez-Jiménez, F., Mui?os, F., Sentís, I., Deu-Pons, J., Reyes-Salazar, I., Arnedo-Pac, C., ... & Lopez-Bigas, N. (2020). A compendium of mutational cancer driver genes. Nature Reviews Cancer, 20(10), 555-572.
[4]. Mui?os, F., Martinez-Jimenez, F., Pich, O., Gonzalez-Perez, A., & Lopez-Bigas, N. (2021). In silico saturation mutagenesis of cancer genes. Nature, 1-5.
·?END?·
?熱文推薦
AJHG背靠背發文:光學基因組圖譜進行染色體畸變檢測,或將開啟“下一代細胞遺傳學”時代
復旦大學中山醫院樊嘉院士、楊欣榮教授團隊合作揭示肝細胞癌CTC空間異質性和免疫逃避機制
北大/中科院計算所團隊發布基因功能富集分析平臺KOBAS-i
PacBio斥資8億美元收購Omniome,實現長讀長和短讀長測序技術強強聯合
喜歡就點個“在看”吧!
總結
以上是生活随笔為你收集整理的Nature | 基于66种癌症类型训练机器学习模型,绘制癌症基因潜在驱动突变图谱...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 机器学习笔记十二之异常检测
- 下一篇: YumRepo Error: All m