日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

图谱实战 | 斯坦福黄柯鑫:图机器学习在生物图上的应用

發布時間:2024/7/5 编程问答 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 图谱实战 | 斯坦福黄柯鑫:图机器学习在生物图上的应用 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

轉載公眾號 | DataFunSummit


分享嘉賓:黃柯鑫 斯坦福大學 博士生

編輯整理:元玉蒲 西北大學

出品平臺:DataFunTalk

導讀:大家好,我叫黃柯鑫。我現在是斯坦福大學的計算機科學博士第一年級,研究方向是機器學習在生物醫療的實際應用場景方面的挑戰。本次分享題目為分子網絡中的圖機器學習,主要介紹圖機器學習在生物系統圖上的應用。

人體的很多功能是由復雜的小的生物實體進行反應,比如說話、吃東西的背后有各種細胞在工作。比如:在吃東西的時候,食物會引起一系列的信號到細胞,激發一系列的反應,翻譯為蛋白質,不同的蛋白質合作形成功能,如果某些基因不工作會引起疾病。生物醫療領域是一個非常復雜的圖,生物實體有蛋白質、RNA、藥物、疾病等,實體之間的鏈接代表關系,設計藥品解決有問題的蛋白質。

生物醫學是一個多尺度的網絡,現在有很多知識圖可以回答一些生物問題。如果想知道這能不能解決病,即要預測藥和疾病會不會有反應。如果預測是高質量的,就可以解決在傳統的生物領域要花費很長時間的問題,達到加速解決過程的目的。

今天我會從下面的5個方面講圖機器學習在生物系統中的方向和實際應用。

01

將GNN應用于分子網絡時的特殊考慮

第一個我會講GNN應用到生物系統上需要注意的地方。GNN開始訓練的時候,利用homophily principle的性質,即相鄰節點的性質相似。

把鄰居節點傳給中心目標節點,在信號處理角度就是促進節點的embedding保持一致。這個性質適合于social網絡,但并不適合于molecular網絡。

Direct similarity指的是social網絡,節點之間的邊代表similarity,但生物網絡不是這樣的。

舉個例子,藥A和目標連接(會反應),但是藥A和目標不是同一類型,所以藥A和目標的embedding不同。假如藥A和藥B同時和目標反應,藥A和藥B不會反應但具有相似的embedding,標準GNN具有這樣的特征。

所以我們提出了SkipGNN,將藥A和藥B連接在一起,同時將藥A、藥B與目標的邊斷開。在新的圖上做GNN,會促進連接的節點相似,間接達到了促進Skip similarity。

實驗結果發現,SkipGNN的效果相比DTI、DDI、PPI、GDI得到提高。

我們還找到了一些基于SkipGNN的藥,但無法用在其他方法。

在傳統的GNN中,基因和藥是混在一起的。但是我們想要分離基因和藥,SkipGNN是可以達到這樣的效果。

第一部分,我想強調的一點是,在從傳統GNN到生物圖,不能直接應用,因為生物系統圖和其他網絡相比有很多不同的性質。在這其中也有很多機會發現生物圖的性質去設計新的圖機器學習的方法。

02

生成可操作的假設

之前我們注重的是如何做預測,但更加重要的是,如果生物科學家不懂機器學習,是不會相信AI模型產生的東西,所以要產生更多的信息。生物學家需要的是一個假設,因為蛋白質和基因有關系,所以蛋白質和藥可以有反應,這才是生物學家更加感興趣的東西。

我們研究的一個問題就是Drug-Drug Interaction(DDI),DDI是兩種藥物共同起效時造成藥效的改變。在美國,每年大概有20萬次住院就診。

為什么DDI會是一個問題?FDA批準3568種藥,其中有超過100種相互作用的類型,2種藥物的DDI有3568×3568×100=1273062400種,更不要說多種藥物的DDI。不可能在體外實驗中驗證,更不用說嚴格的臨床試驗了!我們可以輸入藥物的信息到機器學習模型中,就可以計算出各種DDI類型。

我們不僅僅想做預測,還想產生推理路徑和可操作的假設。在系統生物圖上聚焦到2種藥物,這2種藥物有很多連接節點,就可以找到節點的關系,就可以分析藥物的反應。

這是非常好的圖示,2個感興趣的節點Melatonin和Thiamine輸入到生物網絡里,提取到子圖。預測邊對于prediction是否重要,若重要則予以保留,用保留的邊做最后的預測,經過不斷訓練得到的邊就是推理路徑。

SumGNN的實驗結果也非常不錯。

比如我們感興趣的是Paroxetine和Hydroflumethiazide的2種節點,絕大部分邊已經被去掉。當同時吃上面2種藥的時候,Orthostatic hypotension和Aplastic anaemia這2種疾病的發病率會提高。?

03

在更深層次使用GNN——領域科學家的視角

第3部分我們更加往領域科學家使用的角度去思考,不僅僅有解釋、預測、可操作的假設,更重要的是接口是什么?

GNN在生物方面的目標是生成模型的預測和解釋,讓領域科學家更好地理解AI的解釋結果。

我們最近的工作是和一些專門做HCI(Human-Computer Interaction)的學者合作研究,根據不同的Graph XAI展示給用戶。我們提出了3種方法:

  • Neighbor Nodes:分別提取疾病和藥物中重要的基因,逐漸細分并構造樹結構。

  • Subgraph:構造節點之間的知識圖,通過去掉或保留邊,找到節點之間的連接關系。

  • Paths:模擬領域科學家思考藥物和疾病之間的關系,提取節點之間的路徑,可以發現第3種方法更好。如何展示給領域科學家是非常重要的。?

04

少數據轉化生物醫學圖

第4部分我想講一個具體的應用,在少數據量的前提下用圖的方法做轉化生物醫學。

我們最感興趣的是人類的問題,但是我們在實驗的時候不可能直接用于人類,而是使用小白鼠、猴子。如何從其他動物轉換到人類身上就是一個重要的問題,因為動物模型和人類模型是存在差異的。

生物是一個少數據的問題,實驗也是非常昂貴的,所以Few-shot learning是非常重要的事情。GNN可以獲取20%~30%的節點,傳統的GNN是無法學習的。

綜合剛提到的2個挑戰,如何根據少數的標簽生成從未見過的圖是一個問題。

Meta Learning就可以很好地解決這個問題,我們把它抽象成3個問題:

第1個問題:有1個圖和不同的label set,如何從已知的label得到未知的label是一個問題。

第2個問題:有相同的label和不同的圖,如何根據某幾種物種的圖生成人類的圖是一個問題。

第3個問題:是前2個問題的結合體,有不同的圖和不同的label。

我們提出了一個方法叫G-Meta,用一個簡單的思路有效地解決上面的3個問題。已知有不同的圖,對于每個節點提取子圖,利用子圖之間的相似性進行GNN學習。

前人的一些方法只能解決一部分的settings,但是我們的G-Meta方法可以解決全部的settings。G-Meta可以適用于非常大的圖,因為我們提取子圖并且只需要考慮子圖這部分。

05

治療發現中的圖機會

最后我想講一下在治療發現方面我們團隊的解決方法。

現在小分子藥非常多,效果也比較好。但是小分子藥的數量逐年在下降,有新的抗體藥物能解決一些小分子藥無法解決的問題,比如抗體藥、中藥、疫苗、基因編輯、CAR-X、數字治療等。

這里具體舉一些圖的例子,比如:分子圖、蛋白質圖、細胞關系網、知識圖等,非常多的圖被使用得很少。

找到有意義的治療發現的數據集有助于使用上面的圖。

我們最近的工作是治療學數據共享(TDC)來解決這個問題,TDC有基于22個學習任務的66個learning-ready數據集、開發工具、庫、排行榜和社區資源的生態系統,包括數據方法、系統模型評估策略、有意義的數據分割、數據處理器和分子生成預測。

  • TDC覆蓋了治療學機器學習的生活圈。

  • 我們提供了22個tasks從而解決了制定有效的治療學機器學習任務。

  • 66個ML-ready數據集包含15919332個數據點,可以直接使用處理好的數據。

  • 訓練機器學習模型,我們提供了一些數據方法,如:數據分割、分子生成預測、數據處理等。

  • 評估模型性能。

  • 與最先進的相比。

只需要3行代碼,就可以下載到數據。

這是一個數據方法的例子,比如想從SMILES轉換到DGL的圖,用3行代碼就可以實現轉換。

這是TDC的簡介和連接。

今天的分享就到這里,謝謝大家。


分享嘉賓:


OpenKG

OpenKG(中文開放知識圖譜)旨在推動以中文為核心的知識圖譜數據的開放、互聯及眾包,并促進知識圖譜算法、工具及平臺的開源開放。

點擊閱讀原文,進入 OpenKG 網站。

總結

以上是生活随笔為你收集整理的图谱实战 | 斯坦福黄柯鑫:图机器学习在生物图上的应用的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。