日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 - ICLR2022 | OntoProtein:融入基因本体知识的蛋白质预训练

發(fā)布時(shí)間:2024/7/5 编程问答 42 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文浅尝 - ICLR2022 | OntoProtein:融入基因本体知识的蛋白质预训练 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

論文題目:OntoProtein: Protein Pretraining With Gene Ontology Embedding

本文作者:張寧豫(浙江大學(xué))、畢禎(浙江大學(xué))、梁孝轉(zhuǎn)(浙江大學(xué))、程思源(浙江大學(xué))、洪浩森(浙江大學(xué))、鄧淑敏(浙江大學(xué))、連佳長(zhǎng)(浙江大學(xué))、張強(qiáng)(浙江大學(xué))、陳華鈞(浙江大學(xué))

發(fā)表會(huì)議:ICLR 2022

論文鏈接:https://arxiv.org/pdf/2201.11147.pdf

代碼鏈接:https://github.com/zjunlp/OntoProtein


一、引言

近年來,預(yù)訓(xùn)練模型以強(qiáng)大的算法效果,席卷了自然語言處理為代表的各大AI榜單與測(cè)試數(shù)據(jù)集。與自然語言類似,蛋白質(zhì)的一級(jí)結(jié)構(gòu)具有序列特性,這為將語言預(yù)訓(xùn)練模型引入蛋白質(zhì)表示提供了有利條件。然而,蛋白質(zhì)本質(zhì)上不同于自然語言文本,其包含了大量預(yù)訓(xùn)練目標(biāo)較難習(xí)得的生物學(xué)知識(shí)。事實(shí)上,人類科學(xué)家已經(jīng)積累了海量的關(guān)于蛋白質(zhì)結(jié)構(gòu)功能的生物學(xué)知識(shí)。那么如何利用這些知識(shí)促進(jìn)蛋白質(zhì)預(yù)訓(xùn)練呢?本文將介紹被ICLR2022錄用的新工作:OntoProtein,其提出一種新穎的融入知識(shí)圖譜的蛋白質(zhì)預(yù)訓(xùn)練方法。

二、蛋白質(zhì)預(yù)訓(xùn)練

?蛋白質(zhì)是控制生物和生命本身的基本大分子,對(duì)蛋白質(zhì)的研究有助于理解人類健康和發(fā)展疾病療法。蛋白質(zhì)包含一級(jí)結(jié)構(gòu),二級(jí)結(jié)構(gòu)和三級(jí)結(jié)構(gòu),其中一級(jí)結(jié)構(gòu)與語言具有相似的序列特性。受到自然語言處理預(yù)訓(xùn)練模型的啟發(fā),諸多蛋白質(zhì)預(yù)訓(xùn)練模型和工具被提出,包括MSA Transformer[1]、ProtTrans[2]、悟道 · 文溯[3]、百度的PaddleHelix等。大規(guī)模無監(jiān)督蛋白質(zhì)預(yù)訓(xùn)練甚至可以從訓(xùn)練語料中習(xí)得一定程度的蛋白質(zhì)結(jié)構(gòu)和功能。然而,蛋白質(zhì)本質(zhì)上不同于自然語言文本,其包含了諸多生物學(xué)特有的知識(shí),較難直接通過預(yù)訓(xùn)練目標(biāo)習(xí)得,且會(huì)受到數(shù)據(jù)分布影響低頻長(zhǎng)尾的蛋白質(zhì)表示。為了解決這些問題,我們利用人類科學(xué)家積累的關(guān)于蛋白質(zhì)結(jié)構(gòu)功能的海量生物知識(shí),提出融合知識(shí)圖譜的蛋白質(zhì)預(yù)訓(xùn)練方法。下面首先介紹知識(shí)圖譜構(gòu)建的方法。

三、基因知識(shí)圖譜

我們通過訪問公開的基因本體知識(shí)圖譜“Gene Ontology(簡(jiǎn)稱Go)”,并將其和來自Swiss-Prot數(shù)據(jù)庫的蛋白質(zhì)序列對(duì)齊,來構(gòu)建用于預(yù)訓(xùn)練的知識(shí)圖譜ProteinKG25,該知識(shí)圖譜包含4,990,097個(gè)三元組, 其中4,879,951個(gè)蛋白質(zhì)-Go的三元組,110,146 個(gè)Go-Go三元組,并已全部開放供社區(qū)使用。如下圖所示,基于“結(jié)構(gòu)決定功能”的思想,如果在蛋白質(zhì)預(yù)訓(xùn)練過程中顯式地告訴模型什么樣的結(jié)構(gòu)具備什么樣的功能,顯然能夠促進(jìn)如蛋白質(zhì)功能預(yù)測(cè)、蛋白質(zhì)交互預(yù)測(cè)等任務(wù)的效果。

四、融入基因知識(shí)圖譜的蛋白質(zhì)預(yù)訓(xùn)練:OntoProtein

基于構(gòu)建好的知識(shí)圖譜,我們?cè)O(shè)計(jì)了一個(gè)特殊的蛋白質(zhì)預(yù)訓(xùn)練模型OntoProtein。注意到在預(yù)訓(xùn)練輸入中包含兩種不同的序列:蛋白質(zhì)序列和描述蛋白質(zhì)功能、生物過程等的文本描述信息。因此,我們采取兩路不同的編碼器。對(duì)蛋白質(zhì)序列我們采用已有的蛋白質(zhì)預(yù)訓(xùn)練模型ProtBert進(jìn)行編碼,對(duì)文本序列我們采用BERT進(jìn)行編碼。為了更好地進(jìn)行預(yù)訓(xùn)練和融合三元組知識(shí)信息,我們采用了兩個(gè)優(yōu)化目標(biāo)。首先是傳統(tǒng)的掩碼語言模型目標(biāo),我們通過隨機(jī)Mask序列中的一個(gè)Token并預(yù)測(cè)該Token。其次是三元組知識(shí)增強(qiáng)目標(biāo),我們通過類似知識(shí)圖譜嵌入學(xué)習(xí)的方式來植入生物學(xué)三元組知識(shí),如下公式所示:

注意到這里的事實(shí)知識(shí)分為兩類不同的三元組,分別是Go-Go和蛋白質(zhì)-Go,因此我們提出一種知識(shí)增強(qiáng)的負(fù)采樣方法,以獲得更有代表性的負(fù)樣本提升預(yù)訓(xùn)練效果,采樣方式如下 :

五、實(shí)驗(yàn)分析

我們?cè)诘鞍踪|(zhì)測(cè)試基準(zhǔn)TAPE,以及蛋白質(zhì)蛋白質(zhì)交互、蛋白質(zhì)功能預(yù)測(cè)(我們參考CAFA競(jìng)賽構(gòu)建了一個(gè)新的蛋白質(zhì)功能預(yù)測(cè)數(shù)據(jù)集)上進(jìn)行了實(shí)驗(yàn)。如下表所示,可以發(fā)現(xiàn)融合知識(shí)圖譜的蛋白質(zhì)預(yù)訓(xùn)練方法在一定程度上取得了較好或可比的性能。特別地,我們的方法沒有使用同源序列比對(duì)(MSA),因此較難超越基于MSA Transformer的方法。詳細(xì)的實(shí)驗(yàn)結(jié)果請(qǐng)參見論文,我們會(huì)在近期將預(yù)訓(xùn)練模型整理并發(fā)布到Huggingface上供社區(qū)使用。

六、小結(jié)與展望

當(dāng)下蓬勃興起的 AI for Science 正在促使以數(shù)據(jù)驅(qū)動(dòng)的開普勒范式和以第一性原理驅(qū)動(dòng)的牛頓范式的深度融合。基于“數(shù)據(jù)與知識(shí)雙輪驅(qū)動(dòng)”的學(xué)術(shù)思想,我們?cè)诒疚闹刑岢隽巳诤现R(shí)圖譜的蛋白質(zhì)預(yù)訓(xùn)練方法OntoProtein,并在多個(gè)下游任務(wù)中驗(yàn)證了模型的效果。在未來,我們將維護(hù)好OntoProtein以供更多學(xué)者使用,并計(jì)劃探索融合同源序列比對(duì)的知識(shí)圖譜增強(qiáng)預(yù)訓(xùn)練方法以實(shí)現(xiàn)更優(yōu)性能。

[1] MSA Transformer ICML2021

[2] ProtTrans: Towards Cracking the Language of Life’s Code Through Self-Supervised Learning TPAMI2021

[3] Modeling Protein Using Large-scale Pretrain Language Model 2021


OpenKG

OpenKG(中文開放知識(shí)圖譜)旨在推動(dòng)以中文為核心的知識(shí)圖譜數(shù)據(jù)的開放、互聯(lián)及眾包,并促進(jìn)知識(shí)圖譜算法、工具及平臺(tái)的開源開放。

點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 網(wǎng)站。

創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來咯,堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)

總結(jié)

以上是生活随笔為你收集整理的论文浅尝 - ICLR2022 | OntoProtein:融入基因本体知识的蛋白质预训练的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。