日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 人工智能 > 卷积神经网络 >内容正文

卷积神经网络

将图卷积神经网络用于解码分子生成

發(fā)布時(shí)間:2024/10/8 卷积神经网络 142 豆豆
生活随笔 收集整理的這篇文章主要介紹了 将图卷积神经网络用于解码分子生成 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

?PaperWeekly 原創(chuàng) ·?作者|張瑋瑋

學(xué)校|東北大學(xué)碩士

研究方向|腦電情緒識(shí)別

論文標(biāo)題:

A Two-Step Graph Convolutional Decoder for Molecule Generation

論文鏈接:

https://arxiv.org/abs/1906.03412

引言

1.1 論文動(dòng)機(jī)

藥物發(fā)現(xiàn)和材料科學(xué)的一個(gè)基本問(wèn)題是設(shè)計(jì)具有優(yōu)化化學(xué)性質(zhì)的任意分子。由于分子本質(zhì)上是組合在一起的,化學(xué)結(jié)構(gòu)中的任何小擾動(dòng)都可能導(dǎo)致所需分子性質(zhì)的大變化。因此,這是一個(gè)極具挑戰(zhàn)性的數(shù)學(xué)和計(jì)算問(wèn)題。

此外,隨著原子和鍵的組合排列數(shù)量的不斷增加,有效分子的空間也越來(lái)越大。目前,大多數(shù)藥物都是經(jīng)過(guò)化學(xué)和藥理學(xué)專家多年的反復(fù)試驗(yàn)而制作的。最近機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的進(jìn)展開(kāi)辟了一個(gè)新的研究方向,有望學(xué)習(xí)這些分子空間來(lái)優(yōu)化分子生成,減少實(shí)驗(yàn)流程。

1.2 論文工作

論文提出了一個(gè)分子生成自動(dòng)編碼器框架。分子圖首先被編碼成一個(gè)連續(xù)的潛在表示 ,然后再被解碼回一個(gè)分子。編碼過(guò)程很簡(jiǎn)單,但解碼過(guò)程仍然具有挑戰(zhàn)性。

在本工作中,我們介紹了一個(gè)簡(jiǎn)單的兩步譯碼過(guò)程。在第一步,一個(gè)完全連接的神經(jīng)網(wǎng)絡(luò)使用潛在的向量 生成一個(gè)分子式,例如二氧化碳(一個(gè)碳和兩個(gè)氧原子)。

在第二步中,圖形卷積神經(jīng)網(wǎng)絡(luò)使用相同的潛在向量 在第一步中產(chǎn)生的原子之間建立鍵(例如,將在碳和每個(gè)氧之間建立一個(gè)雙鍵)。這個(gè)兩步過(guò)程,首先生成一袋原子,然后組裝,允許開(kāi)發(fā)一個(gè)高效的分子自動(dòng)編碼器。

本文方法

圖1表示自動(dòng)編碼器框架。在本節(jié)中,詳細(xì)介紹系統(tǒng)的各個(gè)部分:

2.1 分子編碼器

每個(gè)原子類型和邊緣類型首先嵌入到空間 中,然后這些特征通過(guò) 層圖神經(jīng)網(wǎng)絡(luò)進(jìn)行處理。本文使用 Bresson 和 Laurent 中引入的 garph ConvNet 技術(shù)來(lái)計(jì)算隱藏節(jié)點(diǎn)和邊緣特征表示。 表示節(jié)點(diǎn)特征, 表示邊 之間的關(guān)系。圖卷積網(wǎng)絡(luò)更新 和 ?如下:

其中, 表示 dense attention function, 表示 sigmoid 函數(shù),ReLU 表示 ReLU 非線性函數(shù),BN 為 batch normalization。每一層都有一組不同的參數(shù),最后,利用縮減步驟來(lái)產(chǎn)生固定大小的向量 :

2.2 原子生成

編碼器的第一步是產(chǎn)生分子式,分子式表示分子中每種類型原子的數(shù)量,而沒(méi)有鍵結(jié)構(gòu)的信息。例如二氧化碳的分子式是 ,表示這個(gè)分子含有一個(gè)碳和三個(gè)氧。分子式可以看作是分子的一個(gè)簡(jiǎn)單的原子袋表示。

三氧化二碳的分子式可用向量表示 (1 個(gè)碳,0 個(gè)氮,3 個(gè)氧)。一般來(lái)說(shuō),如果我們考慮具有 m 種可能類型的原子的分子,分子公式可以用包含每種類型原子的 m 個(gè)分量的向量表示。

由于分子式是由一個(gè)固定大小的向量 m 表示的,它可以很容易地由一個(gè)全連接的神經(jīng)網(wǎng)絡(luò)產(chǎn)生。因此,解碼器的第一步是將潛在向量 z 輸入到一個(gè)完全連接的神經(jīng)網(wǎng)絡(luò)(這里是一個(gè)隱藏層的 MLP):

?是一個(gè) 矩陣,其中 為原子類型的數(shù)量, 為訓(xùn)練集中最大分子大小。分子式 是沿著 的第二維得分最大值的指標(biāo)產(chǎn)生的。分子式生成之后,解碼器將決定如何通過(guò)生成原子之間的鍵來(lái)連接每個(gè)原子。

2.3 連接鍵的生成

解碼器的第二步是利用原子袋向量 和潛在表示 在一個(gè)單一通道中組裝原子,為此,本文首先通過(guò)連接分子式中的每個(gè)原子來(lái)創(chuàng)建一個(gè)完全連通的圖。全連通圖的每個(gè)頂點(diǎn)通過(guò)某個(gè)嵌入矩陣接收到 中對(duì)應(yīng)于原子類型的特征,每條邊接收到相同的嵌入特征向量 , 為某個(gè)可學(xué)習(xí)的權(quán)值矩陣。

然后由第一個(gè)所描述的圖卷積網(wǎng)絡(luò)的 層對(duì)該全連通圖進(jìn)行處理,并添加新的分子解碼參數(shù)。由此得到的最后一個(gè)卷積層的特征向量 可以用來(lái)預(yù)測(cè)在可能的類型中連接原子 和原子 的鍵的類型:

預(yù)測(cè)邊緣類型的一種簡(jiǎn)單方法是使用 MLP 對(duì)每個(gè)向量 進(jìn)行獨(dú)立分類:

其中 為邊得分,n 為 b 中的鍵數(shù),最終取最大邊得分指數(shù)來(lái)選擇邊類型。

2.4 位置編碼

圖 1 右上方所示的全連通圖,初始化時(shí),鍵解碼器的 5 條邊每條都有完全相同的特征 ,3 個(gè)碳原子每條都有相同的特征向量(碳類型的嵌入向量)。

當(dāng) GCN 處理此圖時(shí),碳原子上的特征將無(wú)法彼此區(qū)分(以及連接碳和氧的 3 條邊上的特征)。為了彌補(bǔ)這一對(duì)稱性問(wèn)題,我們引入了一些位置特征,允許將同一類型的原子嵌入到不同的向量中,從而區(qū)分同一類型的原子。

位置特征

化合物二氯氧 3,它的分子式是 (2 個(gè)氯和 6 個(gè)氧)。假設(shè)我們有一種自然的方式來(lái)排列分子中的原子,這樣組成二氯六氧化合物的 8 個(gè)原子可以寫(xiě)成:

表示分子中的第 3 個(gè)氧。”在本例中,我們將數(shù)字 3 稱為位置特性”,作者只是根據(jù)原子在分子的標(biāo)準(zhǔn) SMILES 表示中出現(xiàn)的位置,這些位置特征包含了一些關(guān)于分子的弱結(jié)構(gòu)信息。

2.5 變分自編碼器(VAE)

最后,本文使用了 VAE 方法來(lái)填充潛在空間來(lái)改善分子生成任務(wù),VAE 需要學(xué)習(xí)參數(shù)化的分子潛在向量表示 :

其中, 與 可以通過(guò)帶有 reduction layer 的編碼器學(xué)習(xí)到:

總損失由三項(xiàng)組成:邊緣概率的交叉熵?fù)p失、原子袋概率的交叉熵?fù)p失和 VAE 高斯分布的 Kullback Leibler 散度:

最后,輸入和輸出分子之間不需要匹配,因?yàn)槭褂昧讼嗤脑禹樞颉?/p>

2.6 束搜索

由于潛在的原子價(jià)破壞,所提出的一次性解碼器可能不能產(chǎn)生化學(xué)上有效的分子。我們使用波束搜索技術(shù)來(lái)產(chǎn)生一個(gè)有效分子。波束搜索的定義如下。我們從一條隨機(jī)的邊開(kāi)始。

我們選擇(1)有最大概率(或通過(guò)伯努利抽樣)的下一條邊,(2)連接到所選的邊,且(3)不違反價(jià)原理。當(dāng)邊選擇結(jié)束時(shí),生成一個(gè)分子。本文對(duì)不同隨機(jī)初始化的 重復(fù)這個(gè)過(guò)程,生成 候選分子。最后,本文選擇了最大限度的邊緣概率或化學(xué)性質(zhì)的乘積的分子。

實(shí)驗(yàn)

3.1 數(shù)據(jù)集

本文使用的 ZINC 分子數(shù)據(jù)集,該數(shù)據(jù)集有 250k 類藥物分子,有 38 個(gè)重原子(氫原子除外)。數(shù)據(jù)集最初是用 smile 編碼的,并使用開(kāi)源的化學(xué)信息學(xué)軟件包 Rdkit2 來(lái)獲得規(guī)范的 smile 表示。

3.2 分子重構(gòu)

第一個(gè)任務(wù)是重構(gòu)潛在空間的分子并從中取樣。表 1 了重表示了分子重建和有效性結(jié)果。為了評(píng)估系統(tǒng)的新穎性和唯一性,我們從先驗(yàn)分布 采樣 5000 個(gè)分子。

表 2 給出了結(jié)果表示,我們的系統(tǒng)不只是簡(jiǎn)單地記憶訓(xùn)練集,它還能夠生成 100% 的新的有效分子。此外,所有的新分子都是不同的,因?yàn)樾路f性度量是 100%(生成數(shù)據(jù)集中分子的唯一百分)。圖2展示了一些生成的分子。

3.3 性質(zhì)優(yōu)化

第二個(gè)任務(wù)是生產(chǎn)具有理想化學(xué)性質(zhì)的新分子。本文選擇目標(biāo)性質(zhì)為辛醇-水分配系數(shù)(logP),由合成可達(dá)性(SA)評(píng)分和長(zhǎng)循環(huán)次數(shù)懲罰。為了進(jìn)行分子優(yōu)化,我們訓(xùn)練我們的 VAE 同時(shí)自動(dòng)編碼訓(xùn)練分子和目標(biāo)化學(xué)性質(zhì)。

為此,我們?cè)趫D形卷積編碼器之后添加了一個(gè) MLP 層來(lái)預(yù)測(cè)化學(xué)性質(zhì),并添加了一個(gè) 回歸損失來(lái)懲罰不良的性質(zhì)預(yù)測(cè).

利用梯度上升法對(duì)潛在空間的化學(xué)性質(zhì)進(jìn)行優(yōu)化,然后對(duì)分子進(jìn)行解碼并計(jì)算目標(biāo)性質(zhì)。本文對(duì)訓(xùn)練集中屬性值排名前 100 的分子進(jìn)行了優(yōu)化。表 3 報(bào)告了我們的模型和文獻(xiàn)中排名前 3 的分子。

第三個(gè)任務(wù)是生成具有優(yōu)化化學(xué)性質(zhì)的新分子,同時(shí)約束原始分子和生成分子之間的分子相似性。在表4中報(bào)告了性能的改進(jìn)和原始分子與生成分子之間的分子相似性。圖4給出了約束優(yōu)化的分子與分子距離。

總結(jié)

針對(duì)分子生成任務(wù),本文引入了一種簡(jiǎn)單有效的 VAE 模型。解碼器可以一次性生成分子式和鍵結(jié)構(gòu)。據(jù)我們所知,這也是束搜索首次用于改進(jìn)分子生成任務(wù),beam 搜索可以高度并行化,就像自然語(yǔ)言處理系統(tǒng)一樣,總體而言,本文提出的技術(shù)更容易實(shí)現(xiàn)。

更多閱讀

#投 稿?通 道#

?讓你的論文被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。

總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得技術(shù)干貨。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來(lái)。

?????來(lái)稿標(biāo)準(zhǔn):

? 稿件確系個(gè)人原創(chuàng)作品,來(lái)稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?

? 如果文章并非首發(fā),請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?

? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志

?????投稿郵箱:

? 投稿郵箱:hr@paperweekly.site?

? 所有文章配圖,請(qǐng)單獨(dú)在附件中發(fā)送?

? 請(qǐng)留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通

????

現(xiàn)在,在「知乎」也能找到我們了

進(jìn)入知乎首頁(yè)搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

總結(jié)

以上是生活随笔為你收集整理的将图卷积神经网络用于解码分子生成的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。