當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

序列比对概念及相应工具的对比

發(fā)布時間：2023/12/20 编程问答 35 豆豆

生活随笔收集整理的這篇文章主要介紹了序列比对概念及相应工具的对比小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

序列比對概念及相應(yīng)工具的對比

0x01 概念和意義

在生物信息學(xué)研究中,最基本的部分是序列比對,而最基本的操作是比對,主要可分為雙系列比對和多序列比對,辨別序列之間的差異,同時發(fā)現(xiàn)生物序列中的機(jī)構(gòu)和功能信息,進(jìn)而發(fā)現(xiàn)它們的相似性和同源性,比較多個生物序列相似性是由序列比對來完成的。總的來說,序列比對的意義是對序列的相似性在核酸、氨基酸的層次上進(jìn)行分析,從而推測比對中的各個序列間結(jié)構(gòu)功能以及進(jìn)化上的聯(lián)系,它也通過對各種不同類型的生物序列進(jìn)行比對,以尋找與確定比對序列的穩(wěn)定區(qū)域與變化規(guī)則,發(fā)現(xiàn)它們的功能特征和區(qū)別。通過序列比對,也可以檢測新序列與數(shù)據(jù)庫中已知序列的相似性關(guān)系(結(jié)構(gòu)和功能),從而為確定新序列的結(jié)構(gòu)和功能信息提供事實(shí)根據(jù),由上可說明序列比對是基因識別、分子進(jìn)化、生命起源等研究的基礎(chǔ),而對序列比對的研究于基因結(jié)構(gòu)和功能的研究具有較大的實(shí)際意義。

研究序列相似性的目的之一是通過相似的序列得到相似的結(jié)構(gòu)或相似的功能，另一個目的是通過序列的相似性，判別序列之間的同源性，推測序列之間的進(jìn)化關(guān)系。

相應(yīng)地在惡意代碼api序列檢測上也可以適用。

序列比對又稱序列重排或?qū)?zhǔn),根據(jù)進(jìn)行比對的生物序列數(shù)目序列比對可分為雙序列比對和多序列比對。

雙序列比對算法點(diǎn)陣圖方法和動態(tài)規(guī)劃算法，而多序列比對算法主要有漸進(jìn)比對和迭代比對

雙序列比對主要有：FASTA 和 BALST算法

FASTA算法（使用候選區(qū)域）

首先,需找待查序列與已知序列長度為 k 的公共子串,命名為熱點(diǎn)區(qū)域;

第二,延長熱點(diǎn)區(qū)域,形成更長的部分比對區(qū)域;

第三,綜合第二步的比對區(qū)域,獲得一個得分更高的比對;

最后,基于上述的比對片段,尋找另一個備選的比對。

近似尋優(yōu)，其缺陷是結(jié)果的最優(yōu)比對無法保證。

BLAST 算法（搜索算法和搜索結(jié)果的統(tǒng)計(jì)學(xué)評估）

第一步,尋找查詢序列與靶序列之間長度為 k 的匹配片段;

第二步, 篩選相距較遠(yuǎn)的匹配片段;

第三步, 向兩端延長匹配片段,形成更長的比對區(qū)域,在延長過程中,若得分超過某個閾值,則稱這些區(qū)域?yàn)楦叩梅謪^(qū)域,所得的高得分區(qū)域按降序排列后作為算法的輸出。

在生物序列分析中,有時需要識別多條序列的公共特征,這就要進(jìn)行多序列的最佳比對分析。

clustalW。clustalW 是應(yīng)用最為廣泛的多序列比對算法,它采用漸進(jìn)式比對算法,實(shí)現(xiàn)過程主要分為三個步驟:第一,對所有的序列進(jìn)行兩兩比對,并構(gòu)建一個距離矩陣。第二,從距離矩陣出發(fā)生成一個用于比對的指導(dǎo)樹。第三,根據(jù)指導(dǎo)樹給定的序列次序,將每個序列依次加入,逐漸形成有更多序列參與的比對,直到所有序列都加入,最后輸出最終的比對結(jié)果。

YAMA。YAMA 是一個用于比對長度較長的 DNA 序列的算法,也采用了漸進(jìn)式的比對方法,在每一次的比對中,設(shè)法使兩兩組對求和值達(dá)到最大化,該算法將比對區(qū)域限制在動態(tài)規(guī)劃矩陣的兩條邊界之間來提高計(jì)算效率。在進(jìn)行比對時,可以預(yù)先設(shè)定一組匹配模式,YAMA 算法就會從最終得到高分比對中選擇出跟先前設(shè)定模式相匹配的結(jié)果。

MUSCLE。MUSCLE 也是一個高效的多序列比對工具,首先,基于兩序列比對的得到的相似性程度構(gòu)建距離矩陣,然后在距離矩陣的基礎(chǔ)上生成進(jìn)化指導(dǎo)樹;然后,在第一步指導(dǎo)樹的基礎(chǔ)上形成初步的序列多序列比對,由此可以獲得每兩條序列包含相同殘基的概率,并計(jì)算其距離,然后根據(jù)此距離再次獲得進(jìn)化指導(dǎo)樹,此過程又稱精化指導(dǎo)樹;最后,在精化指導(dǎo)樹的基礎(chǔ)上做刪除處理,從而找到更優(yōu)的新比對結(jié)果,如此將該過程反復(fù)進(jìn)行,直到達(dá)到最優(yōu)的比對結(jié)果。

0x02 序列比對及相似性?

本節(jié)轉(zhuǎn)載自https://blog.csdn.net/weixin_43202635/article/details/82962032

序列表示

考慮使用蛋白質(zhì)序列

2.序列的相似性

數(shù)據(jù)庫中的序列相似性搜索——相似的序列可以推測出相似的結(jié)構(gòu)，相似的結(jié)構(gòu)可以推測出相似的功能。

用兩個指標(biāo)來描述序列的相似性——一致度和相似度。

引出問題：殘基的相似如何量化？

殘基兩兩相似的量化關(guān)系由替換記分矩陣所定義。

注：密碼子——密碼子（codon）是指信使RNA分子中每相鄰的三個核苷酸編成一組，在蛋白質(zhì)合成時，代表某一種氨基酸的規(guī)律。信使RNA在細(xì)胞中能決定蛋白質(zhì)分子中的氨基酸種類和排列次序。信使RNA分子中的四種核苷酸（堿基）的序列能決定蛋白質(zhì)分子中的20種氨基酸的序列。而在信使RNA分子上的三個堿基能決定一個氨基酸。

3.比對兩個序列的方法

（1）打點(diǎn)法

（2）序列比對法

雙序列序列全局比對算法（用于比較兩個長度近似的序列）

B）雙序列局部對比算法（用于比較一長一短兩條序列或者是非同源序列）

*序列比對算法總結(jié)：

*在線序列比對工具： EMBL、PIR 等

三．多序列比對

多序列比對——對兩條以上的生物序列進(jìn)行全局比對

注：蛋白質(zhì)家族（英語：Protein family）是一組與進(jìn)化相關(guān)的蛋白質(zhì)。家族中的蛋白質(zhì)來自共同的祖先（見同源），通常具有相似的三維結(jié)構(gòu)，功能和顯著的序列相似性。

1.多序列比對的主要用途及算法

多序列比對的算法：

目前所有的多序列比對工具都不是完美的，它們都是使用一種近似的算法。

2.多序列比對工具

注：1.保守序列在生物學(xué)中是指在核酸序列（如RNA及DNA序列）、蛋白質(zhì)序列、蛋白質(zhì)結(jié)構(gòu)或多聚糖序列內(nèi)相似或相同的序列，這種情況可以發(fā)生在各物種間（種間同源序列）或由相同生物產(chǎn)生的不同分子（種內(nèi)同源序列）間。

2. 系統(tǒng)發(fā)生樹又稱演化樹或進(jìn)化樹（evolutionary tree），是表明被認(rèn)為具有共同祖先的各物種間演化關(guān)系的樹狀圖。是一種親緣分支分類方法（cladogram）。在圖中，每個節(jié)點(diǎn)代表其各分支的最近共同祖先，而節(jié)點(diǎn)間的線段長度對應(yīng)演化距離（如估計(jì)的演化時間）。

3.尋找保守區(qū)域

（1）序列標(biāo)識圖Weblogo

（2）序列基序MEME

嘗試找一找基序？？

（3）蛋白質(zhì)指紋PRINTS

家族的指紋圖譜

四．補(bǔ)充

1.分子進(jìn)化理論（未被證實(shí)正確）

2.同源

同源序列——來源于共同祖先的相似的序列，分為直系同源、旁系同源、異同源

注意：相似序列不一定是同源序列。

相似度可以量化，同源性不可量化，它只是對性質(zhì)的一種判定。

3.系統(tǒng)發(fā)生樹

系統(tǒng)發(fā)生樹又稱演化樹或進(jìn)化樹（evolutionary tree），是表明被認(rèn)為具有共同祖先的各物種間演化關(guān)系的樹狀圖。是一種親緣分支分類方法（cladogram）。在圖中，每個節(jié)點(diǎn)代表其各分支的最近共同祖先，而節(jié)點(diǎn)間的線段長度對應(yīng)演化距離（如估計(jì)的演化時間）。

構(gòu)建系統(tǒng)發(fā)生樹的意義：

對于一個位置的基因或蛋白質(zhì)序列，確定其親緣關(guān)系最近的物種；

預(yù)測一個新發(fā)現(xiàn)的基因或蛋白質(zhì)的功能；

有助于預(yù)測一個分子功能的走勢。

注意：根、內(nèi)節(jié)點(diǎn)都理論上曾經(jīng)存在過的共同祖先，現(xiàn)在已經(jīng)沒有了

參考資料

慕課課程：https://es.coursera.org/lecture/sheng-wu-xin-xi-xue/cong-quan-ju-bi-dui-dao-ju-bu-bi-dui-2QeSA

序列比對

完成本模塊的課程后你將可以：掌握基于動態(tài)規(guī)劃編程思想的序列比對算法；區(qū)分Needleman-Wunsch全局比對算法和Smith-Waterman局部比對算法；了解空位罰分背后的原理和計(jì)算算法的復(fù)雜度將幫助你在你自己的研究中應(yīng)用現(xiàn)有的生物信息學(xué)工具；你還可以一睹Smith-Waterman算法的發(fā)明人Michael Waterman博士的風(fēng)采。

利用動態(tài)規(guī)劃進(jìn)行全局比對15:20

從全局比對到局部比對6:15

可以跟著做的實(shí)驗(yàn)：

生物信息之多序列比對，進(jìn)化樹分析，保守位點(diǎn)分析

https://blog.csdn.net/u011262253/article/details/78506951

黃佳琪. 生物信息學(xué)序列比對算法分析[J]. 生物技術(shù)世界, 2015(11):279-279.

總結(jié)

以上是生活随笔為你收集整理的序列比对概念及相应工具的对比的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： hdu 6638 Snowy Smile
下一篇：【杂文】宇宙思辨