序列比对概念及相应工具的对比
序列比對概念及相應(yīng)工具的對比
0x01 概念和意義
在生物信息學(xué)研究中,最基本的部分是序列比對,而最基本的操作是比對,主要可分為雙系列比對和多序列比對,辨別序列之間的差異,同時發(fā)現(xiàn)生物序列中的機(jī)構(gòu)和功能信息,進(jìn)而發(fā)現(xiàn)它們的相似性和同源性,比較多個生物序列相似性是由序列比對來完成的。總的來說,序列比對的意義是對序列的相似性在核酸、氨基酸的層次上進(jìn)行分析,從而推測比對中的各個序列間結(jié)構(gòu)功能以及進(jìn)化上的聯(lián)系,它也通過對各種不同類型的生物序列進(jìn)行比對,以尋找與確定比對序列的穩(wěn)定區(qū)域與變化規(guī)則,發(fā)現(xiàn)它們的功能特征和區(qū)別。通過序列比對,也可以檢測新序列與數(shù)據(jù)庫中已知序列的相似性關(guān)系(結(jié)構(gòu)和功能),從而為確定新序列的結(jié)構(gòu)和功能信息提供事實(shí)根據(jù),由上可說明序列比對是基因識別、分子進(jìn)化、生命起源等研究的基礎(chǔ),而對序列比對的研究于基因結(jié)構(gòu)和功能的研究具有較大的實(shí)際意義。
研究序列相似性的目的之一是通過相似的序列得到相似的結(jié)構(gòu)或相似的功能,另一個目的是通過序列的相似性,判別序列之間的同源性,推測序列之間的進(jìn)化關(guān)系。
?
相應(yīng)地在惡意代碼api序列檢測上也可以適用。
序列比對又稱序列重排或?qū)?zhǔn),根據(jù)進(jìn)行比對的生物序列數(shù)目序列比對可分為雙序列比對和多序列比對。
雙序列比對算法點(diǎn)陣圖方法和動態(tài)規(guī)劃算法,而多序列比對算法主要 有漸進(jìn)比對和迭代比對
雙序列比對主要有:FASTA 和 BALST算法
?
?
FASTA算法(使用候選區(qū)域)
首先,需找待查序列與已知序列長度為 k 的公共子串,命名為熱點(diǎn)區(qū)域;
第二,延長熱點(diǎn)區(qū)域,形成更長的部分比對區(qū)域;
第三,綜合第二步的比對區(qū)域,獲得一個得分更高的比對;
最后,基于上述的比對片段,尋找另一個備選的比對。
近似尋優(yōu),其缺陷是結(jié)果的最優(yōu)比對無法保證。
?
BLAST 算法(搜索算法和搜索結(jié)果的統(tǒng)計(jì)學(xué)評估)
第一步,尋找查詢序列與靶序列之間長度為 k 的匹配片段;
第二步, 篩選相距較遠(yuǎn)的匹配片段;
第三步, 向兩端延長匹配片段,形成更長的比對區(qū)域,在延長過程中,若得分超過某個閾值,則稱這些區(qū)域?yàn)楦叩梅謪^(qū)域,所得的高得分區(qū)域按降序排列后作為算法的輸出。
?
在生物序列分析中,有時需要識別多條序列的公共特征,這就要進(jìn)行多序列的最佳比對分析。
0x02 序列比對及相似性?
本節(jié)轉(zhuǎn)載自https://blog.csdn.net/weixin_43202635/article/details/82962032
考慮使用蛋白質(zhì)序列
?
2.序列的相似性
數(shù)據(jù)庫中的序列相似性搜索——相似的序列可以推測出相似的結(jié)構(gòu),相似的結(jié)構(gòu)可以推測出相似的功能。
用兩個指標(biāo)來描述序列的相似性——一致度和相似度。
?
引出問題:殘基的相似如何量化?
殘基兩兩相似的量化關(guān)系由替換記分矩陣所定義。
?
注:密碼子——密碼子(codon)是指信使RNA分子中每相鄰的三個核苷酸編成一組,在蛋白質(zhì)合成時,代表某一種氨基酸的規(guī)律。信使RNA在細(xì)胞中能決定蛋白質(zhì)分子中的氨基酸種類和排列次序。信使RNA分子中的四種核苷酸(堿基)的序列能決定蛋白質(zhì)分子中的20種氨基酸的序列。而在信使RNA分子上的三個堿基能決定一個氨基酸。
?
3.比對兩個序列的方法
(1)打點(diǎn)法
?
(2)序列比對法
B)雙序列局部對比算法(用于比較一長一短兩條序列或者是非同源序列)
**
*序列比對算法總結(jié):
*在線序列比對工具: EMBL、PIR 等
?
三.多序列比對
多序列比對——對兩條以上的生物序列進(jìn)行全局比對
注:蛋白質(zhì)家族(英語:Protein family)是一組與進(jìn)化相關(guān)的蛋白質(zhì)。家族中的蛋白質(zhì)來自共同的祖先(見同源),通常具有相似的三維結(jié)構(gòu),功能和顯著的序列相似性。
1.多序列比對的主要用途及算法
多序列比對的算法:
目前所有的多序列比對工具都不是完美的,它們都是使用一種近似的算法。
2.多序列比對工具
注:1.保守序列在生物學(xué)中是指在核酸序列(如RNA及DNA序列)、蛋白質(zhì)序列、蛋白質(zhì)結(jié)構(gòu)或多聚糖序列內(nèi)相似或相同的序列,這種情況可以發(fā)生在各物種間(種間同源序列)或由相同生物產(chǎn)生的不同分子(種內(nèi)同源序列)間。
2. 系統(tǒng)發(fā)生樹又稱演化樹或進(jìn)化樹(evolutionary tree),是表明被認(rèn)為具有共同祖先的各物種間演化關(guān)系的樹狀圖。是一種親緣分支分類方法(cladogram)。在圖中,每個節(jié)點(diǎn)代表其各分支的最近共同祖先,而節(jié)點(diǎn)間的線段長度對應(yīng)演化距離(如估計(jì)的演化時間)。
3.尋找保守區(qū)域
(1)序列標(biāo)識圖Weblogo
(2)序列基序MEME
嘗試找一找基序??
(3)蛋白質(zhì)指紋PRINTS
家族的指紋圖譜
四.補(bǔ)充
1.分子進(jìn)化理論(未被證實(shí)正確)
2.同源
同源序列——來源于共同祖先的相似的序列,分為直系同源、旁系同源、異同源
注意:相似序列不一定是同源序列。
相似度可以量化,同源性不可量化,它只是對性質(zhì)的一種判定。
3.系統(tǒng)發(fā)生樹
系統(tǒng)發(fā)生樹又稱演化樹或進(jìn)化樹(evolutionary tree),是表明被認(rèn)為具有共同祖先的各物種間演化關(guān)系的樹狀圖。是一種親緣分支分類方法(cladogram)。在圖中,每個節(jié)點(diǎn)代表其各分支的最近共同祖先,而節(jié)點(diǎn)間的線段長度對應(yīng)演化距離(如估計(jì)的演化時間)。
構(gòu)建系統(tǒng)發(fā)生樹的意義:
對于一個位置的基因或蛋白質(zhì)序列,確定其親緣關(guān)系最近的物種;
預(yù)測一個新發(fā)現(xiàn)的基因或蛋白質(zhì)的功能;
有助于預(yù)測一個分子功能的走勢。
注意:根、內(nèi)節(jié)點(diǎn)都理論上曾經(jīng)存在過的共同祖先,現(xiàn)在已經(jīng)沒有了
參考資料
?
慕課課程:https://es.coursera.org/lecture/sheng-wu-xin-xi-xue/cong-quan-ju-bi-dui-dao-ju-bu-bi-dui-2QeSA
序列比對
完成本模塊的課程后你將可以: 掌握基于動態(tài)規(guī)劃編程思想的序列比對算法; 區(qū)分Needleman-Wunsch全局比對算法和Smith-Waterman局部比對算法; 了解空位罰分背后的原理和計(jì)算算法的復(fù)雜度將幫助你在你自己的研究中應(yīng)用現(xiàn)有的生物信息學(xué)工具; 你還可以一睹Smith-Waterman算法的發(fā)明人Michael Waterman博士的風(fēng)采。
利用動態(tài)規(guī)劃進(jìn)行全局比對15:20
從全局比對到局部比對6:15
可以跟著做的實(shí)驗(yàn):
生物信息之多序列比對,進(jìn)化樹分析,保守位點(diǎn)分析
https://blog.csdn.net/u011262253/article/details/78506951
黃佳琪. 生物信息學(xué)序列比對算法分析[J]. 生物技術(shù)世界, 2015(11):279-279.
?
?
?
?
總結(jié)
以上是生活随笔為你收集整理的序列比对概念及相应工具的对比的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: hdu 6638 Snowy Smile
- 下一篇: 【杂文】宇宙思辨