當前位置：首頁 > 编程资源 > 万象百科 >内容正文

万象百科

什么是基因识别？是怎样实现的？

發布時間：2023/11/24 万象百科 35 博士

生活随笔收集整理的這篇文章主要介紹了什么是基因识别？是怎样实现的？小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

基因識別中的一個關鍵問題是預測編碼區域。所謂編碼區域預測，一般是指預測DNA序列中編碼蛋白質的部分，即基因的外顯子部分。而基因識別的最終目標是預測完整的基因結構，正確地識別出一個基因的所有外顯子及其邊界。識別DNA序列中蛋白質編碼區域的方法主要有兩類。一類是基于特征信號的識別。真核基因外顯子（編碼區域）具有一些特別的序列信號，如內部的外顯子被剪切接受體位點和給體位點所界定，5’-端的外顯子一定是在核心啟動子（Core Promoter，例如TATA盒）的下游，而3’-端的外顯子的下游包含多聚A信號和終止編碼。根據這些序列特征信號確定外顯子的邊界，從而達到識別編碼區域的目的。然而沒有一個算法在預測基因時僅僅檢測這些信號，因為這些信號的強度太弱，它們缺乏統計的顯著性。另一類是基于統計度量的方法，對編碼區進行統計特性分析。通過統計而獲得的經驗說明，DNA中密碼子的使用頻率不是平均分布的，某些密碼子會以較高的頻率使用，而另一些則較少使用。這樣就使得編碼區的序列呈現出可察覺的統計特異性，即“密碼子偏好性（codon biases）”。利用這一特性對未知序列進行統計學分析可以發現編碼區的粗略位置。統計度量方法主要包括：密碼子使用傾向（codon usage)、雙聯密碼統計度量（dicodon statistic measure）、核苷酸周期性分析（即分析同一個核苷酸在3,6,9,…位置上周期性出現的規律）、基因組中等值區（isochore）的分析等。

基因識別的最終目標是預測完整的基因結構，正確地識別出一個基因的所有外顯子及其邊界。識別方法主要有：間接識別法利用已知的mRNA或蛋白質序列為線索在DNA序列中搜尋所對應的片段。從頭計算法一般意義上基因具有兩種類型的特征，一類特征是“信號”，由一些特殊的序列構成，通常預示著其周圍存在著一個基因；另一類特征是“內容”，即蛋白質編碼基因所具有的某些統計學特征。使用Ab Initio方法識別基因又稱為基因預測。通常我們仍需借助實驗證實預測的DNA片段是否具有生物學功能。高級的基因識別算法常使用更加復雜的概率論模型，如隱馬爾可夫模型。Glimmer是一個廣泛應用的高級基因識別程序，它對原核生物基因的預測已非常精確，相比之下，對真核生物的預測則效果有限。比較基因組學的方法由于多個物種的基因組序列已完全測出，使得比較基因組學得以發展，并產生了新的基因識別的方法。該方法基于如下原理：自然選擇的力量使得基因和DNA序列上具有生物學功能的其他片段較其他部分有較慢的變異速率，在前者的變異更有可能對生物體的生存產生負面影響，因而難以得到保存。因此，通過比較相關的物種的DNA序列，我們能夠取得預測基因的新線索。

基因識別，是生物信息學的一個重要分支，使用生物學實驗或計算機等手段識別DNA序列上的具有生物學特征的片段。基因識別的對象主要是蛋白質編碼基因，也包括其他具有一定生物學功能的因子，如RNA基因和調控因子。基因識別是基因組研究的基礎?；蜃R別的主要手段是基于活的細胞或生物的實驗。通過對若干種不同基因的同源重組的速率的統計分析，我們能夠獲知它們在染色體上的順序。若進行大量類似的分析，我們可以確定各個基因的大致位置?，F在，由于人類已經獲得了巨大數量的基因組信息，依靠較慢的實驗分析已不能滿足基因識別的需要，而基于計算機算法的基因識別得到了長足的發展，成為了基因識別的主要手段。

總結

以上是生活随笔為你收集整理的什么是基因识别？是怎样实现的？的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。