日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

从bam文件的内容来学习Phred quality score /QUAL/Cigar/等常用概念

發布時間:2023/12/8 编程问答 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 从bam文件的内容来学习Phred quality score /QUAL/Cigar/等常用概念 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

參考文獻:

sam文件詳解?https://genome.sph.umich.edu/wiki/SAM

mapping quality的算法?https://genome.sph.umich.edu/wiki/Mapping_Quality_Scores

博客參考?https://blog.csdn.net/xcaryyz/article/details/79257604

首先看一下,在bam文件中常用的一些列名稱

QNAME:這里指得是查詢序列的名稱,也就是我們的reads名稱

FLAG: 以10進制或者16進制數的形式來代表一些比對的意義,如下圖所示,,2代表完全匹配,4代表沒有匹配,16代表反向匹配,1024代表duplicate,而這些數字是可以相加的,例如2+1024是1026,代表完全匹配但是是個duplicate

這里有一個比較詳細的關于flag的說明:

https://www.jianshu.com/p/f67702926928

以及一個比較消息的中文說明圖表

圖片來源:https://www.jianshu.com/p/31dc18837d4b?

RNAME:代表參考序列的名稱,一般指染色體編號

POS:位置信息

MAPQ:mapping quality比對質量值

CIGAR:一段字符,用于表示比對的情況,例如3M1I3M3D140M,代表reads的前3個匹配加1個堿基插入加3個匹配再加3個缺失再加140個匹配

RNEXT:對于雙端測序而言,指的是另一條配對的reads的比對位置,如果比對到了同一個模板上(染色體上)則是=,如果比對到了其他的染色體(參考序列)上就是一個染色體編號,如果沒有則是*。

PNEXT:對于雙端測序而言,另一條reads匹配到的位置

TLEN:查詢序列模板的長度(存有疑問)

SEQ:reads的序列信息

QUAL:這個指的是堿基質量值,它的算法如下:

?

?這里p指得是堿基判斷錯誤的概率,英文:base-calling error probabilities ,這里在加33之前的值叫Pred quality score

之所以要加33是為了對應ascii碼中的可見字符,如果一個堿基的質量為0,那么對應的就是ascii碼中的33,也就是!

?除去11個必選字段以外,還有一些可選的字段,但是對于這些可選字段的介紹好像不太好找解釋,目前先寫到這里,等我搞清楚了可選字段以后再寫。

總結

以上是生活随笔為你收集整理的从bam文件的内容来学习Phred quality score /QUAL/Cigar/等常用概念的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。