SAM文件格式
幫朋友處理sam各式文件,又記不住sam各式每列代表的什么內(nèi)容,干脆轉(zhuǎn)個帖子留著以后查詢。
在SAM輸出的結(jié)果中每一行都包括十二項(xiàng)通過Tab分隔,從左到右分別是:
1 序列的名字
2 概括出一個合適的標(biāo)記,各個數(shù)字分別代表
-
1? 序列是一對序列中的一個
-
2? 比對結(jié)果是一個pair-end比對的末端
-
4? 沒有找到位點(diǎn)
-
8? 這個序列是pair中的一個但是沒有找到位點(diǎn)
-
16? 在這個比對上的位點(diǎn),序列與參考序列反向互補(bǔ)
-
32? 這個序列在pair-end中的的mate序列與參考序列反響互補(bǔ)
-
64 序列是 mate 1
-
128 序列是 mate 2
假如說標(biāo)記為以上列舉出的數(shù)目,就可以直接推斷出匹配的情況。假如說標(biāo)記不是以上列舉出的數(shù)字,比如說83=(64+16+2+1),就是這幾種情況值和。
3? 參考序列的名字
4 在參考序列上的位置
5? mapping qulity?? 越高則位點(diǎn)越獨(dú)特
bowtie2有時并不能完全確定一個短的序列來自與參考序列的那個位置,特別是對于那些比較簡單的序列。但是bowtie2會給出一個值來顯示出 這個段序列來自某個位點(diǎn)的概率值,這個值就是mapping qulity。Mapping qulity的計算方法是:Q=-10log10p,Q是一個非負(fù)值,p是這個序列不來自這個位點(diǎn)的估計值。
假如說一條序列在某個參考序列上找到了兩個位點(diǎn),但是其中一個位點(diǎn)的Q明顯大于另一個位點(diǎn)的Q值,這條序列來源于前一個位點(diǎn)的可能性就比較大。Q值的差距越大,這獨(dú)特性越高。
Q值的計算方法來自與SAM標(biāo)準(zhǔn)格式,請查看SAM總結(jié)。
6 代表比對結(jié)果的CIGAR字符串,如37M1D2M1I,這段字符的意思是37個匹配,1個參考序列上的刪除,2個匹配,1個參考序列上的插入。M代表的是alignment match(可以是錯配)
7? mate 序列所在參考序列的名稱
8 mate 序列在參考序列上的位置
9? 估計出的片段的長度,當(dāng)mate 序列位于本序列上游時該值為負(fù)值。
10 read的序列
11 ASCII碼格式的序列質(zhì)量
12 可選的區(qū)域
-
AS:i? 匹配的得分
-
XS:i? 第二好的匹配的得分
-
YS:i? mate 序列匹配的得分
-
XN:i? 在參考序列上模糊堿基的個數(shù)
-
XM:i? 錯配的個數(shù)
-
XO:i? gap open的個數(shù)
-
XG:i? gap 延伸的個數(shù)
-
NM:i? 經(jīng)過編輯的序列
-
YF:i? 說明為什么這個序列被過濾的字符串
-
YT:Z
-
MD:Z? 代表序列和參考序列錯配的字符串
也可以查看這個,也比較詳細(xì)
https://blog.csdn.net/u014182497/article/details/51691743 ?
轉(zhuǎn)載于:https://www.cnblogs.com/zhanmaomao/p/9281646.html
總結(jié)
- 上一篇: Android_(菜单)选项菜单
- 下一篇: Django-form表单