二代测序之SNV检测总结笔记
二代測(cè)序之SNV檢測(cè)總結(jié)筆記
文章目錄
- 二代測(cè)序之SNV檢測(cè)總結(jié)筆記
- Short variant calling的流程:
- 測(cè)序常見(jiàn)錯(cuò)誤:
- Germline:HaplotypeCaller (單倍體) in GATK
- 過(guò)濾候選的Variant信息
- 篩選流程:
- Somatic Calling Workflow(Mutect2)
- 參考資料:
Short variant calling的流程:
比對(duì)好的腫瘤樣本的Reads和參考基因組做比對(duì)獲得全部的在腫瘤中發(fā)現(xiàn)的突變mutations,比對(duì)好的正常樣本的Reads和參考基因組做比對(duì)獲得胚系突變germline mutations,這兩個(gè)之間的差別很大程度上是somatic mutations,且該結(jié)果是來(lái)源于上百萬(wàn)的細(xì)胞的平均值,而非單細(xì)胞的數(shù)據(jù),是從群體層面來(lái)看的平均效果。
變異的檢測(cè)相對(duì)基因型的檢測(cè)更困難和一般,基因型決定一系列的等位基因具體的變異,而等位基因的數(shù)量是確定的,通常人類(lèi)是二倍體,特殊只需考慮SNPs和單倍體的情況。
而變異的檢測(cè)就需要考慮癌癥基因組可能出現(xiàn):拷貝數(shù)的變化,腫瘤的異質(zhì)性,制備文庫(kù)時(shí)出現(xiàn)腫瘤和正常的混合污染,混合的潛在性非二倍體的基因型。
其中Coverage為測(cè)序深度。位置2,4,8出現(xiàn)了變化的堿基,最后一個(gè)只出現(xiàn)了一個(gè)C,可能是測(cè)序錯(cuò)誤,所以放棄。
Allele Fraction(AF):指Reads中多少個(gè)reads支持替代的堿基的比例
AF = (n[多少個(gè)變化的堿基]+1)/(N[Reads中該位置總共多少個(gè)堿基]+2)%
據(jù)課程所知:+1是統(tǒng)計(jì)上解決樣本容量較低(造成頻度估計(jì)不準(zhǔn))一種常見(jiàn)的trick。另一種常見(jiàn)近似是+2(兩種類(lèi)型的結(jié)果頻數(shù)各加上2,相當(dāng)于總樣本量+4)
測(cè)序常見(jiàn)錯(cuò)誤:
-
文庫(kù)制備過(guò)程中
1.混雜各種細(xì)胞導(dǎo)致污染,如細(xì)菌,腫瘤正常細(xì)胞,微生物等的混雜
2.引入技術(shù)序列(如接頭序列)
-
測(cè)序過(guò)程中
-
比對(duì)過(guò)程中
Germline:HaplotypeCaller (單倍體) in GATK
基于java軟件的variant calling的軟件,應(yīng)用于germline的分析。
流程:
對(duì)各種各樣的單倍型進(jìn)行一個(gè)定性的評(píng)價(jià)[likelihoods],這里使用PairHMM模型。
根據(jù)倍型的組合,把germline的變異的位點(diǎn)挑出來(lái)[SWA(Smith-Waterman alignment)]。
過(guò)濾候選的Variant信息
- 堿基質(zhì)量(base qualities) :低質(zhì)量暗示著測(cè)序錯(cuò)誤
- Read位置:偏差暗示著匹配錯(cuò)誤
- 基因組鏈[Genomic strand]:偏差暗示著匹配錯(cuò)誤
- 基因組位置:是否存在PCR重復(fù)序列,self-chain[染色體之間相似性的比較],homoploymers均聚物[地復(fù)雜區(qū)域]
- 匹配信息:算法相關(guān)的質(zhì)量分?jǐn)?shù)
根據(jù)以上的這些進(jìn)行過(guò)濾篩選。
篩選流程:
最后根據(jù)dbSNP數(shù)據(jù)庫(kù)進(jìn)行判斷,篩掉SNP,獲得突變的信息。
Somatic Calling Workflow(Mutect2)
參考資料:
歡迎關(guān)注我的公眾號(hào)呀~
總結(jié)
以上是生活随笔為你收集整理的二代测序之SNV检测总结笔记的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 6款电脑必备的常用软件(办公/高效/小白
- 下一篇: CCF 碰撞的小球