當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

二代测序之SNV检测总结笔记

發(fā)布時(shí)間：2024/3/26 编程问答 38 豆豆

生活随笔收集整理的這篇文章主要介紹了二代测序之SNV检测总结笔记小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

二代測(cè)序之SNV檢測(cè)總結(jié)筆記

文章目錄

二代測(cè)序之SNV檢測(cè)總結(jié)筆記
- Short variant calling的流程：
- - 測(cè)序常見(jiàn)錯(cuò)誤：
- Germline：HaplotypeCaller （單倍體） in GATK
- 過(guò)濾候選的Variant信息
- - 篩選流程：
- Somatic Calling Workflow（Mutect2）
- 參考資料：

Short variant calling的流程：

比對(duì)好的腫瘤樣本的Reads和參考基因組做比對(duì)獲得全部的在腫瘤中發(fā)現(xiàn)的突變mutations，比對(duì)好的正常樣本的Reads和參考基因組做比對(duì)獲得胚系突變germline mutations，這兩個(gè)之間的差別很大程度上是somatic mutations,且該結(jié)果是來(lái)源于上百萬(wàn)的細(xì)胞的平均值，而非單細(xì)胞的數(shù)據(jù)，是從群體層面來(lái)看的平均效果。

變異的檢測(cè)相對(duì)基因型的檢測(cè)更困難和一般，基因型決定一系列的等位基因具體的變異，而等位基因的數(shù)量是確定的，通常人類(lèi)是二倍體，特殊只需考慮SNPs和單倍體的情況。

而變異的檢測(cè)就需要考慮癌癥基因組可能出現(xiàn)：拷貝數(shù)的變化，腫瘤的異質(zhì)性，制備文庫(kù)時(shí)出現(xiàn)腫瘤和正常的混合污染，混合的潛在性非二倍體的基因型。

其中Coverage為測(cè)序深度。位置2,4,8出現(xiàn)了變化的堿基，最后一個(gè)只出現(xiàn)了一個(gè)C，可能是測(cè)序錯(cuò)誤，所以放棄。

Allele Fraction（AF）：指Reads中多少個(gè)reads支持替代的堿基的比例

AF = （n[多少個(gè)變化的堿基]+1）/(N[Reads中該位置總共多少個(gè)堿基]+2)%

據(jù)課程所知：+1是統(tǒng)計(jì)上解決樣本容量較低（造成頻度估計(jì)不準(zhǔn)）一種常見(jiàn)的trick。另一種常見(jiàn)近似是+2（兩種類(lèi)型的結(jié)果頻數(shù)各加上2，相當(dāng)于總樣本量+4）

測(cè)序常見(jiàn)錯(cuò)誤：

文庫(kù)制備過(guò)程中

1.混雜各種細(xì)胞導(dǎo)致污染，如細(xì)菌，腫瘤正常細(xì)胞，微生物等的混雜

2.引入技術(shù)序列（如接頭序列）
測(cè)序過(guò)程中
比對(duì)過(guò)程中

Germline：HaplotypeCaller （單倍體） in GATK

基于java軟件的variant calling的軟件，應(yīng)用于germline的分析。

流程：

根據(jù)比對(duì)好的bam文件去篩選哪一些是存在顯著變異的區(qū)域[active regions]

對(duì)候選區(qū)域的reads挑出來(lái)進(jìn)行重新的拼接[re-assembly],拼接可能得到單倍型。

對(duì)各種各樣的單倍型進(jìn)行一個(gè)定性的評(píng)價(jià)[likelihoods],這里使用PairHMM模型。

根據(jù)倍型的組合，把germline的變異的位點(diǎn)挑出來(lái)[SWA(Smith-Waterman alignment)]。

過(guò)濾候選的Variant信息

堿基質(zhì)量(base qualities) ：低質(zhì)量暗示著測(cè)序錯(cuò)誤
Read位置：偏差暗示著匹配錯(cuò)誤
基因組鏈[Genomic strand]：偏差暗示著匹配錯(cuò)誤
基因組位置：是否存在PCR重復(fù)序列，self-chain[染色體之間相似性的比較]，homoploymers均聚物[地復(fù)雜區(qū)域]
匹配信息：算法相關(guān)的質(zhì)量分?jǐn)?shù)

根據(jù)以上的這些進(jìn)行過(guò)濾篩選。

篩選流程：

最后根據(jù)dbSNP數(shù)據(jù)庫(kù)進(jìn)行判斷，篩掉SNP，獲得突變的信息。

Somatic Calling Workflow（Mutect2）

參考資料：

https://www.bilibili.com/video/BV1oQ4y1P7fD?share_source=copy_web

https://blog.csdn.net/tanzuozhev/article/details/84864344?ivk_sa=1024320u

歡迎關(guān)注我的公眾號(hào)呀~

總結(jié)

以上是生活随笔為你收集整理的二代测序之SNV检测总结笔记的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

笔记
SNV

上一篇： 6款电脑必备的常用软件（办公/高效/小白
下一篇： CCF 碰撞的小球