日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪(fǎng)問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

二代测序之SNV检测总结笔记

發(fā)布時(shí)間:2024/3/26 编程问答 38 豆豆
生活随笔 收集整理的這篇文章主要介紹了 二代测序之SNV检测总结笔记 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

二代測(cè)序之SNV檢測(cè)總結(jié)筆記

文章目錄

  • 二代測(cè)序之SNV檢測(cè)總結(jié)筆記
    • Short variant calling的流程:
      • 測(cè)序常見(jiàn)錯(cuò)誤:
    • Germline:HaplotypeCaller (單倍體) in GATK
    • 過(guò)濾候選的Variant信息
      • 篩選流程:
    • Somatic Calling Workflow(Mutect2)
    • 參考資料:

Short variant calling的流程:

比對(duì)好的腫瘤樣本的Reads和參考基因組做比對(duì)獲得全部的在腫瘤中發(fā)現(xiàn)的突變mutations,比對(duì)好的正常樣本的Reads和參考基因組做比對(duì)獲得胚系突變germline mutations,這兩個(gè)之間的差別很大程度上是somatic mutations,且該結(jié)果是來(lái)源于上百萬(wàn)的細(xì)胞的平均值,而非單細(xì)胞的數(shù)據(jù),是從群體層面來(lái)看的平均效果。

變異的檢測(cè)相對(duì)基因型的檢測(cè)更困難和一般,基因型決定一系列的等位基因具體的變異,而等位基因的數(shù)量是確定的,通常人類(lèi)是二倍體,特殊只需考慮SNPs和單倍體的情況。

而變異的檢測(cè)就需要考慮癌癥基因組可能出現(xiàn):拷貝數(shù)的變化,腫瘤的異質(zhì)性,制備文庫(kù)時(shí)出現(xiàn)腫瘤和正常的混合污染,混合的潛在性非二倍體的基因型。

其中Coverage為測(cè)序深度。位置2,4,8出現(xiàn)了變化的堿基,最后一個(gè)只出現(xiàn)了一個(gè)C,可能是測(cè)序錯(cuò)誤,所以放棄。

Allele Fraction(AF):指Reads中多少個(gè)reads支持替代的堿基的比例

AF = (n[多少個(gè)變化的堿基]+1)/(N[Reads中該位置總共多少個(gè)堿基]+2)%

據(jù)課程所知:+1是統(tǒng)計(jì)上解決樣本容量較低(造成頻度估計(jì)不準(zhǔn))一種常見(jiàn)的trick。另一種常見(jiàn)近似是+2(兩種類(lèi)型的結(jié)果頻數(shù)各加上2,相當(dāng)于總樣本量+4)

測(cè)序常見(jiàn)錯(cuò)誤:

  • 文庫(kù)制備過(guò)程中

    1.混雜各種細(xì)胞導(dǎo)致污染,如細(xì)菌,腫瘤正常細(xì)胞,微生物等的混雜

    2.引入技術(shù)序列(如接頭序列)

  • 測(cè)序過(guò)程中

  • 比對(duì)過(guò)程中

Germline:HaplotypeCaller (單倍體) in GATK

基于java軟件的variant calling的軟件,應(yīng)用于germline的分析。

流程:

  • 根據(jù)比對(duì)好的bam文件去篩選哪一些是存在顯著變異的區(qū)域[active regions]
  • 對(duì)候選區(qū)域的reads挑出來(lái)進(jìn)行重新的拼接[re-assembly],拼接可能得到單倍型。
  • 對(duì)各種各樣的單倍型進(jìn)行一個(gè)定性的評(píng)價(jià)[likelihoods],這里使用PairHMM模型。

  • 根據(jù)倍型的組合,把germline的變異的位點(diǎn)挑出來(lái)[SWA(Smith-Waterman alignment)]。

  • 過(guò)濾候選的Variant信息

    • 堿基質(zhì)量(base qualities) :低質(zhì)量暗示著測(cè)序錯(cuò)誤
    • Read位置:偏差暗示著匹配錯(cuò)誤
    • 基因組鏈[Genomic strand]:偏差暗示著匹配錯(cuò)誤
    • 基因組位置:是否存在PCR重復(fù)序列,self-chain[染色體之間相似性的比較],homoploymers均聚物[地復(fù)雜區(qū)域]
    • 匹配信息:算法相關(guān)的質(zhì)量分?jǐn)?shù)

    根據(jù)以上的這些進(jìn)行過(guò)濾篩選。

    篩選流程:

    最后根據(jù)dbSNP數(shù)據(jù)庫(kù)進(jìn)行判斷,篩掉SNP,獲得突變的信息。

    Somatic Calling Workflow(Mutect2)

    參考資料:

  • https://www.bilibili.com/video/BV1oQ4y1P7fD?share_source=copy_web
  • https://blog.csdn.net/tanzuozhev/article/details/84864344?ivk_sa=1024320u
  • 歡迎關(guān)注我的公眾號(hào)呀~

    總結(jié)

    以上是生活随笔為你收集整理的二代测序之SNV检测总结笔记的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

    如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。