當前位置：首頁 > 编程资源 > 万象百科 >内容正文

万象百科

imputation的细节

發布時間：2023/11/25 万象百科 47 博士

生活随笔收集整理的這篇文章主要介紹了 imputation的细节小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

imputation技術主要包括兩個步驟：1. 從SNP參考數據集中推斷出群體的主要Haplotype型及頻率。2. 基于群體的Haplotype的頻率分布和某一個體的（部分）基因型觀察值去推斷這一個體的haplotype，進而推斷這一個體在某些位點的基因型。我們就從這兩個步驟去分析一下用rare SNP做imputation的可行性。先說第一步，從SNP參考數據集中推斷出群體的主要Haplotype型及頻率。利用rare SNP做這一步的主要問題有兩個：1. 獲得一個群體比較完整的rare SNP集太困難了。 2. 如果把rare SNP考慮進去，那么在同樣長度的block中，Haplotype的數量就太多了。第一個問題不多說，在給定樣本量下，一個rare SNP可以被檢測到的概率與其頻率成正比。在要求達到相同的power的前提下，檢出rare SNP所需的樣本量與其頻率的平方成反比。簡單點說，就是在同一個群體中，要獲得全部（或95%）的MAF>0.5%的SNP, 所需要的樣本量, 是要獲得全部（或95%）的MAF>5%的SNP所需樣本量的100倍。這兩個數量級的差距導致的結果是，我們現在還沒有某一個人群的比較完整的rare SNP參考集。第二個問題主要跟rare SNP的特征有關。在漢族群體中，rareSNP的總數量大概是commonSNP數量的10倍（在其他幾個主要的的人類群體中也接近這個值，跟有效群體大小有關）。這就是說，在一個固定長度的區段上，當考慮上rare SNP后，haplotype理論上可能的組合數目會上升到原來的10次方(指數關系）。當然，考慮到連鎖因素后不會有這么夸張，但這個數量的增加依然是驚人的。那么我們可不可以縮短每個block的長度來減少復雜度呢？答案是基本不可行。現在主流的算法在做這一步時考慮的SNP的數量都在10個以內，如果我們想在考慮rare SNP的同時把復雜度降到跟現在相當的水平，那么每個block平均就只包含一個common SNP和10個rare SNP了。雖然看起來位點的數量足以做出正確的推斷，但實際情況是，在10個rare SNP位點上，大多數個體9個位點都是ref型的，可用的信息量太少了。貌似上面一段剛好講的就是imputation第二步中的問題。。。就不再展開一段去說了。最后的結論是：rare SNP做imputation不太靠譜。當然這里并不是說它準確率低，而是說它的準確率比直接把所有rare SNP處的的缺失直接補成ref型（準確率為1-MAF)差不多。

總結

以上是生活随笔為你收集整理的imputation的细节的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：网易云音乐回应暂缓IPO上市：后续将选择
下一篇：牙齿矫正大约要多少钱？