imputation的细节
生活随笔
收集整理的這篇文章主要介紹了
imputation的细节
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
imputation技術主要包括兩個步驟:1. 從SNP參考數據集中推斷出群體的主要Haplotype型及頻率。2. 基于群體的Haplotype的頻率分布和某一個體的(部分)基因型觀察值去推斷這一個體的haplotype,進而推斷這一個體在某些位點的基因型。我們就從這兩個步驟去分析一下用rare SNP做imputation的可行性。先說第一步,從SNP參考數據集中推斷出群體的主要Haplotype型及頻率。利用rare SNP做這一步的主要問題有兩個:1. 獲得一個群體比較完整的rare SNP集太困難了。 2. 如果把rare SNP考慮進去,那么在同樣長度的block中,Haplotype的數量就太多了。第一個問題不多說,在給定樣本量下, 一個rare SNP可以被檢測到的概率與其頻率成正比。在要求達到相同的power的前提下,檢出rare SNP所需的樣本量與其頻率的平方成反比。簡單點說,就是在同一個群體中, 要獲得全部(或95%)的MAF>0.5%的SNP, 所需要的樣本量, 是要獲得全部(或95%)的MAF>5%的SNP所需樣本量的100倍。這兩個數量級的差距導致的結果是,我們現在還沒有某一個人群的比較完整的rare SNP參考集。第二個問題主要跟rare SNP的特征有關。在漢族群體中,rareSNP的總數量大概是commonSNP數量的10倍(在其他幾個主要的的人類群體中也接近這個值,跟有效群體大小有關)。這就是說,在一個固定長度的區段上,當考慮上rare SNP后,haplotype理論上可能的組合數目會上升到原來的10次方(指數關系)。當然,考慮到連鎖因素后不會有這么夸張,但這個數量的增加依然是驚人的。那么我們可不可以縮短每個block的長度來減少復雜度呢?答案是基本不可行。現在主流的算法在做這一步時考慮的SNP的數量都在10個以內,如果我們想在考慮rare SNP的同時把復雜度降到跟現在相當的水平,那么每個block平均就只包含一個common SNP和10個rare SNP了。雖然看起來位點的數量足以做出正確的推斷,但實際情況是,在10個rare SNP位點上,大多數個體9個位點都是ref型的,可用的信息量太少了。貌似上面一段剛好講的就是imputation第二步中的問題。。。就不再展開一段去說了。最后的結論是:rare SNP做imputation不太靠譜。當然這里并不是說它準確率低,而是說它的準確率比直接把所有rare SNP處的的缺失直接補成ref型(準確率為1-MAF)差不多。
總結
以上是生活随笔為你收集整理的imputation的细节的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 网易云音乐回应暂缓IPO上市:后续将选择
- 下一篇: 牙齿矫正大约要多少钱?