【代谢组学】3.数据分析
目錄非靶向代謝組實(shí)驗(yàn)設(shè)計(jì)數(shù)據(jù)分析流程1.數(shù)據(jù)預(yù)處理2.數(shù)據(jù)質(zhì)控3.統(tǒng)計(jì)分析
非靶向代謝組實(shí)驗(yàn)設(shè)計(jì)
1.代謝物提取,一般要求每組至少10個(gè)樣;
2.在所有提取好的樣本中取等量混合作為QC;
3.QC樣本與實(shí)驗(yàn)樣本穿插上機(jī),開(kāi)始十個(gè)QC,結(jié)尾三個(gè)QC,中間每十個(gè)樣本穿插一個(gè)QC樣本
。
得到質(zhì)譜譜圖數(shù)據(jù)經(jīng)軟件處理后得到峰表。
峰表格式一般為:每行為一個(gè)m/z,每列為一個(gè)樣本
數(shù)值表示該樣本中某個(gè)m/z的信號(hào)響應(yīng)。
第一列為保留時(shí)間_質(zhì)荷比來(lái)代表離子,如0.10_96.9574m/z。
數(shù)據(jù)分析流程
一般有如下幾點(diǎn):
1.數(shù)據(jù)預(yù)處理。如缺失值過(guò)濾填充、數(shù)據(jù)歸一化等。
2.數(shù)據(jù)質(zhì)控。包括CV分布、QC等。
3.統(tǒng)計(jì)分析。包括單變量、多變量等。
4.功能分析。包括Pathway、網(wǎng)絡(luò)分析、Biomarker篩選等。
1.數(shù)據(jù)預(yù)處理
缺失值處理
1)缺失原因
a. 信號(hào)很低檢測(cè)不到;
b. 檢測(cè)錯(cuò)誤,如離子抑制或者儀器性能不穩(wěn)定;
c. 提峰的算法限制,不能從背景中將低的信號(hào)提取出來(lái);
d. 解卷積時(shí)不能將重疊的峰全部解析出來(lái)。
2)缺失值過(guò)濾
比如:
QC樣本中缺失超過(guò)50%的去除;
樣本中缺失值超過(guò)80%的去除。
3)缺失值填充
-- 最小值填充
-- 平均值/中值填充
-- KNN(k-nearest neighbour)填充
-- BPCA(Bayesian PCA)填充
-- PPCA(probabilistic PCA)填充
-- Singular Value Decomposition (SVD)
一般推薦KNN。
噪音信號(hào)去除
一般是低質(zhì)量的離子。
1)低質(zhì)量離子的確定:
計(jì)算某個(gè)離子在QC樣本中的RSD(標(biāo)準(zhǔn)差/均值);其值越小,說(shuō)明偏差越小;
2)判斷標(biāo)準(zhǔn):
-- 對(duì)單個(gè)離子峰而言,RSD<0.3,則該離子峰合格,否則去除;
-- 對(duì)于整體數(shù)據(jù)而言,RSD<0.3,峰所占比例>60%,則整體數(shù)據(jù)合格;
樣本歸一化
目的是為了提高樣本間的可比性。
樣本間有差異性,如不同人的尿液濃度不同,不能直接拿來(lái)比較。
可在采集前歸一化,如肌酸酐歸一化;也可在采集后歸一化,如sum,pqn,quantile等。對(duì)于數(shù)據(jù)分析而言,通常是后者,如總和歸一化(sum)。
數(shù)據(jù)轉(zhuǎn)換
下游的分析一般要求數(shù)據(jù)為正態(tài)分布或者高斯分布;
所以數(shù)據(jù)通常要進(jìn)行Log轉(zhuǎn)化或power轉(zhuǎn)化,這兩者都能夠?qū)O大值的抑制效應(yīng)消除,并且能夠調(diào)整數(shù)據(jù)的分布,如下圖;
Log轉(zhuǎn)化對(duì)0值比較敏感,必須首先去除零值。
數(shù)據(jù)轉(zhuǎn)換——scaling
目的是消除極大值效應(yīng)。
對(duì)不同樣本中同一個(gè)m/z的強(qiáng)度差異過(guò)大進(jìn)行調(diào)整,極大值的存在往往會(huì)掩蓋較低值的變化特征。
可將某個(gè)m/z在所有樣本中的強(qiáng)度的值,除以一個(gè)因子(SD值);
方法如auto (uv),pareto(推薦),vast, range等。
相當(dāng)于上面樣本歸一化是為了樣本可比,scaling是為了離子可比。
2.數(shù)據(jù)質(zhì)控
QC樣本的TIC重疊情況
上圖分別是陰離子和陽(yáng)離子模式下QC樣本的TIC重疊情況。
一般認(rèn)為:
所有的QC樣本峰重疊良好;
峰強(qiáng)度波動(dòng)差別不大;
QC樣本中CV<30%的峰所占比例
PCA中QC樣本的聚集程度
QC樣本的相關(guān)性
上圖分別為歸一化前和歸一化后的數(shù)據(jù)。
3.統(tǒng)計(jì)分析
單變量分析
一次只分析一個(gè)變量,即一個(gè)m/z,考察不同組別不同樣本的這個(gè)m/z表達(dá)有無(wú)差異?
常見(jiàn)的方法有倍數(shù)分析,t檢驗(yàn),秩和檢驗(yàn),方差分析等。
聚類分析
核心思想就是根據(jù)具體的指標(biāo)(變量)對(duì)所研究的樣品進(jìn)行分類;
聚類分析需要設(shè)定一個(gè)方法來(lái)衡量樣本間的相似性或者不相似性(常用歐式距離,相關(guān)性系數(shù)等);
常見(jiàn)聚類的方法:系統(tǒng)聚類(層次聚類)、K-均值聚類等。
K-均值首先要估計(jì)出將要分出幾個(gè)類,然后將全部的基因按照相似性的距離,歸入這幾類中。
K– means計(jì)算量要小得多,效率比層次聚類要高。
無(wú)論哪種分類方法,最終要分成多少類,并不是完全由方法本身來(lái)決定,研究者應(yīng)結(jié)合具體問(wèn)題而定。
聚類分析是一種探索性的數(shù)據(jù)分析方法。相同的數(shù)據(jù)采用不同的分類方法,也會(huì)的得到不同的分類結(jié)果。分類的結(jié)果沒(méi)有對(duì)錯(cuò)之分,只是分類標(biāo)準(zhǔn)不同。
使用聚類方法時(shí),首先要明確分類的目的,再考慮選擇哪些變量(或數(shù)據(jù))參與分類,最后才需要考慮方法的選擇。
多變量分析
1)PCA分析
以下分別是得分圖(樣本在新的坐標(biāo)系中的位置
)和載荷圖(loading圖,原變量與主成分間的夾角)
PCA怎么看?
組內(nèi)差異
組間差異
異常樣本
PC1與PC2得分
2)偏最小二乘法
PLSDA的圖和PCA類似。只是一種監(jiān)督學(xué)習(xí)的方法,事先給樣本分類,最后看能否將不同組分開(kāi)。
用R2和Q2進(jìn)行模型評(píng)價(jià)。
R2是相關(guān)性系數(shù),表示這個(gè)模型的擬合效果,是一個(gè)定量的測(cè)量(范圍0-1),意味著所建立的模型能在多大程度上代表真實(shí)的數(shù)據(jù);
一般當(dāng)R2在0.7-0.8表示模型解釋能力較好,較差的模型的R2往往為0.2-0.3
Q2表示PLS-DA模型的預(yù)測(cè)能力;
一般Q2大于0.5表示預(yù)測(cè)能力較好,并且R2與Q2的值應(yīng)該比較接近。
使用permutation test模型進(jìn)行過(guò)擬合檢驗(yàn)。
VIP ( Variable Importance in Projection)變量重要性投影
每一個(gè)m/z都有VIP值,表示這個(gè)m/z在某一個(gè)主成分上的投影,即重要程度;
一般我們使用第一、第二主成分的VIP來(lái)表示這個(gè)m/z對(duì)模型分型的貢獻(xiàn)程度,VIP>=1被認(rèn)為是具有顯著貢獻(xiàn)的。
代謝組學(xué)數(shù)據(jù)分析最后兩部分內(nèi)容——功能分析和生物標(biāo)志物篩選見(jiàn)下節(jié)內(nèi)容
總結(jié)
以上是生活随笔為你收集整理的【代谢组学】3.数据分析的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 鼓励团队冲刺业绩的话65句
- 下一篇: 怎么创建具有真实纹理的CG场景岩石?