积微论坛第一期 - 基于大数据整合预测土壤枯萎病的发生 (文稿分享)
生物信息學習的正確姿勢
NGS系列文章包括NGS基礎、高顏值在線繪圖和分析、轉錄組分析?(Nature重磅綜述|關于RNA-seq你想知道的全在這)、ChIP-seq分析?(ChIP-seq基本分析流程)、單細胞測序分析?(重磅綜述:三萬字長文讀懂單細胞RNA測序分析的最佳實踐教程)、DNA甲基化分析、重測序分析、GEO數(shù)據(jù)挖掘(典型醫(yī)學設計實驗GEO數(shù)據(jù)分析 (step-by-step))、批次效應處理等內容。
文章解讀微信鏈接ISME:南農沈其榮團隊基于大數(shù)據(jù)準確預測土壤的枯萎病發(fā)生 (點擊閱讀原文跳轉視頻觀看)
基于大數(shù)據(jù)整合預測土壤枯萎病的發(fā)生
介紹主講人
袁軍,博士,就職于南京農業(yè)大學資環(huán)學院沈其榮教授團隊。研究方向:根系分泌物介導的植物-土壤反饋,土壤微生物群落調控,連作障礙修復,新型肥料研發(fā)。目前以第一作者在The ISME Journal,Microbiome,SBB,Hortic Res,AEM 等國際著名期刊上發(fā)表十余篇文章 (文章他引700余次)。
研究背景及意義
為什么會選枯萎病呢?枯萎病是土傳病害里面一個代表性的病害,其發(fā)病區(qū)域廣泛,宿主種類眾多,孢子存活時間長,發(fā)病率高,危害大。
為什么要做整合分析
在世界上很多區(qū)域的很多物種都可以發(fā)病,但是很難找到發(fā)病的閾值,而個例的研究很難從整體的角度來說明問題,并且需要明確回答微生物群落是否存在特征這個問題,基于這些條件來做整合分析。
研究方法概覽
首先是收集數(shù)據(jù),一部分數(shù)據(jù)用來構建模型,另一部分用來模型的預測和訓練;其后就是對數(shù)據(jù)進行整合和篩選;之后是建立模型,最后把群落特征提取出來并進行可視化。
數(shù)據(jù)收集
數(shù)據(jù)的一部分是直接從文獻中獲取數(shù)據(jù)來源,另一部分可以在公共數(shù)據(jù)庫進行查找,因為公共數(shù)據(jù)庫中還存在一些文章尚未發(fā)表但是已經(jīng)公開了的數(shù)據(jù),剩下的一部分來自自己或同行的測序數(shù)據(jù)。
機器學習方法
機器學習方法有很多,這里羅列了常見的5種。
隨機森林:
微生物生態(tài)領域應用較多,精度高、能處理大量的變數(shù)
支持向量機:
其他領域常用,比如人臉識別
邏輯回歸:
最傳統(tǒng)
決策樹:
結構簡單、效率高
樸素貝葉斯算法:
被分類的每個特征都與任何其他特征的值無關
樣本數(shù)據(jù)分布
數(shù)據(jù)要有代表性,不一定獲取的每個項目都有很多樣本,但是項目一定要多。
另外也要注意如果某個項目的樣本量特別大,這樣做PCA的時候可能這個項目的樣本會單獨聚為一類,而其他項目聚為另一類。
數(shù)據(jù)整合和過濾
這時候我們就需要對樣本進行篩選。但篩選并沒有固定的標準,比如去除樣本量大的一部分樣本后,PCA結果中樣本按照疾病情況等分組聚類,說明這個篩選方法沒問題。而真菌的項目的樣本量分布比較平均就沒有進行過濾,但對細菌的的項目的樣本數(shù)量進行了過濾。
然后是對OTU的過濾,因為是對很多樣本進行OTU的聚類,所以會聚類出很多OTU,比如我們通過對數(shù)據(jù)聚類出5萬多個OTU,但是大多數(shù)的OTU豐度很低,對于研究想獲取的群落特征意義不大,所以我們僅保留了存在于三分之一研究及以上的OTU。
OTU過濾的效果
對過濾OTU前與過濾OTU后的分析結果進行比較了,可以看到經(jīng)過過濾后,alpha多樣性在疾病組和健康組中存在顯著差異了,而Beta多樣性和物種組成則沒什么明顯的變化,這說明對樣本過濾是合理的。
特征物種篩選
下面進行了機器學習算法的篩選,主要是比較隨機森林、支持向量機和邏輯回歸的這三種算法。發(fā)現(xiàn)隨機森林結果最好,支持向量機次之。
機器學習算法中使用的物種分類水平的確定
機器學習算法確定好了后就是選擇基于哪個物種分類水平來建立模型。通過對門、綱、目、科、屬、OTU水平的建模結果比較,發(fā)現(xiàn)細菌只有OTU水平結果最好,所以細菌與真菌均選擇了基于OTU來建模。
模型驗證
驗證這一步是很必要的。那么怎么去驗證呢,就是自己去收集不同物種不同地點的數(shù)據(jù)來用于預測。
預測結果可以看到除了北京發(fā)病西瓜的真菌數(shù)據(jù)都預測錯誤,其他數(shù)據(jù)均基本預測正確。這里要單獨提下百合這個物種,因為我們原始用于構建模型的數(shù)據(jù)并沒有涉及百合,但是使用模型來預測百合的結果基本也是準確的,這也證明我們預測的模型是有代表性的,可以從枯萎病這個角度來看微生物組成的特征。
特征物種篩選
通過在OTU水平建模,可以得到45個細菌特征OTU和40個真菌特征OTU。可以看到細菌的大部分特征OTU在疾病組和健康組豐度還是存在差異的,真菌的熱圖結果雖然不是很明顯,但是可以從堆積柱狀圖里看到豐度也是存在差異的。
后續(xù)研究還可以深入去挖掘這些微生物對疾病功能與作用。
特征OTU網(wǎng)絡互作關系推斷
細菌特征OTU網(wǎng)絡分析表明,健康網(wǎng)絡中包含的節(jié)點和連接數(shù)較多,并且網(wǎng)絡平均度(average degree)和中心緊密度(centralization-closeness)較高。
真菌特征OTU網(wǎng)絡分析表明,發(fā)病網(wǎng)絡中包含的節(jié)點和連接數(shù)較多。
數(shù)據(jù)整合的意義
為什么做數(shù)據(jù)整合呢?首先是想發(fā)現(xiàn)微生物群落的特征,其次也可以為進一步驗證特征OTU的功能打下基礎,并且綜合多人的結果得出的結論更有說服力,也可以進一步來佐證自己的觀點。
擴增子數(shù)據(jù)整合過程的問題
現(xiàn)在整合很火,因為公共數(shù)據(jù)很多,并且沒有經(jīng)費也可以開展整合分析。但是我們要重視整合過程中存在的問題,比如最基礎的就是DNA的提取,DNA提取結果質量不好的話就不能保證結果是否有代表性,發(fā)現(xiàn)的差異是否來自數(shù)據(jù)的真實差異。另外還有用不同的引物來擴增不同的區(qū)域,在整合分析時也會有問題。
而在實際分析也會遇到很多問題,例如最開始下載的數(shù)據(jù)遠超于分析中使用的數(shù)據(jù),但是一些數(shù)據(jù)可能因為沒有提供引物或其他原因無法使用,還有就是比如數(shù)據(jù)是核糖體rDNA的不同的區(qū)域,這時候可以按照不同區(qū)域對數(shù)據(jù)分類,然后獨立進行研究,最后看結論是否統(tǒng)一。
擴增子數(shù)據(jù)整合策略
主要是兩個策略,一個是下載原始數(shù)據(jù)通過聚類獲得OTU,從OTU水平進行整合,第二個策略不需要原始數(shù)據(jù),基于OTU豐度表,在不同分類水平上進行整合,這個方式速度快,精度低 適合大生態(tài)。
擴增子數(shù)據(jù)整合進一步探索
比如深度評估不同數(shù)據(jù)差異,這時候可能考慮引物的影響、數(shù)據(jù)庫的影響,方法的選擇,這里建議大家先做,做了看結果再說,不要被想法局限。
另外也可以結合溫度、降雨、土壤的碳、氮等環(huán)境因子進行更多層次的分析。
評估一個主題是否適合做擴增子數(shù)據(jù)整合?
可以從下面幾條來評估是否適合擴增子數(shù)據(jù)整合?
是否有重大意義?
關注這個問的人多不多?
如果意義不太大,數(shù)據(jù)量也不是很多,進行整合分析就不是特別必要。
是否單個研究無法解決問題?
對于一個問題存在爭論,大家都各執(zhí)一詞,就可以整合分析來看結果會是什么樣子。
是否有大量的相關研究?
最好是這個問題已經(jīng)有大量的研究了再進行整合,比如整合四篇文章其實并沒什么意義。
可否驗證
如果不能驗證結果那結論只是一面之詞,所以驗證在數(shù)據(jù)整合是很重要的一個方面。
開展一個數(shù)據(jù)整合項目的時間
PPT展示了每個部分花費的時間,但是要注意一個月并不是一個月內完成這部分內容,而是工時。不過最花費時間的就是數(shù)據(jù)的不斷嘗試、探索和應用機器學習等方法進行分析。
致謝
最后感謝團隊帶頭人沈其榮教授和團隊中特別努力的學生們。
劉永鑫老師總結亮點
雖然一千多個樣本整合并不算多,但是能數(shù)據(jù)能包含多個地點多個物種,這一點就足夠吸引審稿人。
提問
Q:一些公共數(shù)據(jù)并沒有上傳barcode序列怎么處理?Y:如果有分組信息的話,這個數(shù)據(jù)是可以用的。
Q:有沒有用生態(tài)學的方法進行挖掘,比如從一些生態(tài)過程和互作模式入手?Y:最近正在做,但是還沒得到比較好的結果。
Q:如果一些數(shù)據(jù)沒有分組信息,就不能用這部分數(shù)據(jù)進行后續(xù)分析了嗎?Y:是的
Q:差別大的樣本是直接剔除還是抽平到和其他樣本同樣的水平?Y:隨機去抽就可以了
Q:OTU表如何進行下載和整合?Y:有的文章會上傳OTU表數(shù)據(jù),但我們分析是用原始數(shù)據(jù)來生成OTU表
Q:多個研究由批次效應,批次效應如何消除?質控的標準?Y:除了批次效應、不同的平臺、引物等都會對數(shù)據(jù)產生影響,我們是從發(fā)病與健康的角度來看是否存在差異,并且數(shù)據(jù)很多的時候,主要差異是來自于發(fā)病與健康。高通量數(shù)據(jù)中批次效應的鑒定和處理 - 系列總結和更新
Q:依據(jù)您上文提到的關鍵詞在谷歌學術檢索,有4000多個文獻滿足,如何對這些檢索結果過濾?Y:沒什么簡便的方法,只能通讀一遍看看是否滿足需要
Q:收集的序列數(shù)據(jù)都是16S的一個區(qū)?或者有共同的區(qū)域然后切齊?Y:來自于不同的區(qū)域,將不同的區(qū)域片段去和全長的數(shù)據(jù)庫比對
Q:發(fā)病土壤來自持續(xù)幾年都發(fā)病的土壤還是偶然發(fā)病的土壤?Y:公共的數(shù)據(jù)有的并沒有提到這個信息,但我們用于預測的樣本來自常年發(fā)病的土壤
Q:qiime2怎么生成的unifrac距離?R怎么獲得beta多樣性的結果矩陣?L:我通常習慣用usearch的beta_div命令來獲得unifrac距離,R可以通過vegan包來計算各種beta多樣性距離矩陣
Q:您對深度評估不同引物造成的差異有什么建議嗎?Y:剛才也提到過,可以通過分開分析來看結果是否一致。
Q:可以分享下載數(shù)據(jù)的腳本嗎?Y:文章中提供的github鏈接中包含分組中用到的腳本
Q:擴增子整合用OTU還是ASV更合適?Y:這篇文章是用的OTU
Q:機器學習篩選特征OTU是否都得先用大量數(shù)據(jù)進行訓練?以及訓練的比例是多少?Y:2/3用于訓練,剩下1/3用于驗證,不過訓練了很多次,每次都是隨機選2/3用于訓練,剩下1/3用于驗證
Q:可以分析下文章解讀鏈接嗎?L:文章解讀鏈接:ISME:南農沈其榮團隊基于大數(shù)據(jù)準確預測土壤的枯萎病發(fā)生
Q:自己的數(shù)據(jù)是OTU表,但是文章沒有提供OTU表,是不是就無法整合了?Y:只能從不同分類水平上進行整合了。
Q:rdp數(shù)據(jù)庫和Greengene數(shù)據(jù)庫哪個好?Y:各有所長。rdp包含的數(shù)據(jù)更多一點,Greengene數(shù)據(jù)庫更準確,但是greengene數(shù)據(jù)很久沒更新了 L:如果是從OTU層面上,很多文章都用的Greengene數(shù)據(jù)庫更容易整合,并且qiime系列用的默認數(shù)據(jù)庫就是Greengene數(shù)據(jù)庫
Q:不同月份采的樣,批次效應不去除和去除影響都很大,怎么處理?Y:這個差異也不一定是完全是批次效應帶來的,也有可能來自溫度、水分等環(huán)境因子,可以做環(huán)境因子的分析來看看
Q:怎么批量爬取文獻?還是一篇篇文獻去下載?Y:可以批量下載,但看文獻還是一篇篇去看
Q:通過模型來進行預測的原理是什么?Y:建模后我們獲得45個特征OTU,但除了OTU的分類信息外,我們還有其相對豐度信息,相當于指紋圖譜,把樣本和這個信息map一下,就能判斷這個樣本是發(fā)病樣本還是健康樣本。
Q:機器學習的意義是什么?Y:通過機器學習就可以獲取特征OTU,這些特征OTU除了有樣本中豐度差異信息,并且也能展示了其對群落組成的貢獻度。
Q:45個特征OTU的P值的標準是什么呢?Y&W:45個特征OTU是通過機器學習的方法獲取出來的,所以沒有P值結果,其原理是構建好模型后,挑選出45個對分類有重要作用的OTU
Q:看到一些文獻是選擇差異OTU,然后用差異OTU建模,這個也是可以的嗎?Y:是的,我們其他的文章就是用的這個方法
往期精品(點擊圖片直達文字對應教程)
后臺回復“生信寶典福利第一波”或點擊閱讀原文獲取教程合集
總結
以上是生活随笔為你收集整理的积微论坛第一期 - 基于大数据整合预测土壤枯萎病的发生 (文稿分享)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 三大高通量测序平台芯片通量对比图(请把手
- 下一篇: 鉴定5分钟,准确率95.64% | 微生