拼接 结果集_MetaQuast:评估宏基因组拼接
MetaQuast:評估宏基因組拼接
MetaQUAST: evaluation of metagenome assemblies
Bioinformatics, [4.531]
2015-11-26 Method
DOI: https://doi.org/10.1093/bioinformatics/btv697
第一作者:Alla Mikheenko
通訊作者:Alexey Gurevich
其它作者:Vladislav Saveliev
作者主要單位:
圣彼得堡國立大學轉化生物醫學研究所算法生物技術中心,圣彼得堡199034,俄羅斯(Center for Algorithmic Biotechnology, Institute of Translational Biomedicine, St. Petersburg State University, St. Petersburg 199034, Russia)
熱心腸日報
MetaQUAST是一款專門針對宏基因組拼接結果評估的工具;
評估主要步驟包括比對參考序列確定未知物種含量,提供基于多樣性參考基因組的綜合報告,通過檢測嵌合重疊群確定是否存在高度相關的物種;
通過4種常用拼接工具分析一個模擬數據集和兩個真實數據集的結果進行評估,測試結果表明MetaQUAST性能良好,同時發現沒有一個軟件在各方面都能優于其它軟件;
該軟件可為用戶選擇適合的拼接工具提供指導。
點評:宏基因組拼接軟件眾多,但由于缺少參考數據庫,拼接結果評估困難。QUAST是2013年發表于Bioinformatics,是一款非常流行的基因組拼接結果評估軟件,引用1759次。2016年又推出了專門針對宏基因組的MetaQUAST版本,引用125次(引用統計截止19年9月17日)。
摘要
簡介:在過去的幾年中,我們目睹了新的宏基因組拼接方法的快速發展。盡管有許多針對單基因組裝配的基準實用程序,但是沒有公認的用于宏基因組特異性類似物的評估和比較工具。在本文中,我們提出了MetaQUAST,它是QUAST的一種修改版本,是基于重疊群與參照對齊的基因組拼接評估的最先進工具。MetaQUAST通過檢測這些宏基因組數據集的特征:(i)未知物種含量通過與下載的參考序列比對來確定;(ii)提供巨大多樣性的多個基因組的綜合報告;(iii)通過檢測嵌合重疊群而存在高度相關的物種。我們通過比較一個模擬數據集和兩個真實數據集上的幾個主要組裝軟件來演示MetaQUAST性能。
可用性和實施:http://quast.sourceforge.net/metaquast
軟件主頁,已經更新至3.2版本,網站也更新,并隨整合為QUAST中的一部分
對四種宏基因組拼接軟件基于MetaHIT數據組裝結果比較
聯系方式:aleksey.gurevich@spbu.ru
1 背景
1 Introduction
宏基因組學研究直接取自環境樣品的遺傳物質。NGS技術允許甚至從低豐度生物體中測序短讀長而無需克隆。然而,在這些實驗中產生的數據往往是巨大的,嘈雜的,并且包含來自數千種物種的片段,其豐度和同源性變化很大。這些挑戰導致了宏基因組裝的新計算問題,其次是多種方法(Boisvert等,2012; Peng等,2012; Haider等,2014),這需要標準的基準程序進行比較。
大多數現有的組裝評估方法不適用于宏基因組。然而,存在計算關于組裝的讀長可能性的方法(Clark等人,2013; Ghodsi等人,2013),或確定單拷貝保守的普遍存在的基因含量(Parks等人,2015; Simao等人,J.Biol.Chem.2007,1987)。,2015)。不幸的是,沒有一個使用重疊群比對與密切相關的參考基因組。在本文中,我們介紹了MetaQUAST,這是一種基于QUAST的宏基因組特異性修改版軟件(Gurevich等,2013)。QUAST基于與給定的密切相關的參考基因組的比對來檢測錯誤,并且還報告和繪制諸如N50和基因含量的重疊群統計數據,其甚至在沒有用戶提供參考序列的情況下給出了組成物種的概述。為了解釋宏基因組拼接,MetaQUAST增加了幾個新功能:(i)使用無限數量參考基因組的能力,(ii)自動物種內容檢測,(iii)嵌合重疊群的檢測(種間錯誤組裝)和(iv)顯著的重新設計
2 材料和方法
2.1 基于參考的評估
有充分研究的具有已知物種含量的宏基因組數據集(Qin等,2010)或模擬數據(Boisvert等,2012; Namiki等,2012)。它們可與MetaQUAST一起用于評估基于參考基因組比對的裝配方法。多參考數據庫的流程包括以下四個主要步驟(附圖S1):
附圖1. 基于參考數據庫的評估流程
MetaQUAST pipeline for reference-based evaluation
所有參考基因組都連接成一個文件(組合參考)。QUAST輸入所有輸入組裝結果與參考數據。我們強制QUAST報告所有不確定的比對,而不是僅報告一個。對于包含密切相關物種的宏基因組數據集,所有模糊比對都是必不可少的。
我們將所有重疊群分成組,每組包含映射到特定參考基因組的序列(基于先前產生的比對)。映射到幾個基因組的重疊群的組。無法比對的重疊群被放入一個額外的組中。
接下來,分別為每個輸入參考數據庫分別運行QUAST,為其提供相應的一組重疊群。無法比對的重疊群組不再進行比對。
最后,所有QUAST運行的結果將組合在一起,形成摘要報告和可視化。用戶可以查看每次運行的詳細完整QUAST輸出,以及整個數據集結果的概覽。
除了QUAST標準質量統計數據集(N50,基因組比例genome fraction等)之外,我們還添加了兩個指標:
種間易位(interspecies translocations)數量:一種錯誤組裝,其中側翼序列與不同的參考序列對齊[類似于(Gurevich等人2013)中引入的易位,其中側翼序列與不同的染色體對齊]。
可能錯誤組裝的重疊群的數量:包含重疊群大部分對齊和未對齊片段的數量,因此可能包含具有未知基因組的種間易位。
與使用GeneMarkS的常規QUAST相比,MetaQUAST使用MetaGeneMark(Zhu等,2010)進行基因預測,該基因預測是專門為宏基因組開發的。
2.2 從頭評估
2.2 De novoevaluation
多數實驗宏基因組學研究使用的是從頭組裝,而沒有參考信息。在沒有輸入參考序列或物種列表的情況下執行MetaQUAST時,它將嘗試識別物種含量并自動提取參考序列。請注意,該算法在假設研究人員對微生物群落最感興趣的前提下工作,因此搜索僅限于細菌和古細菌。
工作流程(請參見附圖S2)首先應用BLASTn(Camacho等,2009)將重疊群與SILVA數據庫中的16S rRNA序列進行比對(Quast等,2012)。幾乎所有微生物物種中都存在的16S亞基是高度保守的序列,但還包括一個高變區,可用于將生物分類。對于每個檢測到的物種,具有最高評分的一個菌株將保留在組裝中。
查詢針對NCBI的物種對對應豐度的前50名,下載每個物種的最少片段的序列。由于已知的問題與生物之間的rRNA操縱子的拷貝數不同以及16S基因的基因組內部異質性不同,某些下載的基因組序列可能在所評估的組裝中不具有代表性。MetaQUAST嘗試通過除去重疊群覆蓋率小于10%(對于所有組裝)的基因組來過濾假陽性。在特殊情況下,當所有序列的基因組分數都非常低時,該列表將保持未經過濾的狀態。
結果,我們獲得了可能由組裝序列代表的一組基因組。我們使用這些序列(如2.1節中所示)啟動MetaQUAST,并產生與常規基于參考的分析相同的輸出文件。
我們的方法是準確性和時間/內存消耗之間的折衷。為了獲得更精確的結果,我們建議使用MGTAXA(Williamson et al。,2012)或基于精確讀長比對的方法,例如Kraken(Wood and Salzberg,2014)或CLARK(Ounit et al。,2015)。通過對整個NCBI-nr數據庫進行BLASTx(Altschul等,1990)搜索可以獲得非常精確的結果。所獲取的物種名稱列表可以以純文本格式輸入到MetaQUAST,使其從NCBI數據庫下載指定的序列,并將其用于基于參考的評估(請參閱第2.1節)。
2.3 根據讀長比對細化裝配錯誤
Refining misassemblies based on read mapping
常規的單基因組QUAST算法將重疊群和參考基因組之間的結構差異報告為錯配。但是,在某些情況下,它們證明可能是結構變異(SV),而不是真實的裝配錯誤。在分析沒有相近參考序列的宏基因組學群落時,這一點尤其重要。MetaQUAST通過考慮配對讀長映射解決了這個問題(附圖S3)。MetaQUAST應用結構變異查找算法來基于不一致的讀對檢測斷點,然后將其用于消除共享的斷點breakpoints。
2.3.1 SV檢測
SV detection
MetaQUAST利用bowtie2(Langmead等人,2009)對組合的參考基因組進行讀長比對。bowtie2生成的BAM文件(Li等,2009)按坐標排序,并作為SV發現軟件的輸入。我們選擇了Manta(Chen等人,2015)SV挖掘軟件,在我們的測試數據集上,其靈敏度和精度均優于LUMPY(Layer等人,2014)和Pindel(Ye等人,2009)。
2.3.2 組裝錯誤分類
Misassembly classification
將QUAST報告的每個組裝錯誤與所有發現的SV的斷點置信區間進行比較。如果錯誤組裝的開始和結束坐標都在SV間隔內擴展了一個小δ,則MetaQUAST會將此錯誤組裝標記為假的,并且將不包括在最終報告中。如果在SV和錯誤組裝之間未發現相似之處,則認為是真實的。默認δ值為100 bp,這是基于對真實和模擬數據集上出現的數十個SV進行手動分析的經驗結果。
這種方法使我們能夠顯著減少所有三個測試數據集上錯誤報告的組裝錯誤的數量。有關詳細的基準測試結果,請參見補充材料。
2.4 可視化
Visualization
MetaQUAST通過大量鳥瞰圖補充了QUAST可視化效果。此外,還將生成一個交互式摘要HTML報告,該報告結合了所有程序集和引用的關鍵統計信息。圖表和摘要HTML在補充材料中進行了演示。
我們將匯總圖分為三組:
錯配Misassembly圖:按類型(錯位relocations,倒位inversions,易位translocations和種間易位)進行錯位分布。它們以兩種視圖形式存在:所有組裝/參考序列和所有參考/組裝。
公制級別Metric-level的圖:對于所有組裝和所有參考序列,每個公制都有一個?;蚪M是從所有裝配中的平均值排序,從最佳開始。
Krona圖表(Ondov等人,2011年):每個組裝一張,整個數據集一張。圓圖顯示了分類概況。僅在從頭評估模式下可用。
交互式摘要HTML報告匯總了所有統計信息,參考序列和組裝的表和圖。每個表格行均顯示組合參考的值,并且可以展開以顯示每個參考的值(請參見圖1)。藍色/紅色熱圖強調離群值。
圖1. 基于MetaHIT數據集的HTML格式報告部分截圖
Part of a summary HTML report for the MetaHIT dataset.
每個單元格按內容著色。在示例中,每個參考基因組比例的信息擴展開來。
結果
Results
我們在三個數據集上測試了MetaQUAST:CAMI(http://cami-challenge.org)模擬群落數據集,MetaHit的MH0045樣本和HMP的SRS077736舌背女性樣本(人類微生物組計劃等,2012)。我們使用在宏基因組學研究中常用的四種主要組裝程序對這些數據進行拼接:IDBA-UD(Peng等人,2012),SPAdes(Bankevich等人,2012),Ray Meta(Boisvert等人,2012)和SOAPdenovo2(Luo等人,2012年)。補充材料中展示了所有三個數據集的比較結果和MetaQUAST性能。
對這些數據集的比較表明,沒有任何組裝程序可以稱為宏基因組學拼接中無可爭議的領導者。因此,諸如MetaQUAST之類的工具對群落而言具有重要的現實意義。這將幫助科學家評估不同的組裝軟件,并為他們的研究選擇最佳的分析。
Reference
Alexey Gurevich, Vladislav Saveliev, Nikolay Vyahhi & Glenn Tesler. QUAST: quality assessment tool for genome assemblies. Bioinformatics. 2013, 29: 1072-1075. doi:10.1093/bioinformatics/btt086
Alla Mikheenko, Vladislav Saveliev & Alexey Gurevich. MetaQUAST: evaluation of metagenome assemblies. Bioinformatics. 2016, 32: 1088-1090. doi:10.1093/bioinformatics/btv697
云筆記 云協作 公眾號
編程模板: Shell R Perl
生物科普: 腸道細菌 人體上的生命 生命大躍進 細胞暗戰 人體奧秘
寫在后面
學習擴增子、宏基因組科研思路和分析實戰,關注“宏基因組”
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的拼接 结果集_MetaQuast:评估宏基因组拼接的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 现金红利发放日是什么意思
- 下一篇: 简述大数据的数据管理方式_智能销售服务商