2015 年,我和华大基因立下一个小目标……
導(dǎo)讀:2015 年,阿里云和華大基因立下一個目標(biāo):到 2020 年,要在 24 小時完成個人全基因組測序。這在當(dāng)時是一個幾乎被認(rèn)為不可能的挑戰(zhàn)。? 而在 2020 年剛開始的第 17 天,我們就實現(xiàn)了這個目標(biāo)!并且把個人全基因組測序分析做到只需要 15 分鐘,不到一頓飯的功夫。
云端實現(xiàn)大規(guī)模彈性調(diào)度計算
圖 1 - WGS 分析過程示意圖
基因計算所面臨的挑戰(zhàn)不同于常規(guī)計算,大數(shù)據(jù)生信分析平臺需要具備 PB 級的數(shù)據(jù)處理能力:存儲與壓縮、清理及管理、低成本保存的能力;快速、安全的云端分發(fā)共享;基因數(shù)據(jù)的安全隱私保護(hù)、大規(guī)模數(shù)據(jù)挖掘;按需調(diào)度和彈性擴(kuò)容等。
此次方案由華大 DNBSEQ 自主測序儀、BGI Online 混合云架構(gòu)、阿里云容器服務(wù) ACK/AGS 基因服務(wù)以及賽樂基因 GPU 加速算法的深度融合而成。其中,華大基因聯(lián)合阿里云的整體技術(shù)架構(gòu)為云原生容器混合云,實現(xiàn)云上云下資源一體,跨地域集群統(tǒng)一管理。憑借云端的自動伸縮特性,實現(xiàn)大規(guī)模彈性調(diào)度計算。
在使用上,該方案用戶無需關(guān)心基因數(shù)據(jù)處理過程中的計算資源、處理邏輯、數(shù)據(jù)緩存等細(xì)節(jié),只需將下機(jī)數(shù)據(jù) (FASTQ文件) 上傳至 OSS,以及授權(quán) Bucket 給 AGS 服務(wù),即可高效、快速完成整個數(shù)據(jù)分析流程,并將結(jié)果數(shù)據(jù)上傳到用戶期望的存儲空間。
這套端到端解決方案,無縫銜接測序平臺和基因云平臺,全面支持包括 DNBSEQ 系列測序儀在內(nèi)的多種測序平臺,可按需定制分析流程,交付靈活性極高。
速度更快,精度更高,成本更低
相比同類產(chǎn)品,它在計算速度、精準(zhǔn)度、成本、易用性、與上游測序儀的整合度上具有極大優(yōu)勢,在 2020 年,新的 WGS 交付方案將會助力基因科研與臨床檢測再上一個新臺階。
經(jīng)過實際測試,整套方案在 15 分鐘內(nèi)完成了 8 組 30X WGS 樣本二級分析處理。在保證精度的前提下,實現(xiàn) 15 分鐘對 7200 億堿基拼裝、排序、去重、變異檢測,完成基因檢測全流程120倍加速。且經(jīng)過 NA12878 測試數(shù)據(jù)集與金標(biāo)準(zhǔn) VCF 比較,二級分析的精度高于或等于 BWA-0.7.17/GATK 4.1.3 的數(shù)據(jù)產(chǎn)出,SNP 精度到達(dá) 99.80%!
圖 2 - 實測 30X WGS N12878 數(shù)據(jù)加速效果
圖 3 - 30X WGS 軟件加速一致性
同時,阿里云 ACK/AGS 提供云上 PaaS 加速能力,以混合云方式協(xié)助華大基因完成自主測序儀大批量下機(jī)數(shù)據(jù)分析的近實時交付,可有效降低分析計算成本,縮短該環(huán)節(jié)交付周期。
加速解碼生命進(jìn)程
此前,線下進(jìn)行單個樣本的 WGS 分析通常需要 70 小時;2016 年底,BGI Online(國際版)實現(xiàn) 17 小時完成 100 個 WGS 分析;2017 年底,時間降至 120 分鐘;到如今攜手阿里云,創(chuàng)下 15 分鐘完成 1 個 WGS 的新紀(jì)錄,BGI Online 再次刷新了全基因組分析的速度極限。
隨著精準(zhǔn)醫(yī)學(xué)人群隊列項目的陸續(xù)啟動,我國自主可控的基因測序與分析平臺顯得愈發(fā)重要。BGI Online 將在未來繼續(xù)完善平臺功能,為用戶提供完整、全面、友好的功能體驗,使生物信息領(lǐng)域的研究更簡單高效。
解碼未知,丈量生命。科技的每一小步,都會成為人類前行的一大步。華大基因及 BGI Online 將繼續(xù)攜手合作伙伴,共同為基因事業(yè)貢獻(xiàn)力量。
注:人類全基因組測序(Whole Genome Sequencing,簡稱WGS)是利用高通量測序技術(shù)對人類不同個體或群體進(jìn)行全基因組測序,并進(jìn)行生物信息分析的方法。癌癥和遺傳疾病的深度解析往往需要對大量樣本進(jìn)行 WGS 測序與分析,而且對 WGS 數(shù)據(jù)的挖掘還能發(fā)現(xiàn)非常多極具價值的遺傳多樣性信息。一個人類全基因組有 30 億堿基,一個 30X 的 WGS 測序數(shù)據(jù)量大約在 100G。
云原生實踐峰會即將開幕
“阿里巴巴云原生關(guān)注微服務(wù)、Serverless、容器、Service Mesh 等技術(shù)領(lǐng)域、聚焦云原生流行技術(shù)趨勢、云原生大規(guī)模的落地實踐,做最懂云原生開發(fā)者的技術(shù)圈。”
總結(jié)
以上是生活随笔為你收集整理的2015 年,我和华大基因立下一个小目标……的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 如何熟悉一个系统?(内含知识大图)
- 下一篇: 为什么 K8s 在阿里能成功?| 问底中