MadFS:高性能超算缓存文件系统——助力“鹏城云脑II”获世界IO500排行榜冠军...
點擊上方藍字關注我們
MadFS:高性能超算緩存文件系統
陳康,?武永衛,?鄭緯民
論文引用格式:
陳康, 武永衛, 鄭緯民. MadFS:高性能超算緩存文件系統[J]. 大數據, 2021, 7(3): 150-152.
CHEN K,WU Y W, ZHENG W M.MadFS: a high performance burst buffer file system[J]. Big Data Research, 2021, 7(3): 150-152.
對于存儲系統來說,信息資源的爆炸性增長在I/O支持應用的性能以及數據可用性等方面提出了越來越高的要求。可以預見,人工智能、大數據和圖計算等新型計算模式對存儲系統的I/O性能更是提出了極致要求。從技術發展趨勢上來看,新型的網絡傳輸硬件及使用模式、新型存儲硬件都提供了極高的訪問帶寬和極低的訪問時延,這一發展趨勢導致現有的存儲軟件成為性能瓶頸。特別是在提供低時延訪問上,存儲軟件的結構需要進行革新。
傳統的分布式文件系統結構按照擴展的方式來看,主要有兩個發展思路。一個是先對磁盤進行擴展,之后在擴展的磁盤基礎上建立文件系統,提供服務。這個方面的典型是Petal磁盤擴展服務以及Frangipani文件系統。在高性能文件系統中,這個方面的典型是IBM公司的通用并行文件系統(general parallel file system,GPFS)。另外一個發展思路是直接對文件系統進行擴展,由一個或者少數幾個節點來保存元數據,記錄文件數據的分布情況,其他的節點用來保存數據。這方面的典型是Google文件系統(Google file system)以及衍生的Hadoop分布式文件系統(Hadoop distributed file system,HDFS)。在高性能文件系統中,采用該思路的是大部分高性能計算機標配的Lustre文件系統。傳統的高性能文件系統在構造時大部分將磁盤作為數據的存儲介質。但是,現有的文件系統不能滿足新一代的人工智能、大數據、機器學習等的應用,對于新的存儲體系結構、新的網絡體系結構帶來的高帶寬、低時延的性能優勢也缺乏考慮。
在當前數據密集型計算普及發展的時代,存儲軟件的訪問性能直接制約了數據密集型計算的性能。下一代的存儲系統剛剛開始起步,包括Intel分布式異步對象存儲(distributed asynchronous object storage,DAOS)在內的新型存儲結構與系統正在形成。為了適應這種趨勢,清華大學計算機系的E級計算機系統結構研究團隊構建了下一代的分布式存儲系統——MadFS,從分布式文件系統軟件的架構上進行革新,消除現有存儲架構的系統性問題,充分釋放硬件的性能,滿足下一代應用對數據快速處理的需求。MadFS的設計以性能為第一原則,利用高速遠程直接內存訪問(remote direct memory access, RDMA)網絡和NVMe SSD存儲設備,將數據快速分散到存儲節點上進行持久化,達到高吞吐、低時延、高性能的特性。
MadFS的系統架構設計遵循了以下3個關鍵的設計原則。
● 數據塊和元數據的全分散存儲:傳統并行或者分布式文件系統一般使用少量節點管理元數據,導致元數據節點成為整個系統的性能瓶頸。下一代分布式存儲系統MadFS將元數據分散到全部節點上,以避免元數據的性能瓶頸,同時數據塊也需要分散在全部節點上。
● 建立內核旁路,避免操作系統切換開銷:為了提高系統的性能,MadFS采用避免應用程序頻繁進入操作系統內核的方式來降低上下文切換的開銷。隨著I/O設備性能的不斷提高,操作系統進出內核切換的開銷日益突出,MadFS使用用戶態驅動、協議棧等方式直接控制設備。在對應用程序的支持上使用系統調用截獲技術,直接在用戶態處理應用的I/O請求,避免其進入內核。
● 語言級協程機制與零拷貝序列化:MadFS利用Rust語言內建的異步協程機制、零拷貝序列化技術實現了極低開銷的任務切換和遠程函數調用。高性能存儲系統常采用異步的方式處理I/O請求,這會給編程引入很大的復雜性。而新型編程語言Rust提供了利用協程處理異步邏輯的語言機制,可以極大地降低異步編程的復雜性,同時保持極低的任務切換開銷,保證整體的高性能。
2020年11月19日,由清華大學計算機科學與技術系存儲系統研發團隊研發的超算緩存文件系統MadFS在鵬城實驗室“鵬城云腦Ⅱ”的IO500測試中,分別以7 043.99分和1 129.75分同時獲得全球IO500總榜第一名與10節點榜單第一名,這是國內科研機構首次奪得該排行榜榜首?!谤i城云腦Ⅱ”是一臺基于華為鯤鵬920架構的高性能計算系統,于2020年10月開始試運行。本次“鵬城云腦Ⅱ”的存儲系統基于MadFS,針對“鵬城云腦Ⅱ”的硬件特征,采用了基于Rust的高可擴展并發訪問、大粒度數據緩存/旁路訪問、數據訪問/落盤流水化、零拷貝極速遠程過程調用(remote procedure call,RPC)處理技術等創新優化方法。
IO500是高性能計算領域針對存儲性能評測的全球排行榜,是高性能計算領域權威的榜單之一。IO500測試包括數據帶寬BW(GiB/s)和元數據性能MD (kIOPS)兩大部分,各項分數取幾何平均后得到總分。在高性能計算領域,不僅CPU算力非常重要,I/O系統的數據傳輸更是瓶頸。自2017年11月開始,每年IO500榜單會在高性能計算領域的會議——全球超級計算大會(SC)和國際超級計算大會(International Supercomputing Conference)上發布。
作者簡介
陳康(1976-),男,清華大學計算機科學與技術系研究員,主要研究方向為分布式系統、存儲系統等。
武永衛(1974-),男,清華大學計算機科學與技術系教授,中國計算機學會(CCF)高級會員,主要研究方向為并行和分布式處理、云計算和存儲等。
鄭緯民(1946-),男,中國工程院院士,清華大學計算機系教授,CCF原理事長,何梁何利基金科學與技術進步獎獲得者,中國存儲終身成就獎獲得者,《大數據》期刊主編。長期從事計算機系統結構、大規模數據存儲、高性能計算等領域的科研教學工作。獲國家科學技術進步獎一等獎1次,獲國家科學技術進步獎二等獎2次,獲國家技術發明獎二等獎1次。
聯系我們:
Tel:010-81055448
? ? ? ?010-81055490
? ? ? ?010-81055534
E-mail:bdr@bjxintong.com.cn?
http://www.infocomm-journal.com/bdr
http://www.j-bigdataresearch.com.cn/
轉載、合作:010-81055537
大數據期刊
《大數據(Big Data Research,BDR)》雙月刊是由中華人民共和國工業和信息化部主管,人民郵電出版社主辦,中國計算機學會大數據專家委員會學術指導,北京信通傳媒有限責任公司出版的期刊,已成功入選中國科技核心期刊、中國計算機學會會刊、中國計算機學會推薦中文科技期刊,并被評為2018年、2019年國家哲學社會科學文獻中心學術期刊數據庫“綜合性人文社會科學”學科最受歡迎期刊。
關注《大數據》期刊微信公眾號,獲取更多內容
總結
以上是生活随笔為你收集整理的MadFS:高性能超算缓存文件系统——助力“鹏城云脑II”获世界IO500排行榜冠军...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python保存几位小数 format
- 下一篇: java信息管理系统总结_java实现科