全球TOP10超级计算机8台都选英伟达的三大原因
本周,又是一年一度的高性能計算大會 ISC。今天,是超級計算機 TOP500 榜單更新的時間。根據 TOP500 剛剛發布的超算 TOP500 榜單,中國部署了 226 臺位列第一,美國部署了 114 臺名列第二,日本以 30 臺位居第三。
2020 年 6 月更新的 TOP500 超算系統排名
細看這份最新的榜單,可以發現 TOP10 的超級計算機中有 8 臺采用了英偉達 GPU、InfiniBand 網絡技術,或同時采用了兩種技術。TOP500 榜單的系統中,有 333 套(三分之二)采用了英偉達的技術。
TOP500 超算系統采用 NVIDIA GPU、Mellanox 網絡技術,或同時采用了這兩種技術數量
三年前的 2017 年 6 月,TOP500 榜單使用英偉達和 Mellanox(被英偉達以 69 億美元收購)的系統為 203 套,不到 TOP500 個超算系統的一半。為什么在超算領域英偉達能進展如此迅猛?TOP100 超算為何要選英偉達?
高速數據互聯技術普及
英偉達愿意以高價收購 Mellanox 的重要原因是高速數據互聯在大數據時代變得越來越重要,在超算系統里尤為明顯。自 2019 年 11 月以來,TOP500 榜單上使用 HDR InfiniBand 的系統數量幾乎增加了一倍。共有 141 臺超級計算機使用了 InfiniBand,自 2019 年 6 月以來增長了 12%。
如今,TOP500 榜單上有將近四分之三(74%)的全新 InfiniBand 系統采用了 NVIDIA Mellanox HDR 200G InfiniBand,這是智能高速數據互聯技術迅速普及的一個體現。另外,在 TOP500 超級計算機中,有 305 套系統使用了 NVIDIA Mellanox InfiniBand 和 Ethernet 網絡(占 61%)。
InfiniBand 為排名前 10 的超級計算機中的 7 臺提速
ISC 期間,英偉達又宣布推出 Mellanox UFM Cyber-AI 平臺,新的平臺運用 AI 分析技術檢測安全威脅和運行問題并預測網絡故障,能夠大幅減少 InfiniBand 數據中心的停機時間。
收購 Mellanox 和智能高速數據互聯迅速普及是讓英偉達的產品在 TOP500 榜單中比例迅速提升的一個關鍵,但作為超算系統,性能更為關鍵。
超高性能系統像積木一樣搭建
特別是,當下 AI 和分析已成為科學計算中的新需求,全球各地的研究者都正在使用深度學習和數據分析預測各種最具潛力的領域,進而開展實驗。GTC2020 上,英偉達就表示位于美國阿貢國家實驗室的研究者使用 24 臺 NVIDIA DGX A100 系統組成的集群對數十億種藥物進行掃描,以尋找 COVID-19 的治療方法。
英偉達最新發布的安培(Ampere)架構 GPU A100 正是推動超算系統選用英偉達產品的關鍵之一。在一臺 6U 服務器中集成了 8 顆 A100 GPU 以及 NVIDIA Mellanox HDR InfiniBand 網絡技術的 NVIDIA DGX A100 AI 系統單節點性能達到了創紀錄的 5 petaflops。由 140 臺 DGXA100 系統組成的新一代 DGX SuperPOD 的 AI 算力更是高達 700 Petaflop。
這對于競爭已經到了百萬兆級超算而言,意義重大,并且,這個系統具有很好的擴展性。英偉達表示, DGX SuperPOD 架構設計展示了如何像搭積木一樣使用高性能 NVIDIA Mellanox InfiniBand 交換機連接 20 臺 DGX A100 系統。4 名操作人員僅需不到 1 個小時,就能組裝起一套由 20 臺系統組成的 DGX A100 集群,創建出一套性能可以達到2-petaflops 的系統。
據悉,通過添加 NVIDIA Mellanox InfiniBand 交換機層,英偉達工程師將 14 套分別配置有 20 臺 DGX A100 系統的模塊組的相連接,打造出了 Selene。Selene 系統具有:
-
280 臺 DGX A100 系統
-
2240 顆 NVIDIA A100 GPU
-
494 臺 NVIDIA Mellanox Quantum 200G InfiniBand 交換機
-
56 TB/s的網絡架構
-
7PB 的高性能全閃存
Selene 最重要的性能規格之一是可以提供超過 1 exaflops 的 AI 性能。并且,在 TPCx-BB 關鍵數據分析基準測試中,使用了 16 臺 DGX A100 系統就創造了新紀錄,性能表現高出其他系統 20 倍。
在 ISC 2020 期間,英偉達還宣布推出 PCIe 版本的 A100,為的是補充上月發布的四卡和八卡 NVIDIA HGX A100 配置,這樣,服務器制造商就能夠提供從內置單個 A100 GPU 的系統到內置 10 個或 10 個以上 GPU 的服務器,進一步更好地滿足超算系統構建需求。
除了性能,TOP500 超算系統也非常關注能耗,這也是英偉達能吸引超算系統制造商的另一大原因。
能效平均提升 2.8 倍
根據英偉達的說法,在能效方面,TOP500 超算使用英偉達 GPU 的系統與不使用的相比,能效(以 gigaflops/watt 為單位)平均高出 2.8 倍。最能證明這個優勢的是上面提到的英偉達內部研究集群新成員 Selene。
據悉,Selene 在 Linpack 基準測試中以 27.5 petaflops 的性能表現,在最新 Green500 榜單中排名第二,TOP500 榜單中排名第七。Selene 的功耗為 20.5 gigaflops/watt,與 Green500 榜單上的第一名相差不大,但排名第一的 MN-3 系統體積更小,性能表現排在第 394 位。
NVIDIA GPU 平均提高 TOP500 超級計算機能效 2.8 倍
值得一提的是,Selene 是 TOP100 系統中唯一突破 20 20 gigaflops/watt 能效表現大關的系統,也是全球性能排名第二的工業超級計算機,僅次于意大利能源巨頭 Eni S.p.A. 的 No. 6 系統。
而 Selene 的能效比 TOP500 系統的平均表現比未使用英偉達 GPU 的超算系統高出了 6.8 倍。這種性能和能效是歸功于 A100 GPU 中的第三代 Tensor Core 核心,最新一代 Tensor Core 可以為傳統的 64 位數學模擬及精度較低的 AI 工作提供加速。
雷鋒網小結
高性能計算處理器是一家公司產品性能領導力的體現,更是生態實力的體現。英偉達在 ISC 2020 期間宣布,今年夏天預計有 30 款搭載 A100 的服務器上市,年底還會有 20 多款系統上市。包括華碩、Atos、思科、Dell Technologies、富士通、技嘉科技、HPE、浪潮、聯想、One Stop Systems、Quanta/QCT 和 Supermicro。
黃仁勛在 GTC2020 上強調,DGX A100 系統可以實現高利用率和低總擁有成本。當以高售價廣為人知的英偉達高性能 GPU 開始強調總體擁有成本和能效時,對于市場時的其他競爭者而言無疑是一個壞消息,這也正是吸引更多超算系統使用英偉達產品的關鍵因素。
并且,英偉達也推出了為安培架構和 A100 優化的軟件支持,包括 CUDA 11、50 多個 CUDA-X 庫的新版本; 多模式對話式 AI 服務框架 NVIDIA Jarvis;深度推薦應用框架 NVIDIA Merlin; RAPIDS 開源數據科學軟件庫套件;NVIDIA HPC SDK。
正在通過軟硬件產品幫助開發者構建并加速 HPC、基因組學、5G、數據科學、機器人學等領域的應用的英偉達,未來重點的提升方向會在哪?
總結
以上是生活随笔為你收集整理的全球TOP10超级计算机8台都选英伟达的三大原因的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 美国FDA以【什么法律依据】给23and
- 下一篇: 我们上手了iOS 14首个测试版,这30