當(dāng)前位置：首頁(yè) > 编程资源 > 综合教程 >内容正文

综合教程

AMD RDNA计算卡架构揭秘：从零起步、三杀NVIDIA

發(fā)布時(shí)間：2023/11/24 综合教程 39 生活家

生活随笔收集整理的這篇文章主要介紹了 AMD RDNA计算卡架构揭秘：从零起步、三杀NVIDIA 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

昨日晚間，AMD正式發(fā)布了，首次采用針對(duì)HPC高性能計(jì)算、AI人工智能全新設(shè)計(jì)的CDNA架構(gòu)，和游戲向的RDNA架構(gòu)截然不同。

Instinct MI100計(jì)算卡采用臺(tái)積電7nm工藝制造，集成120個(gè)計(jì)算單元、7680個(gè)流處理器，核心頻率最高1502MHz，并專門加入了Matrix Core(矩陣核心)，用于加速HPC、AI運(yùn)算。

它整合封裝了32GB HBM2顯存，位寬4096-bit，頻率1.2GHz，帶寬1228.8GB/s，支持ECC。

該卡支持PCIe 4.0 x16，具備三條Infinity Fabric互連總線，峰值帶寬92GB/s，整卡熱設(shè)計(jì)功耗300W，雙8針輔助供電。

這塊卡的特殊之處還在于頂部設(shè)置了橋接金手指，通過橋接器可以將四塊卡綁定在一起，而搭配雙路的AMD霄龍?zhí)幚砥鳎梢詫?shí)現(xiàn)八卡并行。

類似之前的計(jì)算卡，甚至是R9 Fury X、Vega 64/56這樣的游戲卡，Instinct MI110也是將GPU芯片、HBM芯片整合封裝在了一起，不過如今的HBM2單顆容量已達(dá)8GB。

對(duì)比CDNA(上)、RDNA(下)架構(gòu)圖，可以發(fā)現(xiàn)二者整體框架有些相似之處，但各種單元模塊和布局已經(jīng)截然不同。

作為AMD GPU的最基本模塊，計(jì)算單元(CU)也完全不同了，現(xiàn)在叫做增強(qiáng)型計(jì)算單元(XCU)，組成模塊包括調(diào)度器、分支與信息單元、12.8KB ECC標(biāo)量單元、512KB ECC標(biāo)量寄存器、矢量寄存器、矢量ALU操作單元、矩陣數(shù)據(jù)操作單元、四個(gè)矢量/矩陣SIMD單元、64KB ECC本地?cái)?shù)據(jù)共享單元、載入/存儲(chǔ)單元、16KB ECC一級(jí)緩存等等。

顯然，這一些都是為計(jì)算服務(wù)的，而用于圖形的著色器、紋理相關(guān)單元自然都不見了，即便有些單元名字一樣，規(guī)格和作用也不同了。

計(jì)算性能方面，F(xiàn)MA64/FP64雙精度為11.5TFlops(每秒1.15億億次)，F(xiàn)MA32/FP32單精度為23.1TFlops(每秒2.31億億次)，F(xiàn)P32 Matrix單精度矩陣計(jì)算為46.1TFlops(每秒4.61億億次)，F(xiàn)P16 Matrix半精度矩陣計(jì)算為184.6TFlops(每秒18.46億億次)，Bfloat16浮點(diǎn)為92.3TFlops(每秒9.23億億次)。

這樣的一塊卡，已經(jīng)相當(dāng)于20年前的世界頂級(jí)超級(jí)計(jì)算機(jī)，而體積、功耗都不可同日而語(yǔ)。

而對(duì)比上代產(chǎn)品MI50，新卡的FP64雙精度、FP32單精度性能均提升74％，F(xiàn)P32矩陣性能提升接近2.5倍，AI負(fù)載性能更是幾乎7倍的飛躍。

當(dāng)然，除了紙面計(jì)算性能優(yōu)秀，軟件開發(fā)也必須跟上，尤其是這種計(jì)算性的產(chǎn)品。NVIDIA在這方面要強(qiáng)得多，生態(tài)更加穩(wěn)固和豐富，AMD ROCm平臺(tái)正在奮起直追中。

總結(jié)

以上是生活随笔為你收集整理的AMD RDNA计算卡架构揭秘：从零起步、三杀NVIDIA的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：奥林巴斯发布全新超长焦镜头：1000mm
下一篇：游戏玩家放心 RX 6800显卡挖矿能力