NVIDIA安倍架构
NVIDIA安倍架構(gòu)
NVIDIA Ampere ArchitectureNVIDIA
The Heart of the World’s
Highest-Performing, Elastic Data Centers
一.現(xiàn)代數(shù)據(jù)中心中AI和HPC的核心
科學(xué)家、研究人員和工程師我們這個(gè)時(shí)代的達(dá)芬奇和愛(ài)因斯坦正致力于用人工智能和高性能計(jì)算(HPC)解決世界上最重要的科學(xué)、工業(yè)和大數(shù)據(jù)挑戰(zhàn)。與此同時(shí),企業(yè)甚至整個(gè)行業(yè)都在尋求利用人工智能的力量,從海量數(shù)據(jù)集中(包括內(nèi)部和云中)獲取新的見(jiàn)解。NVIDIA安培架構(gòu)是為彈性計(jì)算時(shí)代而設(shè)計(jì)的,它提供了下一個(gè)巨大的飛躍,在每一個(gè)尺度上都提供了無(wú)與倫比的加速,使這些創(chuàng)新者能夠完成他們一生的工作。
二.突破性創(chuàng)新
英偉達(dá)安培芯片由540億個(gè)晶體管制成,是有史以來(lái)最大的7納米(nm)芯片,具有六項(xiàng)關(guān)鍵的突破性創(chuàng)新。
第三代張量核
第一次在英偉達(dá)伏特加引入? NVIDIA Tensor核心技術(shù)為人工智能帶來(lái)了驚人的加速,將訓(xùn)練時(shí)間從幾周縮短到幾小時(shí),并為推理提供了巨大的加速。NVIDIA安培架構(gòu)在這些創(chuàng)新的基礎(chǔ)上,引入了新的精度張量浮點(diǎn)(TF32)和浮點(diǎn)64(FP64),以加速和簡(jiǎn)化AI的采用,并將張量核的能力擴(kuò)展到HPC。
TF32的工作原理和FP32一樣,同時(shí)為AI提供高達(dá)20倍的加速,而不需要任何代碼更改。使用NVIDIA自動(dòng)混合精度,研究人員可以獲得額外的2倍的性能與自動(dòng)混合精度和FP16只添加幾行代碼。在支持bfloat16、INT8和INT4的情況下,NVIDIA A100張量核心gpu中的張量核心為人工智能訓(xùn)練和推理創(chuàng)建了一個(gè)極其通用的加速器。把張量核的能力帶給HPC,A100還可以實(shí)現(xiàn)矩陣運(yùn)算的完整性,IEEE認(rèn)證,FP64精度。
三.多實(shí)例GPU(MIG)
每個(gè)AI和HPC應(yīng)用程序都可以從加速中受益,但并不是每個(gè)應(yīng)用程序都需要一個(gè)完整的A100 GPU的性能。使用MIG,每個(gè)A100可以被劃分為多達(dá)7個(gè)GPU實(shí)例,在硬件級(jí)別完全隔離和安全,并具有自己的高帶寬內(nèi)存、緩存和計(jì)算核心。現(xiàn)在,開(kāi)發(fā)人員可以訪(fǎng)問(wèn)所有應(yīng)用程序的突破性加速,無(wú)論大小,并獲得有保證的服務(wù)質(zhì)量。IT管理員可以提供適當(dāng)大小的GPU加速以實(shí)現(xiàn)最佳利用率,并在裸機(jī)和虛擬化環(huán)境中擴(kuò)展對(duì)每個(gè)用戶(hù)和應(yīng)用程序的訪(fǎng)問(wèn)。
四.第三代NVLink
跨多個(gè)GPU擴(kuò)展應(yīng)用程序需要非常快速的數(shù)據(jù)移動(dòng)。A100中的第三代NVIDIA?NVLink?將GPU到GPU的直接帶寬提高了一倍,達(dá)到每秒600千兆字節(jié)(GB/s),幾乎比PCIe Gen4高出10倍。與最新一代NVIDIA NVSwitch搭配使用時(shí)?,服務(wù)器中的所有g(shù)pu都可以以NVLink的全速相互通信,以實(shí)現(xiàn)難以置信的快速數(shù)據(jù)傳輸。
英偉達(dá)DGX? A100和其他領(lǐng)先計(jì)算機(jī)制造商的服務(wù)器通過(guò)NVIDIA HGX利用NVLink和NVSwitch技術(shù)? 100個(gè)基板,為HPC和AI工作負(fù)載提供更大的可擴(kuò)展性。
五.結(jié)構(gòu)稀疏性
現(xiàn)代的人工智能網(wǎng)絡(luò)越來(lái)越大,擁有數(shù)百萬(wàn)甚至數(shù)十億個(gè)參數(shù)。并不是所有這些參數(shù)都需要精確的預(yù)測(cè)和推斷,有些參數(shù)可以轉(zhuǎn)換為零,使模型“稀疏”而不影響精度。A100中的張量核可以為稀疏模型提供高達(dá)2倍的性能。稀疏性特征有利于人工智能推理,同時(shí)也可以用來(lái)提高模型訓(xùn)練的性能。
六.更智能、更快的內(nèi)存
A100正在給數(shù)據(jù)中心帶來(lái)大量的計(jì)算。為了保持這些計(jì)算引擎的充分利用,它擁有一流的每秒1.6兆字節(jié)(TB/秒)的內(nèi)存帶寬,比上一代增加了67%。此外,A100的片上內(nèi)存顯著增加,包括一個(gè)40兆字節(jié)(MB)的2級(jí)緩存,比上一代大7倍,以最大限度地提高計(jì)算性能。
七.邊緣收斂加速度
NVIDIA安培架構(gòu)與NVIDIA Mellanox的ConnectX-6dx智能網(wǎng)卡在NVIDIA
EGX中的結(jié)合? A100帶來(lái)了前所未有的計(jì)算和網(wǎng)絡(luò)加速能力,可以處理邊緣產(chǎn)生的大量數(shù)據(jù)。Mellanox SmartNIC包括安全卸載,可以高達(dá)200千兆比特/秒(Gb/s)的線(xiàn)速率解密和GPUDirect?
它將視頻幀直接傳輸?shù)紾PU存儲(chǔ)器中進(jìn)行人工智能處理。有了EGX A100,企業(yè)可以更安全、更高效地加速邊緣的AI部署。
總結(jié)
以上是生活随笔為你收集整理的NVIDIA安倍架构的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 多实例gpu_MIG技术快速提高AI生产
- 下一篇: 马斯克如何颠覆航天? 1/5385成本,