當(dāng)前位置：首頁(yè) > 人文社科 > 生活经验 >内容正文

生活经验

NVIDIA安倍架构

發(fā)布時(shí)間：2023/11/28 生活经验 35 豆豆

生活随笔收集整理的這篇文章主要介紹了 NVIDIA安倍架构小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

NVIDIA安倍架構(gòu)

NVIDIA Ampere ArchitectureNVIDIA

The Heart of the World’s
Highest-Performing, Elastic Data Centers

一．現(xiàn)代數(shù)據(jù)中心中AI和HPC的核心

科學(xué)家、研究人員和工程師我們這個(gè)時(shí)代的達(dá)芬奇和愛(ài)因斯坦正致力于用人工智能和高性能計(jì)算（HPC）解決世界上最重要的科學(xué)、工業(yè)和大數(shù)據(jù)挑戰(zhàn)。與此同時(shí)，企業(yè)甚至整個(gè)行業(yè)都在尋求利用人工智能的力量，從海量數(shù)據(jù)集中（包括內(nèi)部和云中）獲取新的見(jiàn)解。NVIDIA安培架構(gòu)是為彈性計(jì)算時(shí)代而設(shè)計(jì)的，它提供了下一個(gè)巨大的飛躍，在每一個(gè)尺度上都提供了無(wú)與倫比的加速，使這些創(chuàng)新者能夠完成他們一生的工作。

二．突破性創(chuàng)新

英偉達(dá)安培芯片由540億個(gè)晶體管制成，是有史以來(lái)最大的7納米（nm）芯片，具有六項(xiàng)關(guān)鍵的突破性創(chuàng)新。

第三代張量核

第一次在英偉達(dá)伏特加引入? NVIDIA Tensor核心技術(shù)為人工智能帶來(lái)了驚人的加速，將訓(xùn)練時(shí)間從幾周縮短到幾小時(shí)，并為推理提供了巨大的加速。NVIDIA安培架構(gòu)在這些創(chuàng)新的基礎(chǔ)上，引入了新的精度張量浮點(diǎn)（TF32）和浮點(diǎn)64（FP64），以加速和簡(jiǎn)化AI的采用，并將張量核的能力擴(kuò)展到HPC。

TF32的工作原理和FP32一樣，同時(shí)為AI提供高達(dá)20倍的加速，而不需要任何代碼更改。使用NVIDIA自動(dòng)混合精度，研究人員可以獲得額外的2倍的性能與自動(dòng)混合精度和FP16只添加幾行代碼。在支持bfloat16、INT8和INT4的情況下，NVIDIA A100張量核心gpu中的張量核心為人工智能訓(xùn)練和推理創(chuàng)建了一個(gè)極其通用的加速器。把張量核的能力帶給HPC，A100還可以實(shí)現(xiàn)矩陣運(yùn)算的完整性，IEEE認(rèn)證，FP64精度。

三．多實(shí)例GPU（MIG）

每個(gè)AI和HPC應(yīng)用程序都可以從加速中受益，但并不是每個(gè)應(yīng)用程序都需要一個(gè)完整的A100 GPU的性能。使用MIG，每個(gè)A100可以被劃分為多達(dá)7個(gè)GPU實(shí)例，在硬件級(jí)別完全隔離和安全，并具有自己的高帶寬內(nèi)存、緩存和計(jì)算核心。現(xiàn)在，開(kāi)發(fā)人員可以訪(fǎng)問(wèn)所有應(yīng)用程序的突破性加速，無(wú)論大小，并獲得有保證的服務(wù)質(zhì)量。IT管理員可以提供適當(dāng)大小的GPU加速以實(shí)現(xiàn)最佳利用率，并在裸機(jī)和虛擬化環(huán)境中擴(kuò)展對(duì)每個(gè)用戶(hù)和應(yīng)用程序的訪(fǎng)問(wèn)。

四．第三代NVLink

跨多個(gè)GPU擴(kuò)展應(yīng)用程序需要非常快速的數(shù)據(jù)移動(dòng)。A100中的第三代NVIDIA?NVLink?將GPU到GPU的直接帶寬提高了一倍，達(dá)到每秒600千兆字節(jié)（GB/s），幾乎比PCIe Gen4高出10倍。與最新一代NVIDIA NVSwitch搭配使用時(shí)?，服務(wù)器中的所有g(shù)pu都可以以NVLink的全速相互通信，以實(shí)現(xiàn)難以置信的快速數(shù)據(jù)傳輸。

英偉達(dá)DGX? A100和其他領(lǐng)先計(jì)算機(jī)制造商的服務(wù)器通過(guò)NVIDIA HGX利用NVLink和NVSwitch技術(shù)? 100個(gè)基板，為HPC和AI工作負(fù)載提供更大的可擴(kuò)展性。

五．結(jié)構(gòu)稀疏性

現(xiàn)代的人工智能網(wǎng)絡(luò)越來(lái)越大，擁有數(shù)百萬(wàn)甚至數(shù)十億個(gè)參數(shù)。并不是所有這些參數(shù)都需要精確的預(yù)測(cè)和推斷，有些參數(shù)可以轉(zhuǎn)換為零，使模型“稀疏”而不影響精度。A100中的張量核可以為稀疏模型提供高達(dá)2倍的性能。稀疏性特征有利于人工智能推理，同時(shí)也可以用來(lái)提高模型訓(xùn)練的性能。

六．更智能、更快的內(nèi)存

A100正在給數(shù)據(jù)中心帶來(lái)大量的計(jì)算。為了保持這些計(jì)算引擎的充分利用，它擁有一流的每秒1.6兆字節(jié)（TB/秒）的內(nèi)存帶寬，比上一代增加了67%。此外，A100的片上內(nèi)存顯著增加，包括一個(gè)40兆字節(jié)（MB）的2級(jí)緩存，比上一代大7倍，以最大限度地提高計(jì)算性能。

七．邊緣收斂加速度

NVIDIA安培架構(gòu)與NVIDIA Mellanox的ConnectX-6dx智能網(wǎng)卡在NVIDIA
EGX中的結(jié)合? A100帶來(lái)了前所未有的計(jì)算和網(wǎng)絡(luò)加速能力，可以處理邊緣產(chǎn)生的大量數(shù)據(jù)。Mellanox SmartNIC包括安全卸載，可以高達(dá)200千兆比特/秒（Gb/s）的線(xiàn)速率解密和GPUDirect?
它將視頻幀直接傳輸?shù)紾PU存儲(chǔ)器中進(jìn)行人工智能處理。有了EGX A100，企業(yè)可以更安全、更高效地加速邊緣的AI部署。

總結(jié)

以上是生活随笔為你收集整理的NVIDIA安倍架构的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：多实例gpu_MIG技术快速提高AI生产
下一篇：马斯克如何颠覆航天？ 1/5385成本，