Intel GPU实现游戏与数据中心
Intel GPU實現游戲與數據中心
在Intel Architecture Day上,Intel談到了面向游戲玩家的Xe-HPG架構Alchemist GPU以及面向數據中心的Xe-HPC架構GPU芯片Ponte Vecchio。后者被Intel形容為技術難度“堪比登月”的芯片,這也是第一次見到MCM(Multi-chip Module)/chiplet形態的GPU芯片。雖然以前Intel曾多次嘗試過進入GPU領域,但這次恐怕是動作幅度最大、計劃最長遠的一次。借著這次機會,也能看看作為GPU領域的新手,Intel是否有機會在兩強爭霸的局面下有所斬獲,另外也能從中窺見當代GPU的思路大致會是什么樣。
本文圍繞面向游戲玩家的Alchemist架構GPU、面向數據中心的Ponte Vecchio GPU芯片以及oneAPI開發平臺進行了系統的分析。
像Intel Architecture Day這種大型活動,如今露面的普遍都是Raja Koduri。Koduri以前的從業經驗普遍與圖形計算有關,比如最早于1996年加入的S3 Graphics…Koduri被大眾所知應該是2015年時,成為AMD的Radeon技術部門首席架構師和高級副總裁。而在加入Intel以后,Koduri儼然成為了Intel的技術代言人。
比較有趣的是,這也伴隨半導體行業發生轉向的檔口:人們愈發關注更偏專用的計算方向,甚至有人提出未來CPU這類通用計算處理器會走向邊緣化,或者越來越作為單純的控制器存在。GPU、NPU、IPU等各類XPU如今正大放異彩。所以這些年Intel的XPU策略也在做大肆的擴張,在CPU之外通過收購、研發快速鋪開了不同的處理器產品線。
比如GPU就是Intel現在的一個發展重點,不僅是酷睿CPU產品線中近兩年兩度大幅加強了核顯性能(Xe-LP),以及前不久Intel正式發布游戲GPU品牌“Arc”;還在于一年多以前,Raja Koduri就在Twitter發了一張Ponte Vecchio(面向數據中心的GPU)照片,引發無數猜想。
今年的Intel Architecture Day上,更多有關Intel GPU的產品信息揭開面紗。這次Intel主要談到了面向游戲玩家的Xe-HPG架構Alchemist GPU;以及面向數據中心的Xe-HPC架構GPU芯片Ponte Vecchio。后者被Intel形容為技術難度“堪比登月”的芯片,這也是第一次見到MCM(Multi-chip Module)/chiplet形態的GPU芯片。
雖然以前Intel曾多次嘗試過進入GPU領域,但這次恐怕是動作幅度最大、計劃最長遠的一次。借著這次機會,也能看看作為GPU領域的新手,Intel是否有機會在兩強爭霸(以及數據中心英偉達一家獨大)的局面下有所斬獲;另外也能從中窺見當代GPU的思路大致會是什么樣。
本文篇幅較長,大體分成三部分,可選擇性閱讀。不想看技術細節的,可略過中間部分,直接看最后的總結。
1.面向游戲玩家的Alchemist架構GPU;2.面向數據中心的Ponte Vecchio GPU芯片;3.總結,與oneAPI開發平臺。
1.面向游戲的Alchemist,臺積電N6工藝造
此前Intel在宣布Xe架構GPU的時候,提出以一個架構做彈性化擴展,來實現GPU產品覆蓋各個領域,包括低功耗平臺、游戲、工作站、數據中心等。其實在GPU領域里,同一種架構的規模化縮放也是常態。Xe此前在規劃上有Xe-LP、Xe-HP、Xe-HPC之分,面向不同群體如下圖所示:
這次Architecture Day上重點之一的Xe-HPG,是指high performance gaming。從Intel這次的介紹來看,不同的Xe架構差別也可能是比較大的。這次新發Xe-HPG架構Alchemist的GPU,就和此前集成在酷睿處理器內部的Xe-LP架構GPU有很大不同。或者說Xe-HPG GPU并不單純只是Xe-LP GPU的規模擴大版。
首先是在GPU構成的基本單位上,Intel決定將不再采用之前“EU(執行單元)”的說法——原本過去談Intel的核顯,都用多少個EU來表明其規模——比如移動版11代酷睿,說其上最多有96EU的核顯。Intel說之所以拋棄EU這個說法,是因為“EU數量變得太大,難以做參考;且迭代變化令其難以做比較”。
所以這次Intel引入了一個新的GPU構成基本單位:Xe核心。Xe核心包括算術單元、cache、load/store邏輯單元。算術單元部分包含一般的矢量引擎,以及加速卷積和矩陣運算的AI引擎。感覺Xe核心在切分粒度上,還是比EU更大,并靠近subslice的。
對于Xe-HPG而言,Xe核心內部包含了16個矢量引擎和16個矩陣引擎,如上圖所示。一個矢量引擎每周期處理256bit數據,16個一起似乎與英偉達安培架構的SM單位吞吐類似。
這里的Matrix Engines矩陣引擎,又被Intel稱作XMX(Xe Matrix eXtensions),結構上也就是傳說中的脈動陣列(systolic array)。后文會提到,XMX在游戲方面對XeSS這類超分辨率之類需求AI算力的特性是有價值的(XeSS類似于DLSS)。Xe核心的矩陣引擎每周期處理1024bit數據,轉換成常見的inference操作也就是128 INT8。
英偉達GPU也有配套的tensor core,所以Intel的XMX也算是行業邁進的主旋律了。不過英偉達tensor core的配置并沒有Intel這么激進,Intel這邊是做到了每個Xe核都帶XMX。似乎Intel對AI的未來比英偉達還看好,一旁的AMD不知作何感想。要知道這只是游戲GPU。
多個這樣的Xe核心就構成了所謂的render slice(渲染切片)。Alchemist的一個render slice包含了4個Xe核心——當然除了Xe核心外,還配套了其他渲染固定功能單元,有4個光線追蹤單元、4個紋理采樣器(sampler),以及幾何、光柵化單元,和像素后端(實現8 pixels/clock的吞吐)。在slice層面,Xe-HPG核心的實施粒度似乎比以前的Xe-LP更細了,包括Xe核心數量及固定功能單元的配置。
Intel特別強調了Alchemist為DirectX 12 Ultimate設計,所以支持VRS(可變著色率)Tier 2,mesh shading、sampler feedback,當然還有光線追蹤(DirectX、Vulkan)。此處的光線追蹤單元應該也是很多人比較關注的。Intel提到,這些光追單元“旨在加速光線遍歷(ray traversal)、包圍盒相交(bounding box intersection)和三角形相交計算”。這應該是比較常規的光追專用硬件設計思路,此前探討過。光追性能具體是什么樣,還是要等將來的產品問世才能了解。
到整個GPU層面,也就是把這些slice組合起來,通過Memory Fabric將這些slice連接到共享L2 cache。在配置方案上,最多可以連8個slice。完整的GPU前端還會有個全局dispatch處理器,進行具體的任務分發。構成GPU的其他組成部分,比如顯示、媒體引擎等大概都要等到具體產品問世的時候,才會有具體規格公布。
到產品層面,Alchemist GPU究竟是何配置,其實還是個未知數。不過其最大可擴展方案應該會比Xe-LP核顯和之前買不到的DG1(Iris Xe Max),在性能方面高出許多;而且XMX、光追單元之類的功能跟進上,也表現出此前的DG1也就是練個手。
Intel也特別提到,與Xe-LP(DG1)相比,Xe-HPG在架構、邏輯設計、物理設計、工藝改進、軟件迭代等各方面的努力,實現了運行頻率與每瓦性能的提升,這兩項都有1.5倍的提升。尤其頻率提升表現為同電壓下,頻率的1.5倍提升。考慮加上更大的規模(比如用8個slice),則性能比DG1有數倍提升應該也不是問題。
談到工藝改進,Alchemist GPU采用臺積電的N6工藝制造——也就是此前N7工藝的一個改款。Alchemist也因此成為Intel的IDM 2.0計劃施行的第一批產品。似乎IDM 2.0的推進還挺順利。以Alchemist產品問世的時間點來看(2022Q1),N6工藝的GPU產品也會有一定的優勢。此前Xe-LP核顯和DG1用的是Intel 10nm工藝。
雖然Intel未曾透露最終產品的諸多配置細節,比如說選配多大顯存,頻率具體是多少,以及類似光追單元性能水平如何等。不過就架構層面的這些信息,以及N6工藝在GPU制造方面的略微領先,都令Intel的游戲GPU的準備工作看起來十分到位。
Intel另外也給出了Arc家族GPU未來路線圖,代號為Battlemage、Celestial、Druid的新架構都在開發中,表明在造游戲GPU這件事情上,Intel這次還是很認真。
除了GPU本身,有關軟件及開發生態的問題也是尤為值得一提的,畢竟Intel也算是這個領域的新手:對游戲開發者而言,成熟和簡易的生態是確保顯卡最終真正有銷路的基礎。英偉達在這方面的耕耘已經很久了,也不是一朝一夕就能超越的。
Intel在會上提到的,主要包括對于DirectX 12 Ultimate新特性的全面支持,包括光線追蹤、VRS、mesh shading、sampler feedback,據說Intel過去這些年一直在和微軟合作對新功能做打磨。
另外Intel也在與Epic合作,“現在獨立GPU能夠運行虛幻引擎5”。“產品發布時,還將更新用戶控件,幫助玩家利用AI輔助虛擬攝像頭、游戲高光時刻捕捉、直播拍攝等技術。這些技術將使用高性能與高質量的硬件編碼器。”
在特性支持上尤為值得一提的是XeSS(Xe Super Sampling),這是個類似于DLSS超分辨率技術,即將低分辨率的畫面通過深度學習,來合成高分辨率渲染質量的畫面。有關英偉達DLSS技術,此前多次撰文提到過。說XeSS和DLSS更接近(而不是AMD的FSR),是因為Intel大致解釋提到XeSS原理是藉由畫面中的臨近像素,以及過去幀進行運動補償,來重建子像素細節。該過程需要通過神經網絡進行,和英偉達的二代DLSS是比較類似的。
這種操作顯然就是由Xe核心中的XMX做硬件加速的。Intel在會上也演示了1080p到4K畫面,與原生4K分辨率渲染的比較,效果看起來還不錯。似乎在光線追蹤之外,超分辨率技術也已經成為GPU廠商的技術必爭之地了。
比較有趣的是,Intel計劃把XeSS推到Xe GPU以外(這一點就比較像AMD了),“包括競爭對手的產品”。“通過用DP4a指令來實現這一點,該指令已經用于各種硬件產品。”“這會將XeSS帶給數以百萬計的游戲玩家。”據說有不少“早期游戲開發者”已經開始采用XeSS。“初始XMX版本的SDK將于本月面向軟件廠商推出,DP4a版本則將于今年晚些時間推出。”
2.Ponte Vecchio,第一個MCM GPU
此前撰文談到過,GPU越做越大,已經接近光刻機可處理的rectile limit,那么GPU未來的發展方向極有可能是走向chiplet式的MCM(multi-chip module)形態方案的。只不過GPU要應用MCM,仍然有不小的技術難度。AMD和英偉達此前都在這方面做過努力。
現在看來最早推MCM型GPU的,似乎是Intel,也就是Intel這次花了相當大篇幅解釋的、采用Xe-HPC架構、面向數據中心、主要針對AI和HPC工作負載的Ponte Vecchio。Intel說這顆芯片的實現,在難度上堪比登月計劃。
現在面向數據中心的GPU、FPGA、AI芯片產品,在發布會上都喜歡用PPT來吊打Intel至強處理器。在算力上用更偏專用的芯片來吊打通用處理器,聽起來是不夠公平的。不過從行業走向來看,Intel也應該早就發現,CPU在數據中心的重要性已經大不如前了。即便這次的Sapphire Rapids新增了AMX以及各種專門的加速單元,數據中心作為Intel的主場,推更專用的芯片也是勢在必行的。
Raja Koduri也在講話中特別談到了這一點。所以Xe-HPC或者說Ponte Vecchio的使命便是極大程度的填充這其中的空白(這次報道中不曾提及的Intel新發布的IPU基礎設施處理器,其實也有這樣的使命)。君不見英偉達如今在數據中心已經賺到盆滿缽滿了嗎?
上面這張圖的藍色曲線表示Intel處理器,綠色表示“業內最好的”(英偉達?),在HPC、AI、內存帶寬方面都存在著歷史上的差距(也就是之前每逢處理器芯片,必被吊打的局面)。而Xe是Intel決心領先行業的GPU架構。那么就來看看Intel的Xe-HPC架構,與Ponte Vecchio芯片。
與前文談到的Xe-HPG一樣,Xe-HPC也以Xe核心為GPU的基本構成單元。不過在Xe核心構成上有差別。前文談到,Xe-HPG Alchemist每個核心是16個矢量引擎和16個矩陣引擎,在Xe-HPC上則是8個矢量引擎和8個矩陣引擎(XMX)。但從單引擎可處理的數據來看,其量級是不同的。Xe-HPC核心中的單個矢量引擎每周期可處理512bit數據——是Xe-HPG的2倍;而每個矩陣引擎,“8深度脈動陣列”,每周期處理4096bit數據(8組512bit寬矢量運算),則是Xe-HPG的4倍。顯然Xe-HPC核心極大加強了XMX。似乎比隔壁英偉達的配方在AI算力上明顯更為足料。
Xe核心構成大體與Xe-HPG是一樣的,即主要是ALU、cache、load/store邏輯單元。這里Intel給出了一些更具體的數字,包括load/store操作是每周期fetch 512bit數據——應該比隔壁Xe-HPG要寬;與此同時L1-D cache尺寸為512KB,Intel表示這是行業內最大的。“L1 cache也可通過軟件配置作為暫存區,即Shared Local Memory(SLM)”。
矢量引擎對于數據格式每周期的操作支持,包括了256 FP32、256 FP64、512 FP16;XMX則為2048 TF32、4096 FP16、4096 BF16、8192 INT8。Intel特別強調說,Xe核心能夠共同發射(co-issue)指令,“超越這些單一的每個時鐘周期運算次數”。Intel函數庫和內核利用這項特性可實現Xe核心更高的性能。
多個Xe核心組成slice。一個Xe-HPC的slice是由(最多)16個Xe內核構成的,比前文談到的Xe-HPG規模大出了很多;總共也就是8MB L1 cache。Slice中強調了Xe-HPG圖形計算的一些固定渲染功能單元;每個核心依然搭配1個光追單元,所以一共是16個光追單元——前面也已經提過光追單元用于光線遍歷、包圍盒相交與三角形相交運算。這對專業視覺應用會有價值。
此處的Hardware Context能夠讓GPU并行執行多應用,“不需要開銷比較大的基于軟件的上下文切換”。“這也極大增加了云上GPU的利用率。”Intel并沒有說這種硬件上下文切換的具體實現。
多個slice理論上應該構成了完整的GPU,不過Intel在此處稱其為stack。似乎在整個GPU芯片上是一片die,或者一片chiplet的概念。
每個stack具體是4個slice:也就是說一個stack內(最多)會包含64個Xe內核、64個光追單元、4個Hardware Context。和Xe-HPG一樣,stack這一級也就有了L2 cache(容量未知)。另外作為面向數據中心的GPU,外圍要擴展出4個HBM2e控制器,還有“8個Xe Link”——是Intel專用于GPU之間連接的方案。媒體引擎部分,Intel依然沒有細說其規格。Xe Memory Fabric連接了Copy Engines、媒體引擎、Xe Link模塊、HBM、PCIe組成部分。
MCM的魔法就在Intel的多stack方案中體現出來了。用Intel的EMIB封裝技術把兩個stack(也就是兩個chiplet/die)連起來——EMIB封裝技術此前也多有介紹了,這是一種不同于臺積電CoWoS用interposer硅中介來做die與die之間2.5D封裝的方案,而是用嵌入在封裝基板中的silicon bridge,以更低的成本實現die之間的互聯,在效率上又會顯著的高于直接從封裝基板走線的方案。
Intel表示,“將每個stack上的Xe Memory Fabric直接連起來,這樣也就在stack之間實現了統一一致性存儲,這對軟件而言很重要。”業界的第一個MCM GPU也就出爐了。上面這張圖展示了2-stack方案。未知這種彈性擴展方案的延遲表現如何,不過這樣的堆料方法的確能夠達成顯著更高的性能水平。
在多stack構成GPU以后,對數據中心而言,就涉及到GPU之間的連接了。Intel對此的方案是Xe Link,“支持load/store,大量數據遷移和同步語義;包含一個8-port switch,不需要額外的組件,就能在一個節點內實現至多8個GPU完全互聯”。Intel表示,OAM-Universal BaseBoard加速模塊設計規范下,對AI一類大型負載普遍可以用8個GPU的方案。不知道互聯效率如何,Intel也沒有在會上公布帶寬等方面的具體數據。
接下來就該到產品層面了,即這回Architecture Day展示的重頭戲Ponte Vecchio芯片。當Ponte Vecchio首席架構師將這枚芯片展示出來的時候,還是對其芯片尺寸表示相當震驚:其上超過1000億晶體管,部分用到了臺積電N5工藝,還記得之前的游戲GPU用的是臺積電N6嗎?不過事實上,基于2.5D/3D封裝的不同chiplet用上了不同的制造工藝,據說這一顆芯片總共涉及到5種不同的制造工藝。
這顆芯片的開發,不只是前文提到的Xe核心及其構成方法,還涉及到各種新架構和新設計,乃至新工具的開發,“之前從未在一款產品中做過這么多的新東西”,“Ponte Vecchio是在30年的芯片開發生涯中開發的最復雜的芯片。”這是Intel Ponte Vecchio首席架構師Masooma Bhaiwala說的。最終目標是令其跑起來“就和monolithic芯片一樣”,畢竟這是MCM/chiplet式的設計。
Intel把這枚芯片的構成切分為不同的“tile”,有compute tile、rambo tile、XeLink tile、HBM tile、Base tile等。Intel還特別提到,除了以EMIB的封裝方式連接HBM內存(以及前面提到Xe-HPG本身也在stack之間做EMIB的die-to-die連接),Ponte Vecchio也用上了Foveros 3D封裝方案,Foveros封裝此前也撰文仔細探討過。加上不同tile用上了5種制造工藝,有的是臺積電造,有的是Intel自己造,這套方案的復雜度也就可想而知了。
從這張圖似乎很難推斷究竟是哪個tile疊在哪個tile上面,Intel只是說creates the 3D stacking of active silicon for power and interconnect density。Intel在此也特別分享了有關這顆芯片實現上的一些技術挑戰,比如由于tile的多樣和復雜性,Foveros的位置、floorplan需要在更早期的階段就定稿。Ponte Vecchio芯片的Foveros連接數也比以往Intel的設計高出2個數量級。另外,測試驗證也因此很復雜,所以需要實時開發出更多的工具、方法等等。
這顆芯片上的Compute tile,也就是計算部分屬于芯片核心,每個tile包含8個Xe核心,總共4MB L1 cache(似乎和前面談到Xe-HPC可配置每16個Xe核心構成1個slice、8個slice構成一個stack的方法不大一樣,是某種彈性化方案?)。Compute tile是用臺積電N5工藝制造的。
做Foveros 3D封裝時,這部分tile的bump間距是36μm。從Intel以前公布的數據來看,36μm的間距應該是第二代Foveros,相比初代的連接密度翻倍。所以說Compute tile事實上同時濃縮了臺積電最先進的制造工藝,和Intel最先進的封裝工藝,也算是IDM 2.0戰略的大成之作了吧。
Base tile部分是負責連接的,基于Intel 7工藝制造(也就是之前的10nm Enhanced SuperFin),其中包括各種I/O和高帶寬組成部分,包括L2 cache,也涉及到PCIe Gen 5、HBM2e、(tile-tile的)MDFI高速互聯、EMIB橋等。Intel表示這個base tile是Ponte Vecchio芯片上存在最大設計挑戰的一部分。
另外還有Xe Link tile,也就是負責多GPU互聯的部分,是基于臺積電N7工藝制造,最高90G的SerDes支持。其他部分tile,Intel并未多做介紹。
Ponte Vecchio整體上,A0芯片(RTL開發完成后的首個硅流片?)所能達成的性能水平包括>45 TFLOPS的單精度算力(參考英偉達安培架構A100 GPU的FP32標稱算力19.5 TFLOPS),>5 TBps的Memory Fabic帶寬,以及>2 TBps的連接帶寬(應該是指內部tile間的高速連接)。這組數字表明各部分tile在實現上都是比較“健康”的。
Raja有稍稍提到Ponte Vecchio GPU實際性能表現,“基于Ponte Vecchio和Sapphire Rapids的ResNet-50推理性能推圖,超過每秒43000張圖,超過市面上能見到的標準。而在訓練方面,還處于早期階段,初步測試顯示Xe HPC的計算、內存和互聯帶寬已經具備訓練最大型數據集和模型的能力。現在看到Ponte Vecchio性能是每秒超過3400張圖片。”
這個表達還是比較模糊,尤其是在沒有其他測試環境、沒有價格也沒有功耗數據的情況下。不過這么足的堆料做到性能上的領先也是應該的。
Ponte Vecchio最終形態自然是PCIe板卡,外加Xe Link互聯bridge,Xe Link把多個GPU連起來。Raja表示OEM合作伙伴會提供多種加速計算系統——比如像上圖這樣的,系統方案中配套的CPU當然也就是Sapphire Rapids了
3.oneAPI,Intel的XPU野心擴張計劃
最后從硬件層面簡單總結一下Intel的Xe GPU新品。其實就最終產品層面,仍有很多信息是未公開的,畢竟Architecture Day活動是以談架構技術為主的。無論是Xe HPG Alchemist架構的高性能游戲GPU,還是面向數據中心HPC、AI的Xe HPC新品Ponte Vecchio芯片,都能表明Intel在GPU方向上投入了巨大的人力和物力。
Intel這次定的起點很高,Alchemist游戲GPU明年一季度就問世,GPU領域主流的光線追蹤、XeSS(超分辨率),以及DirectX 12 Ultimate諸多特性就已經準備就緒,而且在堆料上看起來一點也不比英偉達節約。
而面向數據中心的Ponte Vecchio堆料和工藝技術的采用,甚至到了有些令人咂舌的程度。不談Xe核心在矩陣引擎、cache堆料上的充沛,感覺一顆芯片用5種制造工藝,以及2.5D+3D封裝齊上,還是業界第一顆MCM GPU——這些配置面前,1000億晶體管這種數字都是不夠看的。怪不得Intel稱其實現難度堪比登月計劃。
就這樣的投入來看,Intel對GPU型產品寄予的期望,應該是完全不落于其傳統項目CPU之后的。畢竟如文首所述,如今的行業現狀和格局已經完全不像從前了。隨摩爾定律的放緩,CPU在各類設備上的重要性都在下降,這是個XPU崛起的時代。只不過以英偉達如今在游戲與數據中心領域的地位,要從其口中分得一杯羹,也并不是件易事。
最后,從Intel的oneAPI開發生態布局上可以看出一些端倪。Intel的XPU策略強調同一套開發生態,也就是Intel的oneAPI——這個軟件平臺的主旨是用一套API實現不同硬件性能埠的對接。Intel作為多種不同處理器類型的制造商,而且在CPU市場仍占據統領地位,推行這套生態還是有一定的優勢;雖然當前GPGPU也還是英偉達的主場。
Intel在這次會上說軟件開發者以往“必須用OpenCL、CUDA等不同的專業語言重寫需要加速的代碼。”所以oneAPI提供“開放、基于標準、跨架構、跨矢量的統一軟件棧。”不過oneAPI事實上仍然是比較年輕的平臺,首個版本發行至今時間也不久。
oneAPI指定了通用的HAL(硬件抽象層)、數據并行編程語言,以及解決數學、深度學習、數據分析和視頻處理領域的各種性能庫。更具體的本文就不再多談了。
比較值得一提的是“已經有面向英偉達GPU、AMD GPU和Arm CPU的DPC++和oneAPI函數庫實施方案。”Intel的說法是,“獨立軟件開發商、操作系統開發商、終端用戶和學術界已經在廣泛采用。”
Intel公布說目前多個領域的軟件開發商已經推出了超過300個基于oneAPI統一編程模型的應用;現有開發者超過20萬;而且“有超過80個關鍵HPC應用、AI框架和中間件,采用了oneAPI,從現有僅基于CPU、或者是基于CUDA的GPU實施方案上快速移植。”
除了AI以外,oneAPI也有Rendering Toolkit、IoT Toolkit、HPC Toolkit、BASE Toolkit之類的各種構成。比如Rendering Toolkit中可做光線追蹤的組成部分(Embree光線追蹤庫),Intel介紹說oneAPI Rendering Toolkit能應用于第三方處理器,比如說蘋果M1。更多oneAPI的特性,幾段話也很難介紹完。
不過感覺這些已經能夠表現出Intel在生態構建上,入侵競爭對手市場的野心。此前Intel曾表達過oneAPI的“目標”是實現開放、跨平臺、跨架構的開發與執行。其推進動作和速度還真是相當快。
美國阿貢國家實驗室及Aurora項目已經在全面啟用包括Sapphire Rapids、Ponte Vecchio、傲騰在內的Intel硬件產品,以及oneAPI。一個Aurora blade設備包含2個Sapphire Rapids CPU和6個Ponte Vecchio,主要用于HPC和AI。Intel這家公司如今的運轉速度感覺比過去快了非常多。
參考鏈接:
https://www.eet-china.com/news/202108261141.html
總結
以上是生活随笔為你收集整理的Intel GPU实现游戏与数据中心的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: GAAFET与FinFET架构
- 下一篇: 实战清除电脑上恶意弹出广告窗口