日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 综合教程 >内容正文

综合教程

三星Exynos团队首次披露M6 CPU内核设计:史上最强“胎死腹中”

發(fā)布時間:2023/11/22 综合教程 43 生活家
生活随笔 收集整理的這篇文章主要介紹了 三星Exynos团队首次披露M6 CPU内核设计:史上最强“胎死腹中” 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

  ISCA(國際計算機體系結(jié)構(gòu)研討會)是 IEEE 舉辦的一個會議,關(guān)于這個會議,通常我們不會在公眾場合聽到很多。造成這種情況的主要原因是,大多數(shù)會議和論文都傾向于以學(xué)術(shù)為導(dǎo)向,而與實際產(chǎn)品中的實際操作相距甚遠(yuǎn)。

  但到了今年,會議改變了形式,他們增加了行業(yè)會議的比重,并提供了行業(yè)內(nèi)各公司的演講和論文,討論的范圍涵蓋了實際的商業(yè)產(chǎn)品。

  在會議中,三星的 SARC(三星奧斯汀研發(fā)中心)CPU 開發(fā)團(tuán)隊發(fā)表了一篇題為“三星 Exynos CPU 架構(gòu)的演變”的論文,詳細(xì)介紹了該團(tuán)隊在其 8 年的發(fā)展過程中所做的努力,并介紹了其定制 Arm 的一些關(guān)鍵特征。在這期間,其 CPU 內(nèi)核也從 Exynos M1 迭代到最新的 Exynos M5 CPU。當(dāng)然,未發(fā)布的 M6 設(shè)計在本文也有涉獵

  資料顯示,三星的 SARC CPU 團(tuán)隊成立于 2011 年,公司致力于開發(fā)定制的 CPU 內(nèi)核,然后三星 LSI 將其部署到其 Exynos SoC 中,從 2015 年在 Galaxy S7 中發(fā)布的第一代 Exynos 8890 開始,到現(xiàn)在應(yīng)用在 Galaxy S20 上的擁有 M5 內(nèi)核的 Exynos 990,三星團(tuán)隊已經(jīng)進(jìn)行了五代產(chǎn)品的更新。現(xiàn)在,SARC 已完成 M6 微體系結(jié)構(gòu)。

  據(jù)報道,這些工作是在該公司的 CPU 團(tuán)隊被傳于 2019 年 10 月解散的消息(從去年 12 月開始生效)傳出來之前完成的。ISCA 的論文是三星愿意發(fā)布一些開發(fā)團(tuán)隊的想法的結(jié)果,這些想法被認(rèn)為值得在公眾中保存,這實質(zhì)上代表了 8 年開發(fā)工作的高層成果。

  從 M1 到 M6:持續(xù)變型的 CPU

  本文提供了三星定制 CPU 內(nèi)核之間的微體系結(jié)構(gòu)差異的總體概覽表:

  披露內(nèi)容涵蓋了設(shè)計的一些眾所周知的特征,如三星在 HotChips 2016 的最初 M1 CPU 微體系結(jié)構(gòu)的深挖以及在 HotChips 2018 的最新 M3 所披露的那樣。它使我們可以洞悉我們在 S10 和 S20 評測中測得的新 M4 和 M5 微體系結(jié)構(gòu),以及對 M6 外觀的一瞥。

  三星設(shè)計的一個關(guān)鍵特征是多年來,他們都是基于 2011 年開發(fā)的 M1 內(nèi)核藍(lán)圖 RTL 為基礎(chǔ),多年來不斷改進(jìn)內(nèi)核的功能模塊。但到了 M3,內(nèi)核的設(shè)計發(fā)生了很大的變化。他們從幾個方面大幅擴展了內(nèi)核,例如從 4 寬設(shè)計到 6 寬中核。之前尚未公開的新披露內(nèi)容將涉及新的 M5 和 M6 內(nèi)核。

  對于 M5,三星對內(nèi)核的緩存層次進(jìn)行了較大的更改,例如用新的更大的共享緩存替換了私有 L2 緩存,以及公開了 L3 結(jié)構(gòu)從 3 組設(shè)計到 2 組的變化,這樣做可以獲得較小的延遲。就微體系結(jié)構(gòu)而言,正在開發(fā)中的尚未發(fā)布的 M6 內(nèi)核似乎是一個更大的飛躍。

  SARC 團(tuán)隊在這里進(jìn)行了較大的改進(jìn),例如將 L1 指令和數(shù)據(jù)緩存從 64KB 增加到 128KB,這一設(shè)計選擇目前僅在蘋果的 CPU 內(nèi)核(從 A12 開始)之前實現(xiàn)。據(jù)說 L2 的帶寬能力提高了一倍,最高可達(dá) 64B /周期,L3 的帶寬也將從 3MB 增加到 4MB。M6 可能是 8 寬解碼核心,據(jù)我們所知,它至少是我們所知道的最寬的商業(yè)微體系結(jié)構(gòu),至少在解碼方面

  有趣的是,即使內(nèi)核要寬得多,整數(shù)執(zhí)行單元也不會發(fā)生太大變化,只是看到一個復(fù)雜的管道增加了第二個整數(shù)除法功能,而加載/存儲管道將保持與上一個架構(gòu)相同。具有 1 個加載單元,1 個存儲單元和 1 個 1 加載/存儲單元的 M5。在浮點/ SIMD 管道上,我們將看到具有 FMAC 功能的第四個單元。TLB 可能會發(fā)生一些大變化,例如 L1 DTLB 從 48 頁(pages)增加到 128 頁,而主 TLB 從 4K 頁增加到 8K 頁(32MB 覆蓋)。

  自 M3 以來,M6 也是第一次,它將增加內(nèi)核的亂序窗口,并使用更大的整數(shù)和浮點物理寄存器文件,以及從以下時間開始增加 ROB(重排序緩沖區(qū))。據(jù)透露,這將從 228 增加至 256。SARC 內(nèi)核的一個主要弱點似乎仍然存在于 M5 和即將推出的 M6 內(nèi)核中,那就是其更深層次的流水線階段導(dǎo)致相對昂貴的 16 周期錯誤預(yù)測損失的結(jié)果,遠(yuǎn)高于 Arm 最新設(shè)計(11 級)的周期。

  這篇論文更深入地介紹了分支預(yù)測器設(shè)計,展示了基于核的可縮放哈希感知器(Scaled Hashed Perceptron )設(shè)計。這些年來,設(shè)計一直在不斷改進(jìn),提高了分支的準(zhǔn)確性,從而不斷降低了 MPKI(mis-predicts per kilo-instructions)。展示的一個有趣的表是分支預(yù)測變量在前端內(nèi)占用的存儲結(jié)構(gòu)量,以 KB 為單位:

  IPC 每年增加 20%,6 年內(nèi)達(dá)到 2.71 倍

  本文進(jìn)一步描述了 SARC 團(tuán)隊為改進(jìn)各代產(chǎn)品的內(nèi)存延遲所做的努力。在 M4 內(nèi)核中,團(tuán)隊采用了負(fù)載-負(fù)載級聯(lián)機制( load-load cascade mechanism),將后續(xù)負(fù)載的有效 L1 周期延遲從 4 個周期減少到 3 個。M4 還引入了帶有新接口的 path bypass,從 CPU 核心直接到內(nèi)存控制器,避免了通過互連的 traffic,這解釋了我們在 Exynos 9820 中看到的一些更大的延遲改進(jìn)。

  M5 引入了推測性高速緩存 lookup bypasses,同時向互連和高速緩存標(biāo)簽發(fā)出了一個請求,這可能節(jié)省了高速緩存未命中的等待時間,因為內(nèi)存請求已經(jīng)在進(jìn)行中。從 M1 的 14.9 個周期降低到 M6 的 8.3 個周期,平均負(fù)載等待時間已經(jīng)持續(xù)改進(jìn)了幾代人。

  在 IPC 改進(jìn)方面,SARC 團(tuán)隊在過去 8 年的開發(fā)中設(shè)法實現(xiàn)了平均每年 20% 的改進(jìn)。如圖所示,M3 的 IPC 實現(xiàn)了大幅度飛躍。M5 與我們在基準(zhǔn)測試中看到的大致相關(guān),大約提高了 15-17%。據(jù)披露,M6 的 IPC 平均值為 2.71,而 M1 的平均值為 1.06,此處的圖表通常似乎表明與 M5 相比提高了 20%。

  在會議的問答環(huán)節(jié)中,論文的主持人布萊恩·格雷森(Brian Grayson)回答了有關(guān)自研該計劃取消的原因。他透露,團(tuán)隊始終如一地按時按計劃執(zhí)行,并且每一代的性能和效率都有所提高。但他表示,團(tuán)隊最大的困難在于對未來的設(shè)計更改要非常謹(jǐn)慎,因為團(tuán)隊永遠(yuǎn)沒有資源完全從頭開始或完全重寫代碼塊

  據(jù)說,事后看來,該團(tuán)隊過去會在某些設(shè)計方向上做出不同的選擇。這種串行設(shè)計方法與 Arm 的職位形成鮮明對比,ARM 擁有多個跨越式設(shè)計中心和 CPU 團(tuán)隊,使他們能夠進(jìn)行諸如徹底重新設(shè)計之類的事情,例如 Cortex-A76。團(tuán)隊對于 M7 等即將到來的內(nèi)核有很多改進(jìn)的想法,但是據(jù)說取消該計劃的決定是三星公司高層的決定。與 Arm 的設(shè)計相比,SARC CPU 內(nèi)核從未真正具有過競爭力,因為它們的功率效率,性能和面積使用率下降。隨著 ARM 最新的 Cortex-X1 上周透露去為全力以赴的表現(xiàn),它看起來對我來說,SARC 的 M6 設(shè)計將不得不反對競爭的問題。

  該論文的作者非常感謝三星公司慷慨地允許發(fā)表該論文,并感謝 SARC 領(lǐng)導(dǎo)層多年來對這個“moonshot” CPU 項目的管理。SARC 當(dāng)前仍在設(shè)計自定義互連,內(nèi)存控制器,以及在自定義 GPU 架構(gòu)上工作。

總結(jié)

以上是生活随笔為你收集整理的三星Exynos团队首次披露M6 CPU内核设计:史上最强“胎死腹中”的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。