02-缓存一致性---实现big.LITTLE、GPU 计算和企业应用
引流關(guān)鍵詞: bit.LITTLE,GPU,CCI,cache,緩存一致性,DSU
快速鏈接:
.
👉👉👉 個(gè)人博客筆記導(dǎo)讀目錄(全部) 👈👈👈
相關(guān)鏈接:
01-緩存一致性—基礎(chǔ)知識(shí)
02-緩存一致性—實(shí)現(xiàn)big.LITTLE、GPU 計(jì)算和企業(yè)應(yīng)用
03-緩存一致性—提高性能和引入CoreLink CCI-500
目錄
- 1、實(shí)現(xiàn)硬件一致性
- 2、移動(dòng)應(yīng)用程序:big.LITTLE 處理
- 3、移動(dòng)應(yīng)用:GPU 計(jì)算
- 4、企業(yè)應(yīng)用:網(wǎng)絡(luò)和服務(wù)器
- 5、CoreLink CCI-400 Cache Coherent Interconnect
- 6、總結(jié)
- 7、參考
1、實(shí)現(xiàn)硬件一致性
ARM 的第一個(gè)AMBA 4 ACE 實(shí)現(xiàn)包括 ARM CoreLink CCI-400 緩存一致性互連、ARM Cortex-A15和Cortex-A7處理器。這些產(chǎn)品于 2011 年首次發(fā)布給我們的芯片合作伙伴,我們已經(jīng)看到第一批ARM big.LITTLE產(chǎn)品于 2013 年上市。
迄今為止,CoreLink CCI-400 已獲得超過(guò) 24 個(gè)合作伙伴的許可,用于移動(dòng)和企業(yè)應(yīng)用程序,例如網(wǎng)絡(luò)或微服務(wù)器。CoreLink CCI-400 最多支持兩個(gè) AMBA 4 ACE 處理器集群,允許最多八個(gè)處理器內(nèi)核查看相同的內(nèi)存視圖并運(yùn)行 SMP 操作系統(tǒng)。
2、移動(dòng)應(yīng)用程序:big.LITTLE 處理
CoreLink CCI-400 支持所有 big.LITTLE 組合,包括 Cortex-A15 + Cortex-A7、Cortex-A17 + Cortex-A7 和 Cortex-A57 + Cortex-53,完全支持 ARMv8-A,包括 64 位。big.LITTLE 處理是來(lái)自 ARM 的一項(xiàng)功率優(yōu)化技術(shù),其中高性能“大”內(nèi)核和效率調(diào)整的“小”內(nèi)核與軟件相結(jié)合,以在正確的時(shí)間將應(yīng)用程序動(dòng)態(tài)轉(zhuǎn)換到正確的處理器。
硬件一致性是 big.LITTLE 處理的基礎(chǔ),因?yàn)樗试S big 和 LITTLE 處理器集群查看相同的內(nèi)存視圖并運(yùn)行相同的操作系統(tǒng)。big.LITTLE 軟件(例如 Global Task Scheduling (GTS))在給定時(shí)間將任務(wù)放置在適當(dāng)?shù)暮诵纳稀?duì)于中等工作負(fù)載,所有處理都可以在 LITTLE 核心上執(zhí)行,而大核心則關(guān)閉。如果工作負(fù)載需要更高的性能,則會(huì)啟動(dòng)大內(nèi)核并遷移任務(wù),而其他中等工作負(fù)載繼續(xù)在小內(nèi)核上運(yùn)行。big.LITTLE GTS 允許 SoC 上的所有內(nèi)核同時(shí)運(yùn)行,例如具有四個(gè) big 和四個(gè) LITTLE 的設(shè)備將作為一個(gè)八核處理器出現(xiàn)在操作系統(tǒng)中。
3、移動(dòng)應(yīng)用:GPU 計(jì)算
使用OpenCL 1.1 Full Profile 和 Google RenderScript 計(jì)算等 API 進(jìn)行 GPU 計(jì)算,釋放 CPU 和 GPU 的綜合處理能力。
在ARM Mali -T600系列和Mali-T760 GPU支持 AMBA 4 ACE-Lite`與CPU IO一致性。這意味著 GPU 可以直接從 CPU 緩存中讀取任何共享數(shù)據(jù),并且寫(xiě)入共享內(nèi)存將自動(dòng)使 CPU 緩存中的相關(guān)行無(wú)效。硬件一致性降低了 CPU 和 GPU 之間共享數(shù)據(jù)的成本,并允許更緊密的耦合。
GPU 計(jì)算應(yīng)用程序包括:計(jì)算攝影、計(jì)算機(jī)視覺(jué)、針對(duì)超高清分辨率(如 HEVC 和 VP9)的現(xiàn)代多媒體編解碼器、復(fù)雜圖像處理和手勢(shì)識(shí)別。
ARM 是異構(gòu)系統(tǒng)架構(gòu) (HSA) 基金會(huì)的創(chuàng)始成員之一。該基金會(huì)旨在提供一種免版稅規(guī)范,以便更輕松地利用 SoC 中的異構(gòu) CPU、GPU 和 DSP 硬件。這包括共享虛擬內(nèi)存和完全一致 GPU 的路線圖。這些技術(shù)將進(jìn)一步降低處理引擎之間共享數(shù)據(jù)的成本。
4、企業(yè)應(yīng)用:網(wǎng)絡(luò)和服務(wù)器
網(wǎng)絡(luò)和服務(wù)器等企業(yè)應(yīng)用程序具有高性能串行接口,例如 PCI Express、串行 ATA 和以太網(wǎng)。在大多數(shù)應(yīng)用程序中,所有這些數(shù)據(jù)都將被標(biāo)記為共享,因?yàn)樵谠S多情況下 CPU 需要從這些串行接口訪問(wèn)數(shù)據(jù)。下圖顯示了一個(gè)簡(jiǎn)化的示例系統(tǒng)。
CCI-400 Cache Coherent Interconnect 被設(shè)計(jì)成一系列小型企業(yè)應(yīng)用,包括住宅網(wǎng)關(guān)、安全設(shè)備、WLAN 企業(yè)接入點(diǎn)、工業(yè)通信和微型服務(wù)器。這些應(yīng)用程序使用一系列 ARM 處理器,具體取決于從 Cortex-A7 到 Cortex-A57 的性能要求,最多總共有 8 個(gè)內(nèi)核,沒(méi)有 L3 緩存。
ARM 擁有一系列互連產(chǎn)品,可在一系列內(nèi)核數(shù)量上擴(kuò)展性能:
- CoreLink CCI-400 Cache Coherent Interconnect
最多 2 個(gè)集群,8 個(gè)內(nèi)核 - CoreLink CCN-504 Cache Coherent Network
最多 4 個(gè)集群,16 個(gè)內(nèi)核
集成 L3 緩存,2 通道 72 位 DDR - CoreLink CCN-508 Cache Coherent Network
多達(dá) 8 個(gè)集群,32 個(gè)內(nèi)核
集成 L3 緩存,4 通道 72 位 DDR
5、CoreLink CCI-400 Cache Coherent Interconnect
下表詳細(xì)介紹了 CoreLink CCI-400 的主要特性:
兩個(gè)最常見(jiàn)的問(wèn)題是:它有多大,運(yùn)行速度有多快?CoreLink CCI-400 有許多配置選項(xiàng),包括寄存器階段和事務(wù)跟蹤器大小,允許針對(duì)給定應(yīng)用優(yōu)化互連區(qū)域和性能。在低端,門(mén)帳戶(hù)下降到 10 萬(wàn)門(mén)。在時(shí)鐘速度方面,我們的基準(zhǔn)實(shí)施試驗(yàn)以 533MHz 的 CMOS 32LP 工藝開(kāi)始,但我們看到許多合作伙伴在更小的硅幾何結(jié)構(gòu)上以更高的速度實(shí)施,并使用更快的實(shí)施技術(shù)。
下圖展示了帶有 Cortex-A50 系列處理器、CoreLink MMU-500 系統(tǒng) MMU 和一系列 CoreLink 400 系統(tǒng) IP 的示例移動(dòng)應(yīng)用處理器。
在該系統(tǒng)中,Cortex-A57 和 Cortex-A53 提供 big.LITTLE 處理器組合,并通過(guò) AMBA 4 ACE 連接到 CCI-400,以提供完整的硬件一致性。Mali-T628 和 IO Coherent 主站通過(guò) AMBA 4 ACE-Lite 接口連接到 CCI-400。如第一篇博客所述,這種 IO 一致性允許 IO 一致性代理從處理器緩存中讀取數(shù)據(jù)。
系統(tǒng)中的其他組件包括:
- MMU-500 系統(tǒng) MMU - 提供第 1 階段和/或第 2 階段地址轉(zhuǎn)換,以支持系統(tǒng)組件的內(nèi)存可視化。
- TZC-400 TrustZone 地址空間控制器- 對(duì)內(nèi)存或外圍設(shè)備的事務(wù)執(zhí)行安全檢查,并允許將內(nèi)存區(qū)域標(biāo)記為安全或受保護(hù)。
- DMC-400 動(dòng)態(tài)內(nèi)存控制器- 提供動(dòng)態(tài)內(nèi)存調(diào)度和與外部 DDR2/3 或 LPDDR2 內(nèi)存的接口。
- NIC-400 網(wǎng)絡(luò)互連- 為 AMBA 4 AXI4、AMBA 3 AXI3、AHB-Lite 和 APB 組件提供完全可配置、分層、低延遲的連接。
6、總結(jié)
本文介紹了硬件一致性和移動(dòng)應(yīng)用程序的實(shí)現(xiàn),例如 big.LITTLE 處理和企業(yè)。所有這些應(yīng)用程序的核心是像 CoreLink CCI-400 這樣的緩存一致性互連。作為 IP 提供商,ARM 處于獨(dú)特的地位,可以提供 Cortex 處理器、Mali 圖形和 CoreLink 緩存相干互連以及工具和物理 IP 的完整解決方案
7、參考
Extended System Coherency: Part 2 - Implementation, big.LITTLE, GPU Compute and Enterprise
總結(jié)
以上是生活随笔為你收集整理的02-缓存一致性---实现big.LITTLE、GPU 计算和企业应用的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 01-缓存一致性---基础知识
- 下一篇: 03-缓存一致性---提高性能和引入Co