日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

02-缓存一致性---实现big.LITTLE、GPU 计算和企业应用

發(fā)布時(shí)間:2025/3/21 编程问答 27 豆豆
生活随笔 收集整理的這篇文章主要介紹了 02-缓存一致性---实现big.LITTLE、GPU 计算和企业应用 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

引流關(guān)鍵詞: bit.LITTLE,GPU,CCI,cache,緩存一致性,DSU

快速鏈接:
.
👉👉👉 個(gè)人博客筆記導(dǎo)讀目錄(全部) 👈👈👈


相關(guān)鏈接:
01-緩存一致性—基礎(chǔ)知識(shí)
02-緩存一致性—實(shí)現(xiàn)big.LITTLE、GPU 計(jì)算和企業(yè)應(yīng)用
03-緩存一致性—提高性能和引入CoreLink CCI-500

目錄

        • 1、實(shí)現(xiàn)硬件一致性
        • 2、移動(dòng)應(yīng)用程序:big.LITTLE 處理
        • 3、移動(dòng)應(yīng)用:GPU 計(jì)算
        • 4、企業(yè)應(yīng)用:網(wǎng)絡(luò)和服務(wù)器
        • 5、CoreLink CCI-400 Cache Coherent Interconnect
        • 6、總結(jié)
        • 7、參考

1、實(shí)現(xiàn)硬件一致性

ARM 的第一個(gè)AMBA 4 ACE 實(shí)現(xiàn)包括 ARM CoreLink CCI-400 緩存一致性互連、ARM Cortex-A15和Cortex-A7處理器。這些產(chǎn)品于 2011 年首次發(fā)布給我們的芯片合作伙伴,我們已經(jīng)看到第一批ARM big.LITTLE產(chǎn)品于 2013 年上市。

迄今為止,CoreLink CCI-400 已獲得超過(guò) 24 個(gè)合作伙伴的許可,用于移動(dòng)和企業(yè)應(yīng)用程序,例如網(wǎng)絡(luò)或微服務(wù)器。CoreLink CCI-400 最多支持兩個(gè) AMBA 4 ACE 處理器集群,允許最多八個(gè)處理器內(nèi)核查看相同的內(nèi)存視圖并運(yùn)行 SMP 操作系統(tǒng)。

2、移動(dòng)應(yīng)用程序:big.LITTLE 處理

CoreLink CCI-400 支持所有 big.LITTLE 組合,包括 Cortex-A15 + Cortex-A7、Cortex-A17 + Cortex-A7 和 Cortex-A57 + Cortex-53,完全支持 ARMv8-A,包括 64 位。big.LITTLE 處理是來(lái)自 ARM 的一項(xiàng)功率優(yōu)化技術(shù),其中高性能“大”內(nèi)核和效率調(diào)整的“小”內(nèi)核與軟件相結(jié)合,以在正確的時(shí)間將應(yīng)用程序動(dòng)態(tài)轉(zhuǎn)換到正確的處理器。

硬件一致性是 big.LITTLE 處理的基礎(chǔ),因?yàn)樗试S big 和 LITTLE 處理器集群查看相同的內(nèi)存視圖并運(yùn)行相同的操作系統(tǒng)。big.LITTLE 軟件(例如 Global Task Scheduling (GTS))在給定時(shí)間將任務(wù)放置在適當(dāng)?shù)暮诵纳稀?duì)于中等工作負(fù)載,所有處理都可以在 LITTLE 核心上執(zhí)行,而大核心則關(guān)閉。如果工作負(fù)載需要更高的性能,則會(huì)啟動(dòng)大內(nèi)核并遷移任務(wù),而其他中等工作負(fù)載繼續(xù)在小內(nèi)核上運(yùn)行。big.LITTLE GTS 允許 SoC 上的所有內(nèi)核同時(shí)運(yùn)行,例如具有四個(gè) big 和四個(gè) LITTLE 的設(shè)備將作為一個(gè)八核處理器出現(xiàn)在操作系統(tǒng)中。

3、移動(dòng)應(yīng)用:GPU 計(jì)算

使用OpenCL 1.1 Full Profile 和 Google RenderScript 計(jì)算等 API 進(jìn)行 GPU 計(jì)算,釋放 CPU 和 GPU 的綜合處理能力。

在ARM Mali -T600系列和Mali-T760 GPU支持 AMBA 4 ACE-Lite`與CPU IO一致性。這意味著 GPU 可以直接從 CPU 緩存中讀取任何共享數(shù)據(jù),并且寫(xiě)入共享內(nèi)存將自動(dòng)使 CPU 緩存中的相關(guān)行無(wú)效。硬件一致性降低了 CPU 和 GPU 之間共享數(shù)據(jù)的成本,并允許更緊密的耦合。

GPU 計(jì)算應(yīng)用程序包括:計(jì)算攝影、計(jì)算機(jī)視覺(jué)、針對(duì)超高清分辨率(如 HEVC 和 VP9)的現(xiàn)代多媒體編解碼器、復(fù)雜圖像處理和手勢(shì)識(shí)別。

ARM 是異構(gòu)系統(tǒng)架構(gòu) (HSA) 基金會(huì)的創(chuàng)始成員之一。該基金會(huì)旨在提供一種免版稅規(guī)范,以便更輕松地利用 SoC 中的異構(gòu) CPU、GPU 和 DSP 硬件。這包括共享虛擬內(nèi)存和完全一致 GPU 的路線圖。這些技術(shù)將進(jìn)一步降低處理引擎之間共享數(shù)據(jù)的成本。

4、企業(yè)應(yīng)用:網(wǎng)絡(luò)和服務(wù)器

網(wǎng)絡(luò)和服務(wù)器等企業(yè)應(yīng)用程序具有高性能串行接口,例如 PCI Express、串行 ATA 和以太網(wǎng)。在大多數(shù)應(yīng)用程序中,所有這些數(shù)據(jù)都將被標(biāo)記為共享,因?yàn)樵谠S多情況下 CPU 需要從這些串行接口訪問(wèn)數(shù)據(jù)。下圖顯示了一個(gè)簡(jiǎn)化的示例系統(tǒng)。

CCI-400 Cache Coherent Interconnect 被設(shè)計(jì)成一系列小型企業(yè)應(yīng)用,包括住宅網(wǎng)關(guān)、安全設(shè)備、WLAN 企業(yè)接入點(diǎn)、工業(yè)通信和微型服務(wù)器。這些應(yīng)用程序使用一系列 ARM 處理器,具體取決于從 Cortex-A7 到 Cortex-A57 的性能要求,最多總共有 8 個(gè)內(nèi)核,沒(méi)有 L3 緩存。

ARM 擁有一系列互連產(chǎn)品,可在一系列內(nèi)核數(shù)量上擴(kuò)展性能:

  • CoreLink CCI-400 Cache Coherent Interconnect
    最多 2 個(gè)集群,8 個(gè)內(nèi)核
  • CoreLink CCN-504 Cache Coherent Network
    最多 4 個(gè)集群,16 個(gè)內(nèi)核
    集成 L3 緩存,2 通道 72 位 DDR
  • CoreLink CCN-508 Cache Coherent Network
    多達(dá) 8 個(gè)集群,32 個(gè)內(nèi)核
    集成 L3 緩存,4 通道 72 位 DDR

5、CoreLink CCI-400 Cache Coherent Interconnect

下表詳細(xì)介紹了 CoreLink CCI-400 的主要特性:

兩個(gè)最常見(jiàn)的問(wèn)題是:它有多大,運(yùn)行速度有多快?CoreLink CCI-400 有許多配置選項(xiàng),包括寄存器階段和事務(wù)跟蹤器大小,允許針對(duì)給定應(yīng)用優(yōu)化互連區(qū)域和性能。在低端,門(mén)帳戶(hù)下降到 10 萬(wàn)門(mén)。在時(shí)鐘速度方面,我們的基準(zhǔn)實(shí)施試驗(yàn)以 533MHz 的 CMOS 32LP 工藝開(kāi)始,但我們看到許多合作伙伴在更小的硅幾何結(jié)構(gòu)上以更高的速度實(shí)施,并使用更快的實(shí)施技術(shù)。

下圖展示了帶有 Cortex-A50 系列處理器、CoreLink MMU-500 系統(tǒng) MMU 和一系列 CoreLink 400 系統(tǒng) IP 的示例移動(dòng)應(yīng)用處理器。

在該系統(tǒng)中,Cortex-A57 和 Cortex-A53 提供 big.LITTLE 處理器組合,并通過(guò) AMBA 4 ACE 連接到 CCI-400,以提供完整的硬件一致性。Mali-T628 和 IO Coherent 主站通過(guò) AMBA 4 ACE-Lite 接口連接到 CCI-400。如第一篇博客所述,這種 IO 一致性允許 IO 一致性代理從處理器緩存中讀取數(shù)據(jù)。

系統(tǒng)中的其他組件包括:

  • MMU-500 系統(tǒng) MMU - 提供第 1 階段和/或第 2 階段地址轉(zhuǎn)換,以支持系統(tǒng)組件的內(nèi)存可視化。
  • TZC-400 TrustZone 地址空間控制器- 對(duì)內(nèi)存或外圍設(shè)備的事務(wù)執(zhí)行安全檢查,并允許將內(nèi)存區(qū)域標(biāo)記為安全或受保護(hù)。
  • DMC-400 動(dòng)態(tài)內(nèi)存控制器- 提供動(dòng)態(tài)內(nèi)存調(diào)度和與外部 DDR2/3 或 LPDDR2 內(nèi)存的接口。
  • NIC-400 網(wǎng)絡(luò)互連- 為 AMBA 4 AXI4、AMBA 3 AXI3、AHB-Lite 和 APB 組件提供完全可配置、分層、低延遲的連接。

6、總結(jié)

本文介紹了硬件一致性和移動(dòng)應(yīng)用程序的實(shí)現(xiàn),例如 big.LITTLE 處理和企業(yè)。所有這些應(yīng)用程序的核心是像 CoreLink CCI-400 這樣的緩存一致性互連。作為 IP 提供商,ARM 處于獨(dú)特的地位,可以提供 Cortex 處理器、Mali 圖形和 CoreLink 緩存相干互連以及工具和物理 IP 的完整解決方案

7、參考

Extended System Coherency: Part 2 - Implementation, big.LITTLE, GPU Compute and Enterprise

總結(jié)

以上是生活随笔為你收集整理的02-缓存一致性---实现big.LITTLE、GPU 计算和企业应用的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。