日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

指令流水 一个时钟周期 出一个结果_以SM3算法为例,构建一个软硬协作算法加速器:性能分析与优化...

發(fā)布時間:2025/4/5 46 豆豆
生活随笔 收集整理的這篇文章主要介紹了 指令流水 一个时钟周期 出一个结果_以SM3算法为例,构建一个软硬协作算法加速器:性能分析与优化... 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

衡量一款 ASIC 芯片可以從 PPA 三個角度進行。

PPA 指的是: Power/Performance/Area,功耗 / 性能 / 面積。

衡量 FPGA 設計同樣可以參照 PPA,但又有所不同。

除非是專門針對功耗的優(yōu)化,一般設計優(yōu)化主要考慮的是 LUT / FF 等芯片資源使用情況(面積)以及應用的工作頻率以及延遲(性能)。

就加速器而言,還會有一項指標:加速比。加速比參考對象一般是使用馮諾依曼架構的通用 CPU 或者 GPU。

SM3 性能指標

具體到 SM3 加速器的性能指標,我們可以將指標設定為消息吞吐量,消息處理延遲以及相比于通用處理器運行高效 SM3 軟件算法時的加速比。

消息吞吐量 = 消息比特長度 / 消息處理時間 (bit/s 或 bps)消息處理延遲 = T 消息完成時間 - T 消息開始處理時間加速比 = T 加速器上消息運算時間 / T 處理器軟件消息運算時間

以本系列上一篇文章中提及的設計為例,假設其工作在 125 Mhz 的時鐘下,假設處理一個消息的時鐘周期為 64 個,那么系統(tǒng)的吞吐為

512b / (8ns * 64) = 1000Mbps

減少消息處理延遲

實際上基于 FPGA 的 SM3 設計本身就有低延遲的優(yōu)勢。相較于 CPU 或者 GPU 架構,基于指令集以及緩存機制的馮諾依曼架構,無指令的 FPGA 可以直接對輸入消息進行處理并輸出,系統(tǒng)的延時只會用于處理消息而不是用于指令或者緩存系統(tǒng)。FPGA 處理一個消息塊的延遲可以低于 us 級別。

在設計中可以在延遲,吞吐,面積之間權衡。

比如在上一篇的開源實現(xiàn)中,消息填充模塊以 512b 消息塊為單位,在填充完成后,再將整個消息塊輸出。這樣做減少了處理的復雜度,減少了邏輯面積。但在緩存塊的過程中,會使系統(tǒng)增加 512/32 = 16 個周期延遲。

我們會在后續(xù)的文章中進一步討論延遲相關的設計。

提升消息吞吐量

吞吐量是處理系統(tǒng)的關鍵指標,具體到 SM3 算法中,提高吞吐量有兩種主要的途徑

  • 優(yōu)化算法硬件實現(xiàn)架構

我們可以根據(jù)算法的特點,通過優(yōu)化實現(xiàn)架構來提高算法加速器的吞吐。一般架構的更改提高吞吐量是以增大面積作為代價。有以下兩種主流的方法

1.實現(xiàn)流水線結構

部署 64 個實現(xiàn)單元,每個周期輸入一個消息塊。每個時鐘周期, 64 個處理單元都處于工作狀態(tài)。并能在每個周期輸出一個消息塊的哈希雜湊值,這樣一來吞吐量會到一個大得恐怖的量級,那么代價是什么呢?電路的面積會非常大,其實功耗也會非常高。

2.邏輯展開

標準中,每一個消息塊需要進行 64 輪迭代,每輪迭代處理一組輸入。相鄰輪迭代的輸入之間沒有依賴關系。所以可以通過復制一組處理邏輯,在每輪迭代中處理兩組輸入,將一個消息塊的迭代周期降到 32 個,從而提升吞吐量。

理論上也可以把 64 輪邏輯全部展開到一個周期.... -_-||

  • 提高系統(tǒng)工作頻率

想要提高系統(tǒng)的工作頻率,關鍵在于找出設計中的關鍵路徑,并想辦法縮短。關鍵路徑指的是設計中兩個觸發(fā)器之間最長的組合邏輯路徑。關鍵路徑的長度決定了系統(tǒng)的工作頻率。系統(tǒng)的工作周期不能小于關鍵路徑。

優(yōu)化關鍵路徑的方法有幾種:

通過寄存器進行調(diào)整,比如插入寄存器到組合邏輯之間,打斷組合邏輯;比如平衡多個寄存器之間組合邏輯路徑,減少關鍵路徑長度等。

但這些方法的使用在 SM3 這樣的周期迭代應用中受限。SM3 需要進行 64 輪迭代,每個周期迭代一次。如果在其中插入寄存器,會使處理周期增加。增加延遲的同時,增加的處理周期可能會抵消降低關鍵路徑長度帶來的吞吐提升。

調(diào)整綜合和布局布線策略,優(yōu)先對關鍵路徑進行優(yōu)化;這類和工具相關的優(yōu)化作者也有使用,但對其中的原理和竅門還不太了解,將在后續(xù)的文章中討論。

對關鍵路徑上的組合進行優(yōu)化,比如針對 SM3 算法的計算特點,優(yōu)化算法運算微架構,如使用 CSA 替換路徑中的加法器,減少一級加法器從而縮短路徑;常量 Tj 在每輪迭代時循環(huán)移位,可以用 ROM 存儲常量 Tj 每輪循環(huán)移位后的值,每輪迭代時使用查表法更新常量,減少循環(huán)移位帶來的延遲,

結語

本文討論了 SM3 加速器的性能指標以及提升吞吐等性能的策略。

后續(xù)文章中將詳細討論如何通過優(yōu)化算法實現(xiàn)架構和提高工作頻率等方法來提升吞吐。在下一篇文章中將討論如何使用 CSA 加法器降低關鍵路徑延遲,從而提升頻率和吞吐。

總結

以上是生活随笔為你收集整理的指令流水 一个时钟周期 出一个结果_以SM3算法为例,构建一个软硬协作算法加速器:性能分析与优化...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 欧美日韩亚洲不卡 | 成年人免费在线视频 | 手机看片久久久 | 国产v片在线观看 | 日韩在线视频免费观看 | 51调教丨国产调教视频 | a网址| 老司机午夜影院 | 久久精品视频1 | 国产福利一区二区三区 | sm一区二区三区 | 女人十八岁毛片 | 免费看日韩毛片 | 黑人极品ⅴideos精品欧美棵 | 欧美视频一二区 | 亚洲精品久久久 | 欧美一区二区视频在线观看 | www.美色吧.com | 天天摸夜夜爽 | 清纯唯美第一页 | 中文在线资源天堂 | 久久3p| 艳妇乳肉亭妇荡乳av | 国产美女黄色 | 国内黄色一级片 | 97色在线 | 最全aⅴ番号库网 | yy4138理论片动漫理论片 | 青青伊人国产 | 久久久精品亚洲 | 成人午夜视频精品一区 | 18禁裸乳无遮挡啪啪无码免费 | 亚洲六月丁香色婷婷综合久久 | 国产黄色电影 | 欧洲av在线播放 | 日韩在线国产精品 | 亚洲永久免费精品 | 男女激情网站 | 九色国产 | 国产欧美一区二区三区在线看蜜臂 | 美女天天操 | 91激情捆绑调教喷水 | 丁香在线| 成年人免费看的视频 | 天堂一区在线观看 | 青青青青在线 | 中文 欧美 日韩 | 色姑娘av| 五月天综合婷婷 | 中文日本在线 | 日韩r级在线观看 | 91久久中文字幕 | 天天操天天看 | 国产精品老熟女视频一区二区 | 91在线不卡 | 欧美乱大交xxxxx潮喷l头像 | 九色91蝌蚪| 伊人av在线| 人人超碰97| 麻豆91精品91久久久 | 国产精品视频免费 | 少妇又紧又色又爽又刺激视频 | 日剧再来一次第十集 | av片在线播放| 蜜桃av影视| 欧美在线免费播放 | 果冻av在线 | 女人一级一片30分 | www色网站| 99999av | 夫妻性生活黄色片 | 亚洲精品一区二区三区在线 | 欧美中文| 国产哺乳奶水91在线播放 | 欧美乱妇狂野欧美视频 | av片在线观看网站 | 久草新免费 | 蝌蚪自拍网站 | 杨幂一区二区三区免费看视频 | 免费黄在线看 | 免费中文字幕av | 日韩精品一区二区三区免费视频 | 人人爱爱人人 | 姐姐你真棒插曲快来救救我电影 | 国产美女主播在线 | 亚洲视频中文 | 日本丰满肉感bbwbbwbbw | 91丝袜呻吟高潮美腿白嫩在线观看 | 久久性生活视频 | 亚洲欧美专区 | 国产成人在线观看网站 | 巨乳xxx | 中文在线观看免费 | a天堂中文在线观看 | 国产精品久久毛片 | 欧美日韩在线观看免费 | 久久久久久久久久99精品 | 天海翼中文字幕 | 欧美国产一二三区 |