日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

存算一体芯片技术及其最新发展趋势(陈巍谈芯)

發(fā)布時間:2023/12/20 编程问答 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 存算一体芯片技术及其最新发展趋势(陈巍谈芯) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

相關(guān)推薦

陳巍談芯:7.2 RRAM模擬存內(nèi)計算 《先進存算一體芯片設(shè)計》節(jié)選https://zhuanlan.zhihu.com/p/474261353

陳巍談芯:存算一體技術(shù)是什么?發(fā)展史、優(yōu)勢、應(yīng)用方向、主要介質(zhì)(收錄于存算一體芯片賽道投資融資分析)https://zhuanlan.zhihu.com/p/480612865

陳巍談芯:7 分析實戰(zhàn):Hopper架構(gòu)——《GPGPU 芯片設(shè)計:原理與實踐》節(jié)選https://zhuanlan.zhihu.com/p/487250706

作者:陳巍 博士?資深芯片專家,人工智能算法-芯片協(xié)同設(shè)計專家,擅長芯片架構(gòu)與存算一體。國內(nèi)首個可重構(gòu)存算處理器架構(gòu)(已在互聯(lián)網(wǎng)大廠完成原型內(nèi)測),首個醫(yī)療領(lǐng)域?qū)S肁I處理器(已落地應(yīng)用),首個RISC-V/x86/ARM平臺兼容的AI加速編譯器(與阿里平頭哥/芯來合作),國內(nèi)首個3D NAND芯片架構(gòu)與設(shè)計團隊建立(與三星對標),國內(nèi)首個嵌入式閃存編譯器(與臺積電對標),國內(nèi)首個90nm閃存芯片架構(gòu)(與Cypress/SST對標)

存算一體的優(yōu)勢場景

隨著AI計算、自動駕駛和元宇宙進入行業(yè)快車道,全社會巨大的算力需求正在催生新的計算架構(gòu)。存算一體架構(gòu)比馮諾依曼架構(gòu)最大的優(yōu)勢,表現(xiàn)為超高的算力和能效比,是比馮氏架構(gòu)更適合AI計算的架構(gòu)。存算技術(shù)也被AspenCore預(yù)測為2022年的全球半導(dǎo)體行業(yè)十大技術(shù)趨勢。

目前存算技術(shù)正處在從學(xué)術(shù)到工業(yè)產(chǎn)品的躍遷的關(guān)鍵時期。包括阿里達摩院最近剛發(fā)布的基于SeDRAM的近存計算芯片,就充分展示了存算技術(shù)(第一代僅是近存計算)在數(shù)據(jù)中心場景的算力和能效實力

01

存算一體技術(shù)的原理及優(yōu)勢

算力發(fā)展速度遠超存儲器(來源:amirgholami@github)

存算一體技術(shù)(Computing in Memory,CIM)概念的形成,最早可以追溯到上個世紀90年代。隨著近幾年云計算和人工智能(AI)應(yīng)用的發(fā)展,面對計算中心的數(shù)據(jù)洪流,數(shù)據(jù)搬運慢、搬運能耗大等問題成為了計算的關(guān)鍵瓶頸。從處理單元外的存儲器提取數(shù)據(jù),搬運時間往往是運算時間的成百上千倍,整個過程的無用能耗大概在60%-90%之間,能效非常低,“存儲墻”成為了數(shù)據(jù)計算應(yīng)用的一大障礙。深度學(xué)習(xí)加速的最大挑戰(zhàn)就是數(shù)據(jù)在計算單元和存儲單元之間頻繁的移動。

數(shù)據(jù)搬運占據(jù)AI計算的主要能耗

存算一體可理解為在存儲器中嵌入計算能力,以新的運算架構(gòu)進行二維和三維矩陣乘法/加法運算,而不是在傳統(tǒng)邏輯運算單元或工藝上優(yōu)化。這樣能從本質(zhì)上消除不必要的數(shù)據(jù)搬移的延遲和功耗,成百上千倍的提高AI計算效率,降低成本,打破存儲墻。

除了用于AI計算外,存算技術(shù)也可用于感存算一體芯片和類腦芯片,代表了未來主流的大數(shù)據(jù)計算芯片架構(gòu)。

存算一體技術(shù)的核心優(yōu)勢包括:

  • 減少不必要的數(shù)據(jù)搬運(降低能耗至1/10~1/100)
  • 直接存儲單元參與邏輯計算提升算力(等效于在面積不變的情況下規(guī)模化增加計算核心數(shù))
  • 節(jié)約大量D觸發(fā)器占用的芯片面積
  • 02

    存算一體技術(shù)的分類

    存算技術(shù)的分類/演進

    目前存算技術(shù)在按照以下路線在演進:

    ??查存計算(Processing With Memory):GPU中對于復(fù)雜函數(shù)就采用了這種計算方法,是早已落地多年的技術(shù)。通過在存儲芯片內(nèi)部查表來完成計算操作。

    ??近存計算(Computing Near Memory):典型代表是AMD的Zen系列CPU,技術(shù)方案已經(jīng)比較成熟。計算操作由位于存儲區(qū)域外部的獨立計算芯片/模塊完成。這種架構(gòu)設(shè)計的代際設(shè)計成本較低,適合傳統(tǒng)架構(gòu)芯片轉(zhuǎn)入。將HBM內(nèi)存(包括三星的HBM-PIM)與計算模組(裸Die)封裝在一起的芯片也屬于這一類。

    ??存內(nèi)計算(Computing In Memory):典型代表是Mythic、千芯、閃億、知存、九天睿芯等。計算操作由位于存儲芯片/區(qū)域內(nèi)部的獨立計算單元完成,存儲和計算可以是模擬的也可以是數(shù)字的。這種路線一般用于算法固定的場景算法計算。

    ??存內(nèi)邏輯(Logic In Memory):這是較新的存算架構(gòu),典型代表包括TSMC(在2021 ISSCC發(fā)表)和千芯科技。這種架構(gòu)數(shù)據(jù)傳輸路徑最短,同時能滿足大模型的計算精度要求。通過在內(nèi)部存儲中添加計算邏輯,直接在內(nèi)部存儲執(zhí)行數(shù)據(jù)計算。

    PIM-HBM芯片架構(gòu)

    03

    存內(nèi)計算芯片基本架構(gòu)

    存算一體芯片基本架構(gòu)

    人工智能/深度學(xué)習(xí)計算中有大量的矩陣乘法計算,其本質(zhì)是乘累加(Multiply-Accumulate,MAC)運算。存算將計算直接映射到存儲結(jié)構(gòu)中,具有最高的能效比和最小的延遲

    如存算一體芯片基本架構(gòu)圖所示,神經(jīng)網(wǎng)絡(luò)模型的權(quán)重可以映射為子陣列中存儲單元的電導(dǎo)率,而輸入特征圖(Feature map)作為行電壓并行加載(圖中WL方向),然后以模擬方式進行乘法(即輸入電壓乘以權(quán)重電導(dǎo)),并使用列上的電流求和(圖中BL方向)來生成輸出向量

    CIM 可以支持多位權(quán)重/輸入/輸出精度。根據(jù)存儲單元的精度,一個多位權(quán)重可能被分成多個存儲單元。例如,如果每個單元使用 2 位,則 8 位權(quán)重可以由 4 個存儲單元表示。

    ADC(模數(shù)轉(zhuǎn)換器)/SA(靈敏放大器) 之后的輸出可經(jīng)過“移位+加法”以重建跨多列的乘法/加法,以提升計算精度。

    04

    存算一體中存儲單元的對比

    目前可用于存算一體的成熟工藝存儲器有DRAM 、SRAM、Flash。

    DRAM成本低,容量大,但是可用的eDRAM IP核工藝節(jié)點不先進,讀取延遲(Latency)也大,且需要定期刷新數(shù)據(jù)。Flash則屬于非易失性存儲器件,具有低成本優(yōu)勢,一般適合小算力場景。SRAM在速度方面具有極大優(yōu)勢,有幾乎最高的能效比,容量密度略小,在精度增強后可以保證較高精度,一般適用于云計算等大算力場景。

    可用于存算一體新型存儲器有PCRAM、MRAM、RRAM和FRAM等。

    目前學(xué)術(shù)界比較關(guān)注各種憶阻器(RRAM)在神經(jīng)網(wǎng)絡(luò)計算中的引入。RRAM使用電阻調(diào)制來實現(xiàn)數(shù)據(jù)存儲,讀出電流信號而非傳統(tǒng)的電荷信號,可以獲得較好的線性電阻特性。但目前RRAM工藝良率爬坡還在進行中,而且依然需要面對非易失存儲器固有的可靠性問題,因此目前還主要用于端側(cè)小算力和邊緣AI計算。

    05

    存算技術(shù)的發(fā)展趨勢

    1)提升計算精度

    模擬存內(nèi)計算精度受到信噪比的影響,精度上限在4-8 bit左右,只能做定點數(shù)計算,難以實現(xiàn)浮點計算,并不適用于需要高精度的云計算場景和訓(xùn)練場景,適用于對能效比有較高要求而對于精確度有一定容忍的場景。

    數(shù)字存算技術(shù)則不受信噪比的影響,精度可以達到32bit甚至更高,且可支持浮點計算,是云計算場景存算的發(fā)展方向。

    2)多算法適配

    目前大部分存算芯片還是針對特定算法的DSA(Domain Specific Accelerator),因此當(dāng)客戶算法需求改變時,就很難做到算法的遷移和適配。這使得一款存算芯片可能只能適配優(yōu)先的細分市場,難以形成較大的銷量。特別是在端側(cè)市場,這一現(xiàn)象明顯。

    為了解決多算法適配的問題,目前產(chǎn)業(yè)界開始使用可編程或可重構(gòu)的技術(shù)來擴展存算架構(gòu)的支持能力。其中可重構(gòu)存算的能效比高于可編程存算的能效比,具有更強的發(fā)展?jié)摿Α?/p>

    3)存算/數(shù)據(jù)流編譯器的適配

    存算一體芯片產(chǎn)業(yè)化處于起步階段,目前仍面臨編譯器的支持不足的問題。

    目前大部分存算芯片采取DSA的方式進行落地,以規(guī)避通用編譯器的適配問題。

    但隨著存算技術(shù)的高速發(fā)展和落地,對應(yīng)的編譯器技術(shù)也在快速進步。

    存算技術(shù)在海量數(shù)據(jù)計算場景中擁有天然的優(yōu)勢,將在云計算、自動駕駛、元宇宙等場景擁有廣闊的發(fā)展空間。

    目前存算技術(shù)正處在從學(xué)術(shù)領(lǐng)域到工業(yè)產(chǎn)品落地的關(guān)鍵時期,隨著存算技術(shù)的不斷進步和應(yīng)用場景的不斷催生,預(yù)計存算一體技術(shù)將成為AI計算領(lǐng)域的主要架構(gòu)

    總結(jié)

    以上是生活随笔為你收集整理的存算一体芯片技术及其最新发展趋势(陈巍谈芯)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。