日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

CPU并行与GPU并行联系及区别

發布時間:2024/4/18 编程问答 40 豆豆
生活随笔 收集整理的這篇文章主要介紹了 CPU并行与GPU并行联系及区别 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

主要參考博文:https://blog.csdn.net/ustcbob/article/details/38677603

應用特點:GPU并行吞吐量大,適合大數據并行處理;CPU適合邏輯處理和串行計算,適合多任務并行處理;

GPU工作模式
1)CPU 具有獨立的內存和寄存器,GPU也具有獨立的顯存和寄存器。CPU作為主控制器,CPU和 GPU 協同處理任務,GPU主要處理可以高度并行的數據處理任務,CPU則負責邏輯處理和串行計算相關任務。

2)GPU上的程序被稱為內核函數,也叫kernel。kernel是并行執行的程序段。在一段程序中可以有多個內核函數,每個內核函數內部都是并行執行的,但是各個kernel之間確是是串行執行的,其中還可以穿插CPU代碼段。

3)CUDA程序執行步驟:CPU完成初始化工作,將參與并行運算的數據拷貝到顯存中,GPU上啟動內核函數,在GPU上執行并行運算程序,GPU運算完成后將數據結果由顯存傳送回CPU內存。在程序設計中應盡量少使用分配內存,拷貝數據等涉及到CPU和 GPU 數據交換的這些命令。GPU的硬件特性使得block與block之間的通信很難,但是CUDA中的全局存儲器允許多個GPU或者同一個GPU的多個block同時對一塊存儲空間進行訪問。

?

GPU編程模型
1)CUDA中的基本邏輯執行單位:網格(grid)、線程塊(block)、線程(thread)和線程組(warp )。

2)一個內核函數對應一個網格。一個網格中有多個block,block是內核函數執行的基本單位,線程塊之間是無序并行執行的,并且不同的線程塊之間是沒辦法相互通信的。

3)一個block可最多由512個線程構成。線程是CUDA編程模型中可以分配的最小單位,也是資源最終的持有者。每個線程都有獨立的register和 local memory,同一個線程塊的線程之間可以相互進行細粒度通信。

4)warp是 CUDA 程序運行時的實際執行單位。CUDA架構中一個warp由 32 個線程組成。

5)GPU編程有兩個主要平臺,一個是OpenCL,編程方式類似OpenGL的產業標準,還有另一個是為了C/C++ 的CUDA,在NVIDIA的GPU上編程。

補充:

grid:kernal函數的執行單元,一個kernal對應一個grid,grid內部是并行執行,gird之間通過cpu調度串行執行。

block:block是并行計算的基本單位,block之間無序并行執行:具體來說,每個SM控制多個block塊,多個SM以warp為單位進行線程調度并行執行(warp是實際并行計算單位)

thread:最小的執行單元,實際資源的擁有者

可參考博客:https://blog.csdn.net/junparadox/article/details/50540602

?

適用GPU場景
1. 內核中有很多并行線程的應用。

2. 對于線程間的數據交換都發生在kernel調度空間中的相鄰線程之間的應用,因為這樣就可以用到per-block shared memory。

3. 數據并行的應用,多個線程做相似工作,循環是數據并行的主要來源。

4. 做同步操作較少的應用。

?

不適合GPU場景
1. 并行度小的應用,如需要的線程數小于100個,那么使用GPU加速效果不明顯。

2. 不規則的任務并行---盡管應用需要很多線程,但是這些線程都做不同的工作,那么GPU不能得到有效的利用。不過這也依賴于具體工作,多久對線程調度一次,加速的可能仍然存在。

3. 頻繁的全局同步,這要求全局的barrier,帶來很大性能開銷。

4. 在線程之間,會出現隨機的點對點同步的應用。GPU對這個的支持不好,通常需要在每次同步的時候做一個全局barrier,如果要利用GPU,最好重構算法避免出現這個問題。

5. 要求計算量(相比于數據傳輸量)少的應用。盡管在CPU+GPU計算結構中,GPU可以帶來計算性能的提升,但是這些提升都被向GPU傳輸數據所消耗的實踐覆蓋了。舉個例子,對于兩個向量求和運算,如果非常大的向量的話,一般都選擇在CPU上算,否則傳輸到GPU上的時間開銷很大。
?

?

?

總結

以上是生活随笔為你收集整理的CPU并行与GPU并行联系及区别的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。