cuda随记
一個warp的線程數為32個,每個線程的寄存器數量為4-128個,調用kernel函數的block數,thread數根據gpu卡的硬件參數確定。
half_warp的大小為16個線程,bank(存儲塊)的大小為32位,為了避免發生bank conflict,線程并發訪問內存大小為32的整數倍。
__global__函數限定符,從主機端調用,設備端執行
__device__函數限定符,從設備端調用,設備端執行
__host__函數限定符,主機端調用,主機端執行
__device__變量限定符,gpu內存全局變量
__shared__變量限定符,gpu共享變量,一個block內線程可訪問
__constant__變量限定符,gpu常量全局變量,用cudaMemcpyToSymbol函數賦值
texture紋理內存,特殊的聲明和賦值方法
一個SM相當于一個多線程的cpu核
?
轉載于:https://www.cnblogs.com/huyanglin/p/4807255.html
總結
- 上一篇: mysql查看数据库和表的占用空间大小
- 下一篇: 前台分页,感觉一般还能优化