GPU上的基本线性代数
生活随笔
收集整理的這篇文章主要介紹了
GPU上的基本线性代数
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
GPU上的基本線性代數
cuBLAS庫提供了基本線性代數子例程(BLAS)的GPU加速實現。cuBLAS通過針對NVIDIA GPU進行了高度優化的嵌入式行業標準BLAS API來加速AI和HPC應用程序。cuBLAS庫包含用于批處理操作,跨多個GPU的執行以及混合和低精度執行的擴展。使用cuBLAS,應用程序會自動受益于常規性能的改進和新的GPU架構。cuBLAS庫包含在NVIDIA HPC SDK和CUDA Toolkit中。
cuBLAS多GPU擴展
cuBLASMg提供了最新的多GPU矩陣矩陣乘法,每個矩陣都可以2D塊循環的方式在多個設備之間分配。cuBLASMg當前是CUDA數學庫早期訪問計劃的一部分。
cuBLAS性能
cuBLAS庫針對NVIDIA GPU的性能進行了高度優化,并利用張量內核加速了低精度和混合精度矩陣乘法。
cuBLAS的主要功能
? 全面支持所有152個標準BLAS例程
? 支持半精度和整數矩陣乘法
? 針對Volta和Turing張量Cores進行了優化的GEMM和GEMM擴展
? 針對各種深度學習模型中使用的大小調整了GEMM性能
? 支持CUDA流以進行并發操作
總結
以上是生活随笔為你收集整理的GPU上的基本线性代数的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: NVIDIA数据中心深度学习产品性能
- 下一篇: GPU上稀疏矩阵的基本线性代数