CUDA精讲（4）-- 性能优化

日期：2024-12-27 作者：sungirll 移动：http://3jjewl.riyuangf.com/mobile/quote/66144.html

通信 vs 计算

Kepler架构来说，其峰值处理性能达到了3900Gflops，而其带宽只有250GB/s,约等于63Gflops。计算/通信约等于60。也就是说我们编写的程序达到的计算/通信极限是60左右，一般来说很难达到这个数值，但是我们需要朝着这个目标而努力。
计算/通信比还有一个叫法：Compute to Global Memory Access（CGMA）ratio。
具体来说，执行一个计算指令只需要1~4个时钟周期，而从global memory中访问一个数据需要400 ~ 800个时钟周期，从shared memory中访问需要1 ~ 20 个时钟周期。

CUDA精讲（4）-- 性能优化

数据预取与重用

尽量复用GPU中更快的内存空间，比如shared memory、register。即将频繁使用的数据从global memory中预取数据到shared memory中。

针对不同内存层次的优化技术

Host memory

Global memory/ Local memory

Memory coalescing
从GPU硬件的角度来看，对于global memory来说如果一个warp中的所有线程访问的是一个连续的内存地址，那么就可以批量的读取（也就是将多个线程的io request变成一个io request）内存中的数据。
因此当从global memory中读写数据的时候，尽量使得线程进行连续的内存访问，可以提高访存效率。
1. 线性的访存
2. 1:1对应
3. broadcast
  4. Memory padding：额外的增加内存避免bank 冲突，比如下面看到32个warp同时访问32个bank就会有bank冲突：
  
  但是如果我们多加一列的话，就不会存在bank 冲突了：

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

点赞 0举报收藏 0评论 0

0 条相关评论

相关最新动态

推荐最新动态

点击排行