CUDA精讲(4)-- 性能优化

   日期:2024-12-27    作者:sungirll 移动:http://3jjewl.riyuangf.com/mobile/quote/66144.html

通信 vs 计算

Kepler架构来说,其峰值处理性能达到了3900Gflops,而其带宽只有250GB/s,约等于63Gflops。计算/通信约等于60。也就是说我们编写的程序达到的计算/通信极限是60左右,一般来说很难达到这个数值,但是我们需要朝着这个目标而努力。
计算/通信比还有一个叫法:Compute to Global Memory Access(CGMA)ratio。
具体来说,执行一个计算指令只需要1~4个时钟周期,而从global memory中访问一个数据需要400 ~ 800个时钟周期,从shared memory中访问需要1 ~ 20 个时钟周期。

CUDA精讲(4)-- 性能优化

数据预取与重用

尽量复用GPU中更快的内存空间,比如shared memory、register。即将频繁使用的数据从global memory中预取数据到shared memory中。

针对不同内存层次的优化技术

Host memory

Global memory/ Local memory

  • Memory coalescing
    从GPU硬件的角度来看,对于global memory来说如果一个warp中的所有线程访问的是一个连续的内存地址,那么就可以批量的读取(也就是将多个线程的io request变成一个io request)内存中的数据。
    因此当从global memory中读写数据的时候,尽量使得线程进行连续的内存访问,可以提高访存效率。

    1. 线性的访存
    2. 1:1对应
    3. broadcast
      4. Memory padding:额外的增加内存避免bank 冲突,比如下面看到32个warp同时访问32个bank就会有bank冲突

      但是如果我们多加一列的话,就不会存在bank 冲突了

特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


举报收藏 0评论 0
0相关评论
相关最新动态
推荐最新动态
点击排行
{
网站首页  |  关于我们  |  联系方式  |  使用协议  |  隐私政策  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号