通信 vs 计算
Kepler架构来说,其峰值处理性能达到了3900Gflops,而其带宽只有250GB/s,约等于63Gflops。计算/通信约等于60。也就是说我们编写的程序达到的计算/通信极限是60左右,一般来说很难达到这个数值,但是我们需要朝着这个目标而努力。
计算/通信比还有一个叫法:Compute to Global Memory Access(CGMA)ratio。
具体来说,执行一个计算指令只需要1~4个时钟周期,而从global memory中访问一个数据需要400 ~ 800个时钟周期,从shared memory中访问需要1 ~ 20 个时钟周期。
数据预取与重用
尽量复用GPU中更快的内存空间,比如shared memory、register。即将频繁使用的数据从global memory中预取数据到shared memory中。
针对不同内存层次的优化技术
Host memory
Global memory/ Local memory
-
Memory coalescing
从GPU硬件的角度来看,对于global memory来说如果一个warp中的所有线程访问的是一个连续的内存地址,那么就可以批量的读取(也就是将多个线程的io request变成一个io request)内存中的数据。
因此当从global memory中读写数据的时候,尽量使得线程进行连续的内存访问,可以提高访存效率。 -
- 线性的访存
- 1:1对应
- broadcast
4. Memory padding:额外的增加内存避免bank 冲突,比如下面看到32个warp同时访问32个bank就会有bank冲突:
但是如果我们多加一列的话,就不会存在bank 冲突了: