cuda 本地内存使用_CUDA Pro:通过向量化内存访问提高性...

当前位置：首页 > 新闻动态 >

热卖商品

procudan/Pyrazinamide/98-96-4

procudan/Heparin/9005-49-6

procudan/Ibuprofen/15687-27-1

procudan/Metronidazole/443-48-1

新闻详情

cuda 本地内存使用_CUDA Pro:通过向量化内存访问提高性..._CSDN博客

来自 : CSDN技术社区发布时间：2021-03-25

CUDA Pro 通过向量化内存访问提高性能

许多CUDA内核受带宽限制而新硬件中触发器与带宽的比率不断提高导致带宽受限制的内核更多。这使得采取措施减轻代码中的带宽瓶颈非常重要。本文将展示如何在CUDA C / C 中使用向量加载和存储以帮助提高带宽利用率同时减少已执行指令的数量。

从以下简单的内存复制内核开始。

__global__ void device_copy_scalar_kernel(int* d_in, int* d_out, int N) {

int idx blockIdx.x * blockDim.x threadIdx.x;

for (int i idx; i i blockDim.x * gridDim.x) {

d_out[i] d_in[i];

}

void device_copy_scalar(int* d_in, int* d_out, int N)

{

int threads 128;

int blocks min((N threads-1) / threads, MAX_BLOCKS);

device_copy_scalar_kernel (d_in, d_out, N);

}

代码使用的是网格跨度循环。图1显示了内核吞吐量(GB / s)与副本大小的关系。 $\"\"$ $\"\"$

图1 复制带宽与复制大小的关系。

cuobjdump -sass可执行文件

标量复制内核主体的SASS如下

/ * 0058 * / IMAD http://R6.CC R0 R9 c [0x0] [0x140]

/ * 0060 * / IMAD.HI.X R7 R0 R9 c [0x0] [0x144]

/ * 0068 * / IMAD http://R4.CC R0 R9 c [0x0] [0x148]

/ * 0070 * / LD.E R2 [R6]

/ * 0078 * / IMAD.HI.X R5 R0 R9 c [0x0] [0x14c]

/ * 0090 * / ST.E [R4] R2

可以看到总共六个与复制操作相关的指令。四个IMAD指令计算加载和存储地址和LD.E与ST.E负载位和32位来自这些地址存储。

可以使用向量化的加载和存储指令LD.E.{64,128}和来提高此操作的性能ST.E.{64,128}。这些操作也可以加载和存储数据但可以64位或128位宽度进行加载和存储。使用矢量化负载减少了指令总数减少了等待时间并提高了带宽利用率。

使用矢量载荷的最简单的方法是使用在CUDA C / C 标准头中定义的向量的数据类型如int2 int4 或 float2。可以通过C / C 中的类型转换轻松地使用这些类型。例如在C 可以重铸int指针d_in到一个int2使用指针reinterpret_cast(d_in)。在C99中可以使用强制转换运算符做相同的事情 (int2*(d_in))。

取消引用那些指针将导致编译器生成矢量化指令。但是有一个重要警告这些指令需要对齐的数据。设备分配的内存会自动对齐到数据类型大小的倍数但是如果偏移指针则偏移也必须对齐。例如reinterpret_cast(d_in 1) 无效是因为d_in 1未与对齐sizeof(int2)。

如果使用“对齐”偏移量则可以安全地偏移数组如 reinterpret_cast(d_in 2)中所示。也可以使用结构生成矢量化载荷只要该结构的大小为2个字节即可。

struct Foo {int a int b double c}; // 16个字节

Foo * x * y;

…

x [i] y [i];

既然已经看到了如何生成向量化指令那么让修改内存复制内核以使用向量加载。

__global__ void device_copy_vector2_kernel(int* d_in, int* d_out, int N) {

int idx blockIdx.x * blockDim.x threadIdx.x;

for (int i idx; i N/2; i blockDim.x * gridDim.x) {

reinterpret_cast(d_out)[i] reinterpret_cast(d_in)[i];

}

// in only one thread, process final element (if there is one)

if (idx N/2 N%2 1)

d_out[N-1] d_in[N-1];

}

void device_copy_vector2(int* d_in, int* d_out, int n) {

threads 128;

blocks min((N/2 threads-1) / threads, MAX_BLOCKS);

device_copy_vector2_kernel (d_in, d_out, N);

}

该内核只有几处更改。首先循环现在仅执行N/ 2次因为每次迭代处理两个元素。其次在副本中使用上述技术。第三处理所有可能N被2整除的剩余元素。最后启动的线程数量是标量内核中数量的一半。

检查SASS 看到以下内容。

/ * 0088 * / IMAD http://R10.CC R3 R5 c [0x0] [0x140]

/ * 0090 * / IMAD.HI.X R11 R3 R5 c [0x0] [0x144]

/ * 0098 * / IMAD http://R8.CC R3 R5 c [0x0] [0x148]

/ * 00a0 * / LD.E.64 R6 [R10]

/ * 00a8 * / IMAD.HI.X R9 R3 R5 c [0x0] [0x14c]

/ * 00c8 * / ST.E.64 [R8] R6

编译器生成LD.E.64和ST.E.64。其他所有指令均相同。由于循环仅执行N / 2次因此将执行一半的指令。在指令绑定或延迟绑定的内核中指令数量的2倍改进非常重要。

还可以编写复制内核的vector4版本。

___global__ void device_copy_vector4_kernel(int* d_in, int* d_out, int N) {

int idx blockIdx.x * blockDim.x threadIdx.x;

for(int i idx; i N/4; i blockDim.x * gridDim.x) {

reinterpret_cast(d_out)[i] reinterpret_cast(d_in)[i];

}

// in only one thread, process final elements (if there are any)

int remainder N%4;

if (idx N/4 remainder! 0) {

while(remainder) {

int idx N - remainder--;

d_out[idx] d_in[idx];

}

void device_copy_vector4(int* d_in, int* d_out, int N) {

int threads 128;

int blocks min((N/4 threads-1) / threads, MAX_BLOCKS);

device_copy_vector4_kernel (d_in, d_out, N);

}

相应的SASS是

/*0090*/ IMAD R10.CC, R3, R13, c[0x0][0x140]

/*0098*/ IMAD.HI.X R11, R3, R13, c[0x0][0x144]

/*00a0*/ IMAD R8.CC, R3, R13, c[0x0][0x148]

/*00a8*/ LD.E.128 R4, [R10]

/*00b0*/ IMAD.HI.X R9, R3, R13, c[0x0][0x14c]

/*00d0*/ ST.E.128 [R8], R4

在这里可以看到生成的LD.E.128和ST.E.128。此版本的代码将指令数减少了4倍。可以在图2中看到所有3个内核的整体性能。 $\"\"$

图2 矢量化内核的复制带宽与复制大小的关系。

在几乎所有情况下矢量化载荷都优于标量载荷。但是请注意使用矢量化负载会增加寄存器压力并降低总体并行度。因此如果的内核已经受到寄存器限制或并行度很低则可能需要坚持标量加载。同样如前所述如果指针未对齐或以字节为单位的数据类型大小不是2的幂则不能使用矢量化加载。

向量化加载是应该尽可能使用的基本CUDA优化因为它们会增加带宽减少指令数量并减少延迟。本文展示了如何通过较少的更改就可以轻松地将向量化负载合并到现有内核中。

相关资源：Python入门基础教程全套.ppt

本文链接： http://procudan.immuno-online.com/view-762487.html

发布于： 2021-03-25 阅读（0）

没有了

Professional CUDA C Programming.pdf-iteye 2021-03-25

蛋白质分离器的原理是什么？ 2017-07-29

Professional CUDA C Programming - winbugs及其他..._人大经济论坛 2021-03-25

cuda 本地内存使用_CUDA Pro:通过向量化内存访问提高性..._CSDN博客 2021-03-25

numba-pro无法加载CUDA设备-python黑洞网 2021-03-25

CUDA测试程序错误 - osc_kpp7htz3的个人空间 - OSCHINA - 中文... 2021-03-25

professional cuda c programming--CUDA库简介_Jackery..._CSDN博客 2021-03-25

Professional CUDA C Programming_部分2 - 道客巴巴 2021-03-25

在Windows上编译Qt Creator中的Cuda代码 - IT屋-程序员软件开发... 2021-03-25

numbapro无法加载CUDA devi - 问答 - Python中文网 2021-03-25

《Professional CUDA C Programming》(John Cheng)电子书下载... 2021-03-25

公司介绍

Procudan is the important link between your company and the producer both on ingredients for food manufacturing and packaging. Being a ”Supply Chain Management” company the basis is always our customers' market situation. On this basis we advise on price development for price sensitive products, development in legislation, market trends and not least product development, all in cooperation with our producers. We also provide documentation for quality (read more about our Quality Assurance Department here) in order to make sure that the products always live up to demands and standards set by legislation – no matter wh

品牌分类

制药的 Adhesive and Sealant Others

联络我们

服务热线：4000-520-616

（限工作日9:00-18:00）

QQ ：1570468124

手机：18915418616

官网：http://www.procudan.dk/