第39节:CUDA Memory Coalescing(合并访问)

一、什么是 Memory Coalescing?

Memory Coalescing(内存合并访问) 是指:GPU 中的多个线程(通常是一个 warp 中的 32 个线程)在访问 global memory 时,如果它们访问的地址是连续的(或满足特定模式),则这些访问可以被“合并”为一次内存事务,从而提高内存带宽利用率和程序性能。


二、为什么需要 Coalescing?

由于 GPU 全局内存访问代价较高,而且一次 memory transaction 会消耗较多时钟周期,若不能合并访问,就会造成:

  • 每个线程单独访问 → 每个线程一条内存指令

  • 内存带宽浪费(访问效率低)

  • Warp 内存访问严重瓶颈

合并访问的目标是:尽量让一次访问传输尽可能多线程需要的数据


三、合并访问规则(不同架构)

1. 老架构(Compute Capability ≤ 1.3)

  • 要求所有线程访问 严格连续地址

  • 例如线程 i 访问地址 A + i * sizeof(type)

2. Fermi 及以后(CC ≥ 2.0)

  • 支持更灵活的访问方式,但仍有最佳

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

《雨声》

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值