1.6 计算节点的Cache能力描述:HsaCacheProperties

HsaCacheProperties 描述计算节点的缓存层次结构。CPU 和 GPU 的缓存架构差异显著——CPU 遵循经典 L1/L2/L3 层次,GPU 则有 Vector L1、Scalar L1、L2、Infinity Cache 等多种专用缓存。本文解析结构体字段、GPU 与 CPU 的缓存差异、以及 libhsakmt 如何拼接不同信息源构建完整缓存视图。


缓存层次是影响计算性能的核心因素。在异构系统中,CPU 和 GPU 各自拥有独立且架构迥异的缓存体系:CPU 追求低延迟和强一致性,GPU 追求高聚合带宽和大规模并行下的吞吐。KFD 通过 HsaCacheProperties 将这两种截然不同的缓存体系统一建模——每个节点的 caches/ 子目录列出其所有缓存级别,运行时据此决定数据分块大小、预取策略和 occupancy 权衡。

我在开发中还没有具体涉及这个属性的深入应用,所以下面的记录的内容可能像流水账,先欠着,大家有问题可以提。

1. 结构体定义

typedef struct _HsaCacheProperties {
    HSAuint32       ProcessorIdLow;     // 关联的处理器 ID
    HSAuint32       CacheLevel;         // 缓存级别 (1=L1, 2=L2, 3=L3)
    HSAuint32       CacheSize;          // 缓存大小 (KB)
    HSAuint32       CacheLineSize;      // 缓存行大小 (bytes)
    HSAuint32       CacheLinesPerTag;   // 每 tag 对应的行数
    HSAuint32       CacheAssociativity; // 组相联度
    HSAuint32       CacheLatency;       // 访问延迟 (ns, 近似值)
    HsaCacheType    CacheType;          // 缓存类型位域
} HsaCacheProperties;

字段含义速览:

字段说明
ProcessorIdLow共享该缓存的第一个处理器 ID;CPU 节点为核心编号,GPU 节点为 CU 编号起始
CacheLevel缓存层级:1=L1, 2=L2, 3=L3/Infinity Cache
CacheSize容量(KB);对共享缓存是总容量而非每核分摊
CacheLineSize缓存行大小(bytes),决定最小访问粒度和预取对齐
CacheLinesPerTag每个 tag 管理的行数,影响 sectored cache 的行为
CacheAssociativity组相联度(N-way),0 表示全相联
CacheLatency访问延迟的近似值(ns);GPU 缓存几乎总是 0(未填充)
CacheType位域,标识该缓存是 Data/Instruction 以及归属 CPU 还是 GPU CU

2. CacheType 位域

typedef union {
    struct {
        unsigned int Data        : 1;   // 数据缓存
        unsigned int Instruction : 1;   // 指令缓存
        unsigned int CPU         : 1;   // 属于 CPU
        unsigned int HSACU       : 1;   // 属于 GPU CU
        unsigned int Reserved    : 28;
    } ui32;
    HSAuint32 Value;
} HsaCacheType;
Bit含义说明
0Data可缓存数据
1Instruction可缓存指令
2CPU该缓存属于 CPU 核心
3HSACU该缓存属于 GPU Compute Unit

组合示例

CacheType.Value含义
0x05 (Data + CPU)CPU 数据缓存 (L1d)
0x06 (Instruction + CPU)CPU 指令缓存 (L1i)
0x07 (Data + Instruction + CPU)CPU 统一缓存 (L2/L3)
0x09 (Data + HSACU)GPU 向量数据缓存
0x0A (Instruction + HSACU)GPU 指令缓存
0x0B (Data + Instruction + HSACU)GPU L2 统一缓存

3. CPU 节点的缓存层次

3.1 典型 AMD EPYC 缓存

CPU Node Cache Hierarchy:
├── L1i (per core): 32 KB, 8-way, 64B line     CacheType = Instruction|CPU
├── L1d (per core): 32 KB, 8-way, 64B line     CacheType = Data|CPU
├── L2 (per core):  512 KB, 8-way, 64B line    CacheType = Data|Instruction|CPU
└── L3 (per CCX):   32 MB, 16-way, 64B line    CacheType = Data|Instruction|CPU

3.2 sysfs 中的表示

CPU 缓存信息不完全来自 KFD sysfs,而是 libhsakmt 额外解析:

/sys/devices/system/cpu/cpu0/cache/
├── index0/   → L1d
│   ├── level             → 1
│   ├── type              → Data
│   ├── size              → 32K
│   ├── coherency_line_size → 64
│   ├── ways_of_associativity → 8
│   └── number_of_sets    → 64
├── index1/   → L1i
├── index2/   → L2
└── index3/   → L3

3.3 ProcessorIdLow 的含义(CPU)

对 CPU 节点,ProcessorIdLow 是 CPU 核心的起始编号:

  • L1 缓存:ProcessorIdLow = 该核心的 ID
  • L2 缓存:ProcessorIdLow = 该核心的 ID(每核独享 L2)
  • L3 缓存:ProcessorIdLow = CCX 中第一个核心的 ID(共享 L3 的核心组)

4. GPU 节点的缓存层次

4.1 AMD CDNA/RDNA 缓存架构

GPU Node Cache Hierarchy (CDNA2, MI200):
├── L1 Vector (per CU): 16 KB, 4-way         CacheType = Data|HSACU
├── L1 Scalar (per CU): 16 KB, 4-way         CacheType = Data|Instruction|HSACU
├── L1 Instruction (per SQC): 32 KB          CacheType = Instruction|HSACU
└── L2 (shared, per GPU): 8 MB, 16-way       CacheType = Data|Instruction|HSACU
GPU Node Cache Hierarchy (CDNA3, MI300):
├── L1 Vector (per CU): 32 KB
├── L1 Scalar (per CU): 16 KB
├── L2 (per XCD): 4 MB
└── Infinity Cache (shared): 256 MB           # 类 L3

4.2 sysfs 中的表示

GPU 缓存直接在 KFD topology sysfs 中提供:

nodes/1/caches/
├── 0/properties:
│     processor_id_low 0
│     cache_level 1
│     cache_size 16          # KB
│     cache_line_size 64
│     cache_lines_per_tag 4
│     cache_associativity 4
│     cache_latency 0
│     cache_type 9           # Data + HSACU
│
├── 1/properties:
│     cache_level 1
│     cache_size 32
│     cache_type 10          # Instruction + HSACU
│
└── 2/properties:
      cache_level 2
      cache_size 8192        # 8 MB
      cache_type 11          # Data + Instruction + HSACU

4.3 ProcessorIdLow 的含义(GPU)

对 GPU 节点,ProcessorIdLow 对应 SIMD/CU 的编号起始:

  • L1 缓存:关联到特定 CU 范围
  • L2 缓存:ProcessorIdLow = 0(整个 GPU 共享)

5. GPU 缓存的特殊性

5.1 与 CPU 缓存的关键差异

维度CPU 缓存GPU 缓存
一致性硬件维护 (MOESI/MESI)部分软件管理
粒度Per-core 独立Per-CU 或 全 GPU 共享
用途分离Unified (L2/L3)Vector/Scalar/Instruction 分离
容量大 (32 MB L3)小 L1 + 中等 L2
带宽高 per-core极高聚合带宽
可编程性透明部分可通过指令控制(如 buffer_gl0_inv)

5.2 缓存一致性对拓扑的影响

GPU L1 缓存通常非一致性

  • 不同 CU 的 L1 之间不保证一致
  • Workgroup 内通过 LDS 共享数据(绕过 L1)
  • 跨 workgroup 需显式 L1 invalidate

GPU L2 缓存在 GPU 内部一致:

  • 同一 GPU 内所有 CU 共享 L2
  • 跨 GPU(P2P)需要 L2 flush/invalidate

这与 HsaIoLinkProperties.Flags 中的 Non-Coherent 标志呼应。

5.3 Infinity Cache

MI300 系列引入的大容量片上缓存:

  • 在 KFD topology 中表示为 Level=3 的缓存
  • 充当 VRAM 的 last-level cache
  • 大幅降低 HBM 访问次数
  • CacheSize 可达 256 MB

6. CacheLatency 字段

缓存级别典型延迟 (cycles)sysfs 报告 (ns)
L1 Vector~12 cycles0 (常未填充)
L1 Scalar~10 cycles0
L2~100 cycles0
L3/Infinity Cache~200 cycles0
CPU L1~4 cycles~1 ns
CPU L2~12 cycles~4 ns
CPU L3~40 cycles~12 ns

注意:GPU 缓存的 CacheLatency 在实际实现中几乎总是 0(未填充)。这是因为:

  • GPU 缓存延迟以 cycle 为单位更有意义
  • 延迟取决于时钟频率,而时钟是动态调整的
  • 静态值意义有限

7. 信息源拼接逻辑

7.1 GPU 节点

KFD sysfs: nodes/{id}/caches/*/properties
  → 直接解析为 HsaCacheProperties[]
  → 无需额外信息源

7.2 CPU 节点

KFD sysfs: nodes/{id}/properties
  → 获取 caches_count(可能为 0 或不完整)

/sys/devices/system/cpu/cpu*/cache/index*/
  → 获取完整的 CPU 缓存层次
  → 拼接为 HsaCacheProperties[]

libhsakmt 逻辑:
  if (KFD sysfs 有完整缓存信息):
      直接使用
  else:
      解析 /sys/devices/system/cpu/ 补充
      设置 CacheType.CPU = 1

7.3 共享缓存的处理

多个核心共享同一缓存(如 L3 共享于一个 CCX)时:

  • sysfs 中只记录一次(per-CCX 而非 per-core)
  • ProcessorIdLow 标识共享该缓存的第一个核心
  • 上层可通过 shared_cpu_map 确定完整的共享关系

8. sysfs 字段映射

sysfs keyHsaCacheProperties 字段
processor_id_lowProcessorIdLow
cache_levelCacheLevel
cache_sizeCacheSize (KB)
cache_line_sizeCacheLineSize
cache_lines_per_tagCacheLinesPerTag
cache_associativityCacheAssociativity
cache_latencyCacheLatency
cache_typeCacheType.Value

9. 上层使用场景

场景使用的字段决策
Kernel occupancy 计算L1 CacheSizeLDS vs L1 trade-off
数据分块策略L2 CacheSize, CacheLineSizeTile 大小对齐缓存行
预取策略CacheLineSizePrefetch 粒度
NUMA 亲和性L3 ProcessorIdLow将线程绑定到共享 L3 的核心
性能建模全部字段估算 memory-bound kernel 的实际带宽

10. 小结

  1. CacheType 位域区分用途和归属:Data/Instruction × CPU/GPU 的组合
  2. GPU 缓存架构独特:Vector/Scalar/Instruction L1 分离,非一致性设计
  3. CPU 缓存需额外信息源:KFD sysfs 可能不完整,需解析 /sys/devices/system/cpu/
  4. CacheLatency 常为 0:不可靠,需结合硬件规格推断
  5. Infinity Cache 是 MI300 的关键特征:表现为 Level=3 的大容量共享缓存
  6. 缓存信息服务于性能优化:tile 大小、occupancy、预取策略等
内容概要:本文深入研究了基于最优滑模控制的永磁同步电机(PMSM)调速系统模型,重点利用Simulink工具搭建并仿真了该控制系统的动态响应特性。文章系统阐述了最优滑模控制策略的设计原理,突出其在削弱传统滑模控制固有抖振现象、增强系统鲁棒性方面的显著优势。通过与传统滑模控制方法的对比实验,充分验证了所提出方法在调速精度、抗外部干扰能力以及动态响应速度等方面的优越性能。研究内容涵盖PMSM数学建模、滑模面构造、最优控制律推导、Lyapunov稳定性分析、参数整定及Simulink仿真验证等完整环节,形成了一套严谨的控制算法设计与实现流程。; 适合人群:具备自动控制原理、现代控制理论基础和MATLAB/Simulink仿真操作能力,从事电机驱动控制、电力电子与电力传动、运动控制或自动化等相关领域研究的工程技术人员及高校研究生。; 使用场景及目标:① 深入掌握滑模控制理论及其在高性能电机调速系统中的具体应用方法;② 学习如何设计并实现能够有效抑制抖振的最优滑模控制器,以提升系统整体鲁棒性和控制品质;③ 利用Simulink平台独立完成从理论建模到仿真验证的全过程,服务于科研课题、课程设计或实际工程项目。; 阅读建议:建议读者务必结合MATLAB/Simulink环境动手复现文中模型,重点关注滑模切换面的设计准则、控制律的数学推导过程以及控制器参数的调节规律,并通过施加不同的负载扰动、设定多种转速指令等方式全面测试系统的动态与稳态性能,从而深刻理解最优滑模控制的核心机理与工程应用价值。
内容概要:本文提出了一种基于数据驱动的Koopman算子与递归神经网络(RNN)相结合的模型线性化方法,旨在解决纳米定位系统中因强非线性、迟滞和蠕变效应导致的建模困难问题。该方法通过Koopman算子将非线性动态系统映射至高维线性空间,利用RNN学习系统的时间序列演化特征,从而实现对复杂动态行为的精确建模与预测,并进一步集成于模型预测控制(MPC)框架中,显著提升了纳米定位系统的控制精度、动态响应能力与运行稳定性。整个算法体系在Matlab平台上完成代码实现与仿真实验验证,展示了良好的控制性能与工程应用潜力。; 适合人群:具备控制理论、非线性系统建模、机器学习及智能控制基础,从事精密仪器控制、高端制造装备研发、自动化系统设计等领域的研究生、科研人员及工程技术开发者。; 使用场景及目标:①应对扫描探针显微镜、光刻机、超精密加工平台等纳米级定位设备中的非线性建模挑战;②提升高精度运动系统的实时预测控制性能,抑制迟滞与蠕变带来的定位误差;③为数据驱动的非线性系统线性化与先进控制策略(如MPC)的融合提供可复现、可扩展的技术范例。; 阅读建议:建议读者结合提供的Matlab代码,深入理解Koopman观测矩阵构造、RNN网络训练流程及MPC控制器设计之间的协同机制,重点关注数据预处理、特征提取、模型训练与闭环控制仿真的完整链路,以便在相似高精度控制系统中进行迁移与优化应用。
内容概要:本文围绕“主辅助服务市场出清模型研究【旋转备用】”展开,基于Matlab代码实现了电力系统中旋转备用辅助服务的市场出清机制建模与求解,属于SCI论文复现类科研仿真资源。研究聚焦于旋转备用资源的优化调度与定价逻辑,通过Matlab编程构建数学模型并进行数值求解,深入揭示电力市场中辅助服务的运行机理。该资源作为一系列电力系统、微电网优化、储能调度、路径规划等Matlab/Simulink仿真资料的重要组成部分,提供了可复用的代码框架与模型参考,有助于推动相关领域的科研进展和技术验证。; 适合人群:面向具备电力系统、自动化、能源优化等相关学科背景,熟悉Matlab编程环境,从事电力市场、可再生能源集成、智能电网等方向科研或工程仿真的研究生、高校教师、科研人员及电力行业工程师。; 使用场景及目标:① 学习并复现电力系统辅助服务市场中旋转备用的出清模型,掌握其优化建模方法;② 应用Matlab工具开展微电网、储能系统、电力市场出清等问题的建模与仿真研究;③ 借助提供的完整代码资源加速科研项目推进,提升论文复现效率与学术成果产出能力。; 阅读建议:建议结合电力市场基本理论与优化算法知识进行学习,重点关注模型构建的数学逻辑、约束条件设定及Matlab代码实现细节,同时可参考文中列出的其他相关仿真资源进行横向拓展研究,充分利用所附网盘资料开展实践验证与对比分析。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值