1. SRAM存内计算架构的技术演进
存内计算(Computing-in-Memory, CIM)技术正在重塑AI加速器的设计范式。与传统冯·诺依曼架构相比,SRAM存内计算通过将计算单元直接嵌入存储阵列,实现了数据"就地处理",典型能效提升可达10-100倍。2022年ISSCC会议上提出的动态逻辑ADC-less设计,采用28nm工艺实现了1.041Mb/mm²的存储密度和27.38TOPS/W的能效比,支持int8精度下的可重构位操作。这项技术的突破性在于:
- 动态逻辑门设计 :利用SRAM位线预充电特性实现无ADC的模数转换,相比传统方案减少约62%的功耗
- 并行计算架构 :单个宏单元可同时执行128个8位乘加运算,通过位线电荷共享原理完成累加
- 可重构性 :支持AND/OR/XOR等布尔运算模式切换,适配不同神经网络层需求
2023年ISSCC最新发布的64KB双比特6T-SRAM设计则更进一步,在浮点运算场景下达到31.6TFLOPS/W的能效。其关键技术包括:
// 双比特6T-SRAM单元示例
module dual_bit_6T_SRAM (
input WL, // 字线
input BL, BLB, // 位线对
inout Q, QB // 存储节点
);
// 标准6T结构增强版
transistor M1-M6; // 6个晶体管构成双稳态锁存器
capacitor C1, C2; // 新增存储电容提升电荷保持能力
endmodule
注意:实际芯片设计中需考虑工艺角(Process Corner)变化对存储单元稳定性的影响,建议采用蒙特卡洛仿真验证读写容限
2. 关键技术创新解析
2.1 算法-架构协同优化
DDC-PIM架构通过创新的数据映射方案,将SRAM存储密度提升近一倍。其核心思想是:
- 位平面交错存储 :将权重矩阵的奇偶位列分别存入相邻存储单元
- 动态字线控制 :通过调整字线电压实现双倍数据吞吐
- 稀疏性利用 :采用CSR格式压缩零值权重,节省约40%存储空间
实测数据显示,在ResNet-18推理任务中,DDC-PIM相比传统方案:
- 能效提升:2.3倍(从12.1到27.8TOPS/W)
- 面积效率:1.87倍(从0.83到1.55Mb/mm²)
2.2 混合精度计算支持
Z-PIM架构的创新之处在于:
- 可变位宽支持 :1-8位权重可编程配置
- 零值跳过机制 :利用位掩码技术规避零值计算
- 动态精度调整 :根据层重要性自动分配计算精度
下表对比了三种主流SRAM-CIM架构的特性:
| 架构特性 | 动态逻辑ADC-less | 双比特6T-SRAM | Z-PIM |
|---|---|---|---|
| 工艺节点 | 28nm | 28nm | 16nm |
| 计算精度 | int8 | FP16 | 1-8bit可变 |
| 能效(TOPS/W) | 27.38 | 31.6(TFLOPS) | 45.2 |
| 稀疏性支持 | 有限 | 不支持 | 完全支持 |
| 典型应用场景 | 边缘推理 | 云端训练 | 移动设备 |
3. 设计挑战与解决方案
3.1 信号完整性管理
存内计算面临的核心挑战是模拟计算噪声:
- 位线串扰 :采用差分位线布局和屏蔽线技术,使SNR提升15dB
- 电荷注入误差 :开发了电荷补偿电路,将计算误差控制在0.3%以内
- 工艺波动 :通过自适应偏置技术补偿晶体管阈值电压变化
3.2 热管理策略
高密度计算带来的热问题解决方案:
- 动态电压频率调整 :根据温度传感器反馈实时调节供电
- 计算单元轮换 :通过地址映射分散热点区域
- 3D集成技术 :采用硅通孔(TSV)实现存储-逻辑堆叠,降低互连功耗
4. 工具链与设计方法学
4.1 仿真验证平台
主流仿真工具对比:
- DNN+NeuroSim :支持从器件到架构的全栈仿真
- MNSIM 2.0 :行为级建模工具,支持自定义PIM指令集
- CiMLoop :专注于时序和功耗的循环级精确模拟
# MNSIM 2.0示例代码
import mnsim2 as mn
# 定义SRAM-CIM阵列
sram_array = mn.Array(
tech_node=28, # 28nm工艺
array_size=(256,256), # 256x256阵列
cell_type="6T", # 6T-SRAM单元
adc_resolution=4 # 4位ADC
)
# 运行仿真
report = sram_array.simulate(
workload="resnet18_conv3",
voltage=0.9, # 0.9V工作电压
temperature=85 # 85°C结温
)
4.2 设计流程优化
现代SRAM-CIM设计采用:
- 高层次综合 :使用C++/Python描述计算行为
- 自动布局布线 :基于约束的宏单元放置算法
- 联合优化 :算法稀疏性与硬件稀疏性匹配
5. 应用场景与性能基准
5.1 计算机视觉加速
在YOLOv4目标检测中的表现:
- 帧率:63FPS@1080p (相比GPU方案能耗降低8倍)
- 精度损失:<0.5% (INT8量化)
- 典型功耗:287mW @0.8V
5.2 自然语言处理
BERT-base推理加速:
- 延迟:4.7ms/query (batch=1)
- 能效:38.2TOPS/W
- 内存占用:压缩率3.2:1 (利用权重共享)
实际部署中发现,适当降低注意力层的计算精度(从FP16到INT8)对准确率影响小于1%,但能效可提升2.1倍。建议在QKV投影层保持较高精度,而在FFN层采用激进量化。
552

被折叠的 条评论
为什么被折叠?



