从FPGA到AI：单通道卷积起步，打通CNN算法→PyTorch训练→硬件推理全链路教程

原创已于 2026-07-01 06:47:10 修改 · 206 阅读

本内容遵循CC 4.0 BY-SA版权协议

于 2026-07-01 06:43:20 首次发布

AI可以不停的输出，但是人的精力是有限的，人要做的是有条件的限制AI的输出，指示AI输出自己想要的内容。本文是多次修改条件，AI生成。AI就是一个只管输出不负责的莽撞汉子。最终还是要看人的调教，至少现在是这个阶段。
我已经完成第一篇，正在学习第二篇。

前言

本教程面向已掌握FPGA基础开发、熟悉AXI总线与DMA架构、希望入门FPGA AI加速的开发者。我们以已跑通的单通道3×3卷积 + 2×2最大池化工程为起点，不追求极致性能优化，先建立「CNN算法原理 ↔ PyTorch软件训练 ↔ FPGA硬件实现」的完整架构认知，逐步补全CNN标准组件，最终打通端到端全链路。

教程全程遵循「最小增量迭代」原则：每一步只修改少量代码，完成后立刻与软件结果对齐验证，确保每一步都可复现、可验证，避免陷入“一改全错”的调试困境。

第一篇基础认知篇：先建立CNN完整架构

第1章 CNN全景链路与核心概念

1.1 特征提取流水线：CNN的整体工作逻辑

卷积神经网络（CNN）本质是一套分层特征提取流水线：输入原始图像，经过多层算子堆叠，逐步提取从简单到复杂的特征（边缘→纹理→形状→物体），最终输出分类/检测结果。

一条标准CNN的完整数据流向：

原始输入图像 → 卷积层(Conv) → 批归一化层(BN) → 激活层(ReLU) → 池化层(Pooling)
                          ↓
                    （重复堆叠N次）
                          ↓
                全连接层(FC) → 最终输出结果

我们当前FPGA工程已实现的，是这条链路里的最小核心单元：单通道卷积 + 最大池化。所有大型CNN网络，本质都是这个单元的多次堆叠 + 通道数扩展。

1.2 核心名词速览

名词	核心功能	关键参数
特征图（Feature Map）	每一层的输入/输出数据，格式为「通道数C × 高度H × 宽度W」	C、H、W
卷积核（Kernel/Filter）	也叫权重，在特征图上滑动计算，提取特定特征	核大小（如3×3）、权重数值
偏置（Bias）	每个输出通道对应一个偏移值，卷积计算完成后叠加	单通道单数值
填充（Padding）	特征图边缘补0，控制输出尺寸，避免边缘信息丢失	补0圈数
步长（Stride）	卷积核每次滑动的像素数，步长越大输出越小	滑动步长
激活层（Activation）	加入非线性变换，让网络可以拟合复杂函数	ReLU、Sigmoid等
池化层（Pooling）	降采样缩小特征图尺寸，减少计算量，保留核心特征	最大池化、平均池化
全连接层（FC）	二维特征展平为一维，映射到最终分类结果	输入维度、输出类别数

1.3 三者对应关系：算法↔软件↔硬件

核心逻辑：PyTorch负责训练出权重参数，FPGA负责加载权重、用硬件电路完成推理计算。

CNN算法概念	PyTorch对应接口	FPGA硬件实现
滑动卷积计算	`torch.nn.Conv2d()`	行缓存 + 3×3窗口生成 + 乘加树
卷积权重	`conv.weight`	权重寄存器组 + DSP乘法器
卷积偏置	`conv.bias`	偏置寄存器 + 加法器
ReLU激活	`torch.nn.ReLU()`	单路判断逻辑：负数置0，正数直通
最大池化	`torch.nn.MaxPool2d()`	窗口寄存器 + 数值比较器
特征图数据	Tensor张量	AXI-Stream高速数据流 + 片内缓存

补充说明：批归一化（BN）层在推理阶段一般会提前融合进卷积层的权重和偏置中，不需要单独做硬件电路，属于部署优化的常规操作。

第二篇基础实践篇：补齐CNN最核心标准单元

第2章新增ReLU激活层

算法原理

ReLU（Rectified Linear Unit）是CNN的标配激活函数，公式为：
$y = ma x (0, x)$

正数原样输出，负数直接置0
计算成本极低，硬件实现开销极小
作用：给线性的卷积计算加入非线性，让多层网络才有意义

硬件实现（单通道版本增量修改）

在卷积输出、池化输入之间，增加一级ReLU处理逻辑，修改量仅几行代码：

// 卷积计算结果先经过ReLU，再进入后续池化
wire signed [15:0] conv_out;
reg signed [15:0] relu_out;

always @(posedge clk or negedge rst_n) begin
    if(!rst_n) begin
        relu_out <= 16'd0;
    end else begin
        // ReLU核心逻辑：小于0则输出0，否则直通
        relu_out <= (conv_out < $signed(16'd0)) ? $signed(16'd0) : conv_out;
    end
end

PyTorch验证对照

import torch
import torch.nn as nn

# 搭建和硬件完全对应的极简网络
model = nn.Sequential(
    nn.Conv2d(in_channels=1, out_channels=1, kernel_size=3, stride=1, padding=0),
    nn.ReLU(),
    nn.MaxPool2d(kernel_size=2, stride=2)
)

# 写入和FPGA完全相同的恒等算子权重
with torch.no_grad():
    model[0].weight.fill_(0)
    model[0].weight[0, 0, 1, 1] = 1.0  # 中心位置权重为1
    model[0].bias.fill_(0)

# 输入测试数据，得到软件基准结果
input_img = torch.zeros(1, 1, 128, 128)  # 全零输入
output_pytorch = model(input_img)