目录
十二、3D卷积 vs 2D卷积 vs Transformer
一、前言
在经典卷积神经网络中,我们最熟悉的是二维卷积(2D Convolution),它主要用于图像处理任务,例如:
-
图像分类
-
目标检测
-
语义分割
但当数据不再只是“平面图像”,而是变成:
-
视频(时间 + 空间)
-
医学CT / MRI(三维体数据)
-
点云 / 体素数据
此时,2D卷积就不够用了。
于是引入一个更强大的算子:
3D卷积(3D Convolution)
它可以同时建模:
空间维度 + 时间维度(或深度维度)
二、什么是3D卷积
(一)基本定义
3D卷积是在二维卷积基础上扩展的一种操作:
卷积核在三个维度上滑动:宽、高、深(时间)
(二)一句话理解
在“立体数据块”上做卷积操作
(三)适用数据
3D卷积主要用于:
-
视频数据(Time + H + W)
-
医学影像(Depth + H + W)
-
体素数据(Voxel)
三、2D卷积 vs 3D卷积
(一)2D卷积
y(i,j)=\sum x(i+m,j+n)w(m,n)
(二)3D卷积
y(i,j,k)=\sum x(i+m,j+n,k+p)w(m,n,p)
(三)核心区别
| 类型 | 输入维度 | 卷积方式 |
|---|---|---|
| 2D卷积 | H×W | 空间 |
| 3D卷积 | D×H×W | 空间+深度 |
四、3D卷积的结构
(一)卷积核形状
3D卷积核通常表示为:
kD × kH × kW
例如:
3 × 3 × 3
(二)输入数据结构
(B, C, D, H, W)
含义:
-
B:batch
-
C:通道
-
D:深度/时间
-
H:高度
-
W:宽度
五、3D卷积如何工作
(一)滑动方式
3D卷积核在三个方向滑动:
Depth方向 + Height方向 + Width方向
(二)计算过程
-
在一个小立方体内做加权求和
-
输出新的体素值
(三)直观理解
把“视频片段”或“医学体数据”切成小立方体进行特征提取
六、3D卷积的感受野
(一)定义
RF = k_D \times k_H \times k_W
(二)特点
-
比2D卷积更大
-
能捕捉时序关系
七、3D卷积在视频中的应用
(一)视频数据结构
时间 + 图像帧
(二)作用
-
动作识别
-
行为分析
-
视频分类
(三)例子
-
打球动作识别
-
行人行为检测
(四)代表模型
-
C3D
-
I3D
-
SlowFast
八、3D卷积在医学影像中的应用
(一)数据类型
-
CT扫描(3D体数据)
-
MRI影像
(二)任务
-
肿瘤分割
-
器官重建
-
病灶检测
(三)优势
直接建模空间结构
(四)示例
一层层切片 → 3D结构分析
九、3D卷积的优势
(一)建模能力强
-
空间 + 时间联合建模
(二)信息更完整
-
避免逐帧丢失
(三)适合结构数据
-
医学
-
视频
-
点云
十、3D卷积的缺点
(一)计算成本高
参数量 ×3维度增长
(二)显存占用大
(三)训练困难
-
数据需求大
-
收敛慢
十十一、3D卷积的改进方法
(一)分解卷积
将3D拆成:
-
2D卷积 + 1D卷积
(二)伪3D卷积(P3D)
降低计算量
(三)混合模型
-
CNN + RNN
-
CNN + Transformer
十二、3D卷积 vs 2D卷积 vs Transformer
| 方法 | 优点 | 缺点 |
|---|---|---|
| 2D卷积 | 高效 | 无时间建模 |
| 3D卷积 | 空间+时间 | 计算重 |
| Transformer | 全局建模 | 数据需求大 |
十三、3D卷积结构总结
Input (D×H×W)
↓
3D Conv Kernel
↓
Feature Volume
↓
Pooling / Downsample
↓
Task Head
十四、3D卷积核心公式总结
-
2D卷积:
y(i,j)=\sum x(i+m,j+n)w(m,n)
-
3D卷积:
y(i,j,k)=\sum x(i+m,j+n,k+p)w(m,n,p)
十五、3D卷积应用场景总结
(一)医疗领域
-
CT分割
-
MRI分析
(二)视频领域
-
动作识别
-
行为检测
(三)工业领域
-
三维检测
-
机器人视觉
十六、3D卷积发展趋势
(一)轻量化
-
分解卷积
-
Mobile 3D CNN
(二)与Transformer结合
-
Video Transformer
-
Medical Transformer
(三)多模态融合
-
图像 + 深度 + 时间
十七、总结
3D卷积是2D卷积在三维数据上的自然扩展,它通过在空间与时间维度同时进行卷积操作,实现对视频和医学体数据的深度建模能力。
本文系统讲解了:
1、3D卷积定义;
2、2D vs 3D区别;
3、输入结构;
4、数学公式;
5、视频应用;
6、医学应用;
7、优缺点分析;
8、改进方法;
9、工业应用;
10、发展趋势。
可以将3D卷积理解为:
“一种将空间与时间统一建模的深度特征提取算子,是视频理解与医学三维分析的核心基础技术。”
掌握3D卷积,就掌握了从“图像理解”走向“时空理解”的关键一步。
738

被折叠的 条评论
为什么被折叠?



