大白话看懂空洞卷积

想象一下,你在读一本非常长的书(比如一张高清图片),书上的字很密(图片的像素点)。

1. 普通卷积(正常的阅读)
你手里拿着一个 3x3的小窗口(3x3卷积核),每次只看窗口盖住的9个字(9个像素),理解这一段的意思,然后窗口向右或向下滑动一格,再看下一段。这样虽然仔细,但速度慢,而且视野非常有限,很难快速把握整页(图像整体)的脉络和上下文关系。

2. 空洞卷积(“跳着读”的智慧)
现在你发明了一种新方法:你还是用那个 3x3的小窗口,但这次你把它改装了一下,在窗口的网格里“插空”。比如,你把“空洞率”设为2。

  • 怎么“插空”? 想象你的3x3窗口,现在不是每个格子都紧挨着,而是让格子与格子之间空开一个位置。你实际覆盖的范围变大了,但真正接触、阅读的字(进行计算的像素点)还是只有9个

  • 效果是什么? 你一次性能看到的那9个字,它们散布在一个更大的区域里(比如相当于5x5的范围)。你没有增加阅读量(计算量基本不变),但一眼看进去的信息范围(感受野) 却大大增加了!

  • 为什么好? 这样你就能更快地理解大段文字的整体结构和关系。比如,你能同时看到段首的主题句和段尾的总结句,一下子就把段落大意抓住了。在图像里,这意味着一个像素点能同时感应到离它很远的另一个像素点的信息,对理解大物体、大场景非常有用。

3. 一图看懂空洞卷积

下面是普通卷积:
在这里插入图片描述

kernel_size=3, stride=1, padding=0

下面是空洞卷积:
在这里插入图片描述

kernel_size = 3, dilated_ratio = 2, stride = 1, padding = 0

二者的卷积核大小都是一样的(滑窗的实际大小是一样的),但空洞卷积的滑窗(kernel)元素之间是存在一些间隙的,这些间隙在空洞卷积中成为膨胀因子(dilated ratio)。

如果 dilated ratio=1 时,空洞卷积就是普通卷积。

核心比喻总结:

空洞卷积 = 给卷积核“喝脉动”或“装上了望远镜”。

  • 不增负担:它没有增加卷积核的参数数量(还是原来3x3的那些“小触手”),所以计算开销增加很少

  • 扩大视野:通过“跳着采样”(插空),它让每一次计算都能从更广阔的区域收集信息,极大地扩大了感受野

  • 保持细节:因为不像池化那样粗暴地压缩尺寸,它能在保持分辨率(图像尺寸不缩小)的前提下,获取多尺度的上下文信息。

主要用在哪儿?
这个“跳着读”的技能,在需要精细定位同时又需要全局视野的任务中特别吃香。最典型的例子就是图像语义分割——你需要知道每一个像素属于“车”还是“路”(需要高分辨率保持细节),同时又需要知道整条路和所有车的全局布局(需要大感受野理解上下文)。空洞卷积就是完成这个任务的利器。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值