【CVPR 2025】低光增强SG-LLIE：基于结构引导Transformer的多尺度细节保留方法

最新推荐文章于 2026-06-23 19:08:47 发布

原创

最新推荐文章于 2026-06-23 19:08:47 发布 · 697 阅读

标签

#低光增强 #Transformer #图像处理 #计算机视觉

1. 从“夜视仪”到“细节大师”：为什么低光增强这么难？

晚上用手机拍张照，结果一片漆黑，或者噪点满天飞，这场景大家都不陌生。传统的“提亮”方法，比如简单拉高亮度、对比度，往往会把暗部的噪点一起放大，让照片看起来又脏又糊，丢失了大量细节。这就像在一个黑屋子里，你强行把灯开到最亮，结果不仅刺眼，还把墙上所有的污渍都照得一清二楚，反而破坏了美感。低光图像增强（LLIE）要做的，恰恰是“优雅地补光”——既要照亮暗部，又要抑制噪声，最关键的是，要完好无损地保留图像原有的结构和纹理细节，比如人脸的轮廓、树叶的脉络、建筑的边缘。

这几年，基于深度学习的低光增强方法层出不穷，从早期的CNN网络到后来引入的Transformer，大家都在追求更好的效果。但这里有个核心矛盾：CNN擅长捕捉局部细节，但对图像全局的依赖关系建模能力有限；Transformer能建立长距离依赖，理解全局上下文，但计算开销大，而且对局部精细结构的感知有时不如CNN敏锐。更棘手的是，低光图像本身信息匮乏，噪声严重，模型很容易在“增强”的过程中“用力过猛”，把该保留的结构给抹平了，或者引入不自然的伪影。

所以，CVPR 2025上这篇提出SG-LLIE的论文，一下子就抓住了我的眼球。它拿到了NTIRE 2025低光增强挑战赛的第二名，这个成绩本身就很有说服力。它的核心思路非常巧妙：既然我们怕丢细节，那为什么不直接告诉模型，哪里是重要的边缘和结构呢？ 这就是“结构引导”的精髓。它不是让模型在黑暗中盲目摸索，而是先给它一张“结构地图”，让它沿着地图去修复和增强。这个方法把CNN和Transformer的优势揉在了一起，再用一个多尺度融合模块来应对不同分辨率的图像，最后还加了个“自适应调光”层来微调亮度，整套设计下来，既考虑了原理的优雅，又兼顾了实战的鲁棒性。我仔细读了论文和代码，发现里面有很多设计细节非常值得琢磨，尤其是对于想在实际项目中应用低光增强的开发者来说，理解这些设计背后的“为什么”，比单纯调包更重要。

2. 核心武器一：如何提取一张可靠的“结构地图”？

2.1 颜色不变性：在变化的光影中抓住不变的边缘

SG-LLIE的第一步，也是它所有魔法的基础，就是从低光输入图像中提取一个鲁棒的结构先验图。你可以把它想象成一张标记了图像所有重要轮廓和边缘的“素描图”。这张图的质量直接决定了后续增强的导向是否准确。

那么问题来了：在光照极度不均、颜色严重失真的低光图像里，怎么才能稳定地找到真正的物体边缘，而不是噪声或光照变化产生的假边缘呢？论文的答案是：颜色不变卷积（CIConv）。这名字听起来有点唬人，其实原理很直观。我们人眼之所以能在不同光线下认出物体的形状，是因为我们的大脑会自动“剥离”光照的影响，专注于物体本身的反射属性。CIConv就是想让计算机学会类似的能力。

它基于一个叫做Kubelka-Munk的物理反射模型，推导出了一种对光照变化不敏感的“颜色不变表示”。论文里特别提到了他们选用的是“W”表示法。为啥选它？因为实测下来，在各种奇葩的光照、阴影条件下，用“W”表示法算出来的边缘图最稳、最干净，不容易被忽明忽暗的光线带跑偏。具体计算时，它并不是直接用原始RGB图，而是先转换到这种颜色不变空间，再施加一个可学习的尺度感知变换，最终生成一个归一化的边缘响应图。公式看起来复杂，但核心思想就是通过数学变换，把光照分量尽可能压下去，把物体固有的反射属性（也就是结构）给凸显出来。

我试着用代码跑了一下这个提取过程，对比了直接用Sobel、Canny等传统边缘检测算子的结果。在光线均匀的图片上，大家差别不大。但一旦放到那种只有局部光源（比如一盏台灯）的场景里，传统方法检测到的边缘会断断续续，而且会把明亮的灯光区域误判为一大堆边缘。而CIConv提取的先验图，物体的轮廓依然连贯清晰，对高光区域也不敏感。这就好比一个经验丰富的侦探，能忽略现场混乱的灯光，直接找到关键的脚印轮廓。