【论文精读（二十四）】SPM：SNN 联手 Mamba，省电 12 倍的“能耗杀手”（ICCV 2025）

原创已于 2026-01-25 00:44:40 修改 · 830 阅读

18 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

收录于

点云特征分析_论文精读

于 2026-01-25 00:44:15 首次发布

Wu, P., Chai, B., Zheng, M., Zhang, Z., Li, W., Hu, Z., Chen, J., Li, H., & Sun, X. (2025). Efficient Spiking Point Mamba for Point Cloud Analysis. ICCV.

1. 背景与痛点：为什么要做这个？

在 3D 视觉领域，Point Transformer 等基于注意力机制的方法虽然效果好，但计算量是 $O(N^2)$ ，且能耗巨大。

SNN (脉冲神经网络)：虽然有生物可解释性和低功耗（0/1 稀疏计算）的优势，但往往难以捕捉复杂的 3D 几何结构，且性能通常不如 ANN。
Mamba (SSM)：最近大火的状态空间模型，拥有 $O (N)$ 的线性复杂度，擅长处理长序列。

SPM 的核心思路：用 Mamba 来处理点云的空间几何（解决 SNN 变傻的问题），用 SNN 来处理时间动态并实现稀疏加法（解决 Mamba 计算量大的问题）。

2. 前置知识：硬核科普 SNN (数学视角)

2.1 LIF 神经元动力学方程

论文中使用的 $\mathcal{SN}(\cdot)$ 指代 Leaky Integrate-and-Fire (LIF) 神经元。它并非简单的 ReLU，而是具有时间动力学的微分方程。根据论文公式 (1)-(3)，其离散化形式如下：

充电 (Integrate & Leaky)：
$H_t = f(V_{t-1}, X_t) = \tau V_{t-1} + X_t$
- $H_t$ ： $t$ 时刻的膜电位（Membrane Potential），但在发放脉冲前。
- $V_{t-1}$ ：上一时刻残留的电压。
- $X_t$ ：当前时刻的输入电流。
- $\tau$ ：衰减因子 (Decay factor)，体现了“遗忘”特性。
发放 (Fire)：
$S_t = \Theta(H_t - V_{th})$
- $S_t$ ：输出脉冲， $S_t \in \{0, 1\}$ 。
- $V_{th}$ ：发放阈值 (Threshold)。 $\Theta(\cdot)$ 为阶跃函数 (Heaviside function)，超过阈值输出 1，否则输出 0。
重置 (Reset)：
$V_t = H_t \cdot (1 - S_t) + V_r \cdot S_t$
- $V_t$ ： $t$ 时刻最终的膜电位。如果发了脉冲 ( $S_t=1$ )，电压重置为 $V_r$ (通常为0)；否则保持为 $H_t$ 。

2.2 理论能耗优势公式

SPM 省电的核心依据在于将 乘累加 (MAC) 转换为 稀疏加法 (AC)。根据论文第 4.3 节：

FP32 MAC 能耗： $E_{MAC} = 4.6 \text{pJ}$
FP32 AC 能耗： $E_{AC} = 0.9 \text{pJ}$

SNN 的能耗公式为：
$E_{SNN} = E_{AC} \cdot FLOPs \cdot T \cdot \text{fr}$
其中 $\text{fr}$ 是脉冲发放率 (Firing Rate)。由于 $\text{fr}$ 通常很低（稀疏），且 $E_{AC} \approx \frac{1}{5} E_{MAC}$ ，最终实现了 12.6 倍 的能效提升。

3. 网络框架与数据流 (Pipeline & Dimensions)

SPM 的网络结构清晰，核心在于处理 空间 (M) 与 时间 (T) 的维度变换。以下是 Input 到 Task Head 的完整数据流：

在这里插入图片描述

Step 1: Input $\rightarrow$ HDE

Input: 原始点云 $P$ 。
- Shape: $(B, N, 3)$ ，例如 $(32, 2048, 3)$ 。
Module: HDE (Hierarchical Dynamic Encoding)。通过滑动窗口进行时序切片。
Output: 编码后的点云序列 $E$ 。
- Shape: $(B, T, M, 3)$ ，例如 $(32, 4, 256, 3)$ 。
- 注： $T$ 为时间步， $M$ 为每帧采样点数。

Step 2: HDE $\rightarrow$ SEL

Module: SEL (Spiking Embedding Layer)。包含 KNN 聚类、MLP 和 LIF 激活。
Transformation: 将 3D 坐标映射为 $C$ 维特征，并二值化。
Output: 脉冲特征图 $U_0$ 。
- Shape: $(B, T, M, C)$ ，例如 $(32, 4, 256, 128)$ 。
- 注：从此阶段开始，Tensor 变为稀疏的 0/1 张量。

Step 3: SEL $\rightarrow$ SMB Backbone

Module: SMB (Spiking Mamba Block) $\times L$ 层堆叠。
Process: 在 $T$ 维度进行双向交互 (Time Flip)，在 $M$ 维度进行 SSM 扫描。
Output: 深层特征 $U_n$ 。
- Shape: $(B, T, M, C)$ 保持不变。

Step 4: Task Head

Classification Head:
- Pool: Mean( $T$ ) $\rightarrow$ Max( $M$ )。
- Linear: $\rightarrow (B, \text{NumClasses})$ 。
Segmentation Head:
- Upsample: 将 $(B, T, M, C)$ 映射回 $\text{NumClasses})$ 。

4. 核心模块详解：公式与原理

4.1 模块一：HDE (Hierarchical Dynamic Encoding)

功能：解决 SNN 静态输入问题，构建动态时序。
数学描述：
给定 FPS 排序后的点集 $S$ ，对于时间步 $\in \{1, \dots, T\}$ ：

有限前向滑动 (Finite Forward Sliding)：
$F_i \leftarrow \{s_j \mid i \cdot l \le j < F + i \cdot l\}$
- $\lfloor L/T \rfloor$ 是滑动步长。这部分负责捕捉“骨架”的动态平移。
无限后向扩展 (Infinite Backward Extension)：
$B_i \leftarrow \{s_j \mid M + i \cdot r \le j < M + (i+1) \cdot r\}$
- $\lfloor R/T \rfloor$ 是扩展步长。这部分负责不断引入新的“细节”。
合并：
$E_i \leftarrow F_i \cup B_i$
最终每帧输入 $E_i$ 既包含了稳定的主体，又包含了变化的细节。

4.2 模块二：SEL (Spiking Embedding Layer)

功能：特征升维与脉冲化。
公式：
SPM 不仅利用 MLP，还引入了 EMP (Element-wise Max Pooling) 来聚合局部邻域特征：
$\text{EMP}(U)$
$\text{MLP}(\mathcal{SN}(\text{Concat}(U, G)))$
$U_0 = U' + \text{RPE}$
其中 RPE 为相对位置编码。这一步确保了进入 Mamba Block 之前，数据已经是包含局部几何信息的 0/1 脉冲。

4.3 模块三：SMB (Spiking Mamba Block)

这是全文最核心的公式推导部分。输入为 $U_n$ ，输出为 $U_{n+1}$ 。

脉冲生成：
$S_n = \mathcal{SN}(U_n)$
首先将膜电位转化为脉冲 $S_n \in \{0, 1\}$ ，确保后续计算稀疏。
SSM 分支 (双向 Time Flip)：
$S'_n = \mathcal{SN}(\text{MLP}(S_n))$
$U'_n, U'_t = \text{SSM}(\mathcal{SN}(\text{DWConv}(S'_n, S'_t)))$
- $S'_t$ 是 $S'_n$ 在时间维度上的翻转 (Time Flip)。
- $\text{SSM}(\cdot)$ 内部执行的是稀疏加法 $h_k = \bar{A}h_{k-1} + \bar{B}x_k$ (当 $x_k=1$ )。
- 输出 $U'_n$ (正向) 和 $U'_t$ (反向) 包含了双向时序特征。

解释：输入到SSM中的数据是按照最远点采样的序列，也就是说对每一个时间点t进行SSM

Gate 分支 (EAP 全局门控)：
$Z_n = \mathcal{SN}(\text{MLP}(S_n))$
$S''_n = \mathcal{SN}(U'_n + U'_t) \circ \mathcal{SN}(\text{EAP}(Z_n))$
- 关键公式： $\text{EAP}(Z_n)$ 是对 Token 维度 $M$ 求平均。
- $\circ$ 表示 Hadamard 积。这里用 EAP 生成的全局通道权重去门控 SSM 的输出，解决了脉冲相乘信息丢失的问题。

解释：这是全局门控，也就是说每个时间点t都会生成一个全局的向量！！！

残差连接：
$U_{n+1} = \text{MLP}(S''_n) + U_n$

5. 实验：尤其是消融实验 📊

SPM 的实验非常扎实，不仅精度刷榜，消融实验也把每个模块的作用扒得干干净净。

5.1 主实验：精度与能耗的双赢

ScanObjectNN (PB_T50_RS)：SPM 达到 85.6%，比之前的 SOTA SNN (Spiking Point Transformer) 高出 6.2%，甚至超过了 ANN 版本的 Point-MAE。
能耗：SPM (1.5 mJ) vs PointMamba (18.9 mJ)。能耗降低 12.6 倍。