2025年Neurocomputing，基于Multi Actor-Critic粒子群算法，深度解析+性能实测

最新推荐文章于 2026-06-21 17:05:31 发布

原创最新推荐文章于 2026-06-21 17:05:31 发布 · 409 阅读

12 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#算法 #智能算法改进 #智能算法 #论文复现

智能算法同时被 3 个专栏收录

819 篇文章

订阅专栏

智能算法改进

490 篇文章

订阅专栏

论文复现

489 篇文章

订阅专栏

1.摘要

本文提出Multi Actor-Critic粒子群算法(MACPSO)，旨在通过动态参数控制提升粒子群的搜索效能。MACPSO算法将强化学习中Multi Actor-Critic框架引入群体智能领域，利用多个 Actor 网络实现参数的自适应调节，并由单一 Critic 网络引导全局优化目标的达成，从而在增强算法勘探能力的同时有效维护种群多样性。MACPSO 结合了粒子分组机制，通过组内更新与组间信息交换方案加速最优解的传递，并引入变异机制对性能较差的粒子进行优化修正。

2.Multi Actor-Critic粒子群算法

MACPSO算法通过将种群划分为若干子群，并为各子群配置独立的 Actor 网络，实现了对组内粒子控制参数的自适应学习。算法包括组内与组间双重学习路径，促进信息演化。
The overall architecture of the proposed MACPSO algorithm.

组内学习

组内粒子通过改进更新策略进行状态演化，其速度更新：
$v_{i}^{t+1} = \omega^{t} v_{i}^{t} + c_{1,i}^{t}(p_{i}^{t} - x_{i}^{t}) + c_{2,i}^{t}(p_{group}^{t} - x_{i}^{t}) + c_{2,i}^{t}(p_{r1}^{t} - p_{r2}^{t})$
其中， $p_{group}^{t}$ 为当前子群内的最优位置。迭代过程中的惯性权重 $\omega^{t}$ 采用指数衰减形式：
$\omega^{t} = \omega_{0} \alpha^{t}$

组间学习

为促进子群间的协同演进，算法引入组间学习机制，允许各组粒子每隔 $k$ 个步长与全局最优粒子进行信息交互

$v_i^{t+1}=\omega^tv_i^t+c_{3,i}^t(p_i^t-x_i^t)+c_{4,i}^t(p_g^t-x_i^t)+c_{4,i}^t(p_{r3}^t-p_{r4}^t)$

其中， $c_{3i}^t$ 与 $c_{4i}^t$ 为调节组间学习强度的控制参数， $p_{0}^t$ 代表全群搜索到的全局最优位置。

Multi Actor-Critic

在强化学习框架下，MACPSO 通过定义状态、动作与奖励函数实现参数的动态闭环控制。粒子的状态 $s_i^t$ 由决策空间位移、目标空间适应度差异以及时间进度三个维度构成：
$s_i^t = \left( \frac{\Delta P_i^t}{\Delta P}, \frac{\Delta f_i^t}{\Delta F}, \frac{t}{T} \right)$
其中，分母 $\Delta P$ 与 $\Delta F$ 分别代表历史全局最差与最优粒子间的欧氏距离与适应度差值，用于对状态进行归一化处理。动作向量 $a_i^t$ 由各组所属的 Actor 网络生成，其分量 $a_{i,k}^t \in [0,1]$ 作为柯西分布的位置参数，动态指导控制参数 $c_{1,i}^t \sim c_{4,i}^t$ 的生成：
$c_{1,i}^t = 1 - \omega^t \cdot r_{c1}, \quad c_{2,i}^t = (1 - \omega^t) \cdot r_{c2}$
$c_{3,i}^t = \omega^t \cdot r_{c3}, \quad c_{4,i}^t = (1 - \omega^t) \cdot r_{c4}$
$r_{ck}$ 为受动作约束的柯西随机变量，为引导网络进化，奖励函数 $r_i^t$ 依据粒子适应度改善：
$r_i^t = F_i^{t-1} - f_i^t$