2025年Neurocomputing,基于Multi Actor-Critic粒子群算法,深度解析+性能实测


1.摘要

本文提出Multi Actor-Critic粒子群算法(MACPSO),旨在通过动态参数控制提升粒子群的搜索效能。MACPSO算法将强化学习中Multi Actor-Critic框架引入群体智能领域,利用多个 Actor 网络实现参数的自适应调节,并由单一 Critic 网络引导全局优化目标的达成,从而在增强算法勘探能力的同时有效维护种群多样性。MACPSO 结合了粒子分组机制,通过组内更新与组间信息交换方案加速最优解的传递,并引入变异机制对性能较差的粒子进行优化修正。

2.Multi Actor-Critic粒子群算法

MACPSO算法通过将种群划分为若干子群,并为各子群配置独立的 Actor 网络,实现了对组内粒子控制参数的自适应学习。算法包括组内与组间双重学习路径,促进信息演化。
The overall architecture of the proposed MACPSO algorithm.

组内学习

组内粒子通过改进更新策略进行状态演化,其速度更新:
v i t + 1 = ω t v i t + c 1 , i t ( p i t − x i t ) + c 2 , i t ( p g r o u p t − x i t ) + c 2 , i t ( p r 1 t − p r 2 t ) v_{i}^{t+1} = \omega^{t} v_{i}^{t} + c_{1,i}^{t}(p_{i}^{t} - x_{i}^{t}) + c_{2,i}^{t}(p_{group}^{t} - x_{i}^{t}) + c_{2,i}^{t}(p_{r1}^{t} - p_{r2}^{t}) vit+1=ωtvit+c1,it(pitxit)+c2,it(pgrouptxit)+c2,it(pr1tpr2t)
其中, p g r o u p t p_{group}^{t} pgroupt 为当前子群内的最优位置。迭代过程中的惯性权重 ω t \omega^{t} ωt 采用指数衰减形式:
ω t = ω 0 α t \omega^{t} = \omega_{0} \alpha^{t} ωt=ω0αt

组间学习

为促进子群间的协同演进,算法引入组间学习机制,允许各组粒子每隔 k k k 个步长与全局最优粒子进行信息交互

v i t + 1 = ω t v i t + c 3 , i t ( p i t − x i t ) + c 4 , i t ( p g t − x i t ) + c 4 , i t ( p r 3 t − p r 4 t ) v_i^{t+1}=\omega^tv_i^t+c_{3,i}^t(p_i^t-x_i^t)+c_{4,i}^t(p_g^t-x_i^t)+c_{4,i}^t(p_{r3}^t-p_{r4}^t) vit+1=ωtvit+c3,it(pitxit)+c4,it(pgtxit)+c4,it(pr3tpr4t)

其中, c 3 i t c_{3i}^t c3it c 4 i t c_{4i}^t c4it为调节组间学习强度的控制参数, p 0 t p_{0}^t p0t代表全群搜索到的全局最优位置。

Multi Actor-Critic

在强化学习框架下,MACPSO 通过定义状态、动作与奖励函数实现参数的动态闭环控制。粒子的状态 s i t s_i^t sit 由决策空间位移、目标空间适应度差异以及时间进度三个维度构成:
s i t = ( Δ P i t Δ P , Δ f i t Δ F , t T ) s_i^t = \left( \frac{\Delta P_i^t}{\Delta P}, \frac{\Delta f_i^t}{\Delta F}, \frac{t}{T} \right) sit=(ΔPΔPit,ΔFΔfit,Tt)
其中,分母 Δ P \Delta P ΔP Δ F \Delta F ΔF 分别代表历史全局最差与最优粒子间的欧氏距离与适应度差值,用于对状态进行归一化处理。动作向量 a i t a_i^t ait 由各组所属的 Actor 网络生成,其分量 a i , k t ∈ [ 0 , 1 ] a_{i,k}^t \in [0,1] ai,kt[0,1] 作为柯西分布的位置参数,动态指导控制参数 c 1 , i t ∼ c 4 , i t c_{1,i}^t \sim c_{4,i}^t c1,itc4,it 的生成:
c 1 , i t = 1 − ω t ⋅ r c 1 , c 2 , i t = ( 1 − ω t ) ⋅ r c 2 c_{1,i}^t = 1 - \omega^t \cdot r_{c1}, \quad c_{2,i}^t = (1 - \omega^t) \cdot r_{c2} c1,it=1ωtrc1,c2,it=(1ωt)rc2
c 3 , i t = ω t ⋅ r c 3 , c 4 , i t = ( 1 − ω t ) ⋅ r c 4 c_{3,i}^t = \omega^t \cdot r_{c3}, \quad c_{4,i}^t = (1 - \omega^t) \cdot r_{c4} c3,it=ωtrc3,c4,it=(1ωt)rc4
r c k r_{ck} rck 为受动作约束的柯西随机变量,为引导网络进化,奖励函数 r i t r_i^t rit 依据粒子适应度改善:
r i t = F i t − 1 − f i t r_i^t = F_i^{t-1} - f_i^t rit=Fit1fit

3.结果展示

实验对原文结构做了一些改动,效果还是不错,适合迁移改进~

4.参考文献

Chen H, Shen L Y, Wang C, et al. Multi Actors-Critic based particle swarm optimization algorithm[J]. Neurocomputing, 2025, 624: 129460.

5.代码获取

xx

6.算法辅导·应用定制·读者交流

xx

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小O的算法实验室

谢谢大佬的肯定!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值