
1.摘要
本文提出Multi Actor-Critic粒子群算法(MACPSO),旨在通过动态参数控制提升粒子群的搜索效能。MACPSO算法将强化学习中Multi Actor-Critic框架引入群体智能领域,利用多个 Actor 网络实现参数的自适应调节,并由单一 Critic 网络引导全局优化目标的达成,从而在增强算法勘探能力的同时有效维护种群多样性。MACPSO 结合了粒子分组机制,通过组内更新与组间信息交换方案加速最优解的传递,并引入变异机制对性能较差的粒子进行优化修正。
2.Multi Actor-Critic粒子群算法
MACPSO算法通过将种群划分为若干子群,并为各子群配置独立的 Actor 网络,实现了对组内粒子控制参数的自适应学习。算法包括组内与组间双重学习路径,促进信息演化。

组内学习
组内粒子通过改进更新策略进行状态演化,其速度更新:
v
i
t
+
1
=
ω
t
v
i
t
+
c
1
,
i
t
(
p
i
t
−
x
i
t
)
+
c
2
,
i
t
(
p
g
r
o
u
p
t
−
x
i
t
)
+
c
2
,
i
t
(
p
r
1
t
−
p
r
2
t
)
v_{i}^{t+1} = \omega^{t} v_{i}^{t} + c_{1,i}^{t}(p_{i}^{t} - x_{i}^{t}) + c_{2,i}^{t}(p_{group}^{t} - x_{i}^{t}) + c_{2,i}^{t}(p_{r1}^{t} - p_{r2}^{t})
vit+1=ωtvit+c1,it(pit−xit)+c2,it(pgroupt−xit)+c2,it(pr1t−pr2t)
其中,
p
g
r
o
u
p
t
p_{group}^{t}
pgroupt 为当前子群内的最优位置。迭代过程中的惯性权重
ω
t
\omega^{t}
ωt 采用指数衰减形式:
ω
t
=
ω
0
α
t
\omega^{t} = \omega_{0} \alpha^{t}
ωt=ω0αt
组间学习
为促进子群间的协同演进,算法引入组间学习机制,允许各组粒子每隔 k k k 个步长与全局最优粒子进行信息交互
v i t + 1 = ω t v i t + c 3 , i t ( p i t − x i t ) + c 4 , i t ( p g t − x i t ) + c 4 , i t ( p r 3 t − p r 4 t ) v_i^{t+1}=\omega^tv_i^t+c_{3,i}^t(p_i^t-x_i^t)+c_{4,i}^t(p_g^t-x_i^t)+c_{4,i}^t(p_{r3}^t-p_{r4}^t) vit+1=ωtvit+c3,it(pit−xit)+c4,it(pgt−xit)+c4,it(pr3t−pr4t)
其中, c 3 i t c_{3i}^t c3it与 c 4 i t c_{4i}^t c4it为调节组间学习强度的控制参数, p 0 t p_{0}^t p0t代表全群搜索到的全局最优位置。
Multi Actor-Critic
在强化学习框架下,MACPSO 通过定义状态、动作与奖励函数实现参数的动态闭环控制。粒子的状态
s
i
t
s_i^t
sit 由决策空间位移、目标空间适应度差异以及时间进度三个维度构成:
s
i
t
=
(
Δ
P
i
t
Δ
P
,
Δ
f
i
t
Δ
F
,
t
T
)
s_i^t = \left( \frac{\Delta P_i^t}{\Delta P}, \frac{\Delta f_i^t}{\Delta F}, \frac{t}{T} \right)
sit=(ΔPΔPit,ΔFΔfit,Tt)
其中,分母
Δ
P
\Delta P
ΔP 与
Δ
F
\Delta F
ΔF 分别代表历史全局最差与最优粒子间的欧氏距离与适应度差值,用于对状态进行归一化处理。动作向量
a
i
t
a_i^t
ait 由各组所属的 Actor 网络生成,其分量
a
i
,
k
t
∈
[
0
,
1
]
a_{i,k}^t \in [0,1]
ai,kt∈[0,1] 作为柯西分布的位置参数,动态指导控制参数
c
1
,
i
t
∼
c
4
,
i
t
c_{1,i}^t \sim c_{4,i}^t
c1,it∼c4,it 的生成:
c
1
,
i
t
=
1
−
ω
t
⋅
r
c
1
,
c
2
,
i
t
=
(
1
−
ω
t
)
⋅
r
c
2
c_{1,i}^t = 1 - \omega^t \cdot r_{c1}, \quad c_{2,i}^t = (1 - \omega^t) \cdot r_{c2}
c1,it=1−ωt⋅rc1,c2,it=(1−ωt)⋅rc2
c
3
,
i
t
=
ω
t
⋅
r
c
3
,
c
4
,
i
t
=
(
1
−
ω
t
)
⋅
r
c
4
c_{3,i}^t = \omega^t \cdot r_{c3}, \quad c_{4,i}^t = (1 - \omega^t) \cdot r_{c4}
c3,it=ωt⋅rc3,c4,it=(1−ωt)⋅rc4
r
c
k
r_{ck}
rck 为受动作约束的柯西随机变量,为引导网络进化,奖励函数
r
i
t
r_i^t
rit 依据粒子适应度改善:
r
i
t
=
F
i
t
−
1
−
f
i
t
r_i^t = F_i^{t-1} - f_i^t
rit=Fit−1−fit

3.结果展示
实验对原文结构做了一些改动,效果还是不错,适合迁移改进~



4.参考文献
Chen H, Shen L Y, Wang C, et al. Multi Actors-Critic based particle swarm optimization algorithm[J]. Neurocomputing, 2025, 624: 129460.
5.代码获取
xx
6.算法辅导·应用定制·读者交流
xx

329

被折叠的 条评论
为什么被折叠?



