12、不确定环境下的顺序决策学习

最新推荐文章于 2025-11-06 11:00:00 发布

原创最新推荐文章于 2025-11-06 11:00:00 发布 · 65 阅读

0 GEO检测

标签

#多臂老虎机 #马尔可夫决策过程 #强化学习

AI与边缘计算融合前沿专栏收录该内容

63 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

不确定环境下的顺序决策学习

1. 引言

在工业工程、计算机通信、运营管理、金融工程、交通网络等多个领域，不确定环境下的顺序决策是一个基本问题。过去几十年，为解决此问题取得了显著进展，其中多臂老虎机、马尔可夫决策过程和强化学习等模型广为人知。

近年来，强化学习成为顺序决策中广泛应用的模型。在强化学习中，智能体在动态环境中通过交互（即采取行动）来学习。在每个时间步，智能体感知环境状态并采取行动，使环境过渡到新状态。一个标量奖励信号评估每次状态转换的质量，智能体的目标是在交互过程中最大化累积奖励。与监督学习相比，强化学习的反馈信息较少，因为监督学习会直接告知智能体正确的行动；但与无监督学习相比，强化学习的反馈更具信息性，因为无监督学习没有关于性能的明确反馈。从宏观角度看，强化学习有基于模型和无模型预测两种主要学习方法。基于模型的方法侧重于估计系统中的未知参数，而无模型预测技术则专注于函数逼近而非参数估计。对于单智能体强化学习任务，有易于理解且可证明收敛的算法。由于其设置的简单性和通用性，强化学习在多智能体学习中也颇具吸引力，并且在许多领域有成功应用，如围棋、扑克和Pommerman等游戏，以及交通网络中的列车调度等。

在现实应用中，智能体常常需要应对非平稳环境。例如，在车辆交通信号控制中，高峰和非高峰时段部分或所有车道的交通流入率差异很大，不同的交通流入率使某些车道排队长度配置比其他配置更可能出现。在机器人导航中，控制器可能需要根据地形或天气条件改变机器人手臂/肢体关节角度，以确保正常移动，因为相同的关节角度在不同地形和天气条件下可能导致不同的运动轨迹。此外，在许多收益管理应用中，需求趋势不断演变或突然变化。

强化学习面临的一个独特挑战是探索与利用的权衡。为了获得大