rf 强化学习第一章(共五章)

26.6.16 更新(增加一些例子)


强化学习就是不断试错,不断总结,根据奖励或惩罚提升自己的表现,目的是让整个过程中累积的奖励值最大。

回报:奖励的累积,γ是折扣因子,这个下文会讲到

强化学习适合解决问题的特征

1)反馈是评价性的,不是指导性的,环境不会告诉智能体应该做什么动作,只是给出评价

2)序列决策,一系列的决定不仅影响当下的画面,还会影响未来的局势,主要使用马尔科夫决策过程(MDP)来描述

3)延迟奖励,每个动作的好坏可能过很久才能显现

强化学习的应用:自动驾驶,大模型,具身智能

马尔科夫决策过程

智能体:谁做决策谁就是智能体

环境:除了智能体都是环境

状态:智能体从环境中获取的信息,智能体根据状态来进行决策

状态空间:所有状态的集合

动作:智能体决策后采取的行动

动作空间:所有动作的集合

奖励:环境向智能体返回的标量信号,用于评估智能体之前动作的好坏;可以是环境直接返回的,也可以是我们自己定义的;可以为正也可以为负

轨迹trajectory:S0,A0,R1,S1,A1,R2,S2,…

(大写字母表示随机变量,具体确定的用小写字母表示,表示随机变量的一个采样)

有限任务和无限任务:有限任务叫做一个回合episode

rollout:策略和环境交互并采集轨迹数据的过程

MDP五元组:定义了环境模型,但是没有定义智能体应该如何做出决策,如何做决策是强化学习算法解决的问题。

M=<S,A,P,R,γ>

=<状态空间,动作空间,状态转移概率,奖励函数,折扣因子>

可能出现哪些状态,智能体能做什么,做了之后环境怎么变化,做得好不好,有多在乎长期奖励

状态转移概率:状态s采取动作a,下一刻会转化到什么状态

奖励函数:状态s采取动作a之后,期望获得的即时奖励,注意,这个值是一个期望

在状态s做动作a,获得的奖励可能是随机的,所以用期望将随机世界的无数种可能,压缩成一个可比较、可计算、可决策的值。

折扣因子:衡量有多在乎长期奖励,有了折扣因子(小于1),无穷长轨迹的回报也可以进行比较

马尔科夫性质:未来只取决于现在的状态,和过去的状态无关,因为过去的状态信息已经包含在现在的状态之中了

完全可观测MDP:决策好坏只取决于水平,和信息缺失无关。比如下象棋,只要看一眼棋盘就掌握了全局,可以做出决策。

部分可观测MDP:存在信息缺失,会影响决策。比如玩超级玛丽,一帧静止的游戏画面无法让我们做出正确的决策,因为静止画面没有速度等信息。

如何将观测转换成状态?

  1. 多个观测堆叠;2. 利用RNN/ LSTM

策略:根据状态决定要执行的动作,包括确定性策略和随机策略

随机策略

同样的策略和MDP五元组可能会产生不同的轨迹,因为存在很多随机性

  1. 由于随机策略产生的动作的随机性;
  2. 由于状态转移概率产生的状态的随机性;
  3. 同样的状态和动作,获得奖励的随机性

强化学习中的训练数据

监督学习中,数据是独立同分布的

但是强化学习中,模型采集和数据采集是同步进行的。如何解决强化学习训练数据分布不断变化的问题的方法是经验回放:建立一个回放缓冲区,将智能体之前和环境互动产生的状态、动作、奖励都存下来,训练时再随机采样。

探索和利用困境:经验肯定给一个比较好的结果,但是探索的话,可能结果更好,也可能结果更差,所以要平衡探索和利用的比例。解决方法:ε-greedy策略,在每一步决策时,有ε的概率随机选一个动作决策,1-ε的概率选择最优动作。进一步,可以采用逐步衰减ε的ε-greedy策略。

价值函数

状态价值函数:从状态s出发,一直按照策略Π来行动,可以获得的期望回报,终止状态的状态价值为0

请注意,这个定义只依赖于当前处于哪个状态s,而不依赖于你是“第几步”到达这里的。只要环境规则(转移概率p)和奖励规则(r)不随时间改变,那么无论你是在第 1 步到达“左偏”状态,还是在第 100 步到达“左偏”状态,你面临的未来前景是完全一样的。

只有有限步数问题要区分Vt(s)和Vt+1(s)。

最优状态价值函数:在状态s下,由理论上最优的策略来执行后续所有动作。最优策略可以保证在任何状态下得到的期望回报比其他策略都高。

最优策略保证可以获得最大的期望回报,但是不保证某个rollout拿到比其他策略更大的回报。

比如说100块钱,策略一是存入银行,策略二是买彩票。存入银行的期望回报高于买彩票,但是如果买彩票中了头奖,得到的回报肯定是更大的。

最优状态价值函数可以帮助我们找到最优策略

动作价值函数:在状体s下,做出动作a,然后按照策略Π行动,可以获得的期望回报

动作价值函数是对在状态s下动作a的评估,但是也和策略Π有关。注意,a和Π无关

最优动作价值函数:在状态s下,做出动作a后,后续都由理论上最优的策略来接管。最优动作价值函数可以最客观的反映动作a的好坏(因为和后续策略无关了)

贝尔曼方程的目的:简化对价值函数的计算

使用递归的思想,

状态价值函数的贝尔曼期望方程

最优状态价值函数的贝尔曼最优方程

全局最优策略的任意局部片段,也必然是该局部的最优策略

动作价值函数的贝尔曼期望方程

最优动作价值函数的贝尔曼最优方程

参考视频:

RethinkFun的个人空间-RethinkFun个人主页-哔哩哔哩视频

内容概要:本文针对考虑柔性负荷与碳交易机制的综合能源系统(IES)低碳经济优化调度问题,提出了一种基于Matlab代码实现的双层或多目标优化模型。该模型深度融合碳交易机制,量化碳排放成本,激励系统低碳运行,同时充分挖掘柔性负荷的需求响应潜力,通过负荷转移、削减等手段提升系统运行灵活性与能源利用效率。研究涵盖电、热、氢等多种能源形式的协同优化,结合模型预测控制(MPC)等先进算法,有效应对新能源出力波动性挑战,实现了系统经济成本与碳排放的协同降低,体现了现代综合能源系统在“双碳”目标下的精细化、智能化调度理念。; 适合人群:具备一定电力系统、能源系统建模或优化理论基础,从事综合能源系统、低碳调度、需求响应等领域研究的硕士、博士研究生及科研人员,尤其适合熟悉Matlab/Simulink仿真环境并希望获得可复现代码案例的研究者。; 使用场景及目标:①用于研究和设计在碳交易政策约束下,综合能源系统的低碳经济调度策略与仿真验证;②为开发融合柔性负荷响应能力的优化调度模型与智能算法(如MPC、智能优化算法)提供代码级范例;③为微电网、园区级能源系统、虚拟电厂等实体在高比例新能源接入背景下的多能互补、削峰填谷及减排增效提供技术参考与解决方案原型。; 阅读建议:建议结合提供的Matlab代码,重点剖析碳交易成本模型与柔性负荷响应模型的数学表达及其实现逻辑,动手调试并运行仿真程序以理解优化过程。可进一步将模型拓展至电氢耦合、电动汽车集群等更具前瞻性的应用场景,深化对综合能源系统多维度协同优化的理解。
重要提示】本资源设置为0积分下载,若非0积分请勿轻易下载 亲爱的CSDN用户: 首先感谢你点进这个资源页面。我需要提前说明一个重要情况: 本资源原本已设置为“0积分下载”,即作者希望完全免费共享。但CSDN平台有时会根据文件的下载热度、文件大小、用户权限等因素,自动将部分资源的积分调整为非0数值(如1积分、2积分、5积分等)。这是平台系统的自动行为,而非作者本人的设定。 因此,如果你当前看到该资源的下载所需积分不是0(例如显示为1、2、3……),请谨慎决定是否下载。 如果你按照非0积分支付并下载后发现资源内容不符合预期、链接失效,或者实际上该资源本应是免费的,作者无法为此承担积分损失或退还操作。强烈建议:仅在页面显示为0积分时进行下载。 另外,本资源描述中并未直接提供具体的下载地址或外部链接,因为它本身是一个通过CSDN官方上传通道提交的文件/内容包。如果你看到描述中没有外部网盘地址,这是正常的——资源文件应通过CSDN内置的“下载”按钮获取。若因平台积分显示异常导致你支付了积分,请优先联系CSDN客服咨询积分退还政策,作者没有权限修改平台自动设定的积分值。 感谢你的理解与支持。技术分享本应开放,但受限于平台规则,特此提醒如上。祝学习进步!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值