rf 强化学习第五章 PPO部分(共五章)

on-policy:采集数据的策略和正在被优化的策略是同一个策略

on-policy的缺点:旧策略产生的数据不能用来训练新策略,样本利用率比较低

off-policy:采集数据的策略和正在被优化的策略是不同的策略,比如DQN,这样数据被多次使用,提高了训练效率。举个例子,这就像从别人的错误中学习:数据不是由我的策略采集的,但我仍然希望从数据中学习。但是,我们不能直接照搬旧策略采集到的数据,而是根据当前策略和旧策略在同一状态下选择同一动作的概率差异,对学习信号进行修正。比如说,小明喜欢上课玩手机,而你不喜欢上课玩手机,他上课玩手机被发现了,这对你的警示作用不大。但是如果你比小明更喜欢上课玩手机,那么他玩手机被发现对你的警示作用就很大。

如何进行修正呢?可以采用重要性采样的方法,如果想求x~p(x)的一个期望值,但是采样的x服从x~q(x),可以通过重要性系数p(x)/q(x)进行调节。

使用重要性采样的方法,可以对使用GAE作为优势评估的策略梯度函数采用旧的轨迹概率分布,从

变成

将log的梯度展开,并约去蓝色部分得到

将这个策略梯度函数转换成Loss函数,去掉求梯度,增加负号将求最大值变成求最小值,利用蒙特卡洛方法将期望形式转化成采样求均值的方式,得到

利用老策略采样的数据计算优势函数,然后用训练策略做某个动作的概率除以老策略做某个动作的概率来调整优势函数的结果。这样就解决了数据利用率低的问题。

但是,就如上面所说,小明喜欢上课玩手机,而你不喜欢上课玩手机,他上课玩手机被发现了,这对你的警示作用不大。但是如果你比小明更喜欢上课玩手机,那么他玩手机被发现对你的警示作用就很大。所以PPO的出发点是老策略和新策略不能相差太大。

如何衡量两个策略的差距呢?可以使用KL散度或者截断函数

KL散度是描述两个概率分布相似程度的量化指标,两个概率分布越相似,KL散度越接近0。

PPO-clip则使用了两部分中较小的作为loss,第一部分是原公式,第二部分是截断函数,截断函数将新旧策略的比值(即差异)限制在1-ε和1+ε之间。当优势函数大于0时,意味着当前动作比平均表现更好,从而希望新旧策略的比值尽可能大(1+ε),从而提升整体回报;当优势函数小于0时,意味着当前动作比平均表现更差,从而希望新旧策略的比值尽可能小(1-ε),从而减少损失。

但是PPO只适合新旧策略差距不大的情况,所以只能用几轮相近的数据。因此PPO通常仍然归类为on-policy。

以上部分对应的是PPO的Loss函数中的Actor部分,另外还有两部分Loss,一个是Critic的Loss,一个是Entropy Loss

Critic网络的核心任务是估计状态价值函数,其目标是最小化估计价值和真实价值之间的差异

根据优势函数的定义:

,Q是状态st的真实价值目标,在PPO中,用GAE估计的A和旧策略的价值函数计算Q的近似值,得到近似目标为:

从而得到Critic网络的损失函数为:

其中:

接下来讲entropy loss,entropy loss解决的问题是在训练早期,动作概率分布会很快变得尖锐,大量概率汇聚在一个固定动作上,探索性不足。而动作概率分布越平均,熵越大。

最后将三个loss组合起来就得到PPO的Loss

参考视频:

RethinkFun的个人空间-RethinkFun个人主页-哔哩哔哩视频

软件概述 UG(Unigraphics NX)是一款由西门子(Siemens PLM Software)开发的交互式CAD/CAM/CAE系统。作为全球领先的产品工程解决方案,它集成了产品设计、工程仿真与制造加工于一体。其功能强大且应用广泛,能够轻松实现各种复杂实体和造型的构造,为模具、汽车、航空航天及通用机械等行业提供了高性能的机械设计与制图灵活性。 软件基础信息 • 支持系统: 64位 Windows 10、Windows 11 核心功能模块 一、创新设计:高效、灵活、无缝协同 全链路产品设计 涵盖从2D布局、3D建模、装配设计到图纸文档记录的各个环节,大幅提升设计吞吐量,缩短交付周期超35%。 强大的同步建模技术 打破数据壁垒,可无缝导入并直接修改来自其他CAD系统的几何模型,是跨平台协同设计的理想选择。 复杂装配管理 专为大型复杂产品打造,即使面对成千上万的零件也能从容应对,快速识别并解决数字样机中的干涉等问题。 集成设计验证 内置自动验证功能,实时监控设计是否符合公司及行业标准;结合PLM数据可视化合成,辅助工程师做出更明智的决策。 二、综合仿真(Simcenter 3D):精准预测,降低试错成本 极速前后处理 依托先进的几何引擎,将强大的分析命令与几何编辑紧密集成,相比传统有限元工具,可缩短高达70%的仿真建模时间。 全方位结构分析 在同一环境中集成线性静力学、动态、疲劳及非线性分析,底层由业界顶尖的NX Nastran解算器提供支持,确保计算的高精度与可靠性。 声学与热管理分析 提供内外声学仿真以优化音质、降低噪音;具备一流的热传导仿真能力,帮助电子产品和工业机械实现最佳热管理方案。 多物理场耦合 简化了结构动力学、热传导、流体流动等复杂物理现象的模拟过程,消除外部数据传输错误,真实还原产品运行工况。 三、智能制造(CAM):打通从计划到车间的数字主线 全面的制造解决方案 提供从工装设计、CAM编程到机床控制器(如Sinumerik)的一体化支持,助力制定更科学的生产决策。 深度集成的PLM环境 借助Teamcenter实现数据和流程的统一管理,避免多数据库冲突,支持重用验证过的加工工艺与刀具库。 车间级互联 通过DNC系统与车间无缝对接,直接将加工数据和刀具清单下发至CNC机床,实现计划与生产的紧密结合。 提质增效 优化NC编程与刀具路径,提升表面精加工水平与零件精度;减少人为错误,显著提高新机床部署成功率及制造资源利用率。 总结 UG NX 2023作为一款集成化的产品工程解决方案,通过其强大的设计、仿真和制造功能,为现代制造业提供了完整的数字化产品开发平台。无论是复杂产品的设计验证,还是精密制造的流程优化,UG NX 2023都能为工程师团队提供高效、可靠的解决方案,助力企业提升产品创新能力和市场竞争力。 适用领域 模具设计、汽车制造、航空航天、通用机械、消费电子等
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值