文章主要内容总结
本文首次从数学角度系统研究强化学习(RL)中的可复现性问题,聚焦带生成模型的折扣表格型马尔可夫决策过程(MDP),定义了三类可复现性概念并设计对应高效算法,同时给出样本复杂度和时间复杂度的上下界。核心围绕“确保RL算法在相同环境下两次执行输出一致或近似一致”展开,通过对可复现性的不同松弛,实现复杂度的逐步优化,为解决机器学习领域的“可复现性危机”提供理论支撑。
核心创新点
- 首次形式化RL可复现性:基于现有研究扩展出三类可复现性定义——严格可复现性(ρ-replicable)、TV不可区分性(TV indistinguishability)和近似可复现性(approximate-replicability),填补RL领域可复现性理论空白。
- 高效算法设计与复杂度优化:针对三类定义分别设计算法,样本复杂度从O~(N3)\tilde{O}(N^3)

订阅专栏 解锁全文
313

被折叠的 条评论
为什么被折叠?



