文章总结与翻译 一、主要内容 本文聚焦于表格型无限时域折扣马尔可夫决策过程(MDP)的在线强化学习问题,核心目标是设计兼具遗憾最优性、低计算/空间复杂度和短预热时间的模型无关算法。 研究背景:现有强化学习算法存在两大核心痛点——要么模型依赖型算法(如UCBVI-γ)虽能实现遗憾最优,但需承担O(S2A)O(S^2A)O(S