信息记录材料

首页 > 刊期 > 2025 > 11期 > 信息：理论与观点

基于滑动窗口的非稳态环境Ｑ⁃ｌｅａｒｎｉｎｇ算法改进

王文杰

【摘要】Ｑ学习（Ｑ⁃ｌｅａｒｎｉｎｇ）算法是强化学习领域最经典的算法之一，与在其基础上构建的多种算法凭借低计算资源需求、高可解释性等独特优势，在静态环境下的学习问题中表现良好。然而，在更贴合实际的非稳态环境下，Ｑ⁃ｌｅａｒｎｉｎｇ算法面临收敛速率降低、收敛过程稳定性差等问题。本研究提出了一种基于指数衰减滑动窗口的Ｑ⁃ｌｅａｒｎｉｎｇ算法，通过引入监控窗口机制，提高智能体对策略效果变化的敏感性，并通过动态调整探索率使智能体适应环境变化，从而优化传统Ｑ⁃ｌｅａｒｎｉｎｇ算法在非稳态环境中的收敛性能。在改进的ＭｏｕｎｔａｉｎＣａｒ环境中的对比实验结果表明，相比传统Ｑ⁃ｌｅａｒｎｉｎｇ算法，改进算法在应对环境随机性时具有显著优势，适应性与稳定性均有显著提升。

【关键字】强化学习；Ｑ学习；非稳态环境；滑动窗口

【PDF】