ISSN 1009-5624 CN 10-2021/TQ    主管:中国乐凯集团有限公司    主办:北京乐凯科技有限公司

中国知网全文收录期刊
万方数据库收录期刊
RCCSE中文学术期刊
维普资讯网/超星域出版 全文收录
中国核心期刊(遴选)数据库收录期刊
首页 > 刊期 > 2025 > 11期 > 信息:理论与观点
基于滑动窗口的非稳态环境 Q⁃learning 算法改进
王文杰

【摘要】Q 学习(Q⁃learning)算法是强化学习领域最经典的算法之一,与在其基础上构建的多种算法凭借低计算资源需求、高可解释性等独特优势,在静态环境下的学习问题中表现良好。 然而,在更贴合实际的非稳态环境下,Q⁃learning 算法面临收敛速率降低、收敛过程稳定性差等问题。 本研究提出了一种基于指数衰减滑动窗口的 Q⁃learning 算法,通过引入监控窗口机制,提高智能体对策略效果变化的敏感性,并通过动态调整探索率使智能体适应环境变化,从而优化传统 Q⁃learning 算法在非稳态环境中的收敛性能。 在改进的 MountainCar 环境中的对比实验结果表明,相比传统 Q⁃learning 算法,改进算法在应对环境随机性时具有显著优势,适应性与稳定性均有显著提升。

【关键字】强化学习;Q 学习;非稳态环境;滑动窗口
【PDF】