计算机科学 ›› 2005, Vol. 32 ›› Issue (3): 190-193.
• 软件工程与数据库技术 • 上一篇 下一篇
魏英姿 赵明扬
出版日期:
发布日期:
Online:
Published:
摘要: 回报函数设计的好与坏对学习系统性能有着重要作用,按回报值在状态-动作空间中的分布情况,将回报函数的构建分为两种形式:密集函数和稀疏函数,分析了密集函数和稀疏函数的特点。提出启发式回报函数的基本设计思路,利用基于保守势函数差分形式的附加回报函数,给学习系统提供更多的启发式信息,并对算法的最优策略不变性和迭代收敛性进行了证明。启发式回报函数能够引导学习,加快学习进程,从而可以实现强化学习在实际大型复杂系统应用中的实时控制和调度。
关键词: 强化学习算法 启发式回报函数 收敛性 马尔可夫决策过程 机器学习 人工智能
魏英姿 赵明扬. 强化学习算法中启发式回报函数的设计及其收敛性分析[J]. 计算机科学, 2005, 32(3): 190-193. https://doi.org/
0 / / 推荐
导出引用管理器 EndNote|Reference Manager|ProCite|BibTeX|RefWorks
链接本文: https://www.jsjkx.com/CN/
https://www.jsjkx.com/CN/Y2005/V32/I3/190
Cited