计算机科学 ›› 2005, Vol. 32 ›› Issue (3): 190-193.

• 软件工程与数据库技术 • 上一篇    下一篇

强化学习算法中启发式回报函数的设计及其收敛性分析

魏英姿 赵明扬   

  1. 中国科学院沈阳自动化所机器人学重点实验室,沈阳110016//沈阳理工大学,沈阳110168//中国科学院研究生院,北京100039 中国科学院沈阳自动化所机器人学重点实验室,沈阳110016
  • 出版日期:2018-11-17 发布日期:2018-11-17

  • Online:2018-11-17 Published:2018-11-17

摘要: 回报函数设计的好与坏对学习系统性能有着重要作用,按回报值在状态-动作空间中的分布情况,将回报函数的构建分为两种形式:密集函数和稀疏函数,分析了密集函数和稀疏函数的特点。提出启发式回报函数的基本设计思路,利用基于保守势函数差分形式的附加回报函数,给学习系统提供更多的启发式信息,并对算法的最优策略不变性和迭代收敛性进行了证明。启发式回报函数能够引导学习,加快学习进程,从而可以实现强化学习在实际大型复杂系统应用中的实时控制和调度。

关键词: 强化学习算法 启发式回报函数 收敛性 马尔可夫决策过程 机器学习 人工智能

No related articles found!
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!