强化学习算法中启发式回报函数的设计及其收敛性分析

计算机科学 ›› 2005, Vol. 32 ›› Issue (3): 190-193.

• 软件工程与数据库技术 • 上一篇下一篇

强化学习算法中启发式回报函数的设计及其收敛性分析

魏英姿赵明扬

中国科学院沈阳自动化所机器人学重点实验室，沈阳110016／／沈阳理工大学，沈阳110168／／中国科学院研究生院，北京100039 中国科学院沈阳自动化所机器人学重点实验室，沈阳110016

出版日期:2018-11-17 发布日期:2018-11-17

Online:2018-11-17 Published:2018-11-17

摘要/Abstract

摘要： 回报函数设计的好与坏对学习系统性能有着重要作用，按回报值在状态-动作空间中的分布情况，将回报函数的构建分为两种形式：密集函数和稀疏函数，分析了密集函数和稀疏函数的特点。提出启发式回报函数的基本设计思路，利用基于保守势函数差分形式的附加回报函数，给学习系统提供更多的启发式信息，并对算法的最优策略不变性和迭代收敛性进行了证明。启发式回报函数能够引导学习，加快学习进程，从而可以实现强化学习在实际大型复杂系统应用中的实时控制和调度。

魏英姿赵明扬. 强化学习算法中启发式回报函数的设计及其收敛性分析[J]. 计算机科学, 2005, 32(3): 190-193. https://doi.org/

参考文献

Metrics

Viewed

Full text

Abstract

Cited

Shared

Discussed

强化学习算法中启发式回报函数的设计及其收敛性分析

PDF (PC)

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 0

Metrics

本文评价

推荐阅读 0