贝叶斯学习与强化学习结合技术的研究

计算机科学 ›› 2006, Vol. 33 ›› Issue (2): 173-177.

贝叶斯学习与强化学习结合技术的研究

出版日期:2018-11-17 发布日期:2018-11-17
基金资助:
本课题得到国家自然科学基金（60475026）、国家“973”重点基础研究发展计划基金项目（2002CB312002）和江苏省自然科学基金（BKg004079）的资助.

Online:2018-11-17 Published:2018-11-17

摘要/Abstract

摘要： 强化学习的研究需要解决的重要难点之一是：探索未知的动作和采用已知的最优动作之间的平衡。贝叶斯学习是一种基于已知的概率分布和观察到的数据进行推理，做出最优决策的概率手段。因此，把强化学习和贝叶斯学习相结合，使Agent可以根据已有的经验和新学到的知识来选择采用何种策略：探索未知的动作还是采用已知的最优动作。本文分别介绍了单Agent贝叶斯强化学习方法和多Agent贝叶斯强化学习方法：单Agent贝叶斯强化学习包括贝叶斯Q学习、贝叶斯模型学习以及贝叶斯动态规划等；多Agent贝叶斯强化学习包括贝叶斯模仿模型、

关键词: 贝叶斯学习强化学习单Agent 多Agent

Abstract: A central problem in reinforcement learning is balancing exploration of untested actions against exploitation of actions that are known to be good. Bayesian learning is a probability method that makes optimal decision based on known probability distributi

Key words: Bayesian learning, Reinforcement learning, Single-agent, Multi agent

. 贝叶斯学习与强化学习结合技术的研究[J]. 计算机科学, 2006, 33(2): 173-177. https://doi.org/

参考文献

Metrics

Viewed

Full text

Abstract

Cited

Shared

Discussed