多代理最优响应Q学习及收敛性证明

• 计算机网络与信息安全 • 上一篇下一篇

张化祥黄上腾

摘要： 在分析了多代理强化学习的基础上，提出了一种基于对手策略假设的代理最优响应强化学习规则，并证明了当对手策略满足一定条件时，基于该学习规则的Q值收敛。实验结果与理论证明相一致。

张化祥黄上腾. 多代理最优响应Q学习及收敛性证明[J]. 计算机科学, 2004, 31(4): 96-98. https://doi.org/

Viewed

Full text

Abstract

Cited

Shared

Discussed

PDF (PC)