基于epsilon

#基于epsilon| 来源: 网络整理| 查看: 265

您好，我最近也遇到了同样额问题。将epsilon设置为较低的固定值时，感觉得到的解并不是最优解。者才意识到Q值学习初期的贪婪率太高了，容易进入局部最优解，应该一开始尽可能选择所有的动作，应该考虑使用衰减的epsilon。请问你在衰减epsilon时，使用的衰减函数是怎么设定的？在网上没有找到相关的理论，非常感谢！

【本文地址】

公司简介

联系我们