#基于epsilon| 来源: 网络整理| 查看: 265
您好,我最近也遇到了同样额问题。将epsilon设置为较低的固定值时,感觉得到的解并不是最优解。者才意识到Q值学习初期的贪婪率太高了,容易进入局部最优解,应该一开始尽可能选择所有的动作,应该考虑使用衰减的epsilon。请问你在衰减epsilon时,使用的衰减函数是怎么设定的?在网上没有找到相关的理论,非常感谢!