基于epsilon 您所在的位置:网站首页 e-greedy策略 基于epsilon

基于epsilon

#基于epsilon| 来源: 网络整理| 查看: 265

您好,我最近也遇到了同样额问题。将epsilon设置为较低的固定值时,感觉得到的解并不是最优解。者才意识到Q值学习初期的贪婪率太高了,容易进入局部最优解,应该一开始尽可能选择所有的动作,应该考虑使用衰减的epsilon。请问你在衰减epsilon时,使用的衰减函数是怎么设定的?在网上没有找到相关的理论,非常感谢!



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有