在强化学习的过程中,()能够在稍微偏离目前最好策略的基础上,尝试更多策略,()能够运用目前最好的策略,获取更高的奖励A利用,探索B探索,利用C利用,输出D探索,输出

  尔雅 智慧树 mooc


+
账户
更新
搜索
帮助
主页