在本课程所讲述的范围内,“在状态s,选择一个动作,使得状态s得到最大的反馈期望”,这句话描述了状态s的()A策略学习与优化B价值函数C动作价值函数D采样函数

  尔雅 智慧树 mooc


+
账户
更新
搜索
帮助
主页