在强化学习中,以下哪个概念用于估计智能体的策略价值?

答案解析

值函数近似是强化学习中的一个概念,用于估计智能体在采取不同策略时的价值。多智能体学习和终身学习是强化学习的不同研究方向,而策略梯度是用于优化策略的方法。
正确答案:A
随机推荐
开始刷题