以下哪个术语最准确地描述了在强化学习中,智能体根据当前环境状态所采取的行动?
答案解析
核心考点:强化学习基本概念。解题思路:强化学习中,智能体通过与环境的交互来学习最优策略。策略决定了在给定状态下智能体应该采取的行动。选项分析:A:回报是智能体在一段时间内获得的累积奖励。B:奖励是环境对智能体行动的反馈信号。C:观测是智能体感知到的环境状态。D:策略是智能体在特定状态下选择行动的规则或方法,是正确的。易错点:部分考生可能混淆回报、奖励和策略的概念。正确答案的关键依据:策略直接决定了智能体在给定状态下选择的行动。因此,答案是D。
正确答案:D