下列哪种优化算法在更新参数时,会考虑之前的梯度方向和当前梯度方向?
答案解析
核心考点:优化算法的特性。
解题思路分析:Momentum算法会在更新参数时,考虑之前的梯度方向,利用动量的概念加速收敛并减少震荡。其他几种优化方法主要考虑的是当前梯度。
选项分析:
A. 随机梯度下降 (SGD):每次迭代只使用一个样本的梯度更新参数,不考虑之前的梯度方向。
B. 批量梯度下降 (BGD):每次迭代使用全部样本的梯度更新参数,不考虑之前的梯度方向。
C. Momentum:通过引入动量项,可以利用之前的梯度方向来加速收敛并减少震荡,符合题目描述。
D. Adam:是自适应学习率优化算法,虽然也利用了动量,但其重点是自适应调整每个参数的学习率,而非利用之前的梯度方向。
易错点提醒:容易把Adam和Momentum的作用混淆,注意Adam重点是自适应学习率,Momentum重点是利用之前的梯度。
正确答案:C