以梯度下降(Gradient Descent)展开的优化器总结

本篇关键词:损失函数/代价函数/误差函数、梯度下降、学习率、Momentum(动量)

梯度下降
随机梯度下降

大多数机器学习模型都会有一个损失函数。比如常见的 均方误差 (Mean Squared Error —— MSE)损失函数,其输出值为 模型的输出值和实际值的偏差。
损失函数的输出值越小,模型精度越高。我们用梯度下降的方法最小化损失函数。

梯度下降(Gradient Descent):使用所有样本进行梯度下降
小批量样本梯度下降(Mini Batch GD):使用小批量样本进行梯度下降
随机梯度下降(Stochastic GD):使用一个样本进行梯度下降

怎么通俗易懂的理解SGD中Momentum的含义?

SGD 的改进形式 —— Adam

SGD有多种改进的形式(RMSprop,Adadelta等),为什么大多数论文中仍然用SGD?

深度学习各类优化器详解(动量、NAG、adam、Adagrad、adadelta、RMSprop、adaMax、Nadam、AMSGrad)

PyTorch学习之 torch.optim 的6种优化器及优化算法介绍

赞赏