Adam and AMSGrad

Adam

在 Adam 原论文里证明了 Adam 的收敛性

然而这对吗

其实定理 5 的证明是有问题的

问题就出现在这个式子

当且仅当它 时, 我们可以用参数距离上界 放缩

然而对于 Adam, RMSProp, 这个式子可能小于

这意味着自适应的学习率不是单调不增的

具体地, 考虑这样一族损失函数:

并且

这里输入 是模型参数

对于 , 最小

假设最开始参数

我们要证明:

Lemma 1

如果有

那么 ,并且

求出梯度:

写出迭代公式:

第一个式子把 放缩到

最后一步是因为

于是

那么由第二个迭代式子,

现在只需证

即证

考虑 :

由于后两个式子中, :

由于

所以

所以原式

所以第一个式子小于 , 第二第三个式子大于

所以 , 即

上面这个例子里

因为

所以

那么

所以学习率是变大的


AMSGrad

既然 Adam 不收敛, 来证明一下 AMSGrad 收敛罢, 不然白提出新方法了

Theorem 1

对于 , 以及

且梯度与参数距离有界

那么

按照 Online Convex Programming 的统一分析方法来做

还是先把 按更新规则展开

所以把 展开

所以整理得到

后一项用了 展开成

( 是凑进去的)

其实是柯西不等式和杨氏不等式

那么由于

所以中间两项合并变成

Lemma 2

将求和最后一项按照更新规则展开

依次把所有的项都展开

常数提出来:

对于 , 换顺序求和:

所以原式

对于每个 , 将 放缩到 :

并且

所以成立

这个引理中, 前几步对应了 Adam 的引理 4

最后一步实际对应了 Adam 的引理 3, 只不过把 换成了


回到定理, 对于 , 错位相减得到

这里 展开:

参数之差放缩到 , 有

对应

对于 , 由于

所以

对应

Corollary 1

如果 , 那么

由于

由于

所以原式有

下面的 也是常数, 不用在意


  • Adam 原论文是我看过笔误最多的文章, 跟本科生写的似的 (

参考:

  1. ADAM: A METHOD FOR STOCHASTIC OPTIMIZATION
  2. ON THE CONVERGENCE OF ADAM AND BEYOND