Adam
在 Adam 原论文里证明了 Adam 的收敛性
然而这对吗
其实定理 5 的证明是有问题的
问题就出现在这个式子
当且仅当它
然而对于 Adam, RMSProp, 这个式子可能小于
这意味着自适应的学习率不是单调不增的
具体地, 考虑这样一族损失函数:
并且
这里输入
对于
假设最开始参数
我们要证明:
Lemma 1
如果有
且
那么
,并且
求出梯度:
写出迭代公式:
第一个式子把
最后一步是因为
于是
那么由第二个迭代式子,
现在只需证
即证
考虑
由于后两个式子中,
由于
所以
所以原式
所以第一个式子小于
所以
上面这个例子里
因为
所以
当
那么
所以学习率是变大的
AMSGrad
既然 Adam 不收敛, 来证明一下 AMSGrad 收敛罢, 不然白提出新方法了
Theorem 1
对于
, 以及 且梯度与参数距离有界
那么
按照 Online Convex Programming 的统一分析方法来做
还是先把
所以把
所以整理得到
后一项用了
(
其实是柯西不等式和杨氏不等式
那么由于
所以中间两项合并变成
Lemma 2
将求和最后一项按照更新规则展开
依次把所有的项都展开
常数提出来:
对于
所以原式
对于每个
并且
所以成立
这个引理中, 前几步对应了 Adam 的引理 4
最后一步实际对应了 Adam 的引理 3, 只不过把
回到定理, 对于
这里
参数之差放缩到
即
与
对于
所以
与
Corollary 1
如果
, 那么
由于
由于
所以原式有
下面的
- Adam 原论文是我看过笔误最多的文章, 跟本科生写的似的 (
参考: