Universal Approximation Theorem

sigmoid 函数的通用逼近

sigmoidal function

神经网络相当于一个函数, 可以用于拟合任意的函数

但对于非线性的函数, 如果不加入某个非线性变换, 只靠神经网络自身结构, 那么得到的输出是输入的线性组合, 不能够表示一个任意的非线性函数

加入一个非线性函数就可以做到了, 就像把任意的函数傅里叶展开或泰勒展开

具体地, 我们说这样的函数 是 sigmoidal 的, 如果

由 sigmoidal 函数组成的输出为

定义

给一些定义, 好像是泛函分析里面的, 现在不太懂

  1. 维单位矩阵

    定义为在 上的连续函数空间

  2. 为在 上的有限有符号波雷尔测度

  3. 是 discriminatory 的, 如果对于一个测度

𝕟

定理

为任意连续 discriminatory 函数, 那么 上是稠密的

需要两个预备定理: Hahn-Banach 定理 和 Riesz 表示定理

为所有 组成的集合, 那么

我们断言 , 即 的闭包一定等于

具体地, 假设

由 Hahn-Banach 定理, 存在一个泛函 , 使得

由 Riesz 表示定理, 存在 , 对所有的 , 可以把 表示成

由于 , 那么

但我们已知 为任意连续 discriminatory 函数, 那么由 式得到

这种情况下 , 这与 矛盾

所以反证得到

任意有界可测的 sigmoidal 函数 都是 discriminatory 的

特别地, 任何连续 sigmoidal 函数都是 discriminatory 的

需要预备定理: Lesbegue 有界收敛定理

如果 有界 , 并且 , 那么

我们考察函数 取值

那么

表示 的超平面, 表示 的半空间

由 Lesbegue 有界收敛定理

并且我们要证 是 discriminatory, 就假设

由于 , 所以

即所有半平面上的测度都为

下面证明这个条件能推出测度 自身一定为

我们固定 来看

对于有界可测函数 , 定义泛函

由于 是有限有符号函数, 所以 是在 上的有界泛函

为区间 的判别函数

那么

这对于开区间 同样成立

由于线性性, 对于任意区间的判别函数成立, 因此对于任意普通函数成立, 因为普通函数可用区间的判别函数加和得到

因为普通函数在 上稠密, 所以

特别地, 令

由于 都是有界可测函数, 所以 也是有界可测函数, 那么

那么由于 的傅里叶变换是 , 那么 一定为

所以 是 discriminatory 的

为任意连续 sigmoidal 函数, 那么 上是稠密的

由定理 1 和引理 1, 即得定理 2

这说明我们可以用 sigmoidal 函数去逼近任意的函数

ReLU 函数的通用逼近

ReLU 函数也有通用逼近性, 可以用将 ReLU 作为激活函数的神经网络逼近任意函数

具体见 [2]


参考

  1. Approximation by Superpositions of a Sigmoidal Function

  2. Error bounds for approximations with deep ReLU networks