regularization

正则化, 用于防止机器学习过拟合

线性回归中:

\[Loss=MSE\]

L1 regularization

在线性回归中加入 L1 范数的正则化项, 为 Lasso 回归:

\[Loss=MSE+\lambda\sum_{i=1}^m|w_i|\]

倾向于产生稀疏解, 部分权重会被缩减为 \(0\)

这有助于特征选择, 因为只有最重要的特征会保留非 \(0\) 权重

同时对异常值相对鲁棒, 因为绝对值对大误差的影响不如平方误差那么敏感

在线性回归中加入 L2 范数的正则化项, 为 Ridge 回归:

\[Loss=MSE+\lambda\sum_{i=1}^mw_i^2\]

不会使权重变为 \(0\), 而是将所有权重缩小至接近但不等于 \(0\) 的值

它倾向于让权重分布得更加均匀, 平滑

同时由于避免了极端大的权重, 可提高数值稳定性, 并且对噪声有一定抗干扰能力

从贝叶斯统计的角度看, 正则化可以被视作对模型参数施加某种形式的先验分布

L2 正则化等价于假设模型参数服从高斯分布的先验; L1 正则化则对应拉普拉斯分布

例如, 在回归任务中, 最小化均方误差 (MSE) 等价于 MLE; 若加入 L2 正则化 (权重衰减), 则等价于假设权重服从高斯先验的 MAP

引入这些先验假设后, 模型的学习过程不仅基于训练数据本身, 还考虑到了关于参数合理取值范围的先验信息, 这有助于引导模型朝着更为合理的方向优化, 减少过拟合风险