regularization
正则化, 用于防止机器学习过拟合
线性回归中:
\[Loss=MSE\]
L1 regularization
在线性回归中加入 L1 范数的正则化项, 为 Lasso 回归:
\[Loss=MSE+\lambda\sum_{i=1}^m|w_i|\]
倾向于产生稀疏解, 部分权重会被缩减为 \(0\)
这有助于特征选择, 因为只有最重要的特征会保留非 \(0\) 权重
同时对异常值相对鲁棒, 因为绝对值对大误差的影响不如平方误差那么敏感
L2 regularization
在线性回归中加入 L2 范数的正则化项, 为 Ridge 回归:
\[Loss=MSE+\lambda\sum_{i=1}^mw_i^2\]
不会使权重变为 \(0\), 而是将所有权重缩小至接近但不等于 \(0\) 的值
它倾向于让权重分布得更加均匀, 平滑
同时由于避免了极端大的权重, 可提高数值稳定性, 并且对噪声有一定抗干扰能力
MLE / MAP
从贝叶斯统计的角度看, 正则化可以被视作对模型参数施加某种形式的先验分布
L2 正则化等价于假设模型参数服从高斯分布的先验; L1 正则化则 对应拉普拉斯分布
例如, 在回归任务中, 最小化均方误差 (MSE) 等价于 MLE; 若加入 L2 正则化 (权重衰减), 则等价于假设权重服从高斯先验的 MAP
引入这些先验假设后, 模型的学习过程不仅基于训练数据本身, 还考虑到了关于参数合理取值范围的先验信息, 这有助于引导模型朝着更为合理的方向优化, 减少过拟合风险