过拟合终极解决方案：从数学公式到PyTorch代码彻底搞懂L1/L2正则化（人工智能丨机器学习丨深度学习丨神经网络丨零基础入门）

过拟合的根源是模型复杂度与数据量失衡，正则化通过约束参数空间实现「复杂度刹车」L1和L2是互补而非对立的工具：前者适合高维稀疏场景做特征筛选，后者适合连续特征场景做参数平滑正则化调参是数据驱动的过程：需结合特征维度、业务可解释性需求，通过交叉验证找到最优λ代码实现的关键是显式引入约束：sklearn的高层接口提升效率，PyTorch的底层控制满足定制化需求在实际项目中，建议先从L2正则化入手（简单

老丁聊AI

1067人浏览 · 2025-05-17 16:12:20

老丁聊AI · 2025-05-17 16:12:20 发布

引言：为什么需要正则化？

我们来看一个让机器学习工程师头疼的现象：模型在训练集上精准预测每一个样本，却在新数据上频繁翻车。这种「过拟合」的本质，是模型在高维空间中画出一条「震荡曲线」——它过度捕捉训练数据的噪声，却丢失了数据背后的真实规律。就像一个学生死记硬背真题答案，却无法应对题型变化。

此时，正则化就像给模型戴上「紧箍咒」：L1正则化是「特征筛选器」，让无关特征的权重变为0；L2正则化是「参数平滑器」，迫使权重分布更均匀。理解这两种正则化的数学本质与工程实现，是突破模型泛化能力瓶颈的关键。

一、数学原理：从损失函数到约束空间的几何革命

我们来看正则化如何从数学层面重塑模型优化目标，以线性回归为例展开推导。

1. 原始损失：无约束优化的失控风险

线性回归的原始目标是最小化均方误差（MSE）：
[\mathcal{L}(w) = |Xw - y|2^2 = \sum{i=1}^n (x_i^\top w - y_i)^2]
当特征维度d远大于样本量n时，解空间存在无穷多组解，模型倾向于选择权重绝对值极大的解，导致过拟合。

2. L2正则化：给权重添加「高斯紧箍咒」

加入L2正则项后，损失函数变为：
[\mathcal{L}(w) = |Xw - y|_2^2 + \lambda |w|_2^2]
其中(|w|_2^2 = w_1^2 + w_2^2 + \dots + w_d^2)，(\lambda)控制约束强度。从几何视角看，这相当于在参数空间中划定一个圆形约束区域——最优解必须落在圆心在原点、半径为(\sqrt{\frac{\mathcal{L}(w)}{\lambda}})的圆内。

权重衰减的本质：对损失函数求导后，权重更新公式变为：
[w_j \leftarrow w_j - \eta \left( \frac{\partial \mathcal{L}{\text{原始}}}{\partial w_j} + 2\lambda w_j \right) = (1 - 2\eta\lambda)w_j - \eta \frac{\partial \mathcal{L}{\text{原始}}}{\partial w_j}]
每次迭代都对权重进行「收缩」，使其趋近于0但不会完全为0。从贝叶斯角度看，这等价于假设权重服从均值为0的高斯分布（(w \sim \mathcal{N}(0, \sigma^2))），用先验知识约束参数空间。

3. L1正则化：让权重在坐标轴上「锚定」

L1正则化的损失函数为：
[\mathcal{L}(w) = |Xw - y|_2^2 + \lambda |w|_1]
其中(|w|_1 = |w_1| + |w_2| + \dots + |w_d|)，对应钻石形约束区域（二维时是菱形）。关键特性在于：当损失函数的等高线与钻石的顶点（如(w_1=0, w_2)任意）相切时，最优解的部分权重会严格为0——这就是L1产生稀疏性的几何解释。

这里有个细节：L1约束区域的棱角设计，使其在高维空间中更容易与等高线交于坐标轴，从而实现「自动特征选择」——让无关特征的权重精确归零，这在文本分类等高维场景中至关重要。

二、代码实现：从 sklearn 快捷工具到 PyTorch 手动优化

我们来看两种主流框架下的正则化实现，覆盖传统机器学习与深度学习场景。

1. sklearn 快速实现：L1正则化筛选关键特征

📌 核心代码（乳腺癌分类任务）：

from sklearn.linear_model import LogisticRegression  
from sklearn.datasets import load_breast_cancer  
from sklearn.model_selection import train_test_split  

# 加载30维高维数据集  
data = load_breast_cancer()  
X_train, X_test, y_train, y_test = train_test_split(  
    data.data, data.target, test_size=0.2, random_state=42  
)  

# 配置L1正则化：penalty='l1'，C是λ的倒数（越小正则化越强）  
clf_l1 = LogisticRegression(  
    penalty='l1',  
    C=**0.1**,  
    solver='liblinear',  # L1需用专用求解器  
    random_state=42  
)  
clf_l1.fit(X_train, y_train)  

# 输出非零权重数量（原30维，筛选后剩余关键特征）  
print(f"L1正则化后非零权重数：{(clf_l1.coef_ != 0).sum()}")  
# 输出示例：8（仅8个特征被保留，其余权重为0）

2. PyTorch 手动实现：细粒度控制正则化项

在深度学习中，需显式将正则项加入损失函数。以全连接层回归任务为例：
📌 L2正则化实现：

import torch  
import torch.nn as nn  
import torch.optim as optim  

class RegressionModel(nn.Module):  
    def __init__(self, input_dim):  
        super().__init__()  
        self.fc = nn.Linear(input_dim, 1)  # 线性层  

    def forward(self, x):  
        return self.fc(x)  

# 生成50维特征的模拟数据  
X = torch.randn(200, 50)  
y = torch.randn(200, 1)  
model = RegressionModel(input_dim=50)  
criterion = nn.MSELoss()  
optimizer = optim.Adam(model.parameters(), lr=0.001)  

lambda_l2 = **0.05**  # 正则化强度  
for epoch in range(200):  
    outputs = model(X)  
    mse_loss = criterion(outputs, y)  
    # 计算L2正则项：权重矩阵的Frobenius范数平方  
    l2_loss = lambda_l2 * (model.fc.weight ** 2).sum()  
    total_loss = mse_loss + l2_loss  

    optimizer.zero_grad()  
    total_loss.backward()  
    optimizer.step()  

print(f"L2正则化后权重范数：{torch.norm(model.fc.weight).item():.4f}")

📌 L1正则化仅需修改正则项计算方式：

lambda_l1 = **0.1**  
l1_loss = lambda_l1 * torch.norm(model.fc.weight, p=1)  # p=1表示L1范数  
total_loss = mse_loss + l1_loss

3. 可视化正则化路径：观察权重如何「瘦身」

使用 sklearn 绘制不同正则化强度下的权重变化轨迹，直观理解L1的稀疏化过程：

import matplotlib.pyplot as plt  
import numpy as np  
from sklearn.linear_model import LogisticRegressionCV  

# 生成100个对数间距的C值（C=1/λ）  
Cs = np.logspace(-3, 2, 100)  
coefs = []  

for C in Cs:  
    clf = LogisticRegression(  
        penalty='l1', C=C, solver='liblinear', random_state=42  
    )  
    clf.fit(X_train, y_train)  
    coefs.append(clf.coef_.ravel())  

# 绘制正则化路径图  
plt.figure(figsize=(12, 6))  
plt.plot(np.log10(Cs), coefs, alpha=0.7)  
plt.xlabel(r'$\log_{10}(C)$（C越大，正则化越弱）')  
plt.ylabel('权重系数')  
plt.title('L1正则化路径：特征筛选过程可视化')  
plt.show()

图中可见：随着C减小（λ增大），权重系数逐渐向0收缩，最终许多特征的权重严格归零，实现「特征减肥」。

三、对比分析：L1与L2的核心差异矩阵

我们来看两者在技术特性与工程场景中的关键区别，通过表格清晰呈现：

维度	L1正则化	L2正则化
特征选择能力	强（权重可精确为0，自动剔除无关特征）	弱（权重趋近于小值，保留所有特征）
稀疏性	严格稀疏（非零权重数远小于d）	近似稀疏（权重接近0但非零）
计算效率	较低（梯度在0点不可导，需特殊求解器）	较高（梯度光滑，支持大规模矩阵运算）
几何约束	钻石形（L1范数单位球）	圆形（L2范数单位球）
先验假设	拉普拉斯分布（鼓励稀疏解）	高斯分布（鼓励平滑解）
适用场景	高维稀疏数据（文本、基因数据）	连续相关特征（图像、时间序列）

场景选择指南：

选L1的3种情况：
① 特征维度d >> 样本量n（如文本分类的万维词向量）
② 需要模型具备可解释性（仅保留少数关键特征）
③ 数据包含大量无关噪声特征（如传感器异常数据）
选L2的3种情况：
① 特征之间高度相关（如图像相邻像素具有空间相关性）
② 不希望丢失任何特征信息（如医学检测指标均有临床意义）
③ 使用深度学习框架（L2与梯度下降、BatchNorm更兼容）