【深度学习|学习笔记】如何提高小型网络的精度？原则 → 方法 → 代码骨架 → 落地细节！（二）

2401_89898861

993人浏览 · 2025-10-07 08:45:00

2401_89898861 · 2025-10-07 08:45:00 发布

【深度学习|学习笔记】如何提高小型网络的精度？原则 → 方法 → 代码骨架 → 落地细节！（二）

文章目录

【深度学习|学习笔记】如何提高小型网络的精度？原则 → 方法 → 代码骨架 → 落地细节！（二）
前言

欢迎铁子们点赞、关注、收藏！
祝大家逢考必过！逢投必中！上岸上岸上岸！upupup

大多数高校硕博生毕业要求需要参加学术会议，发表EI或者SCI检索的学术论文会议论文。详细信息可扫描博文下方二维码 “学术会议小灵通”或参考学术信息专栏：https://blog.csdn.net/2401_89898861/article/details/148877490

前言

下面给你一份“小型网络提效路线图 + 可直接复用的 PyTorch 配方”。内容按“原则 → 方法 → 代码骨架 →
落地细节/坑位”展开，你可以把代码片段按需拼装到自己的训练脚本中。

2) PyTorch“可拼装”训练配方（小网络专用）

说明：下面是可直接集成的函数/模块：Label Smoothing、Mixup/CutMix、Focal/类平衡损失、Warmup+Cosine、EMA、KD 蒸馏、TTA、SE 模块、GroupNorm 小批训练稳定化。你可以把它们嵌入自己的 train_one_epoch 和 evaluate 中。

2.1 训练循环（支持 Mixup/CutMix + Label Smoothing + KD + EMA）

def train_one_epoch(
    model, loader, optimizer, epoch,
    criterion_ce, device,
    teacher=None, kd_T=4.0, kd_alpha=0.5,
    use_mixup=True, use_cutmix=False,  # 二选一或都关
    grad_clip=1.0, ema: EMA=None
):
    model.train()
    total_loss = 0.0
    for x, y in loader:
        x, y = x.to(device, non_blocking=True), y.to(device, non_blocking=True)

        lam, y_a, y_b = 1.0, y, y
        if use_cutmix:
            x, y_a, y_b, lam = cutmix_data(x, y, alpha=1.0)
        elif use_mixup:
            x, y_a, y_b, lam = mixup_data(x, y, alpha=0.2)

        logits = model(x)
        ce = mix_criterion(criterion_ce, logits, y_a, y_b, lam) if (use_mixup or use_cutmix) else criterion_ce(logits, y)

        loss = ce
        if teacher is not None:
            with torch.no_grad():
                t_logits = teacher(x)  # 可以用 EMA 教师或预训练大教师
            loss = kd_alpha * ce + (1 - kd_alpha) * kd_loss(logits, t_logits, T=kd_T)

        optimizer.zero_grad(set_to_none=True)
        loss.backward()
        if grad_clip is not None:
            nn.utils.clip_grad_norm_(model.parameters(), grad_clip)
        optimizer.step()

        if ema is not None:
            ema.update(model)

        total_loss += loss.item() * x.size(0)
    return total_loss / len(loader.dataset)

2.2 评估（含 TTA）

@torch.no_grad()
def evaluate(model, loader, device, num_classes):
    model.eval()
    correct, total = 0, 0
    for x, y in loader:
        x, y = x.to(device), y.to(device)
        logits = tta_logits(model, x)  # 如需关闭 TTA，改为 model(x)
        pred = logits.argmax(1)
        correct += (pred == y).sum().item()
        total += y.numel()
    return correct / total

2.3 一把梭的 main（展示：类平衡 + Label Smoothing + Warmup-Cosine + EMA + 自蒸馏）

def run_training(train_loader, val_loader, num_classes=10, epochs=100, lr=0.1, wd=5e-4, device='cuda'):
    student = SmallSEConvNet(num_classes=num_classes).to(device)
    # EMA 自蒸馏：以学生的 EMA 作为教师（无须大教师）
    ema_teacher = EMA(student, decay=0.999)

    # 类平衡权重（从 train_loader 首批统计或预先统计）
    all_labels = torch.cat([y for _, y in train_loader], dim=0)
    cb_weight = class_balanced_weight(all_labels, num_classes=num_classes, beta=0.999).to(device)

    criterion = SmoothCE(eps=0.1, weight=cb_weight)  # Label Smoothing + 类平衡
    optimizer = torch.optim.SGD(student.parameters(), lr=lr, momentum=0.9, weight_decay=wd, nesterov=True)
    scheduler = build_warmup_cosine(optimizer, warmup_epochs=5, total_epochs=epochs)

    best_acc, best_state = 0.0, None
    for ep in range(epochs):
        # 用上一轮 EMA 权重复制到一个“冻结教师”上做蒸馏
        teacher_model = copy.deepcopy(student).to(device)
        ema_teacher.apply_to(teacher_model)  # teacher = EMA(student)
        for p in teacher_model.parameters(): p.requires_grad_(False)

        tr_loss = train_one_epoch(
            student, train_loader, optimizer, ep, criterion, device,
            teacher=teacher_model, kd_T=4.0, kd_alpha=0.6,
            use_mixup=True, use_cutmix=False, grad_clip=1.0, ema=ema_teacher
        )
        scheduler.step()
        val_acc = evaluate(student, val_loader, device, num_classes)

        if val_acc > best_acc:
            best_acc, best_state = val_acc, copy.deepcopy(student.state_dict())

        print(f"Epoch {ep+1}/{epochs} | train_loss={tr_loss:.4f} | val_acc={val_acc:.4f}")

    # 加载最佳权重并再套一次 EMA（提升泛化）
    student.load_state_dict(best_state)
    ema_teacher.apply_to(student)
    return student, best_acc