第五章:计算机视觉(Computer Vision)- 项目实战之图像分类

第二部分:图像分类实战

第四节:图像评估指标详解:准确率、精度、召回率、F1分数、混淆矩阵、ROC曲线与AUC

在图像分类任务中,仅仅依靠 损失函数的下降 并不足以衡量模型的实际性能。为了更加全面地评估分类器,我们需要使用多种评估指标。这些指标不仅帮助我们衡量模型整体的预测水平,还能分析其在不同类别上的表现。


1. 准确率(Accuracy)

定义

Accuracy = \frac{TP + TN}{TP + TN + FP + FN}

其中:

  • TP(True Positive):正类预测正确

  • TN(True Negative):负类预测正确

  • FP(False Positive):负类被预测为正类

  • FN(False Negative):正类被预测为负类

特点

  • 在样本类别分布均衡时,准确率是一个直观且有效的指标。

  • 当类别极度不平衡时,准确率可能会产生误导。例如,在“癌症检测”中,如果 99% 的样本都是健康,模型全预测健康仍能有 99% 的准确率,但显然没有实际意义。


2. 精度(Precision)

定义

Precision = \frac{TP}{TP + FP}

含义:模型预测为“正”的样本中,有多少是真正的正样本。

  • 适合关注“预测的可靠性”的任务,比如垃圾邮件过滤(不希望正常邮件被错分为垃圾)。


3. 召回率(Recall)

定义

Recall = \frac{TP}{TP + FN}

含义:在所有真实的“正样本”中,模型找出了多少。

  • 适合关注“是否遗漏”的任务,比如癌症检测(希望尽可能发现所有癌症病例)。


4. F1 分数(F1 Score)

定义

F1 = 2 \cdot \frac{Precision \cdot Recall}{Precision + Recall}

含义:F1 分数是 精度和召回率的调和平均数,兼顾两者。

  • 当需要在“不能错分太多”和“不能漏掉太多”之间平衡时,F1 是一个更好的指标。


5. 混淆矩阵(Confusion Matrix)

形式

预测为正 预测为负
真实为正 TP FN
真实为负 FP TN

作用

  • 提供每个类别的详细预测情况。

  • 可以一眼看出模型是“漏判”还是“错判”更严重。

  • 在多分类任务中,混淆矩阵是一个 C×C 的矩阵(C 为类别数)。


6. ROC 曲线(Receiver Operating Characteristic Curve)

构造方法

  • 横轴:假阳性率 FPR = FP / (FP + TN)

  • 纵轴:真正率 TPR = Recall = TP / (TP + FN)

  • 通过改变分类阈值,绘制不同点,连接形成曲线。

特点

  • ROC 曲线越靠近左上角,模型性能越好。

  • 适合二分类任务。


7. AUC(Area Under Curve)

定义:ROC 曲线下的面积。

  • AUC = 1:完美分类器。

  • AUC = 0.5:等同于随机猜测。

  • AUC 越高,说明模型区分正负样本的能力越强。


8. 各指标总结与应用场景

  • 准确率:样本分布均衡时首选。

  • 精度:关注预测结果的“可靠性”,如垃圾邮件过滤。

  • 召回率:关注是否能覆盖所有正类,如医学诊断。

  • F1 分数:需要权衡精度和召回率时使用。

  • 混淆矩阵:多类别任务必备,可直观分析错误类型。

  • ROC & AUC:二分类模型性能比较的重要工具。


小结
在图像分类任务中,单一指标不足以全面反映模型表现。我们通常需要结合 准确率、精度、召回率、F1、混淆矩阵和 AUC 来综合分析,才能对模型性能有更全面的理解。

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐