14天机器学习DAY1-4|精确率与召回率,Roc曲线与PR曲线
在机器学习的算法评估中,尤其是分类算法评估中,我们经常听到精确率(precision)和召回率(recall),Roc曲线与PR曲线这些概念。
14天阅读挑战赛
努力是为了不平庸~
在机器学习的算法评估中,尤其是分类算法评估中,我们经常听到精确率(precision)和召回率(recall),Roc曲线与PR曲线这些概念。
目录
2.精确率(Precision)召回率(Recall)与特异性(Specificity)
2.6灵敏度/真阳率(true positive rate,TPR)
2.7 1-特异度/假阳率(false positive rate,FDR)
1.TP,FP,TN,FN
1.TP(True Positives):预测为正样本,实际也为正样本的特征数。
2.FP(False Positives):预测为正样本,实际为负样本的特征数。
3.TN(True Negatives):预测为负样本,实际也为负样本的特征数。
4.FN(False Negatives):预测为负样本,实际为正样本的特征数。
我们用一张图可以方便理解,里面绿色的半圆是TP,红色的半圆是FP,左边的深灰色长方形(不包括绿色半圆),就是FN;右边的浅灰色长方形(不包括红色半圆),就是TN。这个绿色和红色组成的圆内代表我们分类得到模型结果认为是正值的样本。

2.精确率(Precision)召回率(Recall)与特异性(Specificity)
2.1精确率(Precision)
精确率的定义由上图可得,是绿色半圆比上红色绿色组成的圆,严格的数学定义如下:
2.2召回率(Recall)
召回率的定义由上图可得,是绿色半圆除以左边的长方形,严格的数学定义如下:
2.3特异性(Specificity)
上图没有直接表明,是右边长方形去掉红色半圆除以右边的长方形,严格的数学定义如下:
2.4 
有时也用一个
值来综合评估精确率和召回率,它是精确率和召回率的调和均值。当精确率和召回率都高时,
值也会高,严格的数学定义如下:
2.5 
有时候我们对精确率和召回率并不是一视同仁,比如有时候我们更加重视精确率。我们用一个参数
来度量两者之间的关系。如果
>1,召回率有更大影响,如果
<1,精确率有更大影响。自然,当
= 1, 精确率和召回率影响力相同,和
形式一样。含有度量参数
的
我们记为
,严格的数学定义如下:
2.6灵敏度/真阳率(true positive rate,TPR)
它是所有实际正例中,正确识别的正例比例,它和召回率的表达式没有区别,严格的数学定义如下:
2.7 1-特异度/假阳率(false positive rate,FDR)
它是所有实际负例中,错误识别为正例的负例比例,严格的数学定义如下:
3.Roc曲线和PR曲线
了解精确率、召回率和特异度后,很容易理解Roc曲线和PR曲线。
以TPR灵敏度为y轴,以FPR特异度为x轴,我们直接得到了Roc曲线。从FPR和TPR的定义可以理解,TPR灵敏度越高,FPR特异度越小,我们的模型和算法就越高效。如(a)图所示,画出来的Roc曲线越靠近左上越好。从几何的角度讲,Roc曲线下方的面积越大越好,则模型越优。所以有时候我们用Roc曲线下的面积,即AUC(Area Under Curve)值来作为算法和模型好坏的标准。
以精确率为y轴,召回率为x轴,我们就得到了PR曲线,从精确率和召回率的定义可以得到,精确率越高,召回率越高,我们的模型和算法就越高效,也就是PR曲线越靠近右上越好。
使用RoC曲线和PR曲线,我们就能很方便的评估我们的模型的分类能力的优劣了。

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐


所有评论(0)