十分钟掌握分类算法的评估指标

这是我参与8月更文挑战的第16天,活动详情查看:8月更文挑战

什么是评估指标?

评估指标是针对模型性能优劣的一个定量指标。一种评价指标只能反映模型一部分性能,如果选择的评价指标不合理,那么可能会得出错误的结论,故而应该针对具体的数据、模型选取不同的的评价指标

针对不同类型的学习任务,我们有不同的评估指标,这里我们来介绍最常见的分类算法的一些评估指标。常用的分类任务评价指标有准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1 Score、P-R曲线(Precision-Recall Curve)、ROC、AUC等。

基本概念-混淆矩阵

混淆矩阵(confusion matrix)是一个评估分类问题常用的工具,对于 k 元分类,其实它就是一个k x k的表格,用来记录分类器的预测结果。对于常见的二分类,它的混淆矩阵是 2×2 的。

在二分类中,可以将样本根据其真实结果和模型的预测结果的组合划分为真阳性(true positive,TP)、真阴性(true negative,TN)、假阳性(false positive,FP)、假阴性(false negative,FN)。根据 TP、TN、FP、FN 即可得到二分类的混淆矩阵,如下图所示。

image.png

  • TP:True Positives, 表示 真实值为正例 且被 分类器判定为正例(预测值) 的样本数
  • FP:False Positives, 表示 真实值为负例 且被 分类器判定为正例(预测值) 的样本数
  • FN:False Negatives, 表示 真实值为正例 但被 分类器判定为负例(预测值) 的样本数
  • TN:True Negatives, 表示真实值为负例且被 分类器判定为负例(预测值) 的样本数

注意:

第一个字母表示真实值与预测值划分正确与否, T 表示判定正确(True), F 表示判定错误 (False)。

第二个字母表示分类器判定结果(预测结果), P 表示判定为正例, N 表示判定为负例。

分类算法的评估指标

准确率(Accuracy)

准确率指分类正确的样本占总样本个数的比例。准确率是针对所有样本的统计量。它被定义为:

Accuracy=TP+TNTP+FP+TN+FN=正确预测的样本数所有的样本数Accuracy=\frac{TP+TN}{TP+FP+TN+FN}=\frac{正确预测的样本数}{所有的样本数}

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享