如何使用scikit learning计算多类案例的精度,召回率,准确性和f1-得分?
artificial-intelligence
machine-learning
nlp
python
8
0

我正在研究情绪分析问题,数据看起来像这样:

label instances
    5    1190
    4     838
    3     239
    1     204
    2     127

由于1190个instances标记为5因此我的数据不平衡。对于使用scikit的SVC进行的分类Im。问题是我不知道如何以正确的方式平衡我的数据,以便准确计算多类案例的精度,查全率,准确性和f1得分。因此,我尝试了以下方法:

第一:

    wclf = SVC(kernel='linear', C= 1, class_weight={1: 10})
    wclf.fit(X, y)
    weighted_prediction = wclf.predict(X_test)

print 'Accuracy:', accuracy_score(y_test, weighted_prediction)
print 'F1 score:', f1_score(y_test, weighted_prediction,average='weighted')
print 'Recall:', recall_score(y_test, weighted_prediction,
                              average='weighted')
print 'Precision:', precision_score(y_test, weighted_prediction,
                                    average='weighted')
print '\n clasification report:\n', classification_report(y_test, weighted_prediction)
print '\n confussion matrix:\n',confusion_matrix(y_test, weighted_prediction)

第二:

auto_wclf = SVC(kernel='linear', C= 1, class_weight='auto')
auto_wclf.fit(X, y)
auto_weighted_prediction = auto_wclf.predict(X_test)

print 'Accuracy:', accuracy_score(y_test, auto_weighted_prediction)

print 'F1 score:', f1_score(y_test, auto_weighted_prediction,
                            average='weighted')

print 'Recall:', recall_score(y_test, auto_weighted_prediction,
                              average='weighted')

print 'Precision:', precision_score(y_test, auto_weighted_prediction,
                                    average='weighted')

print '\n clasification report:\n', classification_report(y_test,auto_weighted_prediction)

print '\n confussion matrix:\n',confusion_matrix(y_test, auto_weighted_prediction)

第三:

clf = SVC(kernel='linear', C= 1)
clf.fit(X, y)
prediction = clf.predict(X_test)


from sklearn.metrics import precision_score, \
    recall_score, confusion_matrix, classification_report, \
    accuracy_score, f1_score

print 'Accuracy:', accuracy_score(y_test, prediction)
print 'F1 score:', f1_score(y_test, prediction)
print 'Recall:', recall_score(y_test, prediction)
print 'Precision:', precision_score(y_test, prediction)
print '\n clasification report:\n', classification_report(y_test,prediction)
print '\n confussion matrix:\n',confusion_matrix(y_test, prediction)


F1 score:/usr/local/lib/python2.7/site-packages/sklearn/metrics/classification.py:676: DeprecationWarning: The default `weighted` averaging is deprecated, and from version 0.18, use of precision, recall or F-score with multiclass or multilabel data or pos_label=None will result in an exception. Please set an explicit value for `average`, one of (None, 'micro', 'macro', 'weighted', 'samples'). In cross validation use, for instance, scoring="f1_weighted" instead of scoring="f1".
  sample_weight=sample_weight)
/usr/local/lib/python2.7/site-packages/sklearn/metrics/classification.py:1172: DeprecationWarning: The default `weighted` averaging is deprecated, and from version 0.18, use of precision, recall or F-score with multiclass or multilabel data or pos_label=None will result in an exception. Please set an explicit value for `average`, one of (None, 'micro', 'macro', 'weighted', 'samples'). In cross validation use, for instance, scoring="f1_weighted" instead of scoring="f1".
  sample_weight=sample_weight)
/usr/local/lib/python2.7/site-packages/sklearn/metrics/classification.py:1082: DeprecationWarning: The default `weighted` averaging is deprecated, and from version 0.18, use of precision, recall or F-score with multiclass or multilabel data or pos_label=None will result in an exception. Please set an explicit value for `average`, one of (None, 'micro', 'macro', 'weighted', 'samples'). In cross validation use, for instance, scoring="f1_weighted" instead of scoring="f1".
  sample_weight=sample_weight)
 0.930416613529

但是,我收到这样的警告:

/usr/local/lib/python2.7/site-packages/sklearn/metrics/classification.py:1172:
DeprecationWarning: The default `weighted` averaging is deprecated,
and from version 0.18, use of precision, recall or F-score with 
multiclass or multilabel data or pos_label=None will result in an 
exception. Please set an explicit value for `average`, one of (None, 
'micro', 'macro', 'weighted', 'samples'). In cross validation use, for 
instance, scoring="f1_weighted" instead of scoring="f1"

如何正确处理我的不平衡数据,以便以正确的方式计算分类器的指标?

参考资料:
Stack Overflow
收藏
评论
共 4 个回答
高赞 时间 活跃

首先,仅使用计数分析来判断您的数据是否不平衡,要困难一些。例如:每1000个阳性观察中就有1个只是噪音,错误还是科学突破?你永远不会知道。
因此,最好使用所有可用的知识并明智地选择其状态。

好吧,如果真的不平衡怎么办?
再次-查看您的数据。有时您会发现一两个观察值乘以一百倍。有时创建这种虚假的一类观察很有用。
如果所有数据都是干净的,下一步是在预测模型中使用类权重。

那么多类指标呢?
根据我的经验,通常不会使用您的任何指标。有两个主要原因。
第一:使用概率比使用可靠预测总是更好(因为如果两个模型都给您相同的类,那么您还可以如何分开使用0.9和0.6预测的模型?)
第二:仅根据一个好的指标,比较您的预测模型并建立新的预测模型就容易得多。
根据我的经验,我可以推荐对数丢失MSE (或均方误差)。

如何解决sklearn警告?
只是简单地(如yangjie所注意到的),使用以下值之一覆盖average参数: 'micro' (全局计算指标), 'macro' (计算每个标签的指标)或'weighted' (与宏相同,但具有自动权重)。

f1_score(y_test, prediction, average='weighted')

在使用默认average 'binary'调用指标函数后发出所有警告,这不适用于多类别预测。
祝你好运,并享受机器学习的乐趣!

编辑:
我找到了另一个答覆者建议,建议改用我无法同意的回归方法(例如SVR)。据我所知,甚至没有多类回归。是的,多标签回归有很大的不同,是的,在某些情况下,有可能在回归和分类之间进行切换(如果类以某种方式排序),但这种情况很少见。

我建议(在scikit-learn范围内)尝试另一种非常强大的分类工具: 梯度增强随机森林 (我最喜欢), KNeighbors等。

之后,您可以计算预测之间的算术平均值或几何平均值,并且大多数时候您将获得更好的结果。

final_prediction = (KNNprediction * RFprediction) ** 0.5
收藏
评论

这里有很多非常详细的答案,但我认为您没有回答正确的问题。据我了解的问题,有两个问题:

  1. 我如何为多类问题评分?
  2. 我该如何处理不平衡的数据?

1。

可以将scikit-learn中的大多数计分函数用于多类问题和单类问题。例如:

from sklearn.metrics import precision_recall_fscore_support as score

predicted = [1,2,3,4,5,1,2,1,1,4,5] 
y_test = [1,2,3,4,5,1,2,1,1,4,1]

precision, recall, fscore, support = score(y_test, predicted)

print('precision: {}'.format(precision))
print('recall: {}'.format(recall))
print('fscore: {}'.format(fscore))
print('support: {}'.format(support))

这样,您最终得到每个类的有形和可解释的数字。

| Label | Precision | Recall | FScore | Support |
|-------|-----------|--------|--------|---------|
| 1     | 94%       | 83%    | 0.88   | 204     |
| 2     | 71%       | 50%    | 0.54   | 127     |
| ...   | ...       | ...    | ...    | ...     |
| 4     | 80%       | 98%    | 0.89   | 838     |
| 5     | 93%       | 81%    | 0.91   | 1190    |

然后...

2。

...您可以判断出不平衡的数据是否甚至是一个问题。如果代表较少的班级(第1类和第2类)的得分低于训练样本较多的班级(第4类和第5类)的得分,那么您知道不平衡的数据实际上是个问题,您可以采取相应的措施,例如在该线程的其他一些答案中进行了介绍。但是,如果要预测的数据中存在相同的类别分布,那么不平衡的训练数据可以很好地代表数据,因此,不平衡是一件好事。

收藏
评论

提出的问题

回答“对于不平衡数据的多类别分类应使用何种度量”这一问题:Macro-F1-measure。也可以使用Macro Precision和Macro Recall,但是它们不像二进制分类那样容易解释,它们已经被合并到F-measure中,过多的度量使方法比较,参数调整等变得复杂。

微观平均对类不平衡很敏感:例如,如果您的方法对大多数常见标签都适用,而完全使其他标签混乱,则微观平均指标将显示出良好的结果。

加权平均不适用于不平衡数据,因为它按标签计数加权。此外,它很难解释且不受欢迎:例如,在以下非常详细的调查中,我强烈建议仔细阅读以下内容,其中没有提及这种平均值:

Sokolova,Marina和Guy Lapalme。 “对分类任务的绩效指标进行系统分析。”信息处理与管理45.4(2009):427-437。

特定于应用程序的问题

但是,回到您的任务,我将研究2个主题:

  1. 通常用于您的特定任务的度量标准-它使(a)与他人比较您的方法,并了解您做错了什么,以及(b)不要自己探索此方法并重用他人的发现;
  2. 方法的不同错误的成本-例如,您的应用程序的用例可能仅依赖于4星级和5星级审核-在这种情况下,好的指标应仅计算这两个标签。

常用指标。从文献资料中可以推断出,有2个主要的评估指标:

  1. 精度 ,例如

Yu,April和Daryl Chang。 “使用Yelp业务进行多类情感预测。”

链接 )-请注意,作者使用的评级分布几乎相同,请参见图5。

庞波和李丽娟“看见星星:利用阶级关系来进行与等级量表有关的情感分类。”计算语言学协会第四十三届年会论文集。计算语言学协会,2005年。

链接

  1. MSE (或更不常见的是,平均绝对误差-MAE )-例如,请参见

Lee,Moontae和R.Grafe。 “带有餐厅评论的多类情感分析。” CS N 224(2010)中的最终项目。

链接 )-他们同时探讨准确性和MSE,并认为后者会更好

帕帕斯,尼古拉斯,Rue Marconi和Andrei Popescu-Belis。 “解释星星:基于方面的情感分析的加权多实例学习。” 2014年自然语言处理中的经验方法会议论文集。 EPFL-CONF-200899号。 2014。

链接 )-他们利用scikit-learn进行评估和基准评估,并声明其代码可用;但是,我找不到它,所以如果您需要它,请写信给作者,这本书是相当新的,似乎是用Python编写的。

代价不同的错误如果您更关心避免出现大失误,例如将1星评价转换为5星评价或类似方法,请查看MSE。如果差异很重要,但不是那么重要,请尝试MAE,因为它不会使差异平方;否则保持准确性。

关于方法,而不是指标

请尝试使用回归方法,例如SVR ,因为它们通常胜过SVC或OVA SVM之类的多类分类器。

收藏
评论

我认为对于将哪些砝码用于什么有很多困惑。我不确定我是否确切地知道您会打扰您,所以我将涉及不同的话题,请耐心等待;)。

班级重量

来自class_weight参数的权重用于训练分类器 。它们不会用于您正在使用的任何度量的计算中 :使用不同的类别权重,数字会有所不同,这仅仅是因为分类器不同。

基本上,在每个scikit-learn分类器中,类权重都用于告诉您的模型,类的重要性。这意味着在训练过程中,分类器将付出更多的努力来对权重较高的类进行正确分类。
他们如何做到的是特定于算法的。如果您需要有关SVC如何工作的详细信息,而该文档对您而言没有意义,请随时提及。

指标

有了分类器后,您想知道其效果如何。在这里,您可以使用您提到的指标: accuracyrecall_scoref1_score ...

通常,当班级分布不平衡时,准确性被认为是较差的选择,因为它会给只预测最频繁班级的模型打高分。

我不会详细介绍所有这些指标,但是请注意,除accuracy ,它们自然会应用于类级别:如您在此分类报告print中所看到的,它们是为每个类定义的。他们依靠诸如true positivesfalse negative类的概念,这些概念要求定义哪一类是肯定类。

             precision    recall  f1-score   support

          0       0.65      1.00      0.79        17
          1       0.57      0.75      0.65        16
          2       0.33      0.06      0.10        17
avg / total       0.52      0.60      0.51        50

警告

F1 score:/usr/local/lib/python2.7/site-packages/sklearn/metrics/classification.py:676: DeprecationWarning: The 
default `weighted` averaging is deprecated, and from version 0.18, 
use of precision, recall or F-score with multiclass or multilabel data  
or pos_label=None will result in an exception. Please set an explicit 
value for `average`, one of (None, 'micro', 'macro', 'weighted', 
'samples'). In cross validation use, for instance, 
scoring="f1_weighted" instead of scoring="f1".

之所以会收到此警告,是因为您使用的是f1分数,召回率和精确度,而未定义应如何计算它们!问题可以改写:从以上分类报告中,您如何为f1分数输出一个全局数字?你可以:

  1. 取每个类别的f1分数的avg / total :这就是上面的avg / total结果。也称为平均。
  2. 使用真实阳性/阴性阴性等的全局计数来计算f1-分数(您将每个类别的真实阳性/阴性阴性的总数相加)。又名平均。
  3. 计算f1分数的加权平均值。在scikit-learn中使用'weighted'将通过类的支持权衡f1分数:类具有的元素越多,则该类的f1分数在计算中就越重要。

这是scikit-learn中的3个选项,警告是说您必须选择一个 。因此,您必须为score方法指定一个average参数。

选择哪种方法取决于您如何衡量分类器的性能:例如,宏平均不考虑类的不平衡,并且类1的f1分数与类的f1分数一样重要5.但是,如果您使用加权平均,则对于第5类,您将变得更加重要。

这些指标中的整个参数规范目前在scikit-learn中尚不十分清楚,根据文档,它将在0.18版中变得更好。他们正在删除一些不太明显的标准行为,并发出警告,以便开发人员注意到它。

计算分数

我要提到的最后一件事(如果您知道它,可以随时跳过它)是,分数只有在基于分类器从未见过的数据进行计算时才有意义。这是非常重要的,因为您获得的用于拟合分类器的数据得分都是完全不相关的。

这是使用StratifiedShuffleSplit做到这一点的一种方法,它可以随机分配数据(经过改组后),以保留标签的分布。

from sklearn.datasets import make_classification
from sklearn.cross_validation import StratifiedShuffleSplit
from sklearn.metrics import accuracy_score, f1_score, precision_score, recall_score, classification_report, confusion_matrix

# We use a utility to generate artificial classification data.
X, y = make_classification(n_samples=100, n_informative=10, n_classes=3)
sss = StratifiedShuffleSplit(y, n_iter=1, test_size=0.5, random_state=0)
for train_idx, test_idx in sss:
    X_train, X_test, y_train, y_test = X[train_idx], X[test_idx], y[train_idx], y[test_idx]
    svc.fit(X_train, y_train)
    y_pred = svc.predict(X_test)
    print(f1_score(y_test, y_pred, average="macro"))
    print(precision_score(y_test, y_pred, average="macro"))
    print(recall_score(y_test, y_pred, average="macro"))    

希望这可以帮助。

收藏
评论
新手导航
  • 社区规范
  • 提出问题
  • 进行投票
  • 个人资料
  • 优化问题
  • 回答问题

关于我们

常见问题

内容许可

联系我们

@2020 AskGo
京ICP备20001863号