AUC并不总是在ROC曲线的曲线下方。曲线下面积为一些曲线下(抽象)地区,因此它比AUROC更一般的事情。对于不平衡的类,最好为精确调用曲线找到AUC。
见sklearn源roc_auc_score
:
def roc_auc_score(y_true, y_score, average="macro", sample_weight=None):
# <...> docstring <...>
def _binary_roc_auc_score(y_true, y_score, sample_weight=None):
# <...> bla-bla <...>
fpr, tpr, tresholds = roc_curve(y_true, y_score,
sample_weight=sample_weight)
return auc(fpr, tpr, reorder=True)
return _average_binary_score(
_binary_roc_auc_score, y_true, y_score, average,
sample_weight=sample_weight)
如您所见,这首先获得roc曲线,然后调用auc()
获得面积。
我猜你的问题是predict_proba()
调用。对于普通的predict()
,输出始终相同:
import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_curve, auc, roc_auc_score
est = LogisticRegression(class_weight='auto')
X = np.random.rand(10, 2)
y = np.random.randint(2, size=10)
est.fit(X, y)
false_positive_rate, true_positive_rate, thresholds = roc_curve(y, est.predict(X))
print auc(false_positive_rate, true_positive_rate)
# 0.857142857143
print roc_auc_score(y, est.predict(X))
# 0.857142857143
如果为此更改以上内容,有时会得到不同的输出:
false_positive_rate, true_positive_rate, thresholds = roc_curve(y, est.predict_proba(X)[:,1])
# may differ
print auc(false_positive_rate, true_positive_rate)
print roc_auc_score(y, est.predict(X))
0
我很难理解scikit-learn中
roc_auc_score()
和auc()
之间的区别(如果有)。试图预测具有不平衡类的二进制输出(Y = 1时约为1.5%)。
分类器
大鹏曲线
AUC的
和
有人可以解释这种差异吗?我以为两者都只是在计算ROC曲线下的面积。可能是因为数据集不平衡,但我不知道为什么。
谢谢!