こしあん
2019-02-21

Scikit-learnのROC/AUCのy_predのスケールについて


SklearnのROC曲線/AUCスコアのy_pred側のスケールは実は0~1でなくてもよかったという話。0~1以外の値を放り込んでもちゃんと計算できるか確かめてみました。

公式ドキュメントを読むと

SklearnにはAUC(Area under the curve)スコアを計算してくれる関数roc_auc_scoreというのがあります。公式ドキュメントを読むと、

sklearn.metrics.roc_auc_score(y_true, y_score, average=’macro’, sample_weight=None, max_fpr=None)

よくあるSklearnのmetricsのように(y_true, y_pred)の順で放り込めばいいですね。y_trueはだいたい0or1で正しい確率を放り込めばいいいのはわかりますが、y_predは必ずしも確率を放り込まなくてもいいようです。

y_true : array, shape = [n_samples] or [n_samples, n_classes]
True binary labels or binary label indicators.

y_score : array, shape = [n_samples] or [n_samples, n_classes]
Target scores, can either be probability estimates of the positive class, confidence values, or non-thresholded measure of decisions (as returned by “decision_function” on some classifiers). For binary y_true, y_score is supposed to be the score of the class with greater label.

とあるように、y_trueはバイナリーラベルか、0,1,2のようなラベルのインジケーターでなければいけないのですが、y_predはどこにも0~1のスケールでなければいけないとは書いていないのです。

それどころか、ここの部分「non-thresholded measure of decisions (as returned by “decision_function” on some classifiers)」という表記にあるように、スレッショルド(しきい値)を計算していない状態での何らかの値を放り込んで、そこからROC曲線を描いてAUCを求めるみたいなことができてしまいます。

y_trueもy_predも確率の場合のAUC

例えば二値分類の場合。何らかの分類器がy=1である確率を出力したとして、AUCを計算してみます。

import numpy as np
from sklearn.metrics import roc_auc_score

y_true = np.array([0., 1., 0., 1., 0.])
y_pred = np.array([0.2, 0.5, 0.3, 0.4, 0.1])
print(roc_auc_score(y_true, y_pred))

本当のラベルは、2,4番目のサンプルが1で、1,3,5番目のサンプルは0であることを示します。この場合は、「y_predが0.3より大きい」という条件でしきい値を引いてしまえば100%正しく分類できるので、AUCスコアは1となります。実際に計算すると、

1.0

このように1.0になりました。マルチクラスの場合も同様で、

import numpy as np
from sklearn.metrics import roc_auc_score

y_true = np.array([[0., 1.], [1., 0.], [0., 1.], [1., 0.], [0., 1.]])
y_pred = np.array([[0.2,0.8], [0.5,0.5], [0.3,0.7], [0.4,0.6], [0.1,0.9]])
print(roc_auc_score(y_true, y_pred, average=None))
# [1. 1.]

このようにクラスごとにAUCスコアは1になっています。デフォルトだとクラス間のreduceが入るので、average=Noneとしました。

y_predを確率としない場合

ここからが本題で、y_predのスケールが適当だった場合を考えます。例えばユークリッド距離だったりする場合です。

import numpy as np
from sklearn.metrics import roc_auc_score

y_true = np.array([0., 1., 0., 1., 0.])
y_pred = np.array([20, 50, 30, 40, 10])
print(roc_auc_score(y_true, y_pred))
# 1.0

このように、y_predが0~1のスケールでなくてもOKということが確認できてしまいました。y_predが30より大きいでしきい値を引いてしまえば完全に分割できますからね。マルチクラスの場合も同様にうまくいくのでしょうか。

import numpy as np
from sklearn.metrics import roc_auc_score

y_true = np.array([[0., 1.], [1., 0.], [0., 1.], [1., 0.], [0., 1.]])
y_pred = np.array([[20,10], [50,-30], [30,5], [40,-5], [10,20]])
print(roc_auc_score(y_true, y_pred, average=None))
# [1. 1.]

今度はy_predの1つ目の列と2つ目の列のスケールが異なる例です。これもうまくいきます。なぜなら1列目は同様に「30より大きい」、2列目は「-5より大きい」で完全に分割できるからです。

逆にちょっとAUCが下がってしまう例を見てみましょう。ノイズを混ぜてみます。

y_true = np.array([[0., 1.], [1., 0.], [0., 1.], [1., 0.], [0., 1.]])
y_pred = np.array([[45,-10], [50,-30], [30,5], [40,-5], [10,20]])
print(roc_auc_score(y_true, y_pred, average=None))
# [0.83333333 0.83333333]

y_predの1つ目を変えてみました。これだと1列目の「30より大きければ1」という条件に0(45)が混入し、2列目の「-5より大きければ1」という条件に1(-10)が混入しているため、AUCスコアは下がります。完全には分割することはできません。

まとめ

SklearnのROC曲線・AUCスコアでは、y_predのスケールを気にしなくてOKっぽい。わざわざスレッショルド求めるのめんどくさいっていうときに便利そうな機能なので積極的に使っていきたいです。

Related Posts

TensorFlow/Kerasでグラム行列(テンソル)を計算する方法... TensorFlowで分散や共分散が絡む演算を定義していると、グラム行列を計算する必要が出てくることがあります。行列はまだよくてもテンソルのグラム行列はどう計算するでしょうか?今回はテンソルの共分散計算に行く前に、その前提のテンソルのグラム行列の計算から見ていきます。 グラム行列とは 名前は仰...
TensorFlow/Kerasでの分散共分散行列・相関行列、テンソル主成分分析の実装... TensorFlowでは分散共分散行列や主成分分析用の関数が用意されていません。訓練を一切せずにTensorFlowとKeras関数だけを使って、分散共分散行列、相関行列、主成分分析を実装します。最終的にはカテゴリー別のテンソル主成分分析を作れるようにします。 何らかの論文でこれらのテクニックを...
note開設のお知らせ 本日noteを開設いたしました。 https://note.mu/koshian2 これは自分の記事をより多くの方々に読んでいただき、新たな読者の開拓を図るためであります。 当面は既存の記事の再送を中心に考えていますが、いくつかnote向けに読みやすい新規の記事も考えています。好評なら新規の...
統計学や機械学習で使われる分散共分散行列、相関行列とグラム行列の関係... TensorFlowなど分散共分散行列の計算関数が用意されていない場合は、分散共分散行列や相関行列を計算する際に自分で関数を定義しなければいけません。そこでグラム行列から、分散共分散行列、相関行列と派生させて計算する方法を理論を中心に見ていきます。 きっかけは主成分分析を使ったPCA Color...
Pythonでxy座標上の2点間の距離をforループを使わずに計算する方法... 機械学習でカーネル法やらクラスタリングをやっていると、何かと「2サンプル(点)間の距離」を計算することが多いです。ここではより一般的に「Pythonで2点間の距離をforループを使わずに行列(テンソル)計算として求める方法」を見ていきます。 動機 カーネル法やクラスタリングをしていると、ニュー...

Add a Comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です