こしあん
2019-01-12

TensorFlowで値のソートをする方法


TensorFlowでNumpyのnp.sortやnp.argsortのようなソートを行うことを考えます。一般にTensorFlowで値のソートというと、自動微分もあわさって難しいように思えますが、実はちゃんとソートできます。うまくやればKerasからも使うことができます。

tf.nn.top_k()を使う

tf.nn.top_k (tf.math.top_kも同じ)
https://www.tensorflow.org/api_docs/python/tf/math/top_k

本来この関数はImageNetなど、分類問題での「Top-5 Acuuracy」といった評価関数の計算に用いられるものです。「top_k」という名前がついていてわかりづらくなっていますが、内部的にやっているのはソートに他なりません。

入力次元=kの値ならただのソート

例えば、「入力次元=kの値」とすると、完全なソートになります。np.sort()とほぼ同じ感覚で使えます。

import numpy as np
import tensorflow as tf
import keras.backend as K

# 点数のソート
score = np.array([70,90,80,95], dtype=np.float32)
score_tensor = tf.Variable(score)
sorted = tf.nn.top_k(score_tensor, k=4).values

result = K.eval(sorted)
print(result)
# [95. 90. 80. 70.]

出力は降順となりますが、昇順で取りたければスライス([::-1])で取るか、「sorted=False」と指定します。ただし、「sorted=False」かつ入力次元=kの値の場合は、降順ソートのままの出力になってしまうバグがある(1.12.0時点)ので注意してください。スライスの場合は特に問題ないです。

ちなみにsortedの中身をvaluesではなくindicesとすると、“np.argsort()“`とほぼ同じになります。

# 点数のソート
score = np.array([70,90,80,95], dtype=np.float32)
score_tensor = tf.Variable(score)
sorted = tf.nn.top_k(score_tensor, k=4).indices

result = K.eval(sorted)
print(result)
#[3 1 2 0]

ちなみに、「.indices」や「.values」による指定をなくすとKerasのK.eval()で評価することができなくなります。

    return to_dense(x).eval(session=get_session())
AttributeError: 'TopKV2' object has no attribute 'eval'

Keras側からtf.nn.top_kを呼び出す際は、「.indices」や「.values」の指定をしたほうがいいかもしれません。TensorFlowで完結する場合は特に問題ないでしょう。

kの値を指定すると「ORDER BY desc~LIMIT k」に相当

SQLでよくやるやつ

score = np.array([70,90,80,95], dtype=np.float32)
score_tensor = tf.Variable(score)
sorted = tf.nn.top_k(score_tensor, k=2).values

result = K.eval(sorted)
print(result)
# [95. 90.]

うまくいきました。

行列に対してもできる

行列の場合もソートできます。最後の次元に対してソートを行います。

import numpy as np
import tensorflow as tf
import keras.backend as K

# 1行目が数学、2行目が英語
score = np.array([[70,90,80,95], [8,6,10,9]], dtype=np.float32)
score_tensor = tf.Variable(score)
sorted = tf.nn.top_k(score_tensor, k=3)

print(K.eval(sorted.indices))
#[[3 1 2]
# [2 3 0]]
print(K.eval(sorted.values))
#[[95. 90. 80.]
# [10.  9.  8.]]

教科別の得点(axis=1)でソートされているのがわかります。便利ですねこの関数。

Related Posts

TensorFlow/Kerasでの分散共分散行列・相関行列、テンソル主成分分析の実装... TensorFlowでは分散共分散行列や主成分分析用の関数が用意されていません。訓練を一切せずにTensorFlowとKeras関数だけを使って、分散共分散行列、相関行列、主成分分析を実装します。最終的にはカテゴリー別のテンソル主成分分析を作れるようにします。 何らかの論文でこれらのテクニックを...
Kerasで損失関数に複数の変数を渡す方法... Kerasで少し複雑なモデルを訓練させるときに、損失関数にy_true, y_pred以外の値を渡したいときがあります。クラスのインスタンス変数などでキャッシュさせることなく、ダイレクトに損失関数に複数の値を渡す方法を紹介します。 元ネタ:Passing additional arguments...
Kerasのジェネレーターでサンプルが列挙される順番について... Kerasの(カスタム)ジェネレーターでサンプルがどの順番で呼び出されるか、1ループ終わったあとにどういう処理がなされるのか調べてみました。ジェネレーターを自分で定義するとモデルの表現の幅は広がるものの、バグが起きやすくなるので「本当に順番が保証されるのか」や「ハマりどころ」を確認します。 0~...
Chainerで画像の前処理やDataAugmentationをしたいときはDatasetMixin... Chainerにはデフォルトでランダムクロップや標準化といった、画像の前処理やDataAugmentation用の関数が用意されていません。別途のChainer CVというライブラリを使う方法もありますが、chainer.dataset.DatasetMixinを継承させて独自のデータ・セットを定...
Google ColabのTPU環境でmodel.fitのhistoryが消える現象... Google ColabのTPU環境でmodel.fitしたときに、通常の環境で得られるhistory(誤差や精度のログ)が消えていることがあります。その対応法を示します。 原因はTPU用のモデルに変換したから まず結論からいうとこの現象はCPU/GPU環境では再発しません。TPU環境特有の現...

Add a Comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です