特にテーブルデータで、実際の分析に入る前に欠損値やデータの分布の把握といった、探索的データ解析(EDA)というのは重要なプロセスになります。TensorFlow Data Validationというツールを使うとそれがたった数行で簡単にできます。その方法を紹介します。
目次
欠損値や外れ値、値の分布などを調べること。これによって適切な前処理を選んでいくための重要なプロセス。Kaggleのテーブルコンペではほぼ必ずといっていいほどEDAのカーネルがあります。
コードがめんどい。たかが前処理選ぶためのヒストグラムを書くのにいちいちコード書きたくない。いい感じに表形式でプロットするのをずばーっとやりたい。
TensorFlow Data Validation(TFDV)というのを使ってみましょう。ただし、Windows非対応(Ubuntu、MacOSのみ対応)なのでColab環境で行います。
インストールはpipから一発です。
!pip install tensorflow-data-validation
インストールが終わったら再起動を促すメッセージが表示されるので、ランタイムを再起動してみましょう。
おなじみのタイタニックのデータをTensorFlow Data Validationで見てみましょう。こちらのデータを使います。
wgetでデータをコピーします
!wget https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv
import tensorflow_data_validation as tfdv
たった2行でできます。
stats = tfdv.generate_statistics_from_csv("titanic.csv")
tfdv.visualize_statistics(stats)
CSVをそのままvisualize_statisticsに読ませることはできないので、TFDV用のstatisticsにコンバートしています。内部的にはスキーマーの推定などをやっているそうです。
TFDVの可視化にはNumeric Features(数値変数)と、Categorical Features(カテゴリー変数)に自動分類されます。それぞれどのような出力になるか見ていきます。
たった2行の割にここまで出してくれるのはすごい。見方は次の通りです。
欠損値が有益な情報ですね。右のヒストグラムで変数の分布も見ることができます。また他には「Sort by」で変数のソートや、「Feature search」で変数のフィルタリングもできます。
「Chart to show」を「Quantiles」にします。こうするとクォンタイル値が表示できます。
特にスケール調整する際に有効になりそうです。
これは標準的な表示でもクォンタイル表示でもできますが、対数変換もできます。「log」ボタンにチェックを入れます。
変数別に、線形スケールがいいか、対数スケールがいいか検討することもできるでしょう。これを見ると、Fare(運賃)は対数変換したほうが良さそうな感じがします(特にNNでやる場合)。
下のほうをスクロールしていくとカテゴリー変数が表示されます。数値型かカテゴリー型かはTFDVが勝手に判別してくれます。あくまで自動判定なので、名前みたいなユニークカラムがこちらに入っていることもあります。
Embarked(乗船港)にこんな偏りがあったのは驚きですね。ほとんどがサウサンプトンから乗船だったというのがわかります。
TFDV(TensorFlow Data Validation)を使うとたった数行で探索的データ解析ができる。
これだけでもかなり強力なように思いますが、その他の情報は「参考」のところのサイトを見てください。外れ値検出やスキーマーの表示なんかもできます。
一番上の記事がわかりやすいです。公式ドキュメントはある程度使ってから読まないと多分理解しづらいと思います。