こしあん
2019-11-01

TensorFlowの関数で画像にモザイクを書ける方法

Pocket
LINEで送る


TensorFlow2.0の関数を使い、画像にモザイクをかける方法を紹介します。OpenCVやPILでの書き方はいろいろありますが、TensorFlowでどう書くかはまず出てきませんでした。GPUやTPUでのブーストも使えます。

モザイク付与のアルゴリズム

いろいろあるとは思いますが、自分が使っているのは次の方法です。

  • Nearest Negihbor法で1/Nの解像度にダウンサンプリング(Nは元の画像の解像度にあわせて適当に調整)
  • 適当なサイズのカーネルのガウシアンぼかしをかける
  • Nearest Neighbor法でN倍にアップサンプリング

環境:TensorFlow2.0.0

実装

この画像を「ramen.jpg」とし、モザイクをかけてみます。

import tensorflow as tf
import matplotlib.pyplot as plt
import numpy as np

def load_image():
    # ファイルを読み込みJPEGをデコード (このオペレーションはTPUでは不可能なので注意)
    return tf.io.decode_jpeg(tf.io.read_file("ramen.jpg"))

def add_mosaic(inputs):
    # 0-1スケールに変換(ここからTPUでも実行可能)
    x = tf.image.convert_image_dtype(inputs, tf.float32)
    # 4階テンソルで考える
    x = tf.expand_dims(x, axis=0)

    # ガウシアンぼかしのカーネル
    kernel = np.array([
        [1, 4, 6, 4, 1],
        [4, 16, 24, 16, 4],
        [6, 24, 36, 24, 6],
        [4, 16, 24, 16, 4],
        [1, 4, 6, 4, 1]], np.float32) / 256.0
    gaussian_kernel = tf.constant(np.broadcast_to(kernel.reshape(5, 5, 1, 1), (5, 5, 3, 1)))

    # Nearest Neighborのダウンサンプリング
    x = tf.image.resize(x, size=(x.shape[1] // 16, x.shape[2] // 16),
                        method=tf.image.ResizeMethod.NEAREST_NEIGHBOR)
    # ガウシアンぼかし
    x = tf.nn.depthwise_conv2d(x, gaussian_kernel, strides=[1, 1, 1, 1], padding="SAME")
    # Nearest Neighborのアップサンプリング
    x = tf.image.resize(x, size=(x.shape[1] * 16, x.shape[2] * 16),
                        method=tf.image.ResizeMethod.NEAREST_NEIGHBOR)
    return x

if __name__ == "__main__":
    x = load_image()
    mosaic = add_mosaic(x)
    plt.imshow(mosaic.numpy()[0])
    plt.show()

注意:このコードをTPUで実行したところ、リサイズ部分の挙動がおかしくて正しい挙動になりませんでした。ご注意ください(TF2.0)。

結果は以下の通り

いい感じにモザイクかかっていますね。周囲が黒くなっているのはPaddingの影響です。もしここが気になるのなら、tf.padのモードをREFLECTにして、事前にReflect paddingするとよいでしょう。

Depthwise Conv vs Conv2D

このコード、ガウシアンぼかしの部分にDepthwise Convを使っているのが特徴です。以前の記事では(PyTorchですが)、チャンネルごとにConv2DをかけてConcatするという方法を取りました。チャンネルごとにConv2DをかけてConcatするというのと、Depthwise Convは実は同じことです(これに気づいてうおおおおってなりました)。

確認してみましょう。Depthwise Convでガウシアンぼかしをかけた例と、チャンネル単位にConv2Dでガウシアンぼかしをかけた例で誤差を取ります。比較例として、ガウシアンぼかしをかける前後での誤差も同様に取ります。誤差はL1ロスで計測します。

def depthwise_conv_check():
    inputs = load_image()
    x = tf.image.convert_image_dtype(inputs, tf.float32)
    base_img = tf.expand_dims(x, axis=0)

    # ガウシアンぼかしのカーネル(DepthwiseかConv2Dかでカーネルのshapeが違うので注意)
    kernel = np.array([
        [1, 4, 6, 4, 1],
        [4, 16, 24, 16, 4],
        [6, 24, 36, 24, 6],
        [4, 16, 24, 16, 4],
        [1, 4, 6, 4, 1]], np.float32) / 256.0
    depthwise_kernel = tf.constant(np.broadcast_to(kernel.reshape(5, 5, 1, 1), (5, 5, 3, 1)))

    # ガウシアンぼかし
    depthwise_blur = tf.nn.depthwise_conv2d(base_img, depthwise_kernel, strides=[1, 1, 1, 1], padding="SAME")

    # Conv2dによる計算
    conv_kernel = tf.constant(kernel.reshape(5, 5, 1, 1))
    multichannel = [tf.nn.conv2d(base_img[:,:,:, i:i + 1], conv_kernel, strides=[1, 1, 1, 1],
                    padding="SAME") for i in range(3)]
    conv_blur = tf.concat(multichannel, axis=-1)

    # depthwiseとconv2dの差分
    method_diff = tf.reduce_mean(tf.abs(depthwise_blur - conv_blur))
    print(method_diff.numpy())

    # オリジナルとガウシアンぼかしの差分(比較用)
    blur_diff = tf.reduce_mean(tf.abs(depthwise_blur - base_img))
    print(blur_diff.numpy())

結果は次のようになりました。

  • Depthwise ConvとConv2Dによるガウシアンぼかし同士の誤差は、8e-9と十分に小さい
  • 元画像とガウシアンぼかしとの誤差(差分)は、0.01とそこそこ大きい

Depthwise ConvもConv2Dもガウシアンぼかしを取れる→つまり、Depthwise Convでいいということになります。

8.543839e-09
0.014340522

なぜDepthwise Convなのか

以前に自分が書いた記事を思い出しました

具体例で覚える畳み込み計算(Conv2D、DepthwiseConv2D、SeparableConv2D、Conv2DTranspose)
https://qiita.com/koshian2/items/885aba771190267a3a1c

これを見るとなんとなくわかると思います。

Depthwise ConvはConv2Dと異なり、畳込みを取ったあとレイヤー同士で和を計算するということをしない、つまりチャンネル単位で独立に計算をしているのです。

これはガウシアンぼかしだけではなく、OpenCVなどで定義されているディープラーニング以前の画像処理での畳込みとは、ほぼDepthwise Convであるということを示しているにほかなりません。

まとめ

  • TensorFlowでもモザイクはかけられるよ
  • OpenCVなどで定義されているディープラーニング以前の画像処理での畳込みとは、ほぼDepthwise Conv

特に下は面白い知見ではないでしょうか

Related Posts

OpenCVで画像を歪ませる方法 PythonでOpenCVを使い画像を歪ませる方法を考えます。アフィン変換というちょっと直感的に理解しにくいことをしますが、慣れればそこまで難しくはありません。ディープラーニングのData Augmentationにも使えます。 OpenCVでのアフィン変換のイメージ アフィン変換というと、ま...
Numpyの配列をN個飛ばしで列挙する簡単な方法... Numpyの配列から奇数番目、偶数番目の要素を取り出したいときが稀によくあります。インデックスの配列を定義する必要があるのかなと思いますが、とても簡単な方法があります。それを見ていきましょう。 基本は「::スキップしたい間隔」 例として、0~9までの配列をとります。 >>>...
TPUでも大きなバッチサイズに対して精度を出す... TPUでは大きなバッチサイズを適用することが訓練の高速化につながりますが、これは精度と引き換えになることがあります。大きなバッチサイズでも精度を出す方法を論文をもとに調べてみました。 背景 Qiitaに書いたGoogle Brainの論文「学習率を落とすな、バッチサイズを増やせ」を読むの続き。...
画像をただ並べたいときに使えるTorchVision... TorchVisionはPyTorchの画像処理を手軽に行うためのライブラリですが、ディープラーニングを全く使わない、ただの画像処理でも有効に使うことができます。もちろんKerasやTensorFlowといった他のディープラーニングからの利用可能です。今回は、「画像をただ並べたいとき」にTorch...
TensorFlow/Kerasでネットワーク内でData Augmentationする方法... NumpyでData Augmentationするのが遅かったり、書くの面倒だったりすることありますよね。今回はNumpy(CPU)ではなく、ニューラルネットワーク側(GPU、TPU)でAugmetationをする方法を見ていきます。 こんなイメージ Numpy(CPU)でやる場合 Num...
Pocket
Delicious にシェア

Add a Comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です