画像のダウンサンプリングとPSNRの測定
U-Netでどこまでの深さが効いているのかを考えるために、画像をダウンサンプリングし、アップサンプリングするという処理を行いPSNRを見ていきます。その結果、PSNRが15~20程度だと、U-Netの深い層が効かないかもしれないという状況を確認することができました。
目次
きかっけ・考え方
U-Netの実装を考えるとき、DecoderにおいてSkip-Connection側の入力が効いているのか、深層側の入力が効いているのかよくわからないことがあります。そこで、どっちが効くかの指標として「画像をある層での解像度にダウンサンプリングしたときに、PSNRで測ってどれぐらいになるか?」を調べるのが有効ではないかと思ったのです。
どういうことかというと、次のような方式です。
- 画像(例:256×256)をある層の解像度にあうように、ダウンサンプリング(例えば32×32)とする。具体的にはAveragePooling。
- ダウンサンプリングした画像を元の解像度にアップサンプリング(Nearest Neighbor法)する
- 当然ダウンサンプリング→アップサンプリングした画像は画質が明らかに悪くなっているので、その画像と元の画像とのPSNRを取る
- このPSNRを解像度別(32×32, 16×16など)取って比較する
これがなぜU-Netにおいて意味あるかというと、
- ある解像度において求められたPSNRを$p_i$とする
- ネットワークの出力でのPSNRを同じく見る
- 出力のPSNRが$p_i$より低いか同程度なら、$i$に対応する層でより深い層の出力ではなく、Skip-Connection側が効いていると考えられる。なぜなら、より深い層を頑張って訓練するより、Skip-Connectionの入力をコピペしたほうが楽だから。
- 出力のPSNRが$p_i$より高ければ、$i$に対応する層でより深い層の入力が効いていると考えられる。なぜなら、SkipConnectionの入力をコピペしただけでは、その画質は再現できないから。
したがって、訓練を通さないにしろ、$p_i$がU-Netにおいて深い層が効くか効かないかのある種の目安として扱うことができます。これはSkip-Connection側が効くか、深層側が効くか結果を見てみないとわからないU-Netにおいて結構有効ではないでしょうか。
実験
前処理
KaggleのMyWaifuListデータセットを使います。前処理としてカラー画像のみを抽出しました。カラー画像の抽出は、チャンネル単位でのピクセルの相関係数を取り、その相関行列の平均が0.995より低いものをカラー画像としました。もともと別の訓練の過程で作ったデータなので、その中から2048枚をテスト画像として除外しています。訓練画像12443枚についてPSNRの計算をします。
これらの画像について、256×256にダウンサンプリングします。LANCZOS法によってリサイズします。この画像を真の画像(img_true)とします。
比較実験
真の画像img_trueを以下の解像度にAvg Pooling→Nearest Neighborのアップサンプリングをします。これをPU変換と呼ぶことにします。
- 128×128 (2倍)
- 64×64 (4倍)
- 32×32 (8倍)
- 16×16 (16倍)
- 8×8 (32倍)
もとの解像度で割った値をスケール倍率とします。スケール倍率が高いほど画質は落ちます。PU変換後の画質ばスケール倍率が高いほど落ちます。PU変換後の解像度はimg_trueの解像度256×256と一致します。PU変換後の画像に対して$p_i$を計算します。
この説明では、「真の画像img_trueとimg_trueをPU変換した画像のPSNR」を求めましたが、U-Netにおいては入力≠img_trueであることが普通なので、PU変換をする画像に別の前処理を施します。
- 真の画像img_trueをグレースケール化する(ただし3チャンネルのまま)。これをimg_grayとする。img_grayに対してPU変換をし、img_trueとのPSNRを取る。これは白黒画像のカラー化でのタスクを想定。
- 真の画像img_trueにモザイクをかける。モザイクの掛け方は後述。これをimg_mosaicとする。img_mosaicに対してPU変換をし、img_trueとのPSNRを取る。これはU-Netによるモザイク除去のタスクを想定。
また、モザイクをかける際は次のようにします。
- img_trueに対して、16倍のスケール倍率でPU変換
- 半径4ピクセルのガウシアンぼかしを使う
これにより生成されるのがimg_mosaicです。
すべての画像において、PSNRを計算するときは比較対象はimg_trueを対象にします。したがって、img_trueのPU変換よりも、img_gray, img_mosaicのほうがPSNRの値は低くなります。
可視化
img_true、img_gray、img_mosaicのPU変換をスケール倍率ごとに可視化したものがこちらです。上から、「本物、スケール倍率2倍、4倍……」です。
img_true
img_gray
img_mosaic
おおよそイメージがつかめたのではないでしょうか。スケール倍率を上げれば上げるほどモザイクがかかったような出力になります。
結果
画像別の結果を示します。
スケール倍率 | img_real | img_gray | img_mosaic |
---|---|---|---|
1 | ∞ | 19.85 | 15.58 |
2 | 24.61 | 18.65 | 15.58 |
4 | 20.77 | 17.39 | 15.55 |
8 | 18.32 | 16.19 | 15.41 |
16 | 16.31 | 14.97 | 15.17 |
32 | 14.57 | 13.74 | 14.22 |
img_realの場合は、8×8解像度まで落とすとPSNRは15を切ることがわかりました。32×32ならPSNRは20を越えないぐらい。訓練の進むとして評価関数にPSNRを使うことはよくあるので、これはわかりやすいです。
img_grayの場合は、img_realのカラー情報を落としているため、PSNRはより低くなります。しかし、低解像度領域においてはそこまでPSNRの差は出ません。スケール倍率が8より大きいと、PSNRでの差は2よりも小さくなります。これは驚きでした。カラー情報がPSNRの決定的な差になるのはスケール倍率が低い、つまり高解像度領域となります。
img_mosaicの場合は、そもそも前処理でPU変換をしているため、PSNRは頭打ち傾向にあります。もちろん、前処理のPU変換が16×16解像度まで落としているので、スケール倍率が16までの差はほぼ誤差のようなものです。32まで倍率を上げると、ガクッとPSNRが落ちます。
考察
U-Netを使った画像変換において、PSNRが15~25ぐらいというのは結構あるケースなのですが、それはもしかするとこれで見たように低解像度のSkip Connectionによるコピーで再現できるかもしれません。したがって、深い層の訓練が進まない可能性は考えられます。どこまでの深さが訓練されるか、あるいは意味あるのかを見るのは、こういった考察をするのが簡単かつ有効かもしれません。
可視化の部分で確認したように、PU変換というのはやっていることはモザイクの付与であるため、モザイクについて考えることがU-Netの挙動を考える際に有効となるやもしれません。一見ふざけているようにみえるモザイクというのは、画像処理の本質的な部分を突いている、と言えるのではないでしょうか。
Shikoan's ML Blogの中の人が運営しているサークル「じゅ~しぃ~すくりぷと」の本のご案内
技術書コーナー
「本当の実装力を身につける」ための221本ノック――
機械学習(ML)で避けて通れない数値計算ライブラリ・NumPyを、自在に活用できるようになろう。「できる」ための体系的な理解を目指します。基礎から丁寧に解説し、ディープラーニング(DL)の難しいモデルで遭遇する、NumPyの黒魔術もカバー。初心者から経験者・上級者まで楽しめる一冊です。問題を解き終わったとき、MLやDLなどの発展分野にスムーズに入っていけるでしょう。
本書の大きな特徴として、Pythonの本でありがちな「NumPyとML・DLの結合を外した」点があります。NumPyを理解するのに、MLまで理解するのは負担が大きいです。本書ではあえてこれらの内容を書いていません。行列やテンソルの理解に役立つ「従来の画像処理」をNumPyベースで深く解説・実装していきます。
しかし、問題の多くは、DLの実装で頻出の関数・処理を重点的に取り上げています。経験者なら思わず「あー」となるでしょう。関数丸暗記では自分で実装できません。「覚える関数は最小限、できる内容は無限大」の世界をぜひ体験してみてください。画像編集ソフトの処理をNumPyベースで実装する楽しさがわかるでしょう。※紙の本は電子版の特典つき
- まとめURL:https://github.com/koshian2/numpy_book
- みんなの感想:https://togetter.com/li/1641475
- A4 全176ページモノクロ / 2020年12月発行
「誰もが夢見るモザイク除去」を起点として、機械学習・ディープラーニングの基本をはじめ、GAN(敵対的生成ネットワーク)の基本や発展型、ICCV, CVPR, ECCVといった国際学会の最新論文をカバーしていく本です。
ディープラーニングの研究は発展が目覚ましく、特にGANの発展型は市販の本でほとんどカバーされていない内容です。英語の原著論文を著者がコードに落とし込み、実装を踏まえながら丁寧に解説していきます。
また、本コードは全てTensorFlow2.0(Keras)に対応し、Googleの開発した新しい機械学習向け計算デバイス・TPU(Tensor Processing Unit)をフル活用しています。Google Colaboratoryを用いた環境構築不要の演習問題もあるため、読者自ら手を動かしながら理解を深めていくことができます。
AI、機械学習、ディープラーニングの最新事情、奥深いGANの世界を知りたい方にとってぜひ手にとっていただきたい一冊となっています。持ち運びに便利な電子書籍のDLコードが付属しています。
「おもしろ同人誌バザールオンライン」で紹介されました!(14:03~) https://youtu.be/gaXkTj7T79Y?t=843
まとめURL:https://github.com/koshian2/MosaicDeeplearningBook
A4 全195ページ、カラー12ページ / 2020年3月発行
累計100万PV超の人気ブログが待望の電子化! このブログが電子書籍になって読みやすくなりました!
・1章完結のオムニバス形式
・機械学習の基本からマニアックなネタまで
・どこから読んでもOK
・何巻から読んでもOK
・短いものは2ページ、長いものは20ページ超のものも…
・通勤・通学の短い時間でもすぐ読める!
・読むのに便利な「しおり」機能つき
・全巻はA5サイズでたっぷりの「200ページオーバー」
・1冊にたっぷり30本収録。1本あたり18.3円の圧倒的コストパフォーマンス!
・文庫本感覚でお楽しみください
北海道の駅巡りコーナー
ローカル線や秘境駅、マニアックな駅に興味のある方におすすめ! 2021年に大半区間が廃線になる、北海道の日高本線の全区間・全29駅(苫小牧~様似)を記録した本です。マイカーを使わずに、公共交通機関(バス)と徒歩のみで全駅訪問を行いました。日高本線が延伸する計画のあった、襟裳岬まで様似から足を伸ばしています。代行バスと路線バスの織り成す極限の時刻表ゲームと、絶海の太平洋と馬に囲まれた日高路、日高の隠れたグルメを是非たっぷり堪能してください。A4・フルカラー・192ページのたっぷりのボリュームで、あなたも旅行気分を漫喫できること待ったなし!
見どころ:日高本線被災区間(大狩部、慶能舞川橋梁、清畠~豊郷) / 牧場に囲まれた絵笛駅 / 窓口のあっただるま駅・荻伏駅 / 汐見の戦争遺跡のトーチカ / 新冠温泉、三石温泉 / 襟裳岬
A4 全192ページフルカラー / 2020年11月発行