論文まとめ：Decoder Denoising Pretraining for Semantic Segmentation

Posted On 2022-07-21

818{icon} {views}

タイトル：Decoder Denoising Pretraining for Semantic Segmentation
論文：https://arxiv.org/abs/2205.11423
著者：Emmanuel Brempong Asiedu, Simon Kornblith, Ting Chen, Niki Parmar, Matthias Minderer, Mohammad Norouzi
所属：Google Research

ざっくりいうと

Few-shotのセマンティックセグメンテーションでの精度向上を研究した論文
セマンティックセグメンテーションでは、通常はEncoderを訓練済みモデル（ImageNet等）、Decoderはランダムな重みで初期化して訓練する
しかし、Decoderをランダムな重みで初期化するのはよくなく、セグメンテーションの前に、Denoisingの問題としてDecoderを訓練したほうが、特にFew-shotにおいていいことがわかった
拡散モデルに着想を得たものだが、従来のSoTAを上回る一貫した性能向上を示した

Hybrid-ViT (Dosovitskiy et al., 2021)を使用。U-Netなのだが、ボトルネックレイヤーにTransformerのレイヤーが入っている。

拡散モデルでは、通常クリーンな画像$x$ではなく、ノイズベクトル$\epsilon$を予測する。この実験でも同様で、ノイズベクトルを予測したほうが、あとのセマンティックセグメンテーションの精度が良かった。

あくまで提案手法は、DenoisingをDecoderのみで訓練する。Denoisingにおいて、モデル全体で訓練すると、微妙な結果になった。

このケースでの、Few-shotの場合の利点はわずかで、データが多い場合はDenoisingなし（Supervised：ImageNetで訓練済みのEncoder＋ランダム初期化のDecoder）より劣る結果となった。

DecoderのみのDenoisingの訓練（DDeP）のほうがSupervisedに対して一貫して良い結果となった。

データセット＝CitySpace

データセット＝ADE20K

ノイズのスケールに応じて、入力画像を定数倍するような処理を加えてあげると良い

訓練画像の数に応じてみたときに、全てSoTAになった

Shikoan's ML Blogの中の人が運営しているサークル「じゅ～しぃ～すくりぷと」の本のご案内

技術書コーナー

北海道の駅巡りコーナー