Spectral Normalization（SNGAN）を実装していろいろ遊んでみた

Posted On 2019-09-04

12.5k{icon} {views}

GANの安定化の大きなブレイクスルーである「Spectral Normalization」をPyTorchで実装していろいろ遊んでみました。従来のGANよりも多クラスの出力がかなりやりやすくなりました。確かにGANの安定化についてはものすごい効いているので、ぜひ皆さんも遊んでみてください。

※アホみたいに長い内容なので、暇なときに読んでください

はじめに

SNGANとは

Spectral Normalizationを使ったGANの実装。従来のDiscriminator（D）のBatch NormalizationをSpectral Normalizationに置き換えることで、WGANやWGAN-GPで前提としているようなリプシッツ制約を満たし、GANの安定性が向上する――というもの。ちなみに論文書いたのは日本人（半分ぐらいPFNの人）。

論文
Spectral Normalization for Generative Adversarial Networks
https://arxiv.org/abs/1802.05957

なんか難しいこと言っているような気がするけど、要はDのBatch Normの置き換えをするだけで、WGAN相応のものができますよということ。しかも論文によると、WGAN-GPより性能が良い（Inception Scoreが高い、様々なハイパーパラメーターに対するロバスト性が高い）とのこと。これを実装してみました。

実装

https://github.com/koshian2/SNGAN

Spectral Normalizationの実装はBig GANの実装からもってきました。PyTorchの組み込みでもできるっぽい。

いくつか自分が試した実験結果を示します。

再実装（CIFAR-10, STL-10）

再実装(1) : CIFAR-10 (Standard CNN)

固定条件

Generator: Standard CNN
Discriminator : Standard CNN
n_epochs : 321 (約5万回のGのアップデート)
n_dis = 5
Adam parameters : lr=0.0002, beta1=0.0, beta2 = 0.9
訓練データを使用 (10クラス、5万枚)

Standard CNNの詳細はこれ。

SNGANでは、主にWGANからの名残ですが、GとDのアップデート回数を非対称にするという方式が取られています。これがn_disです。例えばn_dis=5なら、Gが1回アップデートする間に、Dが5回アップデートされることを意味します。

なぜこのようなことが必要かというと、Spectral NormでDの学習が遅くなっているからです。ここらへんはWGANと関連するのですが、直感的には、安定性を取るためにDを構造上弱くしているので、その分アップデート回数や学習時間を増やす必要があります。

ちなみに、Dの学習率を5倍にするというようなこともできますが、n_disを変えるのと比べては効果は薄かったです。これは後で確かめます。

変更条件

Case	0	1	2	3
Loss	Cross Entropy	Hinge	Cross Entropy	Hinge
Conditional	FALSE	FALSE	TRUE	TRUE
Inception Score	5.844	6.077	6.094	5.821

Incpetion score ログ

このケースではほとんど差がありませんでした

サンプリングと補間

Case 0

IS = 5.844

Case 1

IS = 6.077

潜在空間の補間が滑らかでGANがうまく行っているのが確認できます。

Case 2

IS = 6.094 (Best)

Conditionalなケースです。ラベルを指定したほうが映る対象を固定しやすいです。

ただしSNGANのGには、Conditionalなケースに限り、Conditional BatchNormという特別なBatch Normalizationが指定されていることに注意してください（あと他にはDの最後にも工夫がある）。やっていることはBatch Normなのですが、計算されたBatch Normに対してクラス別の線形操作（$y=ax+b$のような操作）をやっています。

このConditional Batch Normがクラス間の差を明確にすることに大きく寄与しています。Un-conditionalな場合だと、潜在空間の部分にクラスが紛れてしまうので。

似たようなことは、AC-GANでもできますが、ラベル変数をネットワークに与える回数が増えているので、クラス間でより明瞭な差が生まれるようになっています。

Case 3

IS = 5.821

Conditional+ Hinge Lossのケースです。ResNetの場合だとHinge Lossはとても有効に機能しますが、Standard CNNの場合ではあまり差が生まれませんでした。

再実装(2) :CIFAR-10 (ResNet)

固定条件

Generator: ResNet (32×32)
Discriminator : ResNet (32×32)
n_epochs : 321 (約5万回のGのアップデート)
n_dis = 5
Adam parameters : lr=0.0002, beta1=0.5, beta2 = 0.9
訓練データを使用 (10クラス、5万枚)

Standard CNNではAdamのbeta1=0としていましたが、ResNetのケースでは学習の早い段階で鞍点に引っかかりそのまま損失が変動しなくなってしまうため、beta1=0.5としました。beta1=0.5とするとうまくいきます。

論文でのResNetの構成は、「pre-act ResNet」であることに注意してください。画像分類の場合はあまり気にしなくてもよくても、少なくともSNGANの場合はこれが大きな差になるようです。