論文まとめ：Style Aligned Image Generation via Shared Attention

Posted On 2024-05-09

460{icon} {views}

タイトル：Style Aligned Image Generation via Shared Attention
論文URL：https://arxiv.org/abs/2312.02133
プロジェクトページ：https://style-aligned-gen.github.io/
コード：https://github.com/google/style-aligned/
カンファ：CVPR 2024

ざっくりいうと

Text-to-Image生成モデルで画像のスタイル一貫性を保ちながら多様なコンテンツを生成することに焦点を当てた研究
提案手法は、自己注意機構にわずかな変更を加え、適応的正規化を用いて計算コストを削減し、高品質な画像を生成。
任意のT2Iモデルに応用可能であり、今後は生成画像の形状や外観の一貫性向上を目指す。

1分で読む用

要約By Claude3

この論文において解決したい課題は何？
- この論文では、Text-to-Image (T2I) 生成モデルにおいて、生成された画像の一貫したスタイル解釈を実現することが課題となっている。
先行研究だとどういう点が課題だった？
- 従来の手法では、スタイルとコンテンツの分離のために、大量の画像を使ってファインチューニングを行う必要があり、計算コストが高かった。
先行研究と比較したとき、提案手法の独自性や貢献は何？
- 本手法では、生成プロセスの自己注意機構にわずかな変更を加えることで、参照画像のスタイルを共有しながら、多様なコンテンツの画像を生成できる。
提案手法の手法を初心者でもわかるように詳細に説明して
- 提案手法では、参照画像の特徴に対して適応的正規化を行い、参照画像との注意共有を行うことで、スタイル一貫性を保ちつつ、コンテンツの多様性も実現している。
提案手法の有効性をどのように定量・定性評価した？
- 定量的・定性的評価の結果、提案手法は高品質な画像生成と優れたスタイル一貫性を示しており、既存手法と比べて優位性があることが確認された。
この論文における限界は？
- 提案手法は、最適化やファインチューニングを必要とせず、任意のT2Iモデルに適用できるという利点がある。
次に読むべき論文は？
- 今後の課題として、スタイルとコンテンツの関係性をより深く理解し、生成画像の形状や外観の一貫性をさらに高めることが挙げられる。

手法のポイント

1度の推論の中で、複数のサンプルを同時生成し、スタイル統一をゼロショットで行いたい。さらにこれが任意のモデルでできるようにしたい
これを実現するために、Self Attentionレイヤーの中で、サンプル間の互いの特徴の更新を行う
本研究の独自性は、生成画像間の通信を可能にするために、Self Attentionを利用すること
- しかし、サンプル間で完全にSelf Attentionを共有してしまう（＊１）と図（＊３）の下の段のように悪影響が出てしまう
  - 悪影響：多様性の損失（スタイルの崩壊）、コンテンツのリーク
- AdaINではなく、Self AttentionでReference→生成画像の一方向の通信のみに限定したのが、図（＊３）の中段。
  - 下段よりかはよくなったが、中段は異なる画像のスタイルが一致していない。
- Attentionの計算の前段にAdaINを入れて（＊２）、Projectionレイヤーでの画像間の通信を行うことで悪影響を回避。図（＊３）の上の段
  - これを実現しているのがQuery-KeyのAdaIN。

＊１

＊２

＊３

評価

オブジェクト＋スタイルのテキストプロンプトをChatGPTの支援で100個作成
- > “{A guitar, A hot air balloon, A sailboat, A mountain} in papercut art style.”
メトリックス
- テキストアラインメント：CLIPのCosine類似度で画像とテキストのアラインメントを計測
- スタイルの一貫性：各生成間のDINO VIT-B/8の埋め込みのペア平均Cosine類似度
  - CLIPはクラスラベルで学習されているため、類似の内容だがスタイルが異なる集合に高いスコアを与える可能性があるため、代替モデルが必要。DINOはSelf-Supervisedで学習しているためこの点強い

応用例

DDIM反転と組み合わせることで、Referenceを画像として与えることも可能
- DDIM反転＝画像を潜在空間に戻す
- ただし、DDIMは誤ったTrajectoryになるかもしれないし、失敗するかもしれない
Multi-Diffusionを組み合わせて切り絵のようなパノラマ生成をすることが可能

ControlNetとの組み合わせ（ControlNetならなんでもかんでもできるってわけではなさそう？）

試してみた

Animagine XL3.1で試す

一発の生成で構図が揃うのは結構強い。T2Iで一貫する結構うまくいく
Referece Imageがあるケースは、論文に書いてあるとおりDDIM反転があんまりうまくいかないことがある
一発で複数枚生成しないといけないというのが結構なネックで、SDXL系は複数枚同時だとVAEの部分でVRAMをいっぱい消費するので、Latentで生成して1枚ずつVAEに通す的な工夫が必要かもしれない