論文まとめ：Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks

Posted On 2024-08-23

463{icon} {views}

タイトル：Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
著者：Bin Xiao, Haiping Wu, Weijian Xu, Xiyang Dai, Houdong Hu, Yumao Lu, Michael Zeng, Ce Liu, Lu Yuan
論文URL：https://arxiv.org/abs/2311.06242
モデル：https://huggingface.co/microsoft/Florence-2-large

ざっくりいうと

この論文では、画像レベルの理解からピクセルレベルの詳細な認識まで、幅広い視覚タスクを単一のモデルで処理できる、汎用的な視覚基盤モデル「Florence-2」を提案しています。

1. この論文において解決したい課題は何ですか？

2. 先行研究だとどういう点が課題だったのですか？

従来の視覚モデルは、オブジェクト検出、セマンティックセグメンテーション、画像キャプションなど、特定のタスクに特化して設計されており、タスクにとらわれない汎用的なモデルが不足していた。
包括的な視覚アノテーションの不足により、空間階層と意味粒度の複雑なニュアンスを捉える基盤モデルの開発が妨げられていた。

3. 先行研究と比較したとき、提案手法の独自性や貢献は何ですか？

4. 提案手法の手法を初心者でもわかるように詳細に説明してください。

データエンジンの構築:
- 複数の専門モデルを用いて、画像分類、オブジェクト検出、画像キャプションなどのタスクを自動的にアノテーション。
- アノテーションの精度を高めるために、反復的なデータ改良プロセスを採用。
Florence-2 モデルの学習:
- 画像エンコーダー（DaViT）を用いて画像を視覚トークン埋め込みに変換。
- マルチモーダルエンコーダーデコーダー（Transformer）を用いて、視覚トークン埋め込みとテキストプロンプト埋め込みを処理し、テキスト形式で出力を生成。
- すべてのタスクを統一された言語モデリング目標の下で学習。

5. 提案手法の有効性をどのように定量・定性評価しましたか？

ゼロショット評価: キャプション、視覚的グラウンディング、参照表現理解などのタスクにおいて、最先端のゼロショット性能を達成。
ファインチューニング評価: 公開されている人間によるアノテーションデータを用いてファインチューニングした後、Florence-2は、より大規模な専門モデルと競合する性能を達成。
ダウンストリームタスク評価: 事前学習済みFlorence-2バックボーンは、COCOオブジェクト検出、インスタンスセグメンテーション、ADE20Kセマンティックセグメンテーションなどのダウンストリームタスクの性能を向上させ、教師ありおよび自己教師ありモデルの両方を凌駕。

6. この論文における限界は？

7. 次に読むべき論文は？

Flamingo: a visual language model for few-shot learning (Alayrac et al., 2022)
PaLI: A jointly-scaled multilingual language-image model (Chen et al., 2022)
Unified-IO: A unified model for vision, language, and multi-modal tasks (Lu et al., 2022)

8. コード

論文中にコードは提示されていません。

ローカリゼーションのトークンを入れたEncoder-Decoderモデル

This dataset FLD-5B includes 126M images, 500M text annotations, and 1.3B text-region annotations, and 3.6B textphrase-region annotations across different tasks.
ImageNet-22k [18], Object 365 [70], OpenImages [40], Conceptual Captions [71], and LAION
Expertモデルの結果をLLMでマージ
背景は人間がラベル付けされたデータが少なく、大規模なデータセットが必要だったため

→事前訓練は合成データで行い、人間がアノテーションしたデータでファインチューニング

Shikoan's ML Blogの中の人が運営しているサークル「じゅ～しぃ～すくりぷと」の本のご案内

技術書コーナー

北海道の駅巡りコーナー