こしあん
2024-01-18

論文まとめ:Gemini: A Family of Highly Capable Multimodal Models


372{icon} {views}

ざっくりいうと

  • Googleが開発したマルチモーダルLLMの「Gemini」の論文
  • 文章、音声、映像、画像をすべて1個のTransformerに入れて、テキストと画像を生成可能なモデル
  • Ultra、Pro、Nanoのサイズがあり、UltraはGPT-4を一部超えている。Nanoはモバイル特化。UltraはTPUを使い大規模な訓練を実施

著者の人数でギネス記録狙えるんじゃね?ってぐらいの多さ→上がいるらしい

できること

物理の問題に対して、生徒の答案の間違っている部分を指摘することができる

手法

モデルの種類

Gemini 1.0は3サイズに分かれる。コンテクストウィンドウは32k。

  • Ultra:複雑なタスク。TPUでスケールアップして効率的にデプロイ
  • Pro:拡張されたパフォーマンスと大規模での展開性
  • Nano:オンデバイスアプリケーション。1.8B(Nano-1)と3.25B(Nano-2)があり、4ビット量子化

アーキテクチャ

  • なんでもかんでもTransformerに突っ込む方式
  • Visual EncodingはFalmingoやCoCa、PaLIに触発された
  • 音声はUniversal Speech Modelを使う

学習インフラ

  • TPUv5eとTPUv4を使用して学習
    • Gemini Ultraでは複数のデータセンターを使い、TPUv4を使用
  • PaLM-2より規模が大幅に拡大
  • TPUのハードウェア障害に対する学習フローの対策が考案されている

学習データ

  • 事前学習:ウェブ文書、書籍、コードからのデータを使用し、画像、音声、ビデオデータを含む
  • 訓練コーパス全体の大きなサンプルでトークナイザーを訓練すると、推論された語彙が改善され、モデルの性能が向上する

性能

  • GPTはgpt-4-0613を使用

ケイパビリティのトレンド

  • 「Factuality」: オープン/クローズドブック検索と質問応答タスクをカバー
  • 「Long-Context」:長文要約、検索、質問応答タスクをカバー
  • 「Math/Science」数学的問題解決、定理証明、科学試験を含む
  • 「Reasoning」:算術、科学、常識推論を要する
  • 「Multilingual」:多言語翻訳、要約、推論を担当する

多言語性

1ショットのAvg BLEURT。Nano2とProの差はそこまで大きくない(翻訳はオンデバイスで動く)。ただUltraでもGPT-4に毛が生えた程度。

マルチモーダル

ProだとGPT-4Vより劣る程度。VQAは小さいモデルでもある程度うまくいくが、グラフの読み取りに対するQAは大きいモデルが必要。

動画

VideoLLaVAより良いと言われてもなんともいえない(VideoLLaVAは速いがそこまで精度高いものではない)。GPT-4Vと比較してほしい

画像生成

対話型ならGILL、同じGoogle製でもImagenと評価してほしかった

責任あるデプロイ

基本的にGoogleの大本営発表なので、飛ばし飛ばしだが興味ある範囲で

ハルシネーションを減らす取り組み

3つの望ましい行動にインストラクションチューニング

  • Attribution:プロンプト内の与えられたコンテキストに完全に帰属させるべき応答を生成す
    るように指示された場合、Geminiはコンテキストに最も忠実な応答を生成すべきである。ソースの要約、質問の引用生成の場合
  • Closed-Book Response Generation:ソースがない事実探索プロンプトが提供された場合、ハルシネーションで答えてはいけない。例:「インドの首相は誰ですか?」という場合
  • Hedge:入力が「答えられない」ようなプロンプトの場合は、応答を提供できないことを認識させる

3種類の行動に対応するような教師あり学習のデータセットを作り、RLHFすることで望ましい動作を引き出した

  • メンバーリストで12P
  • 引用が11P

付表

テキトーに抜粋

グラフの読み取り

英語にならできそう(ProなのかUltraなのか不明)

多言語設定でのCommonsense reasoning

映像の理解と推論

この人はどうやって技術を向上させることができるでしょうか?

複雑な画像理解、コード生成、命令追従

左上のサブプロットに描かれている関数に1000を掛けて、左下のサブプロットに描かれている
関数に追加してください。結果の単一のプロットに対して、matplotlib コードを生成します

所感

  • GPT-4Vとの比較は特に動画や画像生成部分でぼかされていて怪しい部分が多い
  • GPT-4Vとの大きな違いが、同じTransformer内で画像生成できるという点。これは試してみないとわからない
  • モデルサイズの比較が面白くて、MultilingualとFactualityはモデルサイズを下げてもそこまで極端には悪化しないというのが意外。要約は結構モデルサイズいるのもちょっと意外。
  • FlamingoがGPT-3をマルチモーダルに正攻法で拡張するやり方(EmbeddingのProjectionではなく、トークンに変換)だったので、Falmingoの拡張で攻めてきたのが面白い
  • TPUのインフラ周りの話がちょろっと出ていたのが面白い


Shikoan's ML Blogの中の人が運営しているサークル「じゅ~しぃ~すくりぷと」の本のご案内

技術書コーナー

北海道の駅巡りコーナー


Add a Comment

メールアドレスが公開されることはありません。 が付いている欄は必須項目です