Shikoan's ML Blog

Categories: DeepLearning

論文まとめ：Gemini: A Family of Highly Capable Multimodal Models

291{icon} {views}

タイトル：Gemini: A Family of Highly Capable Multimodal Models
著者：Gemini Team（(842 additional authors not shown)と書かれる状態）
論文URL：https://arxiv.org/abs/2312.11805
記事：https://japan.googleblog.com/2023/12/gemini.html

ざっくりいうと

Googleが開発したマルチモーダルLLMの「Gemini」の論文
文章、音声、映像、画像をすべて1個のTransformerに入れて、テキストと画像を生成可能なモデル
Ultra、Pro、Nanoのサイズがあり、UltraはGPT-4を一部超えている。Nanoはモバイル特化。UltraはTPUを使い大規模な訓練を実施

著者の人数でギネス記録狙えるんじゃね？ってぐらいの多さ→上がいるらしい

できること

物理の問題に対して、生徒の答案の間違っている部分を指摘することができる

手法

モデルの種類

Gemini 1.0は3サイズに分かれる。コンテクストウィンドウは32k。

Ultra:複雑なタスク。TPUでスケールアップして効率的にデプロイ
Pro：拡張されたパフォーマンスと大規模での展開性
Nano：オンデバイスアプリケーション。1.8B（Nano-1）と3.25B（Nano-2）があり、4ビット量子化

アーキテクチャ

なんでもかんでもTransformerに突っ込む方式
Visual EncodingはFalmingoやCoCa、PaLIに触発された
音声はUniversal Speech Modelを使う

学習インフラ

TPUv5eとTPUv4を使用して学習
- Gemini Ultraでは複数のデータセンターを使い、TPUv4を使用
PaLM-2より規模が大幅に拡大
TPUのハードウェア障害に対する学習フローの対策が考案されている

学習データ

事前学習：ウェブ文書、書籍、コードからのデータを使用し、画像、音声、ビデオデータを含む
訓練コーパス全体の大きなサンプルでトークナイザーを訓練すると、推論された語彙が改善され、モデルの性能が向上する

性能

GPTはgpt-4-0613を使用

ケイパビリティのトレンド

「Factuality」: オープン/クローズドブック検索と質問応答タスクをカバー
「Long-Context」：長文要約、検索、質問応答タスクをカバー
「Math/Science」数学的問題解決、定理証明、科学試験を含む
「Reasoning」：算術、科学、常識推論を要する
「Multilingual」：多言語翻訳、要約、推論を担当する

多言語性

1ショットのAvg BLEURT。Nano2とProの差はそこまで大きくない（翻訳はオンデバイスで動く）。ただUltraでもGPT-4に毛が生えた程度。

マルチモーダル

ProだとGPT-4Vより劣る程度。VQAは小さいモデルでもある程度うまくいくが、グラフの読み取りに対するQAは大きいモデルが必要。

動画

VideoLLaVAより良いと言われてもなんともいえない（VideoLLaVAは速いがそこまで精度高いものではない）。GPT-4Vと比較してほしい

画像生成

対話型ならGILL、同じGoogle製でもImagenと評価してほしかった

責任あるデプロイ

基本的にGoogleの大本営発表なので、飛ばし飛ばしだが興味ある範囲で

ハルシネーションを減らす取り組み

3つの望ましい行動にインストラクションチューニング

Attribution：プロンプト内の与えられたコンテキストに完全に帰属させるべき応答を生成す
るように指示された場合、Geminiはコンテキストに最も忠実な応答を生成すべきである。ソースの要約、質問の引用生成の場合
Closed-Book Response Generation：ソースがない事実探索プロンプトが提供された場合、ハルシネーションで答えてはいけない。例：「インドの首相は誰ですか？」という場合
Hedge：入力が「答えられない」ようなプロンプトの場合は、応答を提供できないことを認識させる

3種類の行動に対応するような教師あり学習のデータセットを作り、RLHFすることで望ましい動作を引き出した

メンバーリストで12P
引用が11P

付表

テキトーに抜粋

グラフの読み取り

英語にならできそう（ProなのかUltraなのか不明）

多言語設定でのCommonsense reasoning

映像の理解と推論

この人はどうやって技術を向上させることができるでしょうか？

複雑な画像理解、コード生成、命令追従

左上のサブプロットに描かれている関数に1000を掛けて、左下のサブプロットに描かれている
関数に追加してください。結果の単一のプロットに対して、matplotlib コードを生成します

所感

GPT-4Vとの比較は特に動画や画像生成部分でぼかされていて怪しい部分が多い
GPT-4Vとの大きな違いが、同じTransformer内で画像生成できるという点。これは試してみないとわからない
モデルサイズの比較が面白くて、MultilingualとFactualityはモデルサイズを下げてもそこまで極端には悪化しないというのが意外。要約は結構モデルサイズいるのもちょっと意外。
FlamingoがGPT-3をマルチモーダルに正攻法で拡張するやり方（EmbeddingのProjectionではなく、トークンに変換）だったので、Falmingoの拡張で攻めてきたのが面白い
TPUのインフラ周りの話がちょろっと出ていたのが面白い

こしあん

Next GPT-3.5/4にabc/EQIDENの問題を解かせてみた（AI王データセット） »

Previous « S3 Express One Zoneを使ったときのメモ

論文まとめ：Style Aligned Image Generation via Shared Attention

タイトル：Style Alig…

3日 ago

Python（requests）でDiscordにWebhook経由で複数の画像＋メッセージ投稿

DiscordにWebhook…

2週間 ago

Arxiv RAGによる論文サーベイの自動生成

複数のLLM（GPT/Clau…

2週間 ago

Uncategorized

[Terraform]HTTPタイプのAPI Gatewayをデプロイする

API Gatewayには2種…

3週間 ago

[Terraform]API Gateway+WAFで短期間の同一IPからのアクセスをブロックする

API Gateway＋WAF…

3週間 ago

[Terraform]CloudFront＋Lambda@EdgeでLambdaのみで静的ページをホストする

CloudFront+Lamb…

3週間 ago

論文まとめ：Gemini: A Family of Highly Capable Multimodal Models

ざっくりいうと

できること

手法

モデルの種類

アーキテクチャ

学習インフラ

学習データ

性能

ケイパビリティのトレンド

多言語性

マルチモーダル

動画

画像生成

責任あるデプロイ

ハルシネーションを減らす取り組み

付表

グラフの読み取り

多言語設定でのCommonsense reasoning

映像の理解と推論

複雑な画像理解、コード生成、命令追従

所感

Related Post

Recent Posts

論文まとめ：Style Aligned Image Generation via Shared Attention

Python（requests）でDiscordにWebhook経由で複数の画像＋メッセージ投稿

Arxiv RAGによる論文サーベイの自動生成

[Terraform]HTTPタイプのAPI Gatewayをデプロイする

[Terraform]API Gateway+WAFで短期間の同一IPからのアクセスをブロックする

[Terraform]CloudFront＋Lambda@EdgeでLambdaのみで静的ページをホストする