論文要約性能で見る最近のLLM(2024/7)
目次
目的
最近いろいろなLLMが出ているが、論文要約というタスクで見たときにそれぞれがどの程度の性能/コストなのかを見ていく。コスト的と性能両方見て、どれが使いやすいのかを考えたい。
概要
タスク
arXivから論文PDFの全文をテキストで読ませてテンプレート質問に対して回答させる。
- ※全文を与えて回答させるのでRAGではない
- ※PDFを画像として渡して与えてはいない。あくまでテキストに変換
対象モデル
2024年7月現在で有効とされるモデルをOpenAI、Google、Anthropicから抽出
- OpenAI
- GPT-4o
- GPT-4o-mini
- Google
- gemini-1.0-pro
- gemini-1.5-flash
- gemini-1.5-pro
- Anthropic
- claude-3-haiku
- claude-3-sonnet
- claude-3.5-sonnet
対象論文
機械学習の有名論文などから適当に5個抽出
- 1512.03385v1 : ResNet
- 1706.03762v7 : Attention is All You Need
- 2307.09288v2 : LLaMA 2
- 2403.12015v1 : Stable Diffusion Turbo
- 2407.03168v1 : LivePortrait
LLaMA 2の論文だけ異様に長い
価格
モデルごとのカタログスペック
モデルごとの公称値。
Model | Input / 1M | Output / 1M |
---|---|---|
GPT-4o-mini | 0.150 | 0.600 |
GPT-4o | 5.000 | 15.000 |
Claude 3 Haiku | 0.250 | 1.250 |
Claude 3 Sonnet | 3.000 | 15.000 |
Gemini 1.5 Flash / 1.0 Pro (*) | 0.125 | 0.375 |
Gemini 1.5 Pro (*) | 1.250 | 3.750 |
- ただし、OpenAI(GPT)とAnthropic(Claude)はトークン数単位なのに対し、Google(Gemini)は文字数単位なのに注意
- Geminiの場合、1トークンが2~4文字程度。つまり、OpenAIの同等の値よりも実際の請求額は数倍になる
- また、Gemini 1.5で128,000コンテクストウィンドウを超える場合は、単価が倍になる
実測値(ドル単位)
ドル単位での実際の請求額
model | 1512.03385v1 | 1706.03762v7 | 2307.09288v2 | 2403.12015v1 | 2407.03168v1 |
---|---|---|---|---|---|
claude-3-haiku | 0.006 | 0.004 | 0.022 | 0.006 | 0.008 |
claude-3-sonnet | 0.068 | 0.049 | 0.258 | 0.066 | 0.089 |
claude-3.5-sonnet | 0.069 | 0.051 | 0.260 | 0.064 | 0.089 |
gemini-1.0-pro | 0.007 | 0.006 | 0.009 | 0.008 | |
gemini-1.5-flash | 0.007 | 0.006 | 0.029 | 0.007 | 0.008 |
gemini-1.5-pro | 0.066 | 0.055 | 0.294 | 0.070 | 0.082 |
gpt-4o | 0.099 | 0.074 | 0.383 | 0.085 | 0.131 |
gpt-4o-mini | 0.003 | 0.002 | 0.012 | 0.003 | 0.004 |
pages | 12 | 15 | 77 | 19 | 16 |
- GeminiのAPIでは、モデルに対するInput/Outputのトークン数はAPIから取得できるが、実際の文字数はAPIから取得できない。以下のコードで、プロンプトの文字数、トークン数を取得し、そこから「文字数÷トークン数」の比率を計算する。この比率からモデルのInput/Outputの文字数を推定して計算した値を載せている
- pagesは論文のページ数
- LLaMA 2の論文の分量が多いが(2307.09288v2で77ページ)、約7.5万トークンとGPT系でも1ターンの会話に収められる。逆にGemini 1.0 Proはエラーになった。
credentials = service_account.Credentials.from_service_account_file(
SERVICE_ACCOUNT_FILE, scopes=SCOPES)
vertexai.init(project=PROJECT_ID, location=LOCATION, credentials=credentials)
model = GenerativeModel(model_name, system_instruction=[SYSTEM_PROMPT])
content_usage = model.count_tokens([md_text])
len_ratio = content_usage.total_billable_characters / content_usage.total_tokens # ここで比率を計算
response = model.generate_content([md_text],
generation_config=GenerationConfig(temperature=0.2))
実測値(円単位)
1ドル=160円として円単位で計算
model | 1512.03385v1 | 1706.03762v7 | 2307.09288v2 | 2403.12015v1 | 2407.03168v1 |
---|---|---|---|---|---|
claude-3-haiku | 0.9 | 0.7 | 3.5 | 0.9 | 1.3 |
claude-3-sonnet | 10.8 | 7.9 | 41.3 | 10.5 | 14.3 |
claude-3.5-sonnet | 11.0 | 8.1 | 41.6 | 10.2 | 14.2 |
gemini-1.0-pro | 1.2 | 0.9 | 1.4 | 1.3 | |
gemini-1.5-flash | 1.0 | 0.9 | 4.7 | 1.1 | 1.3 |
gemini-1.5-pro | 10.6 | 8.8 | 47.1 | 11.3 | 13.1 |
gpt-4o | 15.8 | 11.8 | 61.3 | 13.6 | 21.0 |
gpt-4o-mini | 0.5 | 0.4 | 1.9 | 0.4 | 0.6 |
pages | 12 | 15 | 77 | 19 | 16 |
値段の観点から主に4つのグループに分けられる。値段はResNet(一番左)基準
- GPT-4o-mini:最安。約0.5円
- Claude 3 Haiku、Gemini 1.5 Flash:次点。約1円
- Claude 3/3.5 Sonnet、Gemini 1.5 Pro:一気に値段は上がるが次のグループ。約10円
- GPT-4o:最も高い。約15円
結論
- GPT-4o-miniの安さと安定性は魅力。機械的に大量のものを読みたいとき向け
- 人間が読むならGemini 1.5 Flashがコスパが良さそう
- お金かけてもいいならGemini 1.5 Pro。4oはコストに割には出力の解像度が低い
- Claude 3/3.5は安定性が低く除外していい。言語の問題、著作権で保護されているから答えられないなどのノイジーな回答を生成ことがある
定量評価
言語の安定性
「日本語で答えてください」というInstructionをプロンプトに入れているが、それに反して英語やその他言語で答えているケースがある。
生成は各モデル5個の論文に対し、3回ずつ行っている。15ケースに対して、Amazon ComprehendのAPIを使い、言語検出を行う。
claude-3-haiku {'ja': 15}
claude-3-sonnet {'de': 1, 'en': 6, 'fi': 1, 'fr': 6, 'id': 1}
claude-3.5-sonnet {'en': 3, 'ja': 12}
gemini-1.0-pro {'en': 5, 'ja': 7}
gemini-1.5-flash {'ja': 15}
gemini-1.5-pro {'ja': 15}
gpt-4o {'ja': 15}
gpt-4o-mini {'ja': 15}
- Claude 3 Haikuは一貫して日本語を生成したが、Sonnetは3でも3.5でも他の言語が混じる
- GPT-4oは一貫して安定
- Geminiは1.5になると日本語を全部出すようになるが、1.0はまだまだ
生成される文字数
生成される文字数について定量評価する
model | 1512.03385v1 | 1706.03762v7 | 2307.09288v2 | 2403.12015v1 | 2407.03168v1 | Mean |
---|---|---|---|---|---|---|
claude-3-haiku | 813.7 | 820.3 | 682.0 | 1041.0 | 814.7 | 834.3 |
claude-3-sonnet | 1561.3 | 1609.7 | 1888.0 | 2254.0 | 445.3 | 1551.7 |
claude-3.5-sonnet | 682.0 | 674.7 | 666.7 | 807.3 | 341.0 | 634.3 |
gemini-1.0-pro | 4160.3 | 1850.7 | 5633.7 | 4507.0 | 4037.9 | |
gemini-1.5-flash | 1170.3 | 1343.7 | 1345.7 | 1313.0 | 1941.7 | 1422.9 |
gemini-1.5-pro | 1321.3 | 1357.3 | 1663.0 | 1681.3 | 1515.0 | 1507.6 |
gpt-4o | 970.7 | 1030.7 | 957.3 | 826.3 | 799.0 | 916.8 |
gpt-4o-mini | 803.0 | 906.0 | 885.0 | 815.0 | 870.7 | 855.9 |
Mean | 1435.3 | 1199.1 | 1155.4 | 1796.5 | 1404.3 |
- GPT-4o/-4o-miniよりも、Gemini 1.5のほうが長文生成される傾向にある
- ClaudeやGemini 1は他言語が混入しているため、文字数が多くなりがち。参考にならない
試行間の一貫性
- 各モデル・論文につき、どの程度ブレるかを定量評価する
- 3回の生成について、Embeddingの類似度をペアで取ってコサイン類似度を計算(1回目 vs 2回目、2回目 vs 3回目、1回目 vs 3回目)
- EmbeddingはOpenAIの
text-embedding-3-large
を使用 - 値は高いほど試行間の一貫性が高い。一定の評価には使える
model | 1512.03385v1 | 1706.03762v7 | 2307.09288v2 | 2403.12015v1 | 2407.03168v1 | Mean |
---|---|---|---|---|---|---|
claude-3-haiku | 0.864 | 0.894 | 0.956 | 0.894 | 0.934 | 0.908 |
claude-3-sonnet | 0.938 | 0.979 | 0.936 | 0.679 | 0.990 | 0.904 |
claude-3.5-sonnet | 0.938 | 0.945 | 0.969 | 0.835 | 1.000 | 0.937 |
gemini-1.0-pro | 0.741 | 0.861 | 0.775 | 0.861 | 0.809 | |
gemini-1.5-flash | 0.953 | 0.982 | 0.928 | 0.961 | 0.950 | 0.955 |
gemini-1.5-pro | 0.909 | 0.964 | 0.967 | 0.926 | 0.916 | 0.936 |
gpt-4o | 0.892 | 0.982 | 0.946 | 0.932 | 0.980 | 0.947 |
gpt-4o-mini | 0.930 | 0.970 | 0.930 | 0.936 | 0.961 | 0.945 |
Mean | 0.896 | 0.947 | 0.948 | 0.867 | 0.949 |
→ Gemini1.5とGPT-4oが高い。ただ漠然と意味が似ていれば1になるので、完全な評価ではないのが注意
定性評価(Gemini 1.5 Flash vs GPT-4o Mini)
Gemini 1.5 Flash/ProとGPT-4o/miniに絞って評価する。まずは軽いモデル同士、GPT-4o-mini vs Gemini 1.5 Flashで比較する
結論:
- GPT-4o-mini
- ◯:Geminiよりも半分ぐらいで安い
- ☓:内容の網羅性が少し少ない
- ◯:トンマナが安定している
- 大量の論文を機械的に要約するときは向いてそう。人間が読むときはGeminiのようにもう少し解像度上げて良さそう
- Gemini 1.5 Flash
- ☓:絶対的に見ると安いが、GPT-4o-miniと比べると倍ぐらいする
- ☓:昔と比べるとだいぶよくなったが、GPTよりトンマナが少し不安定
- ◯:4o-miniと比べると結構内容を網羅している
- 人間が読むときは向いてそう。コスパ的には結構いいのではないか
ResNet
GPT-4o-mini
- この論文において解決したい課題は何?
深いニューラルネットワークの学習における「劣化問題」を解決すること。 -
先行研究だとどういう点が課題だった?
深いネットワークは、層を増やすことで精度が向上するはずが、実際にはトレーニングエラーが増加し、精度が低下する現象が観察された。 -
先行研究と比較したとき、提案手法の独自性や貢献は何?
提案手法は「残差学習」を導入し、層を追加する際にアイデンティティマッピングを利用することで、最適化を容易にし、深いネットワークでも高い精度を実現した。 -
提案手法の手法を初心者でもわかるように詳細に説明して
残差学習では、各層が入力をそのまま出力に加えるショートカット接続を持ち、これにより新たに学習するのは「残差」(目標出力と入力の差)だけにする。これにより、最適化が容易になり、深いネットワークでも効果的に学習できる。 -
提案手法の有効性をどのように定量・定性評価した?
ImageNetやCIFAR-10データセットでの実験を通じて、提案手法が従来の手法よりも低いエラー率を達成したことを示し、特に深いネットワークでの精度向上を確認した。 -
この論文における限界は?
提案手法は非常に深いネットワークに対しては効果的だが、特定のデータセットやタスクにおいては最適化の難しさが残る可能性がある。 -
次に読むべき論文は?
「Deep Learning」や「Residual Networks」に関連する最新の研究論文、特に残差学習の応用や改良に関するもの。
コードのリンクは提供されていませんが、実装はCaffeなどの一般的なライブラリを使用して行うことができると述べられています。
Gemini 1.5 Flash
‘## 論文「Deep Residual Learning for Image Recognition」の要約
60秒で読めるように、論文の重要なポイントを簡潔にまとめます。
課題: 従来の深層学習モデルでは、層を重ねるほど学習が難しくなり、精度が低下する「劣化問題」が発生していました。
先行研究の課題: 劣化問題は、過学習ではなく、最適化の困難さに起因すると考えられていました。しかし、既存の最適化手法では、深いモデルにおける恒等写像の近似が困難でした。
提案手法の独自性と貢献: 本論文では、恒等写像を明示的に学習する「深層残差学習」という新しいフレームワークを提案しました。これは、各層が恒等写像からのずれ(残差)を学習することで、最適化を容易にすることを目指しています。
提案手法の詳細: 提案手法は、入力と出力の間にショートカット接続を追加することで実現されます。ショートカット接続は恒等写像を行い、その出力は元の層の出力に加算されます。これにより、層は恒等写像からのずれを学習することができます。
有効性の評価: ImageNetとCIFAR-10のデータセットを用いた実験により、提案手法の有効性が示されました。深層残差ネットワークは、従来の深層ネットワークよりも学習が容易で、層を重ねても精度が向上することが確認されました。
限界: 非常に深いモデルでは、過学習が発生する可能性があります。また、最適化手法の改善の余地は残されています。
次に読むべき論文:
* “”Highway Networks”” (Srivastava et al., 2015): ゲート付きショートカット接続を用いた深層ネットワークの提案
* “”Identity Mappings in Deep Residual Networks”” (He et al., 2016): 恒等写像を用いた深層残差ネットワークのさらなる発展
論文中のコード: 論文中にコードは提示されていません。
補足: 本論文は、深層学習における重要な概念である「残差学習」を初めて提案した論文として知られています。この論文は、深層学習の分野に大きな影響を与え、その後多くの研究が深層残差ネットワークをベースに行われています。
Stable Diffusion Turbo
GPT-4o-mini
- この論文において解決したい課題は何?
- 画像生成における拡散モデルの推論速度の遅さを解決すること。
- 先行研究だとどういう点が課題だった?
- Adversarial Diffusion Distillation (ADD)は固定されたDINOv2ディスクリミネータに依存しており、最適化が難しく、高解像度の画像生成に制約があった。
- 先行研究と比較したとき、提案手法の独自性や貢献は何?
- Latent Adversarial Diffusion Distillation (LADD)は、潜在空間での生成特徴を利用し、トレーニングを簡素化し、高解像度の画像生成を可能にした。
- 提案手法の手法を初心者でもわかるように詳細に説明して
- LADDは、潜在空間での生成特徴を用いて、教師モデルからの合成データを生成し、ディスクリミネータを訓練する。これにより、画像空間へのデコードが不要になり、メモリ使用量が削減される。
- 提案手法の有効性をどのように定量・定性評価した?
- CLIPスコアを用いて、生成された画像の品質とテキストとの整合性を評価し、ユーザーの好みを調査した。
- この論文における限界は?
- 推論速度を向上させる一方で、プロンプトの整合性が低下することがあり、特にオブジェクトの重複や詳細な空間的指示に関する問題が見られた。
- 次に読むべき論文は?
- “”Adversarial Diffusion Distillation””(ADD)に関する論文や、他の最新の拡散モデルに関する研究。
- コードのリンク
- コードは公開予定であるが、具体的なリンクは示されていない。
Gemini 1.5 Flash
”## 論文「Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation」の要約
60秒で読めるように、論文の重要なポイントを簡潔にまとめます。
課題: 従来の拡散モデルは、高画質画像生成に優れる一方で、推論速度が遅く、リアルタイム処理に適していませんでした。
先行研究の課題:
* Adversarial Diffusion Distillation (ADD) は、推論を高速化するために拡散モデルを蒸留する手法ですが、固定された事前学習済みDINOv2識別器に依存するため、最適化が困難で高解像度画像生成には不向きでした。
提案手法の独自性:
* Latent Adversarial Diffusion Distillation (LADD) は、事前学習済み潜在拡散モデルから生成された特徴を利用することで、ADDの課題を克服しました。
* 潜在空間での蒸留により、高解像度画像生成を可能にし、ADDよりもシンプルで安定した学習を実現しました。
提案手法の詳細:
* LADDは、教師モデルから生成された潜在特徴を識別器として利用します。
* 教師モデルのノイズレベルを調整することで、識別器の挙動を制御し、グローバルな形状やローカルなテクスチャを適切に学習できます。
* 潜在空間での蒸留により、高解像度画像生成を可能にし、ピクセル空間へのデコードを省略することで、メモリ消費を抑えます。
有効性の評価:
* LADDを用いて、Stable Diffusion 3 (8B) を蒸留した「SD3-Turbo」は、わずか4回のサンプリングステップで、最先端のテキストツー画像生成モデルと同等の画質を実現しました。
* 画像編集や画像修復などのタスクにおいても、LADDの有効性が確認されました。
限界:
* SD3-Turboは、教師モデルと同等の画質を維持しながら推論速度を向上させましたが、プロンプトの解釈精度が若干低下する傾向が見られました。
* 画像編集タスクでは、画像とテキストのガイダンス強度の調整ができないため、制御性が制限されます。
次に読むべき論文:
* 画像生成モデルのスケーラビリティに関する論文
* 拡散モデルの蒸留に関する論文
* 画像編集や画像修復に関する論文
コード:
* 論文中にコードは提示されていません。
補足:
* 論文では、SD3-Turboのモデルウェイトとコードを公開する予定であると述べています。
* LADDは、拡散モデルの推論速度を大幅に向上させる可能性を秘めた手法です。
* 今後、LADDのさらなる発展が期待されます。
LLaMA 2
GPT-4o-mini
‘### Llama 2: Open Foundation and Fine-Tuned Chat Models
- この論文において解決したい課題は何?
- Llama 2の開発と公開を通じて、オープンソースの大規模言語モデル(LLM)の性能と安全性を向上させること。
- 先行研究だとどういう点が課題だった?
- 先行のオープンソースモデルは、閉じた商用モデルに比べて性能や安全性が劣っており、特に人間の好みに合わせた調整が不足していた。
- 先行研究と比較したとき、提案手法の独自性や貢献は何?
- Llama 2は、事前学習と強化学習を組み合わせた手法を用いており、特に対話型のタスクに最適化されたモデル(Llama 2-Chat)を提供することで、オープンソースモデルの性能を大幅に向上させた。
- 提案手法の手法を初心者でもわかるように詳細に説明して
- Llama 2は、まず大量のテキストデータで事前学習を行い、その後、人間のフィードバックを用いてモデルを微調整します。具体的には、ユーザーからの評価を基に、モデルが生成する応答の質を向上させるための強化学習を行います。
- 提案手法の有効性をどのように定量・定性評価した?
- 有効性は、さまざまなベンチマークテストや人間による評価を通じて測定され、Llama 2-Chatは他のオープンソースモデルや商用モデルに対して優れた性能を示しました。
- この論文における限界は?
- Llama 2は主に英語データで訓練されており、他の言語に対する性能は限定的である。また、モデルが生成する出力の予測が難しく、時には不正確または不適切な応答を生成する可能性がある。
- 次に読むべき論文は?
- Llama 2の開発に関連する他の研究や、特に強化学習や安全性に関する文献を探すことをお勧めします。
コードリンク: Llama GitHub Repository
Gemini 1.5 Flash
‘## 論文「Llama 2: Open Foundation and Fine-Tuned Chat Models」の60秒解説
課題:
– 現状、高性能なチャットモデルは、閉鎖的な環境で開発されており、オープンソース化されていない。
– オープンソースのチャットモデルは、性能や安全性において、閉鎖的なモデルに劣っている。
先行研究の課題:
– オープンソースのチャットモデルは、人間によるフィードバックを十分に活用したチューニングが不足している。
– 安全性に関する対策が不十分で、有害なコンテンツを生成する可能性がある。
提案手法の独自性と貢献:
– 70億から700億のパラメータを持つ、大規模言語モデル「Llama 2」をオープンソースで公開。
– 人間によるフィードバックを活用したチューニング(RLHF)を徹底的に行い、性能と安全性を向上させた。
– 安全性に関する対策として、有害なコンテンツを生成しないように、データの選定、モデルのチューニング、レッドチームによるテストを実施。
提案手法の詳細:
– Llama 2は、大規模なテキストデータセットで事前学習されたモデル。
– RLHFでは、人間がモデルの出力結果を評価し、そのフィードバックに基づいてモデルをチューニングする。
– 安全性対策として、有害なコンテンツを含むデータの排除、安全性を重視したモデルのチューニング、レッドチームによるテストを実施。
有効性の評価:
– 性能評価では、Llama 2-Chatは、既存のオープンソースモデルを上回る性能を示した。
– 安全性評価では、Llama 2-Chatは、有害なコンテンツを生成する割合が低く、安全性が高いことが確認された。
限界:
– 知識の更新は、事前学習時以降は行われていない。
– 英語以外の言語への対応は、まだ十分ではない。
– すべての状況において、安全性を保証することはできない。
次に読むべき論文:
– RLHFに関する論文: “”Training language models to follow instructions with human feedback”” (Ouyang et al., 2022)
– 安全性に関する論文: “”Ethical and social risks of harm from language models”” (Weidinger et al., 2021)
コード:
– Llama 2のコードは、GitHubで公開されています。
– リンク: https://github.com/facebookresearch/llama
定性評価(Gemini 1.5 Pro vs GPT-4o)
お値段高めのモデル同士も比較(Gemini 1.5 Pro vs GPT-4o)
結論:ユースケースによりけりだろうが、個人的にはGemini 1.5 Proのほうが内容が理解しやすい。ただどちらも高い
ResNet
GPT-4o
‘### Deep Residual Learning for Image Recognition
‘#### ・この論文において解決したい課題は何?
深層ニューラルネットワークの層を増やすことで生じる「劣化問題」を解決し、より深いネットワークを効果的に学習させること。
‘#### ・先行研究だとどういう点が課題だった?
層を増やすと、訓練誤差が増加し、精度が低下する「劣化問題」が発生していた。
‘#### ・先行研究と比較したとき、提案手法の独自性や貢献は何?
提案手法は「残差学習」を導入し、層を増やしても劣化問題を回避できるようにした点が独自性であり、これにより非常に深いネットワークの学習が可能となった。
‘#### ・提案手法の手法を初心者でもわかるように詳細に説明して
提案手法では、通常のニューラルネットワークの層に「ショートカット接続」を追加します。これにより、各層が直接的に出力を学習するのではなく、残差(入力との差分)を学習します。具体的には、層の出力を ( F(x) + x ) とし、ここで ( F(x) ) は層が学習する残差関数です。これにより、層がアイデンティティマッピング(入力をそのまま出力すること)を学習するのが容易になり、深いネットワークでも効果的に学習できます。
‘#### ・提案手法の有効性をどのように定量・定性評価した?
ImageNetやCIFAR-10などのデータセットで実験を行い、提案手法が従来の手法よりも低い誤差率を達成することを示した。また、非常に深いネットワーク(最大152層)でも効果的に学習できることを確認した。
‘#### ・この論文における限界は?
非常に深いネットワークでは、過学習のリスクが高まる可能性がある。また、提案手法が他のタスクやデータセットでどの程度汎用性があるかはさらなる検証が必要。
‘#### ・次に読むべき論文は?
「Highway Networks」や「Batch Normalization」に関する論文が次に読むべき論文として推奨される。
‘#### ・論文中にコードが提示されていれば、それをリンク付きで示してください
論文中に直接コードは提示されていませんが、Caffeなどの一般的なライブラリで実装可能とされています。
Gemini 1.5 Pro
”## Deep Residual Learning for Image Recognition 論文要約
‘### 解決したい課題
- 層を深くしたDNNの学習で精度が飽和し、更に層を深くすると性能が劣化してしまう「劣化問題」を解決し、より深いネットワークアーキテクチャで高精度な学習を実現する。
‘### 先行研究の課題
- 過去の研究では、勾配消失/爆発問題によって深いネットワークの学習が困難だった。
- 勾配消失/爆発問題は、正規化や中間層正規化である程度解決されたが、層を深くすると精度が劣化してしまう問題が残っていた。
‘### 提案手法の独自性・貢献
- 従来のネットワークのように、層を重ねて目的の関数を直接学習するのではなく、残差学習(Residual Learning) という新しいフレームワークを提案。
- 層を重ねて残差関数を学習することで、恒等写像を学習しやすくなり、劣化問題を解決できる。
‘### 提案手法の詳細
- 残差ブロック(Residual Block)の導入:
- 従来のネットワークでは、入力
x
を目的の関数H(x)
に変換しようとしていた。 - 提案手法では、
H(x)
を直接学習するのではなく、残差関数F(x) = H(x) - x
を学習する。 - 入力
x
に対して、残差関数F(x)
と恒等写像x
を加算することで出力y = F(x) + x
を得る。 - この残差ブロックは、「ショートカット接続」を用いて実装される。
- 従来のネットワークでは、入力
- ショートカット接続:
- 恒等写像を実現するための接続。
- 入力
x
を、残差ブロックの出力を計算する層をスキップして、出力に加算する。 - パラメータを持たず、計算量も増加させない。
- Bottleneckアーキテクチャ:
- より深いネットワークを効率的に学習するために、ボトルネック構造を持つ残差ブロックを導入。
- 1×1畳み込み層でチャネル数を減らし、3×3畳み込み層で特徴量を抽出し、再び1×1畳み込み層でチャネル数を元に戻す。
‘### 定量・定性評価
- ImageNetデータセットを用いて、従来のネットワークとResNetの性能を比較。
- ResNetは、従来のネットワークよりも深い構造にもかかわらず、劣化問題を起こさずに学習できた。
- 152層のResNetは、従来のネットワークよりも高い精度を達成し、ILSVRC 2015の分類タスクで1位を獲得した。
- CIFAR-10データセットを用いて、ResNetの層の深さと性能の関係を分析。
- 100層、1000層を超えるResNetでも、劣化問題を起こさずに学習できることを確認。
- PASCAL VOC、MS COCOデータセットを用いて、ResNetを用いた物体検出の性能を評価。
- ResNetを用いることで、従来のネットワークよりも高い精度で物体検出が可能になった。
‘### 論文の限界
- 1000層を超えるResNetでは、学習は可能だが、精度が向上しない場合がある。
- 非常に深いResNetは、メモリ使用量や計算コストが大きい。
‘### 次に読むべき論文
- Highway Networks (Srivastava et al., 2015): ResNetと同様にショートカット接続を用いたネットワーク。ゲート機構を用いる点がResNetと異なる。
- Densely Connected Convolutional Networks (Huang et al., 2017): 全ての層が後続の層と密に接続されたネットワーク。ResNetのショートカット接続を更に発展させた構造を持つ。
‘### コード
- 論文中にコードは提示されていません。
Attention is All You Need
GPT-4o
‘### Attention Is All You Need
‘#### 一問一答
この論文において解決したい課題は何?
従来のリカレントニューラルネットワーク(RNN)や畳み込みニューラルネットワーク(CNN)に基づくシーケンス変換モデルの計算効率と性能を改善すること。
先行研究だとどういう点が課題だった?
RNNやCNNはシーケンスの長さに依存するため、並列化が困難であり、計算効率が低い。また、長距離依存関係の学習が難しい。
先行研究と比較したとき、提案手法の独自性や貢献は何?
Transformerは完全に自己注意機構に基づいており、リカレントや畳み込みを排除することで並列化を大幅に向上させ、計算効率を高めた。また、翻訳タスクでの性能も向上した。
提案手法の手法を初心者でもわかるように詳細に説明して
Transformerはエンコーダとデコーダからなるモデルで、各層は自己注意機構と全結合層から構成される。自己注意機構は、入力シーケンスの異なる位置間の依存関係を学習し、全結合層は各位置の特徴を変換する。エンコーダは入力シーケンスを連続表現に変換し、デコーダはその連続表現を用いて出力シーケンスを生成する。
提案手法の有効性をどのように定量・定性評価した?
定量評価として、WMT 2014の英独および英仏翻訳タスクでのBLEUスコアを使用し、従来の最先端モデルと比較した。定性評価として、自己注意機構が学習した注意分布を視覚化し、モデルの解釈性を示した。
この論文における限界は?
Transformerは長いシーケンスに対して計算コストが高くなる可能性がある。また、自己注意機構の計算量がシーケンス長の二乗に比例するため、非常に長いシーケンスには適用が難しい。
次に読むべき論文は?
「BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding」や「GPT-3: Language Models are Few-Shot Learners」など、Transformerを基盤としたモデルの発展に関する論文。
コードのリンク
論文中に提示されたコードは以下のリンクから入手可能です:
Tensor2Tensor GitHub
Gemini 1.5 Pro
‘## 論文 “”Attention Is All You Need”” の要約
・この論文において解決したい課題は何?\
系列データにおける長距離依存性学習の効率化と、その並列化
・先行研究だとどういう点が課題だった?\
RNNやCNNベースの手法では、系列データの処理が逐次的になるため、計算コストが高く、長距離依存性の学習が困難だった。
・先行研究と比較したとき、提案手法の独自性や貢献は何?\
系列データの表現に自己注意機構のみを用い、RNNやCNNを完全に排除したTransformerを提案。これにより、並列処理が可能となり、学習時間の短縮と高精度な翻訳を実現した。
・提案手法の手法を初心者でもわかるように詳細に説明して\
Transformerは、EncoderとDecoderという2つの部分から構成されています。\
1. 入力文はまずEncoderに入力され、単語の埋め込み表現に変換された後、位置情報が付加されます。\
2. 自己注意機構を通して、各単語は文中の他の単語との関係性を考慮した重みを得ます。\
3. この重みを用いて、各単語の新しい表現が計算されます。\
4. この処理がEncoderの複数層で繰り返され、最終的に文全体の特徴表現が生成されます。\
5. DecoderはEncoderの出力を利用し、自己注意機構とEncoder-Decoder注意機構を用いて、翻訳文を逐語生成します。\
6. 各ステップで、Decoderは生成済みの単語列とEncoderの出力から次の単語を予測します。
・提案手法の有効性をどのように定量・定性評価した?\
– WMT 2014 英語-ドイツ語、英語-フランス語翻訳タスクにおいて、BLEUスコアで従来手法を上回る性能を達成。\
– 特に、英語-ドイツ語翻訳では、既存のアンサンブルモデルを含む全てのモデルを上回る結果を達成。\
– 英語構文解析タスクにも適用し、RNNベースのモデルよりも高い精度を達成。
・この論文における限界は?\
– 画像、音声、動画など、テキスト以外のデータへの適用は今後の課題。\
– 生成処理のさらなる並列化も課題として挙げられている。
・次に読むべき論文は?\
– “”BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”” (Devlin et al., 2018)
– “”Transformer-XL: Attentive Language Models Beyond Fixed-Length Contexts”” (Dai et al., 2019)
・論文中にコードが提示されていれば、それをリンク付きで示してください\
コードは以下で公開されています。\
https://github.com/tensorflow/tensor2tensor
LivePortrait
GPT-4o
‘### 一問一答
Q: この論文において解決したい課題は何?
A: 静止画像からリアルで表現力豊かなポートレートアニメーションを効率的に生成すること。
Q: 先行研究だとどういう点が課題だった?
A: 先行研究は計算コストが高く、目や唇の動きの精密な制御が難しかった。
Q: 先行研究と比較したとき、提案手法の独自性や貢献は何?
A: 提案手法は、暗黙的キーポイントを用いた効率的なアニメーション生成と、目や唇の動きを精密に制御するモジュールを導入した点が独自性である。
Q: 提案手法の手法を初心者でもわかるように詳細に説明して
A: 提案手法は、まず大量の高品質なポートレート画像とビデオデータでモデルを訓練し、暗黙的キーポイントを用いて顔の動きを表現します。次に、目や唇の動きを制御するためのモジュールを追加し、これによりアニメーションの精度と制御性を向上させます。最終的に、生成されたアニメーションを元の画像にシームレスに貼り付けることで、自然な見た目を実現します。
Q: 提案手法の有効性をどのように定量・定性評価した?
A: 定量評価では、PSNR、SSIM、LPIPS、FIDなどの指標を用いて生成品質を評価し、定性評価では、他の手法と比較して目や唇の動きの精度や自然さを視覚的に比較しました。
Q: この論文における限界は?
A: 大きなポーズ変化を伴うクロスリナクトメントシナリオでの性能が不十分であり、肩の動きが大きい場合にジッターが発生する可能性がある。
Q: 次に読むべき論文は?
A: 「Face vid2vid」や「AniPortrait」など、ポートレートアニメーションに関する他の最新の研究。
コードリンク
https://github.com/KwaiVGI/LivePortrait
Gemini 1.5 Pro
“## LivePortrait: Efficient Portrait Animation with Stitching and Retargeting Control 論文要約 (60秒で読めるバージョン)
‘### この論文において解決したい課題は何?
静止画ポートレート画像から、高速かつ高品質で、かつ制御可能な動画ポートレートを生成すること。
‘### 先行研究だとどういう点が課題だった?
- 拡散モデルベースの手法は高品質だが、計算コストが大きく、制御が難しい。
- 従来のキーポイントベースの手法は高速だが、品質が低い。
‘### 先行研究と比較したとき、提案手法の独自性や貢献は何?
- 高品質なデータセットと学習戦略、ネットワーク構造の改良により、キーポイントベースの手法でも高品質な動画生成を実現。
- スティッチングモジュールとリターゲティングモジュールにより、高速性を維持したまま、顔のパーツや体の動きを制御可能に。
‘### 提案手法の手法を初心者でもわかるように詳細に説明して
- ベースモデルの学習: まず、大量のポートレート画像と動画データを使い、顔のキーポイント、頭部の姿勢、表情などを推定するモデルを学習する。
- スティッチングとリターゲティングモジュールの学習: 次に、学習済みのベースモデルに、スティッチングモジュールとリターゲティングモジュールを追加学習する。
- スティッチングモジュールは、アニメーション化された顔と元の画像の肩の位置を合わせることで、自然な合成を可能にする。
- 目と口のリターゲティングモジュールは、それぞれ目の開閉と口の動きを別々に制御することを可能にする。
‘### 提案手法の有効性をどのように定量・定性評価した?
- TalkingHead-1KH、VFHQ、FFHQ などのデータセットを用い、PSNR、SSIM、LPIPS、FID などの指標で定量評価を行い、先行研究と比較して高品質な動画生成を実現していることを示した。
- 目と口のリターゲティング、スティッチングの効果を視覚的に確認できる定性評価結果も示した。
‘### この論文における限界は?
- 顔の向きが大きく変化する場合は、うまく動作しないことがある。
- 肩の動きが大きい場合は、動画が途切れてしまうことがある。
‘### 次に読むべき論文は?
- Face Vid2vid [5]: 本論文で提案手法の基礎として使用されているキーポイントベースの動画ポートレート生成手法。
- AniPortrait [12]: 本論文と比較対象となっている、拡散モデルベースの動画ポートレート生成手法。
‘### 論文中にコードが提示されていれば、それをリンク付きで示してください
Shikoan's ML Blogの中の人が運営しているサークル「じゅ~しぃ~すくりぷと」の本のご案内
技術書コーナー
北海道の駅巡りコーナー