論文まとめ：MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures

Posted On 2024-06-13

244{icon} {views}

タイトル：MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures
URL：https://mixeval.github.io/
論文：https://arxiv.org/abs/2406.06565

要約By Claude-3 Haiku

この論文において解決したい課題は何?

LLMの評価における課題として、以下の3つのバイアスが指摘されています。
1) クエリバイアス – 評価クエリの網羅性や適切な分布が不足している
2) 採点バイアス – 採点プロセスに大きなバイアスや誤りが含まれている
3) 一般化バイアス – モデルがベンチマークデータに過剰に適応してしまう

先行研究だとどういう点が課題だった?

従来の自動ベンチマークは、クエリの網羅性や現実世界の多様性を捉えられていない一方で、LLMを採点者として使うアプローチは採点バイアスの問題がある。また、これらのベンチマークは静的なため、時間とともに劣化・汚染されてしまう。一方、大規模なユーザ評価ベンチマークは信頼性が高いが、コストと時間がかかり再現性がない。

先行研究と比較したとき、提案手法の独自性や貢献は何?
提案するMixEvalは、効率的で公平な基準ベンチマークを実現するために、1) 効率的で採点の公平性が高い基準ベンチマーク、2) 現実世界のクエリ網羅性と分布を反映したユーザクエリを組み合わせる新しいアプローチです。これにより、従来の課題を解決しつつ、高い相関と効率性を両立しています。

提案手法の手法を初心者でもわかるように詳細に説明して

MixEvalは2段階のパイプラインで構成されています。

ウェブからユーザクエリを検出する
オープンソースのLLMを使ってCommon Crawlからクエリを検出し、GPT-4でフィルタリングして分類する
既存ベンチマークとウェブクエリをマッチングする
既存の基準ベンチマークプールから、ウェブクエリと最も類似したクエリとその正解を抽出する

これにより、現実世界のクエリ分布と効率的な基準ベンチマークを組み合わせたMixEvalを構築します。さらに、MixEval-Hardではより難易度の高いサブセットを抽出しています。また、動的更新メカニズムにより、ベンチマークの汚染を抑制しています。

提案手法の有効性をどのように定量・定性評価した?

MixEvalとMixEval-Hardは、ユーザ評価ベンチマークであるChatbot Arenaとの相関が最も高く(それぞれ0.93, 0.96)、従来の自動ベンチマークを大きく上回っています。また、コストと時間が従来の10%以下と大幅に削減されています。さらに、動的更新メカニズムにより、モデルスコアの標準偏差が0.36と安定しています。

この論文における限界は?

提案手法では、ウェブクエリ検出パイプラインの精度や、Common Crawlデータ収集の偏りなど、いくつかの潜在的なバイアスが残っています。また、MixEval-Hardの更新にはある程度の時間がかかるという限界もあります。

次に読むべき論文は?
* MAmmoTH2: Scaling Instructions from the Web
* ウェブからドメイン特化型クエリを大規模に抽出する手法
* From Live Data to High-Quality Benchmarks: The Arena-Hard Pipeline
* ユーザ評価ベンチマークの構築と更新に関する手法
* Rethinking Benchmark and Contamination for Language Models with Rephrased Samples
* ベンチマークの汚染問題に関する分析と対策

また、提案手法のコードはhttps://mixeval.github.io/ で公開されています。

導入

先行研究の課題

LLMベースの評価
- 有効だが3つのバイアスがある
  - クエリバイアス
  - 採点バイアス
  - 一般化バイアス
MMLUのようなGround Truthベースのベンチマーク
- 公平な等級付けプロセスが可能
- 実世界のクエリの包括性とニュアンスを捉えられない
MT-Benchのような等級付け＋LLMによるベンチマーク
- 優先順位についての高いアノテーションコスト
- 問い合わせの包括的ではなく、Staticなデータなので時間経過で劣化する
Chatbot Arenaのような大規模な人間ベースの評価
- 3つのバイアスの緩和
  - クエリバイアス→実世界のユーザークエリを大量に収集するため、包括性はある
    - Chatbot ArenaやLMSYS-Chat-1Mはクエリトピックについてはやや技術よりのバイアスはある
    - 下の図は、16分割した領域をGPT-4でトピック要約
  - 採点バイアス→個人の判断ノイズの回避（「群衆の知恵」効果）
  - 一般化バイアス→継続的にクエリを受信するため、時間経過の劣化にロバスト
- その一方で法外な採点コストがかかる

本研究の目的：Chatbot Arenaのような手法だが、低コストでできる手法を考えた

How？

2つの要素からなる、ベンチマーク再構成パイプライン「MixEval」
- クエリマイニング
- マイニングされたクエリにおける既存のベンチマークのGrounding
3つの流れ：
- クエリ検出
  - Common Crawl分割のクエリを検出するため、自己収集したデータでオープンソースのLLMを学習
- フィルタリング
  - GPT-4-Turboを利用し、クエリ以外の文章を除外
- 分類
  - フィルタリングされたクエリを入出力モダリティによって分類
  - ベンチマーククエリの中から最も類似したクエリに対応するGround Truthの答えとマッチングさせる

MixEval

Webユーザークエリ検出

Common Crawlから実環境のシナリオに必要な、ユーザークエリを検出したい（分類モデルによるフィルタリング＋生成）
- 実世界のシナリオを反映するようなPrecision Recallの両方が重要
予備実験
- 1つ目：Wekipediaのデータセットをネガティブ、自己収集した実環境のユーザークエリをポジティブ
- 2つ目：手作業で選んだポジティブとネガティブのサンプル（高品質）
フィルタリングはGPT-4、クエリ生成はVicuna 33Bを学習

ベンチマークの混合

行うこと：クエリ文→どのデータセットが適しているか？のマッピング
データセットにわたりSentence Embeddingを計算し、データセット内で最大のクエリ（Top1）をデータセットの類似度とする。それを最大とするようなデータセットにマッピング

Ops的な部分

静的なベンチマークだと時間経過で劣化してしまう

MixEval-Hard

LLMの急速な進化でサチってるから難しい問題だけ抽出したい
回答の結果から、クエリあたりの難易度スコアを推定し、より高い難易度のクエリを1000個抽出

結果

Arena Eloと高い相関

パラメーター数と性能、コストと性能のトレードオフを考慮可能（物体検出の図っぽい）

エラー分析

AGI Evalにおける誤差が大きい
→（私の注釈）：AGI Evalのデータの多くは高考から取れており、中国のドメインスペシフィックな問題が多いのではないか？

所感

フィルタリング部分をGPT-4にやらせているのが原因ではないだろうか？　ローカルで動く分類モデルでもよかったのでは？
発想はいいが、アブレーションがないのが論文として弱い。合成するよりも、検索してGround Truthの答えをそのままとってきたほうが良いというところのアブレーションがほしい

Shikoan's ML Blogの中の人が運営しているサークル「じゅ～しぃ～すくりぷと」の本のご案内

技術書コーナー

北海道の駅巡りコーナー

Tags:LLM, 評価指標, 論文読み