こしあん
2024-06-13

論文まとめ:MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures


180{icon} {views}

要約By Claude-3 Haiku

この論文において解決したい課題は何?

LLMの評価における課題として、以下の3つのバイアスが指摘されています。
1) クエリバイアス – 評価クエリの網羅性や適切な分布が不足している
2) 採点バイアス – 採点プロセスに大きなバイアスや誤りが含まれている
3) 一般化バイアス – モデルがベンチマークデータに過剰に適応してしまう

先行研究だとどういう点が課題だった?

従来の自動ベンチマークは、クエリの網羅性や現実世界の多様性を捉えられていない一方で、LLMを採点者として使うアプローチは採点バイアスの問題がある。また、これらのベンチマークは静的なため、時間とともに劣化・汚染されてしまう。一方、大規模なユーザ評価ベンチマークは信頼性が高いが、コストと時間がかかり再現性がない。

先行研究と比較したとき、提案手法の独自性や貢献は何?
提案するMixEvalは、効率的で公平な基準ベンチマークを実現するために、1) 効率的で採点の公平性が高い基準ベンチマーク、2) 現実世界のクエリ網羅性と分布を反映したユーザクエリを組み合わせる新しいアプローチです。これにより、従来の課題を解決しつつ、高い相関と効率性を両立しています。

提案手法の手法を初心者でもわかるように詳細に説明して

MixEvalは2段階のパイプラインで構成されています。

  1. ウェブからユーザクエリを検出する
  2. オープンソースのLLMを使ってCommon Crawlからクエリを検出し、GPT-4でフィルタリングして分類する
  3. 既存ベンチマークとウェブクエリをマッチングする
  4. 既存の基準ベンチマークプールから、ウェブクエリと最も類似したクエリとその正解を抽出する

これにより、現実世界のクエリ分布と効率的な基準ベンチマークを組み合わせたMixEvalを構築します。さらに、MixEval-Hardではより難易度の高いサブセットを抽出しています。また、動的更新メカニズムにより、ベンチマークの汚染を抑制しています。

提案手法の有効性をどのように定量・定性評価した?

MixEvalとMixEval-Hardは、ユーザ評価ベンチマークであるChatbot Arenaとの相関が最も高く(それぞれ0.93, 0.96)、従来の自動ベンチマークを大きく上回っています。また、コストと時間が従来の10%以下と大幅に削減されています。さらに、動的更新メカニズムにより、モデルスコアの標準偏差が0.36と安定しています。

この論文における限界は?

提案手法では、ウェブクエリ検出パイプラインの精度や、Common Crawlデータ収集の偏りなど、いくつかの潜在的なバイアスが残っています。また、MixEval-Hardの更新にはある程度の時間がかかるという限界もあります。

次に読むべき論文は?
* MAmmoTH2: Scaling Instructions from the Web
* ウェブからドメイン特化型クエリを大規模に抽出する手法
* From Live Data to High-Quality Benchmarks: The Arena-Hard Pipeline
* ユーザ評価ベンチマークの構築と更新に関する手法
* Rethinking Benchmark and Contamination for Language Models with Rephrased Samples
* ベンチマークの汚染問題に関する分析と対策

また、提案手法のコードはhttps://mixeval.github.io/ で公開されています。

導入

先行研究の課題

  • LLMベースの評価
    • 有効だが3つのバイアスがある
      • クエリバイアス
      • 採点バイアス
      • 一般化バイアス
  • MMLUのようなGround Truthベースのベンチマーク
    • 公平な等級付けプロセスが可能
    • 実世界のクエリの包括性とニュアンスを捉えられない
  • MT-Benchのような等級付け+LLMによるベンチマーク
    • 優先順位についての高いアノテーションコスト
    • 問い合わせの包括的ではなく、Staticなデータなので時間経過で劣化する
  • Chatbot Arenaのような大規模な人間ベースの評価
    • 3つのバイアスの緩和
      • クエリバイアス→実世界のユーザークエリを大量に収集するため、包括性はある
        • Chatbot ArenaやLMSYS-Chat-1Mはクエリトピックについてはやや技術よりのバイアスはある
        • 下の図は、16分割した領域をGPT-4でトピック要約
      • 採点バイアス→個人の判断ノイズの回避(「群衆の知恵」効果)
      • 一般化バイアス→継続的にクエリを受信するため、時間経過の劣化にロバスト
    • その一方で法外な採点コストがかかる

本研究の目的:Chatbot Arenaのような手法だが、低コストでできる手法を考えた

How?

  • 2つの要素からなる、ベンチマーク再構成パイプライン「MixEval」
    • クエリマイニング
    • マイニングされたクエリにおける既存のベンチマークのGrounding
  • 3つの流れ:
    • クエリ検出
      • Common Crawl分割のクエリを検出するため、自己収集したデータでオープンソースのLLMを学習
    • フィルタリング
      • GPT-4-Turboを利用し、クエリ以外の文章を除外
    • 分類
      • フィルタリングされたクエリを入出力モダリティによって分類
      • ベンチマーククエリの中から最も類似したクエリに対応するGround Truthの答えとマッチングさせる

MixEval

Webユーザークエリ検出

  • Common Crawlから実環境のシナリオに必要な、ユーザークエリを検出したい(分類モデルによるフィルタリング+生成)
    • 実世界のシナリオを反映するようなPrecision Recallの両方が重要
  • 予備実験
    • 1つ目:Wekipediaのデータセットをネガティブ、自己収集した実環境のユーザークエリをポジティブ
    • 2つ目:手作業で選んだポジティブとネガティブのサンプル(高品質)
  • フィルタリングはGPT-4、クエリ生成はVicuna 33Bを学習

ベンチマークの混合

  • 行うこと:クエリ文→どのデータセットが適しているか?のマッピング
  • データセットにわたりSentence Embeddingを計算し、データセット内で最大のクエリ(Top1)をデータセットの類似度とする。それを最大とするようなデータセットにマッピング

Ops的な部分

  • 静的なベンチマークだと時間経過で劣化してしまう

MixEval-Hard

  • LLMの急速な進化でサチってるから難しい問題だけ抽出したい
  • 回答の結果から、クエリあたりの難易度スコアを推定し、より高い難易度のクエリを1000個抽出

結果

Arena Eloと高い相関

パラメーター数と性能、コストと性能のトレードオフを考慮可能(物体検出の図っぽい)

エラー分析

AGI Evalにおける誤差が大きい
→(私の注釈):AGI Evalのデータの多くは高考から取れており、中国のドメインスペシフィックな問題が多いのではないか?

所感

  • フィルタリング部分をGPT-4にやらせているのが原因ではないだろうか? ローカルで動く分類モデルでもよかったのでは?
  • 発想はいいが、アブレーションがないのが論文として弱い。合成するよりも、検索してGround Truthの答えをそのままとってきたほうが良いというところのアブレーションがほしい


Shikoan's ML Blogの中の人が運営しているサークル「じゅ~しぃ~すくりぷと」の本のご案内

技術書コーナー

北海道の駅巡りコーナー


Add a Comment

メールアドレスが公開されることはありません。 が付いている欄は必須項目です