GPT-3.5/4にabc/EQIDENの問題を解かせてみた（AI王データセット）

Posted On 2024-01-30

478{icon} {views}

RAGのための評価データセットの構築として「GPTの素の知識で解けない問題のデータセット」というのが必要性を増している。RAGの性能評価（特にBingチャットのような検索エンジンのRAG）の場合、(1)外部知識の必要性、(2)ステートレス性において、競技クイズの問題が有効であるということが示唆される。

この記事では、AI王データセットを用いて、abc/EQIDENの問題をGPT-3.5/4に解かせて、回答・正誤判定をLLMにより行わせた。競技クイズでは採点基準が公開されているため、LLMの評価が向いている。その結果、GPT-3.5では55.3％、GPT-4では75.7％の正解率があることがわかり、「GPT-4の素の知識では解けない問題」のデータを3769問集めることができた。推論結果は末尾に公開してある。

背景

ユーザーの問いに対する、検索エンジンへの検索ワード生成をGPTを使って行いたい（BingチャットのようなRAGへの応用）
ただ、質問と回答が紐づいた、評価のためのデータセットがない
クイズ界隈では、プレイ中にスマホを使い、Google検索により回答を得るというチート（いわゆる検索プレイ）が行われている
この発想を逆転にとり、AI王のデータ（配布されている学習データはabc/EQUIDEN、評価データは特注）を用い、GPTを使った検索ワードの生成を行う方法を考えた
第一段階としては、ベースラインとして素のGPTの回答能力を検証し、「GPTの素の知識で解けないFAQデータセット」を構築する

Bingチャットの場合

Bingチャットの場合、検索エンジンを使った検索拡張生成（RAG）が行われている。これをやりたい。

RAG自体はいろいろあるが、「検索エンジンの検索ワードをどう作るか？」が問題。これは人間が何気なくやっているが、実はどう作っているかはあまりシステマチックになっていない。

検索エンジンのワードはスペース区切りになるようにするのが通常（例：「日本の現在の総理大臣は誰？」という問なら「日本　総理大臣」）。ワードをスペース区切りで行うプロンプト設計という点では、初期のStable Diffusionのプロンプト設計と似ている（例：「1girl, blue-haired, best quality」）。これにGPTを組み込む事例も多々あるので、基本的に相性はいい。

クイズにおける検索プレイ

クイズの問題は、Google検索すればかなりの確率で答えが出てくるので、これを使って有利に進めるのは誰しも考える。通称「検索プレイ」などとも言われる。

使用モデル・評価データ

使用モデル

検索ワードの生成、RAGはいずれも情報の圧縮。GPT-3.5でも十分なタスクと考えられるので、なるべくGPT-3.5で行いたい
開発時の評価用にGPT-4を使うのはあり

評価用データに求めること

ChatGPTが既存の知識でなるべくわからない専門的な（ニッチの）問いのほうがいい
- ChatGPTの既存知識でわかったら、RAGの検索のコンテクストの差分がわかりにくくなってしまうから
なるべく日本の独自の問いのほうがいい
Ground Truthの回答があるほうが嬉しい。あるとGPTで評価できる

検索エンジンの恩恵を受けられるタスク

これを全部満たすのが、クイズの問題
他にも試験問題などがある。試験問題（例：共通テスト）の場合は、
- 長距離の推論を要する問題も多い（例：数学の計算問題、国語や英語の長文読解）
- LLMの性能評価としてはいいが、Google検索の影響を知るには少しずれている
- Google検索を使っても試験問題には答えられてるが、何回か検索→検索結果同士の演算が必要なので、タスクとしてはやや高度で、ステートフルな設計が必要。

クイズの問題のほうがGoogle検索の恩恵を直球に受けられる。

1問1答方式で、ステートレスな仕様
検索だけでほぼ答えにたどり着ける
問題的には難しいが、ネットではすぐ出てこないような専門的な知識（例：医師の国家試験）を要求しない

クイズの問題は「AI王〜クイズAI日本一決定戦〜」として配布されている。

AI王データセット

「AI王〜クイズAI日本一決定戦〜

以下のようなデータセット

{"qid":"ABC01-01-0025","competition":"abc ～the first～","timestamp":"2003/03/30","section":"ペーパー筆記","number":"25","original_question":"オーストラリアの国旗に星は６つありますが、ニュージーランドの国旗には星がいくつあるでしょう？","original_answer":"４つ","original_additional_info":"","question":"オーストラリアの国旗に星は6つありますが、ニュージーランドの国旗には星がいくつあるでしょう?","answers":["4つ"]}
{"qid":"ABC01-01-0026","competition":"abc ～the first～","timestamp":"2003/03/30","section":"ペーパー筆記","number":"26","original_question":"1934年には天然記念物に指定された、学名を「ニッポニア・ニッポン」という鳥といえば何でしょう？","original_answer":"トキ","original_additional_info":"","question":"1934年には天然記念物に指定された、学名を「ニッポニア・ニッポン」という鳥といえば何でしょう?","answers":["トキ"]}
{"qid":"ABC01-01-0027","competition":"abc ～the first～","timestamp":"2003/03/30","section":"ペーパー筆記","number":"27","original_question":"火を神聖視するために「拝火教」の別名がある、紀元前６世紀のペルシアで始まった宗教は何教でしょう？","original_answer":"ゾロアスター教","original_additional_info":"","question":"火を神聖視するために「拝火教」の別名がある、紀元前6世紀のペルシアで始まった宗教は何教でしょう?","answers":["ゾロアスター教"]}
{"qid":"ABC01-01-0028","competition":"abc ～the first～","timestamp":"2003/03/30","section":"ペーパー筆記","number":"28","original_question":"テレビの視聴率調査における「ゴールデンタイム」とは、午後７時から何時までのことでしょう？","original_answer":"午後１０時","original_additional_info":"","question":"テレビの視聴率調査における「ゴールデンタイム」とは、午後7時から何時までのことでしょう?","answers":["午後10時"]}
{"qid":"ABC01-01-0029","competition":"abc ～the first～","timestamp":"2003/03/30","section":"ペーパー筆記","number":"29","original_question":"他には影響を及ぼさない、狭い範囲でのもめ事のことを、「何の中の嵐」というでしょう？","original_answer":"コップ","original_additional_info":"","question":"他には影響を及ぼさない、狭い範囲でのもめ事のことを、「何の中の嵐」というでしょう?","answers":["コップ"]}

データセットの出典

第1回と第2回は学習データはabc/EQIDEN、開発用データは独自作成

「第1回コンペティション学習用データ」のクイズ問題，および「第2回コンペティション学習用データ」で該当するクイズ問題の著作権は abc/EQIDEN 実行委員会に帰属します．これらのクイズ問題は，東北大学において研究目的での再配布許諾を得ています．
「第1回コンペティション開発用データ」「第1回コンペティション評価用データ」「第1回コンペティション未使用データ」のクイズ問題，および「第2回コンペティション学習用データ」で該当するクイズ問題は，株式会社キュービックおよびクイズ法人カプリティオへ依頼して作成しました．これらのクイズ問題は，クリエイティブ・コモンズ表示-継承 4.0 国際ライセンスのもとに提供されています．

https://sites.google.com/view/project-aio/dataset

パブリックデータとしてはほぼ、abc/EQIDEN

abc/EQIDEN

https://abc-dive.com/portal/index.php
日本のおそらく最も有名なオフラインクイズ大会
問題の質が良い
歴史が非常に長いので、問題数が多い
学生クイズ大会なので、問題ジャンルが学問にシフト。芸能スポーツ、アニメやサブカルよりの問題は少なめな点は注意

GPTの素の実力（ベースライン）

GPTはそもそもabc/EQIDENの問題に対してどれぐらい取れるのだろうか？

定性評価

abc_01-12.jsonlより、abc～the first～のペーパー5問を選択（Number25-29）。ペーパー筆記は予選なので、本選よりは問題難易度は抑えめ。

“original_question”:”オーストラリアの国旗に星は６つありますが、ニュージーランドの国旗には星がいくつあるでしょう？”, “answers”:[“4つ”]
“original_question”:”1934年には天然記念物に指定された、学名を「ニッポニア・ニッポン」という鳥といえば何でしょう？”, “answers”:[“トキ”]
“original_question”:”火を神聖視するために「拝火教」の別名がある、紀元前６世紀のペルシアで始まった宗教は何教でしょう？”, “answers”:[“ゾロアスター教”]
“original_question”:”テレビの視聴率調査における「ゴールデンタイム」とは、午後７時から何時までのことでしょう？”, “answers”:[“午後10時”]
“original_question”:”他には影響を及ぼさない、狭い範囲でのもめ事のことを、「何の中の嵐」というでしょう？”, “answers”:[“コップ”]

ぱっと見悩む問題もあるが、高度な専門知識が必要な問題ではなく、「知っていればわかる」問題。今のGPTに解かせるんだったら、多分このぐらいがちょうどいい。これをGPT3.5（gpt-3.5-turbo-1106）に解かせる。Temperatureは0に設定。

なんとなくニュージーランドの国旗とトキ、ゾロアスター教あたりは正解できそうだが、残りの2問は怪しそうな印象。

Question	gpt-3.5-turbo-1106 Temperature0	gpt-4-0125-preview（参考） Temperature0
オーストラリアの国旗に星は６つありますが、ニュージーランドの国旗には星がいくつあるでしょう？	ニュージーランドの国旗には星が4つあります。 →正解	ニュージーランドの国旗には星が4つあります。これらの星は、南十字星を表しています。 →正解
1934年には天然記念物に指定された、学名を「ニッポニア・ニッポン」という鳥といえば何でしょう？	ニッポンウグイス（日本鶯） →不正解	その鳥は「トキ」です。学名「ニッポニア・ニッポン」で知られ、1934年に天然記念物に指定されました。トキは日本では主に佐渡島で知られており、かつて絶滅の危機に瀕しましたが、保護と繁殖プログラムにより個体数の回復が試みられています。 →正解
火を神聖視するために「拝火教」の別名がある、紀元前６世紀のペルシアで始まった宗教は何教でしょう？	ゾロアスター教 →正解	その宗教はゾロアスター教（またはゾロアスター教）です。 →正解
テレビの視聴率調査における「ゴールデンタイム」とは、午後７時から何時までのことでしょう？	ゴールデンタイムは、通常午後7時から午後11時までの時間帯を指します。この時間帯は一般的に視聴率が高く、テレビ番組の中でも特に重要な時間帯とされています。 →不正解	テレビの視聴率調査における「ゴールデンタイム」は、午後7時から午後10時までのことを指します。 →正解
他には影響を及ぼさない、狭い範囲でのもめ事のことを、「何の中の嵐」というでしょう？	「小さな茶の間の嵐」というでしょう。 →不正解	「茶碗の中の嵐」という表現です。 →不正解
正解数	2	4

GPT-3.5が2/5、GPT-4が4/5

まさかGPT-3.5がトキを解けないとは思わなかった。「GPT-4でもコップの中の嵐」は解けない。

定量評価へ向けたプロンプト設計

このあとベースラインの評価の計算をするが、問題数が多いので正誤判定を人間がいちいちできない。

回答者と正誤判定者

「回答者」「正誤判定者」という2人のLLM上のペルソナが登場する
回答者
- 問題が与えられ、答えを生成する
- 基本はGPT3.5で行う想定
正誤判定者
- 問題と、回答者の回答、Ground Truthの答えや評価基準が与えられ、正解かどうかを判定する
  : 基本はGPT-4を人間の代理として使うが、GPT-3.5でもいけるかを検証

正誤判定基準

abc/EQIDENの場合、ルールブックの中で正誤判定基準が明文化されている。これをベースに正誤判定のプロンプトを作る。ただし、クイズ大会特有の「もう一回」や「カウント」は修正する

https://www.dropbox.com/s/axh1g6umohgwavb/%E6%AD%A3%E8%AA%A4%E5%88%A4%E5%AE%9A%E5%9F%BA%E6%BA%96.docx?dl=0

原文

【全体ルール】
・問題が読み切られてからの待ち時間は３カウント。ボタンが押されてからのシンキングタイムも３カウント。
・待ち時間一杯の直前でボタンが押されても、ブザーでキャンセルされてしまった場合、スルー扱いとする。
・解答がタイムアップのブザーと重なった場合、不正解とする。
・解答が聞こえなかった場合、正誤判定者は「聞こえませんでした」と言って解答者の再解答を求める。この場合、解答者は最初に言った答えをそのまま答えなくてはいけない。
・解答が「正解に限りなく近いが、そのままでは正解にならない」と正誤判定者が判断した場合、正誤判定者は「もう1度（もしくはもう１回）」と言って、解答者の再解答を求める。（この時、解答者は最初に言った答えをそのまま言わず、別の答えを答える）。この解答が用意している正解と異なる場合は不正解とする。
・また、日本人名の苗字のみを答えた場合など、「（それだけでは正解と判定できないような）正解のはじめの一部を解答した」と正誤判定者が判断した場合は、シンキングタイムのカウントをそのまま続行する。このとき、解答者は続けて答えを発声できる。カウント終了までに解答の継続がなかった場合、「もう１度（もしくはもう１回）」の対象となる。

【人名について】
・人名に関しての敬称・肩書（「○○さん」「○○選手」など）の有無は、正誤判定には関係ない。しかし、明らかに間違った敬称・肩書をつけた場合は誤答扱いにする。
・人名は原則として、芸名・ペンネーム・登録名など最も一般的に知られている名前、及びそれに準ずる知名度のもののみを正解とし、本名や別号など「知名度が低い」と正誤判定者が判断した解答は「もう1度（もしくはもう１回）」の対象とする。
・東洋人名（日本・韓国・中国・台湾など、主に氏名表記に漢字が用いられる国）は、フルネームでの解答に限り正解とする。ただし、東洋人名でも、通称が固有名詞化した場合や、四股名はこの限りではない。
・西洋人名は、原則ファミリーネームのみで正解とする。ただし、明らかにフルネームを要求される問題の場合は例外とする。
・複合姓はファミリーネーム同様、区別の必要性がある場合のみ求め、原則一般的な呼称で正解とする。
・以上の人名に関するルールは、実在しないキャラクター等にも適用する。

【複数解答について】
・複数のものから一つだけを答える問題の場合、問題文のままの順序で全てを答えた場合は正解とするが、それ以外の場合、全てを解答するのは不正解とする。
・都道府県名と都市名の両方を答えた場合、原則都市名の方を答えたものとみなす。

【文章での解答について】
・歌詞や文章の一部を問う問題で、問われているもの以上を解答した場合は、たとえ歌詞・文章通りでも「もう1度（もしくはもう１回）」の対象とすることがある。その場合、解答者はより絞った解答をしなくてはならない。
・ただし、ことわざや慣用句など、全体で１つのイディオムとして認知されている言葉はこの限りではない。
・ことわざや慣用句のすべてを答えた際、問われているものは正解だが、問題文と一部が異なっていた場合は「もう1度（もしくはもう１回）」の対象とすることがある。その場合、解答者は問われているもののみか、問題文通りのことわざや慣用句で答え直さなくてはならない。

【その他】
・クイズ中に正誤判定者がミスをした場合や、問い読みが明らかに解答をミスリードさせるような読み方を行った場合、大会長および司会者の判断により判定の無効化あるいは訂正を行う可能性がある。
・タイムレース中に発生した場合は、途中でクイズの進行を中断し、判定の審議を行う場合がある。

正誤判定者のプロンプト

GPTのJSONモードを使用する。answerのアノテーションもあるが、GPTの登場以降LLMによる評価が可能になったためオリジナルデータを使う。

ただし、テキストベースでさせる場合の追加の配慮として、よみがなに関しての説明を追加。

あなたはクイズの正誤判定者です。回答者から与えられた「対象の回答」を、「問題文」と「問題の答え」を参考に、正誤判定してください。ユーザーの入力は以下のフォーマットで与えられます。正誤判定基準は以下にあるので、これを参考に正誤判定してください。

結果はJSONで、「is_correct」をキーとし、正解ならtrue, 不正解ならfalseを値として返してください。

## ユーザーの入力
・問題文
{ここに問題文が入力されます}

・対象の回答
{ここに回答者の回答が入力されます}

・問題の答え
{ここに問題の本当の答えが書かれます。この行または次の行に、表記揺れによる別の正解や、問題特有の正誤判定基準が付与される場合もあります}

## 正誤判定基準
【よみがなについて】
・回答や問題の答えには、漢字とそのよみがなが付与されることがある。例：織田信長（おだのぶなが）。漢字で答えた場合は、漢字で判定し、英語やひらがな・カタカナで答えた場合はよみがなをベースに、正誤判定すること。

【人名について】
・人名に関しての敬称・肩書（「○○さん」「○○選手」など）の有無は、正誤判定には関係ない。しかし、明らかに間違った敬称・肩書をつけた場合は誤答扱いにする。
・人名は原則として、芸名・ペンネーム・登録名など最も一般的に知られている名前、及びそれに準ずる知名度のもののみを正解とし、本名や別号など「知名度が低い」と正誤判定者が判断した解答は誤答の対象とする。前者の正解対象が回答に含まれていれば正解とする。
・東洋人名（日本・韓国・中国・台湾など、主に氏名表記に漢字が用いられる国）は、フルネームでの解答に限り正解とする。ただし、東洋人名でも、通称が固有名詞化した場合や、四股名はこの限りではない。
・西洋人名は、原則ファミリーネームのみで正解とする。ただし、明らかにフルネームを要求される問題の場合は例外とする。
・複合姓はファミリーネーム同様、区別の必要性がある場合のみ求め、原則一般的な呼称で正解とする。
・以上の人名に関するルールは、実在しないキャラクター等にも適用する。

【複数解答について】
・複数のものから一つだけを答える問題の場合、問題文のままの順序で全てを答えた場合は正解とするが、それ以外の場合、全てを解答するのは不正解とする。
・都道府県名と都市名の両方を答えた場合、原則都市名の方を答えたものとみなす。

【文章での解答について】
・歌詞や文章の一部を問う問題で、問われているもの以上を解答した場合は、たとえ歌詞・文章通りでも誤答の対象とすることがある。
・ただし、ことわざや慣用句など、全体で１つのイディオムとして認知されている言葉はこの限りではない。
・ことわざや慣用句のすべてを答えた際、問われているものは正解だが、問題文と一部が異なっていた場合は誤答の対象とすることがある。

正誤判定者が表記揺れテスト

Ground Truthに表記揺れ対策が丁寧にかかれている場合がある。これが対応できるか検証する

Question	Original GT Answer	Target Answer	GPT-4 Eval
京都名物・生八ツ橋の生地の原料である穀物は何でしょう？	うるち米【「米」は○、「もち米」などは×】	米	◯
		rice	◯
		八つ橋の材料は米です	◯
		もち米	☓
『史記』の「儒林伝（じゅりんでん）」に由来する、「真理を曲げて世間に迎合した説を唱える」ことを指す四字熟語は何でしょう？	曲学阿世（きょくがくあせい）	曲学阿世	◯
		きょくがくあせい	◯
		きょくがくあぜい	☓
		曲学阿世の徒	◯
漢字表記の「佐倉市」があるのは千葉県ですが、平仮名表記の「さくら市」がある都道府県はどこでしょう？	栃木県	栃木	◯
イタリア・セリエAの「ミラノダービー」で対戦するサッカーチームは、ACミランとどこ？	インテル	インテル・ミラノ	◯
		インテル・ミラノFCです	◯
		インテルナツィオナーレ・ミラノ	◯
昨年12月に河南省文物局（かなんしょう・ぶんぶつきょく）が墓を見つけたと発表した、三国時代の魏の英雄といえば誰でしょう？	曹操【「ツァオ・ツァオ[Cáo Cāo]」でも○】	曹操（そうそう）	◯

八つ橋の問題でriceが正解になってるのが若干気になるが、GPT-4の場合はほぼほぼ大丈夫そう。

回答者のプロンプト

採点については、完全情報ゲームにしたい（正誤判定のルールブックは実際の参加者に公開されているため）ため、正誤判定基準を回答生成する側でも追加する
ふりがなの話は、Ground Truthの回答と比較する際の話で、混乱させるので追加しない
ChatGPT特有の余計な解説をつけて、正誤判定者が不正解とすることがあるので、問題の回答のみ答えさせるようにプロンプトで指示する

あなたはクイズの回答者です。以下の正誤判定基準に留意して、ユーザーから与えられた問題に返答してください。返答は問題の回答のみ教えて下さい

## 正誤判定基準
【人名について】
・人名に関しての敬称・肩書（「○○さん」「○○選手」など）の有無は、正誤判定には関係ない。しかし、明らかに間違った敬称・肩書をつけた場合は誤答扱いにする。
・人名は原則として、芸名・ペンネーム・登録名など最も一般的に知られている名前、及びそれに準ずる知名度のもののみを正解とし、本名や別号など「知名度が低い」と正誤判定者が判断した解答は誤答の対象とする。前者の正解対象が回答に含まれていれば正解とする。
・東洋人名（日本・韓国・中国・台湾など、主に氏名表記に漢字が用いられる国）は、フルネームでの解答に限り正解とする。ただし、東洋人名でも、通称が固有名詞化した場合や、四股名はこの限りではない。
・西洋人名は、原則ファミリーネームのみで正解とする。ただし、明らかにフルネームを要求される問題の場合は例外とする。
・複合姓はファミリーネーム同様、区別の必要性がある場合のみ求め、原則一般的な呼称で正解とする。
・以上の人名に関するルールは、実在しないキャラクター等にも適用する。

【複数解答について】
・複数のものから一つだけを答える問題の場合、問題文のままの順序で全てを答えた場合は正解とするが、それ以外の場合、全てを解答するのは不正解とする。
・都道府県名と都市名の両方を答えた場合、原則都市名の方を答えたものとみなす。

【文章での解答について】
・歌詞や文章の一部を問う問題で、問われているもの以上を解答した場合は、たとえ歌詞・文章通りでも誤答の対象とすることがある。
・ただし、ことわざや慣用句など、全体で１つのイディオムとして認知されている言葉はこの限りではない。
・ことわざや慣用句のすべてを答えた際、問われているものは正解だが、問題文と一部が異なっていた場合は誤答の対象とすることがある。

定量評価の結果

データセット

AI王Ver2.0より、「第1回コンペティション学習用データ (17,735問)」を解かせる
- 「クイズ大会「abc/EQIDEN」の第1回（2003年）から第12回大会（2014年）で使用されたクイズ問題から成るデータです．第1回コンペティションの学習用データ (train_questions.json) では，正解エンティティの付与ができない一部のクイズ問題がデータから除外されていましたが，本データはオリジナルの全てのクイズ問題を含んでいます．」とのこと
- 開発用のデータは独自作問データなので除外

回答者のモデル、正誤判定者のモデル

回答者のモデル。2024/1時点で使えるOpenAIのChatモデルを全部使用。GPT-4はTurboモデルのみ

gpt-3.5-turbo-1106
gpt-3.5-turbo-16k-0613
gpt-3.5-turbo-0613
gpt-3.5-turbo-0301
gpt-4-0125-preview
gpt-4-1106-preview

正誤判定者のモデル。GPT-4を人間の代理として使う方針だが、コストの関係からGPT-3.5も使えないか検討する。Ground Truthがあるため、GPT-3.5でもある程度正誤評価の正確性を担保できる可能性がある。GPT-3.5-turbo、GPT-4-Turboの最新モデルを使用。

gpt-3.5-turbo-1106
gpt-4-0125-preview

正解率

おそらくここが一番の気になる点であろうポイント。正誤判定モデル×回答モデルの組み合わせになるので注意。

評価モデル	回答モデル	正解数	正解率
gpt-3.5-turbo-1106	gpt-3.5-turbo-0301	9171	51.7%
	gpt-3.5-turbo-0613	9150	51.6%
	gpt-3.5-turbo-16k-0613	9127	51.5%
	gpt-3.5-turbo-1106	8638	48.7%
	gpt-4-1106-preview	11870	66.9%
	gpt-4-0125-preview	12148	68.5%
gpt-4-0125-preview	gpt-3.5-turbo-0301	9799	55.3%
	gpt-3.5-turbo-1106	9240	52.1%
	gpt-4-0125-preview	13425	75.7%

GPT-3.5を正誤判定者とした場合：回答者がGPT-3.5のときは最大51.7％の正答率、GPT-4のときは最大68.5％の正答率となった。GPT-4は最新のgpt-4-0125-previewが最も良い。

GPT-4を正誤判定者とした場合：回答者がGPT-3.5のときは最大55.3％、GPT-4のときは最大75.7％となった。

正誤判定者がGPT-3.5より、GPT-4のほうが正解率が伸びる傾向があり、特に回答者がGPT-4のときに顕著。これはGPT-4のほうが表記揺れや、問題特有の採点基準に強いことが考えられる

正誤判定者がGPT-3.5/4であるかに関わらず、回答者のモデル別の正解率は、GPT-3.5の場合はgpt-3.5-turbo-0301が最も良く、GPT-4の場合はgpt-4-0125-previewが最も良かった。正誤判定者をGPT-3.5にしてもある程度傾向はGPT-4と揃うことがわかる。これは簡易評価として、GPT-3.5を正誤判定者のモデルとして使っても、表記揺れに弱くなるだけで傾向は読めることを意味する。コスト対策では有効な方法かと思われる。

正誤判定者による混同行列

正誤判定者のモデルによる正答率が大きく変わる現象が確認できた（回答者がGPT-4の場合は、正解率68.5%→75.7％への増加）。GPT-4のほうが表記揺れや、問題特有の採点基準に強いことが考えられる」という仮説について補足する。

定量評価としては、混同行列を見る。y_trueをGPT-4を正誤判定者にしたときに正解したかどうか（0 or 1）、y_predをGPT-3.5を正誤判定者にしたときに正解したかどうか（0 or 1）で計算する。GPT-4は人間の代理なので、GPT-4の判定結果を擬似的なy_trueとして混同行列を計算するのは差し支えない。

これを回答者のモデルごと（gpt-3.5-turbo-1106, gpt-4-0125-preview）に見る。

回答者がgpt-3.5-turbo-1106の場合

	GPT-3.5判定で不正解	GPT-3.5判定で正解
GPT-4判定で不正解	8168	327
GPT-4判定で正解	929	8311

回答者がgpt-4-0125-previewの場合

	GPT-3.5判定で不正解	GPT-3.5判定で正解
GPT-4判定で不正解	4171	139
GPT-4判定で正解	1416	12009

いずれもオーバーラップはかなり大きく、「GPT-3.5判定なら不正解になるが、GPT-4判定だと正解になる」（いわゆる偽陽性ポジション）が特に多く、正誤判定のモデルによる評価差はほぼこれで説明できる。特に回答者がgpt-4-0125-previewの場合は、GPT-3.5の偽陽性が多くなる。

定性評価をしてみる。回答者がgpt-4-0125-previewの場合の偽陽性ポジションの問題を具体的に見てみる。これは「正誤判定者がGPT-3.5だと不正解判定だったが、GPT-4なら正解となるケース」である。

original_question	original_answer	gpt_answer	補足
コンビニなどのレジでお馴染みの「ＰＯＳシステム」の「ＰＯＳ」とは、何という英語の略でしょう？	ｐｏｉｎｔｏｆｓａｌｅｓ	Point of Sale	全角半角の表記揺れ
ＴＢＳの懐かしの音楽番組「ザ・ベストテン」で、唯一の9999点満点を記録した、西城秀樹のヒット曲は何でしょう？	『ＹＯＵＮＧＭＡＮ（Ｙ．Ｍ．Ｃ．Ａ．）』	ヤングマン (Y.M.C.A.)	英字とカタカナの表記揺れ
国会で議決された法律が、憲法に違反していないかどうか裁判所が判定する権利を何というでしょう？	違憲立法審査権	違憲審査権	リアルクイズだったら多分「もう一回」
我が国の年号で、「感宝(かんぽう)」「勝宝 (しょうほう)」「宝字 (ほうじ)」「神護 (じんご)」といえば、共通して上に付く漢字二文字は何でしょう？	天平(てんぴょう)	天平	元の答えによみがなが入っている
しょうがはショウガ科の植物ですが、みょうがは何科の植物でしょう？	ショウガ科（同じ）	ショウガ科	元の答えによみがなが入っている
焼いた餅にきな粉をまぶしたものを、それが名物だった静岡県の川から何というでしょう？	安倍川餅（あべかわもち） ※安倍川（あべかわ）のみでＯＫ。	あべ川もち	早押しでも筆記でもおそらく◯
英語で、両面を焼いた目玉焼きを「ターンオーバー」というのに対し、片面だけを焼いた目玉焼きを何というでしょう？	サニーサイドアップ	Sunny-side up	英字の表記揺れ
インドのカルカッタで生まれたというイギリスの作家で、『バリー・リンドン』『虚栄の市』で知られるのは誰でしょう？	ウィリアム・メークピース・サッカレー	Thackeray	ファミリーネームとファーストネームの曖昧さ
ナイル川流域で栄えた文明はエジプト文明ですが、チグリス川、ユーフラティス川流域で栄えたのは何文明でしょう？	メソポタミヤ文明	メソポタミア文明	カナに直したときの表記揺れで◯
ランカスター家とヨーク家が争った、15世紀のイギリス貴族の内乱を、両家の紋章に使われた花から「何戦争」というでしょう？	バラ戦争	薔薇戦争	漢字の表記揺れで◯
満ち足りている人は損になることはしないという意味のことわざで、「金持ち何をせず」というでしょう？	喧嘩	金持ち喧嘩せず	何の前後も答えており、当然◯
星の明るさの等級で、１等星は２等星のおよそ何倍の明るさとされているでしょう？	2.5倍	2.512倍	有効桁数を詳しく答えている
南アフリカ共和国の国土の中には２つの王国がありますが、レソト王国とどこでしょう？	スワジランド王国	エスワティニ王国	最近呼び方が変わったのでGPTが正しい
地球表面が太陽光線を垂直に受ける南北の極限で、赤道を中心とする熱帯を囲む、南北23度27分の緯度のことを何というでしょう？	回帰線	北回帰線と南回帰線	問題に曖昧性があるパターンなのでこれも◯

基本的には表記揺れや回答に含まれる正誤判定基準の解釈が大半だった。基本的にGPT-4の採点は納得いけるもので、GPT-4のほうが指示を聞きすぎて「英語でなんという？」という問題で律儀に英語に答えて、GPT-3.5で☓にされているケースがあった。

「違憲立法審査権→違憲審査権」を◯にしたり、若干怪しい部分のが注意が必要（ただ、国立国会図書館には違憲審査権という表記はあるので、ここは正誤は人間でも解釈が分かれると思われる）。

回答者による混同行列

次に、正誤判定者をGPT-4に固定して、回答者による混同行列を書いてみる。

正誤判定者モデル：gpt-4-0125-preview

	GPT-3.5回答で不正解	GPT-3.5回答で正解
GPT-4回答で不正解	3914	396
GPT-4回答で正解	4581	8844

基本的には、GPT-3.5が正解した問題はほぼGPT-4は答えられると考えられる。

GPT-3.5では正解できなかったが、GPT-4は正解できた問題

定性評価だが一例としてはこんなの。文系学問の歴史や、文学、日本地理などを聞く問題は、GPT-4が特に強い傾向にある。

original_question	original_answer	gpt_answer
「近き世にその名も聞こえたる人」と評された六歌仙のうち、唯一の女性といえば誰でしょう？	小野小町	小野小町
ウナギ、ナマズ、ドジョウのうち、エラだけでなく腸でも呼吸をしているのはどれでしょう？	ドジョウ	ドジョウ
全長200キロを超す北海道第２の大河で、日本最北の一級河川であるのは何という川でしょう？	天塩川	天塩川
節分のとき、玄関先にいわしの頭と一緒につるしておくと鬼がこないといわれる、漢字では「木偏に冬」と書く植物は何でしょう？	ヒイラギ（柊）	柊
もともとは「洋服ダンス」という意味で、現在ではもっている洋服のことを指す言葉といったら何でしょう？	ワードローブ	ワードローブ
冷戦の緊張緩和時代の流行語となった小説「雪解け」を書いたソ連の作家は誰でしょう？	エレンブルク	イリヤ・エレンブルグ
サン・ファン・バウティスタ号という船に乗って、伊達政宗の命令でローマに派遣された人は誰でしょう？	支倉常長	支倉常長
下水道を管轄しているのは国土交通省ですが、上水道を管轄している省庁は何でしょう？	厚生労働省	厚生労働省
英語で「It is no use crying over split milk.」といえば、日本ではどんなことわざを指すでしょう？	覆水盆に返らず	覆水盆に返らず
１９３３年７月２５日、観測史上最高の気温40.8度を記録したのは何県でしょう？	山形	山形県
ミツバチの巣で、女王蜂の幼虫を育てるために働き蜂が作る小部屋のことを何というでしょう？	王台	王台
二人で話すことは対談といいますが、三人で話すことは何というでしょう？	鼎談	鼎談
文治元年の屋島の戦いで扇の的を射落とし、弓の名手として名高い源氏の武将は誰でしょう？	那須与一（宗高）	那須与一
ピラール、ローラ、ルシアの三姉妹からなるスペインのグループで、『アセレヘ～魔法のケチャップソング～』を歌い、アセレヘブームを巻き起こしているのは何でしょう？	ラス・ケチャップ	ラス・ケチャップ
日本全国を遍歴し、踊念仏(おどりねんぶつ)を行ったことから「遊行（ゆぎょう）上人」と呼ばれた、時宗の開祖である人物は誰でしょう？	一遍（いっぺん）	一遍
相手を立てるときには「持たせ」、成功を収めたときには「咲かせる」ものといえば何でしょう？	花	花
小学生の間で人気の小説「ズッコケ三人組」シリーズの原作者は誰でしょう？	那須正幹（なす・まさもと）	那須正幹
２００３年元旦に行なわれた「ニューイヤー駅伝」で、史上初の３連覇を達成したチームといえばどこでしょう？	コニカ	コニカ
太陽系惑星９つのうち、大きさでも重さでも５番目になる惑星はなんでしょう？	地球	地球
日本初のエレベーターが設置され、その高さから「十二階」とも呼ばれた、東京・浅草にあった建物といえば何でしょう？	凌雲閣(りょううんかく)	凌雲閣
漢字の部首で、左半分の部分を偏というのに対し、右半分の部分を何というでしょう？	旁(ﾂｸﾘ)	旁
ＪＲの駅にある指定券売り場のことを、ある色を使って何というでしょう？	みどりの窓口	みどりの窓口
７年から１０年を1周期とする景気の循環のことを、発見したフランスの経済学者の名前を取って何の波というでしょう？	ジュグラーの波	ジュグラー

GPTの推論データ

回答と正誤データ

GPTの回答結果と正誤をJSONにまとめたものがこちら（約30MB）

abc_01-12_gpt_result

GPT-4が正解できなかった問題

GPT-4が正解できなかった問題を「abc_01-12_hard」として新たなデータセットとして定義。具体的には、以下の条件をすべて満たさない問題。

正誤判定者がgpt-3.5-turbo-1106のときに、回答者がgpt-4-1106-previewで正解判定
正誤判定者がgpt-3.5-turbo-1106のときに、回答者がgpt-4-0125-previewで正解判定
正誤判定者がgpt-4-0125-previewのときに、回答者がgpt-4-0125-previewで正解判定

これは3769問あった。abc_01-12_hardに対するGPT3.5の最良モデル（gpt-3.5-turbo-0301）の正解数は331（正解率8.8％）。正誤判定者はgpt-4-0125-previewとしている。この程度の正解率だったら誤差のレベルだと思われる。

abc_01-12_hard

これでGPTの素の知識で解けない問題のデータセットを作るが完成した。以降検索による精度向上を見ていきたい。

abc_01-12_hardの正解率

GPT-4が解けない問題なので、GPT-4よりGPT-3.5のほうが良くなっているが誤差。

評価モデル	回答モデル	正解数	正解率
gpt-3.5-turbo-1106	gpt-3.5-turbo-0301	306	8.1%
	gpt-3.5-turbo-0613	323	8.6%
	gpt-3.5-turbo-1106	264	7.0%
	gpt-3.5-turbo-16k-0613	322	8.5%
	gpt-4-0125-preview	0	0.0%
	gpt-4-1106-preview	0	0.0%
gpt-4-0125-preview	gpt-3.5-turbo-0301	331	8.8%
	gpt-3.5-turbo-1106	267	7.1%
	gpt-4-0125-preview	0	0.0%

所感

競技クイズのデータはGround Truthがあるのはもちろん、採点基準が公開されているため、プロンプト化がしやすい。正誤判定者をGPT-3.5でも、ある程度回答者のモデル間の傾向は読めるというのが興味深い結果になった。
ある程度のサイズを伴った、GPT-4の素の知識で解けないFAQのデータセットができたというのが結構大きい。

Shikoan's ML Blogの中の人が運営しているサークル「じゅ～しぃ～すくりぷと」の本のご案内

技術書コーナー

北海道の駅巡りコーナー

One Comment

背景