論文まとめ：Investigating Emergent Goal-Like Behaviour in Large Language Models Using Experimental Economics

Posted On 2023-09-14

292{icon} {views}

タイトル：Investigating Emergent Goal-Like Behaviour in Large Language Models Using Experimental Economics
著者：Steve Phelps, Yvan I. Russell（University College London、Middlesex University）
論文URL：https://arxiv.org/abs/2305.07970
コード：https://github.com/phelps-sg/llm-cooperation

ざっくりいうと

LLM（GPT-3.5）を使い、実験経済学のアプローチから、非ゼロサムゲームにおける協力行動を調べた研究
囚人のジレンマを模倣し、利他的・利己的といった性格を規定するプロンプトと、協力行動と関係を調べる
表面的な協力はとれたが、社会的ジレンマに対応するニュアンスのある行動方針に変換することには、まだ限界があった

はじめに

LLMにおけるエージェンシーと目標指向行動の概念は、AIアラインメント界隈で継続的に議論されている。しかし、GPTの内部処理が不透明
強化学習は、AIエージェントが目標指向行動を学習するための訓練方法で、これを用いているLLMは明示的な指示なしに目標に沿った行動を示す可能性が高い
AIアライメントの議論では、多くのシナリオが競争的ゼロサム相互作用に焦点を当てている（チェスや囲碁）
自然環境と人工環境の多くの相互作用は、非ゼロサムゲームによって特徴づけられる
- 例：囚人のジレンマ、チキンゲーム
- 参考：http://www.iba.t.u-tokyo.ac.jp/iba/Swarmlec/Slides/prisoner23-print.pdf
  - p2, 9, 22, 23
- ラウンドを繰り返すゲームもある
1ラウンドのゲームでは、選択肢を限定することで非合理的な行動をとることが、優れた戦略となり得る
- チキンゲームにおいて、両者を「チキン」にしたくない場合、車のハンドルを外して選択肢を限定して、共通の知識をもたせれば、相手ドライバーの最善の対応は「旋回」
- 冷戦中も同様の議論はあった。敵の攻撃に対する即刻警戒態勢のアラート作成したい。敵による先制攻撃を受けた際に「人間をループから外す」ことで、報復するかどうかの決定から合理的な審議を取り除き、相互に保証された破壊の脅威を信頼できるものにする
チェスや囲碁と異なり、非ゼロサム的な相互作用では、最も冷酷なエージェントや優れた認知能力を持つエージェントが勝つとは限らない
1ラウンドor反復の囚人のジレンマゲームで、合理的な戦略は離反なのだが、実験的には、現実の人は条件付きではあるが協力する傾向があることがわかっている
- 合理的には離反戦略なのだが、現実の人々が協力するという事実は、人間の行動形成における社会規範の重要性を浮き彫りになっている
AI生成エージェントの行動を調査することで、社会規範や人間の価値を守りながら、人間の複雑な協力や競争をうまく乗り切るためのAIシステムの開発に役立つ
LLM：プロンプトがモデルからの創発的な行動を形成する上で重要な役割を果たすと言われている
- GPTのデフォルトプロンプトの「You are helpful assistant」は、ユーザープロンプトによってインスタンス化された特定のシミュレーターと行動が異なることがわかっている
- この応用がJail Breakのプロンプト
- 一般には、LLMにコンテクストを注入することで任意の足場を作れる
- 足場型LLMの特殊なユースケース：世界の状態に関する情報を、特定の目標を組み込んだペルソナとともに注入することであり、実世界またはマルチエージェントシミュレーションで自律エージェントをインスタンス化
AIアラインメントの観点では、自律的な目標指向のエージェントをほとんどコストをかけずに本番環境に導入できるため、LLMエージェントが社会的ジレンマに協力する傾向やそうでな
い条件を体系的に評価する必要性がある
- LLMエージェントの性質が最初のプロンプトで導入されたペルソナと文脈に依存することを考えると、AIから引き出される協力のレベルがプロンプトの特徴にどの程度依存するかが重要
- 特に、自然言語で表現される利他主義や利己主義といった概念を、社会的ジレンマに対応する行動方針に変換することをLLMが実現可能かどうかに関心
- これらの概念を様々な文脈で運用する能力は、LLMが人間の社会的行動を支える協力的な規範を理解し行動する能力があることを示す。これが本論文で調査した重要な研究課題

手法

囚人のジレンマの設定

この研究の目標：囚人のジレンマのゲームの結果をシミュレートすること

起業家のゲーム。自分とパートナーが、投資プロジェクトを選ぶゲーム。目標はより多くのお金を稼ぐこと。利得表：

これを6ラウンド繰り返す。GPT3.5-Turboを使用

参加者グループ

参加者の性格（シミュラクラ）を5つ規定。各性格ごとにGPT-4でペルソナのプロンプトを3つつくる

競争的（Competitive）
利他的（Altruistic）
利己的（Self-interested）
混合動機（Mixed-motivation）
コントロール（ダミー）　（Control）

実験条件

模擬パートナーの行動を4種類規定。実装的にはHuman Promptに埋め込むパートナーの行動

無条件協力：パートナーは常に協力戦略を取る
無条件離反：パートナーは常に離反戦略を取る
しっぺ返しC：最初は協力をし、それ以降は起業家（キャラ付けされたLLM）が前回出力したのと同じ戦略を選択
しっぺ返しD：最初は離反をし、それ以降は起業家（キャラ付けされたLLM）が前回出力したのと同じ戦略を選択

仮説

8つの仮説を立てた

H1 : 利他的な参加者は、利己的な参加者よりも高い協力率を示す
H2 : 混合動機の参加者は、協力群と競争群の中間の協力率を示す
H3 : 1～4の参加者グループで、5のコントロール（ダミー）とは異なる協力率を示す
H4 : 競争的な参加者は、他のグループと比較して、相手の行動に関係なくより多く離反する傾向にある
H5 : 利他的な参加者は、無条件に協力するペアと相手になった場合、無条件離反またはしっぺ返しのペアと相手となった場合より高い協力率を示す
H6 : 利己的な参加者は、無条件に協力するペアと相手になった場合、無条件離反またはしっぺ返しのペアと相手となった場合より低い協力率を示す
H7 : 利他的な参加者は（訳注：cooperative or altruisticとなっていたが、cooperativeはどこ？）、協力開始のしっぺ返し（C）とペアとなったとき、離反開始のしっぺ返し（D）よりも高い協力率を示す
H8 : 競争的または利己的な参加者は、協力開始のしっぺ返し（C）とペアとなったとき、離反開始のしっぺ返し（D）より低い協力率を示す

訳注：協力率＝(PJ Green, PJ Green)を選ぶ割合？

結果

統計的な検定にたよることなく、H1～H3の仮説は支持された。しかし、残りの仮説は支持できなかった

Controlのペルソナのうち「あなたは心理学実験の参加者です（T1）」とすると、反復囚人のジレンマにおいて実際の人間の行動とより密接に一致する。GPT3.5が人間の行動の知識を持っていることは示唆される。

しかし、まだ限界も多い。

利他的か利己的で、LLMはこの行動を表面的な協力能力を超えて、ニュアンスのある方法で一般化することに苦労している
離反者との協力が増加し、協力者との協力が減少するという予想外のパターンがあった
利他主義や利己主義を条件付き互恵性に基づく、戦略に変換するLLMの能力の限界の可能性を浮き彫り

訳注；囚人のジレンマという枠組みを外してみても、LLM自体は、ペルソナ→行動の汎化能力は限定的

結論と今後の課題

GPT 3.5が、少なくともある程度、反復囚人のジレンマにおける利他主義と利己主義の概念を運用することができた
しかし、ほとんどのシミュレータは、協力の度合いやパートナーとの離反が異なるため、戦略を適切に適応させることができなかった
研究コミュニティに対し、囚人のジレンマの内外で、社会的ジレンマにおけるLLM生成エージェントの出現行動の要因をさらに調査するよう求めている
広範な研究プログラムには、最後通牒ゲーム、独裁者ゲーム、公共財ゲームなど、様々な実験経済学のシナリオにおいて、より洗練された、あるいは複雑な協力行動を誘発する可能性を探ることが含まれる可能性
今後の研究
- 温度など他のパラメータ設定を調べ、LLM生成剤の創発挙動に及ぼす影響を調べることは価値がある
- GPT-4のような高度なLLM利用による、広範な社会的ジレンマにおけて、同様の限界があるのか、より微妙な協力行動をとることができるのかを調査

私の所感

ペルソナ→一般的な行動への汎化は、キャラクターAIなどでもあるが、ここに限界があるという結論がなるほどという感
LLMが深い文脈理解など従来のNLPタスクと比べて驚異的な性能を持っているのは確かだが、（ReActなどを見ればわかるように）行動への変換はまだ課題が多いというのは同様の感覚を持ってたので、行動への変換部分は今後のNLPの課題になりそう？
- 逆の観点から、ペルソナを観測変数にするのではなく、行動を観測変数にしてペルソナを出すのはそこまで難しくないのではないか？
この論文に限定してみれば、人間の行動の模倣にInstruct Tuningが効いている可能性が高いので、他の言語モデルとの比較結果は気になる
研究的にはかなり夢のあるテーマ

Shikoan's ML Blogの中の人が運営しているサークル「じゅ～しぃ～すくりぷと」の本のご案内

技術書コーナー

北海道の駅巡りコーナー

Tags:LLM, 囚人のジレンマ, 実験経済学, 論文読み