論文まとめ：Evaluating and Inducing Personality in Pre-trained Language Models

Posted On 2023-08-31

370{icon} {views}

ざっくりいうと

知能測定の体系的な評価は、現代の機械学習コミュニティで部分的にしか扱われていなく、心理測定テストの他の確立されたコンポーネントはほとんど手つかず
先行研究において、LLMが認知評価において人間らしい行動を経験的に示すことが示されたことに注目
この論文の疑問点「機械の性格的行動を心理テストで体系的に評価することは可能か？そうであれば、これらのLLMに特定の性格を誘導することは可能か？」
Machine Personality Inventory (MPI) -心理測定インベントリに基づく多肢選択式質問応答スイート-を導入
- ビッグファイブ特性理論に基づき、MPIを構築し、機械の性格を以下の5つの主要な要因に分離
LLMが一定の性格を持つことを示すことを実験的に示したのが新規性
- AlpacaとGPT-3.5はMPIにおいて人間レベルの性格を示し、人間集団で観察された統計と一致
さらに、特定の性格を持つLLMを誘導するPERSONALITY PROMPTING (P2) 法を提案
- P2法は、心理学的な研究と知識の両方を用いて、制御のための誘導プロンプトを生成
- P2法は、5つの性格因子を制御する。MPI評価とヒューマンビネットテストにおいて、P2法は性格誘導に高い有効性をもたらすと主張

Statementに右のテンプレート構文を入れる
各Statementに対して、対応するビッグファイブの性格因子を定義し、＋か－かによって選択肢に対し5～1、1～5で得点
- 負の相関（-）の項目だったら、Aは1点、Eは5点
- 正の相関（+）の項目だったら、Aは5点、Eは1点
このデータセットをゼロショットの選択問題としてLLMに質問する
ビッグファイブの各項目に対し、得点を合計し集計
LLMに内在する性格をビッグファイブの観点から特定したい

（これだけだと「いや、それだと大規模なデータの中にある人間の性格を読み取って学習しているだけじゃん」ってなるのでもう少し深い考察をしている）

BARTやGPT-Neo 2.7Bは自然言語のコーパスで事前学習しただけの大規模なモデルで、Instruct TuningやRLHFはしていない
T0++ 11BやAlpaca 7B、GPT-3.5 175BはInstruct TuningやRLHFをしている
- 前者だとさほど人間のスコアと一致していないが、後者だと一致するようになったので、Instruct TuningやRLHFが性格評価に効いている

もう一歩踏み込んで、特定のパーソナリティへ誘導することを考える。これをLLMに対するプロンプティングで実践する。これが提案手法のP2法（Personality Prompting）。

P2法の優位性を検証するために、NAIVEとWords Auto Promptingの2つの手法を比較

NAIVE：「You are ◯◯」というプロンプトだけ
Auto Prompting：単語レベルの検索（Embedding？）を用いて、ビッグファイブ因子ごとに最も効果的な単語を3つ求める
- →結果はP2法のほうが最も効果的にパーソナリティの誘導ができた

ビネットテストによる性格誘導の結果。正の誘導と負の誘導両方できている。

さらに回答を生成する際に、「ポジティブな誘導」「ニュートラルな誘導」「ネガティブな誘導」の3種類生成した（※P2法の全体図を参照）

Shikoan's ML Blogの中の人が運営しているサークル「じゅ～しぃ～すくりぷと」の本のご案内

技術書コーナー

北海道の駅巡りコーナー