LLMに対して、「人間には意味が分からない滅茶苦茶な文」でプロンプトを送る手法『LM Babel』

2024.05.012025.03.08

LLMは人間の言葉を理解し、自然な対話ができるまでに能力が向上してきました。人間の言葉がわかるだけでなく、LLMにしか理解できない言葉というのも存在するのでしょうか？今回AWSとStanford大学の研究者らは、人間にはまるでデタラメに見える文字列を使ってモデルを操作する方法を検証しました。

参照論文情報

タイトル：Talking Nonsense: Probing Large Language Models’ Understanding of Adversarial Gibberish Inputs

著者：Valeriia Cherepanova, James Zou

所属：AWS, Stanford University

背景

「LLMは、人間にとって理解できない言葉で話しかけられても、理解できるのか？」

そんな疑問を抱いた研究者らは、LLMに意味不明な入力を与えたときの振る舞いを調べ、その根底にあるメカニズムを解明しようとしています。グリーディ座標勾配最適化（最適なプロンプトを自動的に探索するアルゴリズム）を用いて、一見するとでたらめな文字列なのにLLMに一貫した応答をさせるプロンプトを作り出しました。

本手法は「LM Babel」と名付けられ、LM Babelに操作されたLLMの振る舞いが体系的に調べられました。この研究は、LLMと対話するための新しい言語について理解を深めるもので、LLMの内部動作を解明する上で重要な知見が得られています。

PREMIUM

プレミアム会員限定の記事です

記事の購読には、アカウント作成後の決済が必要です。

・全記事・論文コンテンツを無制限で閲覧可能
・平日毎日更新、専門家による最新リサーチを配信

まずはアカウントを作成

ログイン

プレミアム会員について

LLMに対して、「人間には意味が分からない滅茶苦茶な文」でプロンプトを送る手法『LM Babel』

背景

PREMIUM

関連記事

AGIを見据えて専門家レベルの問題を集めたベンチマーク「MMMU」、GPT-4VやGemini Ultraでも正解率6割未満

単一のLLMから２つのエージェントを作成し自分（たち）で改善させる手法が有効

LLMは実在する人間の代わりに回答できる？人間デジタルツインとしての能力に迫る

多様な業務データを統合してナレッジグラフを作成するLLM活用方法

部屋の間取り図を自動作成建築設計のジェネレーティブAI「ArchiGAN」「House-GAN」「HouseDiffusion」

コードの「読みやすさ（可読性）」、LLMで評価できる？

背景

PREMIUM

関連記事

AGIを見据えて専門家レベルの問題を集めたベンチマーク「MMMU」、GPT-4VやGemini Ultraでも正解率6割未満

単一のLLMから２つのエージェントを作成し自分（たち）で改善させる手法が有効

LLMは実在する人間の代わりに回答できる？人間デジタルツインとしての能力に迫る

多様な業務データを統合してナレッジグラフを作成するLLM活用方法

部屋の間取り図を自動作成 建築設計のジェネレーティブAI「ArchiGAN」「House-GAN」「HouseDiffusion」

コードの「読みやすさ（可読性）」、LLMで評価できる？

部屋の間取り図を自動作成建築設計のジェネレーティブAI「ArchiGAN」「House-GAN」「HouseDiffusion」