指示が増えると、LLMの性能はどれだけ低下する？

2025.10.072025.10.21

深堀り解説

本記事では指示が増えたときにLLMがどれだけ性能を保てるのかについての体系的な評価を紹介します。

文章生成とプログラミングの二つの領域で、10種類の主要なLLMを調べています。どのようなテストが行われたのか、どんな結果が得られたのか、そして実務での示唆について順を追って見ていきます。

背景

LLMを使っていて、こんな経験はないでしょうか。

「この文章を要約して。ただし箇条書きで、500文字以内で、専門用語は避けて、ですます調で書いて」と指示したら、一部の条件が無視されていた。

あるいはプログラミングで「この機能を実装して。インデントは2スペースで、コメントは英語で、変数名はキャメルケースで、行は80文字以内に」と頼んだのに、途中から指示がごちゃ混ぜになっていた。

実は、この「複数の指示を同時に守る」というのは、LLMにとって思いのほか難しい課題なのです。

普段の使い方を思い返してみると、単純な指示だけでAIを使うことはほとんどありません。「コードを書いて」だけでは実務では使えず、チームのコーディング規約、ドキュメント要件、パフォーマンス条件など、複数の制約を同時に満たす必要があります。ビジネス文書も同じです。「プレゼン資料を作って」の後ろには、文字数制限、トーン指定、フォーマット要件、禁止ワードなど、実際には5個も6個も条件が付いてきます。

そこで本記事では、複数の指示を同時に守る必要のある課題で、LLMはどれほど精度を保てるのかを実験した取り組みを紹介します。以前の記事よりもさらに明確に「多様な指示」を増やしているのが特徴です。

PREMIUM

プレミアム会員限定の記事です

記事の購読には、アカウント作成後の決済が必要です。

・全記事・論文コンテンツを無制限で閲覧可能
・平日毎日更新、専門家による最新リサーチを配信

まずはアカウントを作成

ログイン

プレミアム会員について

指示が増えると、LLMの性能はどれだけ低下する？

背景

PREMIUM

関連記事

ディープラーニングでレシピ文章をレシピ動画に変換するシステム「Recipe2video」

OpenAI o3-miniの安全機能に関する大規模検証　1万件超のテスト結果

LLM生成コードをLLMで評価する際の精度を高める方法

GPT-4などのLLMが「AはB」から「BはA」を導かない『逆転の呪い』における誤解なき解釈と対策

「LLM活用で文書作成」社会でどこまで導入されている

10億人のペルソナ（人物像）で多様な合成データを作成するための技術

背景

PREMIUM

関連記事

ディープラーニングでレシピ文章をレシピ動画に変換するシステム「Recipe2video」

OpenAI o3-miniの安全機能に関する大規模検証 1万件超のテスト結果

LLM生成コードをLLMで評価する際の精度を高める方法

GPT-4などのLLMが「AはB」から「BはA」を導かない『逆転の呪い』における誤解なき解釈と対策

「LLM活用で文書作成」社会でどこまで導入されている

10億人のペルソナ（人物像）で多様な合成データを作成するための技術

OpenAI o3-miniの安全機能に関する大規模検証　1万件超のテスト結果