単一のLLMから２つのエージェントを作成し自分（たち）で改善させる手法が有効

2025.01.152025.03.08

深堀り解説

本記事では、言語モデルの”自己改善”に新しいアプローチを提案する研究を紹介します。

従来の単一モデルによる自己改善では数回の学習で頭打ちになる問題がありましたが、今回複数のモデルを協調させることで継続的な性能向上を実現する手法が開発されました。

その背景には、LLMは既存のインターネット上のデータを使い尽くしていると言われている状況があり、そのため性能向上の新たな方法が必要とされています。

発表者情報

研究者：Vighnesh Subramaniam et al.

研究機関：MIT CSAIL, ハーバード大学, スタンフォード大学, Google DeepMind

背景

LLMの開発はどんどんと進展していますが、実は根本的な課題を抱えているとされています。学習に使用できるデータ量が限られているのです。現在のLLMはインターネット上の質の高いデータのほとんどを使い尽くしていると考えられており、さらなる性能向上には新たなアプローチが必要とされています。

これまでは最先端のLLMを教師として追加の学習データを生成する手法が試みられてきました。しかし教師となるモデル以上の性能は得られず、計算コストも膨大になります。また商用モデルを使用する場合、法的な制約も立ちはだかります。

また、LLMが自分で生成したデータを使って学習を重ねる「自己改善」という手法も提案されてきました。しかし数回の反復学習で性能向上が頭打ちになり、出力される回答の多様性も失われていく傾向が確認されています。

そこで今回、MIT、ハーバード大学、スタンフォード大学、Google DeepMindの研究チームは、複数のLLMを協調させるアプローチを開発しました。単一のモデルを改善する代わりに、複数のモデルをそれぞれ異なる得意分野に特化させます。モデル間で多様な推論能力を維持しながら、継続的な性能向上を実現することを目指しています。

複数のモデルを「専門家チーム」のように機能させることで、単一モデルでは克服できなかった限界を乗り越えようとする意欲的な試みです。

以下で詳しく紹介します。

PREMIUM

プレミアム会員限定の記事です

記事の購読には、アカウント作成後の決済が必要です。

・全記事・論文コンテンツを無制限で閲覧可能
・平日毎日更新、専門家による最新リサーチを配信

まずはアカウントを作成

ログイン

プレミアム会員について

単一のLLMから２つのエージェントを作成し自分（たち）で改善させる手法が有効

背景

PREMIUM

関連記事

LLMアプリの安全性を実環境で測るための考え方

LLMのマルチエージェントによる仮想通貨ポートフォリオ運用の自動化

LLM時代のソフトウェア開発者が考える「要件からコード生成」の実践ポイント

OpenAI、大規模言語モデルの数学能力を大きく向上させることに成功

Claude Code生成コードが実際の開発でどう扱われているかの調査結果

LLMにプロンプトのみで仮想的な強化学習を発生させる方法