100人以上の研究者が実験参加　LLMは人間より優れた研究アイデアを思いつくのか？

2024.09.122025.07.20

この記事では、LLMと人間の専門家による研究アイデア作りの能力を比べた大規模な研究を紹介します。研究の目的は、科学研究の自動化を進めるための知見を集めることでした。

実験には100人以上の自然言語処理（NLP）の研究者が参加し、LLMと人間が考えたアイデアが比較されました。そして「新しさ」や「実現できるかどうか」など5つの基準で評価が行われました。

その結果は非常に興味深いものでした。

なお、LLMで研究アイデアを生成する際にはRAGも含めたエージェントの仕組みが設計されました。その設計内容も有益な知見となる可能性があります。

背景

LLMが急速に進歩し、科学的な発見を早める可能性が高まっています。研究のアイデアを自動的に考えるエージェントも作られつつあります。しかし、これまでは、LLMが”専門家並み”の新しいアイデアを思いつけるかはわかっていませんでした。

そこで今回研究者らは、研究のアイデア作りを”評価する方法”そのものを作りました。そして、LLMのアイデア作りエージェントを設計し、専門家の自然言語処理（NLP）研究者と直接比べました。このようなプロジェクトは初の試みです。

実験には100人以上のNLP研究者が参加し、一方のグループには新しいアイデアを書いてもらい、LLMと人間のアイデアを（どちらが作ったかは伏せて）もう一方のグループに評価してもらいました。

なお、LLMエージェントの基本的な性能も詳しく調べた結果、まだ解決していない問題も見つかりました。

以下に研究の問題設定とLLMエージェント設計、そして実験結果を詳しく紹介します。

プレミアム会員限定の記事です

記事の購読には、アカウント作成後の決済が必要です。

ログイン