LLM検索と従来検索が好むウェブサイトの違い

深堀り解説
深堀り解説

現在、ChatGPTやGeminiといった生成AIが検索結果をまとめて提示する「LLM検索エンジン」の利用が急速に広がっています。こうしたAIがどのような情報源を選び、どこから情報を引用しているのかについては、これまで詳しく調べられていません。

本記事では、この疑問に答えるために行われた大規模な比較研究を紹介します。研究では、6つの主要なLLM検索エンジン(ChatGPT、Gemini、Perplexity、Grok、Google AI Mode、Copilot)と、従来型の検索エンジン(GoogleとBing)の合計8種類を対象とし、55,000件以上の検索クエリを分析しました。

背景

これまで検索エンジンは、インターネット上の情報にアクセスするための主な手段として使われてきました。GoogleやBingなどの従来型検索エンジンは、ウェブ上の情報を集め、関連性や信頼性をもとに順位をつけてリンクの一覧として表示します。ユーザーはこのランキングを参考に、自分で情報を探してきたわけです。

しかし、近年のLLMの進化によって、情報検索のあり方が大きく変わり始めています。実際、アメリカでは2027年までに約9,000万人の成人がAIを使った検索を利用するようになると予測されています。

こうした新しい検索のかたちが「LLM検索エンジン」です。これは、ChatGPTやGeminiのように、AIが検索結果を自動でまとめて読みやすい文章として提示してくれるものです。これまでのように、いくつものリンクをクリックして情報を集める必要はなく、ひとつのまとまった回答が返ってくるのが特徴です。

ただし、この便利な仕組みには課題もあります。AIが複雑な処理を行うことで、「どの情報源が使われたのか」がわかりにくくなり、透明性が損なわれやすいのです。また、RAGによって思わぬバイアス(偏り)が生じたり、LLMが誤った情報をあたかも正確であるかのように生成してしまう「ハルシネーション(幻覚)」の問題も指摘されています。

こうした問題への対応として、近年では多くのLLM検索エンジンが回答に引用元を明記するようになっています。つまり、どのウェブサイトから情報を得たのかをリンク付きで示すことで、ユーザーが元の情報を確認できるようにしているのです。

とはいえ、「LLM検索エンジンはどうやって引用元を選んでいるのか?」また「従来型検索と比べて、使われている情報源はどれくらい違うのか?」といった点については、これまで体系的な調査が行われていませんでした。

このような背景から、本記事ではそれらの疑問を明らかにするために行われた大規模な実証分析を紹介します。

PREMIUM

プレミアム会員限定の記事です

記事の購読には、アカウント作成後の決済が必要です。

  • ・全記事・論文コンテンツを無制限で閲覧可能
  • ・平日毎日更新、専門家による最新リサーチを配信

関連記事