RAGの検索データにおける「ノイズ(事実とは異なる情報など)」には有益なノイズと有害なノイズがある

2024.09.05
深堀り解説
深堀り解説

本記事では、RAGシステムにおける”ノイズ”の役割を分析した研究を紹介します。研究者らは、RAGシステムにおいて検索されるデータにおけるノイズのタイプを7つに定義して評価しています。結果、ノイズの中にも有益なノイズがあり、LLMの性能向上に寄与する可能性が示されました。

参照論文情報

  • タイトル:Pandora’s Box or Aladdin’s Lamp: A Comprehensive Analysis Revealing the Role of RAG Noise in Large Language Models
  • 著者:Jinyang Wu, Feihu Che, Chuyuan Zhang, Jianhua Tao, Shuai Zhang, Pengpeng Shao
  • 所属:Tsinghua University, Beijing National Research Center for Information Science and Technology

背景

LLMはさまざまなタスクで優れた力を見せていますが、古い知識に頼りすぎたり、間違った情報を作り出したりすることがあります。これらの課題を解決するため、(ご存じの方も多いと思いますが)RAGという方法が注目されています。RAGは、LLMが答えを出す前に外からの新しい情報を参照する手法です。

しかし、RAGで取得される情報には正確な事実以外にもさまざまなノイズ(事実とは異なる情報やフェイクニュース、古い内容、スペルミスなど)があり、それらノイズがLLMの働きに影響を与える可能性があります。
Web検索によって情報を取得するタイプのRAGだけに限らず、独自のデータベースを構築する場合においてもノイズは同様に発生します。

これまでの研究では、RAGシステムを実際の複雑な場面で使うことで、ノイズの影響や、システムを強くする方法が調べられてきました。しかし以下の点で不十分でした。

  1. 調べたノイズの種類が少なく(だいたい3種類以下)、はっきりとした分け方がなかった
  2. ノイズは悪いものだと決めつけていて、良い影響の可能性があまり考慮されていなかった
  3. 評価のための資料が足らなかった

このままでは現実的なRAG環境(ノイズが含まれうる状況)を検証できているとは言えません。

そこで今回研究者らは、RAGにおけるノイズの種類を新しく7つに定義し直し、検索時のノイズの具体的な影響を詳しく調べました。

以下でアプローチや実験結果の詳細を紹介します。

PREMIUM

プレミアム会員限定の記事です

記事の購読には、アカウント作成後の決済が必要です。

  • ・全記事・論文コンテンツを無制限で閲覧可能
  • ・平日毎日更新、専門家による最新リサーチを配信

関連記事