画像も文字も表も全部まとめて理解するRAGシステムの提案 Bloombergなど

2024.11.15
深堀り解説
深堀り解説

本記事では、複数の文書やページから図や表を含む情報を抽出して質問に答えるRAGシステムのアプローチ「M3DOCRAG」を紹介します。

一般的なRAGは、単一ページしか扱えない、または視覚的な情報(表やグラフ)を適切に処理できないという課題があります。しかし、さまざまな現場ではより高度なシステムが求められており、本研究はそのニーズに応える進展と言えます。

参照論文情報

  • タイトル:M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding
  • 著者:Jaemin Cho, Debanjan Mahata, Ozan Irsoy, Yujie He, Mohit Bansal
  • 所属:UNC Chapel Hill, Bloomberg

背景

文書から情報を抽出して質問に答えるLLMベースのRAGシステムには、現在2つの主な課題があります。

第一に、既存の手法の多くは単一ページの文書しか扱えません。実際のビジネスシーンで必要な情報が複数の文書やページに分散しているため、この点は大きな障壁になります。

第二に、OCRなどのテキスト抽出に依存したRAGアプローチでは、文書内の表やグラフといった視覚的な情報を適切に処理できません。視覚要素は重要な情報を含んでいることが多く、テキストだけを扱う手法では不十分です。

金融、医療、法務をはじめとした、大量の文書を日常的に扱う分野では上記に対応できることはとても重要になってきます。今後様々な分野で、複数の長文文書や複雑なレイアウトを効率的に処理できるシステムへのニーズが高まっていくことが考えられます。

このような課題に対応するため、Bloombergなどの研究者らは、複数文書・複数ページにまたがる文書理解と、テキスト・画像を統合的に処理できるマルチモーダルなRAGシステムの開発に取り組みました。

PREMIUM

プレミアム会員限定の記事です

記事の購読には、アカウント作成後の決済が必要です。

  • ・全記事・論文コンテンツを無制限で閲覧可能
  • ・平日毎日更新、専門家による最新リサーチを配信

関連記事