LLMに専門的なドメイン知識を学ばせるのに有効な「読解タスクテキストに変換する」テクニック

2024.07.312025.03.08

深堀り解説

本記事では、LLMをドメインに適応させるためのアプローチを紹介します。生コーパスを「読解タスク」に応じた内容のテキストに変換してLLMの学習に利用する手法です。

生物医学、金融、法律の3分野で検証が行われ、一般的なタスクでの性能も評価されました。

参照論文情報

タイトル：Adapting Large Language Models to Domains via Reading Comprehension

著者：Daixuan Cheng, Shaohan Huang, Furu Wei

所属：Microsoft Research, Beijing Institute for General Artificial Intelligence (BIGAI)

その他の情報：ICLR2024に採択

背景

LLMを実用するにあたっては、専門的な分野に対する知識を持つように調整することが必要だと考えられています。

これまで、専門分野向けLLMを開発するアプローチとしては、主に3つの方法が採用されてきました。
1つ目は、専門分野のデータと一般的なデータを組み合わせてゼロからモデルを学習させる方法です。この方法はシンプルですがコストが高くなってしまいます。
2つ目は、教師あり学習データセットを用いてファインチューニングする方法です。コスト効率が良いものの、タスクに特化しすぎてしまい、汎用的な専門知識の獲得が難しいという問題があります。
3つ目は、一般的なLLMに専門知識を含む情報を与えてプロンプティングする方法ですが、これはLLM自体を改善するというよりは、LLMの応用方法の一つと考えられています。

そこで本研究では、人間の学習プロセスにヒントを得た新しいアプローチが考案されました。「読解問題に取り組んだあとに練習問題を解く」と質問応答能力が向上しているという考え方です。

この着想から、生コーパスを読解問題に変換する手法が提案され、成果が出ました。

なお生コーパスとは、自然言語での実例を集めた大規模なテキストデータ集合を指します。人為的に作成されたものではなく、実際の文書、記事、会話などから収集された「生の」テキストデータです。本研究では、各ドメイン（生物医学、金融、法律）に関連する大量のテキストデータが生コーパスとして使用されています。

以下で提案手法と実験結果を詳しく紹介します。

PREMIUM

プレミアム会員限定の記事です

記事の購読には、アカウント作成後の決済が必要です。

・全記事・論文コンテンツを無制限で閲覧可能
・平日毎日更新、専門家による最新リサーチを配信

まずはアカウントを作成

ログイン

プレミアム会員について

LLMに専門的なドメイン知識を学ばせるのに有効な「読解タスクテキストに変換する」テクニック

背景

PREMIUM

関連記事

Geminiの高い推論能力を活かして、過去最高水準のプログラミングAI『AlphaCode 2』も誕生したとの報告

競争環境でのLLMエージェントが自発的に協力し始める現象を観測

LLMに非線形的な思考を与えてCoTを上回る性能を引き出す手法『IEP』と実行プロンプト　CoTと組合せでさらに強力になる場合も

LLMを組み込んだ実システムでどの脅威に対処すべきか、どこに防御を置くか

GPT-4やGeminiなどさまざまなLLMで、プロンプトの入力が長くなるにつれて推論性能に顕著な低下が見られる

指示が増えると、LLMの性能はどれだけ低下する？

背景

PREMIUM

関連記事

Geminiの高い推論能力を活かして、過去最高水準のプログラミングAI『AlphaCode 2』も誕生したとの報告

競争環境でのLLMエージェントが自発的に協力し始める現象を観測

LLMに非線形的な思考を与えてCoTを上回る性能を引き出す手法『IEP』と実行プロンプト CoTと組合せでさらに強力になる場合も

LLMを組み込んだ実システムでどの脅威に対処すべきか、どこに防御を置くか

GPT-4やGeminiなどさまざまなLLMで、プロンプトの入力が長くなるにつれて推論性能に顕著な低下が見られる

指示が増えると、LLMの性能はどれだけ低下する？

LLMに非線形的な思考を与えてCoTを上回る性能を引き出す手法『IEP』と実行プロンプト　CoTと組合せでさらに強力になる場合も