LLMに専門的なドメイン知識を学ばせるのに有効な「読解タスクテキストに変換する」テクニック

2024.07.31
深堀り解説
深堀り解説

本記事では、LLMをドメインに適応させるためのアプローチを紹介します。生コーパスを「読解タスク」に応じた内容のテキストに変換してLLMの学習に利用する手法です。

生物医学、金融、法律の3分野で検証が行われ、一般的なタスクでの性能も評価されました。

参照論文情報

  • タイトル:Adapting Large Language Models to Domains via Reading Comprehension
  • 著者:Daixuan Cheng, Shaohan Huang, Furu Wei
  • 所属:Microsoft Research, Beijing Institute for General Artificial Intelligence (BIGAI)
  • その他の情報:ICLR2024に採択

背景

LLMを実用するにあたっては、専門的な分野に対する知識を持つように調整することが必要だと考えられています。

これまで、専門分野向けLLMを開発するアプローチとしては、主に3つの方法が採用されてきました。
1つ目は、専門分野のデータと一般的なデータを組み合わせてゼロからモデルを学習させる方法です。この方法はシンプルですがコストが高くなってしまいます。
2つ目は、教師あり学習データセットを用いてファインチューニングする方法です。コスト効率が良いものの、タスクに特化しすぎてしまい、汎用的な専門知識の獲得が難しいという問題があります。
3つ目は、一般的なLLMに専門知識を含む情報を与えてプロンプティングする方法ですが、これはLLM自体を改善するというよりは、LLMの応用方法の一つと考えられています。

そこで本研究では、人間の学習プロセスにヒントを得た新しいアプローチが考案されました。「読解問題に取り組んだあとに練習問題を解く」と質問応答能力が向上しているという考え方です。

この着想から、生コーパスを読解問題に変換する手法が提案され、成果が出ました。

なお生コーパスとは、自然言語での実例を集めた大規模なテキストデータ集合を指します。人為的に作成されたものではなく、実際の文書、記事、会話などから収集された「生の」テキストデータです。本研究では、各ドメイン(生物医学、金融、法律)に関連する大量のテキストデータが生コーパスとして使用されています。

以下で提案手法と実験結果を詳しく紹介します。

PREMIUM

プレミアム会員限定の記事です

記事の購読には、アカウント作成後の決済が必要です。

  • ・全記事・論文コンテンツを無制限で閲覧可能
  • ・平日毎日更新、専門家による最新リサーチを配信

関連記事