RLHF(人間のフィードバックによる強化学習)を個人に適用することで実現します。
ワシントン大学やカリフォルニア大学などの研究者らによる報告です。
@ Joel Jang et al., “Personalized Soups: Personalized Large Language Model Alignment via Post-hoc Parameter Merging”

RLHFは、一般的な人間の好みに合わせてLLMを調整するために、極めて有望な手法として知られています。
しかし、個人に特化する用途では最適ではありませんでした。
そこで研究者らは「個人のフィードバックからの強化学習(RLPHF)」フレームワークを提案しています。
※本稿は論文の簡単な紹介記事です。
RLPHFフレームワークの概要
フレームワークの概要は以下のとおりです。