DeepSeek R1が実現した教師なし強化学習による推論性能の向上

本記事では、LLMの推論能力を強化学習のみで向上させることに取り組んだ新しい研究を紹介します。大規模言語モデルの推論能力向上には従来、大量の教師あり学習データが必要とされてきましたが、DeepSeek社の研究チームは強化学習のみ、あるいは少量の初期データとの組み合わせで、高い推論性能を実現する手法を開発しました。結果、OpenAIのo1-1217と同等の性能を持つモデルの開発に成功したようです。発表者情報研究機関：DeepSeek-AI 本記事の関連研究 18兆トークンで学習されたオープンソースLLM『Qwen2.5』シリーズの性能動画を理解する軽量なLLM『Apollo』、オープン…