CoT（思考の連鎖）は数学や論理で劇的に性能を向上させる一方、常識や知識のタスクでほとんど効果がない

2024.09.242025.03.08

本記事では、LLMにおける思考の連鎖（Chain-of-Thought, CoT）プロンプティングの効果を包括的に評価した研究を紹介します。

研究者たちは、100以上の論文を対象とした分析と、14のモデルを用いた20のデータセットでの独自の評価を行いました。CoTがどのようなタスクで効果的なのか、そしてなぜ効果があるのかを明らかにすることを目的としています。

参照論文情報

タイトル：To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning

著者：Zayne Sprague, Fangcong Yin, Juan Diego Rodriguez, Dongwei Jiang, Manya Wadhwa, Prasann Singhal, Xinyu Zhao, Xi Ye, Kyle Mahowald, Greg Durrett

所属：The University of Texas at Austin, Johns Hopkins University, Princeton University

背景

LLMの推論能力を引き出す方法として、CoT手法が広く使われるようになりました。CoTを使うと、人間が理解しやすい説明を作り出せると同時に、複雑な問題を解くときに途中の計算をしやすくなります。

しかし、CoTがどんな種類の課題で本当に役立つのかは、詳しくはよくわかっていませんでした。そこで今回研究者たちは、100以上の論文を詳しく調べ、さらに14種類のモデルと20の異なるデータセットで新たに評価を行いました。

これらの調査でわかったのは、CoTが特に効果を発揮するのは、数学や論理に関する課題だということです。それ以外の種類の課題では、CoTの効果はあまり大きくありませんでした。

この結果を受けて研究者たちはさらに詳しく調べ、最終的に二つのことが明らかになりました。

以下では、まずCoTとはそもそもなにか？という段階から詳しく紹介します。

プレミアム会員限定の記事です

記事の購読には、アカウント作成後の決済が必要です。

ログイン