OpenAIのo1モデルへの対抗馬 アリババが独自の推論モデル「Marco-o1」を開発 オープンソースで公開

2024.11.27
深堀り解説
深堀り解説

本記事では、OpenAIが発表した大規模推論モデル「o1」を超える性能を目指して開発された、アリババの新しいモデル「Marco-o1」を紹介します。

OpenAIのo1モデルは数学やコーディングなど明確に正解がある分野に主眼を置いていますが、Marco-o1は明確な基準のない現実世界の課題にも対応できる汎用的な推論能力の獲得に挑戦しています。

Chain-of-Thought(CoT)ファインチューニングやモンテカルロ木探索(MCTS)など、最新の技術を組み合わせることで、より幅広い問題解決能力の実現を目指した点が特徴的です。実際にケーススタディではその汎用的な能力がデモ的に示されています。

参照論文情報

  • タイトル:Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions
  • 著者:Yu Zhao, Huifeng Yin, Bo Zeng, Hao Wang, Tianqi Shi, Chenyang Lyu, Longyue Wang, Weihua Luo, Kaifu Zhang
  • 所属:MarcoPolo Team, Alibaba International Digital Commerce

背景

OpenAIによって発表されたo1モデルは、卓越した推論能力で注目を集めています。OpenAIはo1を単なる大規模言語モデルではなく大規模”推論(すいろん)”モデルとして世に知らしめています。

この成功に触発され、今回Alibabaの研究チームは新しく推論モデルの開発に取り組むことにしました。さらに「o1モデルをさらに幅広い領域に一般化できるか」というチャレンジをすることにしました。

そこで、Chain-of-Thoughtファインチューニング、モンテカルロ木探索、リフレクションメカニズムといった高度な技術を組み合わせることでモデルの開発が進められました。詳細は後述します。

また、その過程で研究チームはデータセットの整備にも取り組みました。Open-O1 CoTデータセット(フィルタリング済み)、Marco-o1 CoTデータセット(合成)、Marco指示データセットを組み合わせることで、モデルの推論能力とタスク遂行能力の向上が図られました。

その結果、出来上がったモデルは、予想を上回る性能を獲得することとなりました。

Marco-o1の推論例。”strawberry”という単語に含まれる’r’の数を数えている。

開発用データセットについて

PREMIUM

プレミアム会員限定の記事です

記事の購読には、アカウント作成後の決済が必要です。

  • ・全記事・論文コンテンツを無制限で閲覧可能
  • ・平日毎日更新、専門家による最新リサーチを配信

関連記事