GoogleのGeminiファミリー最新モデル「Gemini 1.5 Pro」1000万トークンでほぼ完璧な検索性能

2024.03.18
深堀り解説
深堀り解説

Googleが公開した最新モデルGemini 1.5 Proは、長いコンテキストから細かい情報を探索して推論できる高効率なマルチモーダルモデルです。テクニカルレポートによると、最大1000万トークンまでのコンテキスト検索タスクでほぼ完璧な再現率を達成するとのことです。また、ロングコンテキストQA、長い動画QA、ロングコンテキストASR(自動音声認識)で最先端の性能を示しています。
さらに、200人未満の話者しかいないKalamang語を学習し、優れた品質で英語から翻訳可能とのこと。

参照テクニカルレポート情報

はじめに

Googleの研究者らは以前からマルチモーダルモデルファミリーGeminiを公開しています。今回新たにリリースしたGemini 1.5 Proは、複数の長文書、数時間の動画、ほぼ5日分の音声を含む長いマルチモーダル入力の処理が可能になったと述べられています。

下記は、Gemini 1.5 Proがさまざまなモダリティ(テキスト、ビデオ、オーディオ)で、最大1000万トークンの「藁」の中で99.7%以上の「針」の再現率を達成したことを示す図です。

さらに従来のマルチモーダル能力と比較したところ、ほとんどのベンチマークでGemini 1.0 Proより優れた性能を発揮したとのことです。最先端のGemini 1.0 Ultraと比較しても、訓練計算量が大幅に少なく効率が高いにもかかわらず、ベンチマークの半数以上でより良い性能を示しています。

下記でその能力をさらに詳しく紹介します。

PREMIUM

プレミアム会員限定の記事です

記事の購読には、アカウント作成後の決済が必要です。

  • ・全記事・論文コンテンツを無制限で閲覧可能
  • ・平日毎日更新、専門家による最新リサーチを配信

関連記事