GoogleのGeminiファミリー最新モデル「Gemini 1.5 Pro」1000万トークンでほぼ完璧な検索性能

2024.03.182025.03.08

深堀り解説

Googleが公開した最新モデルGemini 1.5 Proは、長いコンテキストから細かい情報を探索して推論できる高効率なマルチモーダルモデルです。テクニカルレポートによると、最大1000万トークンまでのコンテキスト検索タスクでほぼ完璧な再現率を達成するとのことです。また、ロングコンテキストQA、長い動画QA、ロングコンテキストASR（自動音声認識）で最先端の性能を示しています。
さらに、200人未満の話者しかいないKalamang語を学習し、優れた品質で英語から翻訳可能とのこと。

参照テクニカルレポート情報

タイトル：Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context

URL：https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf

公式ブログ：https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/

著者：Gemini Team, Google（著者多数）

はじめに

Googleの研究者らは以前からマルチモーダルモデルファミリーGeminiを公開しています。今回新たにリリースしたGemini 1.5 Proは、複数の長文書、数時間の動画、ほぼ5日分の音声を含む長いマルチモーダル入力の処理が可能になったと述べられています。

下記は、Gemini 1.5 Proがさまざまなモダリティ（テキスト、ビデオ、オーディオ）で、最大1000万トークンの「藁」の中で99.7％以上の「針」の再現率を達成したことを示す図です。

さらに従来のマルチモーダル能力と比較したところ、ほとんどのベンチマークでGemini 1.0 Proより優れた性能を発揮したとのことです。最先端のGemini 1.0 Ultraと比較しても、訓練計算量が大幅に少なく効率が高いにもかかわらず、ベンチマークの半数以上でより良い性能を示しています。

下記でその能力をさらに詳しく紹介します。

PREMIUM

プレミアム会員限定の記事です

記事の購読には、アカウント作成後の決済が必要です。

・全記事・論文コンテンツを無制限で閲覧可能
・平日毎日更新、専門家による最新リサーチを配信

まずはアカウントを作成

ログイン

プレミアム会員について

関連記事

深堀り解説

Webページの見た目や使い勝手をLLMに診断させるプロンプト手法

2025.12.04

深堀り解説

標準作業手順書（SOP）をもとにLLMエージェントシステムで業務の自動化をする方法

2025.04.07

深堀り解説

Cursorはソフトウェア開発を加速する？導入後の実態に迫る

2025.11.112025.11.21

深堀り解説

1.1Bパラメータの小さなモデルを巨大データ（約3兆トークン）で訓練したモデル『TinyLlama』が、比較的優秀な性能を発揮

2024.01.092025.03.08

深堀り解説

人の音声からAIが「性格」を予測

2023.02.162025.03.08

深堀り解説

Copilotサービスを使う上で気を付けたいプロンプトインジェクションによる機密情報漏洩リスク

2025.10.01

Copyright © Parks, Inc. All rights reserved.