記事一覧

深堀り解説

OpenAIが新しくLLMの事実性評価ベンチマーク『SimpleQA』をリリース　実用に役立つ知見も得られる

2024.11.052025.03.08

深堀り解説

500以上の実世界のマルチモーダルタスクを含む、過去最大規模の評価ベンチマーク『MEGA-BENCH』登場

2024.10.212025.03.08

深堀り解説

複雑なプログラミングタスクに特化したベンチマーク『BigCodeBench』登場　最新モデルでも60%

2024.10.102025.04.27

深堀り解説

マルチモーダルLLMの高難易度ベンチマーク『MMMU-Pro』で明らかになったこと

2024.09.092025.03.08

深堀り解説

Appleが「LLMエージェントの評価」に特化したベンチマーク『MMAU』を開発　5領域5能力で測る

2024.08.012025.03.08

深堀り解説

包括的なRAG評価ベンチマーク『CRAG』Metaなどが開発

2024.06.142025.03.08

深堀り解説

MMLUをアップデートしたベンチマーク『MMLU-Pro』Phi-3やLlama 3、Claude 3、GPT-4oなどの評価結果

2024.06.052025.03.08

深堀り解説

LLMの「心の理論」能力を詳しく調べるベンチマーク『OpenToM』登場　複数のLLMの評価結果も発表

2024.02.272025.04.01

深堀り解説

大規模言語モデル（LLM）のこれまでとこれから④　-ベンチマーク別の優秀なモデルと将来展望編-

2024.02.192025.03.08

深堀り解説

AGIを見据えて専門家レベルの問題を集めたベンチマーク「MMMU」、GPT-4VやGemini Ultraでも正解率6割未満

2023.12.302025.03.08

Copyright © Parks, Inc. All rights reserved.