アカウント作成
ログイン
クリップ一覧
プレミアム会員について
最新の記事:
テスト
記事一覧
HOME
記事一覧
ベンチマークの記事一覧
深堀り解説
OpenAIが新しくLLMの事実性評価ベンチマーク『SimpleQA』をリリース 実用に役立つ知見も得られる
2024.11.05
2025.03.08
深堀り解説
500以上の実世界のマルチモーダルタスクを含む、過去最大規模の評価ベンチマーク『MEGA-BENCH』登場
2024.10.21
2025.03.08
深堀り解説
複雑なプログラミングタスクに特化したベンチマーク『BigCodeBench』登場 最新モデルでも60%
2024.10.10
2025.04.27
深堀り解説
マルチモーダルLLMの高難易度ベンチマーク『MMMU-Pro』で明らかになったこと
2024.09.09
2025.03.08
深堀り解説
Appleが「LLMエージェントの評価」に特化したベンチマーク『MMAU』を開発 5領域5能力で測る
2024.08.01
2025.03.08
深堀り解説
包括的なRAG評価ベンチマーク『CRAG』Metaなどが開発
2024.06.14
2025.03.08
深堀り解説
MMLUをアップデートしたベンチマーク『MMLU-Pro』Phi-3やLlama 3、Claude 3、GPT-4oなどの評価結果
2024.06.05
2025.03.08
深堀り解説
LLMの「心の理論」能力を詳しく調べるベンチマーク『OpenToM』登場 複数のLLMの評価結果も発表
2024.02.27
2025.04.01
深堀り解説
大規模言語モデル(LLM)のこれまでとこれから④ -ベンチマーク別の優秀なモデルと将来展望編-
2024.02.19
2025.03.08
深堀り解説
AGIを見据えて専門家レベルの問題を集めたベンチマーク「MMMU」、GPT-4VやGemini Ultraでも正解率6割未満
2023.12.30
2025.03.08
投稿のページ送り
1
2
3
トップページ
AIDBとは
プレミアム会員規約
運営会社
お問い合わせ
よくある質問
Copyright © Parks, Inc. All rights reserved.
アカウント作成
ログイン
クリップ一覧
プレミアム会員について