あらゆるLLMを「使い心地」基準でバトルさせる便利なプラットフォーム『Chatbot Arena:チャットボットアリーナ』

UCバークレーなどの研究者らは、「(結局のところ)人間の好みに合うLLMはどれなのか?」と疑問を持ち、匿名LLMをバトルさせ投票で優劣を決める『Chatbot Arena:チャットボットアリーナ』を開発しました。 Claude2.1やMistral(MoE)など新進気鋭のLLMも参戦しています。 なお、12/21時点ではMistral(MoE)がオープンソースLLMのトップに躍り出ており、さらにクローズドLLMの新モデルであるGemini Proも登場し高順位にいます。 参照論文情報 タイトル:Judging LLM-as-a-Judge with MT-Bench and Chatbot A…