LLM(大規模言語モデル)の性能評価を行っているサイトを紹介します。
Hugging Face – Open LLM Leaderboard
このサイトでは、様々なLLMの性能をリアルタイムで追跡し、ランキングを公開しています。複数のベンチマークに基づいて、モデルの性能を比較できるインタラクティブなツールを提供しています。
アクセスはこちらから:Open LLM Leaderboard on Hugging FaceHugging FaceHugging Face。

Artificial Analysis – LLM Leaderboard
複数のLLMを、品質、コスト、速度、コンテキストウィンドウの長さなどの指標に基づいて比較しています。具体的には、GPT-4、Llama、Mistralなどの人気モデルを評価しています。
詳細はこちらから確認できます:Artificial Analysis LLM LeaderboardAI Model Analysis。
これらのサイトで、最新のLLMの性能比較と詳細な評価結果を確認できます。
Chatbot Arena Leaderboard (UC Berkeley SkyLab and LMSYS)
Hugging Faceの「Chatbot Arena Leaderboard」は、ユーザーのフィードバックや複数ターンの会話ベンチマークに基づいて、さまざまなチャットボットモデルのランキングを行っています。ユーザーは自分のモデルを提出して評価を受けることができ、会話の一貫性やエンゲージメント、精度などのパフォーマンス指標に基づいてモデルが比較されます。

LMArena
大規模言語モデル(LLM)の評価や比較に関する最新の研究成果、分析、ツール、コミュニティ活動を発信しています。
- Arena Explorer: Chatbot Arenaで収集された大量のユーザー会話データを階層的なトピックに分類し分析
- WebDev Arena: 実践的なWebアプリ開発タスクでのLLM評価
- Copilot Arena: コード補完と編集におけるLLMの性能比較
- RepoChat Arena: GitHubリポジトリを対象としたLLMの理解力評価
- Arena-Hard: 高品質なベンチマークデータセットの構築

日本語言語理解ベンチマークJGLUE
JGLUE は、Yahoo Japanと早稲田大学との共同研究により提供された日本語の自然言語処理モデルを評価するためのベンチマークデータセットです。日本語の言語理解に特化しており、様々なタスク(質問応答、自然言語推論、文脈理解など)に対応しています。JGLUEは、日本語のNLPモデルの開発や改善に役立つ基盤として利用されており、日本語特有の言語処理に焦点を当てた評価が可能です。

The Rakuda Ranking of Japanese AI
YuzuAIの「ラクダランキング」では、日本語の大規模言語モデル(LLM)の性能を評価しています。各モデルに対して日本語の質問が与えられ、その回答をGPT-4を使って比較し、パフォーマンスの良し悪しを判定します。
ハルシネーション性能評価
大規模言語モデル(LLM)が 提供された文書に基づいた誤解を招く質問 にどれくらい頻繁に 架空の回答(ハルシネーション) を生成するかを評価する ベンチマーク を提供しています。X(@lechmazur さん)が提供
関連記事 – 汎用AIアシスタントの性能評価


コメント