LLMの性能評価をしているサイト紹介

LLM(大規模言語モデル)の性能評価を行っているサイトを紹介します。

Hugging Face – Open LLM Leaderboard

このサイトでは、様々なLLMの性能をリアルタイムで追跡し、ランキングを公開しています。複数のベンチマークに基づいて、モデルの性能を比較できるインタラクティブなツールを提供しています。
アクセスはこちらから:Open LLM Leaderboard on Hugging FaceHugging FaceHugging Face

Artificial Analysis – LLM Leaderboard

複数のLLMを、品質、コスト、速度、コンテキストウィンドウの長さなどの指標に基づいて比較しています。具体的には、GPT-4、Llama、Mistralなどの人気モデルを評価しています。
詳細はこちらから確認できます:Artificial Analysis LLM LeaderboardAI Model Analysis

これらのサイトで、最新のLLMの性能比較と詳細な評価結果を確認できます。

Chatbot Arena Leaderboard (UC Berkeley SkyLab and LMSYS)

Hugging Faceの「Chatbot Arena Leaderboard」は、ユーザーのフィードバックや複数ターンの会話ベンチマークに基づいて、さまざまなチャットボットモデルのランキングを行っています。ユーザーは自分のモデルを提出して評価を受けることができ、会話の一貫性やエンゲージメント、精度などのパフォーマンス指標に基づいてモデルが比較されます。

LMArena

大規模言語モデル(LLM)の評価や比較に関する最新の研究成果、分析、ツール、コミュニティ活動を発信しています。

  • Arena Explorer: Chatbot Arenaで収集された大量のユーザー会話データを階層的なトピックに分類し分析
  • WebDev Arena: 実践的なWebアプリ開発タスクでのLLM評価
  • Copilot Arena: コード補完と編集におけるLLMの性能比較
  • RepoChat Arena: GitHubリポジトリを対象としたLLMの理解力評価
  • Arena-Hard: 高品質なベンチマークデータセットの構築

https://blog.lmarena.ai/blog

日本語言語理解ベンチマークJGLUE



JGLUE は、Yahoo Japanと早稲田大学との共同研究により提供された日本語の自然言語処理モデルを評価するためのベンチマークデータセットです。日本語の言語理解に特化しており、様々なタスク(質問応答、自然言語推論、文脈理解など)に対応しています。JGLUEは、日本語のNLPモデルの開発や改善に役立つ基盤として利用されており、日本語特有の言語処理に焦点を当てた評価が可能です。

The Rakuda Ranking of Japanese AI

YuzuAIの「ラクダランキング」では、日本語の大規模言語モデル(LLM)の性能を評価しています。各モデルに対して日本語の質問が与えられ、その回答をGPT-4を使って比較し、パフォーマンスの良し悪しを判定します。

ハルシネーション性能評価

大規模言語モデル(LLM)が 提供された文書に基づいた誤解を招く質問 にどれくらい頻繁に 架空の回答(ハルシネーション) を生成するかを評価する ベンチマーク を提供しています。X(@lechmazur さん)が提供

目次

関連記事 – 汎用AIアシスタントの性能評価

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

AIアーティスト | エンジニア | ライター | 最新のAI技術やトレンド、注目のモデル解説、そして実践に役立つ豊富なリソースまで、幅広い内容を記事にしています。フォローしてねヾ(^^)ノ

コメント

コメントする

目次