MENU
Language

介绍评估 LLM 性能的网站

以下是一些评估 LLM(大型语言模型)性能的网站。

Hugging Face – 打开 LLM 排行榜

该网站实时跟踪各种 LLM 的表现并发布排名。 它提供了交互式工具,允许您根据多个基准比较模型的性能。
访问此处: 在 Hugging Face Hugging Face Hugging Face 上打开 LLM 排行榜

人工分析 – LLM 排行榜

它根据质量、成本、速度和上下文窗口长度等指标比较多个 LLM。 具体来说,它评估了 GPT-4、Llama 和 Mistral 等流行模型。
您可以在这里找到更多信息: 人工分析 LLM 排行榜AI 模型分析.

您可以查看这些网站,了解最新 LLM 的性能比较和详细评估结果。

聊天机器人竞技场排行榜(加州大学伯克利分校 SkyLab 和 LMSYS)

Hugging Face 的聊天机器人竞技场排行榜根据用户反馈和多轮对话基准对各种聊天机器人模型进行排名。 用户可以提交他们的模型进行评估,并根据对话连贯性、参与度和准确性等性能指标对模型进行比较。

LMA雷纳

它传播有关评估和比较大型语言模型 (LLM) 的最新研究、分析、工具和社区活动。

  • Arena Explorer:将 Chatbot Arena 收集的大量用户对话数据分类分析为分层主题
  • WebDev Arena:动手 Web 应用程序开发任务中的 LLM 评估
  • Copilot Arena:代码完成和编辑中的 LLM 性能比较
  • RepoChat Arena:GitHub 存储库的 LLM 理解评估
  • Arena-Hard:构建高质量的基准数据集

https://blog.lmarena.ai/blog

日语理解基准 JGLUE



JGLUE 是雅虎日本与早稻田大学合作提供的用于评估日语自然语言处理模型的基准数据集。 它专注于日语理解,并满足各种任务(例如,问答、自然语言推理、上下文理解等)。 JGLUE 被用作开发和改进日语 NLP 模型的有用基础,允许进行专注于特定于日语的语言处理的评估。

日本AI的Rakuda排名

YuzuAI 的“骆驼排名”评估了日本大型语言模型 (LLM) 的性能。 每个模型都会给出一个日语问题,GPT-4 会比较答案以确定其表现是否良好。

halcination 性能评估

我们提供了一个基准来评估大型语言模型 (LLM) 根据提供的文档对误导性问题生成假设答案(幻觉)的频率。 X 提供 (@lechmazur

目次

相关文章- 通用人工智能助手的性能评估

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

AIアーティスト | エンジニア | ライター | 最新のAI技術やトレンド、注目のモデル解説、そして実践に役立つ豊富なリソースまで、幅広い内容を記事にしています。フォローしてねヾ(^^)ノ

コメント

コメントする

目次