以下是一些评估 LLM(大型语言模型)性能的网站。
Hugging Face – 打开 LLM 排行榜
该网站实时跟踪各种 LLM 的表现并发布排名。 它提供了交互式工具,允许您根据多个基准比较模型的性能。
访问此处: 在 Hugging Face Hugging Face Hugging Face 上打开 LLM 排行榜。
あわせて読みたい
Open LLM Leaderboard – a Hugging Face Space by open-llm-leaderboard
Compare the performance of open-source Large Language Models using multiple benchmarks like IFEval, BBH, MATH, GPQA, MUSR, and MMLU-PRO. Filter results in real-…
人工分析 – LLM 排行榜
它根据质量、成本、速度和上下文窗口长度等指标比较多个 LLM。 具体来说,它评估了 GPT-4、Llama 和 Mistral 等流行模型。
您可以在这里找到更多信息: 人工分析 LLM 排行榜AI 模型分析.
您可以查看这些网站,了解最新 LLM 的性能比较和详细评估结果。
聊天机器人竞技场排行榜(加州大学伯克利分校 SkyLab 和 LMSYS)
Hugging Face 的聊天机器人竞技场排行榜根据用户反馈和多轮对话基准对各种聊天机器人模型进行排名。 用户可以提交他们的模型进行评估,并根据对话连贯性、参与度和准确性等性能指标对模型进行比较。
あわせて読みたい
LMArena Leaderboard – a Hugging Face Space by lmarena-ai
This application displays the LMArena Leaderboard in a full-screen iframe. No input is required; simply open the app to view the leaderboard rankings.
LMA雷纳
它传播有关评估和比较大型语言模型 (LLM) 的最新研究、分析、工具和社区活动。
- Arena Explorer:将 Chatbot Arena 收集的大量用户对话数据分类分析为分层主题
- WebDev Arena:动手 Web 应用程序开发任务中的 LLM 评估
- Copilot Arena:代码完成和编辑中的 LLM 性能比较
- RepoChat Arena:GitHub 存储库的 LLM 理解评估
- Arena-Hard:构建高质量的基准数据集
LMArena Blog
LMArena Blog
Explore the latest updates, insights, and research from LMArena: an open platform where anyone can access top AI models and help shape their future through real…
https://blog.lmarena.ai/blog
日语理解基准 JGLUE
JGLUE 是雅虎日本与早稻田大学合作提供的用于评估日语自然语言处理模型的基准数据集。 它专注于日语理解,并满足各种任务(例如,问答、自然语言推理、上下文理解等)。 JGLUE 被用作开发和改进日语 NLP 模型的有用基础,允许进行专注于特定于日语的语言处理的评估。
Yahoo! JAPAN Tech Blog
日本語言語理解ベンチマークJGLUEの構築 〜 自然言語処理モデルの評価用データセットを公開しました
日本語の自然言語処理にベンチマークがない大問題を解決すべく、日本語言語理解ベンチマークJGLUEを構築・公開しました。
日本AI的Rakuda排名
YuzuAI 的“骆驼排名”评估了日本大型语言模型 (LLM) 的性能。 每个模型都会给出一个日语问题,GPT-4 会比较答案以确定其表现是否良好。
あわせて読みたい
The Rakuda Ranking of Japanese AI
Open-Source Research for Japanese LLMs
halcination 性能评估
我们提供了一个基准来评估大型语言模型 (LLM) 根据提供的文档对误导性问题生成假设答案(幻觉)的频率。 X 提供 (@lechmazur)
GitHub
GitHub – lechmazur/confabulations: Hallucinations (Confabulations) Document-Based Benchmark for RAG….
Hallucinations (Confabulations) Document-Based Benchmark for RAG. Includes human-verified questions and answers. – lechmazur/confabulations
目次
相关文章- 通用人工智能助手的性能评估
Ai0w.com
AIエージェント・AIアシスタント性能評価:GAIAベンチマークとは?Meta、Hugging Face、AutoGPT、GenAIの研…
GAIA(General AI Assistants)は、Meta、Hugging Face、AutoGPT、GenAIの研究者によって開発された、汎用AIエージェント・AIアシスタントの能力を評価するためのベンチマ…
コメント