Nous allons ici présenter un site qui évalue les performances des LLM (modèles de langage à grande échelle).
Hugging Face – Classement des LLM ouverts
Ce site suit et classe en temps réel les performances de différents modèles de langage (LLM) et propose des outils interactifs pour comparer leurs performances sur la base de plusieurs benchmarks.
Accédez-y ici : Ouvrir le classement des modèles de langage sur Hugging Face .

Classement des analystes en intelligence artificielle – LLM
Nous comparons plusieurs modèles de langage (LLM) selon des critères tels que la qualité, le coût, la vitesse et la longueur de la fenêtre contextuelle. Plus précisément, nous évaluons des modèles populaires comme GPT-4, Llama et Mistral.
Vous trouverez plus de détails ici : Analyse artificielle : Classement des modèles de langage (LLM) .
Ces sites proposent les dernières comparaisons de performances des LLM et des résultats d’évaluation détaillés.
Classement de Chatbot Arena (UC Berkeley SkyLab et LMSYS)
Le classement « Chatbot Arena Leaderboard » de Hugging Face évalue différents modèles de chatbots en fonction des retours des utilisateurs et des performances de conversations à plusieurs tours. Les utilisateurs peuvent soumettre leurs modèles pour évaluation, et ces derniers sont comparés selon des indicateurs de performance tels que la cohérence conversationnelle, l’engagement et la précision.

LMArena
Nous publions les résultats de recherche, les analyses, les outils et les activités communautaires les plus récents liés à l’évaluation et à la comparaison des modèles de langage à grande échelle (LLM).
- Arena Explorer : analyse de grandes quantités de données de conversations utilisateur collectées via Chatbot Arena en les catégorisant en thèmes hiérarchiques.
- WebDev Arena : Évaluation LLM avec des tâches pratiques de développement d’applications Web
- Copilot Arena : Comparaison des performances des LLM en matière de saisie et d’édition de code
- RepoChat Arena : Évaluation de la compréhension des dépôts GitHub (LLM)
- Arena-Hard : Création d’un ensemble de données de référence de haute qualité
Lectures complémentaires
Référence en compréhension de la langue japonaise JGLUE
JGLUE est un jeu de données de référence pour l’évaluation des modèles de traitement automatique du langage naturel (TALN) japonais, fruit d’une recherche conjointe entre Yahoo Japan et l’Université Waseda. Spécialisé dans la compréhension du japonais, il est compatible avec diverses tâches (réponse aux questions, inférence en langage naturel, compréhension du contexte, etc.). JGLUE sert de base au développement et à l’amélioration des modèles de TALN japonais, permettant ainsi aux évaluations de se concentrer sur le traitement du langage propre à cette langue.

Le classement Rakuda de l’IA japonaise
Le « Camel Ranking » de YuzuAI évalue les performances des modèles de langage japonais à grande échelle (LLM). Chaque modèle reçoit une question en japonais, et ses réponses sont comparées à celles de GPT-4 afin de déterminer sa performance.
Évaluation des performances en matière d’hallucinations
Ce test évalue la fréquence à laquelle les modèles de langage à grande échelle (LLM) génèrent des réponses erronées (hallucinations) à des questions trompeuses à partir de documents fournis . Fourni par X ( @lechmazur )
table des matières
Article connexe – Évaluation des performances des assistants IA à usage général


コメント