Aquí hay algunos sitios que evalúan el rendimiento de los LLM (modelos de lenguaje grandes).
Hugging Face – Tabla de clasificación de LLM abierto
El sitio rastrea el rendimiento de varios LLM en tiempo real y publica clasificaciones. Ofrece herramientas interactivas que le permiten comparar el rendimiento de los modelos en función de múltiples puntos de referencia.
Acceda aquí: Abra la tabla de clasificación de LLM en Hugging FaceHugging Face HuggingFace.

Análisis artificial – Tabla de clasificación de LLM
Compara varios LLM en función de métricas como la calidad, el costo, la velocidad y la longitud de la ventana de contexto. Específicamente, evalúa modelos populares como GPT-4, Llama y Mistral.
Puede obtener más información aquí: Análisis artificial LLM LeaderboardAI Model Analysis.
Puede consultar estos sitios para obtener comparaciones de rendimiento y resultados de evaluación detallados de los últimos LLM.
Tabla de clasificación de Chatbot Arena (UC Berkeley SkyLab y LMSYS)
La tabla de clasificación de Chatbot Arena de Hugging Face clasifica varios modelos de chatbot en función de los comentarios de los usuarios y los puntos de referencia de conversación de varios turnos. Los usuarios pueden enviar sus modelos para su evaluación, y los modelos se comparan en función de métricas de rendimiento como la coherencia de la conversación, el compromiso y la precisión.

LMArena
Difunde las últimas investigaciones, análisis, herramientas y actividades comunitarias sobre la evaluación y comparación de grandes modelos lingüísticos (LLM).
- Arena Explorer: Categoriza y analiza grandes cantidades de datos de conversación de usuarios recopilados por Chatbot Arena en temas jerárquicos
- WebDev Arena: Evaluación de LLM en tareas prácticas de desarrollo de aplicaciones web
- Copilot Arena: Comparación del rendimiento de LLM en la finalización y edición de código
- RepoChat Arena: Evaluación de comprensión de LLM para repositorios de GitHub
- Arena-Hard: Creación de conjuntos de datos de referencia de alta calidad

Punto de referencia de comprensión del idioma japonés JGLUE
JGLUE es un conjunto de datos de referencia para evaluar los modelos japoneses de procesamiento del lenguaje natural proporcionado por Yahoo Japón en colaboración con la Universidad de Waseda. Se especializa en la comprensión del idioma japonés y se ocupa de diversas tareas (por ejemplo, respuesta a preguntas, razonamiento en lenguaje natural, comprensión contextual, etc.). JGLUE se utiliza como una base útil para desarrollar y mejorar los modelos de PNL japoneses, lo que permite evaluaciones que se centran en el procesamiento del lenguaje específico del idioma japonés.

El ranking Rakuda de la IA japonesa
El «Camel Ranking» de YuzuAI evalúa el rendimiento de los modelos de lenguaje grande (LLM) japoneses. A cada modelo se le da una pregunta en japonés, y GPT-4 compara las respuestas para determinar si funciona bien o no.
Evaluación del rendimiento de la halcinación
Proporcionamos un punto de referencia para evaluar la frecuencia con la que los grandes modelos lingüísticos (LLM) generan respuestas hipotéticas (alucinaciones) a preguntas engañosas basadas en los documentos proporcionados. Proporcionado por X (@lechmazur)
Artículos relacionados – Evaluación del rendimiento de los asistentes de IA de propósito general


コメント