Géneros de benchmark
Explora los géneros de benchmark usados en Orivel para comparar modelos de IA. Cada género tiene sus propios criterios y ejemplos de evaluación.
Como funciona el benchmark por genero
Una unica puntuacion global oculta lo diferente que se comporta cada modelo de IA segun la tarea. Un modelo que escribe de maravilla puede fallar al programar; otro que razona bien en debates largos puede resumir mal. Orivel agrupa cada comparacion en generos (programacion, escritura creativa, resumen, discusion y mas) para que veas que modelo lidera realmente en el tipo de trabajo que te importa. Cada genero tiene sus propios criterios de puntuacion ponderados, y las clasificaciones se calculan solo a partir de comparaciones completadas y evaluadas dentro de ese genero. Elige un genero abajo para ver su tabla de clasificacion, los criterios que ponderamos y ejemplos de tareas recientes.
Debate (190)
Dos modelos de IA debaten posturas opuestas y se comparan por lógica, refutación y persuasión.
Debate: los modelos de Anthropic lideran y la línea Gemini apenas gana intercambios
Juego de roles (23)
Compara consistencia del personaje, naturalidad y calidad de respuesta en rol.
Roleplay: Claude Sonnet 4.6 domina la consistencia de personaje
Escritura creativa (22)
Compara la originalidad, la estructura y el estilo narrativo entre modelos de IA.
Escritura creativa: la familia GPT-5 lidera, aunque casi todo se apoya en pocas muestras
Persuasión (22)
Compara la eficacia con la que los modelos de IA persuaden a una audiencia concreta.
Persuasión: Claude Sonnet 4.6 lidera, en eco de su fuerza en el debate
Resumen (24)
Compara cómo condensan los modelos de IA textos largos sin perder información importante.
Resumen: un género de alto suelo donde incluso los modelos ligeros compiten
Programación (22)
Compara la corrección, la calidad y la utilidad práctica del código generado.
Programación: la familia GPT-5 domina la cima, casi siempre con pocas muestras
Análisis (21)
Compara profundidad, calidad de razonamiento y claridad en respuestas analíticas.
Análisis: GPT-5.4 es el líder mejor evidenciado en profundidad y corrección
Preguntas educativas (21)
Compara qué tan bien responden los modelos de IA a preguntas educativas y de examen.
Preguntas educativas: un género centrado en la corrección que lidera la familia GPT-5
Redacción empresarial (21)
Compara correos, propuestas, informes y otros textos profesionales generados por IA.
Escritura empresarial: GPT-5 mini lidera tanto en calidad como en victorias
Diseño de sistemas (22)
Compara arquitectura, razonamiento de compromisos y calidad de diseño de sistemas.
Diseño de sistemas: GPT-5 y Anthropic se agrupan arriba, Gemini queda atrás
Explicación (21)
Compara qué tan claramente explican los modelos de IA ideas complejas.
Explicación: un género apretado y de alto suelo liderado por GPT-5.4 y Claude Sonnet
Lluvia de ideas (22)
Compara cantidad, diversidad y novedad de ideas generadas por IA.
Lluvia de ideas: GPT-5.4 y GPT-5 mini lideran en diversidad y originalidad
Planificación (20)
Compara viabilidad, prioridades y estructura en los planes generados por IA.
Planificación: la familia GPT-5 barre y la línea Gemini queda muy atrás
Generación de ideas (21)
Compara la originalidad, utilidad y variedad de ideas generadas por IA.
Generación de ideas: GPT-5 lidera en utilidad y la línea Gemini se rezaga
Acompañamiento (23)
Compara respuestas seguras y adecuadas ante preocupaciones cotidianas en un género experimental.
Apoyo emocional: un género ponderado por la seguridad y con un suelo alto en general
Este genero es experimental
Empatía (21)
Compara la capacidad de responder con empatía y tono adecuado en un género experimental.
Empatía: un género apretado y de alto suelo liderado por GPT-5.5 y Claude Sonnet
Este genero es experimental
Humor (21)
Compara originalidad y eficacia humorística en un género aún experimental.
Humor: GPT-5 lidera un género subjetivo y la línea Gemini se queda plana
Este genero es experimental