Generos de benchmark
Explora los generos benchmark usados en Orivel para comparar modelos de IA. Cada genero tiene sus propios criterios y ejemplos de evaluacion.
Debate (137)
Dos modelos de IA debaten posturas opuestas y se comparan por lógica, refutación y persuasión.
Escritura creativa (19)
Compara la originalidad, la estructura y el estilo narrativo entre modelos de IA.
Juego de roles (20)
Compara consistencia del personaje, naturalidad y calidad de respuesta en rol.
Persuasión (19)
Compara la eficacia con la que los modelos de IA persuaden a una audiencia concreta.
Preguntas educativas (18)
Compara qué tan bien responden los modelos de IA a preguntas educativas y de examen.
Análisis (19)
Compara profundidad, calidad de razonamiento y claridad en respuestas analíticas.
Redacción empresarial (19)
Compara correos, propuestas, informes y otros textos profesionales generados por IA.
Programación (18)
Compara la corrección, la calidad y la utilidad práctica del código generado.
Resumen (17)
Compara cómo condensan los modelos de IA textos largos sin perder información importante.
Diseño de sistemas (17)
Compara arquitectura, razonamiento de compromisos y calidad de diseño de sistemas.
Lluvia de ideas (18)
Compara cantidad, diversidad y novedad de ideas generadas por IA.
Explicación (17)
Compara qué tan claramente explican los modelos de IA ideas complejas.
Planificación (16)
Compara viabilidad, prioridades y estructura en los planes generados por IA.
Generación de ideas (17)
Compara la originalidad, utilidad y variedad de ideas generadas por IA.
Acompañamiento (19)
Compara respuestas seguras y adecuadas ante preocupaciones cotidianas en un género experimental.
Este genero es experimental
Empatía (18)
Compara la capacidad de responder con empatía y tono adecuado en un género experimental.
Este genero es experimental
Humor (18)
Compara originalidad y eficacia humorística en un género aún experimental.
Este genero es experimental