Claude Haiku 4.5
Explora puntuaciones benchmark, fortalezas por genero, debilidades y ejemplos recientes de Claude Haiku 4.5.
Resumen del Modelo
Proveedor
Anthropic
Clase
Rendimiento General
Ranking general
#6
Tasa de victoria global
Puntuacion media
Victorias
49
Muestras
95
Tasa de victoria por modelo
| Modelo | Victorias | Derrotas | Empates | Tasa de victoria | Detalle |
|---|---|---|---|---|---|
| Google Gemini 2.5 Flash | 14 | 2 | 0 |
88%
|
Ver comparacion y evaluacion de Claude Haiku 4.5 vs Gemini 2.5 Flash |
| Google Gemini 2.5 Flash-Lite | 13 | 3 | 0 |
81%
|
Ver comparacion y evaluacion de Claude Haiku 4.5 vs Gemini 2.5 Flash-Lite |
| OpenAI GPT-5 mini | 5 | 11 | 0 |
31%
|
Ver comparacion y evaluacion de Claude Haiku 4.5 vs GPT-5 mini |
| OpenAI GPT-5.2 | 4 | 12 | 0 |
25%
|
Ver comparacion y evaluacion de Claude Haiku 4.5 vs GPT-5.2 |
| OpenAI GPT-5.4 | 4 | 12 | 0 |
25%
|
Ver comparacion y evaluacion de Claude Haiku 4.5 vs GPT-5.4 |
| Google Gemini 2.5 Pro | 9 | 6 | 0 |
60%
|
Ver comparacion y evaluacion de Claude Haiku 4.5 vs Gemini 2.5 Pro |
Comparar por genero
Generos fuertes
Análisis
Puntuacion media
Genre Average
Tasa de victoria
Muestras
4
Ranking por genero
6 / 9
Victorias
2
Diseño de sistemas
Puntuacion media
Genre Average
Tasa de victoria
Muestras
4
Ranking por genero
6 / 9
Victorias
2
Generación de ideas
Puntuacion media
Genre Average
Tasa de victoria
Muestras
3
Ranking por genero
4 / 9
Victorias
2
Debate
Puntuacion media
Genre Average
Tasa de victoria
Muestras
30
Ranking por genero
4 / 9
Victorias
20
Acompañamiento
Puntuacion media
Genre Average
Tasa de victoria
Muestras
3
Ranking por genero
3 / 9
Victorias
3
Generos mas flojos
Programación
Puntuacion media
Genre Average
Tasa de victoria
Muestras
4
Ranking por genero
9 / 9
Victorias
0
Preguntas educativas
Puntuacion media
Genre Average
Tasa de victoria
Muestras
4
Ranking por genero
6 / 9
Victorias
1
Resumen
Puntuacion media
Genre Average
Tasa de victoria
Muestras
4
Ranking por genero
3 / 9
Victorias
3
Lluvia de ideas
Puntuacion media
Genre Average
Tasa de victoria
Muestras
5
Ranking por genero
6 / 9
Victorias
2
Persuasión
Puntuacion media
Genre Average
Tasa de victoria
Muestras
5
Ranking por genero
6 / 9
Victorias
2
Fortalezas por criterio de evaluacion
Puntuacion media por criterio (sobre 10)
Seguridad
Cantidad
Estructura
Empatia
Etica y seguridad
Adecuacion
Claridad
Adecuacion al publico
Calidad de la arquitectura
Fidelidad
Tono
Naturalidad
Tareas recientes
Programación
Herramienta de sincronización de archivos desde la línea de comandos
Escribe un script en Python para una herramienta de sincronización de archivos desde la línea de comandos. El script debe aceptar tres argumentos de línea de c...
Preguntas educativas
Bucles de retroalimentación hormonal en el ciclo menstrual humano
Explique el control hormonal del ciclo menstrual humano, centrándose en las fases folicular y lútea. Su explicación debe detallar los roles de la Hormona libera...
Escritura creativa
Guía de audio del museo para una invención imaginaria
Escriba un guion de audioguía de museo para una exposición ficticia titulada El Telar Meteorológico de Bolsillo, una invención que supuestamente permitía a la g...
Juego de roles
Recepcionista nocturno del hotel gestiona una sobreventa a última hora de la noche
Eres el recepcionista nocturno en un hotel de gama media cerca de un aeropuerto. Mantente en personaje y escribe únicamente lo que le dirías al huésped. Situac...
Juego de roles
Juego de rol de experto en dinosaurios: Fomentando a un joven paleontólogo
Eres el Dr. Aris Thorne, conservador jefe de paleontología en el renombrado Grand Valley Museum of Natural History. Eres conocido por tu profundo conocimiento y...
Juego de roles
Interpretar el papel de un agente veterano de soporte para videojuegos
Eres 'Alex', un agente de soporte al cliente veterano y paciente para el juego en línea ficticio 'Aetherium Chronicles'. Has visto todo tipo de quejas de jugado...
Redacción empresarial
Memorando interno proponiendo un piloto de semanas laborales de cuatro días
Eres líder de equipo en una empresa de software de 120 personas. Los resultados de la encuesta a empleados muestran un aumento del agotamiento y dificultad para...
Planificación
Plan de lanzamiento de un food truck
Eres un emprendedor en ciernes con una gran idea para un food truck gourmet de sándwiches de queso a la parrilla. Tienes experiencia culinaria pero conocimiento...
Debates recientes
Debates
¿Deben las democracias limitar el gasto de campaña para reducir la desigualdad política?
En las elecciones democráticas, los donantes adinerados, las corporaciones y los grupos bien financiados pueden ejercer mucha más influencia que los ciudadanos comunes a través del gasto en campañas. Algunos sostienen que los límites estrictos de gasto son necesarios para proteger la igualdad política y la confianza pública, mientras que otros argumentan que los límites de gasto debilitan la libertad de expresión y afianzan a los incumbentes y a las instituciones establecidas.
Debates
Supervisión digital: ¿Es la monitorización de la productividad de los empleados una herram...
Muchas empresas están adoptando software que rastrea la actividad de los empleados, como pulsaciones de teclas, movimientos del ratón, sitios web visitados y tiempo dedicado a aplicaciones específicas. El debate se centra en si esta práctica es una forma legítima de garantizar la productividad y gestionar equipos remotos, o si constituye una invasión de la privacidad que erosiona la confianza y la moral.
Debates
La IA en el arte: ¿El próximo Renacimiento o el fin de la creatividad humana?
La IA generativa puede ahora producir imágenes, música y texto intrincados, provocando un intenso debate sobre su papel en el mundo creativo. La cuestión central es si la IA debe ser adoptada como una herramienta revolucionaria que potencia a los artistas humanos, o bien vista como una amenaza que devalúa la habilidad, la originalidad y la propia esencia de la creatividad humana.
Debates
¿Deberían los países adoptar la semana laboral de cuatro días como jornada estándar a tiem...
Una semana laboral estándar de cuatro días reduciría la jornada normal a tiempo completo a cuatro días sin reducir la remuneración total de los trabajadores. Sus partidarios argumentan que mejoraría el bienestar, la productividad y el equilibrio entre trabajo y vida personal, mientras que los críticos sostienen que podría aumentar los costos, reducir la flexibilidad en algunos sectores y crear compensaciones económicas no deseadas. ¿Deberían los gobiernos fomentar o exigir una transición hacia la semana laboral de cuatro días como estándar?
Debates
¿Deberían las escuelas prohibir los teléfonos inteligentes durante toda la jornada escolar...
Debate sobre si las escuelas primarias y secundarias deberían prohibir que los alumnos usen teléfonos inteligentes durante toda la jornada escolar, incluyendo el almuerzo y los recreos.
Debates
Ciudades sin coches: ¿Un sueño utópico o una necesidad práctica?
El debate se centra en si las grandes ciudades deberían implementar políticas para restringir significativamente o prohibir los automóviles privados en sus áreas centrales, priorizando en su lugar a los peatones, ciclistas y el transporte público. Esto implica sopesar los posibles beneficios de una reducción de la contaminación, un aumento de los espacios públicos y una mejora de la seguridad frente a los posibles inconvenientes de una movilidad personal limitada, la disrupción económica y los desafíos de accesibilidad para ciertas poblaciones.
Debates
¿Deberían los gobiernos exigir un etiquetado claro del contenido generado por IA en línea?
Debate sobre si los gobiernos deberían exigir que el texto, las imágenes, el audio y el vídeo generados por IA y compartidos en las principales plataformas en línea lleven etiquetas estandarizadas que los identifiquen como generados por máquinas o sustancialmente alterados por máquinas.
Debates
¿Deben las democracias prohibir los deepfakes políticos durante las campañas electorales?
En las elecciones democráticas, ¿deberían los gobiernos prohibir la creación y distribución de audio o video generados por IA que representen de manera convincente a candidatos reales diciendo o haciendo cosas que en realidad no dijeron o hicieron?