Preguntas educativas

Compara qué tan bien responden los modelos de IA a preguntas educativas y de examen.

En este genero, las capacidades que mas se intentan medir son Correccion, Calidad del razonamiento, Integridad.

A diferencia de explanation, aqui pesa mas llegar a la respuesta correcta en preguntas tipo examen que adaptar el estilo de ensenanza.

Una puntuacion alta aqui no garantiza creatividad, capacidad de persuadir ni fortaleza en tareas abiertas de planificacion.

Para que sirve un modelo fuerte en este genero

estudio, preguntas de examen y situaciones donde la exactitud de la respuesta va primero.

Lo que este genero por si solo no alcanza a mostrar

si el modelo es mejor para explicaciones largas, lluvia de ideas o escritura profesional.

Ver el ranking general de IA Ver la lista de modelos de IA

Analisis de datos

Preguntas educativas: un género centrado en la corrección que lidera la familia GPT-5

32 respuestas evaluadas Preguntas educativas Actualizado 2026/6/7

GPT-5.5

OpenAI

Puntuacion media

100%

Tasa de victoria

1 veces 1.o 1 muestras

GPT-5 mini

OpenAI

Puntuacion media

100%

Tasa de victoria

5 veces 1.o 5 muestras

Claude Sonnet 4.6

Anthropic

Puntuacion media

75%

Tasa de victoria

3 veces 1.o 4 muestras

Puntuacion media por modelo

1 GPT-5.5

9.14

2 GPT-5 mini

9.01

3 Claude Sonnet 4.6

9.29

4 GPT-5.4

8.99

5 Claude Haiku 4.5

7.78

6 Gemini 2.5 Flash

6.77

7 Gemini 2.5 Flash-Lite

7.93

8 Gemini 2.5 Pro

8.41

9 Claude Opus 4.8

8.31

Como ponderamos

Correccion 45% Calidad del razonamiento 20% Integridad 15% Claridad 10% Seguimiento de instrucciones 10%

Sobre 32 respuestas puntuadas, este es el género más estricto en precisión factual: la Corrección por sí sola pesa 45, más que en cualquier otro género. GPT-5.5 (9,14) y GPT-5 mini (9,01) ocupan los dos primeros puestos, y GPT-5 mini destaca en evidencia: 5 muestras, 5 primeros puestos y un 100 % de victorias. Claude Sonnet 4.6 logra en realidad la media más alta del campo (9,29) pero queda en el puesto 3 con un 75 % de victorias.

La media y el orden divergen más de lo habitual aquí. Gemini 2.5 Pro promedia un sólido 8,41 pero queda 8.º porque no ganó ninguno de sus 4 enfrentamientos, y Claude Opus 4.8 (8,31, una muestra) cierra la tabla por la misma razón. Si te importa la calidad bruta de la respuesta más que el enfrentamiento directo, varios modelos de la zona media están más cerca de los líderes de lo que sugiere su puesto.

El punto débil más claro son las gamas ligeras de Gemini y Claude en las preguntas difíciles: Claude Haiku 4.5 (7,78) y Gemini 2.5 Flash (6,77) quedan muy por debajo de los líderes de 9 puntos. Como la Corrección domina la rúbrica, esas brechas reflejan errores factuales en prompts difíciles, justo donde un benchmark de conocimiento debe separar modelos.

La mayoría de modelos se apoyan en 1 a 6 muestras, así que el orden fino es provisional y son probables las oscilaciones de muestra pequeña, sobre todo en las entradas de una sola muestra en lo más alto y lo más bajo. La diferencia de 2,5 puntos es real, pero siguen siendo medidas dependientes de las condiciones, no un ranking general de conocimiento.

En resumen

Para preguntas factuales, GPT-5 mini es la elección más defendible (5 muestras, 100 % de victorias, a coste de gama ligera), mientras que Claude Sonnet 4.6 tiene la media más alta si ponderas la corrección bruta por encima de las victorias directas. Las gamas ligeras de Gemini son las más débiles aquí.

Este analisis se basa en las puntuaciones de benchmark medidas por Orivel para este genero y se actualiza periodicamente. Las puntuaciones son medidas que dependen de las condiciones, no una verdad absoluta.

Ranking de modelos fuertes en este genero

Este ranking se ordena por la puntuacion media solo dentro de este genero.

Ultima actualizacion: 04 Jun 2026 09:39

GPT-5.5 OpenAI

Tasa de victoria

100%

Puntuacion media La puntuacion media es la media global basada en las evaluaciones de Orivel en tareas estandar y discusiones. Cuanto mas alto es el valor, mas fuerte y constante es la valoracion del modelo en las comparativas del benchmark.

GPT-5 mini OpenAI

Tasa de victoria

100%

Claude Sonnet 4.6 Anthropic

Tasa de victoria

75%

GPT-5.4 OpenAI

Tasa de victoria

67%

Claude Haiku 4.5 Anthropic

Tasa de victoria

25%

Gemini 2.5 Flash Google

Tasa de victoria

25%

Gemini 2.5 Flash-Lite Google

Tasa de victoria

17%

Gemini 2.5 Pro Google

Tasa de victoria

Claude Opus 4.8 Anthropic

Tasa de victoria

	Modelos clasificados			La puntuacion media es la media global basada en las evaluaciones de Orivel en tareas estandar y discusiones. Cuanto mas alto es el valor, mas fuerte y constante es la valoracion del modelo en las comparativas del benchmark. ↕			Detalle
#1	GPT-5.5	OpenAI	100%	91	1	1	Ver la evaluacion y la puntuacion de GPT-5.5
#2	GPT-5 mini	OpenAI	100%	90	5	5	Ver la evaluacion y la puntuacion de GPT-5 mini
#3	Claude Sonnet 4.6	Anthropic	75%	93	3	4	Ver la evaluacion y la puntuacion de Claude Sonnet 4.6
#4	GPT-5.4	OpenAI	67%	90	2	3	Ver la evaluacion y la puntuacion de GPT-5.4
#5	Claude Haiku 4.5	Anthropic	25%	78	1	4	Ver la evaluacion y la puntuacion de Claude Haiku 4.5
#6	Gemini 2.5 Flash	Google	25%	68	1	4	Ver la evaluacion y la puntuacion de Gemini 2.5 Flash
#7	Gemini 2.5 Flash-Lite	Google	17%	79	1	6	Ver la evaluacion y la puntuacion de Gemini 2.5 Flash-Lite
#8	Gemini 2.5 Pro	Google	0%	84	0	4	Ver la evaluacion y la puntuacion de Gemini 2.5 Pro
#9	Claude Opus 4.8 NUEVO	Anthropic	0%	83	0	1	Ver la evaluacion y la puntuacion de Claude Opus 4.8

Que se evalua en Preguntas educativas

Criterios y pesos usados para este ranking por genero.

Correccion

45.0%

Este criterio se incluye para comprobar Correccion en la respuesta. Tiene mas peso porque este aspecto cambia mucho el resultado global del genero.

Calidad del razonamiento

20.0%

Este criterio se incluye para comprobar Calidad del razonamiento en la respuesta. Tiene un peso importante porque afecta la calidad de forma visible, aunque no sea lo unico que importa.

Integridad

15.0%

Este criterio se incluye para comprobar Integridad en la respuesta. Tiene menos peso porque acompana el objetivo principal, pero no define por si solo este genero.

Claridad

10.0%

Este criterio se incluye para comprobar Claridad en la respuesta. Tiene menos peso porque acompana el objetivo principal, pero no define por si solo este genero.

Seguimiento de instrucciones

10.0%

Este criterio se incluye para comprobar Seguimiento de instrucciones en la respuesta. Tiene menos peso porque acompana el objetivo principal, pero no define por si solo este genero.

Tareas recientes

Preguntas educativas

Anthropic Claude Opus 4.8 VS OpenAI GPT-5 mini

Control hormonal del ciclo menstrual

Se diagnostica a una paciente con una condición genética rara que provoca la incapacidad completa de su glándula pituitaria para producir Hormona luteinizante (LH), mientras que la producción de Hormona estimulante del folículo (FSH) permanece normal. Explique los efectos fisiológicos en cascada que esta deficiencia específica tendría sobre el ciclo menstrual de la paciente. Su explicación debe detallar los cambios esperados en la fase folicular, la ovulación, la fase lútea y el revestimiento uterino a lo largo de un ciclo típico. Asuma que la paciente está en edad reproductiva y por lo demás sana.

131

04 Jun 2026 09:39

Preguntas educativas

OpenAI GPT-5.5 VS Google Gemini 2.5 Flash-Lite

Explica por qué el hielo flota: una difícil pregunta de examen de química

El agua sólida (hielo) es menos densa que el agua líquida cerca de 0 °C, lo cual es inusual en comparación con la mayoría de las sustancias cuyas fases sólidas son más densas que sus fases líquidas. Escribe una respuesta tipo ensayo de examen (aproximadamente 350–550 palabras) que trate TODOS los siguientes puntos: 1. Indica las densidades aproximadas del hielo a 0 °C y del agua líquida a 0 °C y a 4 °C, e identifica la temperatura a la que el agua líquida alcanza su densidad máxima. 2. Explica, a nivel molecular, por qué el hielo tiene una densidad menor que el agua líquida. Tu explicación debe hacer referencia a: enlaces de hidrógeno, la coordinación tetraédrica de las moléculas de agua en el hielo hexagonal (Ih) y la estructura de red abierta con cavidades vacías. 3. Explica por qué el agua líquida cerca de 0 °C es más densa que el hielo pero sigue siendo menos densa que el agua a 4 °C. Describe la competencia entre dos efectos cuando la temperatura aumenta de 0 °C a 4 °C: el colapso parcial de racimos residuales con enlaces de hidrógeno similares a los del hielo (que aumenta la densidad) y la expansión térmica normal (que disminuye la densidad). 4. Da al menos dos consecuencias ecológicas o geofísicas importantes de esta anomalía (por ejemplo, la estratificación de lagos en invierno, la supervivencia de la vida acuática o el comportamiento del hielo marino). 5. Compara brevemente el agua con otra molécula pequeña (p. ej., H2S, NH3 o CH4) para mostrar por qué los enlaces de hidrógeno específicamente —no sólo el tamaño molecular o la polaridad— son responsables de la anomalía. Sé preciso con la terminología (p. ej., "enlace de hidrógeno" frente a "enlace covalente", "densidad" frente a "volumen específico"). Cuando cites valores numéricos, exprésalos con las unidades apropiadas y cifras significativas razonables.

275

28 Apr 2026 09:37

Preguntas educativas

Anthropic Claude Opus 4.7 VS Google Gemini 2.5 Flash-Lite

Analizar por qué un producto no es un polinomio

Un estudiante afirma que, dado que f(x) = (x^2 - 1)/(x - 1) se simplifica a x + 1 para x ≠ 1, la función g(x) = ((x^2 - 1)/(x - 1)) · |x - 1| es un polinomio igual a (x + 1)|x - 1|. Evalúa esta afirmación. Responde todas las partes: 1. Simplifica g(x) tanto como sea posible para x ≠ 1. 2. Determina si g(x) puede extenderse a un polinomio en todos los números reales. Justifica tu conclusión. 3. Indica si g es diferenciable en x = 1, y muestra el cálculo clave que respalde tu respuesta. 4. Explica brevemente el error conceptual en el razonamiento del estudiante. Tu respuesta debe ser matemáticamente rigurosa pero comprensible para un estudiante avanzado de secundaria.

348

24 Apr 2026 09:37

Preguntas educativas

Anthropic Claude Haiku 4.5 VS OpenAI GPT-5 mini

Bucles de retroalimentación hormonal en el ciclo menstrual humano

Explique el control hormonal del ciclo menstrual humano, centrándose en las fases folicular y lútea. Su explicación debe detallar los roles de la Hormona liberadora de gonadotropina (GnRH), la Hormona luteinizante (LH), la Hormona foliculoestimulante (FSH), el estrógeno y la progesterona. Específicamente, describa los mecanismos de retroalimentación positiva y negativa que regulan el ciclo, incluido el evento que desencadena la ovulación.

302

06 Apr 2026 09:37

Preguntas educativas

Google Gemini 2.5 Pro VS OpenAI GPT-5.2

Explique el mecanismo y las consecuencias de la no disyunción cromosómica

En genética humana, la no disyunción es un error crítico en la división celular. Responda a la siguiente pregunta de varias partes de forma exhaustiva: 1. Defina la no disyunción y explique con precisión cómo difiere cuando ocurre durante la meiosis I frente a la meiosis II. Incluya una descripción de qué evento celular específico falla en cada caso. 2. Para una célula que experimenta meiosis normal de un solo par de cromosomas (2n = 2), diagramar en palabras el contenido cromosómico esperado de los cuatro gametos resultantes si la no disyunción ocurre en meiosis I, y por separado si ocurre en meiosis II. Indique la ploidía de cada gameto resultante. 3. Explique por qué la no disyunción materna en meiosis I es más común que la no disyunción en meiosis II para la mayoría de las trisomías humanas, haciendo referencia al papel del arresto dictiótico prolongado en los ovocitos. 4. La trisomía 21 (síndrome de Down), la trisomía 18 (síndrome de Edwards) y la trisomía 13 (síndrome de Patau) son las tres trisomías autosómicas compatibles con el nacimiento vivo. Explique por qué la trisomía de la mayoría de los otros autosomas es letal, invocando el concepto de desequilibrio de la dosis génica, y explique por qué la trisomía de cromosomas más pequeños y pobres en genes es comparativamente más viable. 5. Distinga entre trisomía completa, trisomía en mosaico y trisomía por translocación Robertsoniana usando la Trisomía 21 como ejemplo. Explique cómo surge cada una y cómo puede diferir su severidad fenotípica.

314

03 Apr 2026 09:39

Preguntas educativas

Anthropic Claude Sonnet 4.6 VS OpenAI GPT-5.2

Explicando la paradoja del demonio de Maxwell

Explique el experimento mental conocido como demonio de Maxwell. Detalle por qué parece violar la Segunda ley de la termodinámica. Finalmente, proporcione la resolución científica moderna de esta paradoja, asegurándose de explicar el papel de la entropía de la información y el principio de Landauer en su respuesta.

356

21 Mar 2026 09:32

Enlaces relacionados

Generos de Comparacion Ranking Tareas y debates Lista de Modelos