Preguntas educativas
Compara qué tan bien responden los modelos de IA a preguntas educativas y de examen.
En este genero, las capacidades que mas se intentan medir son Correccion, Calidad del razonamiento, Integridad.
A diferencia de explanation, aqui pesa mas llegar a la respuesta correcta en preguntas tipo examen que adaptar el estilo de ensenanza.
Una puntuacion alta aqui no garantiza creatividad, capacidad de persuadir ni fortaleza en tareas abiertas de planificacion.
Para que sirve un modelo fuerte en este genero
estudio, preguntas de examen y situaciones donde la exactitud de la respuesta va primero.
Lo que este genero por si solo no alcanza a mostrar
si el modelo es mejor para explicaciones largas, lluvia de ideas o escritura profesional.
Preguntas educativas: un género centrado en la corrección que lidera la familia GPT-5
OpenAI
OpenAI
Anthropic
Puntuacion media por modelo
Como ponderamos
Sobre 32 respuestas puntuadas, este es el género más estricto en precisión factual: la Corrección por sí sola pesa 45, más que en cualquier otro género. GPT-5.5 (9,14) y GPT-5 mini (9,01) ocupan los dos primeros puestos, y GPT-5 mini destaca en evidencia: 5 muestras, 5 primeros puestos y un 100 % de victorias. Claude Sonnet 4.6 logra en realidad la media más alta del campo (9,29) pero queda en el puesto 3 con un 75 % de victorias.
La media y el orden divergen más de lo habitual aquí. Gemini 2.5 Pro promedia un sólido 8,41 pero queda 8.º porque no ganó ninguno de sus 4 enfrentamientos, y Claude Opus 4.8 (8,31, una muestra) cierra la tabla por la misma razón. Si te importa la calidad bruta de la respuesta más que el enfrentamiento directo, varios modelos de la zona media están más cerca de los líderes de lo que sugiere su puesto.
El punto débil más claro son las gamas ligeras de Gemini y Claude en las preguntas difíciles: Claude Haiku 4.5 (7,78) y Gemini 2.5 Flash (6,77) quedan muy por debajo de los líderes de 9 puntos. Como la Corrección domina la rúbrica, esas brechas reflejan errores factuales en prompts difíciles, justo donde un benchmark de conocimiento debe separar modelos.
La mayoría de modelos se apoyan en 1 a 6 muestras, así que el orden fino es provisional y son probables las oscilaciones de muestra pequeña, sobre todo en las entradas de una sola muestra en lo más alto y lo más bajo. La diferencia de 2,5 puntos es real, pero siguen siendo medidas dependientes de las condiciones, no un ranking general de conocimiento.
En resumen
Para preguntas factuales, GPT-5 mini es la elección más defendible (5 muestras, 100 % de victorias, a coste de gama ligera), mientras que Claude Sonnet 4.6 tiene la media más alta si ponderas la corrección bruta por encima de las victorias directas. Las gamas ligeras de Gemini son las más débiles aquí.
Este analisis se basa en las puntuaciones de benchmark medidas por Orivel para este genero y se actualiza periodicamente. Las puntuaciones son medidas que dependen de las condiciones, no una verdad absoluta.
Ranking de modelos fuertes en este genero
Este ranking se ordena por la puntuacion media solo dentro de este genero.
Ultima actualizacion: 04 Jun 2026 09:39
Tasa de victoria
Puntuacion media
Tasa de victoria
Puntuacion media
Tasa de victoria
Puntuacion media
Tasa de victoria
Puntuacion media
Tasa de victoria
Puntuacion media
Tasa de victoria
Puntuacion media
Tasa de victoria
Puntuacion media
Tasa de victoria
Puntuacion media
Tasa de victoria
Puntuacion media
| Modelos clasificados |
|
|
Detalle | ||||
|---|---|---|---|---|---|---|---|
| #1 | GPT-5.5 | OpenAI |
100%
|
91
|
1 | 1 | Ver la evaluacion y la puntuacion de GPT-5.5 |
| #2 | GPT-5 mini | OpenAI |
100%
|
90
|
5 | 5 | Ver la evaluacion y la puntuacion de GPT-5 mini |
| #3 | Claude Sonnet 4.6 | Anthropic |
75%
|
93
|
3 | 4 | Ver la evaluacion y la puntuacion de Claude Sonnet 4.6 |
| #4 | GPT-5.4 | OpenAI |
67%
|
90
|
2 | 3 | Ver la evaluacion y la puntuacion de GPT-5.4 |
| #5 | Claude Haiku 4.5 | Anthropic |
25%
|
78
|
1 | 4 | Ver la evaluacion y la puntuacion de Claude Haiku 4.5 |
| #6 | Gemini 2.5 Flash |
25%
|
68
|
1 | 4 | Ver la evaluacion y la puntuacion de Gemini 2.5 Flash | |
| #7 | Gemini 2.5 Flash-Lite |
17%
|
79
|
1 | 6 | Ver la evaluacion y la puntuacion de Gemini 2.5 Flash-Lite | |
| #8 | Gemini 2.5 Pro |
0%
|
84
|
0 | 4 | Ver la evaluacion y la puntuacion de Gemini 2.5 Pro | |
| #9 | Claude Opus 4.8 NUEVO | Anthropic |
0%
|
83
|
0 | 1 | Ver la evaluacion y la puntuacion de Claude Opus 4.8 |
Que se evalua en Preguntas educativas
Criterios y pesos usados para este ranking por genero.
Correccion
45.0%
Este criterio se incluye para comprobar Correccion en la respuesta. Tiene mas peso porque este aspecto cambia mucho el resultado global del genero.
Calidad del razonamiento
20.0%
Este criterio se incluye para comprobar Calidad del razonamiento en la respuesta. Tiene un peso importante porque afecta la calidad de forma visible, aunque no sea lo unico que importa.
Integridad
15.0%
Este criterio se incluye para comprobar Integridad en la respuesta. Tiene menos peso porque acompana el objetivo principal, pero no define por si solo este genero.
Claridad
10.0%
Este criterio se incluye para comprobar Claridad en la respuesta. Tiene menos peso porque acompana el objetivo principal, pero no define por si solo este genero.
Seguimiento de instrucciones
10.0%
Este criterio se incluye para comprobar Seguimiento de instrucciones en la respuesta. Tiene menos peso porque acompana el objetivo principal, pero no define por si solo este genero.
Tareas recientes
Preguntas educativas
Control hormonal del ciclo menstrual
Se diagnostica a una paciente con una condición genética rara que provoca la incapacidad completa de su glándula pituitaria para producir Hormona luteinizante (LH), mientras que la producción de Hormona estimulante del folículo (FSH) permanece normal. Explique los efectos fisiológicos en cascada que esta deficiencia específica tendría sobre el ciclo menstrual de la paciente. Su explicación debe detallar los cambios esperados en la fase folicular, la ovulación, la fase lútea y el revestimiento uterino a lo largo de un ciclo típico. Asuma que la paciente está en edad reproductiva y por lo demás sana.
Preguntas educativas
Explica por qué el hielo flota: una difícil pregunta de examen de química
El agua sólida (hielo) es menos densa que el agua líquida cerca de 0 °C, lo cual es inusual en comparación con la mayoría de las sustancias cuyas fases sólidas son más densas que sus fases líquidas. Escribe una respuesta tipo ensayo de examen (aproximadamente 350–550 palabras) que trate TODOS los siguientes puntos: 1. Indica las densidades aproximadas del hielo a 0 °C y del agua líquida a 0 °C y a 4 °C, e identifica la temperatura a la que el agua líquida alcanza su densidad máxima. 2. Explica, a nivel molecular, por qué el hielo tiene una densidad menor que el agua líquida. Tu explicación debe hacer referencia a: enlaces de hidrógeno, la coordinación tetraédrica de las moléculas de agua en el hielo hexagonal (Ih) y la estructura de red abierta con cavidades vacías. 3. Explica por qué el agua líquida cerca de 0 °C es más densa que el hielo pero sigue siendo menos densa que el agua a 4 °C. Describe la competencia entre dos efectos cuando la temperatura aumenta de 0 °C a 4 °C: el colapso parcial de racimos residuales con enlaces de hidrógeno similares a los del hielo (que aumenta la densidad) y la expansión térmica normal (que disminuye la densidad). 4. Da al menos dos consecuencias ecológicas o geofísicas importantes de esta anomalía (por ejemplo, la estratificación de lagos en invierno, la supervivencia de la vida acuática o el comportamiento del hielo marino). 5. Compara brevemente el agua con otra molécula pequeña (p. ej., H2S, NH3 o CH4) para mostrar por qué los enlaces de hidrógeno específicamente —no sólo el tamaño molecular o la polaridad— son responsables de la anomalía. Sé preciso con la terminología (p. ej., "enlace de hidrógeno" frente a "enlace covalente", "densidad" frente a "volumen específico"). Cuando cites valores numéricos, exprésalos con las unidades apropiadas y cifras significativas razonables.
Preguntas educativas
Analizar por qué un producto no es un polinomio
Un estudiante afirma que, dado que f(x) = (x^2 - 1)/(x - 1) se simplifica a x + 1 para x ≠ 1, la función g(x) = ((x^2 - 1)/(x - 1)) · |x - 1| es un polinomio igual a (x + 1)|x - 1|. Evalúa esta afirmación. Responde todas las partes: 1. Simplifica g(x) tanto como sea posible para x ≠ 1. 2. Determina si g(x) puede extenderse a un polinomio en todos los números reales. Justifica tu conclusión. 3. Indica si g es diferenciable en x = 1, y muestra el cálculo clave que respalde tu respuesta. 4. Explica brevemente el error conceptual en el razonamiento del estudiante. Tu respuesta debe ser matemáticamente rigurosa pero comprensible para un estudiante avanzado de secundaria.
Preguntas educativas
Bucles de retroalimentación hormonal en el ciclo menstrual humano
Explique el control hormonal del ciclo menstrual humano, centrándose en las fases folicular y lútea. Su explicación debe detallar los roles de la Hormona liberadora de gonadotropina (GnRH), la Hormona luteinizante (LH), la Hormona foliculoestimulante (FSH), el estrógeno y la progesterona. Específicamente, describa los mecanismos de retroalimentación positiva y negativa que regulan el ciclo, incluido el evento que desencadena la ovulación.
Preguntas educativas
Explique el mecanismo y las consecuencias de la no disyunción cromosómica
En genética humana, la no disyunción es un error crítico en la división celular. Responda a la siguiente pregunta de varias partes de forma exhaustiva: 1. Defina la no disyunción y explique con precisión cómo difiere cuando ocurre durante la meiosis I frente a la meiosis II. Incluya una descripción de qué evento celular específico falla en cada caso. 2. Para una célula que experimenta meiosis normal de un solo par de cromosomas (2n = 2), diagramar en palabras el contenido cromosómico esperado de los cuatro gametos resultantes si la no disyunción ocurre en meiosis I, y por separado si ocurre en meiosis II. Indique la ploidía de cada gameto resultante. 3. Explique por qué la no disyunción materna en meiosis I es más común que la no disyunción en meiosis II para la mayoría de las trisomías humanas, haciendo referencia al papel del arresto dictiótico prolongado en los ovocitos. 4. La trisomía 21 (síndrome de Down), la trisomía 18 (síndrome de Edwards) y la trisomía 13 (síndrome de Patau) son las tres trisomías autosómicas compatibles con el nacimiento vivo. Explique por qué la trisomía de la mayoría de los otros autosomas es letal, invocando el concepto de desequilibrio de la dosis génica, y explique por qué la trisomía de cromosomas más pequeños y pobres en genes es comparativamente más viable. 5. Distinga entre trisomía completa, trisomía en mosaico y trisomía por translocación Robertsoniana usando la Trisomía 21 como ejemplo. Explique cómo surge cada una y cómo puede diferir su severidad fenotípica.
Preguntas educativas
Explicando la paradoja del demonio de Maxwell
Explique el experimento mental conocido como demonio de Maxwell. Detalle por qué parece violar la Segunda ley de la termodinámica. Finalmente, proporcione la resolución científica moderna de esta paradoja, asegurándose de explicar el papel de la entropía de la información y el principio de Landauer en su respuesta.