174 estudiantes rinden un examen académico frente a la IA

La Universidad de Pekín llevó a cabo un experimento académico poco común: 174 estudiantes de segundo año de Química e Ingeniería Molecular rindieron un examen de dificultad extrema mientras varios modelos líderes de inteligencia artificial resolvían exactamente la misma prueba en paralelo.

El objetivo no fue demostrar espectáculo ni competir por titulares, sino medir con rigor científico hasta dónde llega hoy el razonamiento químico profundo de la IA frente a estudiantes humanos entrenados. El experimento fue difundido por People’s Daily y desarrollado conjuntamente por facultades de química, informática y centros de computación de la universidad.

Un examen diseñado para evitar la memorización

La prueba se basó en un nuevo benchmark académico llamado SUPERChem, creado específicamente para evitar preguntas memorizables o fácilmente buscables. El examen incluyó 500 preguntas inéditas, muchas de ellas nunca antes vistas ni por humanos ni por modelos de IA, con un fuerte énfasis en diagramas, estructuras moleculares y razonamiento espacial en dos y tres dimensiones.

Resultados: humanos aún por delante

Los estudiantes obtuvieron una precisión promedio del 40,3 %, lo que ya refleja un nivel de dificultad excepcional. Los modelos de IA más avanzados lograron resultados comparables a estudiantes universitarios de nivel bajo, pero ninguno superó claramente a los humanos. El resultado central del experimento es claro: en razonamiento químico profundo, los humanos todavía mantienen ventaja.

Dónde falla la inteligencia artificial

El equipo evaluador no solo midió respuestas correctas, sino también la coherencia del razonamiento. La IA mostró debilidades claras en la predicción de estructuras de productos, identificación de mecanismos de reacción y análisis de relaciones estructura–propiedad. Incluso cuando acertaba, el camino lógico solía ser inconsistente, lo que llevó a introducir una nueva métrica: fidelidad del razonamiento.

El problema de combinar texto y gráficos

Uno de los hallazgos más relevantes fue que la precisión de varios modelos cayó cuando se incorporaron imágenes. En química, los diagramas contienen información crítica que no siempre puede traducirse a texto, y la IA mostró dificultades para integrar visión y lógica de forma coherente.

Por qué este experimento es importante

SUPERChem llena un vacío en la evaluación de la inteligencia artificial científica. Los benchmarks tradicionales suelen sobrestimar las capacidades de la IA, mientras que este experimento demuestra que saber mucho no es lo mismo que comprender procesos físicos complejos. La brecha entre un chatbot avanzado y un verdadero asistente científico sigue siendo significativa.

Qué viene después

El proyecto fue publicado como conjunto de datos abierto para la comunidad internacional. Sus creadores esperan que se convierta en un estándar global para evaluar razonamiento científico multimodal y ayude a orientar el desarrollo de modelos de IA más especializados y realistas.

ELEMENTO CULTURAL

En el debate académico chino aparece con frecuencia la idea de que “entender la ciencia no es responder bien, sino razonar bien”. Este experimento refleja esa filosofía: la evaluación se centra en el proceso mental, no solo en el resultado final.

Análisis de Hanyu Online basado en publicaciones académicas y prensa china.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *