Análisis de las capacidades de la inteligencia artificial en el ámbito de Teoría de Máquinas y Mecanismos para diferentes niveles de la taxonomía de Bloom
Contenido principal del artículo
Resumen
En los últimos años se han desarrollado considerablemente diversas herramientas de inteligencia artificial (IA) basadas en modelos de procesamiento de lenguaje natural, que son capaces de contestar preguntas y resolver problemas diversos. En el ámbito educativo, falta todavía explorar en detalle las posibilidades que estas herramientas ofrecen como complementos a la labor docente realizada por los profesores y su fiabilidad. En este trabajo se analizan y comparan las capacidades de dos herramientas representativas de este tipo (ChatGPT y Gemini) para resolver cuestiones y problemas en el ámbito de la Teoría de Máquinas y Mecanismos (TMM).
Para ello, se generó una batería de cuestiones relacionadas con TMM, clasificadas de acuerdo a la taxonomía de Bloom revisada. El conjunto estaba formado por un total de 48 cuestiones, ocho por cada una de las seis dimensiones de la taxonomía (D1-recordar, D2-comprender, D3-aplicar, D4-analizar, D5-evaluar y D6-crear). Las cuestiones fueron elaboradas por los autores, profesores del área de ingeniería mecánica de la Universitat Jaume I, todos con experiencia en la docencia en TMM, tratando de conseguir un conjunto representativo de los diferentes contenidos incluidos habitualmente en la asignatura. Cada cuestión fue planteada exactamente igual a cada una de las dos IAs por uno de los participantes. Las respuestas anonimizadas de cada una de las IAs fueron luego corregidas por otros dos participantes en este trabajo, según un reparto en el que cada profesor realizó el mismo número de interacciones con las IAs y correcciones en cada nivel de la taxonomía. La corrección se realizó utilizando una rúbrica que tenía en cuenta tres aspectos: A1) la calidad técnica de la respuesta, A2) la precisión y completitud de la misma y A3) su redacción y ortografía, siguiendo una escala de valoración de Likert de 1 a 5 (1-muy mal, 2-necesita mejorar, 3-satisfactoria, 4-buena, 5-excelente). Se analizó la valoración conseguida por cada IA en los diferentes aspectos valorados y en las diferentes dimensiones de la taxonomía de Bloom.
Los resultados indican diferencias significativas entre las dos IAs en cuanto a valoración promedio en calidad técnica de la respuesta, situándose ambas entre buena y satisfactoria (ChatGPT 3.8, Gemini 3.3, p<0.05), y en cuanto a precisión y completitud (ChatGPT 4.0, Gemini 3.4, p<0.05). En el aspecto de calidad de la redacción y ortografía no se observaron diferencias significativas entre ambas IAs (ChatGPT 4.6, Gemini 4.5, p>0.05). Se observó que los resultados en los aspectos A1 y A2 dependen significativamente de la dimensión en la taxonomía de Bloom de la respuesta, siendo mejores los resultados en la dimensión D1 (recordar) que en la D6 (crear), con menores diferencias entre las categorías intermedias (para A1: D1: 4.1, D2: 3.5, D3: 3.4, D4: 3.7, D5: 3.7, D6: 2.8, para A2: D1: 4.0, D2: 3.7, D3: 3.8, D4: 3.8, D5: 4.0, D6: 2.9). Se observaron diferencias significativas entre correctores al evaluar los aspectos A2 y A3, pero no para el A1.
Detalles del artículo

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-CompartirIgual 4.0.
CC BY-NC-SA 4.0)
El lector puede compartir, copiar y redistribuir el material en cualquier medio o formato, siempre y cuando cumpla con las siguientes condiciones:
-
Atribución (BY): Debe dar crédito adecuado al autor original, proporcionando un enlace a la licencia y señalando si se han realizado cambios.
-
No Comercial (NC): No puede utilizar el material con fines comerciales. Esto significa que no puede venderlo ni obtener ganancias directas de su uso.
-
Compartir Igual (SA): Si adapta, transforma o construye sobre el material, debe distribuir sus contribuciones bajo la misma licencia que el original.
Recuerda que esta licencia no afecta los derechos legales del autor, como el derecho moral o las excepciones de uso justo.
Citas
OpenAI. Introducing ChatGPT, https://openai.com/index/chatgpt/, (Consulta 2-ene-2025)
Number of ChatGPT users, Exploding Topics, https://explodingtopics.com/blog/chatgpt-users, (Consulta 2-ene-2025)
Li, P., Lee, H., Cheng, Y., Starčič, A. I., & Huang, Y. “Solving the self-regulated learning problem: Exploring the performance of ChatGPT in mathematics”. In Y. M. Huang, & T. Rocha (Eds.), Innovative Technologies and Learning. ICITL 2023. Lecture Notes in Computer Science, vol 14099 (pp. 77- 86). Springer. http://dx.doi.org/10.1007/978-3-031-40113-8_8, (2023)
Sánchez-Ruiz, L. M., Moll-López, S., Nuñez-Pérez, A., Moraño-Fernández, J. A., & Vega-Fleitas, E. “ChatGPT challenges blended learning methodologies in engineering education: A case study in mathematics”. Applied Sciences, 13(10), Article 6039. https://doi.org/10.3390/app13106039, (2023)
Almarashdi, H.S., Jarrah, A.M., Abu Khurma, O., & Gningue, S.M. Unveiling the potential: “A systematic review of ChatGPT in transforming mathematics teaching and learning”. Eurasia Journal of Mathematics, Science and Technology Education, https://doi.org/10.29333/ejmste/15739 (2024)
Vuletic, T., Ashcroft, A. “Exploring the usability of AI prompts for mechanical engineering design development”, 26th International Conference on Engineering and Product Design Education, Birmighan, Sept. (2024)
Frenkel, M.E.; Emara, H. “ChatGPT-3.5 and-4.0 and mechanical engineering: Examining performance on the FE mechanical engineering and undergraduate exams”. Comput. Appl. Eng. Educ. e22781. https://doi.org/10.1002/cae.22781 (2024)
Huang, B., & Lu, C. “Evaluating ChatGPT’s Engineering-Reasoning Capabilities and Constraints Through Examples from Mechanical-Engineering Education”, Paper presented at 2024 ASEE Annual Conference & Exposition, Portland, Oregon. 10.18260/1-2--47342 (2024)
Puig-Ortiz, J., Pàmies-Vilà, R., Jordi Nebot, L., “ChatGPT en el aula. Aplicación en Ingeniería Mecánica”, Actas del XXIV Congreso Nacional de Ingeniería Mecánica 1, Las Palmas (2023)
Vinay Pursnani, Yusuf Sermet, Musa Kurt, Ibrahim Demir, “Performance of ChatGPT on the US fundamentals of engineering exam: Comprehensive assessment of proficiency and potential implications for professional environmental engineering practice”, Computers and Education: Artificial Intelligence, Volume 5, 100183, https://doi.org/10.1016/j.caeai.2023.100183 (2023)
Gilson, A., Safranek, C.W., Huang, T., Socrates, V., Chi, L., Taylor, R.A., Chartash, D., 2023. “How Does ChatGPT Perform on the United States Medical Licensing Examination (USMLE)? The Implications of Large Language Models for Medical Education and Knowledge Assessment”. JMIR Medical Education 9, e45312. https://doi.org/10.2196/45312 (2023)
Jin, H.K., Lee, H.E. & Kim, E. “Performance of ChatGPT-3.5 and GPT-4 in national licensing examinations for medicine, pharmacy, dentistry, and nursing: a systematic review and meta-analysis”. BMC Med Educ 24, 1013. https://doi.org/10.1186/s12909-024-05944-8 (2024)
Anderson, L. W. & Krathwohl, D.R., et al. “A taxonomy for learning, teaching and assessing: A revision of Bloom’s taxonomy of educational objectives”. New York: Longman (2001)
Google, Gemini, (2-ene-2025), https://gemini.google.com/
Antropic, Claude, (2-ene-2025), https://claude.ai/new
Blanca, M. J., Alarcón, R., Arnau, J., Bono, R., and Bendayan, R. (2017). “Non-normaldata: is ANOVA still a valid option?” Psicothema 29, 552–557. https://doi.org/10.7334/psicothema2016.383 (2017)