Plaza Innovación

Un estudio de la UPV evalúa el rendimiento de modelos de IA en la resolución de problemas en catalán

Suscríbe al canal de whatsapp

Suscríbete al canal de Whatsapp

Siempre al día de las últimas noticias

Suscríbe nuestro newsletter

Suscríbete nuestro newsletter

Siempre al día de las últimas noticias

VALÈNCIA (EP). Un equipo de investigadores de la Universitat Politècnica de València (UPV), en colaboración con el Royal Institute of Technology sueco (KTH), ha evaluado el rendimiento de diversos modelos de inteligencia artificial (IA) --en concreto, Modelos de Lenguaje de Gran Escala (LLMs)-- en la resolución de problemas matemáticos en catalán.

El estudio pone en evidencia las dificultades de los modelos desarrollados en Europa para competir con los líderes en IA a nivel global, según ha indicado la institución académica en un comunicado.

En su trabajo, han analizado el rendimiento de Gemini-1.5-flash (Google), GPT-3.5 Turbo y GPT-4o-mini (OpenAI), DeepSeek R1 y ALIA, el modelo español que se encuentra en desarrollo bajo la iniciativa del Plan Nacional de Tecnologías del Lenguaje y NextGeneration EU.

El equipo de la UPV y el KTH han utilizado para su estudio un conjunto de problemas matemáticos extraídos de las pruebas de la Competición Cangur, una versión en catalán del concurso internacional de matemáticas Kangaroo en la que participan escolares de entre 12 y 17 años, reconocido por su capacidad para evaluar el razonamiento matemático en estudiantes de secundaria y bachillerato.

El investigador principal del estudio, J. Alberto Conejero, ha apuntado que en este caso "los problemas están escritos en catalán, lo que permite analizar el funcionamiento de estos modelos en idiomas diferentes al inglés, como suele ser habitual".

Asimismo, los investigadores evaluaron el rendimiento actual de ALIA, "un modelo de IA que se encuentra hoy en día en un punto intermedio de entrenamiento", ha detallado Conejero. El estudio muestra un rendimiento "considerablemente inferior" al de otros modelos: alrededor de un 20 por ciento de acierto en la mayoría de pruebas.

Además, concluye que el modelo "no logró generar explicaciones detalladas para sus respuestas, a diferencia de otros modelos como DeepSeek, que alcanzó hasta un 96% de precisión en la resolución de los problemas propuestos".

"Desafíos que enfrenta Europa"

"La evaluación demuestra que los modelos abiertos pueden ser tan potentes como los modelos de IA de código cerrado en tareas específicas de razonamiento. Sin embargo, el rendimiento actual de ALIA resalta los desafíos a los que enfrenta Europa en el desarrollo de IA competitiva", ha destacado el investigador.

Por su parte, el investigador de la UPV co-autor también del trabajo, Sergio Hoyas, ha señalado que "se están viendo anuncios de inversiones enormes, como cuando hace unos días Francia anunció que destinará más de 100.000 millones de euros en IA". "Sin embargo, a nivel nacional hay dificultades para poder acceder a financiación, como sucedió con la convocatoria de 2023 que quedó sin ni siquiera resolver", ha lamentado.

El estudio también sugiere que la inclusión de datos en catalán en el entrenamiento de ALIA "no proporciona por ahora mejoras significativas en la resolución de problemas matemáticos en esta lengua".

"Esto plantea interrogantes sobre la eficacia de los enfoques de entrenamiento multilingües en modelos de IA y su impacto real en la capacidad de razonamiento de los modelos", ha añadido el investigador del Royal Institute of Technology Ricardo Vinuesa.

A pesar de los "esfuerzos" por "fortalecer la infraestructura de IA en Europa", el trabajo de los investigadores de la UPV y el KTH señala que el Viejo Continente "tiene todavía por delante importantes desafíos para cerrar la brecha con los gigantes tecnológicos de Estados Unidos y China".

Los investigadores subrayan la "necesidad" de destilar el conocimiento de modelos de gran escala en versiones "más eficientes" y "especializadas" para aplicaciones concretas. La destilación es una técnica de entrenamiento en la que un modelo "más pequeño" y "eficiente" (como GPT-4o mini) se entrena para imitar el comportamiento y los conocimientos de un modelo "más grande" y "complejo" (como GPT-4o).

"Europa está avanzando en la regulación de la IA, pero si no impulsamos modelos competitivos con aplicaciones prácticas, corremos el riesgo de quedarnos rezagados en el desarrollo tecnológico", ha concluido Vinuesa.

Recibe toda la actualidad
Valencia Plaza

Recibe toda la actualidad de Valencia Plaza en tu correo

La tecnológica Principal33 se consolida en València con 50 personas y seguirá creciendo en 2025
La tecnológica IBM tendrá una sede en València: se instala en The Terminal Hub