Educación

La UPV participa en crear una metodología que predice si los sistemas de ia tendrán éxito en una tarea no ejecutada

  • Equipo de la Universitat Politècnica de València.
Suscríbe al canal de whatsapp

Suscríbete al canal de Whatsapp

Siempre al día de las últimas noticias

Suscríbe nuestro newsletter

Suscríbete nuestro newsletter

Siempre al día de las últimas noticias

VALÈNCIA (EP).Un equipo de la Universitat Politècnica de València perteneciente al Instituto Universitario Valenciano de Investigación en Inteligencia Artificial (VRAIN) y a ValgrAI participa en el desarrollo de una metodología que predice si los sistemas de IA tendrán éxito o no en nuevas tareas específicas que todavía no han ejecutado.

Además, esta metodología, ADeLe, identifica exactamente hasta dónde llega el nivel de capacidad de razonamiento de cualquier modelo dado.

Las conclusiones de este estudio, que se publican hoy en la revista 'Nature', suponen un gran avance ya que las actuales metodologías solo indican cómo se comporta un modelo de IA en una prueba específica.

En cambio, ADeLe, con una evaluación "más cognitiva", explica y predice el comportamiento de los modelos a priori lo que permite "anticipar errores antes de que las industrias lancen nuevos modelos de IA" y por tanto, "se puede anticipar dónde falla antes de descubrirlo sobre la marcha".

Al respecto, el investigador de VRAIN de la UPV, Fernando Martínez-Plumed, ha explicado que con esta evaluación, más cognitiva "por primera vez, podemos anticipar, con cerca de un 90% de acierto, si un modelo de IA resolverá o no una tarea nueva, antes de desplegarlo". Para la industria, "esto significa detectar fallos a tiempo y evitar los altos costes de lanzar un sistema que no rinde como se esperaba".

Dado el actual ritmo y penetración de la IA, se trata de un avance de "gran relevancia" para investigadores, empresas, evaluadores externos, responsables políticos y reguladores que exigían una evaluación "rigurosa, escalable y estandarizada de las capacidades de la IA, incluso a la hora de realizar auditorías de seguridad".

Tal y como se indica en el artículo "hasta la fecha, la evaluación de la IA no satisface las exigencias de un ecosistema de IA en rápida evolución y cada vez más diverso. Comprender y anticipar el rendimiento se ha convertido en un requisito urgente para una amplia gama de sistemas de IA de propósito general", y añade que esta nueva metodología es exhaustiva y escalable de tal manera que aborda los inconvenientes de la evaluación convencional de la IA incluida la falta de capacidad explicativa y predictiva.

El estudio ha sido elaborado conjuntamente por el catedrático de informática e investigador de VRAIN de la UPV y miembro de la UMI de ValgrAI, José Hernández-Orallo, el profesor titular de Informática e investigador de VRAIN de la UPV, Fernando Martínez-Plumed, los doctorandos Yael Moros-Daval y Kexin Jiang-Chen, investigadora de VRAIN de la UPV, y Behzad Mehrbakhsh, doctorando de ValgrAI y de VRAIN de la UPV.

El nuevo sistema organiza el amplio abanico de tareas cognitivas a las que se enfrentan los grandes modelos de lenguaje de la IA en tan solo 18 dimensiones clave, entre las que se incluyen "la atención, el razonamiento y el grado de singularidad de la tarea". Y después, puntúa cualquier tarea del mundo real en cada una de estas dimensiones, en función de cuánto exige de esa capacidad específica. Al hacer que un modelo realice un número suficiente de estas tareas puntuadas, según su nivel de exigencia, se obtiene el perfil de capacidades.

Conclusiones clave

Mediante el uso de ADeLe, el equipo de investigación evaluó numerosas pruebas de rendimiento de IA y descubrió cuatro conclusiones clave. En primer lugar que las pruebas de rendimiento actuales de IA no miden lo que pretenden medir, ya que a menudo evalúan otras capacidades para las que no fueron diseñadas.

En segundo lugar que los modelos de IA muestran patrones distintos de fortalezas y debilidades en diferentes capacidades, según su tamaño, metodología de razonamiento y familia de modelos. En tercer lugar que el nuevo sistema ADeLe ofrece explicaciones y predicciones precisas sobre si los sistemas de IA tendrán éxito o fracasarán en una nueva tarea específica.

Y por último, destacan que las investigaciones contradictorias sobre si los modelos de IA son capaces de razonar tienen parcialmente razón, pero se refieren a niveles de dificultad diferentes. Algunas pruebas de rendimiento de IA actuales solo requieren una resolución básica de problemas, mientras que otras necesitan lógica avanzada, abstracción y un profundo conocimiento del dominio.

Los autores afirman en un resumen de los hallazgos que "la imagen más clara que ofrece ADeLe es la siguiente: los modelos de razonamiento (como OpenAÍs o1 de OpenAI) muestran mejoras reales y cuantificables con respecto a los modelos estándar, no solo en lógica y matemáticas, sino también en áreas sorprendentes como comprender lo que un usuario está preguntando realmente".

El estudio, titulado "General Scales Unlock AI Evaluation with Explanatory and Predictive Power", ha sido elaborado conjuntamente por investigadores de la Universidad de Cambridge, la Universitat Politècnica de València, Princeton, Carnegie Mellon y William & Mary, junto con profesionales de Microsoft Research y el Centro de Automática y Robótica (CAR, CSIC-UPM), entre otras instituciones.

Recibe toda la actualidad
Valencia Plaza

Recibe toda la actualidad de Valencia Plaza en tu correo

La UPV desarrolla un modelo pionero para gestionar el turismo en el entorno urbano de la Catedral de València