Borrar
Latxa, la inteligencia artificial vasca, supera al ChatGPT original

Latxa, la inteligencia artificial vasca, supera al ChatGPT original

Según las pruebas de rendimiento, es incluso superior en capacidad lingüística a la última y más potente versión de la herramienta de Open AI

Lunes, 29 de abril 2024, 14:11

El pasado 31 de enero se presentó Latxa, el primer gran modelo de lenguaje en euskera. Preguntado entonces Eneko Agirre, director de HiTZ, el Centro Vasco de Tecnología de la Lengua de la UPV/EHU, si era el primer paso hacia un ChatGPT en euskera, su respuesta fue que «hacia ello vamos». Apenas tres meses después, el programa ha superado la versión original de ChatGPT -ahora conocida como GPT 3.5- e incluso a la última versión en capacidad lingüística. «Cuando salió ChatGPT era inimaginable que se pudiera conseguir un modelo abierto en euskera que lo superara», destaca Agirre.

Los modelos grandes de lenguaje (LLM, por sus siglas en inglés) son sistemas de inteligencia artificial que gracias a técnicas de aprendizaje automático -básicamente herramientas matemáticas de gran complejidad- son capaces de comprender y generar lenguaje humano. Sobre ellos funcionan después Chat GPT o Gemini, que son la parte conversacional, el pregunta-respuesta con el usuario. Estos modelos se entrenan con miles de millones de datos; cuanta más información tengan, mejores resultados dan. Así ocurre con lenguas como el inglés o el castellano, con muchos millones de hablantes. Pero no con idiomas minoritarios como el euskera. El objetivo de Latxa es precisamente cerrar esa brecha.

4 millones de documentos

Su nueve versión incluye más de 4 millones de documentos y 1.200 millones de palabras, el doble que los corpus anteriores. Para medir su mejora, se sometió al sistema a varias pruebas de rendimiento. «Probamos los modelos Llama -de Meta (antes Facebook), así como GPT-3.5 Turbo (equivalente a ChatGPT lanzado en noviembre de 2022) y GPT-4 Turbo (el mejor modelo con OpenAI), y está claro que los mejores modelos de Latxa superan a Llama y GPT-3.5 Turbo en todos los casos de prueba. El mejor modelo también supera al GPT-4 Turbo en capacidad lingüística, la primera vez para un modelo abierto de idiomas con escasos recursos digitales, pero no en los otros bancos de pruebas. Por último, hay que destacar que a medida que Latxa va aumentando de tamaño, los resultados también son mejores», destaca Agirre.

«Es destacable obtener resultados tan buenos con un corpus tan pequeño. De hecho, esto nos permite realizar más mejoras a medida que investigamos nuevas tecnologías. Se trata de un resultado muy prometedor, no solo para el euskera sino también para otras lenguas con escasos recursos digitales», asegura Julen Etxaniz, autor principal de Latxa junto a Naiara Pérez y Oscar Sainz.

Por el momento, Latxaa está orientado al trabajo de los expertos, no para interactuar directamente con los usuarios. Esta es una opción en la que ya trabajan. «Estamos trabajando en modelos que sean capaces de seguir las instrucciones del usuario, pero aún no está claro si es posible construir modelos de diálogo en euskera que tengan una calidad similar al español o al inglés. Este es precisamente el propósito de nuestra investigación. Estamos realizando algunas investigaciones, entre ellas la búsqueda de técnicas que permitan transferir al euskera las habilidades dialogales que existen en otras lenguas», apunta Agirre.

Esta funcionalidad es exclusiva para suscriptores.

Reporta un error en esta noticia

* Campos obligatorios

elcorreo Latxa, la inteligencia artificial vasca, supera al ChatGPT original