

Secciones
Servicios
Destacamos
Edición
El pasado 31 de enero se presentó Latxa, el primer gran modelo de lenguaje en euskera. Preguntado entonces Eneko Agirre, director de HiTZ, el Centro Vasco de Tecnología de la Lengua de la UPV/EHU, si era el primer paso hacia un ChatGPT en euskera, su respuesta fue que «hacia ello vamos». Apenas tres meses después, el programa ha superado la versión original de ChatGPT -ahora conocida como GPT 3.5- e incluso a la última versión en capacidad lingüística. «Cuando salió ChatGPT era inimaginable que se pudiera conseguir un modelo abierto en euskera que lo superara», destaca Agirre.
Los modelos grandes de lenguaje (LLM, por sus siglas en inglés) son sistemas de inteligencia artificial que gracias a técnicas de aprendizaje automático -básicamente herramientas matemáticas de gran complejidad- son capaces de comprender y generar lenguaje humano. Sobre ellos funcionan después Chat GPT o Gemini, que son la parte conversacional, el pregunta-respuesta con el usuario. Estos modelos se entrenan con miles de millones de datos; cuanta más información tengan, mejores resultados dan. Así ocurre con lenguas como el inglés o el castellano, con muchos millones de hablantes. Pero no con idiomas minoritarios como el euskera. El objetivo de Latxa es precisamente cerrar esa brecha.
Su nueve versión incluye más de 4 millones de documentos y 1.200 millones de palabras, el doble que los corpus anteriores. Para medir su mejora, se sometió al sistema a varias pruebas de rendimiento. «Probamos los modelos Llama -de Meta (antes Facebook), así como GPT-3.5 Turbo (equivalente a ChatGPT lanzado en noviembre de 2022) y GPT-4 Turbo (el mejor modelo con OpenAI), y está claro que los mejores modelos de Latxa superan a Llama y GPT-3.5 Turbo en todos los casos de prueba. El mejor modelo también supera al GPT-4 Turbo en capacidad lingüística, la primera vez para un modelo abierto de idiomas con escasos recursos digitales, pero no en los otros bancos de pruebas. Por último, hay que destacar que a medida que Latxa va aumentando de tamaño, los resultados también son mejores», destaca Agirre.
«Es destacable obtener resultados tan buenos con un corpus tan pequeño. De hecho, esto nos permite realizar más mejoras a medida que investigamos nuevas tecnologías. Se trata de un resultado muy prometedor, no solo para el euskera sino también para otras lenguas con escasos recursos digitales», asegura Julen Etxaniz, autor principal de Latxa junto a Naiara Pérez y Oscar Sainz.
Por el momento, Latxaa está orientado al trabajo de los expertos, no para interactuar directamente con los usuarios. Esta es una opción en la que ya trabajan. «Estamos trabajando en modelos que sean capaces de seguir las instrucciones del usuario, pero aún no está claro si es posible construir modelos de diálogo en euskera que tengan una calidad similar al español o al inglés. Este es precisamente el propósito de nuestra investigación. Estamos realizando algunas investigaciones, entre ellas la búsqueda de técnicas que permitan transferir al euskera las habilidades dialogales que existen en otras lenguas», apunta Agirre.
Publicidad
Publicidad
Te puede interesar
Publicidad
Publicidad
Esta funcionalidad es exclusiva para suscriptores.
Reporta un error en esta noticia
Comentar es una ventaja exclusiva para suscriptores
¿Ya eres suscriptor?
Inicia sesiónNecesitas ser suscriptor para poder votar.