El papel de la tecnología de la información y la comunicación en la normalización de la lengua vasca

Dificultades para el procesamiento automático del euskera

El euskera es un idioma altamente aglutinante, y esta característica dificulta mucho su procesamiento automático. De hecho, es necesario que tales procesos reconozcan la estructura de la lengua para que puedan dar buenos resultados.

Supongamos que queremos hacer una búsqueda de la palabra euskara (lengua vasca) en un conjunto de textos. En el artículo que se muestra en la figura esta palabra aparece cuatro veces. Sin embargo, con un sistema informático habitual que puede ser de utilidad en muchos idiomas no sirve en nuestro caso. La razón es que todas las veces que aparece la palabra en este artículo se encuentra declinada, pero el sistema no sabe cuales son las terminaciones de las formas declinadas en euskera.

Ahora supongamos que en el mismo artículo hay una palabra que no conocemos y la queremos buscar en un diccionario automatizado. Esta palabra podría ser egokituta (adaptado). Pero como tal, no aparece en ningún diccionario normal, sino únicamente egokitu (adaptar). Una vez más, para un procesamiento automático hace falta tener la información de cuál es el lema (forma básica) de la palabra en cuestión.

Euskararen zailtasunak prozesatze automatikorako

Figura 1

Por lo tanto, a diferencia de otros muchos idiomas, en el caso del euskera es prácticamente imprescindible el uso de la tecnología lingüística para obtener resultados adecuados en los procesos automáticos.

Un corpus pequeño el del euskera

Un corpus es un conjunto de textos, que suele estar en formato electrónico. Según Beñat Oihartzabal, jefe de la sección de investigación de Euskaltzaindia (la Real Academia de la Lengua Vasca), "el corpus es una colección de datos lingüísticos que se suele utilizar en una lengua para describirla y analizarla."

Para el desarrollo de muchos sistemas es imprescindible disponer de un corpus grande de ejemplos. Para el uso de la tecnología estadística, para la adecuación de sistemas y para otros muchos usos, los corpus son de gran valor para mejorar el rendimiento de procesos automáticos. En el caso del euskera carecemos de conjuntos documentales adecuados en formato digital para muchos campos.

Lengua no normalizada

Igual que en otras muchas áreas, también para las nuevas tecnologías se derivan complicaciones de la falta de una normalización lingüística.

Falta de parentesco

Como es sabido, la lengua vasca carece de parientes conocidos. Por lo tanto, no existe la posibilidad de aprovechar recursos o logros realizados para lenguas emparentadas. Las diferencias entre el euskera y sus lenguas vecinas, la francesa y la española, son demasiado grandes para permitir el uso, tal cual, de lo que se haya desarrollado en éstas. De hecho, son de mucha más utilidad para nosotros los trabajos que se han hecho para el húngaro, por ejemplo, que los pertinentes a lenguas geográficamente más cercanas.

Es muy importante la serie de trabajos hechos en los últimos años para superar tales dificultades en la Universidad del País Vasco, y concretamente en el equipo IXA (http://ixa.si.ehu.es/Ixa).

¿Qué hay y qué se puede hacer?

Algunas de las herramientas y aplicaciones mencionadas en este artículo ya están desarrolladas y puestas a la disposición del público, pudiéndose descargar de los siguientes sitios del Gobierno Vasco y de la Universidad Vasca de Verano en Internet:

La página de software del Gobierno Vasco (http://www.euskara.euskadi.net/euskara_soft)
El catálogo de software en lengua vasca de la Universidad Vasca de Verano (UEU) (http://softkat.ueu.org/)

¿Cómo nos pueden ayudar las nuevas tecnologías a escribir en euskera, trabajar en euskera, y vivir en euskera? Intentaremos contestar esas preguntas por medio de algunos ejemplos. Algunos de los ejemplos que se citarán aquí ya existen, otros son proyectos a la espera de financiación, y aún otros son realidades ya existentes en otros idiomas. Pero todos representan posibilidades para el euskera de gran interés y perfectamente posibles si todos nos esforzamos en lograrlos.

Unificación terminológica

Tenemos un banco terminológico público que puede ser consultado en Internet, llamado Euskalterm (www.euskara.euskadi.net/euskalterm). Este recoge la mayoría de los trabajos terminológicos que se hacen en Euskal Herria y se actualiza cada tres meses. Por otra parte, también tenemos el Diccionario Unificado (Hiztegi Batua) de Euskaltzaindia en Internet.
Para el trabajo personal, los correctores ortográficos son una gran ayuda a favor de la estandarización de la lengua. En el caso del vasco, el único corrector desarrollado hasta la fecha se llama XUXEN (http://www.euskara.euskadi.net/euskara_soft). El siguiente paso en este área será un corrector gramatical que funcione en Word; ya estamos trabajando en ello con la ayuda del Gobierno Vasco.

Xuxen zuzentzaile gramatikala

Figura 2

Las necesidades terminológicas de todas las entidades no pueden ser satisfechas por el diccionario de Euskaltzaindia y Euskalterm. Existe la opción de utilizar correctores centralizados en instituciones y empresas: herramientas gracias a las cuales se puede crear una base de datos de términos estandarizados para su uso en todo el ámbito de la empresa o institución. Las palabras y los términos nuevos serán supervisados por un técnico lingüista para asegurar la coherencia terminológica. Así, el corrector ortográfico propondrá las mismas formas de palabras a todo el personal de la entidad cada vez que alguna palabra se escriba incorrectamente. También se han desarrollado para el euskera unas herramientas que permiten la extracción automática de la terminología que se utiliza en una organización determinada, lo cual posibilita una rápida carga del léxico utilizado por el corrector ortográfico que contenga la terminología propia de esa organización. La siguiente figura muestra cómo el sistema podría ser empleado para corregir Dinamarka a Danimarka ("Dinamarca"):

zuzentzaile zentralizatuak

Figura 3

Sistemas para resolver dudas acerca de la lengua

Disponemos de más de un servicio gratuito en euskera que ofrecen al usuario la posibilidad de consultar sobre sus dudas acerca del uso más correcto. En ellos podemos leer las respuestas ya dadas a preguntas de otros usuarios, además de formular nuestras propias preguntas.

Euskaltzaindia

Figura 4

Euskaltzaindia ofrece el servicio JAGONET (http://www.euskaltzaindia.org/jagonet/). Se trata de un servicio de consulta o asesoría en apoyo del uso correcto del euskera. Si el usuario no encuentra la información que busca para resolver su duda, puede escribir a Euskaltzaindia pidiendo un consejo. JAGONET no es el sitio apropiado para preguntar sobre terminología o etimología, ni tampoco para pedir explicaciones teóricas, ni traducciones.
El Instituto Vasco de la Administración Pública, por su parte, ofrece Duda-Muda (http://www.ivap.euskadi.net/r61-2347/eu/contenidos/informacion/dudamuda/eu_3803/dudamuda_e.html), un servicio gratuito de consultas tanto para ciudadanos como para las instituciones, cuyo propósito es aclarar dudas surgidas acerca de la terminología y del lenguaje en temas administrativos y legales. No es una base de datos terminológica sino un servicio ofrecido por un equipo de investigación.
Elhuyar ofrece un servicio similar referente al vasco técnico (http://www.zientzia.net/galdera_bidali.asp)

Muchas instituciones o empresas emplean a "técnicos de euskera" cuyo trabajo es aclarar dudas lingüísticas. Para tales entornos se han desarrollado aplicaciones informáticas para recibir información y llevar a cabo la comunicación. Un conocido ejemplo de este tipo de servicios es el ofrecido por la Universidad del País Vasco, llamado Ehulku (http://www.ehu.es/ehulku/), que está dirigido a los profesores y demás empleados de la universidad, y cuya función es promocionar el uso correcto y apropiado del euskera en el ámbito universitario. No es una escuela de idiomas ni tampoco un espacio para la discusión de investigaciones filológicas, sino un servicio que trata de buscar una solución adecuada para los problemas lingüísticos en la información y los servicios ofrecidos por la universidad en euskera.

El mismo tipo de aplicaciones informáticas se utiliza para gestionar la aclaración de dudas sobre la lengua vasca en instituciones como el Gobierno Vasco, la Fundación Elhuyar, y la Diputación Foral de Vizcaya, entre otros.

Diccionarios en nuevos formatos

Han quedado atrás los tiempos en los que sólo había diccionarios de papel. Hoy día es común utilizar Internet para consultar un diccionario. Gracias al Gobierno Vasco, hoy día los principales diccionarios vascos tienen un sistema de consulta en Internet. El contenido de estos diccionarios se actualiza dos o tres veces al año, por lo que la información que está disponible en Internet es más actual que la que se puede obtener en la última versión en papel de estos diccionarios.

Pueden usarse diccionarios vasco-castellano y vasco-francés como herramientas para facilitar la navegación en euskera. Muchas personas que saben euskera navegan en castellano o en francés por miedo de que puedan perder información a consecuencia de su desconocimiento de algunas palabras. Con las nuevas tecnologías, una consulta de diccionario puede ofrecerse con rapidez al ser activada por el usuario cuando encuentra una palabra que desconozca.

Supongamos que mientras un usuario está buscando información en el sitio web en euskera de un banco o caja de ahorros, encuentra una palabra que no entiende: onuren, por ejemplo. Señalando la palabra con el ratón, pulsa una tecla determinada (por ejemplo, F12), con lo que se pone en marcha el sistema de consultas. El sistema lematiza la palabra, busca el lema en el diccionario, y muestra la traducción en una nueva ventana. Así hemos evitado que el usuario cambie de idioma, y puede seguir navegando en euskera. Puede parecer un paso pequeño para la normalización, pero debemos recordar que cuantos más navegadores haya en páginas en euskera, más materiales se pondrán en Internet en euskera en el futuro. (La mayoría de organizaciones que ponen información en el Internet en euskera comprueban el número de navegadores que la usan.)

BBK

Figura 5

Así tenemos la opción de comprobar las palabras en euskera que posiblemente no conozcamos. El mismo sistema puede usarse para hacer consultas de diccionario en sitios web en inglés, francés o castellano. Los mismos diccionarios pueden integrarse en el procesador de palabras Word, con lo cual el usuario puede realizar rápidas consultas sobre la traducción de una palabra determinada al leer o escribir, haciendo clic con el botón derecho sobre la palabra. Hasta el momento están disponibles en este formato el diccionario vasco-castellano de Elhuyar, el diccionario de sinónimos de UZEI y el diccionario Elhuyar euskera-francés.

Diccionarios en el puesto de trabajo: para los que están trabajando en una institución o empresa, hay otras herramientas. Con ellas, desde un editor de texto, un sitio web o el Escritorio del ordenador, podemos seleccionar cualquier palabra y, pulsando una tecla, realizar una consulta de diccionario. Se pueden integrar diversos diccionarios en este tipo de sistemas. La firma Babylon (www.babylon.com) ofrece diccionarios de más de trece idiomas. En nuestro caso, podríamos incorporar todos los que están en formato de Internet.

Diccionarios de bolsillo. Últimamente han proliferado mucho los ordenadores de bolsillo que ofrecen toda una serie de recursos como una agenda, un editor de textos, Internet, GPS, correo, etcétera.

Eskuko ordenagailuak

Figura 6

Gracias a las nuevas tecnologías, también se pueden obtener diccionarios de este tipo en los ordenadores. Pueden incluir diccionarios para traducir entre el castellano, el inglés o el francés y el euskera, así como frases útiles para el viajero, etc. Sin duda esta es un área donde tendremos que trabajar en el futuro.

Euskara PDAn

Figura 7

Sistemas de consulta de corpus

A menudo no es suficiente ver una palabra en el diccionario, ya que la duda que tenemos gira en torno al uso de esa palabra: quisiéramos ver la palabra dentro de una frase, en un contexto. Muchas veces tal frase nos proporcionará una gama más amplia de información semántica. Hoy día, está disponible para ser consultada una amplia gama de obras literarias del siglo XX, así como muchos libros que han sido traducidos para la formación profesional, y por otro lado, artículos publicados en diarios y revistas.

Corpus del siglo XX (http://www.euskaracorpusa.net/): Es un material de consulta que ofrece un corpus estadístico de 4.658.036 palabras de texto representando la lengua vasca del siglo XX. Su función es proporcionar un compendio y muestra del euskera que se ha usado y se usa hoy día, sin pretensión de proponer un lenguaje modélico.

Prosa ejemplar de hoy (http://www.ehu.es/euskara-orria/euskara/ereduzkoa/): No pocos escritores, incluso en el ámbito universitario, tienen muchas dudas, al escribir sus artículos y otros materiales, sobre cuáles son las formas más correctas de algunas palabras, las expresiones más aceptables, o las construcciones más acertadas. El Servicio de Euskera de la Universidad del País Vasco ha proporcionado esta herramienta para dar soluciones, reuniendo en un corpus bastante amplio de textos recientes de escritores ejemplares contemporáneos en euskera, junto con un buscador potente y fácil de usar para obtener el máximo provecho de ese corpus. Así, se trata de una buena herramienta por medio de la cual podemos observar las soluciones a las dudas que podamos tener que han dado nuestros mejores autores vascos.

De la mano de Lanbide Ekimena, podemos consultar numerosos libros de formación profesional (http://www.jakinbai.com/): LANEKI es una sociedad creada por iniciativa de HETEL y IKASLAN, con un plan de varios años para traducir materiales escolares al euskera y hacerlos disponibles en formato electrónico.

El Corpus de Ciencia y Técnica que está siendo elaborado por la Fundación Elhuyar: Se trata de un corpus especializado ya que reúne textos que pertenecen al área científica y técnica. Se han incorporado al corpus textos que se han escrito y publicado en esta área entre 1990 y 2002. Además de trabajos originales en euskera, también se han incluído otros traducidos al euskera.

Hay que mencionar también el sitio web de literatura creado por la editorial Susa. Llamado Armiarma, contiene muchas obras literarias (http://www.armiarma.com/).

En otras muchas áreas, en cambio, no existen importantes colecciones de documentación hoy por hoy.

Búsqueda de información

Hoy día la masa de información disponible es enorme. Son innegables los beneficios de la existencia de esta gran cantidad de información, pero se siente la necesidad de combinar cantidad con calidad. Si no tenemos buenas herramientas para la búsqueda de la información, esta puede sernos de poca utilidad. No pocas veces cuando acudimos a Internet, por ejemplo, como principal fuente de información, en busca de algún dato específico, aquello que buscamos se pierde en medio de una masa de información que tiene poco o nada que ver con lo que necesitamos.

La siguiente figura muestra lo que pasará si buscamos en el portal www.euskadi.net la palabra beka ("beca"):

Informazio bilaketa Euskadi.net-en

Figura 8

Como se ve, el uso de la tecnología lingüística es muy importante para la búsqueda de información en vasco.

Localización de software

Es muy importante que las aplicaciones ofimáticas, de correo electrónico o los sistemas operativos de uso diario estén en nuestro idioma. Es una tarea difícil, porque tales aplicaciones se actualizan a menudo y poner todas las versiones del software en euskera requeriría un presupuesto muy grande. Con todo, existen algunas aplicaciones en euskera, las más importantes de las cuales pueden obtenerse de los dos sitios web ya mencionados.

Digitalización de la información

OCR significa Optical Character Recognition (Reconocimiento Optico de Carácteres). Normalmente si escaneamos un texto impreso en papel el resultado será una imagen que no podemos manipular o revisar en un procesador de palabras. Los sistemas de OCR sirven para que después de escanear un texto, el ordenador lo pueda entender como texto. Dicho de otro modo, OCR es el reconocimiento por ordenador de carácteres de texto escritos o impresos. Esto quiere decir que cuando usamos OCR escaneamos cada carácter como si fuera una foto y después esa imagen escaneada es analizado y convertido a un código de carácter corriente (de ASCII, por ejemplo).

En muchos campos los sistemas de OCR son utilizados a diario: por ejemplo, las bibliotecas y archivos de documentos lo emplean para digitalizar y almacenar sus archivos. Por otro lado, millones de revistas y cartas se clasifican diariamente usando OCR para agilizar la distribución del correo. Se ha desarrollado OCR para uso con el euskera; por lo tanto, hoy día los libros y papeles en euskera pueden ser escaneados y convertidos a texto. Como en cualquier otro idioma, el resultado del OCR necesita ser corregido a mano, ya que estos sistemas no pueden garantizar resultados 100% libres de errores.

Traducción

Grandes cantidades de información se traduce del español euskera y viceversa todos los días. Herramientas llamadas Traducción Asistida por Ordenador o CAT (Computer Aided Translation) nos ayudan a traducir al recordar lo que las personas han traducido, almacenándolo, y cuando algo parecido se tiene que traducir otra vez, proponiendo la traducción anterior. De ese modo se aprovecha más eficazmente el trabajo ya hecho por el traductor. Esas aplicaciones crean una memoria de lo que se ha hecho; la base de datos donde se recoge la información se llama una memoria de traducción. Durante los últimos quince años, aplicaciones para la gestión de memorias de traducción se han convertido en herramientas esenciales en la industria de la traducción. Además de permitir que se traduzca más de prisa, también ayudan a garantizar la calidad de la traducción. Las memorias de traducción son muy útiles cuando hay que traducir documentos que pertenecen a una especialidad determinada (administración, derecho…). Son muy útiles cuando ciertas frases y expresiones se repiten mucho entre documentos, ya que pueden proponer automáticamente una traducción previamente almacenada en la memoria.

Itzulpen memoriak

Figura 9

Beneficios del uso de CAT:

Traducción rápida
Mejor calidad de traducción
Coherencia: se puede incorporar un glosario; mientras se traduce el sistema marcará los elementos fijados en el glosario
Reciclaje del trabajo hecho (por uno mismo o por el equipo)
Acelera la integración de nuevos miembros al equipo, ya que los conocimientos y reglas de traducción de la organización están en la memoria de traducción

Traducción automática

El Periódico de Catalunya se publica todos los días en castellano y en catalán. Los periodistas escriben el periódico en castellano y luego el traductor automático lo traducen al catalán. Un equipo de revisores corrige el texto, y está listo para publicar junto con la versión en castellano. También son utilizados los traductores automáticos como herramienta de ayuda para navegar por Internet. Si necesito leer un sitio web alemán y no entiendo el alemán, usando un traductor automático puedo ver el sitio web en inglés o en español. La traducción no será completamente correcta, pero se consigue una aproximación a la información que contiene. Estos son los dos objetivos principales de los traductores automáticos: como ayuda para la traducción y para identificar contenido.

Hay muchos traductores automáticos en el mundo. Los que traducen entre el inglés, el francés, el alemán y el castellano han existido desde hace muchos años. Los catalanes tienen dos o tres sistemas, los gallegos también uno, pero aún no hay ningún sistema de este tipo para el euskera. Pronto se inaugurará el primer sistema de traducción automática del español al euskera. Este traductor, llamado OpenTrad (www.opentrad.com), se ha desarrollado aprovechando la experiencia de los catalanes y el trabajo del grupo vasco IXA. Aunque queda mucho por hacer, ya se han dado los primeros pasos en este campo. El perfeccionamiento de los resultados producidos por el sistema se logrará a través de proyectos específicos, adecuando la aplicación a las necesidades de cada cliente o proyecto. Todavía está pendiente la creación de un sistema para traducir del euskera al castellano o al inglés.

Hoy día se puede navegar por el sitio web de la Diputación Foral de Guipúzcoa en catalán a pesar de que la información colocada allí no está originalmente en catalán.

Gipuzkoa.net

Figura 10

Comunidades virtuales

Gracias a las nuevas tecnologías, podemos distribuir información rápidamente entre un gran número de usuarios, o podemos comunicar simultáneamente con muchas personas. Internet y las nuevas tecnologías brindan una gran oportunidad para transcender las fronteras geográficas, sociales y políticas. Aunque algunos ya han aprovechado estas oportunidades en Euskal Herria, todavía queda muchísimo por hacer.

Podemos decir que los propios traductores han sido pioneros en este campo. Por iniciativa de EIZIE (la Asociación de Traductores, Correctores e Intérpretes Vascos, www.eizie.org), se creó la lista de correo Itzulist, donde cualquier usuario registrado puede enviar preguntas y compartir opiniones con todos los miembros de la misma. Así nació una auténtica comunidad o sociedad virtual, constituyendo una herramienta eficaz y de fácil uso.

Miembros de la comunidad científica también tienen sus recursos, tales como el portal www.zientzia.net que recoge una amplia información científica escrita en vasco, o www.BasqueResearch.com donde se reúne información sobre las tesis académicas publicadas en Euskal Herria.

Los traductores y los científicos, y por qué no también los informáticos, farmaceuticos, médicos, abogados… todos necesitamos el apoyo de una comunidad así para realizar un trabajo de calidad en vasco.

No hay que olvidar algunos otros proyectos, como por ejemplo Sustatu (www.sustatu.com) y
Erabili (www.erabili.com), que han aportado grandes esfuerzos para impulsar la difusión de información y participación en la comunidad vascoparlante.

Gracias a Internet, hoy día casi cualquiera puede crear un sitio web para publicar información y compartir la de otros. Existen muchas facilidades para crear una comunidad virtual. Un ejemplo claro es el surgimiento de los blogs. Uztarria define los blogs así: "Un blog es un boletín gestionado por una persona o grupo. Un dietario personal. Un conjunto de páginas en Internet, ordenadas del más nuevo al más antiguo, donde se recogen respuestas, y actualizado tantas veces como el autor quiere o puede." Se pueden ver ejemplos en http://www.uztarria.com/blogak/, http://www.berria.info/blogak/index.php, http://www.eibar.org/blogak/, etc.

No podemos dejar sin mención algunos otros recursos de especial importancia, como por ejemplo los recursos para aprender idiomas (BaiBai-Didaktiker o el sistema e-learning para aprender euskera de HABE), el recien desarrollado motor de lenguaje técnico vasco (www.euskadi.net/aditu) o las ediciones digitales de varios diarios y revistas.

Existen, pues, recursos que deberíamos hacer un esfuerzo especial para conocer y utilizar. En otras áreas queda mucho por hacer, y tanto las administraciones como las empresas tendremos que multiplicar nuestros esfuerzos si no nos queremos quedar atrás.

La incorporación de la tecnología lingüística en los procesos empresariales podría ser una meta a medio plazo. Debemos esforzarnos en desarrollar herramientas informáticas que nos ayuden a trabajar en euskera con las aplicaciones que utilizamos todos los días y en cualquier campo del idioma que haga falta.

Así como se ha hecho con las aplicaciones informáticas empresariales, también conviene fortalecer el proceso de incorporar tales recursos en la normalización lingüística, impulsando la opción de tener todos los instrumentos de ayuda necesarios para trabajar en euskera en una sola herramienta.

Si hasta ahora en los procesos de normalización se ha puesto mucho énfasis en los recursos educativos y humanos, la incorporación de una tecnología apropiada daría un impulso a procesos que han alcanzado cierto nivel de desarrollo.

Las instituciones, las empresas y los individuos tenemos pendiente la tarea de conocer, utilizar, difundir y actualizar los recursos existentes, así como la de crear recursos adicionales. Será necesario incrementar cada año la inversión en nuevas tecnologías desde la administración, las empresas, y también de parte del usuario.

Fecha de la última modificación: 07/06/2006