Departamento de Cultura y Política Lingüística

Áreas y subáreas de trabajo

Con el objeto de catalogar / agrupar la información de los proyectos y recursos realizados por los agentes del sector Euskera TICs dentro de la aplicación de Inventario de las TICs en Euskera se ha estructurado dicha información en áreas y subáreas de trabajo:


Recursos lingüísticos y herramientas

Los recursos lingüísticos son esenciales para el desarrollo de aplicaciones basadas en Tecnologías Lingüísticas. Constituyen una de las principales formas de representar el conocimiento de la lengua a través de un procesamiento automático. Son recursos lingüísticos:

  • Léxicos, diccionarios: conjunto de palabras con información acerca de su estructura gramatical (morfología), estructura fonética (fonología) o significado (semántica) en diferentes contextos.

    Por ejemplo: las Redes de Palabras (Wordnets) que describen las relaciones existentes entre las palabras que las forman (sinónimos, antónimos, sustantivos, colectivos, etc.). Tienen una gran utilidad para la búsqueda de información, las herramientas integradas de apoyo a la traducción y los sistemas ofimáticos inteligentes de creación de documentos.

  • Gramáticas computacionales: describen la estructura de una lengua en diversos niveles: palabra (morfología), frase, oración, etc.

    Por ejemplo: las gramáticas pueden tratar la estructura en términos de significado (semántica y discurso) o en términos de sintaxis.

  • Corpus: una muestra amplia de la lengua escrita o hablada que proporciona las bases para analizar la lengua y determinar sus características, verificar empíricamente la teoría lingüística y entrenar a las máquinas para adaptar su comportamiento.

    Existen corpus de referencia de las lenguas cuyo objetivo es definir el buen uso, corpus especializados sobre ámbitos determinados (ciencia, tecnología), corpus bilingües etiquetados y alineados muy útiles en sistemas de traducción automática.

  • Otros recursos: recursos de voz (bases de datos acústicas, léxicos fonéticos); tesauros (lista de términos, a menudo complejos, que se relacionan entre sí jerárquicamente, utilizados para la indexación y la recuperación de documentos); bases de datos lexicales

Entre las herramientas se encuentran los correctores ortográficos y gramaticales, lematizadores (herramienta fundamental para lenguas con flexión); ayuda a la edición de documentos multilingües; analizadores (morfológicos, sintácticos o semánticos); etiquetadores (incorporan etiquetas a las palabras en función de unas reglas concretas); sistemas OCR (Optical Character Recognition) para la digitalización de textos; bancos terminológicos (dan información sobre términos especializados de las diferentes áreas de conocimiento); ontologías (descripción formal de conceptos y relaciones entre ellos);


e-Learning

Autoaprendizaje a través de Internet (educación virtual) que posibilita la adaptación del ritmo de aprendizaje al alumno y la disponibilidad de las herramientas de aprendizaje independientemente de límites horarios o geográficos.

Las herramientas que componen esta estrategia de educación son, por un lado, diferentes utilidades para la presentación de los contenidos (textos, animaciones, gráficos, vídeos) y por otro, herramientas de comunicación entre alumnos o entre alumnos y tutores de los cursos (correo electrónico, chat, foros).


Herramientas de ayuda a la traducción

Memorias de traducción; aplicaciones de traducción automática.


Sistemas interactivos avanzados

La integración de las TICs en nuestro entorno, llevará a la naturalización de la relación entre los usuarios y las máquinas. Las Tecnologías de la Lengua permitirán a las personas interactuar con el ambiente, ya sea en su casa o en el trabajo, en lo que se conoce como Inteligencia Ambiental.

Esta nueva forma de comunicación constituye un avance sorprendente en cuanto al uso del lenguaje natural como herramienta de interacción con las máquinas. Eso supone un nivel de desarrollo importante en cuanto a los sistemas de comprensión y generación de lenguaje, tanto escrito como hablado.

Son sistemas interactivos:

  • El reconocimiento automático de voz (ASR, Automatic Speech Recognition): proceso a través del cual un mensaje hablado se convierte en texto. Actualmente es posible que una persona hable a una máquina y ésta comprenda la información que se le transmite. El ordenador recibe los sonidos del habla en forma de ondas analógicas que se analizan para identificar las unidades que constituyen las palabras (fonemas).

    Por ejemplo: Es posible dictar un texto al ordenador y que éste reproduzca por escrito lo que le estamos dictando, sin necesidad de utilizar el teclado.

  • Síntesis de voz (TTS, Text-To-Speech): proceso a través del cual un texto escrito se convierte en voz. Existen sistemas de síntesis de voz con múltiples estilos y emociones.

    Por ejemplo: las personas con discapacidad visual pueden conocer la información que aparece en la pantalla de sus ordenadores a través de los sistemas que convierten el texto escrito en texto hablado.

  • Sistemas de respuesta a preguntas (Question answering): métodos de razonamiento capaces de analizar una pregunta y generar una respuesta partiendo de la recuperación de información de distintas fuentes.

  • Identificación biométrica a través de la voz: el reconocimiento de locutores es el proceso de identificación o verificación de la identidad del hablante de forma automática a partir de la señal de su voz. La voz es única para cada individuo. Por esta razón, se puede identificar a una persona por su voz. Se han desarrollado técnicas que permiten, a través de la identificación de la voz de una persona, comprobar si esa persona está, por ejemplo, autorizada para acceder a un servicio.

    Por ejemplo: llamar por teléfono a nuestro banco para realizar una transferencia y nos atiende un sistema con el que nosotros nos comunicamos, que nos comprende y ejecuta nuestra orden siempre y cuando proceda de la voz de la persona autorizada.


Gestión de la información y del conocimiento

El lenguaje natural es el vehículo principal para la comunicación y transmisión del conocimiento. En los últimos años la cantidad de información publicada on-line, tanto textual como multimedia, ha crecido exponencialmente y es cada vez más patente la necesidad de tecnologías que faciliten el acceso y la explotación de todo este conocimiento.

En la actualidad, la información es almacenada cada vez más en formato digital, para que así resulte accesible mediante ordenador o cualquier otro dispositivo electrónico. Por esa razón, se están confeccionando herramientas que permiten buscar de forma efectiva en bases de datos, ficheros, páginas web, data warehouse, repositorios, etc., y de ese modo extraer información de valor añadido, capturar su significado, organizarlo, hacerlo disponible y convertirlo finalmente en conocimiento.

Los avances en las Tecnologías de la Lengua ofrecerán en breve acceso universal a la información on-line a cada vez más gente, con o sin conocimientos tecnológicos. Extracción de conocimiento de múltiples fuentes y lenguas (recuperación de documentación, Information retrieval); clasificación de documentación; direccionamiento de documentación; filtración de documentación; respuesta razonada de preguntas realizadas en lenguaje natural o la generación automática de resúmenes y de textos son algunas de las áreas de aplicación más interesantes. Estos sistemas se enfocan no sólo a la información textual, sino también a la audiovisual.


Software en euskera

Incluye la localización y traducción de software original en otra lengua a euskera, y la creación de software en euskera, ya sea software libre o software propietario. Se trata de herramientas de uso generalizado (sistemas operativos y paquetes de ofimática); gestión empresarial; comercio; enseñanza; lengua; ocio; herramientas de Internet, etc.


Industria de contenidos

Creación de contenidos digitales en euskera.


e-inclusion

Son herramientas destinadas a facilitar la integración en la Sociedad de la Información y de la Comunicación de los colectivos con dificultades para acceder a la tecnología, bien por discapacidades físicas o de conocimiento. Aunque la integración de las Tecnologías de la Lengua en el entorno social beneficia de forma importante a estos colectivos, en general no suelen ser tenidos en cuenta en los desarrollos tecnológicos.

Esta área abarca los siguientes elementos:

  • Herramientas que faciliten la completa integración de los colectivos con discapacidades en la Sociedad de la Información.

  • Herramientas que ayuden al desarrollo de la autonomía personal de los colectivos con discapacidades.

  • Entornos virtuales que hagan transparente el uso de la tecnología para todos los colectivos.

  • Plataformas de aprendizaje que faciliten la integración social de colectivos desfavorecidos y de inmigrantes, facilitando el aprendizaje de lenguas y culturas.

  • Interfaces inteligentes y amigables que permitan a cualquier persona un fácil manejo de los sistemas automáticos imprescindibles para mejorar su calidad de vida.