Fecha de publicación: 15/02/2013

La Fundación Elhuyar ha creado un portal de corpus web

El portal de corpus web creado por la Fundación Elhuyar ofrece tres recursos: un corpus monolingüe de euskera, un corpus paralelo bilingüe euskera-castellano, y las combinaciones de palabras extraídas automáticamente del corpus de euskera.

El portal de corpus web creado por la Fundación Elhuyar puede ser consultado por cualquier persona interesada. Así, los usuarios tendrán acceso en dicho portal a tres recursos: un corpus monolingüe de euskera, un corpus paralelo bilingüe euskera-castellano, y las combinaciones de palabras extraídas automáticamente del corpus de euskera (locuciones, colocaciones…). Todos estos recursos se han creado de forma automática desde Internet, gracias a la tecnología desarrollada en el departamento de I+D de Elhuyar.

En lo que al corpus monolingüe de euskera se refiere, es el corpus más amplio existente hasta el momento; contiene alrededor de 125 millones de palabras. Hay textos de muy diversos tipos y temáticas, extraídos de Internet y etiquetados lingüísticamente. El corpus paralelo euskera-castellano cuenta con alrededor de 18 millones de palabras, y es el corpus euskera-castellano más grande que se ha hecho público hasta el momento.