CRATER: Corpus Resources and Terminology Extraction

Status

Finished

Proposed start date

1994-03-01

Proposed end date

1995-12-31

Members

José Carlos González Cristóbal; Amalio F. Nieto Serrano

Description

El objetivo de CRATER es examinar la extendibilidad de los corpus multilingües modernos. Para este fin se ha añadido el español al corpus anotado de la ITU (International Telecommunications Union), que hasta ahora cubría sólo inglés y francés. Como parte de este trabajo se ha desarrollado un etiquetador mor- fosintáctico para el Español y se han revisado las versiones inglesa y francesa del corpus. Resultado de todo ello es un corpus alineado trilingue de un millón de pa- labras, que debe ser útil en otros proyectos europeos de investigación en lingüïstica computacional en general y en traducción automática en particular. Además de estos objetivos, CRATER pretende impulsar el trabajo del proyecto ET10-63 por lo que respecta a la generación de recursos mono y multilingües a partir de los corpus desarrollados. Para este fin se han desarrollado técnicas de alineamiento híbridas que incorporan metodos estadísticos y otros plausibles desde el punto de vista cognitivo. Finalmente, se han desarrollado un conjunto de herramientas para la inspección del corpus trilingue y examinar el alineamiento de palabras o expresiones.