Corpus - Materiales

ESLORA - Corpus para el estudio de la lengua oral

http://eslora.usc.es/

El corpus para el estudio del español oral ESLORA contiene 60 horas de entrevistas semidirigidas y 20 horas de conversaciones de hablantes de Galicia grabadas entre los años 2007 y 2015. Los registros sonoros se transcribieron ortográficamente con alineación texto-voz para facilitar el acceso inmediato al audio desde la transcripción. En el proceso de enriquecimiento del corpus se han desarrollado recursos para la lematización y el etiquetado morfosintáctico de los textos que permiten realizar diversos tipos de búsquedas.

A día de hoy es posible obtener datos de una parte de los materiales mediante un sistema de consultas simples y combinadas que incluye variables sociales (grupo de edad, nivel de estudios y sexo) junto a categorías lingüísticas (lemas, clases de palabras y categorías morfológicas). La aplicación de consulta tiene además la ventaja de que permite recuperar los fragmentos sonoros correspondientes a las consultas realizadas. En la Guía de consulta se describen los detalles de las múltiples posibilidades que ofrece el sistema de búsqueda y en la sección Descargas puede obtenerse directamente el corpus en formato textual o bien solicitarse en formato etiquetado, junto con los audios y la información sociolingüística de los hablantes.

El corpus ESLORA ha sido elaborado por el Grupo de Gramática del Español de la Universidad de Santiago de Compostela a través de los proyectos ESLORA, ESLORA2 y ESLORA+ financiados por el Ministerio de Economía y Competitividad (FFI2010-17417, FFI2014-52287-P y PFFI2017-86379-P).

Corpus del Español Actual (CEA)

http://cea.spanishfn.org/cea/

El Corpus del Español Actual (CEA) tiene 540 millones de palabras y está lematizado y etiquetado con información morfológica y/o categorial. El CEA está integrado por los siguientes textos:

La etiquetación del CEA se ha realizado con una aplicación que utiliza un diccionario electrónico del español de 635.000 formas, generadas automáticamente a partir de un diccionario de 86.000 lemas simples, como p. ej., unir, inmoralidad, allí, etc., y 26.000 lemas locutivos, como p. ej., muerte cerebral, carga de profundidad, de armas tomar, etc. (Subirats 1989, 1992, 1994a, 1994b,  Mogorrón 1994, Garrido 1999, Ríos 1999, Bobes 2000). La desambiguación de la etiquetación se ha llevado a cabo mediante un proceso de intersección de autómatas, que utiliza información léxica y sintáctica (Subirats 1998, Subirats y Ortega 2000, 2001, Ortega en preparación).

En esta sección se recopilarán los corpus del español disponibles en la red.