EMOLTV

RAE actualiza su "corpus" del español del siglo XXI añadiendo más de 20 millones de formas

Los "cuerpos" son un registro de una lengua en un momento dado que se usa habitualmente para conocer el significado y características de palabras, expresiones y construcciones a partir de los usos reales.

27 de Diciembre de 2018 | 09:37 | Redactado por Magdalena Álamos, Emol/ DPA
imagen
Captura rae.es
MADRID.- La Real Academia Española (RAE) y la Asociación de Academias de la Lengua Española (ASALE) publicaron una nueva actualización del Corpus del Español del Siglo XXI (CORPES XXI), que incluye más de 10 millones de formas respecto al anterior.

El CORPES XXI es un cuerpo de referencia. En lingüística, se llama corpus a un conjunto formado por miles o cientos de miles de textos (novelas, obras de teatro, guiones de cine, noticias de prensa, ensayos, transcripciones de noticiarios radiofónicos o televisivos, transcripciones de conversaciones o discursos) y cientos o miles de millones de formas.

Los corpus son empleados habitualmente para conocer el significado y características de palabras, expresiones y construcciones a partir de los usos reales registrados. Un corpus general (llamado de referencia) tiene como propósito básico el de servir para obtener las características globales que presenta una lengua en un momento determinado de su historia. El español actual, por ejemplo, debe tener un corpus que integre textos de todos los tipos y de todos los países de habla hispana.

Dirigido por el académico Guillermo Rojo, el CORPES XXI -disponible gratuitamente en el portal web académico- cuenta en la actualidad con más 285.000 documentos que suman alrededor de 286 millones de formas, procedentes de textos escritos y de transcripciones de textos orales.

Con respecto a la versión anterior, publicada en julio de 2018, supone un incremento de 10 millones de formas. Aproximadamente cuatro millones están constituidos por textos orales y se ofrece, en una parte de ellos, el sonido alineado correspondiente a la transcripción. Además, en bastantes casos es posible la descarga del archivo de audio o la visualización del video del documento fuente.

Los textos procedentes de libros suponen más de 140 millones de formas. Por lo que respecta al bloque de ficción (novelas, guiones, relatos, obras de teatro) las formas del CORPES XII sobrepasan los 81 millones, mientras que las contenidas en textos de libros de no ficción (ciencias sociales, salud, política, artes, tecnología) se acercan a los 207 millones.

Por otro lado, la prensa está representada con aproximadamente 142 millones de formas. Cinco millones más provienen de blogs, entrevistas digitales y miscelánea.

El Corpus Español del Siglo XXI se realizó considerando textos escritos y orales provenientes de España, América, Filipinas y Guinea Ecuatorial.
EL COMENTARISTA OPINA
¿Cómo puedo ser parte del Comentarista Opina?