Corpus léxico y diccionario: la estricta representatividad estadística

Corpus and Dictionary: a Statistical Representation

Autori

  • Hugo E. Lombardini Universidad de Bolonia
  • Silvia Bianconcini Universidad de Bolonia

Parole chiave:

corpus, lexicografía, estadística, diccionario, acepción lexicográfica, Lexicography, Statistics, Dictionary, Lexicographical meanings

Abstract

Los corpus de grandes dimensiones proporcionan información léxica importante y completa, pero su análisis completo resulta prácticamente inabarcable, especialmente si se lo interroga con fines lexicográficos. Ahora bien, de tales corpus pueden extraerse subcorpus de dimensiones significativamente más pequeñas y, de este modo, superar las dificultades impuestas por las dimensiones. Pero la cuestión más significativa de este procedimiento de reducción es que esta debe no solo preservarse el número de acepciones del corpus total y sus respectivas frecuencias, sino, además, lograrlo con el número mínimo de ejemplos necesarios.
Aquí se demuestra que –ayudándonos con una metodología estadística– esto es posible, es decir, que se puede establecer el número mínimo de muestras que un subcorpus debe tener para reflejar fielmente cualitativa y cuantitativamente el corpus del cual procede. Para corroborar nuestros hallazgos, aplicamos nuestra fórmula a dos subcorpus del término externo extraídos del CREA y analizados en su totalidad (los de España y Argentina) y uno (el de México) del cual conocemos solo una reducción suya.

Corpuses of large dimensions provide important and complete lexical information, but their analysis can become cumbersome, particularly for lexicographic purposes. Sub-corpuses of significantly smaller dimensions could be extracted from the original corpus and analyzed to overcome such limitations. However, an important aspect is to define which is the optimal dimension for these selected sub-corpuses in order to preserve the main features of the original corpus, both qualitatively and quantitatively. We show how statistical methodologies can help in determining the optimal sample size. To corroborate our findings, we consider the corpus CREA (reference corpus of the current Spanish) and, as object of study, the adjective externo and its meanings. We show how the different meanings of this word are preserved and well-represented in a much smaller sub-corpus. This is shown for three different countries: Argentina, Spain and Mexico.

##submission.downloads##

Pubblicato

2018-06-20

Fascicolo

Sezione

ASTILLEROS