Thursday, April 27, 2006

Sobre la muestra

Comentarios sobre la muestra del Cuestionario # 1.

Al parecer estamos frente al “caballo de Troya”. En nuestra muestra podría caber el mundo hispanohablante entero. Definición perogrullesca, por demás utópica.

Colegas, podríamos pasar un año (al menos) intentando definir la muestra para nuestro proyecto.

Tenemos muchas lecturas al respecto, las cuales ponemos a su entera disposición. Por el momento, no invadiremos sus buzones electrónicos con las lecturas. Las enviaremos a solicitud de los interesados.

Mientras tanto, les rogamos considerar lo siguiente:

1º. Corpus: de las (muchas) definiciones sobre “muestra”, hemos elegido la que ofrece el grupo de trabajo dedicado a los córpora textuales de EAGLES (Expert Advisory Group on Language Engineering Standards) (1996a:4):
Corpus: “A collection of pieces of language that are selected and ordered according to explicit linguistic criteria in order to be used as a sample of the language.”

En esta definición se recogen tres aspectos fundamentales que deben ser considerados en la definición de los córpora: un corpus debe estar compuesto por textos producidos en situaciones reales ("pieces of language") y la inclusión de los textos que componen el corpus debe estar guiada por una serie de criterios lingüísticos explícitos para asegurar que pueda usarse como muestra representativa de una lengua. Todos los estudiosos dedicados al corpus están de acuerdo en que éstos son aspectos fundamentales en la creación y definición de los córpora, aunque no por ello dejan de ser aspectos controvertidos y que en ocasiones han dado lugar a posturas diferentes.

Sin embargo...

2º. “More data is better data”. Siguiendo esta premisa, opuesta a la anterior, creemos que no necesitamos poner límites por el momento, ya que estamos hablando de muchos millones de hispanohablantes. Si pensamos en nuestro estudio, el cual se refiere directa y exclusivamente a hábitos de uso de determinadas palabras, cuanto mayor sea el volumen de texto que procesemos, más representativos serán los índices estadísticos de frecuencia que aparezcan.

3º. La revisión constante: El proceso de compilación debe, según Biber (1993: 256), ser cíclico, de forma que primero se debe construir un corpus piloto para estudiar su composición y decidir qué parámetros del diseño deben ser modificados:
“A pilot corpus should be compiled first, representing a relatively broad range of variation but also representing a depth in some registers ... Then empirical research should be carried out on this pilot corpus to confirm or modify the various design parameters. Parts of this cycle could be carried out in an almost continuous fashion, with new texts being analyzed as they become available, but there should also be discrete stages of extensive empirical investigation and revision of the corpus design.”

Esta misma concepción cíclica en la compilación del corpus aparece reflejada en el trabajo de Tognini-Bonelli (1996b: 73), en el que señala que el diseño del corpus debe ser revisado continuamente y los resultados del análisis de los datos evaluados de forma que puedan modificarse algunos de los criterios de diseño, si el lingüista lo considera necesario.

Añadimos y destacamos la definición que el semiólogo Omar Calabrese deriva de Foucault: y de las ciencias naturales "conjunto de documentos que son necesarios y suficientes para obtener una conclusión unitaria, convirtiéndose en un 'cuerpo único'[...] un objeto de análisis no existe in se e per se: siempre es algo construido por el analista, quien sucesivamente ha de justificar su operación definiendo las reglas de pertinencia y de reciprocidad de lo que ha construido o acumulado" (Lezioni di semisimbolico).

**************************************

No comments: