Características adicionales de la versión 2.0

La versión 2.0 presenta importantes mejoras en las posibilidades de búsqueda en tres aspectos distintos: utilización de operadores booleanos, recuperación de la lista de formas o lemas únicos que presentan las características deseadas y distribución de las frecuencias según los diferentes parámetros utilizados en el corpus. Además, se ha diseñado un sistema de descarga de resultados adaptado a las nuevas funcionalidades.

1. Búsquedas con operadores booleanos

Los operadores booleanos permiten enriquecer o matizar una búsqueda. Por ejemplo, con el operador OR, representado por la pleca (|), es posible fundir en una consulta única dos o más consultas individuales. Así, incluir la expresión volver|regresar en el campo Lema nos devolverá todos los casos en los que se utilice una forma de cualquiera de estos verbos. Este operador puede ser utilizado también en las consultas por etiqueta. Si queremos recuperar los casos de uso del infinitivo o el gerundio del verbo volver escribimos volver en Lema, seleccionamos verbo en Etiqueta, añadimos la pleca (|) y luego seleccionamos la etiqueta correspondiente al gerundio. Al aceptar ese último valor, la ventana muestra que se borra el anterior, de modo que parece que no existe esta posibilidad de combinación. Sin embargo, si escribimos directamente en la ventana de Etiqueta VN*|VG*  recuperaremos todos los casos de volver y volviendo.

De gran utilidad es el operador booleano NOT, que se representa mediante el signo de cierre de admiración (!). Si se quiere comprobar la frecuencia de uso del diminutivo en -iño, característico del gallego y del español de Galicia, puede escribirse *iño en la ventana de Texto de la opción Palab. ortográficas. La aplicación indica que hay 407 casos, con una frecuencia normalizada de 540 casos por millón. Sin embargo, un análisis superficial de las concordancias muestra que este resultado no responde exactamente a lo que buscamos porque, de acuerdo con lo que se pide, aparecen, entre otros, muchos casos de niño o cariño. Es fácil eliminarlos: en esa misma ventana se escribe *iño!niño!cariño y el número de casos se reduce a 83, con una frecuencia normalizada de 110 casos por millón.

Dado que el diminutivo tiene moción de género y número, la búsqueda anterior resulta parcial y debe ser mejorada. Si la ajustamos dando las cuatro posibilidades (*iño, *iña, *iños, *iñas) tendremos que excluir también niño, niña, niños, niñas, etc., lo cual resulta bastante pesado y no se beneficia de las ventajas de un corpus anotado y lematizado. La opción más lógica es utilizar la búsqueda por Elem. gramaticales, escribir *iño|*iña|*iños|*iñas en la ventana de Elementos gramaticales y añadir en la ventana de Lema!niño!cariño. Con esta indicación, que combina dos operadores booleanos diferentes en dos aspectos distintos, la aplicación devuelve 238 casos. El análisis de las concordancias indica inmediatamente que sigue habiendo casos que convendría dejar a un lado porque son, por ejemplo, nombres de lugares (como Fontiñas o Cuspedriños). Es posible evitar estos casos usando el operador de negación en el campo correspondiente a la Etiqueta. Si se selecciona para ese campo el valor Sustantivo propio y se antepone el operador de negación, los casos se reducen a 103. Es fácil ver que quedan todavía formas que no nos interesan, como riña(s) o campiña(s), o fallos del etiquetador (aliño como sustantivo común), pero es sencillo, mediante estos operadores, eliminarlos y quedarnos únicamente con los que realmente son casos del diminutivo.

2. Resultados: recuperación de expresiones coincidentes

La segunda novedad importante consiste en la posibilidad de obtener directamente la relación de elementos gramaticales o lemas distintos que tienen las características deseadas, con indicación de la frecuencia de cada uno. En la versión 1 era posible obtener, por ejemplo, el número de adjetivos terminados en -iño, -iña, -iños, -iñas: 39 casos en total y la concordancia correspondiente a cada uno de los casos. Pero obtener la lista de elementos distintos requería reordenar la lista de resultados y hacer el recuento de forma manual. En la versión 2.0, en cambio, la aplicación proporciona esa lista directamente. El procedimiento es sencillo y muy intuitivo. En la opción Tipo de resultado se selecciona Expresiones coincidentes (elem. gramaticales), se escribe *iño|*iña|*iños|*iñas en Elem. gramatical y se selecciona adjetivo en Etiqueta. El resultado es una lista que contiene solo 25 elementos gramaticales distintos, entre los cuales figuran pobriña, con 5 casos, pobriño con 6 y pobriños con 2. Si en lugar de Expresiones coincidentes (elem. gramaticales) se selecciona la opción Expresiones coincidentes (lemas), la aplicación devuelve la lista de los 11 lemas adjetivos para los que el corpus documenta formas con este diminutivo: pobre tiene 13 casos.

Esta posibilidad nueva permite obtener con comodidad datos numéricos correspondientes a categorías y subcategorías gramaticales. Por ejemplo, si, de nuevo con la opción de Expresiones coincidentes (lemas) se escribe *ar en la ventana del lema y se selecciona la etiqueta correspondiente a los verbos, el sistema responde que hay 1642 verbos que pertenecen a la primera conjugación. Haciendo los cambios necesarios, llegamos a saber que en ESLORA se documentan 169 verbos de la segunda y 185 de la tercera. Dado que figura la frecuencia de cada uno de ellos, también podemos ver cuáles son los que tienen documentación más abundante y, si eliminamos la referencia a la conjugación, cuáles son los verbos más frecuentes en el corpus.

3. Diccionario de frecuencias

La tercera gran innovación de la versión 2.0 de ESLORA consiste en un diccionario de frecuencias léxicas y gramaticales, construido de forma dinámica, que proporciona la frecuencia general y la normalizada de cada uno de los elementos o lemas solicitados para la totalidad del corpus y también para cada uno de los parámetros que han intervenido en su construcción (sexo, edad, estudios y papel desempeñado). Es el complemento necesario para todas las opciones de recuperación de datos que hemos visto hasta aquí.

Veámoslo con un ejemplo práctico. Con la opción Frecuencia simple aplicada a Elem. gramaticales podemos saber que ESLORA contiene 23993 casos de formas de verbos pertenecientes a la tercera conjugación distribuidos en 83 documentos. Con la opción Frecuencia completa es posible conocer la distribución de esos ejemplos entre los grandes bloques que estructuran el corpus. En cualquiera de estas dos opciones cabe pasar de la estadística al análisis individual de los casos correspondientes. Con la opción Expresiones coincidentes (elem. gramaticales), averiguamos que corresponden a 1260 formas distintas y con la opción Expresiones coincidentes (lemas) sabemos que pertenecen a 185 verbos distintos, podemos localizar los más frecuentes, saber cuántos de ellos aparecen solo una vez, etc. Pues bien, la opción Dicc. de frecuencias nos permite recuperar, en una consulta única, los datos que la aplicación devuelve en las anteriores, pero indicando también la frecuencia general y la normalizada de cada uno de los lemas o elementos por edades, sexo, estudios y papel desempeñado.

El modo de lograr esto último es también sencillo e intuitivo. En el menú superior hay que seleccionar la opción Dicc. de frecuencias, con lo que se abrirá la pantalla siguiente:

Fig. 7. Pantalla de captura de datos del diccionario de frecuencias

Fig. 7. Pantalla de captura de datos del diccionario de frecuencias

La pantalla está estructurada en tres bloques. El primero de ellos, Relación, permite elegir entre trabajar con lemas o hacerlo con elementos gramaticales. El segundo proporciona la posibilidad de establecer filtros en los datos deseados (por ejemplo, solo las mujeres con estudios superiores) y también la etiqueta y el lema cuando se ha seleccionado la opción Elementos gramaticales. Con el tercer bloque se puede seleccionar qué columnas (es decir, qué tipo de datos) debe tener el fichero. Así, puede optarse por incluir en el fichero de descarga únicamente una parte de la información disponible sobre los hablantes, como, por ejemplo, la edad o el nivel de estudios.

Terminada la selección, la aplicación permite elegir entre Mostrar o Descargar los datos resultantes. La primera es adecuada cuando el volumen de datos es reducido y no son muchas las columnas seleccionadas. Si se hace para, por ejemplo, los lemas verbales de la tercera conjugación, aparece la pantalla siguiente, en la que se puede ver que el más frecuente es el verbo ir y podemos observar, en una amplia serie de columnas, la frecuencia general y la normalizada que este verbo presenta en los diversos grupos de encuestados existentes en ESLORA. En caso de elegir la opción Elementos gramaticales, veremos este amplio conjunto de datos para cada una de las formas del verbo.

Fig. 8. Pantalla de resultados del diccionario de frecuencias

Fig. 8. Pantalla de resultados del diccionario de frecuencias

Es evidente que algunas consultas pueden suponer una gran cantidad de datos, con las dificultades de computación, análisis y manejo que ello supone. Se ha optado, en consecuencia, por habilitar un procedimiento adicional, que consiste en la generación de un fichero que contiene todos los datos organizados en campos separados por tabuladores (formato TSV) que los consultantes pueden descargar a su computadora, integrar en una hoja de cálculo o base de datos y reorganizar en función de sus intereses. El modo de lograrlo consiste simplemente en seleccionar la opción Descargas y guardar el fichero resultante para su procesamiento posterior.