Professional Documents
Culture Documents
Un análisis textométrico
Los Viajes Extraordinarios en las Estadísticas Lexicales
Adelantamos aquí parte del contenido de los primeros capítulos para dar una
idea precisa del objetivo de la investigación.
Índice
1
Publicados originalmente con los siguientes títulos: Un viaje en globo y Los primeros navíos de la marina
mexicana.
2
En los apéndices se ha incluido una lista completa con más detalles (N° 1 Las obras de Jules Verne).
3
Esta novela aparecerá por primera vez en 1989 con el sello de Le Cherche midi éditeur.
4
Con muchas modificaciones, los primeros capítulos de esta investigación se han publicado como artículo.
«Panorama d’un corpus millionnaire». En: Hechos y proyecciones del lenguaje. Pasto, Colombia, 2011,
págs. 241-265.
un corpus bastante amplio de textos susceptibles de ser estudiados mediante las herramientas
del análisis estadístico de las que disponemos hoy día.
Para la constitución del corpus «Verne» hemos excluido, por un lado, la obra poética
de sus dos cuadernos condensados en un libro, Poésies inédites, publicado en 1989 por Le
Cherche midi. Desde un punto de vista estadístico, este texto por sí solo puede considerarse
marginal dado el predominio de la producción novelística. Por otro lado, a pesar de nuestros
mejores esfuerzos, solo encontramos una muestra muy pequeña de la obra teatral de Verne.
Aquí nuevamente, hemos decidido descartar esta producción por tres razones principales: en
primer lugar, una parte significativa de las piezas fue producida a partir de un trabajo
colaborativo y no es producto, en consecuencia, solo de nuestro autor. Por otro lado, la
repetición de los nombres de los personajes en los textos indudablemente distorsiona las
estadísticas sobre la distribución de los nombres propios en todo el corpus. Finalmente, dado
que un número nada despreciable de las obras teatrales proviene de adaptaciones de los Viajes
extraordinarios, hemos estimado que el interés esencial de la producción verniana estriba en
las novelas.
Hemos reunido un corpus que contiene la mayoría de las novelas y cuentos que hemos
podido encontrar a lo largo de nuestra investigación5.
El Anexo N° 2 contiene la lista de obras que se encuentran en el corpus que constituye
la base de datos sobre la cual se realizará nuestro análisis lexicométrico; estas obras se
presentan en orden cronológico6 supuesto o confirmado de su redacción y no de su
publicación. Clasificadas de esta forma, pueden revelarnos información valiosa sobre la
evolución de la escritura. El corpus también contiene las abreviaturas utilizadas para
identificar los textos digitalizados a lo largo de este trabajo y el género al que pertenecen.
Aunque las obras de Jules Verne son de dominio público, cabe señalar que las
versiones digitalizadas se tomaron prestadas de los siguientes sitios web:
http://jv.gilead.org.il
http://www.ebooksgratuits.com
http://www.scribd.com
http://beq.www.ebooksgratuits.com/vents/verne.htm
5
Para algunos textos, para los que la versión digital no estaba disponible, convertimos la versión impresa
a través un escáner de texto completo, luego usamos el software Omnipage para transformar la versión pdf
resultante en formato Word (y, en el peor de los casos, usamos el lápiz-escáner para los párrafos más
engorrosos o reescribimos si era necesario), y finalmente leímos y corregimos los textos comparándolos
con los originales para evitar errores. Este fue el caso de Viaje a contrapelo por Inglaterra y Escocia,
trabajo que nos llevó varias semanas.
6
Esta cronología sigue lo más fielmente posible la establecida por Jean-Paul Dekiss, Jules Verne
Enchanteur, Edit. du Félin, París, 1999, y por la Sociedad Jules Verne.
7
A pesar de nuestros esfuerzos, no hemos podido acceder a versiones digitalizadas de textos publicados
relativamente recientes, como París en el siglo XX, San Carlos y otros cuentos, L’Oncle Robinson, Histoire
des grands voyages et des grands voyageurs, y por supuesto casi todas las obras de teatro. A esta lista habría
En la Tabla 1, presentamos el corpus tal como fue diseñado para el procesamiento
estadístico porque las limitaciones del software utilizado nos obligaron a ordenar el corpus
de manera que no exceda los 75 textos. Sin embargo, obviamente mantuvimos la misma
cronología de las novelas, que consideramos la mayor producción del autor desde un punto
de vista estadístico, luego distribuimos los relatos en dos períodos (1850-1870 y 1870-1890)
y los dispusimos en el orden correspondiente. Para los ensayos, procedimos de manera
similar, reuniéndolos en un solo archivo. La colección de cuentos del primer período, por lo
tanto, ocupa el primer lugar en nuestro corpus reconstituido porque la mayoría de los textos
fueron escritos en la década de los cincuenta; en cuanto al segundo, se ubica, en orden
cronológico, en la casilla correspondiente a 1880. El mismo año corresponde a los ensayos.
En resumen, el corpus reconstituido contiene, por tanto, 59 archivos, 56 de los cuales
representan novelas y los tres restantes 18 cuentos y 9 ensayos. La distribución está, por
supuesto, un poco desequilibrada, pero nos permitirá mantener un corpus homogéneo para el
género narrativo. Las novelas y los cuentos, sin duda, tienen muchos puntos en común.
que añadir dos libros inacabados: Un sacerdote en 1839 (1845) y Jédédias Jamet (1847). A pesar de estas
deficiencias, es imperativo señalar que el corpus, fuera de las obras de teatro, engloba más del 90% de la
obra verniana.
8
Mantenemos los títulos cortos en francés pues con esos nombres aparecen los textos en las imágenes aquí
incluidas, casi siempre con las tres primeras letras.
9
Año medio de redacción de cuentos para este período: 1853.
1871 El país de las pieles FOURRUR NOVELA 13
ES
1872 La vuelta al mundo en 80 días MONDE NOVELA 14
1873-74 La isla misteriosa ILEMYST NOVELA 15
1874-76 Héctor Servadac Viajes y aventuras a SERVADA NOVELA 16
través del mundo solar C
1875 Miguel Strogoff. De Moscú a Irkutsk STROGOF NOVELA 17
F
1876- Las Indias negras INDIAS NOVELA 18
1877
1877-78 Un capitán de quince años 15ANS NOVELA 19
1878-79 Las tribulaciones de un chino en China TRIBULAT NOVELA 20
1879 La casa de vapor. Viaje por el norte de VAPEUR NOVELA 21
la India
1880 ENSAYOS ESSAIS ENSAYO 22
Salón de 1857 -Edgar Poe y sus obras - S
Acerca del Gigante -Geografía
ilustrada de Francia y sus colonias
(extracto) -Los meridianos y el
calendario- Veinticuatro minutos en
globo -Una ciudad ideal (1875b) -
Inauguración del Circo municipal de
Amiens - Recuerdos de infancia y de
juventud
CUENTOS_2 (1870-1890) NOUV_2 CUENTO 23
1880 La fantasía del doctor Ox – Los (CUENTOS S
amotinados de la Bounty - Diez horas _2)
de caza - Fritt-Flac - Las aventuras de
la familia Ratón - Gil Braltar -El Sr. Re-
Sostenido y la Srta. Mi Bemol
1880-81 La Jangada, ochocientas leguas por el JANGADA NOVELA 24
Amazonas
1881 Escuela de Robinsones ROBINSO NOVELA 25
N
1881-82 El rayo verde RAYON NOVELA 26
1882 Kerabán el testarudo KERABAN NOVELA 27
1883 El archipiélago en llamas ARCHIPEL NOVELA 28
1883-84 Matías Sandorf SANDORF NOVELA 29
1884-89 El castillo de los Cárpatos CARPATH NOVELA 30
1885 Robur el conquistador ROBUR NOVELA 31
1885 Un boleto de lotería. El número 9672 BILLET NOVELA 32
1885-86 Norte contra Sur NORSUD NOVELA 33
1886 El camino de Francia CHEMIN NOVELA 34
1886-87 Dos años de vacaciones VACANC NOVELA 35
1887-88 Familia sin nombre SANSNOM NOVELA 36
1888-89 El secreto de Maston DESSUS NOVELA 37
1889 César Cascabel. CASCABE NOVELA 38
L
1890 Mistress Branican MISTRESS NOVELA 39
1890-91 Claudio Bombarnac BOMBAR NOVELA 40
N
1891-92 Hombrecillo PETITBON NOVELA 41
1892-93 Maravillosas aventuras de Antifer ANTIFER NOVELA 42
1893 Isla de hélice HELICE NOVELA 43
1893-94 Un drama en Livonia LIVONIE NOVELA 44
1894 El soberbio Orinoco ORENOQ NOVELA 45
1894-95 Frente a la bandera DRAPEAU NOVELA 46
1895 Clovis Dardentor CLOVIS NOVELA 47
1895-96 La esfinge de los hielos SPHINX NOVELA 48
1896 El pueblo aéreo VILAERIE NOVELA 49
N
1896-97 Segunda patria PATRIE NOVELA 50
1897 El testamento de un excéntrico TESTAM NOVELA 51
1898 Los hermanos Kip KIP NOVELA 52
1899 Las historias de Jean-Marie CABIDOU NOVELA 53
Cabidoulin L
1899-00 El volcán de oro VOLCAN NOVELA 54
1900 Becas de viaje BOURSES NOVELA 55
1901 La caza del meteoro METEORE NOVELA 56
1901 El faro del fin del mundo PHARE NOVELA 57
1902 La invasión del mar INVASION NOVELA 58
1903 Amo del mundo MAITRE NOVELA 59
El hecho de haber agrupado los relatos y los ensayos como se indicó anteriormente
también nos permite equilibrar el tamaño de los textos dado que algunos no superan la decena
de páginas frente a novelas de más de 500 folios, tarea que facilita la ponderación de los
cálculos. La figura N° 1 muestra la extensión de cada texto. Por ejemplo, el N° 10, Una ciudad
flotante, representa el texto más corto con 50.556 ocurrencias, por delante de La isla
misteriosa con 245.927 ocurrencias. Es obvio señalar que las obras más largas están formadas
por el trío: La isla misteriosa, Los hijos del capitán Grant y Matías Sandorf. Las más cortas
corresponden a: Una ciudad flotante, El secreto de Maston, Un billete de lotería, El rayo
verde, El faro del fin del mundo y Amo del mundo.
10
Este gráfico se obtuvo del programa Hyperbase que presentamos más adelante.
11
Este subcorpus de «Cuentos» se presentará más adelante.
Un tercer corpus, llamado «complementario», mucho más pequeño y presentado en
un capítulo aparte, contiene los llamados textos «reelaborados»; otros publicados en la
colección Viajes extraordinarios con el nombre de Verne pero de la pluma de otros escritores
y, finalmente, algunos escritos en colaboración o transformados por el autor.
Capítulo II
Herramientas y métodos de explotación del
corpus
2.1. Herramientas informáticas utilizadas
Las estadísticas textuales han seguido evolucionando durante las últimas cuatro
décadas. Se han desarrollado métodos lexicométricos, apoyándose en particular en nuevas
explotaciones que actualmente permiten softwares bastante eficientes en términos de
procesamiento de texto. «Los softwares ya no solo equiparan «palabras», sino que también
se ocupan de lemas, códigos gramaticales, concatenaciones sintácticas y correlatos
semánticos; ahora ofrecen, y por primera vez, una herramienta para el procesamiento
estadístico completo del discurso»12.
Hyperbase, el software en el que basamos nuestro enfoque textométrico, fue diseñado
por Étienne Brunet y producido por la UMR 6039, Bases, Corpus et Langage (CNRS-
Universidad Niza Sophia-Antipolis). Este software está asociado con el etiquetador Cordial13,
y permite, de forma integral y simultánea, la lematización y el etiquetado morfosintáctico de
los textos: el texto en bruto se trata como fue escrito; el programa produce un texto
lematizado, mediante el cual las palabras se reducen a su forma canónica («viene» = «venir»);
las palabras vuelven así a su categoría o función («viene» = forma verbal de la tercera persona
del singular en presente) y para las estructuras sintácticas, el discurso se reduce a sus cadenas
sintagmáticas («el globo se levantó» = determinante + sustantivo + verbo ...)14.
12
Margareta Kastberg Sjöblom, L’écriture de J. M. Le Clézio. Des mots aux thèmes, Honoré Champion,
París, 2006, pág. 13.
13
Producido por la empresa Synapse Développement (Toulouse) este etiquetador es capaz de identificar,
entre otras cosas, «para cada palabra la categoría, la subcategoría, el género, el número, la función, y si es
un verbo el tiempo, el modo y la persona». É. Brunet, Hyperbase, Manuel de référence, versión 8.0, BCL,
Nice, 2009, pág. 143.
14
Damon Mayaffre, Paroles de président. Jacques Chirac (1995-2003) et le discours présidentiel sous la
Ve République, París, 2004, pág. 16. De forma sintética, podríamos decir que Hyperbase tiene una doble
función: documental y estadística. La función documental permite un acceso fácil y ordenado a los textos,
o incluso una lectura lineal, cronológica o libre de los textos. Hyperbase posibilita la indexación de palabras,
lemas y códigos, presentándose los primeros en forma alfabética, y sobre todo la navegación de un pasaje
a otro enlazados por rasgos característicos elegidos según nuestras necesidades. El software es capaz de
producir listas de oraciones que tengan una palabra o un código de nuestro interés. Se puede utilizar como
motor de búsqueda de una palabra o una cadena de caracteres en múltiples combinaciones. La segunda
función de Hyperbase nos puede permitir, entre otras cosas, conocer el grado de uso de un rasgo lingüístico,
acceder a la representación gráfica de la distribución de términos y al cálculo de la distancia entre textos,
mediante el análisis factorial de correspondencias y análisis arbóreo, conceptos estadísticos que se
explicarán más adelante. Esta función no deja de lado la posibilidad de conocer ciertos detalles relacionados
con la riqueza y aumento cronológico del vocabulario, la identificación de frases clave de un texto y muchos
otros. Los cálculos de esta función se presentan en forma de gráficos para facilitar la interpretación. Véase
D. Mayaffre, Paroles de président…, op. cit., pág. 16 y siguientes. y É. Brunet, Hyperbase, Manuel de
référence, op. cit. conceptos estadísticos que se explicarán más adelante. Esta función no deja de lado la
posibilidad de conocer ciertos detalles relacionados con la riqueza y aumento cronológico del vocabulario,
la identificación de frases clave de un texto y muchos otros. Los cálculos de esta función se presentan en
forma de gráficos para facilitar la interpretación. Véase D. Mayaffre, Palabras del presidente…, op. cit.,
pág. 16 y siguientes. y É. Brunet, Hyperbase, Reference Manual, op. cit.
Se utilizaron dos versiones del Software Hyperbase: una versión no lematizada (7.1)
para los primeros acercamientos al corpus y una segunda versión lematizada (8.0), basada en
el lematizador Cordial que facilita el procesamiento estadístico15.
2.2. Metodología
Gracias a las nuevas tecnologías, ahora es posible el procesamiento sistemático y
organizado de varios millones de palabras a la vez. La calidad de los resultados es
determinada por leyes matemáticas e imparcialmente rigurosas. Por tanto, este hecho permite
análisis mucho más precisos del corpus. Este trabajo de estadística léxica iniciado en Francia
por Charles Muller en los años 70 del siglo pasado, fue seguido por muchos otros
investigadores entre los que encontramos los nombres de É. Brunet, A. Salem, J.-M. Adam,
D. Labbé e incluso matemáticos como X. Luong. A partir de entonces, la estadística léxica
encontró su lugar dentro de la lingüística textual.
La lexicometría o estadística léxica se definió primero como un análisis numérico del
vocabulario de un texto, antes de hablar de logometría -como estudio global de un
discurso- o incluso de textometría, como análisis de un texto. El término estilometría,
que antecede al trabajo de la lingüística cuantitativa, se ha redefinido como estilístico
basado en la enumeración y fundamenta su especificidad en la caracterización de la
escritura.16
Lejos de un simple análisis intuitivo, nos pareció relevante utilizar la textometría para
manejar de manera más controlada los más de 6 millones de palabras contenidas en los 59
archivos de nuestra base de datos inicial, a los que se agrega una base de datos
complementaria de más de un millón de ocurrencias.
Con la precisión de las estadísticas, y gracias a un enfoque contrastivo, los términos
que denotan imprecisiones como «más o menos», «casi», y otros tienden a desaparecer para
dar paso a interpretaciones más específicas a la hora de «leer» los resultados. En lugar de
decir, por ejemplo, que Jules Verne usa la palabra «amor» menos en sus novelas que en sus
cuentos, diríamos que de las 291 ocurrencias de la palabra «amor», Verne subutiliza de hecho
dicho vocablo en sus novelas: «amor» aparece 31 veces en los relatos breves los cuales apenas
constituyen 2 textos de los 59 propuestos. Este método deja poco espacio para la vaguedad y
el empirismo y abre el camino a una descripción rigurosa y, si se quiere, más neutral del
corpus. Los resultados, por lo tanto, derivan de cálculos estadísticos17 que se presentarán en
forma de gráficos que muestran histogramas fácilmente comprensibles visualmente.
Un corpus como el nuestro debe someterse a ciertos requisitos: estar conformado por
versiones completas de los textos, constituido en orden cronológico de escritura, subdividido
por géneros, y tener un solo escritor objetivo insertado en un corte cronológico preciso. Todo
esto en contraste con un estándar externo, por ejemplo con la base de Frantext respecto a la
cual Hyperbase hace algunos cálculos. También es posible crear un estándar de referencia
endógeno compuesto por un conjunto de textos. Una parte amplia se evalúa frente a este
estándar de referencia. «Los resultados obtenidos son siempre relativos a este estándar
15
Hay otros dos softwares académicos para el procesamiento textométrico: Weblex y Lexico, ambos
accesibles en Internet.
16
Véronique Magri M., Le Voyage à pas comptés, Honoré Champion, París, 2009, pág. 19.
17
Dada la complejidad de determinados cálculos y habiendo entendido claramente el poco interés que
podrían tener para este trabajo, preferimos presentar los resultados y dar una breve explicación sobre los
objetivos del cálculo realizado, si es necesario. Para más detalles ver Charles Muller, Principes et Méthodes
de Statistique lexicale, Champion, París, 1992; Benoît Habert et al., Les linguistiques de corpus, Armand
Colin, París, 1997.
predeterminado. El cálculo de la puntuación estándar18 también es la base de una serie de
operaciones matemáticas implementadas en el software. Permite medir la diferencia
cuantitativa entre una frecuencia teórica y una frecuencia observada en un corpus dado»19.
Su valoración siempre se basará en el corpus-norma seleccionado.
Una vez establecido el corpus, se segmenta automáticamente en formas gráficas. Las
ocurrencias se cuentan, luego se lematizan y agrupan por el analizador Cordial.
Las inflexiones verbales así como las variaciones de género y número se neutralizan
para reducir las unidades gráficas a su forma canónica: el infinitivo para las formas
verbales, el singular para los sustantivos, el masculino singular para el adjetivo... [El
software] proporciona en resumen para cada forma la ortografía, el lema de referencia,
la codificación gramatical, en otras palabras su categoría gramatical, su función en la
oración, una información semántica que clasifica la forma en un campo léxico.
Hyperbase redistribuye así estos datos en los campos apropiados y procede a su
enumeración20.
Para una oración del primer capítulo de Hatteras, aquí está el ejemplo del etiquetado
realizado por Cordial:
18
La puntuación estándar (écart reduit en francés) resulta de la división entre un dato X menos la media
aritmética (desviación de la media) y la desviación estándar de la muestra. En estadística, la puntuación
estándar es el número de desviaciones estándar por las que el valor de una puntuación bruta (es decir, un
valor observado o un punto de datos) está por encima o por debajo del valor medio de lo que se está
observando o midiendo.
19
Véronique Magri M., Le Voyage à pas comptés, op. cit., pág. 21.
20
Ibid, pág. 22.
21
Los omnibuses multicolores, que corren a lo largo de la pared exterior de las cuencas, vertían su
cargamento de curiosos a cada minuto;
Minute: sustantivo, sustantivo común, femenino, singular, circunstancial de tiempo
Leur: determinante, tercera persona, singular, plural, grupo de objeto directo
Cargaison: sustantivo, sustantivo común, femenino, singular, grupo, objeto directo
De: preposición, grupo, objeto directo
Curieux: sustantivo, sustantivo común, masculino, grupo de objeto directo
;: puntuación
22
Ver Apéndice N° 3 El vocabulario de Jules Verne.
23
En adelante, los nombres de los textos serán dados, en su mayoría, con una palabra que los identifique.
Flotante: Una isla flotante, Billete: Un billete de lotería…
24
Los cuentos sabemos que datan de la década de los 50.
Capítulo II Las frecuencias
25
M. Kastberg, L’écriture de J.M.G. Le Clézio, op. cit., pág. 50.
26
Étienne Brunet, Le Vocabulaire de Victor Hugo, París-Genève, Champion-Slaktine, 1998, pág. 35.
27
Oc.: ocurrencias. Número de veces que aparece un vocablo.
28
Versión lematizada 8.0 (julio de 2008).
Tabla N° 2. Porcentaje de frecuencias en V en algunos autores del siglo XIX29
Autor Hápax + BF FM AF MAF
Hugo 13 26 17 44
Sand 8 23 16 53
Stendhal 15 27 19 39
Lamartine 15 25 17 43
Nerval 20 24 15 41
Proust 15 23 18 44
Verne 13 27 17 43
Verne30 10 26 18 46
BF: Bajas Frecuencias, FM: Frecuencias Medias; AF: Altas frecuencias, MAF: Muy Altas
Frecuencias.
29
Según las bases de datos establecidas por É. Brunet, Hyperbase. UMR 6039, Bases, Corpus et Langage
(CNRS-Université de Nice Sophia-Antipolis). El Anexo N° 4 contiene los porcentajes en detalle.
30
Basado en los resultados de nuestra base de datos.
Figura N° 3: Distribución de frecuencias en N
(BF = 1 + 2 + 3 + 4; MF = 5 + 6 + 7; AF = 8 + 9; MAF = 10 + 11)
2.2. El hápax
Con el hápax «estamos en las fronteras del diccionario, donde confluyen palabras
extranjeras, nombres propios, regionalismos, jergas, palabras técnicas... y también palabras
lisiadas que sufren de una letra desfigurada o perdida»32. En Verne, un gran número de fechas
y cifras aisladas forman parte de la lista de hapaxes (528.806, 1899, 1901, 1904, 1911, 1939,
1986, 2021). También hay ciertas formas verbales que son poco utilizadas (abrevió,
abreviada, abreviadas, abrevadas, abreviará, abreviaremos, abreven, abrevaron, abstenga,
abstienes); muchos nombres propios (Álvarez, Amakata, Abydos, Blarney, Chang); palabras
tomadas de la jerga (del boxeo: renfleur (zumbador) (campana, timbre)); del vocabulario
marítimo: pagale (en pagale: precipitadamente), de la jerga militar: subversiones (trastornos,
reversiones del orden establecido); regionalismos (ieuvres (pulpos), gypsie (gitana))...
31
Ver apéndice No 5 Distribución de frecuencias.
32
Étienne Brunet, Comptes d’auteurs, Tome I, Honoré Champion, París, 2009, pág. 91.