You are on page 1of 18

Jules Verne.

Un análisis textométrico
Los Viajes Extraordinarios en las Estadísticas Lexicales

José Gregorio PARADA RAMIREZ


Un estudio detallado de la obra de Julio Verne basado en la investigación
textométrica.
El interés de esta investigación consiste en un tener un enfoque diferente de la
obra de Julio Verne a través del análisis lexicométrico y estadístico. Basándose
en las posibilidades que ofrecen las nuevas tecnologías, el autor ha realizado
un trabajo detallado de casi todo el corpus de Verne.
La precisión estadística fue capaz de confirmar, en cierto modo, lo que los
estudios literarios bastante subjetivos habían pronunciado en relación con la
obra de Verne. El autor, en su quehacer metódico, quiso, gracias a un método
riguroso y bastante formal, acercarse e incluso conocer en detalle, casi toda la
producción literaria del afamado escritor francés. Con la excepción de París en
el siglo XX, toda la producción novelística del autor fue incluida en la
investigación. A la misma se agregó un caudal importante de ensayos y
cuentos, con lo cual, por vez primera, la obra verniana ha sido objeto de un
estudio exhaustivo desde el punto de vista lexicométrico.
Este estudio puede abrir el camino a otras investigaciones dispuestas a
comparar, por ejemplo, la obra de Verne con la de su hijo Michel con el fin de
aclarar las lagunas que existen en cuanto a la autoría real de ciertos libros y,
por supuesto, servir de modelo para iniciar estudios textométricos de cualquier
otro autor.

El lector podrá acceder al contenido completo en el libro publicado


recientemente en Amazon. Este es su enlace.
Amazon.com: JULES VERNE. UN ANÁLISIS TEXTOMÉTRICO: LOS VIAJES EXTRAORDINARIOS EN
LAS ESTADÍSTICAS LEXICALES (Spanish Edition): 9798389296855: PARADA RAMIREZ, JOSE JOSE
GREGORIO: Libros

Adelantamos aquí parte del contenido de los primeros capítulos para dar una
idea precisa del objetivo de la investigación.
Índice

Nota preliminar del autor 1


Sección I 3
El corpus de Jules Verne 3
Capítulo I 3
Jules Verne, medio siglo de producción literaria 3
Capítulo II 10
Herramientas y métodos de explotación del corpus 10
Sección II 15
El vocabulario de Jules Verne15
Capítulo I Extensión del corpus 15
Capítulo II Las frecuencias 17
Capítulo III La riqueza del vocabulario 27
Capítulo IV Crecimiento léxico 32
Capítulo V Progresión y regresión de palabras 35
Capítulo VI Distancia léxica 40
Conclusiones 45
Sección III 47
La frase verniana y su ritmo 47
Capítulo I Longitud de la palabra 48
Capítulo II Puntuación fuerte 50
Capítulo III La segmentación interna de la oración 56
Conclusión 63
Sección IV 65
Partes de la oración 65
Capítulo I La distribución de las categorías gramaticales 65
Capítulo II El sintagma nominal 69
Capítulo III Los pronombres 81
Conclusiones 93
Capítulo IV La categoría verbal 94
Conclusiones 130
Sección V 133
Semántica léxica 133
Capítulo I. Especificidades en Verne 134
A manera de síntesis 160
Sección VI 165
Una visión general: temáticas, topologías, conexiones intertextuales 165
Capítulo I Estructura temática 165
Conclusiones 216
Capítulo II Distancia y conexión léxicas a partir de temáticas 218
Conclusión 239
Conclusión general 241
Anexos 245
Bibliografía 329
El autor 335
Sección I
El corpus de Jules Verne
Capítulo I
Jules Verne, medio siglo de producción literaria
En 1851, Jules Verne publicó sus dos primeros cuentos: Un drama en los aires y Un
drama en México1, ambos escritos un año antes. Estos textos determinan el principio de una
carrera literaria que se extiende a lo largo de la segunda mitad del siglo XIX y que no se
detiene ni siquiera con la muerte del escritor en 1905, si tenemos en cuenta algunos textos
inéditos aparecidos después. Sin embargo, una larga serie de obras teatrales precederá a este
significativo comienzo para el estudiante de derecho que está decidido a dar un giro a la
literatura2.
Los años siguientes vieron aumentar la producción de Verne en una década marcada
por la preferencia por el teatro. Así, desde 1852 hasta 1860, escribió óperas cómicas, operetas,
comedias... Durante este mismo período, el autor nantés hizo una importante incursión en la
narrativa y produjo un gran número de cuentos, algunos de los cuales no aparecerán. hasta
unos años después en la colección «Voyages extraordinaires», o incluso más de un siglo
después de la fecha conocida de escritura.
En 1859, tras un viaje con su amigo Hignard, J. Verne escribió Viaje a contrapelo
por Inglaterra y Escocia3, preámbulo de la serie de novelas que se inaugurará a partir de
1862, año del encuentro con la editorial Hetzel. Más de cincuenta novelas saldrán de la pluma
del autor de Nantes. Comprometido con la editorial Hetzel como sabemos, Verne produjo «a
toda máquina» una importante cantidad de novelas en detrimento de las obras de teatro y los
cuentos en los que había invertido mucho esfuerzo al inicio de su carrera literaria.
En cuanto a las obras de teatro de esta nueva etapa «hetzeliana», buena parte trata de
sus novelas, a excepción de Las Sabinas (ópera escrita con Charles Wallut).
Entre los ensayos y discursos, encontramos las siguientes obras: Salón 1857, Los
meridianos y el calendario, Veinticuatro minutos en globo, Una ciudad ideal, Inauguración
del Circo Municipal de Amiens y Recuerdos de infancia y juventud.
A esta rica lista de obras, también hay que agregar muchas canciones y poemas.

1.1. El corpus de Jules Verne4


Disponibles en la web y formando parte del dominio público, las obras de Jules Verne
son, en su mayoría, de fácil acceso en varios formatos digitalizados, lo que permite establecer

1
Publicados originalmente con los siguientes títulos: Un viaje en globo y Los primeros navíos de la marina
mexicana.
2
En los apéndices se ha incluido una lista completa con más detalles (N° 1 Las obras de Jules Verne).
3
Esta novela aparecerá por primera vez en 1989 con el sello de Le Cherche midi éditeur.
4
Con muchas modificaciones, los primeros capítulos de esta investigación se han publicado como artículo.
«Panorama d’un corpus millionnaire». En: Hechos y proyecciones del lenguaje. Pasto, Colombia, 2011,
págs. 241-265.
un corpus bastante amplio de textos susceptibles de ser estudiados mediante las herramientas
del análisis estadístico de las que disponemos hoy día.
Para la constitución del corpus «Verne» hemos excluido, por un lado, la obra poética
de sus dos cuadernos condensados en un libro, Poésies inédites, publicado en 1989 por Le
Cherche midi. Desde un punto de vista estadístico, este texto por sí solo puede considerarse
marginal dado el predominio de la producción novelística. Por otro lado, a pesar de nuestros
mejores esfuerzos, solo encontramos una muestra muy pequeña de la obra teatral de Verne.
Aquí nuevamente, hemos decidido descartar esta producción por tres razones principales: en
primer lugar, una parte significativa de las piezas fue producida a partir de un trabajo
colaborativo y no es producto, en consecuencia, solo de nuestro autor. Por otro lado, la
repetición de los nombres de los personajes en los textos indudablemente distorsiona las
estadísticas sobre la distribución de los nombres propios en todo el corpus. Finalmente, dado
que un número nada despreciable de las obras teatrales proviene de adaptaciones de los Viajes
extraordinarios, hemos estimado que el interés esencial de la producción verniana estriba en
las novelas.
Hemos reunido un corpus que contiene la mayoría de las novelas y cuentos que hemos
podido encontrar a lo largo de nuestra investigación5.
El Anexo N° 2 contiene la lista de obras que se encuentran en el corpus que constituye
la base de datos sobre la cual se realizará nuestro análisis lexicométrico; estas obras se
presentan en orden cronológico6 supuesto o confirmado de su redacción y no de su
publicación. Clasificadas de esta forma, pueden revelarnos información valiosa sobre la
evolución de la escritura. El corpus también contiene las abreviaturas utilizadas para
identificar los textos digitalizados a lo largo de este trabajo y el género al que pertenecen.
Aunque las obras de Jules Verne son de dominio público, cabe señalar que las
versiones digitalizadas se tomaron prestadas de los siguientes sitios web:
http://jv.gilead.org.il
http://www.ebooksgratuits.com
http://www.scribd.com
http://beq.www.ebooksgratuits.com/vents/verne.htm

Las versiones descargadas para tratamiento informático corresponden a las versiones


completas publicadas por Hetzel, y no a las adaptadas o resumidas que se hicieron tan
populares tras el éxito de Verne.

1.2. El corpus general


Hemos intentado recopilar la mayor cantidad de textos posible para presentar la
producción novelística completa de Verne, a la que, por supuesto, hemos añadido un gran
número de cuentos y ensayos. En la lista de ensayos, hemos agrupado, entre otros, discursos,
memorias y artículos7.

5
Para algunos textos, para los que la versión digital no estaba disponible, convertimos la versión impresa
a través un escáner de texto completo, luego usamos el software Omnipage para transformar la versión pdf
resultante en formato Word (y, en el peor de los casos, usamos el lápiz-escáner para los párrafos más
engorrosos o reescribimos si era necesario), y finalmente leímos y corregimos los textos comparándolos
con los originales para evitar errores. Este fue el caso de Viaje a contrapelo por Inglaterra y Escocia,
trabajo que nos llevó varias semanas.
6
Esta cronología sigue lo más fielmente posible la establecida por Jean-Paul Dekiss, Jules Verne
Enchanteur, Edit. du Félin, París, 1999, y por la Sociedad Jules Verne.
7
A pesar de nuestros esfuerzos, no hemos podido acceder a versiones digitalizadas de textos publicados
relativamente recientes, como París en el siglo XX, San Carlos y otros cuentos, L’Oncle Robinson, Histoire
des grands voyages et des grands voyageurs, y por supuesto casi todas las obras de teatro. A esta lista habría
En la Tabla 1, presentamos el corpus tal como fue diseñado para el procesamiento
estadístico porque las limitaciones del software utilizado nos obligaron a ordenar el corpus
de manera que no exceda los 75 textos. Sin embargo, obviamente mantuvimos la misma
cronología de las novelas, que consideramos la mayor producción del autor desde un punto
de vista estadístico, luego distribuimos los relatos en dos períodos (1850-1870 y 1870-1890)
y los dispusimos en el orden correspondiente. Para los ensayos, procedimos de manera
similar, reuniéndolos en un solo archivo. La colección de cuentos del primer período, por lo
tanto, ocupa el primer lugar en nuestro corpus reconstituido porque la mayoría de los textos
fueron escritos en la década de los cincuenta; en cuanto al segundo, se ubica, en orden
cronológico, en la casilla correspondiente a 1880. El mismo año corresponde a los ensayos.
En resumen, el corpus reconstituido contiene, por tanto, 59 archivos, 56 de los cuales
representan novelas y los tres restantes 18 cuentos y 9 ensayos. La distribución está, por
supuesto, un poco desequilibrada, pero nos permitirá mantener un corpus homogéneo para el
género narrativo. Las novelas y los cuentos, sin duda, tienen muchos puntos en común.

Cuadro N° 1. El corpus reconstituido


AÑO TÍTULO TÍTULO GÉNER CÓD.
CORTO8 O
CUENTOS_1 (1850-1870)9 NOUV_1 CUENTO 01
1850- Un drama los aire -Un drama en (CUENTOS S
1870 México -Martín Paz -Pierre Jean - _1)
Maese Zacarías -Una hibernada en los
hielos -La boda del señor Anselmo de
los Tilos - Miserias felices de tres
viajeros en Escandinavia -El conde de
Chanteleine -Los Forzadores del
bloqueo -El Humbug
1859 Viaje a contrapelo por Inglaterra y RECULON NOVELA 02
Escocia S
1862 Cinco semanas en globo BALLON NOVELA 03
1863 Viajes y aventuras del capitán Hatteras HATTERA NOVELA 04
S
1864 Viaje al centro de la Tierra TERRE NOVELA 05
1864-65 De la Tierra a la Luna. Viaje directo en TERRELU NOVELA 06
... NE
1865 Los hijos del capitán Grant GRANT NOVELA 07
1866-69 Veinte mil leguas de viaje submarino MERS NOVELA 08
1868-69 Alrededor de la Luna AUTOURL NOVELA 09
U
1869 Una ciudad flotante FLOTANT NOVELA 10
E
1870 Las aventuras de tres rusos y tres 3RUSSES NOVELA 11
ingleses en el África austral
1870-74 El Chancellor CHANCEL NOVELA 12
L

que añadir dos libros inacabados: Un sacerdote en 1839 (1845) y Jédédias Jamet (1847). A pesar de estas
deficiencias, es imperativo señalar que el corpus, fuera de las obras de teatro, engloba más del 90% de la
obra verniana.
8
Mantenemos los títulos cortos en francés pues con esos nombres aparecen los textos en las imágenes aquí
incluidas, casi siempre con las tres primeras letras.
9
Año medio de redacción de cuentos para este período: 1853.
1871 El país de las pieles FOURRUR NOVELA 13
ES
1872 La vuelta al mundo en 80 días MONDE NOVELA 14
1873-74 La isla misteriosa ILEMYST NOVELA 15
1874-76 Héctor Servadac Viajes y aventuras a SERVADA NOVELA 16
través del mundo solar C
1875 Miguel Strogoff. De Moscú a Irkutsk STROGOF NOVELA 17
F
1876- Las Indias negras INDIAS NOVELA 18
1877
1877-78 Un capitán de quince años 15ANS NOVELA 19
1878-79 Las tribulaciones de un chino en China TRIBULAT NOVELA 20
1879 La casa de vapor. Viaje por el norte de VAPEUR NOVELA 21
la India
1880 ENSAYOS ESSAIS ENSAYO 22
Salón de 1857 -Edgar Poe y sus obras - S
Acerca del Gigante -Geografía
ilustrada de Francia y sus colonias
(extracto) -Los meridianos y el
calendario- Veinticuatro minutos en
globo -Una ciudad ideal (1875b) -
Inauguración del Circo municipal de
Amiens - Recuerdos de infancia y de
juventud
CUENTOS_2 (1870-1890) NOUV_2 CUENTO 23
1880 La fantasía del doctor Ox – Los (CUENTOS S
amotinados de la Bounty - Diez horas _2)
de caza - Fritt-Flac - Las aventuras de
la familia Ratón - Gil Braltar -El Sr. Re-
Sostenido y la Srta. Mi Bemol
1880-81 La Jangada, ochocientas leguas por el JANGADA NOVELA 24
Amazonas
1881 Escuela de Robinsones ROBINSO NOVELA 25
N
1881-82 El rayo verde RAYON NOVELA 26
1882 Kerabán el testarudo KERABAN NOVELA 27
1883 El archipiélago en llamas ARCHIPEL NOVELA 28
1883-84 Matías Sandorf SANDORF NOVELA 29
1884-89 El castillo de los Cárpatos CARPATH NOVELA 30
1885 Robur el conquistador ROBUR NOVELA 31
1885 Un boleto de lotería. El número 9672 BILLET NOVELA 32
1885-86 Norte contra Sur NORSUD NOVELA 33
1886 El camino de Francia CHEMIN NOVELA 34
1886-87 Dos años de vacaciones VACANC NOVELA 35
1887-88 Familia sin nombre SANSNOM NOVELA 36
1888-89 El secreto de Maston DESSUS NOVELA 37
1889 César Cascabel. CASCABE NOVELA 38
L
1890 Mistress Branican MISTRESS NOVELA 39
1890-91 Claudio Bombarnac BOMBAR NOVELA 40
N
1891-92 Hombrecillo PETITBON NOVELA 41
1892-93 Maravillosas aventuras de Antifer ANTIFER NOVELA 42
1893 Isla de hélice HELICE NOVELA 43
1893-94 Un drama en Livonia LIVONIE NOVELA 44
1894 El soberbio Orinoco ORENOQ NOVELA 45
1894-95 Frente a la bandera DRAPEAU NOVELA 46
1895 Clovis Dardentor CLOVIS NOVELA 47
1895-96 La esfinge de los hielos SPHINX NOVELA 48
1896 El pueblo aéreo VILAERIE NOVELA 49
N
1896-97 Segunda patria PATRIE NOVELA 50
1897 El testamento de un excéntrico TESTAM NOVELA 51
1898 Los hermanos Kip KIP NOVELA 52
1899 Las historias de Jean-Marie CABIDOU NOVELA 53
Cabidoulin L
1899-00 El volcán de oro VOLCAN NOVELA 54
1900 Becas de viaje BOURSES NOVELA 55
1901 La caza del meteoro METEORE NOVELA 56
1901 El faro del fin del mundo PHARE NOVELA 57
1902 La invasión del mar INVASION NOVELA 58
1903 Amo del mundo MAITRE NOVELA 59

El hecho de haber agrupado los relatos y los ensayos como se indicó anteriormente
también nos permite equilibrar el tamaño de los textos dado que algunos no superan la decena
de páginas frente a novelas de más de 500 folios, tarea que facilita la ponderación de los
cálculos. La figura N° 1 muestra la extensión de cada texto. Por ejemplo, el N° 10, Una ciudad
flotante, representa el texto más corto con 50.556 ocurrencias, por delante de La isla
misteriosa con 245.927 ocurrencias. Es obvio señalar que las obras más largas están formadas
por el trío: La isla misteriosa, Los hijos del capitán Grant y Matías Sandorf. Las más cortas
corresponden a: Una ciudad flotante, El secreto de Maston, Un billete de lotería, El rayo
verde, El faro del fin del mundo y Amo del mundo.

Figura N° 110 Extensión del corpus Jules Verne

Dado que en este corpus general centramos nuestros análisis y comentarios en


particular en las novelas, se ha creado un subcorpus que agrupa los relatos breves con el fin
de conocer con más detalle las características de este género en nuestro autor11.

10
Este gráfico se obtuvo del programa Hyperbase que presentamos más adelante.
11
Este subcorpus de «Cuentos» se presentará más adelante.
Un tercer corpus, llamado «complementario», mucho más pequeño y presentado en
un capítulo aparte, contiene los llamados textos «reelaborados»; otros publicados en la
colección Viajes extraordinarios con el nombre de Verne pero de la pluma de otros escritores
y, finalmente, algunos escritos en colaboración o transformados por el autor.
Capítulo II
Herramientas y métodos de explotación del
corpus
2.1. Herramientas informáticas utilizadas
Las estadísticas textuales han seguido evolucionando durante las últimas cuatro
décadas. Se han desarrollado métodos lexicométricos, apoyándose en particular en nuevas
explotaciones que actualmente permiten softwares bastante eficientes en términos de
procesamiento de texto. «Los softwares ya no solo equiparan «palabras», sino que también
se ocupan de lemas, códigos gramaticales, concatenaciones sintácticas y correlatos
semánticos; ahora ofrecen, y por primera vez, una herramienta para el procesamiento
estadístico completo del discurso»12.
Hyperbase, el software en el que basamos nuestro enfoque textométrico, fue diseñado
por Étienne Brunet y producido por la UMR 6039, Bases, Corpus et Langage (CNRS-
Universidad Niza Sophia-Antipolis). Este software está asociado con el etiquetador Cordial13,
y permite, de forma integral y simultánea, la lematización y el etiquetado morfosintáctico de
los textos: el texto en bruto se trata como fue escrito; el programa produce un texto
lematizado, mediante el cual las palabras se reducen a su forma canónica («viene» = «venir»);
las palabras vuelven así a su categoría o función («viene» = forma verbal de la tercera persona
del singular en presente) y para las estructuras sintácticas, el discurso se reduce a sus cadenas
sintagmáticas («el globo se levantó» = determinante + sustantivo + verbo ...)14.

12
Margareta Kastberg Sjöblom, L’écriture de J. M. Le Clézio. Des mots aux thèmes, Honoré Champion,
París, 2006, pág. 13.
13
Producido por la empresa Synapse Développement (Toulouse) este etiquetador es capaz de identificar,
entre otras cosas, «para cada palabra la categoría, la subcategoría, el género, el número, la función, y si es
un verbo el tiempo, el modo y la persona». É. Brunet, Hyperbase, Manuel de référence, versión 8.0, BCL,
Nice, 2009, pág. 143.
14
Damon Mayaffre, Paroles de président. Jacques Chirac (1995-2003) et le discours présidentiel sous la
Ve République, París, 2004, pág. 16. De forma sintética, podríamos decir que Hyperbase tiene una doble
función: documental y estadística. La función documental permite un acceso fácil y ordenado a los textos,
o incluso una lectura lineal, cronológica o libre de los textos. Hyperbase posibilita la indexación de palabras,
lemas y códigos, presentándose los primeros en forma alfabética, y sobre todo la navegación de un pasaje
a otro enlazados por rasgos característicos elegidos según nuestras necesidades. El software es capaz de
producir listas de oraciones que tengan una palabra o un código de nuestro interés. Se puede utilizar como
motor de búsqueda de una palabra o una cadena de caracteres en múltiples combinaciones. La segunda
función de Hyperbase nos puede permitir, entre otras cosas, conocer el grado de uso de un rasgo lingüístico,
acceder a la representación gráfica de la distribución de términos y al cálculo de la distancia entre textos,
mediante el análisis factorial de correspondencias y análisis arbóreo, conceptos estadísticos que se
explicarán más adelante. Esta función no deja de lado la posibilidad de conocer ciertos detalles relacionados
con la riqueza y aumento cronológico del vocabulario, la identificación de frases clave de un texto y muchos
otros. Los cálculos de esta función se presentan en forma de gráficos para facilitar la interpretación. Véase
D. Mayaffre, Paroles de président…, op. cit., pág. 16 y siguientes. y É. Brunet, Hyperbase, Manuel de
référence, op. cit. conceptos estadísticos que se explicarán más adelante. Esta función no deja de lado la
posibilidad de conocer ciertos detalles relacionados con la riqueza y aumento cronológico del vocabulario,
la identificación de frases clave de un texto y muchos otros. Los cálculos de esta función se presentan en
forma de gráficos para facilitar la interpretación. Véase D. Mayaffre, Palabras del presidente…, op. cit.,
pág. 16 y siguientes. y É. Brunet, Hyperbase, Reference Manual, op. cit.
Se utilizaron dos versiones del Software Hyperbase: una versión no lematizada (7.1)
para los primeros acercamientos al corpus y una segunda versión lematizada (8.0), basada en
el lematizador Cordial que facilita el procesamiento estadístico15.

2.2. Metodología
Gracias a las nuevas tecnologías, ahora es posible el procesamiento sistemático y
organizado de varios millones de palabras a la vez. La calidad de los resultados es
determinada por leyes matemáticas e imparcialmente rigurosas. Por tanto, este hecho permite
análisis mucho más precisos del corpus. Este trabajo de estadística léxica iniciado en Francia
por Charles Muller en los años 70 del siglo pasado, fue seguido por muchos otros
investigadores entre los que encontramos los nombres de É. Brunet, A. Salem, J.-M. Adam,
D. Labbé e incluso matemáticos como X. Luong. A partir de entonces, la estadística léxica
encontró su lugar dentro de la lingüística textual.
La lexicometría o estadística léxica se definió primero como un análisis numérico del
vocabulario de un texto, antes de hablar de logometría -como estudio global de un
discurso- o incluso de textometría, como análisis de un texto. El término estilometría,
que antecede al trabajo de la lingüística cuantitativa, se ha redefinido como estilístico
basado en la enumeración y fundamenta su especificidad en la caracterización de la
escritura.16

Lejos de un simple análisis intuitivo, nos pareció relevante utilizar la textometría para
manejar de manera más controlada los más de 6 millones de palabras contenidas en los 59
archivos de nuestra base de datos inicial, a los que se agrega una base de datos
complementaria de más de un millón de ocurrencias.
Con la precisión de las estadísticas, y gracias a un enfoque contrastivo, los términos
que denotan imprecisiones como «más o menos», «casi», y otros tienden a desaparecer para
dar paso a interpretaciones más específicas a la hora de «leer» los resultados. En lugar de
decir, por ejemplo, que Jules Verne usa la palabra «amor» menos en sus novelas que en sus
cuentos, diríamos que de las 291 ocurrencias de la palabra «amor», Verne subutiliza de hecho
dicho vocablo en sus novelas: «amor» aparece 31 veces en los relatos breves los cuales apenas
constituyen 2 textos de los 59 propuestos. Este método deja poco espacio para la vaguedad y
el empirismo y abre el camino a una descripción rigurosa y, si se quiere, más neutral del
corpus. Los resultados, por lo tanto, derivan de cálculos estadísticos17 que se presentarán en
forma de gráficos que muestran histogramas fácilmente comprensibles visualmente.
Un corpus como el nuestro debe someterse a ciertos requisitos: estar conformado por
versiones completas de los textos, constituido en orden cronológico de escritura, subdividido
por géneros, y tener un solo escritor objetivo insertado en un corte cronológico preciso. Todo
esto en contraste con un estándar externo, por ejemplo con la base de Frantext respecto a la
cual Hyperbase hace algunos cálculos. También es posible crear un estándar de referencia
endógeno compuesto por un conjunto de textos. Una parte amplia se evalúa frente a este
estándar de referencia. «Los resultados obtenidos son siempre relativos a este estándar

15
Hay otros dos softwares académicos para el procesamiento textométrico: Weblex y Lexico, ambos
accesibles en Internet.
16
Véronique Magri M., Le Voyage à pas comptés, Honoré Champion, París, 2009, pág. 19.
17
Dada la complejidad de determinados cálculos y habiendo entendido claramente el poco interés que
podrían tener para este trabajo, preferimos presentar los resultados y dar una breve explicación sobre los
objetivos del cálculo realizado, si es necesario. Para más detalles ver Charles Muller, Principes et Méthodes
de Statistique lexicale, Champion, París, 1992; Benoît Habert et al., Les linguistiques de corpus, Armand
Colin, París, 1997.
predeterminado. El cálculo de la puntuación estándar18 también es la base de una serie de
operaciones matemáticas implementadas en el software. Permite medir la diferencia
cuantitativa entre una frecuencia teórica y una frecuencia observada en un corpus dado»19.
Su valoración siempre se basará en el corpus-norma seleccionado.
Una vez establecido el corpus, se segmenta automáticamente en formas gráficas. Las
ocurrencias se cuentan, luego se lematizan y agrupan por el analizador Cordial.
Las inflexiones verbales así como las variaciones de género y número se neutralizan
para reducir las unidades gráficas a su forma canónica: el infinitivo para las formas
verbales, el singular para los sustantivos, el masculino singular para el adjetivo... [El
software] proporciona en resumen para cada forma la ortografía, el lema de referencia,
la codificación gramatical, en otras palabras su categoría gramatical, su función en la
oración, una información semántica que clasifica la forma en un campo léxico.
Hyperbase redistribuye así estos datos en los campos apropiados y procede a su
enumeración20.

Para una oración del primer capítulo de Hatteras, aquí está el ejemplo del etiquetado
realizado por Cordial:

Les omnibus Le_7 omnibus_2 _Da__p_T _Nc___T Afp_p_T


multicolores , qui multicolore_3 , qui_5 _Ypw_Pr__nS_Vmip3pV _Da_msD
longent le mur longer_1 le_7 mur_2 _Nc_ms_D _Afpms_D _Da__p_D
extérieur des extérieur_3 de_le_7 _Nc_mp_D _Ypw _Vmii3pV
bassins , déversaient bassin_2 , déverser_1 à_9 _Sp___K _Dt__s_K _Nc_fs_K
à chaque minute chaque_7 minute_2 leur_7 _Ds3_spD _Nc_fs_D _Sp___D
leur cargaison de cargaison_2 de_9 _Nc_m__D _Yps
curieux ;21 curieux_2

Les: determinante, artículo, plural, grupo nominal del sujeto


Omnibus: sustantivo, sustantivo común, grupo nominal del sujeto
Multicolores: adjetivo, calificativo, positivo, plural, grupo nominal del sujeto
,: puntuación
Qui: pronombre, relativo, sujeto, sujeto
Longent: verbo principal, indicativo, presente, tercera persona, plural, base proposicional
Le: determinante, artículo, masculino, singular, grupo de objeto directo
Mur: sustantivo, sustantivo común, masculino, singular, grupo de objeto directo
Extérieur: adjetivo, calificativo, positivo, masculino, singular, grupo de objeto directo
Des: determinante, artículo, plural, grupo de objeto directo,
Bassins: sustantivo, sustantivo común, masculino, plural, grupo de objeto directo
,: puntuación
Déversaient: verbo principal, indicativo, tercera persona, plural, base proposicional
À: preposición, circunstancial de tiempo
Chaque: determinante, indefinido, singular, circunstancial de tiempo

18
La puntuación estándar (écart reduit en francés) resulta de la división entre un dato X menos la media
aritmética (desviación de la media) y la desviación estándar de la muestra. En estadística, la puntuación
estándar es el número de desviaciones estándar por las que el valor de una puntuación bruta (es decir, un
valor observado o un punto de datos) está por encima o por debajo del valor medio de lo que se está
observando o midiendo.
19
Véronique Magri M., Le Voyage à pas comptés, op. cit., pág. 21.
20
Ibid, pág. 22.
21
Los omnibuses multicolores, que corren a lo largo de la pared exterior de las cuencas, vertían su
cargamento de curiosos a cada minuto;
Minute: sustantivo, sustantivo común, femenino, singular, circunstancial de tiempo
Leur: determinante, tercera persona, singular, plural, grupo de objeto directo
Cargaison: sustantivo, sustantivo común, femenino, singular, grupo, objeto directo
De: preposición, grupo, objeto directo
Curieux: sustantivo, sustantivo común, masculino, grupo de objeto directo
;: puntuación

Se pueden detectar algunas imperfecciones de identificación después del etiquetado,


pero su número es insignificante dada la gran cantidad de datos utilizados.
Sección II
El vocabulario de Jules Verne
Capítulo I Extensión del corpus
Es necesario presentar algunos conceptos estadísticos antes de hablar sobre la
extensión del corpus en sí. La frecuencia absoluta es el número de apariciones concretas
(ocurrencias) de una forma en el corpus. Será sinónimo del término efectivo. Por otro lado, la
frecuencia relativa es la relación entre el tamaño de la clase y el número total de efectivos.
Según el consejo de Charles Muller, una buena distribución del corpus nos permitirá
realizar análisis más rigurosos en el sentido de que una diferencia significativa de tamaño
puede ir en detrimento de determinados cálculos. El texto más corto de nuestro corpus (Una
isla flotante con 50.556 ocurrencias) es apenas cinco veces más pequeño que el texto más
largo (La isla misteriosa con 245.927 ocurrencias), proporción que le da al corpus una cierta
homogeneidad, deseada en particular por Dominique Labbé, especialmente para el cálculo
de la distancia léxica. D. Labbé recomienda que esta relación no sea mayor de diez.
El corpus Verne contiene un total de 6.591.870 ocurrencias y 77.156 vocablos
distribuidos en 59 textos22. En la figura N° 1, salvo algunas excepciones, constatamos cierta
homogeneidad ligada al tamaño de los textos. Los más cortos, entre 50.556 y 62.589
ocurrencias, son: Flotante (50.556)23, Maston (60.082), Billete (60.808), Rayo verde
(61.224), Viaje a contrapelo (62.121), Amo del mundo (62.235), Faro (62.589). Entre los más
largos, con más de 165.000 ocurrencias, encontramos: Pieles (166.374), Hatteras (169.795),
20.000 leguas (175.248), Cuentos_1 (179.846), Sandorf (197.459), Grant (241.887) y La isla
misteriosa (245.927), textos en su mayor parte inscritos en el primer período de producción
literaria del autor. El tamaño medio de aparición por texto sería 111.726.
Los textos con menor número de vocablos son: Faro (5.879), Billete (6.361), Camino
de Francia (6.471), Chancellor (6.564) y Cabidoulin (6.936). Por otro lado, los que muestran
el mayor número de vocablos son: La isla misteriosa (14.318), 20.000 leguas (14.834),
Cuentos_1 (15.149), Grant (17.146). Notamos así, con estos últimos textos, una voluntad de
afirmación en la carrera literaria de Verne porque todas estas novelas se producen antes de
1874, bajo los primeros doce años de supervisión hetzeliana24. El autor quiere a toda costa
imponer su estilo, indagar en el terreno de la ciencia y agotar la nueva veta que ha descubierto
en sus Viajes extraordinarios. En este sentido, no deja de mostrar un vocabulario variado y
sobre todo nuevo.
Estas cifras son de suma importancia para el cálculo de la frecuencia relativa.
Tomemos como ejemplo dos textos: Viaje a contrapelo (62.121 ocurrencias y 9.009
vocablos) y Robinsones (71.512 ocurrencias y 7.694 vocablos). A pesar de la tendencia
general según la cual existe una conexión lógica entre N (cantidad de veces que aparece un
valor) y V (número total de datos que componen todo el conjunto), estos textos muestran que
es importante considerar la extensión, ya que a veces los textos más cortos pueden tener una
lista más amplia de vocablos. Este tema se desarrollará más adelante en el capítulo «Riqueza
de vocabulario».

22
Ver Apéndice N° 3 El vocabulario de Jules Verne.
23
En adelante, los nombres de los textos serán dados, en su mayoría, con una palabra que los identifique.
Flotante: Una isla flotante, Billete: Un billete de lotería…
24
Los cuentos sabemos que datan de la década de los 50.
Capítulo II Las frecuencias

2.1 División de las frecuencias


La noción de frecuencia permitirá clasificar las palabras según la siguiente
distribución:
Hápax o vocablos de frecuencia 1 (encontrados solo una vez en el corpus)
Bajas frecuencias: 2-100
Frecuencias medias: 101-999
Altas frecuencias: 1.000-2.000
Frecuencias muy altas: > 2.000
En cuanto a la cantidad de vocablos, primero identificamos los hapaxes en número de
26.777; para las bajas frecuencias un total de 45.574; Las frecuencias medias, 4.288; las
frecuencias altas 238 formas y para las muy altas 279 ocurrencias, para un total de 77.156
formas diferentes.
Los hapaxes representan 35  vocabulario pero apenas 1  del corpus (ver figura 4).
La versión lematizada de la base de datos tiene un total de 17.032 hapaxes de 46.382 lemas,
lo que corresponde a 37  del vocabulario. Este 37  es comparable a los valores obtenidos
por Hyperbase para otros autores de la época: Balzac 33 , Maupassant 34 , Flaubert 38
, Chateaubriand 40 25.
Las bajas frecuencias, calculadas sobre V (ver figura N° 2), constituyen 59  del
vocabulario y 10  del texto. Las frecuencias medias 5,56  del vocabulario y 26  del
corpus. En cuanto a las altas frecuencias representan solo 0,31  del vocabulario pero 18 
del corpus. Las frecuencias muy altas, aunque constituyan apenas 0,36  del vocabulario,
representan 46  del corpus. Estos resultados, si los comparamos con los porcentajes de la
Tabla 2, nos permiten notar una tendencia en Verne a utilizar más palabras en frecuencia alta
y muy alta y a recurrir menos a las que presentan una frecuencia baja. Sin embargo, conviene
señalar que esta diferencia obedece indudablemente al tamaño del corpus considerado. En la
medida en que un corpus es mayor, el número de palabras en frecuencia alta y muy alta tiende
a aumentar y, por el contrario, «la proporción de palabras de frecuencia 1 tiende a
disminuir»26. En efecto, el más parecido al nuestro de los corpus propuestos por É. Brunet,
en términos de tamaño, es el de Sand (5.564.812 oc.)27. Notamos, en este caso, el menor
porcentaje de palabras de baja frecuencia y el porcentaje más alto de palabras de muy alta
frecuencia respecto a la lista de autores considerados. La base Verne propuesta por É.
Brunet28 (3.656.992 oc.), permitiría por su tamaño realizar comparaciones con la de Victor
Hugo (3.656.982 oc.): porcentaje idéntico para frecuencias bajas y altas, y proporciones
similares para frecuencias medias y muy altas. La conclusión a extraer es la tendencia general,
y lógica si se quiere, entre los autores propuestos, incluido Verne, a recurrir a frecuencias
muy altas, una constante determinada para grandes corpora. Verne se mantiene dentro de los
promedios de los cálculos, salvo las bajas frecuencias donde está, en las dos tablas propuestas,
un poco por debajo de la media.
La Tabla N° 2 es el resumen de los porcentajes de las frecuencias de las palabras para
algunos autores del siglo XIX.

25
M. Kastberg, L’écriture de J.M.G. Le Clézio, op. cit., pág. 50.
26
Étienne Brunet, Le Vocabulaire de Victor Hugo, París-Genève, Champion-Slaktine, 1998, pág. 35.
27
Oc.: ocurrencias. Número de veces que aparece un vocablo.
28
Versión lematizada 8.0 (julio de 2008).
Tabla N° 2. Porcentaje de frecuencias en V en algunos autores del siglo XIX29
Autor Hápax + BF FM AF MAF
Hugo 13 26 17 44
Sand 8 23 16 53
Stendhal 15 27 19 39
Lamartine 15 25 17 43
Nerval 20 24 15 41
Proust 15 23 18 44
Verne 13 27 17 43

Verne30 10 26 18 46

BF: Bajas Frecuencias, FM: Frecuencias Medias; AF: Altas frecuencias, MAF: Muy Altas
Frecuencias.

Figura N° 2. Distribución de frecuencias en V

29
Según las bases de datos establecidas por É. Brunet, Hyperbase. UMR 6039, Bases, Corpus et Langage
(CNRS-Université de Nice Sophia-Antipolis). El Anexo N° 4 contiene los porcentajes en detalle.
30
Basado en los resultados de nuestra base de datos.
Figura N° 3: Distribución de frecuencias en N
(BF = 1 + 2 + 3 + 4; MF = 5 + 6 + 7; AF = 8 + 9; MAF = 10 + 11)

A partir de los hapaxes, la frecuencia de palabras disminuye de forma regular como


lo podemos apreciar en la figura No 2, en la que hemos agrupado los datos en clases de
frecuencias para que la figura sea más comprensible. Por ejemplo, las primeras 9 frecuencias
después del hápax son: f2: 9.569, f3: 5.352, f4: 3.711, f5: 2.789, f6: 2.241, f7: 1.808, f8: 1.479,
f9: 1.310. Esta tendencia se mantiene hasta la frecuencia 20, de ahí en adelante hay una
tendencia a la baja en números pero con muchas irregularidades que lamentablemente no
podemos apreciar en el gráfico N° 331. Margareta Kastberg, en su estudio sobre J. M. G. Le
Clézio (p. 44), autor que por lo demás señala a Verne de una influencia importante en su obra,
constata la misma tendencia. Esto corresponde aproximadamente al esquema tradicional de
un corpus literario narrativo.

2.2. El hápax
Con el hápax «estamos en las fronteras del diccionario, donde confluyen palabras
extranjeras, nombres propios, regionalismos, jergas, palabras técnicas... y también palabras
lisiadas que sufren de una letra desfigurada o perdida»32. En Verne, un gran número de fechas
y cifras aisladas forman parte de la lista de hapaxes (528.806, 1899, 1901, 1904, 1911, 1939,
1986, 2021). También hay ciertas formas verbales que son poco utilizadas (abrevió,
abreviada, abreviadas, abrevadas, abreviará, abreviaremos, abreven, abrevaron, abstenga,
abstienes); muchos nombres propios (Álvarez, Amakata, Abydos, Blarney, Chang); palabras
tomadas de la jerga (del boxeo: renfleur (zumbador) (campana, timbre)); del vocabulario
marítimo: pagale (en pagale: precipitadamente), de la jerga militar: subversiones (trastornos,
reversiones del orden establecido); regionalismos (ieuvres (pulpos), gypsie (gitana))...

31
Ver apéndice No 5 Distribución de frecuencias.
32
Étienne Brunet, Comptes d’auteurs, Tome I, Honoré Champion, París, 2009, pág. 91.

You might also like