You are on page 1of 3

Bootstrapping y heurística

Para el diseño de modelos de búsqueda, selección y clasificación, en cualquier contexto, puede
resultar útil el estudio de la teoría de redes sociales en grafos y las relaciones de conocimiento
de la llamada Teoría de Ramsey,1 que también tiene aplicaciones en problemas matemáticos
clásicos como la coloración de mapas. Algunas de estas aplicaciones hacen uso del propio
conjunto de datos de prueba, o de un subconjunto que toma como “grupo de control”, para
entrenar mediante técnicas de “bootstraping” un modelo estadístico, y refinarlo a fin de
efectuar así predicciones mejores gracias al ajuste de distribuciones de probabilidad.2

El método de bootstrapping es una técnica estadística,3 desarrollada por Efron (1979) y
bastante utilizada en econometría aplicada, que se utiliza para obtener una descripción de las
propiedades en el muestreo de estimadores empíricos usando para ello la propia muestra de
datos.

El término “bootstrapping” o “alzarse uno mismo en el aire
tirando de los cordones de sus propias botas”, fue
popularizado ,al parecer, por un cuento de Rudolf Enrich
Raspe (1785) sobre el Barón von Münchhausen que, con
corrosivo humor y sardónica hipérbole, narraba las campañas
bélicas de este noble alemán en tierras rusas y otomanas. El
cuento original es de hecho mucho más exagerado, pues
tirándose de la coleta y apretando los ijares, se jala, o saca, a
sí mismo y a su caballo, del río que vadeaban [v. grabado].4 Se
manifestaba así la imposibilidad de levantarse uno mismo
cuando no hay un sustento contra el que apoyarse, así como
también la iniciativa del barón, al ser tan emprendedor.

La técnica estadística se utiliza del siguiente modo: Sea ?̂? es un estimador estadístico de un
vector de parámetros ? basado en una muestra ? = (?1 , … , ?? ). Se puede obtener una
aproximación a las propiedades del estimador ?̂? al estudiar una muestra de ? estimadores
?̂? (?)? , siendo ? = 1, … , ?. Los estimadores se obtienen a partir de muestras de ?
observaciones tomadas de la muestra inicial ? con reemplazamiento, y volviendo a calcular ?̂?
con cada una de las nuevas muestras así generadas.5

1
Véase p.ej: [Ferrando y Gregori 1994, cap. 7] y también los trabajos de Erdös, van der Waerden,
Graham, y Rosthchild. Galvin y Prikry demostraron que todos los conjuntos de Borel son conjuntos de
Ramsey [Bagaria 2012 pág. 374]
2
Véanse por ejemplo los basados en “t” de Student o Ξ 2 (“chi-cuadrado”) para bondad de ajuste.
3
Aunque se utiliza también en otros contextos, como la economía (refiriéndose al apalancamiento
financiero sucesivo), la inversión financiera (respecto a la independencia de capital externo, es decir,
obteniendo fondos principalmente de los clientes) o la ingeniería informática (abreviado como “boot” o
“booting”), para referirse al arranque progresivo del sistema operativo en un computador programable.
4
El grabado es de la edición francesa ilustrada por Gustave Doré. Véanse también las de Oskar Herrfurth
a todo color.
5
La descripción formal procede de [Greene 1998, secc. 5.3.4]. Puede encontrarse un estudio formal
sobre el bootstrap no paramétrico, con aplicación a la inferencia estadística y a la simulación de sucesos
aleatorios basada en cadenas de Markov, en [Berrendero 2015 pp. 52 y ss.]
Tras iterar ? veces, se calcula la característica muestral deseada a partir de:
̂ = [?̂(1)? , … , ?̂(?)? ]
Θ

El tamaño muestral ? de esta técnica puede ser menor o mayor que el tamaño ? original de la
muestra. Evidentemente, si es mayor se perderá precisión ya que la información extraída tiene
menos valor al existir mayor proporción de datos repetidos [v. ”Entropía de Shannon”]. De
aquí que, si el proceso de bootstraping se itera sobre una muestra finita, llega un punto en que
el valor de la información se agota y todas las sucesivas derivaciones ofrecen idéntico
resultado,6 o bien reflejan únicamente “ruido muestral”, lo que se conoce como sobreajuste.

Ello no quiere decir que estos métodos carezcan de valor: antes al contrario, permiten exprimir
más información de una muestra de tamaño reducido que otros métodos clásicos
convencionales. Además, existen algoritmos,7 como el “empaquetado” (“bootstrap
agreggation” o, también: “bagging”) que permiten estabilizar los procesos de regresión y
clasificación estadística, reduciendo también la varianza [v.: “Machine Learning”].

Una discusión en mayor profundidad8 exigiría considerar el teorema de Birbaum, que
demuestra que la verosimilitud proviene de dos principios más fundamentales: la
condicionalidad (los experimentos que jamás se llevan a cabo no son estadísticamente
significativos) y la suficiencia (no puede calcularse ningún otro estimador, a partir de la misma
muestra, que provea información adicional sobre el valor del parámetro). Este asunto queda
bien ilustrado por la frase hecha: 9

“You mean, your statistics are «facts», but my facts are «just statistics»”

Del efecto de “agotamiento de la muestra” [v.: “hashing”] se deriva lo que en epistemología se
conoce como el “trilema de Münchhausen” o trilema de Agripa.10 Un trilema es un problema
que admite sólo tres soluciones, todas las cuales parecen inaceptables. Este trilema emerge
cuando al tratar de justificar una proposición lógica con certeza absoluta [v.: “certidumbre”],
siempre es necesario elucidar una nueva justificación, llegando bien a:

(1) una regresión infinita, (2) una circularidad lógica, o (3) un corte axiomático arbitrario
en el razonamiento.

El trilema de Münchhausen es un argumento en contra de la que sea posible lograr una
justificación última para cualquier proposición, incluso en las ciencias formales como la
matemática y la lógica. Algunas de sus implicaciones se relacionan con el célebre teorema NFL
(“No Free Lunch theorem”).

6
Por lo general se llegará a la iteración del mismo valor, o bien a un círculo vicioso entre dos o más
valores que se repiten periódicamente uno tras otro. Resultaría interesante el estudio de las fronteras
fractales cuasi-semejantes, de estilo Newtoniano, que puedan darse en este contexto.
7
Véanse [Kuncheva et al., Abril de 2015] y [Kuncheva et al., Julio de 2015 online]
8
Véase: [Gómez Villegas 2015]
9
Es decir: “¿O sea, que tus estadísticas son «hechos», pero mis hechos son «solo estadísticas»?” palabras
pronunciadas en la sátira británica de discusión política “Yes Prime Minister”, citadas por Jonathan Lynn
y Antony Jay (1986 – BBC – Vol. I) vía [Ratcliffe II 2001 pág. 264 Statistics.9]
10
Agripa (“Ἀγρίππας”) fue un filósofo griego de la escuela escéptica que vivió, probablemente, hacia el
s. I. Su escepticismo es la corriente filosófica que cuestiona los conocimientos, hechos, opiniones o
creencias, que se dan por sentados, cuando se carece de demostraciones suficientemente rigurosas.
Estos modelos y técnicas estadísticas se relacionan indirectamente con la creación de
coaliciones (o “coaligaciones”) dinámicas en juegos cooperativos,11 y metajuegos, que se
tratan formalmente en la teoría de juegos de azar [v. “Nash”].

En su discusión sobre la irracional utilidad de las matemáticas, Wigner sentenciaba:
“Es difícil evitar la impresión de que afrontamos aquí un milagro, comparable en su
sorprendente naturaleza al milagro de que la mente humana pueda hilar un millar de
argumentos sin caer en contradicciones, o a los dos milagros de la existencia de leyes naturales,
y de la capacidad de la mente humana para adivinarlos. La observación que más se acerca a
explicar por qué surgen conceptos matemáticos inesperadamente en la física es, que yo sepa, la
aseveración de Einstein, de que las únicas teorías que estamos dispuestos a aceptar, son las que
son bellas. Es discutible el si, quizá, los conceptos matemáticos, cuyo ejercicio recomendamos
encarecidamente, poseen la cualidad de la belleza. No obstante, la observación de Einstein
puede, al menos, explicar algunas propiedades de las teorías, que estamos dispuestos a creer,
sin referirse a la precisión intrínseca de estas teorías. […]

Toda ley empírica posee la inquietante cualidad de que no se conocen sus limitaciones. Hemos
visto que en los hechos del mundo que nos rodea existen irregularidades que pueden formularse
en términos de conceptos matemáticos, con increíble precisión. Por otra parte, existen aspectos
del mundo sobre cuya precisión no creemos que haya irregularidad alguna. Los llamamos
condiciones iniciales. La cuestión que se plantea es si las variadas irregularidades, esto es, las
varias leyes naturales que se descubran, llegarán a fundirse en una única unidad consistente, o
si al menos tenderán asintóticamente a fundirse de tal modo.”

Se tratará, por tanto, de elucidar esa teoría consistente que permita descubrir, e incorporar,
conocimiento de buena calidad, a un procedimiento de búsqueda de soluciones a problemas
reales. Tal y como es bien conocido, una forma de soslayar la maldición de la dimensionalidad
es la utilización de algoritmos probabilistas.12 Puesto que algunos de estos métodos permiten
reducir la probabilidad de error por debajo de un límite arbitrariamente pequeño, puede
suceder que la respuesta “incierta” devuelta por un algoritmo probabilista se obtenga más
deprisa, y podamos confiar más en ella, que la respuesta “garantizada” obtenida con un
algoritmo determinista.

La razón es que la respuesta determinista exacta podría tardar tanto en llegar, que no fuera
práctico esperarla. Incluso podría ser que la probabilidad de que ocurriera un fallo eléctrico o
un error informático en el equipo físico durante el proceso de cómputo, aunque diminuta,
fuera mayor que la relativa al tiempo empleado por un algoritmo probabilista bien ajustado.
Éste es un argumento clásico en favor de los algoritmos probabilistas.

Alfonso de la Fuente Ruiz, PhD
https://www.linkedin.com/in/alfonsofr

11
Se aplican, por ejemplo, en modelos territoriales de marketing político, sistemas de trading de alta
frecuencia que operan sobre el mercado bursátil, y gestión de la competencia empresarial (en el sentido
de Michael Porter; véase p.ej: [Porter 1985])
12
A medida que aumenta la dimensionalidad, los métodos locales son “menos locales”, las vecindades
con ? puntos fijos están menos concentradas y resulta más difícil estimar los valores de las funciones, al
exhibir éstas características más complejas. Véase [Hao Helen Zhang, 2014]