You are on page 1of 261

Estadsticafcilconhojade

clculo

AlejandroQuinteladelRo
CatedrticodelaUniversidaddeACorua
readeEstadsticaeInvestigacinOperativa
http://alejandroquintela.com

Autor: Alejandro Quintela del Ro


1 edicin: Junio, 2015
ISBN: 978-1514341377
Editorial CreateSpace
Todos los derechos reservados
http://alejandroquintela.com

Introduccin: Aprender estadstica con la ayuda de una hoja de clculo............ 7


Sobre la parte matemtica del libro ................................................................. 8
Excel 2013: Nociones mnimas ......................................................................... 8
Uso de las plantillas de Excel .......................................................................... 11
Listado de plantillas ........................................................................................ 11
Estadstica descriptiva uni y bidimensional ................................................ 12
Variables aleatorias .................................................................................... 12
Variables aleatorias discretas de inters .................................................... 13
Variables aleatorias continuas de inters................................................... 13
Intervalos de confianza ............................................................................... 14
Contrastes de hiptesis .............................................................................. 14
Otras plantillas ............................................................................................ 14
Captulo 1: Estadstica descriptiva ...................................................................... 15
Estadstica descriptiva .................................................................................... 16
Breve introduccin histrica ....................................................................... 16
Poblacin y datos ............................................................................................ 16
Variables y atributos ....................................................................................... 16
Variables discretas y continuas....................................................................... 17
Distribuciones de frecuencias ......................................................................... 18
Representaciones grficas .............................................................................. 20
Pictograma .................................................................................................. 20
Cartograma ................................................................................................. 21
Diagrama de barras..................................................................................... 22
Diagrama de Sectores (Tarta) ..................................................................... 22
Histograma.................................................................................................. 23
rea bajo el histograma de frecuencias. .................................................... 26
Medidas caractersticas de una variable ........................................................ 28
Medidas de posicin o de tendencia central.............................................. 28
La media ...................................................................................................... 28
La mediana .................................................................................................. 31
La moda....................................................................................................... 34
Cuantiles ..................................................................................................... 35
Medidas de dispersin .................................................................................... 37

Pag. 1
La varianza y la desviacin tpica ................................................................ 37
Desigualdad de Tchebychev ....................................................................... 40
Otras medidas de dispersin. ..................................................................... 41
Medidas de forma........................................................................................... 43
Simetra ....................................................................................................... 43
Curtosis ....................................................................................................... 45
Transformaciones ........................................................................................... 46
Normalizacin o tipificacin ....................................................................... 47
Anlisis exploratorio de datos ........................................................................ 47
Diagrama de tallo y hojas (Stem & Leaf) .................................................... 48
Diagrama de caja (box-plot) ....................................................................... 49
Momentos de una variable estadstica .......................................................... 50
Momentos respecto al origen .................................................................... 50
Momentos respecto a la media aritmtica ................................................ 50
Datos en tabla de frecuencias .................................................................... 51
Problemas ....................................................................................................... 52
paradoja del promedio ............................................................................... 65
Captulo 2: Estadstica descriptiva bidimensional .............................................. 67
Distribucin conjunta de caracteres ........................................................... 67
Distribuciones bidimensionales ...................................................................... 69
Distribuciones marginales y condicionadas................................................ 69
Momentos en distribuciones bidimensionales........................................... 71
Representaciones grficas .............................................................................. 72
Representaciones 3D .................................................................................. 72
Diagrama de dispersin o nube de puntos................................................. 72
Dependencia e independencia estadstica ................................................. 73
Regresin ........................................................................................................ 73
Centro de gravedad de la nube de puntos ................................................. 74
Covarianza. Correlacin lineal .................................................................... 74
Coeficiente de correlacin de Pearson ....................................................... 75
Ajuste y regresin bidimensional ................................................................... 77
Caso lineal ................................................................................................... 77
Notas histricas e interesantes .................................................................. 81
Problemas con la prediccin....................................................................... 82
Otros ajustes ............................................................................................... 83

Pag. 2
Bondad del ajuste ....................................................................................... 84
Correlacin no implica causalidad .............................................................. 87
Otros aspectos a tener en cuenta............................................................... 88
Problemas ....................................................................................................... 89
Curiosidades. Anscombe's quartet ............................................................. 95
Medidas de asociacin entre atributos .......................................................... 96
Independencia ............................................................................................ 97
Medidas de asociacin.................................................................................... 99
Q de Yule ..................................................................................................... 99
Coeficiente de contingencia de Pearson .................................................. 100
V de Cramer .............................................................................................. 100
Captulo 3: Probabilidad ................................................................................... 103
Antecedentes histricos ............................................................................... 104
Probabilidad .................................................................................................. 105
Definiciones bsicas .................................................................................. 106
Sucesos y conjuntos. diagramas de venn ..................................................... 107
Probabilidad .............................................................................................. 109
Propiedades de la Probabilidad .................................................................... 111
Probabilidades geomtricas ..................................................................... 116
Probabilidad condicionada ....................................................................... 118
Teorema de las probabilidades totales .................................................... 124
Regla de Bayes .......................................................................................... 127
Problemas antiguos ...................................................................................... 130
Problemas curiosos ....................................................................................... 137
Captulo 4: Variables aleatorias ........................................................................ 139
Variables aleatorias discretas ....................................................................... 140
Funcin de distribucin ............................................................................ 141
Variables discretas infinitas numerables. ................................................. 143
Variables continuas................................................................................... 144
Funcin de densidad ................................................................................. 144
Esperanza de una variable aleatoria......................................................... 150
La varianza ................................................................................................ 150
Propiedades de la esperanza y de la varianza .......................................... 151
Mediana .................................................................................................... 152
Cuantil ....................................................................................................... 152

Pag. 3
Moda ......................................................................................................... 153
Otras medidas ........................................................................................... 153
Momentos................................................................................................. 154
Uso de Excel .................................................................................................. 156
Captulo 5: Variables aleatorias discretas de inters ....................................... 163
Variable de Bernoulli .................................................................................... 163
Media y varianza de la variable de bernoulli ............................................ 164
Variable binomial .......................................................................................... 165
Media y varianza de la variable binomial ................................................. 165
Propiedad aditiva ...................................................................................... 165
Variable de Poisson....................................................................................... 166
Proceso de Poisson ................................................................................... 167
Media y varianza ....................................................................................... 168
Propiedad aditiva ...................................................................................... 169
Variable hipergeomtrica ............................................................................. 171
Media y varianza ....................................................................................... 172
Variable binomial negativa ........................................................................... 173
Media y varianza ....................................................................................... 174
Plantilla tablas-distribuciones.xlsx ................................................................ 174
Problemas para estimular el intelecto.......................................................... 175
Hechos reales de inters interesantes ......................................................... 182
Captulo 6: Variables aleatorias continuas de inters ...................................... 185
Variable uniforme continua .......................................................................... 185
Media y varianza ....................................................................................... 186
Variable exponencial .................................................................................... 187
Media y varianza ....................................................................................... 188
Variable normal ............................................................................................ 189
Media y varianza ....................................................................................... 190
Propiedades .............................................................................................. 190
Tipificacin ................................................................................................ 192
Propiedad aditiva ...................................................................................... 193
Teorema central del lmite ........................................................................... 194
Ejemplo real de inters: Putin contra Gauss ................................................ 197
Un poco de historia sobre Putin ............................................................... 198
Variable Chi-cuadrado .................................................................................. 200

Pag. 4
Variable de Student.................................................................................... 200
Variable F de Fisher-Snedecor ...................................................................... 202
resumen de Plantillas................................................................................ 203
Problemas ..................................................................................................... 204
Captulo 7: Intervalos de confianza .................................................................. 209
Intervalos de confianza para variables aleatorias normales .................... 210
Intervalos para la comparacin de poblaciones ........................................... 212
Intervalo de confianza para la diferencia de medias................................ 213
Intervalo de confianza para la razn de varianzas ................................... 214
Caso de muestras relacionadas o pareadas ................................................. 214
Intervalos para proporciones ....................................................................... 214
Intervalo para una proporcin.................................................................. 214
Intervalo de confianza para la diferencia de proporciones ...................... 215
Problemas ..................................................................................................... 215
Captulo 8: Contrastes de hiptesis .................................................................. 229
Test o contrastes de tipo paramtrico ......................................................... 231
Etapas en la realizacin de un contraste de hiptesis.............................. 232
Principales contrastes paramtricos ............................................................ 233
Contraste Para la media de una variable normal ..................................... 233
Para la varianza ......................................................................................... 234
Para la diferencia de medias..................................................................... 234
Para la razn de varianzas ........................................................................ 235
Para una proporcin ................................................................................. 235
Para la diferencia de proporciones ........................................................... 235
Caso de dos muestras relacionadas (apareadas) ..................................... 236
Problemas ..................................................................................................... 236
Test de independencia de caracteres ........................................................... 248
Independencia .......................................................................................... 249
Contraste de homogeneidad .................................................................... 251
Referencias ....................................................................................................... 253
ndice alfabtico................................................................................................ 254

Pag. 5
Estadstica fcil con hoja de clculo

El propsito de este texto es el habitual de un curso introductorio de probabilidad y


estadstica: ensear estadstica y probabilidad (qu raro). La diferencia estriba en que
pretendemos ayudar al estudiante a digerir mejor los contenidos utilizando ayuda de una hoja
de clculo. Estas herramientas bsicas consisten en la realizacin de clculos matemticos
(estadsticos) y tambin de grficos. Adems, hemos diseado un curso desde cero, y no
pretendemos que el que estudie este manual sepa manejar una hoja de clculo. Para ello, hemos
construdo una serie de plantillas, que consisten en unos ficheros propios de la hoja de clculo,
donde las frmulas necesarias estn ya introducidas. As, el que las utiliza, bsicamente, slo ha
de introducir los datos para que las cuentas y/o los grficos se realicen por si solos.
El texto tambin es til para profesores, puesto que el uso de las plantillas permite, por
un lado, la realizacin rpida de clculos, sin tener que arrancar un paquete estadstico. Adems,
las grficas y resultados pueden copiarse y pegarlas en las transparencias de clase, etc. Por otro
lado, al igual que ocurre con mis dos libros anteriores, podr reconocerse que no son libros al
uso, y que si se quiere (otra cosas es que esto sea as) aqu se dispone de motivaciones
diferentes para el alumnado de los clsicos enunciados de urnas con bolas y tornillos averiados.
Obviamente, conocer algo la herramienta con la que vamos a trabajar no est de ms.
De todas formas, repetimos que la intencin es partir de cero, as que las pocas nociones bsicas

Pag. 7
Estadstica fcil con hoja de clculo

que se podrn necesitar para usar las plantillas se irn comentando a lo largo de los captulos
del libro, cada vez que se utilicen las mismas.
Las plantillas se han diseado con Excel 2013. En general, funcionan con versiones
anteriores, salvo en ocasiones donde se usan frmulas que no estaban introducidas en aquel
momento. Lo mismo es aplicable a programas de software libre. Se han probado varias de las
plantillas en LibreOffice y funcionan, y otras ya indican que dan errores con las frmulas. De
todas maneras, el uso de las plantillas es, bsicamente, un apoyo para el estudio del libro. Con
las plantillas se realizan los clculos ms rpido, y se hacen grficas que se pueden usar para un
trabajo, o un docente puede utilizar en un ula, etc. Si no se dispone de Excel 2013, sugerimos
usar alguna licencia de evaluacin gratuita durante el tiempo de estudio del manual, para poder
explorar las posibilidades. Para quien no conozca en absoluto el Excel, sugerimos la visualizacin
de cualquier video gratuito en Youtube o plataforma similar, y explorar as las mltiples
posibilidades que el programa ofrece (de clculo, de realizacin de grficas, etc.).
Algunas de las plantillas han sido realizadas por el autor. Otras, en cambio, corresponden
a modificaciones de otras existentes, disponibles gratuitamente en la red, igual que las que
utilizamos en el libro. La utilizacin de la mayora de las plantillas puede entenderse tambin
(aunque son muy simples de usar) con la ayuda de videos realizados por m, que estn en
youtube, y a los que se puede acceder a travs de mi pgina web:
http://alejandroquintela.com/plantillas-excel/

SOBRE LA PARTE MATEMTICA DEL LIBRO

En lo que se refiere a la teora y los problemas, este libro se complementa con El


estadstico accidental (Quintela, 2013), que trata de los mismos temas, aunque algunos de
manera ms profunda, y que consta tambin de captulos de estimacin y muestreo, que aqu,
en cambio, no aparecen. Remitimos al lector a este texto y tambin a Problemas estimulantes
de probabilidad y estadstica (Quintela, 2013), que consta de problemas de enunciados
diferentes a los clsicos en los cientos de miles de libros que existen.
Ambos libros estn disponibles en descarga gratuita, en formato pdf. Basta con entrar
en mi pgina web http://alejandroquintela.com/libros para ver los enlaces.
En la misma pgina existe un canal de videos de los diferentes temas. Se accede por
http://alejandroquintela.com/aula-virtual. Algunos de los videos estn en mi canal de Youtube,
pero la mayora estn en Vimeo.

EXCEL 2013: NOCIONES MNIMAS

Excel es una aplicacin distribuida por Microsoft Office para hojas de clculo. Este
programa est desarrollado y distribuido por Microsoft. Los archivos de Excel llevan un nombre
y una extensin .xlsx. Cuando abrimos un archivo, que se denomina libro de Excel,
inicialmente consta de una hoja, que son filas y columnas. Si se van a introducir datos, lo ms
comn es usar una columna para una variable.
En la Figura 1 vemos un trozo de una hoja de Excel en blanco, cuando arrancamos el
programa. En la Figura 2 ampliamos la parte inferior izquierda de la pantalla, que nos indica que
estamos en la Hoja 1, y si queremos crear ms hojas pinchamos en el smbolo que est a su
derecho (hoja nueva). En cada hoja podemos introducir datos, hacer grficos, incluso escribir e
introducir imgenes No es exclusivamente una pantalla para introducir datos, al estilo de
paquetes estadsticos clsicos como, por ejemplo, el SPSS. El Excel permite hacer muchas ms
cosas que un paquete estadstico. Por el contrario, los procedimientos estadsticos que trae el
programa por defecto (la herramienta llamada Anlisis de Datos) son mucho menores. Ahora
bien, las herramientas estadsticas son ampliables, a travs de plantillas o de Add-ins, que son

Pag. 8
Estadstica fcil con hoja de clculo

como programas aparte realizados en Visual Basic, y de los que existen algunos de pago bastante
completos.

Figura 2

Figura 1

Como breve introduccin, para quien nunca ha utilizado Excel, podemos dar alguna
indicacin de la forma de trabajar, con slo dos lneas de texto. Imaginemos que tenemos una
variable estadstica X con los datos 1, 3, 9, 12, 17, 34. Si queremos analizar estos datos los
introducimos en una hoja en blanco, posicionndonos en una celda vaca (por ejemplo la
correspondiente a la columna A y la fila 4, no tenemos por qu empezar arriba de todo), y vamos
tecleando lo que queremos y dndole a ENTER para introducir los datos. En la Figura 3 vemos
los datos introducidos.
Si ahora queremos hacer un anlisis estadstico
descriptivo de estos datos, la opcin anlisis de datos
debe estar activa. Es decir, en el men principal, yendo al
men DATOS, debemos ver a la derecha la opcin Anlisis
de datos.
Si no lo vemos, debemos ir, a travs del men, a las
opciones ARCHIVO-> OPCIONES-> COMPLEMENTOS. Abajo
a la derecha aparece la opcin de Administrar
Complementos de Excel con una pestaa Ir. Pinchamos
en ella y marcamos la opcin Herramientas para anlisis,
dndole posteriormente a ACEPTAR hasta volver a la hoja
de clculo (Figura 4).
Figura 3

Figura 4
Ahora, simplemente con ir a DATOS->ANALISIS DE DATOS, podremos elegir la opcin
Estadstica Descriptiva y luego seleccionar los datos (Figura 5). Pinchando con el ratn en

Pag. 9
Estadstica fcil con hoja de clculo

Figura 5
donde indicamos con una flecha (seleccin de datos, Figura 5) nos aparece una ventana
pequea (Figura 6). Volvemos a pinchar con el ratn en el recuadro de la derecha, y volvemos a
la hoja de datos, donde
seleccionamos los datos
que queremos analizar
con el ratn (detalle de
Figura 6 cmo hacerlo en Figura
7).

Figura 7
Una vez seleccionados los datos, le damos a aceptar y nos salen los resultados (en este
caso, en otra hoja) (Figura 8).
Como vemos, muy sencillo. Obviamente, con solo mirar al men ya nos damos cuenta
de que existen miles y miles de cosas que podemos hacer (entre ellas poner bonitos los cuadros

Pag. 10
Estadstica fcil con hoja de clculo

de resultados para llevarlos a otro programa). Para tener


idea de la cantidad de cosas que se pueden conseguir, lo
mejor es mirar un manual de Excel o videos en la red.

Figura 8

USO DE LAS PLANTILLAS DE EXCEL

La utilizacin de las plantillas es tan simple como abrir el fichero Excel (una plantilla es
un fichero Excel), e introducir los datos (habitualmente he indicado con color azul las variables
o datos de entrada, y en color amarillo los resultados). La hoja de clculo rehace los clculos que
tiene implementados para obtener los resultados correspondientes.

Nota: Los nmeros con decimales hay que introducirlos con coma o punto para separar
la parte decimal. Para saber cul hay que usar, fijaos si los resultados llevan un smbolo u otro, y
usad el mismo.

Supongamos, por ejemplo, que nos interesa hacer clculos o grficas con la distribucin
exponencial. Abrimos la plantilla distribucin-exponencial.xlsx y vemos que aparecen distintas
grficas y clculos. Como parmetro de entrada, primero est, lgicamente, el valor de . Si
cambiamos el nmero que aparece, se recalculan el valor de la media y la varianza, y se dibujan
de nuevo las funciones de densidad y distribucin. Ms abajo vemos que podemos calcular el
rea entre dos valores, a la derecha y a la izquierda de un valor, o calcular un cuantil dado un
rea (Figura 9). En amarillo aparecen la media y la varianza, ls probabilidades o los cuantiles.
Bsicamente, todas las plantillas funcionan de la misma forma. Por si acaso uno comete
algn error escribiendo donde no debe, etc., y salen cosas incorrectas (o no sale nada), lo mejor
es cerrar el fichero y volver a empezar. Recurdese que si uno quiere guardar lo que haya hecho,
debe ir al men y guardar el archivo con un nombre diferente.
A lo largo de los diferentes captulos del libro, se irn describiendo las plantillas y el uso
de las mismas. A continuacin, dejamos un listado de las mismas y el captulo al que pertenecen.

LISTADO DE PLANTILLAS

Pag. 11
Estadstica fcil con hoja de clculo

Figura 9

ESTADSTICA DESCRIPTIVA UNI Y BIDIMENSIONAL

Resumen-medidas-estadisticas.xlsx.
Calcula las medidas ms tpicas para una variable unidimensional: media
aritmtica, mediana, varianza, coeficiente de asimetra
Tabla-frecuencias.xlsx.
Calcula las medidas ms tpicas para una variable unidimensional, pero
agrupada en tabla de frecuencias.
Barras-sectores.xlsx.
Para una variable discreta o de atributos, realiza un diagrama de barras y un
diagrama de sectores.
Histograma.xlsx.
Dibuja un histograma de una variable.
Box-plot-2-variables.xlsx.
Dibuja un diagrama de caja o box-plot de hasta dos variables.
Lnea-regresion.xlsx.
Dibuja el diagrama de dispersin de dos variables, y calcula y dibuja la recta de
regresin de sobre .
Tabla-doble-entrada.xlsx.
Calcula las medidas estadsticas y las lneas de regresin para una variable
bidimensional, cuando esta viene dada en formato de tabla de doble entrada.
Tabla-contingencia.xlsx.
Para una tabla de contingencia entre atributos, calcula algunas medidas de
asociacin, y realiza el test Chi-cuadrado de independencia.

VARIABLES ALEATORIAS

Pag. 12
Estadstica fcil con hoja de clculo

Momentos-variables-aleatorias-discretas.xlsx.
Calcula la esperanza, desviacin tpica, varianza, coeficiente de variacin,
coeficiente de asimetra y de curtosis para una variable aleatoria discreta.

VARIABLES ALEATORIAS DISCRETAS DE INTERS

Distribucion-binomial.xlsx.
Calcula la esperanza y la varianza de una variable binomial. Muestra la funcin
de masa de probabilidad y la funcin de distribucin, y dibuja el grfico de la primera de estas
funciones.
Distribucion-poisson.xlsx.
Calcula la esperanza y la varianza de una variable de Poisson. Muestra la funcin
de masa de probabilidad y la funcin de distribucin, y dibuja el grfico de la primera de estas
funciones.
Distribucion-binomial-negativa.xlsx.
Calcula la esperanza y la varianza de una variable binomial negativa. Muestra la
funcin de masa de probabilidad y la funcin de distribucin, y dibuja el grfico de la primera de
estas funciones.
Distribucion-hipergeometrica.xlsx.
Calcula la esperanza y la varianza de una variable binomial. Muestra la funcin
de masa de probabilidad y la funcin de distribucin, y dibuja el grfico de la primera de estas
funciones.
Tablas-distribuciones.xlsx.
Para las variables discretas y continuas que se tratan en este libro, clculo
directo (sin grficos) de probabilidades, funcin de densidad, distribucin y cuantiles.

VARIABLES ALEATORIAS CONTINUAS DE INTERS

Tablas-distribuciones.xlsx.
Para las variables discretas y continuas que se tratan en este libro, clculo
directo (sin grficos) de probabilidades, funcin de densidad, distribucin y cuantiles.
Normal-interactiva.xlsx.
Permite ver, de forma interactiva (segn movamos unos botones), como varia
la campana de Gauss con respecto a una normal estandarizada, cuando cambiamos la media y/o
la desviacin tpica.
Normal-areas-barras-desplazamiento.xlsx.
Permite ver, de forma interactiva, el clculo de reas y/o cuantiles en la
distribucin normal.
Distribucion-normal.xlsx.
Clculo de reas y cuantiles de la distribucin normal. Grficas asociadas.
Distribucion-t-student.xlsx.
Clculo de reas y cuantiles de la distribucin t de Student. Grficas asociadas.
Distribucion-chi-cuadrado.xlsx.
Clculo de reas y cuantiles de la distribucin Chi-cuadrado. Grficas asociadas.
Distribucion-F.xlsx.
Clculo de reas y cuantiles de la distribucin F de Fisher-Snedecor. Grficas
asociadas.

Pag. 13
Estadstica fcil con hoja de clculo

INTERVALOS DE CONFIANZA

IC-media-varianza.xlsx.
Intervalos de confianza para la media y la varianza (desviacin tpica) de datos
que siguen una distribucin normal. Los datos pueden escribirse directamente, o bien dar las
medidas resumidas (media muestral, desviacin tpica muestral). Este ltimo caso ocurre
muchas veces en los problemas de los textos, con lo cual no podran calcularse los intervalos con
un paquete estadstico. Esto mismo es aplicable a todas las plantillas que siguen.
IC-diferencia-medias.xlsx.
Intervalos de confianza para la diferencia de medias de dos muestras. Los datos
pueden escribirse directamente, o bien dar las medidas resumidas. Tambin se calcula el
intervalo de confianza para la proporcin de varianzas.
IC-proporciones.xlsx.
Intervalos de confianza para una proporcin, o para la diferencia de
proporciones.

CONTRASTES DE HIPTESIS

Test-media.xlsx.
Contraste de hiptesis para la media de una distribucin normal. Los datos
pueden escribirse directamente, o bien dar las medidas resumidas.
Test-varianza.xlsx.
Contraste de hiptesis para la varianza (desviacin tpica) de una distribucin
normal.
Test-proporcion.xlsx.
Contraste de hiptesis para una proporcin.
Test-2-proporciones.xlsx.
Contraste de hiptesis para la diferencia de proporciones.
Tabla-contingencia.xlsx.
Contraste Chi-cuadrado para independencia.

OTRAS PLANTILLAS

Como hemos comentado, algunas de las plantillas que usamos son


modificaciones de otras. Hay muchas plantillas en la pgina web del libro de Aczel y
Sounderpandian (ver bibliografa). Otros sitios web donde conseguir plantillas relacionadas con
estadstica y probabilidad son planillaexcel.com y excelnegocios.com.

Pag. 14
Estadstica fcil con hoja de clculo

En su acepcin ms conocida, la estadstica se utiliza para resumir la informacin de un


conjunto de datos, sea del tipo que sea. Es por ello que escuchamos tan a menudo frases como
el 90 por ciento de los espaoles (varones) asegura que compra la revista Intervi por los
reportajes de poltica, el 90 por ciento de los espaoles afirman tener un coeficiente
intelectual mayor que la media o un porcentaje altsimo de encuestados no cree en las
encuestas.
Sin embargo, el sentido cientfico de la palabra se refiere a la rama de las matemticas
que se utiliza para estudiar poblaciones a partir de muestras. Lo que hoy se conoce como Cienca
Estadstica es el resultado de la unin de dos disciplinas, diferenciadas en sus orgenes, y que
evolucionaron de forma independiente, hasta que se agruparon en el siglo XIX: la Estadstica
Descriptiva y el Clculo de Probabilidades. La primera, que como su propio nombre indica
estudia la descripcin de datos, se remonta a la antigedad y surge por el inters de los
gobernantes por el conocimiento de los recursos disponibles. Habitualmente, los gobernantes
suelen creerse dotados de naturaleza divina e inteligencia sobrehumana, aunque necesiten
siempre del poder de los ejercitos para recaudar el dinero de sus sbditos. Actualmente lo
disfrazan de democracia, pero el afn recaudatorio de los gobiernos nunca ha cesado ni cesar.
Por otra parte, el clculo de probabilidades fue introducido en la segunda mitad del siglo
XVII, y su origen fue la aficin de la nobleza francesa por los juegos de azar. Sus primeros pasos
corresponden a la resolucin por Blaise Pascal (1623-1662) y Pierre Fermat (1607-1665) de

Pag. 15
Estadstica fcil con hoja de clculo

algunos problemas formulados por el caballero de Mr (1607-1684), relacionados con los


juegos de dados. La integracin de ambas lneas de pensamiento (estadstica y probabilidad) dio
lugar a una ciencia que estudia cmo obtener conclusiones de la investigacin emprica
mediante el uso de modelos probabilistas. En los captulos correspondientes ampliaremos algo
ms esta resea histrica.

ESTADSTICA DESCRIPTIVA

Este captulo tiene por finalidad la descripcin de un conjunto de datos, sin considerar
que stos puedan pertenecer a un colectivo ms amplio, y sin la intencin de proyectar los
resultados que se obtengan al colectivo global; objeto esto ltimo de lo que se conoce como
Inferencia Estadstica.

BREVE INTRODUCCIN HISTRICA

Los orgenes histricos de la Estadstica descriptiva se encuentran en los procesos de


recogida de datos, censos y registros sistemticos, en una suerte de aritmtica estatal para
asistir al gobernante 1, que necesitaba conocer la riqueza y el nmero de sus sbditos con fines
raras veces honorables. Quien se crea que el ministerio de Hacienda es un invento reciente est
muy equivocado. Los primeros registros de riqueza y poblacin que se conocen se deben a los
egipcios. Ramss II, en el 1400 a.C., realiz el primer censo conocido de las tierras de Egipto.
Posteriormente, desde el siglo III a.C., en las civilizaciones china y romana se llevaron a
cabo censos e inventarios de posesiones. Como modelo, podemos mencionar la primera pelcula
galardonada con once Oscar: Ben-Hur. Al principio de la pelcula, nos cuentan como los romanos,
invasores de Judea, exigen que los judios vayan a empadronarse a su lugar de nacimiento, con
el fin de hacer un censo y cobrarles impuestos. Mara y Jos acuden a su aldea para ello, y en el
camino nace Jess de Nazaret.
En Espaa, este inters naci con la preocupacin de los Reyes Catlicos por mejorar el
estado de las Cosas Pblicas (administracin del reino), establecindose el primer censo del
que se tiene referencia en 1482 2.

POBLACIN Y DATOS

Entendemos genricamente por poblacin el conjunto sobre el cual recaen las


observaciones (puede ser una poblacin de personas, de monos, de libros, de radiadores ), o
de la cual tomamos datos. Si tomamos un subconjunto de elementos de la poblacin decimos
que hemos tomado una muestra.
Los datos constituyen la materia prima de la Estadstica, establecindose distintas
clasificaciones en funcin de la forma de los mismos. Se obtienen datos al realizar cualquier tipo
de prueba, experimento, observacin...

VARIABLES Y ATRIBUTOS

1
Estadista.
2
Se desconoce si en la mejora de las cosas pblicas la reina Isabel inclua su estado fsico, despus
de estar un ao sin lavarse (prometi no hacerlo hasta que se conquistara Granada).

Pag. 16
Estadstica fcil con hoja de clculo

Una primera clasificacin del tipo de datos procede del hecho de que las observaciones
sean de tipo cualitativo (indican una cualidad) o cuantitativo (miden una cantidad). En el primero
de los casos se tiene un atributo, y en el segundo una variable. Para hacer referencia
genricamente a una variable o a un atributo se utiliza el trmino carcter.
Como ejemplos de atributos tenemos el color del pelo, raza, idioma de un grupo de
personas, y como variables su estatura, peso, dinero que lleven en el bolsillo, etc.
Si es necesario operar con un atributo, se le asignar a cada una de sus clases un valor
numrico, con lo que se transforma en una variable. Esta asignacin se har de forma que los
resultados que se obtengan al final del estudio sean fcilmente interpretables. Por ejemplo, si
hay 3 idiomas posibles (ingles, francs y espaol) podemos usar 1, 2 y 3.
Las variables estadsticas suelen representarse con letras maysculas: , , , .

VARIABLES DISCRETAS Y CONTINUAS

Si las observaciones corresponden a cantidades, las variables pueden distinguirse entre


discretas y continuas. Se dice que una variable es discreta cuando no puede tomar ningn valor
entre dos consecutivos, y que es continua cuando puede tomar cualquier valor dentro de un
intervalo.
Ejemplos de variable discreta: nmero de empleados de una fbrica; nmero de hijos;
nmero de cuentas ocultas en Suiza.
Ejemplos de variable continua: estatura; peso; temperaturas registradas en un
observatorio; tiempo en recorrer una distancia en una carrera; contenido de alcohol en un cuba-
libre; estatura; tiempo dndole el coazo a una ta en la discoteca.
En la prctica, todas las variables son discretas debido a la limitacin de los aparatos de
medida. Pensemos en el ejemplo del peso: hasta hace unos aos, cuando uno se suba a una
bscula, lo mximo solan ser dos o tres decimales: 50 kilos, 350 gramos Desde hace tiempo
existen bsculas digitales con mucha mayor precision, que ofrecen un nmero mayor de
decimales. De manera general, consideraremos que una variable continua toma valores en un
intervalo (por ejemplo: el peso de un grupo de personas vara entre 40 y 100 kilos), y un dato
podr ser cualquier nmero entre esos dos, con los decimales que se quiera.De la misma forma,
por insignificante que parezca la diferencia entre la llegada de dos corredores olmpicos a una
meta, hoy en da no se producen empates, puesto que el tiempo se puede calcular con la
precisin que se desee. De manera general, las variables continuas se elegirn, desde un punto
de vista terico, con toda la precisin que deseemos (decimales), de manera que siempre
podamos escribir un valor que est entre cualesquiera otros dos.

Pag. 17
Estadstica fcil con hoja de clculo

DISTRIBUCIONES DE FRECUENCIAS

La organizacin de los datos constituye la primera etapa de su tratamiento, pues facilita


los clculos posteriores y evita posibles confusiones. Realmente, la organizacin de la
informacin tiene una raz histrica y, actualmente, con el desarrollo de los medios informticos,
tiene menos importancia desde un punto de vista aplicado. Cuando no existan ordenadores, o
ni siquiera calculadoras, si se dispona de un conjunto de datos, era necesario dotarlos de alguna
estructura que permitiera resumirlos y comprenderlos de una forma ms o menos sencilla.
La organizacin va a depender del nmero de observaciones distintas que se tengan y
de las veces que se repitan cada una de ellas. En base a lo anterior, se pueden estructurar los
datos de tres maneras distintas:

Tipo I: Cuando se tiene un nmero pequeo de observaciones casi todas distintas, stas
se darn sin ms.

EJEMPLO 1
La variable que toma los valores , , , , , , , , , .

Tipo II: Cuando se tiene un gran nmero de observaciones, pero muy pocas distintas, se
pueden organizar en una tabla de frecuencias, es decir, cada uno de los valores acompaado de
la frecuencia (tambin llamada frecuencia absoluta ) con la que aparece. Este es el tipo de tabla
que acompaa a una variable discreta.

EJEMPLO 2
La siguiente tabla
Valor Frecuencia
2 4
4 4
5 3
6 2
7 3
8 3
9 1
indica que el valor 2 se repite 4 veces, el valor 4 se repite 4 veces, etc.... Este es el
formato con que suele representarse tambin una variable cualitativa, como el
equipo de ftbol preferido por 10 personas de un bar:

Equipo Frecuencia
Real Madrid 2
Alcorcn 1
SuperDepor 6
Celta 1

Tipo III (variables continuas) En el caso de que haya muchas observaciones, la mayora
de ellas distintas, pueden disponerse agrupndolas en intervalos, e indicando el nmero de
observaciones que caen dentro de cada intervalo. Este es el tipo de representacin que
corresponde a las variables continuas.

Pag. 18
Estadstica fcil con hoja de clculo

Para ello se elige un nmero 0 min(), y otro max(), y se divide el intervalo


0 en intervalos (generalmente de igual longitud).

EJEMPLO 3
Supongamos que tenemos los datos de una variable :
, , , . , . , . , . , . , , . , . , , , , . ,
. , . , . , , . , . , , . , . , ,
Una posible representacin en intervalos es la siguiente:
Intervalo Frecuencia
[, ] 3
(, ] 6
(, ] 8
(, ] 2
(, ] 6
(, ] 1
Esta clasificacin nos dice que en el intervalo [2,4] hay 3 observaciones, que en el (4,6]
hay 6, etc... El indicar los intervalos de la forma (, ] indica que el dato no se cuenta en este
intervalo, y s se cuenta el dato . En el primer caso hemos escrito [2,4] porque no hay ms datos
a la izquierda de 2.

En cualquiera de los tres casos o tipos se tiene una distribucin de frecuencias. A la


variable que representa a la distribucin se le llama genricamente ; a cada uno de los valores
que toma la variable se le denota por , y a la frecuencia con que se repite dicho valor por
(frecuencia absoluta). Para evitar confusiones, puede ser aconsejable ordenar los valores de
la variable de menor a mayor. Los valores ordenados de una distribucin se representan, en
ocasiones, con los subndices entre parntesis:
(1) , (2) , , () ,
donde (i) < (i+1).
Para efectuar clculos, sea cul sea el tipo de distribucin, se disponen los datos en
forma de tabla (tabla de frecuencias):


() 1 1 = 1 1 = 1
1 = 1
() 2 2 = 1 + 2 2 = 1 + 2
1 = 2
() 3 3 = 1 + 2 + 3 3 = 1 + 2 + 3
1 = 3


() = = 1
1 =

donde:
representa al nmero total de observaciones, y ser igual a la suma =1 . 3 2F

3
La letra griega (sigma mayscula) representa suma. =1 representa sumar todos los

Pag. 19
Estadstica fcil con hoja de clculo


es la frecuencia relativa, definida como . Muchas veces se multiplica por 100
para indicar que es el tanto por ciento o porcentaje de veces que aparece el valor
correspondiente.
es la frecuencia absoluta acumulada, que se obtiene como =1 .
es la frecuencia relativa acumulada, que viene dada por =1 .

En la primera tabla del Ejemplo 2 tendramos

Valor ( )
2 4 4 4 = 0.2 (20%) 0.2 (20%)
20
4 4 8 4 = 0.2 (20%) 0.4 (40%)
20
5 3 11 3 = 0.15 (15%) 0.55 (55%)
20
6 2 13 2 = 0.1 (10%) 0.65 (65%)
20
7 3 16 3 = 0.15 (15%) 0.8 (80%)
20
8 3 19 3 = 0.15 (15%) 0.95 (95%)
20
9 1 = 20 1 = 0.05 (5%) 1 (100%)
20

Obsrvese que si la distribucin es de tipo I, la tabla prcticamente no aporta


informacin. Si la distribucin es de tipo III, los valores xi correspondern a las llamadas marcas
de clase o puntos medios de los intervalos 4.

In Marca de Fr Frec Fr Frecuencia


tervalo clase ecuencia uencia ecuencia relativa
absoluta absoluta relativa acumulada
acumulada
( , ] + +1
=
2

REPRESENTACIONES GRFICAS

En funcin de la naturaleza de los datos y de la forma en que stos se presenten, existen


distintos tipos de representaciones. Ahora mostramos algunas de las ms utilizadas.

PICTOGRAMA

Consiste en indicar el tamao de cada categora o atributo mediante un dibujo, tanto


ms grande a medida que la categora se repite en ms ocasiones 5, o bien con el mismo dibujo
repetido un nmero mayor de veces.

ndices desde el 1 hasta el : 1 + 2 + + .


4 +
Dado el intervalo ( , +1 ], la marca de clase viene dada por = +1
2

5
En el ao 1994 se cre la primera unidad de corrupcin universal, que fue el Roldn (por Luis Roldn,
primer director general de la guardia civil no militar, en el gobierno de Felipe Gonzlez). Empezando por colarles un
currculum falso a los de su partido, rob todo cuanto pudo y ms aprovechando su posicin: de los fondos

Pag. 20
Estadstica fcil con hoja de clculo

Suponemos que todo el mundo entiende lo que significa el grfico. Este tipo de
representacin no suele aparecer en los programas estadsticos. Aunque, por ejemplo, el Excel
tiene algn monigote implementado para hacerlos. Sin embargo, en funcin de los gustos de
cada uno, lo mejor es usar un programa que maneje grficos.

CARTOGRAMA

Consiste en representar los datos o cifras sobre un mapa, para hacer


comparaciones, como en el grfico siguiente, donde comprobamos que Espaa est, como
siempre a la cabeza (Observatorio europeo del consumo de drogas, informe del 2014).

reservados, comisiones por constructoras de cuarteles, e incluso de la caja para hurfanos de la guardia civil. Su fuga
y posterior aparicin en Tailandia fue digna de las mejoras pelculas de Alfredo Landa. La revista Intervi consigui
fotos de l con calzoncillos del ratn Mickey en una fiesta con mujeres de dudosa reputacin. A da de hoy no ha
devuelto un euro. Curioso que tambin se llame Luis. Posteriormente se han hecho revisiones y se han definido
medidas intermedias, como el gil, el julin-muoz, los pequeos-nicolases 8habituales en trapicheos menores), etc.
La conversin es 1 2

Pag. 21
Estadstica fcil con hoja de clculo

DIAGRAMA DE BARRAS

Para representar una distribucin del tipo II o una variable discreta, se suele utilizar un
diagrama de barras, levantando sobre cada valor de la variable una barra, tanto ms grande
cuanto mayor es la frecuencia absoluta de la clase o valor correspondiente. Este tipo de
diagramas se usa tambin para representar la frecuencia en el caso de atributos.

DIAGRAMA DE SECTORES (TARTA)

Es equivalente al diagrama de barras, particionando un crculo o tarta en sectores


proporcionales a la frecuencia de cada valor o atributo.

Tanto el diagrama de barras como el de sectores pueden realizarse por medio de la


plantilla barras-sectores.xlsx, sin ms que escribir los valores (cualitativos o cuantitativos) y las
frecuencias (absolutas o relativas). Eso s, debe tenerse en cuenta que, para una correcta
representacin del diagrama de sectores, las proporciones debern sumar 100.
En todo caso, hacer un diagrama de este tipo con Excel es muy fcil, incluso sin disponer
de la plantilla. No hay ms que llenar dos columnas con los datos: la primera con la variable y la
segunda con las frecuencias. Se sealan con el botn izquierdo del ratn las dos columnas, y se

Pag. 22
Estadstica fcil con hoja de clculo

va al men: Insertar Grfico de Columna agrupada, o Grfico de Sectores. Lo vemos en la


Figura 10.

Figura 10

HISTOGRAMA

Si se dispone de una variable continua, la representacin grfica ms utilizada es la que


se conoce como histograma. La realizacin de un histograma de frecuencias (absoluta o relativa)
consiste en clasificar los datos en intervalos, de la forma vista en lo que hemos denominado tipo
III. Una vez que se tienen los intervalos, sobre cada uno de ellos se levanta un rectngulo de rea
o altura la frecuencia (absoluta o relativa).

Figura 11

En cualquier histograma, si todos los intervalos tienen la misma longitud, es equivalente


considerar que la frecuencia es el rea o la altura de un rectngulo, puesto que el dibujo es el

Pag. 23
Estadstica fcil con hoja de clculo

mismo, pero realizado en diferente escala. Lo que representa grficamente el histograma es la


concentracin de los datos, o como se reparten los mismos a lo largo de los valores de la
variable. Cuntos ms datos hay en un intervalo, ms alto ser el rectngulo correspondiente
(Figura 11).
Antes hemos dicho que la clasificacin de una variable en intervalos se realiza,
generalmente, con intervalos de la misma longitud. Si los intervalos son de diferente longitud,
la representacin geomtrica podra dar lugar a confusin, y por ello no suele utilizarse.
Mencin aparte merece la consideracin del nmero de intervalos. El aspecto de un
histograma (y por tanto el de la distribucin de los datos) puede cambiar mucho dependiendo
del nmero de intervalos que se utilice. Los programas estadsticos suelen utilizar alguna
frmula que depende del nmero de datos. Por ejemplo, por defecto, el software R utiliza la
llamada frmula de Sturges: () + . Otros utilizan . (este es el que usamos en la
plantilla histograma.xlsx).

EJEMPLO 4
En la imagen de la Ilustracin 1 podemos observar el sueldo de los 30 ejecutivos mejor
pagados en Espaa durante 2013 (Fuente: El pas, 09/05/2014).

Ilustracin 1

Debido a que, segn muchos ministros, la economa actual est liderando la economia
europea, la crisis ha terminado, la gente es ms feliz y llueve vino de rioja (adems de que las
palomas ya no hacen guarreras que estn enseadas), vamos a suponer que el sueldo medio
actual terico es, ms o menos, el medio entre estas 30 personas cualesquiera, es decir, 4.75
(millones de euros anuales). Vamos a realizar un histograma de frecuencias, para saber como
andar nuestro sueldo cuando nos ofrezcan un trabajo de reponedor en cualquier superficie
comercial de barrio.

Pag. 24
Estadstica fcil con hoja de clculo

Abrimos la plantilla histograma.xlsx. Los datos se introducen en la columna Datos de


color azul, acordndose de borrar los datos que sobren (si los hay de la vez anterior). La plantilla
nos calcula el mximo, el mnimo y el nmero de datos. A partir del nmero de datos nos calcula
la raz cuadrada para ofrecernos una idea del nmero de intervalos, y del ancho de los mismos
(Figura 12).
A partir de estos datos, debemos cubrir las
casillas de color verde bajo el histograma, indicando
el mnimo 0 , el mximo y el ancho de los
intervalos. En este caso hemos puesto 2, 8 y 1,
respectivamente. La plantilla nos dibuja el histograma
y realiza la clasificacin por intervalos (Figura 13),
indicndonos las frecuencias absolutas y relativas
Figura 12
dentro de cada uno.

Figura 13

Suele resultar interesante comparar varios grficos cambiando el nmero de intervalos


para una serie de datos concreta. En la Figura 15 dibujamos la misma variable del Ejemplo 4,
primero con un nmero grande de intervalos, y despus con un nmero pequeo. Usando
tambin en la comparacin la Figura 13, puede apreciarse como, a medida que el nmero de
intervalos aumenta (o lo que es lo mismo, el ancho de los intervalos disminuye) aumenta la
variabilidad de la grfica, resultando cada vez en una grfica menos homognea, y que puede
distorsionar la informacin grfica que proporcionan los datos.

Pag. 25
Estadstica fcil con hoja de clculo

POLGONO DE FRECUENCIAS

Consiste en unir los puntos medios de los rectngulos superiores en un histograma.


Veamos el resultado, con los datos que estamos utilizando, en la Figura 14 (realizada con la
misma plantilla histograma.xlsx).

Figura 15

Figura 14

El polgono, como vemos, parte del eje y regresa al eje , simplemente marcando
como origen y final una distancia de los extremos igual a la longitud de un intervalo dividida
entre 2. Estas dos lneas finales, adems de darle una mayor vistosidad al grfico (lo esttico no
est reido con la estadstica), tiene un significado matemtico que explicamos a continuacin.

REA BAJO EL HISTOGRAMA DE FRECUENCIAS.

Pag. 26
Estadstica fcil con hoja de clculo

Pensemos en un histograma donde hemos considerado como rea de cada rectngulo


la frecuencia absoluta (nmero de datos) del intervalo correspondiente. El rea encerrada entre
el histograma y el eje horizontal sera , nmero total de datos (simplemente sumamos el rea
de todos los rectngulos). Si en vez de utilizar la frecuencia absoluta usamos la relativa, el rea
de cada rectngulo ser el porcentaje de datos que hay en el mismo. El rea encerrada entonces
por todo el histograma y el eje horizontal ser igual a 1 (es el cien por cien de los datos).
Anlogamente, puede comprobarse que el rea encerrada entre el polgono de frecuencias y el
eje horizontal tambin vale 1 (slo hay que pensar que, en el polgono de frecuencias, a
cada rectngulo le restamos y sumamos el rea de dos tringulos, que se van compensando a lo
largo de la figura). El rea total de valor uno es un hecho muy relevante a la hora de introducir,
en el captulo de variables aleatorias, el concepto de funcin de densidad.

Figura 16

Terminamos viendo un polgono de frecuencias de un caso real, pero donde la realidad


brilla por su ausencia. Es un ejemplo claro de manipulacin, pues no hay ms que fijarse que el
ltimo dato del nmero de parados (4.442.711) es superior a uno anterior (4.100.073), pero en
el grfico hasta parece ms bajo (caso verdico que sali en TVE-1, en enero 2015).

Pag. 27
Estadstica fcil con hoja de clculo

A la derecha, John M. Keynes, quien deca en su carta a E. Rorhbath


(29-XI-1939): "Cuando las estadsticas no tienen sentido, en general me
parece ms sabio preferir el sentido a las estadsticas".

Como vemos, existen los troles fuera de forocoches (me refiero al


periodista de TVE, no a Keynes).

MEDIDAS CARACTERSTICAS DE UNA VARIABLE

Una vez organizados los datos en su correspondiente distribucin de frecuencias,


procedemos a definir una serie de medidas que resuman, de la mejor forma posible, la
informacin existente en los mismos y que, de alguna manera, representen a la distribucin
en su conjunto. El inters consiste en dar un nmero reducido de valores que caracterizen bien,
o lo mejor posible, el conjunto de datos, por grande que este sea. Hay tres tipos fundamentales:
medidas de posicin, medidas de dispersin y medidas de forma.

MEDIDAS DE POSICIN O DE TENDENCIA CENTRAL

De alguna manera, estas medidas centralizan la informacin, y por ello se llaman de


tendencia central o promedios. Con ellas, se pretende tambin facilitar la comparacin entre
distintas variables.

Nota: A partir de ahora trabajaremos con una variable , con valores


, . . . , , ordenados de menor a mayor, que pueden repetirse o no, y as incluimos todos
los casos descritos.

LA MEDIA
La media es una medida de representacin o de tendencia central que debe cumplir tres
requisitos:
1. Para su obtencin deben utilizarse todas las observaciones.
2. Debe ser un valor comprendido entre el menor y el mayor de los valores de la
distribucin.
3. Debe venir expresada en las mismas unidades que los datos (si representa kilos,
la media tambin).
Entre todas las funciones que verifican estas tres propiedades destaca la media
aritmtica, a partir de ahora simplemente media, que se define de la siguiente manera:
1 + 2 +. . . +
= .

EJEMPLO 5
La nota media de los exmenes de una asignatura, el tiempo medio de realizacin de los
mismos, la estatura media, la ganancia media en comisiones ilegales, etc.

La Media recortada a un nivel es la media aritmtica pero calculada quitando el por


ciento de los datos inferiores y superiores.

Pag. 28
Estadstica fcil con hoja de clculo

Otra media que tiene inters prctico es la media ponderada. Consiste en asignar a cada
valor un peso que depende de la importancia relativa de dicho valor, bajo algn criterio.
Su expresin responde a:
1 1 + 2 2 +. . . +
= .
1 + 2 +. . . +
EJEMPLO 6
Para ganar una plaza de funcionario en una diputacin, un aspirante debe ser evaluado
en distintas pruebas: conocimientos, pertenencia al partido gobernante y aptitudes para el
peloteo, cada una de ellas ponderada segn su importancia o contribucin en la nota final. As,
los pesos de cada apartado sern del , y por ciento, respectivamente. Sabiendo que
las notas obtenidas por un aspirante en cada prueba son 7, 3 y 5 respectivamente, cul es la
nota global en la oposicin?
SOLUCIN.
La media aritmtica de las calificaciones, ponderada por los pesos de cada prueba, es
7 0.3 + 3 0.5 + 5 0.2
= = 4.6
0.3 + 0.5 + 0.2

Con el mismo esquema tambin se puede definir la media geomtrica como:


= 1 2 ,
que suele utilizarse, fundamentalmente, en economa (generalmente para promediar
porcentajes).

EJEMPLO 7
En los 3 ltimos aos, el precio de cierto producto de primera necesidad ha subido un
%, un % y un %. Cunto ha subido en promedio?
SOLUCIN.
Nos referimos a qu mismo porcentaje tendra que haber subido cada ao para obtener,
al cabo de los tres aos, el mismo valor que con estas subidas desiguales. Para obtener el precio
del primer ao (tras una subida del 10%), tenemos que multiplicar por 1.1 el precio inicial ( +
10/100 = + 0.1 = 1.1 ). Al precio as obtenido tenemos que multiplicarlo por 1.18
(subida del 18%) para obtener el precio tras el segundo ao. Y este ltimo valor hemos de
multiplicarlo por 1.30 (subida del 30%) para obtener el precio final.
Entonces, si el precio inicial es P, el resultado final ser:
1.1 1.18 1.30 = 1.6874
Sin embargo, si consideramos la media aritmtica de 10%, 18% y 30%, obtenemos un
porcentaje del 19.33% (o multiplicar por 1.1933), pero si aplicamos esa subida del 19.33% cada
ao, el resultado que obtenemos ser:
1.1933 1.1933 1.1933 = 1.6992 .
En cambio, si calculamos la media geomtrica de los tres porcentajes:
3
1.1 1.18 1.3 = 1.1905.
Podemos comprobar que 1.1905 1.1905 1.1905 = 1.6873 , con lo que el
porcentaje promedio es la media geomtrica de los porcentajes.

Otra media es la llamada media armnica, que se define como



= .
1 1 1
+
1 2 +. . . +
EJEMPLO 8

Pag. 29
Estadstica fcil con hoja de clculo

Un coche efecta un recorrido de 100 km en dos sentidos. En un sentido a velocidad


constante 60 km/h, y en el otro a velocidad constante 70 km/h. Calcular la velocidad media del
recorrido total.
SOLUCIN.
La velocidad es el espacio entre el tiempo:
2 2
= = .
1 + 2
Como el tiempo que tard en el primer sentido es 1 = /1 = /60, y el tiempo que
tard en el segundo sentido es 2 = /2 = /70, tenemos que
2 2
= = 1 ,
+ 70 1
60 60 70 +
que es la media armnica de las dos velocidades.

Nota: La primera vez que se ve este resultado, suele resultar extrao que la media
de dos velocidades no sea la velocidad media aritmtica. De hecho, el valor que se obtiene
calculando la media armnica de una serie de valores es siempre menor o igual que la media
aritmtica de los mismos.
Bsicamente, la media armnica se calcula para datos que vienen medidos en proporciones
(km por hora, kilos por metro cuadrado, etc.).

CARACTERSTICAS DE LA MEDIA ARITMTICA

Se analizan a continuacin una serie de propiedades de la media (aritmtica).

1. Si a cada observacin de una variable se le suma una constante , se tiene una


nueva variable = + con media igual a la de ms la constante . (Figura 17)

2. Si se multiplica una variable por una constante , la variable resultante =


tendr media igual a por la media de .

Figura 17

Estas dos propiedades se pueden resumir en la siguiente:


= + = a +

EJEMPLO 9
= .
Sea = , , .
Si le sumamos a , tendremos , , ; la media es + .
Si multiplicamos por 4, tendremos los valores , , , y la media es .

Pag. 30
Estadstica fcil con hoja de clculo

3. La media aritmtica se ve muy alterada por valores extremos de la variable.


Supongamos, por ejemplo, que una variable toma los valores = 1,4,12. Su media es
= 5.66.
Si aadimos un nuevo valor, por ejemplo 100, ahora la media es = 29.25. Es decir,
valores grandes de desplazan la media hacia la derecha. Lo mismo ocurre con valores
pequeos de , que desplazan la media hacia la izquierda.

En realidad, la media aritmtica representa el centro de gravedad de la distribucin de


los datos (Figura 18). Si los datos son pesos, la media aritmtica deja igual peso a un lado que al
otro, por eso se desplazara hacia los lados con valores extremos.

Figura 18

LA MEDIANA

La mediana es un valor que, previa ordenacin, deja la mitad de las observaciones a su


izquierda y la otra mitad a su derecha. Es decir, el 50% de los datos son menores o iguales que
la mediana, y el otro 50% mayores o iguales a sta.
Para su clculo, y suponiendo que los valores estn ordenados, se procede de la
siguiente manera:
si hay un nmero impar de datos, la mediana es el elemento que se encuentra
en el centro, es decir +1 .
2
Si el nmero de datos fuera par habra dos elementos centrales, y la mediana se
obtendra como la media de ambos, es decir:
+ +1
= 2 2
.
2

EJEMPLO 10
Sea la variable que toma los valores , , , , (hay = datos).
La mediana es = + = () = (deja 2 valores a la izquierda y 2 a la derecha).

Pag. 31
Estadstica fcil con hoja de clculo

Si toma los valores , , , , , , ahora hay un nmero par de valores. En el medio


tenemos los valores = () = y () = . La mediana es = ( + )/ = . .

EJEMPLO 11
Sea la variable que toma los valores 16,19,7,8,7,2,5,3,11,14. Calcular la mediana.
SOLUCIN.
Primero ordenamos los valores: 2,3,5,7,7,8,11,14,16,19. Como = 10 es un nmero
par, la mediana ser
+ +1 +
(5) (5+1) 7+8
= 2 2
= = = 7.5.
2 2 2

Nota: Como todo en esta vida, conviene saber cmo se hacen las cosas, pero tambin
est claro que si alguien nos las hace, mucho mejor. Si tenemos pocos datos, los clculos son
sencillos, pero se complican si hay muchos datos. Con cualquier programa de ordenador o
pgina web no habr ms que dar la orden adecuada, con lo que tenemos que preocuparnos
mucho ms de saber el significado de la medida, que saber calcularla.

COMPARACIN ENTRE LA MEDIA ARITMTICA Y LA MEDIANA.

La mediana se llama as porque est en el medio, mientras la media aritmtica es el


valor medio. Cuando un padre con tres hijas habla de ellas, se refiere a la mayor, la mediana
y la pequea. Si sus edades son, por ejemplo, 18, 15 y 3, obviamente la del medio no tiene como
edad la media aritmtica de las edades. Y esta hija siempre ser la mediana, aunque pase el
tiempo y los valores de sus edades vayan cambiando.
La media aritmtica supone una medida central de la variable que tiene en cuenta los
valores de la misma. La mediana, en cambio, tiene en cuenta el nmero de datos. En el ejemplo
3, cuando = 1,4,12,100 frente a = 1,4,12, la media pas de ser 5.66 a ser 29.25. La
mediana, en cambio, si = 1,4,12, ser = 4 y si = 1,4,12,100 ser = (4 + 12)/2 =
8. Como vemos, la mediana es una medida ms robusta (se ve poco afectada) frente a valores
extremos de la variable.
Ahora, si en vez del dato 100, lo cambiamos a 10000, la media es 2504.25 y la mediana
sigue siendo 8.

Ilustracin 2

Pag. 32
Estadstica fcil con hoja de clculo

Vamos a ver un ejemplo de pelcula. Hablamos de Blancanieves y la leyenda del


cazador (2012), en la cual no respetan demasiado el cuento, y, como vemos en la Ilustracin 2,
salen 8 enanos en vez de 7 (parece ser que el octavo es el padre de los otros).
Consideremos que todos los enanitos miden 1 metro. La mediana de los 8 datos sera 1
m. Si aadimos a Blancanieves al grupo (1.65 m), la mediana sigue siendo 1. Si aadimos a la
madrastra, sigue siendo 1. Y an aadiendo al cazador, que es un dato bastante separado de los
otros (1.92), tenemos en el conjunto total 11 datos. Por lo tanto, la mediana ocupar el lugar
sexto (deja 5 datos a cada lado), y sigue siendo 1. Esta propiedad que verifica la mediana, de no
dejarse afectar por datos extremos, se llama robustez.

A la hora de hablar, por ejemplo, del sueldo promedio o renta media de un pas,
resulta evidente que debera indicarse la medida que se utiliza. As, un sueldo medio dado por
la mediana sera aquel tal que el 50 por ciento de la poblacin tendra sueldo ms bajo que la
mediana, y el otro 50 por ciento un sueldo ms alto que la mediana. En cambio, el sueldo media
aritmtica es el valor correspondiente a sumar todos los sueldos y dividir por el nmero de
personas. Si existe poca gente con sueldos muy altos, el sueldo media aritmtica puede ser alto,
pero no ser representativo del conjunto total de la poblacin. Es otro ejemplo de la robustez
de la mediana frente a la no robustez de la media aritmtica. Si hay un porcentaje de personas
no muy grande con sueldo muy elevado, provoca que la media aritmtica sea tambin elevada.

Ilustracin 3: Histograma de los salario en Espaa en 2013 (datos del INE)

Blancanieves intentando ensear la diferencia


entre media y mediana a un poltico

Pag. 33
Estadstica fcil con hoja de clculo

LA MODA

La moda (absoluta) de una distribucin es el valor que ms veces se repite (el valor con
mayor frecuencia o ms frecuente). Adems de la moda absoluta, aquellos valores que tengan
frecuencia mayor a la de los valores adyacentes sern modas relativas. Por ejemplo, si tenemos
la variable que toma los valores 2,3,3,4,6,7,7,7,10, la moda absoluta es 7, puesto que es el
valor que se repite ms veces. Adems, el valor 3 es una moda relativa, puesto que su frecuencia
es 2, superior a la de los valores 2 y 4 (ambas iguales a 1).
En la Figura 19 introducimos ahora la moda en el ejemplo de la Ilustracin 1, sobre el
salario bruto anual en Espaa (2013). El salario ms frecuente, o salario moda, fue todava ms
bajo que el salario mediana. De nuevo hay que incidir en que, cuando se habla del salario medio,
debe precisarse qu medida estadstica se est utilizando. Quiz la medida ms representativa
en este caso es la moda, incluso preferible frente a la mediana.

Figura 19

Estas chicas han coincido as en la cafetera, no es cuestin de moda, aunque os lo parezca

Pag. 34
Estadstica fcil con hoja de clculo

Si las observaciones vienen agrupadas en intervalos, se hablar de intervalo modal


(absoluto) e intervalos modales relativos. El intervalo modal es aquel que tiene mayor frecuencia
(absoluta o relativa), o sea el ms alto en el histograma.

CUANTILES

Se llama cuantil de orden (0 < < 100) a aquel valor que divide a la variable en dos
partes, dejando a su izquierda (o inferiores a l) el por ciento de los datos (a su derecha el
100 por ciento). Por ejemplo, si = 50, el cuantil de orden 50 corresponde a la mediana.
Para calcularlo, haremos lo siguiente:

Calculamos cul es el % de los datos= = .
100
Si el valor es un nmero no entero, el cuantil de orden ser ([]+1) (donde []
representa la parte entera de , es decir quitamos los decimales).
Si el valor es un nmero entero, el cuantil se elige (() + (+1) )/2 (y todos
tranquilos, que estas cuentas nos la hace el ordenador).

De entre los cuantiles destacan los cuartiles, los deciles y los percentiles.
Los cuartiles dividen a la distribucin en cuatro partes iguales, los deciles en diez y los
percentiles en cien. Habr, por tanto, tres cuartiles (1 , 2 , 3 ), nueve deciles (1 , 2 , , 9 ) y
noventa y nueve percentiles (1 , 2 , , 99 ). El segundo cuartil, el quinto decil y el
quincuagsimo percentil coinciden con la mediana.
Muchos textos llaman cuantiles y percentiles a los mismos valores. Realmente, un
cuantil permite que el valor sea un nmero no entero (puede ser 21.45 por ejemplo). Como
no suele interesar calcular cuantiles con valores de no enteros, en la prctica viene a ser lo
mismo.
Con la Figura 20 y la Figura 21 podemos comprobar que, como siempre, una imagen vale
ms que mil palabras.

Figura 20

EJEMPLO 12
Sea la variable que toma los valores , , , , , , , , , . Calcular el percentil
de orden 23 y el segundo decil.
SOLUCIN.

Pag. 35
Estadstica fcil con hoja de clculo

Primero ordenamos los valores: 2,3,5,7,7,8,11,14,16,19. El percentil de orden 23


23
corresponde a 10 = 2.3, luego
100
23 = (2+1) = (3) = 5.
2
El segundo decil corresponde a 10 10 = 2, luego
(2) + (2+1) 3 + 5
2 = = = 4.
2 2
Podemos comprobar que ste mtodo de clculo coincide con lo utilizado anteriormente
50 50
para la mediana. Si = 50, calculamos = 10 = 5, con lo que la mediana ser
100 100
(5) + (5+1) 7 + 8
= = = 7.5.
2 2

Figura 21: un ejemplo de uso de los cuantiles o percentiles, para establecer los lmites de riesgo, por arriba y por abajo.

CLCULO DE PERCENTILES CON UNA TABLA DE FRECUENCIAS

Si se dispone de datos de tipo II (o una variable discreta), es decir, pocos datos que se
repiten bastante, el clculo de la mediana o de cualquier percentil es muy sencillo. Simplemente
debemos tener la tabla de los valores, las frecuencias absolutas y las absolutas acumuladas.

Valor ( )






=

Si queremos calcular el percentil ( cualquier nmero entre 0 y 100), haremos



=
100
Pag. 36
Estadstica fcil con hoja de clculo

Buscamos el valor en la columna de las frecuencias absolutas acumuladas . Si el valor


esta entre y +1 entonces el percentil sera igual a +1 . Si el valor es exactamente igual
a entonces el percentil ser igual a
+ +1
2
Por ejemplo, en la tabla de arriba, busquemos el percentil 23. Hacemos
23
20 = = 4.6
100
Vemos que el valor 4.6 est en la columna de las entre los valores 4 y 8. Por lo tanto,
el percentil 23 es igual a 4 (el valor que corresponde al valor superior (8)).
Busquemos ahora el percentil 80.
80
20 = = 16
100
Al coincidir el valor = 16 con un , automticamente elegimos como
percentil 80 a
7+8
= 7.5
2

MEDIDAS DE DISPERSIN

Las medidas de tendencia central reducen la informacin de una muestra a un nico


valor, pero, en algunos casos, este valor estar ms prximo a la realidad de las observaciones
que en otros. Por ejemplo, consideremos la variable = 0,50,100 y la variable = 49,51.
Enseguida podemos ver que las medias aritmticas de ambas variables son iguales (50), pero
tambin que la variable est ms dispersa (o menos concentrada) que la variable , de manera
que la representatividad de es mayor que la de .

A continuacin se estudian una serie de medidas que, por una parte, indicarn el nivel
de concentracin de los datos que se estn analizando y, por otra, informarn sobre la bondad
de los promedios calculados como representativos del conjunto de datos.

LA VARIANZA Y LA DESVIACIN TPICA

Pag. 37
Estadstica fcil con hoja de clculo

La varianza y su raz cuadrada positiva, la desviacin tpica, son las medidas de


dispersin ms importantes, estando ntimamente ligadas a la media como medida de
representacin de sta. La varianza viene dada por la expresin:

2 2
(1 )2 + (2 )2 +. . . +( )2 1
= = = ( )2 .

=1
Se utiliza esta frmula por ser la media aritmtica de la variable cuyos valores son (
2
) . Es decir, estamos considerando las distancias entre los datos y la media aritmtica, y las
promediamos (fijmonos en la Figura 22).
Si las distancias entre los datos y la media, en general, son grandes, la media de estas
distancias tambin lo ser. Si las distancias entre los datos y la media, en general, son pequeas,
la media de las distancias tambin lo ser. Ahora bien, las distancias las elevamos al
cuadrado para evitar que se compensen las distancias positivas y negativas (segn que los datos
estn a la izquierda de la media o a la derecha).
Realmente, puede demostrarse que, si no lo hacemos, y considersemos el promedio
1
( ) como la varianza, esto no servira para nada, ya que ese promedio es siempre
=1
cero.

Figura 22

Debido a que la varianza viene expresada en las unidades de la variable, pero elevadas
al cuadrado, se define la desviacin tpica como la raiz cuadrada con signo positivo de la varianza
= + 2. La desviacin tpica ya aparece expresada en las mismas unidades que la variable.

DIVISIN POR N-1

En muchos programas estadsticos (como el R o el SPSS) la varianza se calcula dividiendo


por 1 en vez de por . El excel llama a la varianza que hemos definido varianza poblacional

2
1
= ( )2 .
1
=1
El motivo es de tipo terico, puesto que si los datos son observaciones de una variable
aleatoria (a definir en captulos posteriores), este ltimo valor representa mejor a la varianza
terica de la variable (no os preocupis por entender este detalle en este preciso momento). En
cualquier caso, si es un nmero relativamente grande, los valores que se obtienen diviendo
entre o 1 son prcticamente iguales. Tambin, en muchas ocasiones, al valor = 2
(donde se divide por 1) se le llama desviacin estndar.
El excel llama a la varianza que hemos definido varianza poblacional, y a la divisin por
1 varianza muestral. En las calculadoras que realizan clculos estadsticos suele existir un

Pag. 38
Estadstica fcil con hoja de clculo

botn con el smbolo (o algo parecido), y otro botn con el smbolo ( 1), indicando
que el primero calcula la varianza dividiendo por , y el segundo dividiendo por 1. La propia
calculadora de Windows los tiene.

SIGNIFICADO FSICO DE LA VARIANZA

Igual que la media aritmtica representa el centro de gravedad de la distribucin de


datos, la varianza, desde un punto de vista fsico, representa el momento de inercia de la
distribucin respecto de un eje que pase por la media aritmtica.
El momento de inercia refleja la distribucin de masa de un cuerpo o de un
sistema de partculas en rotacin, respecto a un eje de giro. Un bailarn de patinaje artstico
tendr ms momento de inercia (mayor varianza) si extiende
los brazos, girando ms rpido si los contrae.
Energa de rotacin (va el coeficiente de inercia):
patinadores con brazos extendidos (dispersos) o recogidos
(poco dispersos)
Energa elstica: Muelles estirados con respecto a su
posicin de equilibrio (dispersos) frente a muelles en posicin
cercana a su posicin de equilibrio (poco dispersos)

Huracan Bisbal: minimizando la varianza al girar, y


luego maximizndola al dar su famosa patada. Un fenmeno
estadstico, y sin saberlo.

EJEMPLO 13
=
Para = , , e = , tenemos que = . Calcular las varianzas.

(0 50)2 + (50 50)2 + (100 50)2


2 ( ) = = 1666.67 = 40.82.
3

(0 50)2 + (50 50)2 + (100 50)2


2 ( 1) = = 2500 = 50.
2

(49 50)2 + (51 50)2


2 ( ) = = 1 = 1.
2

(49 50)2 + (51 50)2


2 ( 1) = = 2 = 1.4142.
1
Como vemos, las medias aritmticas de las variables coinciden, pero la
representatividad de la media es ms alta en el caso de la variable , porque los valores estn
mucho ms prximos entre s (y ms prximos a la media), que en el caso de la variable . El
hecho de dividir por o por tiene poca importancia cuando se trata de comparar la
dispersin de 2 variables, puesto que el valor realmente no nos importa, sino que la dispersin
de una variable sea mayor o menor que la otra.

Pag. 39
Estadstica fcil con hoja de clculo

CARACTERSTICAS DE LA VARIANZA.

1. Si se le suma una constante a una variable, la varianza de la nueva variable no


cambia (porque la distancia de los datos a la media sigue siendo la misma:
( + ) ( + ) =
2. Si se multiplica una variable por una constante, la varianza de la nueva variable es
igual a la de la antigua multiplicada por la constante al cuadrado:
= 2 = 2 2
Al multiplicar los datos, multiplicamos la dispersin. Pensemos por ejemplo en =
10,20,30, e = 2 = 20,40,60. Hemos multiplicado por 2 la distancia entre los datos.
Estas dos propiedades pueden resumirse en la siguiente expresin:
Y = aX + b SY2 = a2 SX2 ( SY = aSX )

EJEMPLO 14
Dada la variable con media = y desviacin tpica = , la variable
= tendr de media y desviacin tpica:
= 3 4 = 3 12 4 = 32
2 = 32 2 = 9 72 = 441 = 21.

DESIGUALDAD DE TCHEBYCHEV

Esta desigualdad, formulada por el matemtico ruso Pafnuti Lvvich Chebyshov (1821 -
1894) (y cuyo apellido se ha escrito de todas las maneras imaginables excepto Chebyshov:
aparece como Tchebychev, Tchebycheff, Schebyshev, y todas las variaciones que se nos ocurran)
relaciona a la media y a la varianza y tiene la expresin:
1
(| | ) 1 2 , > 1.

(que quiere decir que la frecuencia relativa del nmero de datos que estn alrededor de
1
la media veces la desviacin tpica es siempre mayor o igual que la cantidad 1 2 ).
Esta desigualdad es una justificacin terica del caracter de medida de dispersin de la
desviacin tpica o . Veamos, supongamos 3 valores concretos del nmero (que tiene que
ser mayor que 1); calculemos el valor de la derecha de la desigualdad, y pongamos lo que
significa lo que est a la izquierda:
1
= 2 1 2 = 0.75

1
= 3 1 2 = 0.88

1
= 4 1 2 = 0.9375

= 2 | | 2 0.75.
= 3 | | 3 0.88.
= 4 | | 4 0.9375.
Tengamos presente que los datos | | a son los datos que estn en
el intervalo de centro y radio a, es decir ( a, + a).
As, en un intervalo de centro la media y radio 2 veces la desviacin tpica ( = 2) se
encuentran, al menos, el 75 por ciento de los datos.
En un intervalo de centro la media y radio 3 veces la desviacin tpica ( = 3) se
encuentran, al menos, el 88 por ciento de los datos.

Pag. 40
Estadstica fcil con hoja de clculo

En un intervalo de centro la media y radio 4 veces la desviacin tpica ( = 4) se


encuentran, al menos, el 93.75 por ciento de los datos.
Lo que vemos es que cualquier variable tiene que tener una agrupacin de sus datos
alrededor de la media conforme a esta desigualdad; es decir, los datos no pueden hacer lo que
les d la gana, han de estar concentrados alrededor de la media segn estos porcentajes, que
estn relacionados con la desviacin tpica.
En la siguiente imagen vemos un histograma con los valores y 2 marcados
en el eje X. Segn la desigualdad, en el intervalo de valores [ 2, + 2] hay, COMO
MNIMO, un 75 por ciento de los datos. Este nmero es un mnimo. En este histograma intumos
que hay bastante mayor porcentaje de datos, puesto que fuera de ese intervalo ya hay muy
pocos datos.

EJEMPLO 15
Dada una distribucin con media
= y desviacin tpica = , el intervalo [
+ ] = [, ] garantiza la presencia en su interior de, al menos, el . % de los
,
datos. El intervalo [ ,
+ ] = [, ] garantiza la presencia en su interior de, al menos,
el 93.75 por ciento de los datos. Esto nos sirve para poder catalogar datos como posibles errores
de medicin. Si obtuvisemos en la medicin el valor, por ejemplo, x=115, est claro que se
tratara de un error y habra que repetir la medicin (que sera facil si la medicin es, por
ejemplo, una estatura, o viene de hacer una pregunta en una encuesta Sin embargo, si la
medicin viene a travs de un tacto rectal, la repeticin de la medida suponemos que no ser
tan fcil).

OTRAS MEDIDAS DE DISPERSIN.

RECORRIDO, AMPLITUD O RANGO.

Se define como la diferencia entre el mayor y el menor de los valores. Tiene la ventaja
de que es fcil de calcular, aunque cuando hay valores aislados en las puntas o extremos de la
distribucin, da una visin distorsionada de la dispersin de sta.

Pag. 41
Estadstica fcil con hoja de clculo

Recorrido = () ().

RECORRIDO INTERCUARTLICO.
Viene dado por:
= 3 1 .
(3 , 1 ) son el tercer y primer cuartil, respectivamente. Es una medida adecuada para
el caso en que se desee que determinadas observaciones extremas no intervengan. Como
inconveniente principal, tiene que slo intervienen el 50% de los valores centrales en su clculo.

Las expresiones que se acaban de ver miden la dispersin de la distribucin en trminos


absolutos (vienen expresadas en las unidades de la variable, sean kilos, euros, metros cbicos...).
Por eso, se llaman medidas de dispersin absolutas. Se precisa definir, a partir de ellas, otras
que hagan posible la comparacin entre diferentes variables, y que tengan en cuenta el tamao
de las observaciones. Estas ltimas se llamarn medidas de dispersin relativas.
Obsrvese que la variable formada por los elementos {0.1, 0.2, 0.3, 0.4, 0.5} y la
variable = {1000.1, 1000.2, 1000.3, 1000.4, 1000.5} tienen la misma varianza (no
necesitamos calcularlas: fijmonos que la segunda variable es una constante ms la
primera: = 1000 + ). Sin embargo, es evidente que, en el primero de los casos, los
elementos estn muy dispersos y, en el segundo, bastante concentrados. Para evitar estas
situaciones se estudia la siguiente medida.

COEFICIENTE DE VARIACIN.

Se define como el cociente entre la desviacin tpica y el valor absoluto de la media.



= .
| |
Se suele llamar, en ocasiones,
coeficiente de variacin de Pearson, por el
matemtico ingls Karl Pearson (1857 1936).
Se trata de una medida adimensional (no tiene
unidades), y permite comparar la dispersin de
varias distribuciones. A mayor valor de ,
menor representatividad de , y viceversa.

En general, se suele convenir en que


valores de menores a 0.1 indican una alta
concentracin, entre 0.1 y 0.5 una concentracin
Selfie de Karl Pearson
media, y valores superiores a 0.5 (o 1 segn
algunos libros) una alta dispersin y una media poco o nada representativa.
Nota: si la media aritmtica es cero, obviamente el coeficiente no puede calcularse.
En el ejemplo comentado (donde =. , . , . , . , . e =
1. , . , . , . , . ) , tendramos = = . , pero
. .
= = . = = . .
. .
Como vemos, las dos variables tienen la misma desviacin tpica, pero la media de la
segunda variable es mucho ms representativa.

Pag. 42
Estadstica fcil con hoja de clculo

EJEMPLO 16
Consideremos dos variables e , tales que viene expresada en metros e en
centmetros, con medias y desviacines tpicas:
= (= ); = (= ).

= ; = .

A primera vista, la variable est menos dispersa que la variable , si no atendemos a
las unidades. Si las tenemos en cuenta, sera al reves. En cualquier caso, podra interesar
comparar la dispersin de variables entre las que no sea posible la conversin de unidades. Es
por ello que debemos utilizar para este caso medidas adimensionales, como el coeficiente de
variacin. As, tendramos que
2 3
= = 0.2 ; = = 0.3.
10 10

RECORRIDO SEMIINTERCUARTLICO RESPECTO A LA MEDIANA.

Viene dado por


3 1
=

que, al igual que la anterior, es una medida adimensional, con las ventajas e
inconvenientes mencionados para el recorrido intercuartlico.

MEDIDAS DE FORMA

Ahora nos fijaremos en la forma de la distribucin. En primer lugar se examina la


simetra y, a continuacin, el apuntamiento.

SIMETRA

Diremos que una distribucin es simtrica respecto a un parmetro cuando los valores
de la variable equidistantes de dicho parmetro tienen la misma frecuencia. La simetra suele
referirse a la simetra respecto de la media aritmtica, o respecto de la mediana.

Pag. 43
Estadstica fcil con hoja de clculo

Una distribucin o variable es simtrica si, grficamente,


levantamos un eje o lnea vertical sobre la media (o mediana, segn el
caso) y el dibujo a ambos lados de dicho eje es idntico. La mayor parte
de las veces, aunque no se indique, la simetra se refiere a simetra
respecto a la media.
Si una distribucin no es simtrica, entonces es asimtrica, y la
asimetra puede presentarse:
- a la derecha (asimetra positiva: cola de la distribucin ms larga
a la derecha)
- a la izquierda (asimetra negativa: cola de la distribucin ms larga a la izquierda).

Los coeficientes de simetra son valores numricos que indican si la distribucin es


simtrica y, caso de no serlo, la tendencia o signo de su asimetra. Uno de los coeficientes de
simetra ms utilizados es el llamado primer coeficiente de Fisher:
3
1 = 3

siendo 3 el momento respecto a la media de orden 3, es decir

1
3 = ( )3

=1
y la desviacin tpica. Como vemos, es una medida adimensional (tanto en el numerador como
en el denominador las unidades de la variable aparecen elevadas al cubo, por lo que al efectuar
la divisin no hay unidades), y esto nos permite comparar simetras de distintas variables.
Si una distribucin es simtrica, 1 = 0.
Si 1 < 0 entonces la distribucin es asimtrica negativa.
Si 1 > 0 entonces es asimtrica positiva.
Cuando la distribucin es simtrica, coinciden la media y la mediana. Si, adems, la
distribucin tiene forma de campana 6, ambas son iguales a la moda.

6
Nos referimos a la campana de Gauss, de la que hablaremos en un momento.

Pag. 44
Estadstica fcil con hoja de clculo

Nota: Al igual que ocurra con la varianza, la frmula del coeficiente de asimetra
puede variar, por mtivos tcnicos, dependiendo del programa estadstico que se utilice.
Conviene siempre mirar el manual para tener clara la frmula. En todo caso, los valores
deben ser parecidos, y lo importante es el signo (positivo para asimetra a la derecha y
negativo al contrario), que no debe depender del programa utilizado

CURTOSIS

Las medidas de curtosis tratan de estudiar la distribucin de frecuencias en la zona


central de la distribucin. La mayor o menor concentracin de frecuencias alrededor de la media
dar lugar a una distribucin ms o menos apuntada. El grado de apuntamiento de una
distribucin (que slo se examina en distribuciones simtricas o ligeramente asimtricas, y con
un dibujo parecido al de una campana) se calcula a travs del coeficiente de apuntamiento o
de curtosis, para lo cual se compara con la distribucin Normal, que se tratar en otro captulo.
Se puede adelantar, no obstante, que la distribucin Normal tiene forma de campana (la llamada
Campana de Gauss) y que su estructura probabilstica viene dada por la funcin
1 ( )2

() = 2 2
2
En esta frmula, es la media de los datos y la desviacin tpica. La grfica de esta
funcin (simtrica con respecto al eje de centro y con puntos de inflexin o cambio de
concavidad en y + ) es la que aparece a continuacin. Muchas veces se dice que una
variable o distribucin es ms apuntada que la distribucin Normal, o menos apuntada (o
igual) que la distribucin Normal.

Para estudiar el apuntamiento se dibuja el histograma de la variable junto con la grfica


de la funcin normal o campana de Gauss. De todas formas, al igual que en el caso de la simetra,
existe un coeficiente numrico para medir la curtosis. El coeficiente de curtosis (segundo
coeficiente de Fisher) toma la expresin:
4
2 = 4 3

siendo 4 el momento respecto a la media de orden 4:

Pag. 45
Estadstica fcil con hoja de clculo


1
4 = ( )4 .

=1
Como vemos, el coeficiente 2 es adimensional, con lo cual sirve para comparar la
curtosis de diferentes variables. Cuando dicho coeficiente vale 0, coincide con el de la (0,1), y
se dice que la distribucin es mesocrtica (o que la variable tiene el mismo apuntamiento que la
normal). Si es menor que 0, la distribucin o variable correspondiente se dice que es platicrtica
(la variable es menos apuntada que la normal); y, si es mayor que 0, leptocrtica (la variable es
ms apuntada que la normal). Las diferentes posibilidades aparecen reflejadas en el siguiente
grfico.

Figura 23

Bsicamente, el clculo de la
curtosis de una variable se utiliza para
establecer una comparacin con la
variable normal que tenga la misma
media y desviacin tpica. El objetivo es
analizar si podemos considerar que la
variable en estudio es
aproximadamente normal. En el
captulo de variables aleatorias se
ampliar la informacin sobre las
variables normales. Para un curso
introductorio de estadstica, como es nuestro caso, el tema de la curtosis tiene poca
importancia. Repetimos que la curtosis slo tiene inters medirla en distribuciones simtricas o
ligeramente asimtricas, que puedan parecerse a la curva Normal o de Gauss. En la prctica,
podemos encontrarnos con distribuciones cuyo histograma sea muy irregular y que,
visualmente, sea de imposible comparacin con dicha curva. En estos casos, el coeficiente de
curtosis 2 puede calcularse, pero no tiene inters prctico.
Nota: De nuevo es necesario indicar que la frmula exacta del coeficiente de curtosis
puede variar segn el programa utilizado, y puede ser alguna variacin del coeficiente aqu
definido, por motivos puramente tericos. Igual que ocurra con el caso de la simetra, ms que el
valor nos interesa el signo.

TRANSFORMACIONES

Pag. 46
Estadstica fcil con hoja de clculo

En ocasiones, la variable en estudio puede presentar muchas irregularidades, como


asimetra acentuada, valores muy extremos, etc. En otras ocasiones, se necesita comparar la
posicin de dos valores pertenecientes a variables con caractersticas muy diferentes. En estos
casos es recomendable efectuar una transformacin que haga ms regular la distribucin y, por
tanto, con mejores condiciones para su estudio. Tiene particular importancia la tipificacin de
una variable.

NORMALIZACIN O TIPIFICACIN

Dada una variable con media y desviacin tpica , la tipificacin consiste en realizar
la siguiente transformacin:

= .

A la nueva variable se le llama variable normalizada o tipificada, y tiene media 0 y
desviacin tpica 1. Los valores tipificados se convierten en datos adimensionales. Por todo lo
anterior, la tipificacin tiene la propiedad de hacer comparables valores individuales que
pertenecen a distintas distribuciones, an en el caso de que stas vinieran expresadas en
diferentes unidades.

EJEMPLO 17
= . y = . .
Sea = {, , , , , }. Obtenemos que
La variable (tipificada de ) toma los valores
3 22.5 14 22.5 17 22.5 24 22.5 24 22.5 53 22.5
, , , , , ,
15.37 15.37 15.37 15.37 15.37 15.37
es decir
= {1.35, 0.59, 0.30,0.1,0.1,2.12}.
Se comprueba que Z = 0 y = 1.

EJEMPLO 18
Elosa trabaja en el Mercamona y gana 1000 euros al mes. En su categora laboral, la
retribucin media y desviacin tpica vienen dadas por: = 800 y = 25. Por otro lado,
Guillermo Collarte (diputado) realiz unas declaraciones en 2012 diciendo: gano 5100 euros al
mes y no llego a fin de mes. Si el salario medio de los diputados es 5000 al mes y = 50, tanto
uno como el otro ganan salarios por encima de la media. Si se quiere conocer cul de los dos
ocupa mejor posicin relativa dentro de su categora, hay que tipificar sus sueldos:
1000 800
() = = 8,
25
mientras
5100 5000
() = = 2.
50

En trminos absolutos, el diputado gana ms que Elosa. Sin embargo, en relacin al


conjunto de los empleados de cada categora, la empleada de Mercamona ocupa mejor
posicin. Es grandioso el espritu de sacrificio de aquellos diputados que, ganando tan poco
(segn ellos) siguen en su puesto, sacrificndose por el pas.

ANLISIS EXPLORATORIO DE DATOS

Pag. 47
Estadstica fcil con hoja de clculo

El anlisis exploratorio de datos est formado por un conjunto de tcnicas estadsticas,


fundamentalmente grficas, que pretenden dar una visin simple e intuitiva de las principales
caractersticas de la distribucin en estudio. Puede ser un fin por s mismo o, generalmente, una
primera etapa de un estudio ms completo. Como aspectos ms destacables que abarca estn
los que se refieren a la forma de la distribucin y a la deteccin de valores anmalos (datos
extraos comparados con el conjunto). Evidentemente, las tcnicas de representacin grfica
que hemos visto constituyen parte del anlisis exploratorio de datos.

DIAGRAMA DE TALLO Y HOJAS (STEM & LEAF)

Es una representacin semigrfica donde se muestra el rango y distribucin de los datos,


la simetra y si hay candidatos a valores atpicos (valores muy extremos o incluso errores). Su
uso slo es recomendable siempre que el nmero de datos no sea muy grande. Para construirlo
basta separar en cada dato el ltimo(s) dgito(s) de la derecha (que constituye la hoja) del bloque
de cifras restantes (que formar el tallo).
Este tipo de diagrama se populariz en los aos 80 a partir de la publicacin del libro
Exploratory data analysis del estadstico John Tukey (1915 - 2000), por su facilidad para
hacerse a mano, o rpidamente con las computadoras de aquella poca. Actualmente, dada la
capacidad grfica de los ordenadores, se utiliza poco.

Vamos a realizar el diagrama de tallo y hojas para la siguiente variable:


24 17 10 14 19 21 25 41 12 24 10 34 34 45 59 51 78.
En el diagrama de tallo y hojas se representa el primer dgito (en este caso. Se usarn uno o ms
digitos dependiendo de las cifras) de los datos a la izquierda de la barra de separacin y el
segundo a la derecha.
1 002479
2 1445
3 44
4 5
5 19
7 8
Es un diagrama del estilo de un histograma o diagrama de barras, pero colocado en
horizontal. Cuenta adems con la ventaja de tener los datos sobre la propia grfica.

Ilustracin 1

Pag. 48
Estadstica fcil con hoja de clculo

Como curiosidad, en la Ilustracin 1 podemos ver un diagrama de este tipo en una


estacin de tren japonesa (fuente: Wikipedia). En el diagrama de tallo y hojas se representan los
dgitos de la hora a la izquierda (la columna en negro) y a la derecha los minutos. La mayor o
menor frecuencia de paradas se deduce fcilmente de la longitud de las filas y es, adems, my
fcil ver en qu minutos de cada hora paran los autobuses, y hacer comparaciones.

DIAGRAMA DE CAJA (BOX-PLOT)

Los diagramas de caja (box-plot) o diagramas de caja y bigotes (box-whisker) son


representaciones grficas sencillas que no necesitan un nmero elevado de valores para su
construccin. Se utilizan para estudiar tanto la dispersin como la forma de una variable.
Asimismo, son especialmente tiles para comparar distintas distribuciones entre s.
Como dice su nombre, constan de una caja, donde la misma representa el 50% central
de la distribucin (va de 1 o primer cuartil a 3 o tercer cuartil), y la lnea situada en el interior
de la caja es la mediana (Figura 24).
En este grfico, 1 recibe el nombre de bisagra inferior y 3 bisagra superior.
Los extremos inferiores y superiores de los segmentos (tambin llamados bigotes)
delimitan lo que se denomina como valores normales, y coinciden, respectivamente, con el
mnimo y el mximo de los valores una vez excluidos los candidatos a valores anmalos. Los
candidatos a valores anmalos se etiquetan como atpicos y coinciden con aquellas
observaciones que se encuentran fuera del intervalo (, ), donde:
= 1 1.5
= 3 + 1.5 ,
es decir, a una distancia de 1 , por la izquierda, o de 3 , por la derecha, superior a una vez y
media el recorrido intercuartlico ( = 3 1 ). En este caso se llaman atpicos de primer
nivel. Cuando la distancia, por uno de los dos lados, es superior a tres recorridos intercuartlicos,
el valor atpico se denomina de segundo nivel, o dato extremo.
Los valores atpicos de primer y segundo nivel quedan normalmente identificados en el
diagrama de cajas por smbolos diferenciados (, , ), debiendo considerarse la revisin de los
mismos (pueden corresponder a mediciones mal efectuadas) para posible depuracin antes del
anlisis de los datos. El resumen de las caractersticas observables en un diagrama de caja
aparece en la Figura 24.

Figura 24

Pag. 49
Estadstica fcil con hoja de clculo

Dato anmalo: hay que revisar si se ha introducido por error, se ha observado mal, lo
han hecho a propsito, etc.

MOMENTOS DE UNA VARIABLE ESTADSTICA

Los momentos son valores que permiten caracterizar a una distribucin, siendo dos
distribuciones tanto ms parecidas cuanto mayor sea el nmero de momentos iguales o
parecidos que posean.
Fundamentalmente se trabaja con momentos respecto al origen y momentos respecto
a la media aritmtica (centrales).

MOMENTOS RESPECTO AL ORIGEN

Se define el momento respecto al origen de orden r como


=1( 0) =1
= =

2
=1
Ejemplos: 0 = 1, 1 = , 2 =

MOMENTOS RESPECTO A LA MEDIA ARITMTICA

Se define el momento respecto a la media de orden r como


=1( )
=

Pag. 50
Estadstica fcil con hoja de clculo


=1( )
2 3 4
Ejemplos: 0 = 1, 1 = 0, 2 =
=2 , 1 = 3
, 2 = 4

3

Propiedad. Todos los momentos respecto a la media pueden calcularse en funcin de


los momentos respecto al origen. Esta propiedad es de inters para hacer cuentas a mano. Si se
hacen con un ordenador, no tiene inters. Vemos algunos ejemplos

Momento respecto a la media Momentos respecto al origen


2 = 2 12
3 = 3 31 2 + 212
4 = 4 41 3 + 612 2 314

DATOS EN TABLA DE FRECUENCIAS

Hasta el momento, hemos considerado que la(s) variables(s) considerada(s)


tomaban valores que podan ser iguales o no. A partir de ello, definimos las frmulas, como
por ejemplo, la media aritmtica: suma de todos los valores dividido por el nmero de datos. En
ocasiones (fundamentalmente en problemas de los libros de texto), la variable aparecer
definida por su tabla de frecuencias (valores y frecuencias absolutas, o nmero de veces que
aparece cada valor). Recordemos:


1
2
3


donde = =1

Todas las medidas definidas pueden escribirse utilizando esta notacin. Por ejemplo, la
media aritmtica la escribiramos
1 + 2 + + =1
= =

o, si por ejemplo, en vez de darnos las frecuencias absolutas, nos dieran las relativas, sera

=
=1
La nica diferencia es que, en lo visto hasta ahora, cada dato aparece una sola vez (su
frecuencia absoluta siempre es uno). En el segundo caso, multiplicamos cada valor por el
nmero de veces que aparece.
Escribamos pues, las otras frmulas vistas para el caso de una tabla de frecuencias:

Media geomtrica.

= 1 2 = 1 1 2 2
Media armnica.

Pag. 51
Estadstica fcil con hoja de clculo


= =
1 1 1 =1
1 + 2 +. . . +

Varianza.

1 1 1
2 = 2 = ( )2 = ( )2 = 2 ( )2 = 2 12

=1 =1 =1

Momentos respecto al origen.


=1( 0) =1
= =

Momentos respecto a la media.


=1( ) =1( )
= =

PROBLEMAS

PROBLEMA 1
Se desea hacer un estudio estadstico de la temperatura del agua del ro Po. Para esto
es necesario tomar una muestra y calcular la media, mediana, desviacin estndar, rango y
coeficiente de variacin. Se realizan 14 observaciones arrojando los siguientes resultados en
grados centgrados:
2.11, 3.8, 4.0, 4.0, 3.1, 2.9, 2.5, 3.6, 2.0, 2.4, 2.8, 2.6, 2.9, 3.0.
SOLUCIN.
Cuando nos den un conjunto pequeo (o no tan pequeo) de datos, lo ms prctico es
ir a la plantilla resumen-medidas-estadisticas.xlsx e introducir los datos en la columna azul
(Figura 25). El Excel calcula, como vemos, las principales medidas estadsticas de resumen de los
datos.
Vemos que, por ejemplo, la media aritmtica = . , la mediana es 2.9, etc.

Figura 25

Para que esta plantilla funcione la opcin anlisis de datos debe estar activa. Es decir,
en el men principal, yendo al men DATOS, debemos ver a la derecha la opcin Anlisis de

Pag. 52
Estadstica fcil con hoja de clculo

datos. Si no lo vemos, hemos comentado en la introduccin el procedimiento a seguir para que


aparezca.

PROBLEMA 2
Dos profesores (A y B) estn interesados en estudiar los hbitos de sueo de los
estudiantes en sus clases. Ambos profesores registran el tiempo (en minutos) que tardan en
quedarse dormidos sus alumnos desde que empieza la clase. El grfico muestra los boxplot de
la variable citada para cada profesor.

a) Cul es el valor aproximado de las medidas de dispersin del tiempo del Profesor A?
b) Qu porcentaje de alumnos se queda dormido antes de los 15 minutos con el
Profesor A?
SOLUCIN.
Las medidas de dispersin que podemos conocer a partir de un grfico de caja y bigotes
son el Rango y el Rango intercuartlico. (Para calcular la desviacin estndar necesitamos todos
los datos.)
a) El Rango de la variable para el Profesor A
es:
mximo mnimo = 21 9 = 12 minutos.
El Rango intercuartlico es:
tercer cuartil primer cuartil = 17 14 = 3
minutos.
b) El valor 15 corresponde al tercer cuartil,
luego se quedan dormidos el 75 por ciento
de los alumnos antes de los 15 minutos.

PROBLEMA 3

Pag. 53
Estadstica fcil con hoja de clculo

Un pas ficticio est compuesto por tres autonomas. La primera (Tacanyuna) tiene dos
habitantes cuyas rentas personales son 30 y 25 (miles de euros). La segunda autonoma (Felicia)
tiene tres habitantes con rentas de 45, 62 y 15. La tercera (Andamara) tiene cinco habitantes
con rentas de 38, 86, 43, 65 y 24.
a) Calcular la renta per cpita de cada autonoma.
b) Calcular la renta per cpita promedio de las autonomas (usar la media aritmtica
simple).
c) Repetir el apartado anterior usando la media ponderada (piensa cules son los pesos).
d) Calcular la renta per cpita de pas y compararla con los resultados de b) y c).
SOLUCIN.
Autonoma Rentas
Tacanyuna 30, 25
Felicia 45,62,15
Andamara 38,86,43,64,24
a) La renta per cpita es la media de la renta en cada autonoma
Autonoma Renta per cpita
Tacanyuna 30 + 25
= = 27.5
2
Felicia 40.67
Andamara 51

b) La renta per cpita promedio se calcula haciendo la media de las otras:


27.5 + 40.67 + 51
= = 39.72
3
c) Ponderamos por el nmero de habitantes:
27.5 2 + 40.67 3 + 51 5
= = 43.201
10
d) La renta per cpita de pas es la media aritmtica de todos los datos
30 + 25 + 45 + 62 + + 24
= = 43.2
10

PROBLEMA 4
En el ltimo pleno de la corporacin municipal de Villapodre del Chorizo los concejales
acuerdan subirse el sueldo un 800 por ciento a ellos mismos, y una propinilla a los funcionarios
municipales, a costa de cerrar el centro geritrico, la cocina econmica y la casa de la cultura. La
distribucin de salarios queda:
Sueldo en euros mensual neto Personas que lo cobran
100 los 3 conserjes
200 los 5 administrativos
30000 los 25 concejales
40000 los 6 asesores del alcalde
80000 el alcalde
a) Teniendo en cuenta que el alcalde gan las elecciones presentndose por el partido
comunista revolucionario radical, parece claro que los sueldos no cumplen demasiado el ideario
del partido. Cul es el sueldo que deberan cobrar para que fuese un reparto de tipo
comunista (todos cobran lo mismo)?
b) Qu sueldo cobran el 10% de los mejor pagados?
c) Tras una denuncia de un sindicato, el tribunal supremo ordena que los asesores del
alcalde no pueden ganar ms dinero que lo que gane la mitad de la corporacin y empleados
municipales con los menores sueldos? Qu sueldo les van a dar?

Pag. 54
Estadstica fcil con hoja de clculo

d) El alcalde saca un bando por el que nombra funcionario al gaitas, el dueo del club
local del farolillo rojo, y le asigna sueldo de 200.000 euros al mes (para ello se inventa un
impuesto nuevo que grava el uso de papel higinico) para que no se chive de las visitas que hace
por la noche a su club. Cmo vara el valor del apartado anterior?
SOLUCIN.
a) El sueldo total que se reparte es
100 3 + 200 5 + 3000 25 + 40000 6 + 80000 1 = 396.300 euros
Para que todos cobren lo mismo hay que repartir ese sueldo entre el total:
3 + 5 + 25 + 6 + 1 = 40

396300
= 9907.5
40
b) Construimos la columna de frecuencias absolutas acumuladas:

Sueldo ni Ni
100 3 3
200 5 8
3000 25 33
40000 6 39
80000 1 40

90 90
Para calcular este apartado, debemos calcular el percentil 90. Calculamos =
100 100
40 = 36. Buscamos este valor en la columna de los , que est entre 33 y 39. As, el percentil
90 es 40.000.
c) Ahora hay que calcular la mediana. Es como el apartado anterior, pero calculando
50
= 20. Este valor en la columna de los est entre 8 y 33, por lo que la mediana es 3000.
100
d) Aadir un dato a la variable, por alto que sea, es difcil raro que cambie el valor de la
mediana, puesto que la mediana es "robusta" ante valores extremos. De hecho, si aadimos el
50
dato 200.000 a la tabla, ahora habria 41 datos, y = 20.5, que mantiene el valor de la
100
mediana en 3000.

PROBLEMA 5

Pag. 55
Estadstica fcil con hoja de clculo

Despus de hundirse un petrolero en las proximidades de la costa de la ciudad de A


Corua, se hizo un estudio de la concentracin de petrleo en las aguas a lo largo de 150 puntos
distribuidos por la costa gallega. Los resultados obtenidos, en mililitros por metro cbico, fueron
los siguientes:
Concentracin Frecuencia
en ml/m 3
observada
15 24
25 36
35 20
45 20
75 50
a) La concentracin media de petrleo.
b) El nivel de concentracin detectado por un mayor nmero de puntos costeros.
c) Si clasificamos a un punto costero en el grupo en donde se encuentran el 50% de los
menos contaminados, cul sera el tope de contaminacin que podra tener?.
d) Y si lo clasificamos en el grupo en el cual se encuentran el 25% de los ms
contaminados, cul sera la contaminacin mnima que podra tener?
SOLUCIN.
a) La concentracin media se refiere a la media aritmtica
15 24 + 25 36 + 35 20 + 45 20 + 75 50
= = 44.067/3
24 + 36 + 20 + 20 + 50
b) Se refiere a la moda, que es el valor con mayor frecuencia absoluta: 75.
c) Sera la mediana de los datos. Para calcularla construimos la tabla de frecuencias
absolutas y absolutas acumuladas
Concentracin
en ml/m 3

15 24 24
25 36 60
35 20 80
45 20 100
75 50 150
50
Ahora calculamos 150 = 75. Este valor, en la columna de los , est entre 60 y
100
80, por lo que la mediana es 35
75
d) Nos piden el tercer cuartil, o percentil 75. Hacemos 150 = 112.5. Este valor, en
100
la columna de los , est entre 100 y 150, por lo que el tercer cuartil es 75.
Nota: Para completar el problema en bonito queda bien hacer un diagrama de barras,
que podemos hacerlo en un pis-ps con la plantilla barras-sectores.xlsx.

Pag. 56
Estadstica fcil con hoja de clculo

PROBLEMA 6
Para conocer la cantidad de jardineros que la universidad debera contratar para limpiar
los jardines del campus despus de las pruebas de selectividad, se analizan unas muestras
elegidas al azar de los jardines (cada una recogida en un metro cuadrado) y se anota la cantidad
de desperdicios que hay en cada zona, expresada en kgs.
10.87 9.01 22.5 12.35 17.39 31.05 17.19 16.74 20.33 19.32 23.18 25.15
49 20.3 2.38 13.55 9.33 22.72 10.96 25.9 27.66 9.74 18.65 9.31
6 17.41 24.86 15.34 23.34 22.81 17.86 30.72 32.6 8.96 32.71 15.86
Dibujar el histograma correspondiente. Qu conclusiones se pueden obtener acerca de
la dispersin y la forma de la distribucin de los datos respecto a la limpieza de los futuros
universitarios?
SOLUCIN.
Vamos a utilizar la plantilla histograma.xlsx para lo que su nombre indica.
Copiamos los datos en la columna azul de la plantilla (recordad borrar los datos que
puedan sobrar de la vez anterior que se us la plantilla, si es el caso). El mnimo de los datos es
2.38 y el mximo 49. El cuadro de la parte de debajo de la plantilla nos sugiere un nmero de
clases o intervalos cercano a 6, y el ancho de los intervalos prximo a 7.77. Elegimos entonces

Figura 26
como valor inicial para los intervalos del histograma el valor 2, como valor final 52 y un ancho
de 10.
La tabla de frecuencias (intervalos de clase) y el histograma son los de la Figura 26.

Para calcular la dispersin, copiamos la


columna de datos y la pegamos en la plantilla
resumen-medidas-estadisticas.xlsx" Nos sale el
resultado de la Figura 27. Segn vemos, la dispersin
tiene un valor de 9.11. El coeficiente de asimetra
tiene un valor de 0.803, que es mayor que cero, lo
que confirma la apreciacin grfica que nos da el
histograma de que la distribucin es ms larga a la
derecha (asimetra positiva). Si nos interesa comparar
la distribucin con la campana de Gauss, vemos que
la curtosis es 1.69, por lo tanto es una distribucin
ms apuntada que la normal.
Figura 27

Pag. 57
Estadstica fcil con hoja de clculo

Esto viene a decir que, en la parte central de la distribucin, se presenta una mayor
concentracin de datos (algo que se ve claramente en el histograma). La cantidad de
desperdicios es ms amplia en los dos intervalos centrales del histograma.
Bsicamente, vemos que los universitarios del problema son bastante guarros.

Qu gusto da ver estudiar a la juventud universitaria, esas charlas de ciencia y filosofa al aire libre

PROBLEMA 7
Las autoridades administrativas de un ministerio estn interesadas en evaluar la calidad
de 2 tipos de sistemas operativos para su posible implantacin como sistema estndar en las
oficinas de atencin al pblico. Se consideran 2 zonas diferentes de la administracin
(funcionarios de ventanilla y jefes de seccin). En cada zona se aplica un sistema operativo
distinto, cargado solo con los ltimos video juegos de Pipa 15 y Assasins world craft. En el
cuadro siguiente se obtienen el nmero de puntos que cada persona de cada zona obtiene en
ambos juegos
zona 1
194 199 191 202 215 214 197 204 199 202 230 193 194 209
zona 2
158 161 143 174 220 156 156 156 198 161 188 139 147 116
Realizar un estudio comparativo de la calidad de los sistemas operativos (teniendo en
cuenta que los funcionarios, cuantos ms puntos ganan en los video-juegos, mejor consideran
el sistema), utilizando resmenes numricos y diagramas de cajas. Estudiar la dispersin, la
asimetra y el apuntamiento de ambas muestras. Se puede considerar que ambas zonas de la
administracin son semejantes?
SOLUCIN.
Para realizar un diagrama de cajas o box-plot introducimos los datos de las dos variables
en la plantilla box-plot-2-variables.xlsx. El resultado es el de la Figura 28.
Observamos que la distribucin de la Zona 1 est mucho ms concentrada (menos
dispersin) que la Zona 2. Igualmente podemos observar que la primera distribucin posee
menor recorrido que la segunda. En la parte central de la distribucin (entre las bisagras), la
zona 2 parece que tiene mayor asimetra. Comparando la asimetra a lo largo de toda la variable,
no podemos saberlo, en principio.

Introduciendo los datos en la plantilla resumen-medidas-descriptivas.xlsx obtenemos


valores para confirmar nuestros pronsticos. Los resultados aparecen en la Figura 29.
Vemos que la zona 2 tiene mayor desviacin estndar y mayor rango, lo que significa
mayor dispersin. El coeficiente de asimetra, en cambio, tiene diferente signo segn la variable.

Pag. 58
Estadstica fcil con hoja de clculo

Figura 28

Figura 29

Postdata: el que escribe este libro es funcionario.

PROBLEMA 8
En una clase hay 15 alumnos y 20 alumnas. El peso medio de los alumnos es 58.2 kg y
el de las 20 alumnas 52.4 kg. Supongamos que las desviaciones tpicas de los dos grupos son,

Pag. 59
Estadstica fcil con hoja de clculo

respectivamente, 3.1 kg y 5.1 kg. El peso de Borjita es 70 kg y el de Pilarita es 65 kg. Cul de


ellos puede, dentro del grupo de alumnos de su sexo, considerarse ms rellenito?
SOLUCIN.
Compararemos ambos pesos a travs de los valores tipificados:
Borjita:
70 58.2
= 58.2, = 3.1, = = = 3.806
3.1
Pilarita:
65 52.4
= 52.4, = 5.1, = = = 2.47
5.1

El peso de Borjita, dentro de su grupo, es mayor que el de Pilarita dentro del suyo.

PROBLEMA 9
En la siguiente variable 61.6 42.9 52.3 50.1 57.8 42.4 49.9 41.4 52.2 56.5 59.1 38.1
59.1 44.9 cunto vale el percentil 45?
SOLUCIN.
Cuando son pocos datos, lo ms prctico y rpido es ir a la definicin. Primero
ordenamos los datos:
38.1 41.4 42.4 42.9 44.9 49.9 50.1 52.2 52.3 56.5 57.8 59.1 59.1 61.6
Luego calculamos
45 45
= = 14 = 6.3
100 100
Al ser un nmero no entero, el cuantil es ([6.3]+1) = (7) =50.1

PROBLEMA 10
Relacionado con las pensiones de un determinado pas est la pirmide de poblacin,
porque permite hacer estimaciones de cmo va a evolucionar la poblacin activa, y la poblacin
en edad de percibir pensiones. A la derecha tenemos la pirmide de poblacin espaola de 2012.

a) Cual es la edad media de los espaoles?


b) Calcular la moda, la mediana y el rango
intercuartlico
c) Comentar la forma de la distribucin de la
poblacin
d) En qu percentil est usted situado?
e) En qu percentil est situada una
persona que naci durante el Baby Boom (por
ejemplo, 1975) 7

7
El Baby Boom hace referencia a una poca de alto nmero de nacimientos. Lo escribimos por
si alguno piensa que se refiere a nios explotando o cosas as, y es que sabemos que la ESO ha causado

Pag. 60
Estadstica fcil con hoja de clculo

SOLUCIN.
Introducimos los datos de la
pirmide en la plantilla tablas-
frecuencias.xlsx. Como valores de
introducimos los puntos medios de los
intervalos de la pirmide, y como
frecuencias el nmero de espaoles en en
ese rango de edad. El resultado lo tenemos
en la Figura 30.

Lo primero que observamos es que


o falta algo o no sumaron bien en el
peridico, porque hay una diferencia de 3 Figura 30
personas (a lo mejor andaban fugados; para el caso nos da lo mismo).

a) La edad media es 40.13


b) La moda est entre 31 a 40 aos. Para calcular la mediana, construimos la columna
de frecuencias absolutas acumuladas:

5 5161000 5161000
15 4412893 9573893
25 6377159 15951052
35 7960321 23911373
45 6999220 30910593
55 5435040 36345633
65 4256919 40602552
75 3431381 44033933
85 1691684 45725617
95 242018 45967635

50 50
Para calcular la mediana, hacemos: N= 45967635 = 27770764. Este valor,
100 100
en la columna de los , est entre la cuarta y quinta fila, por lo que la mediana de edad es 45,
o mejor dicho, el intervalo de edad entre 40 y 50.
c) La forma es asimtrica positiva. Se ve en el grfico y en el coeficiente de asimetra que
nos da la tabla de la Figura 30, que es mayor que cero. La curtosis es negativa, por lo que es una
distribucin ms aplastada que la distribucin normal.
d) Me preguntan en qu percentil estoy yo situado. Para responder a preguntas de este
tipo, lo mejor es aadir a la tabla anterior una columna de porcentajes acumulados (frecuencias
relativas acumuladas; aadimos una columna ms para representar la misma en tanto por
ciento).


5 5161000 5161000 0.112 11%
15 4412893 9573893 0.208 21%
25 6377159 15951052 0.347 35%
35 7960321 23911373 0.520 52%
45 6999220 30910593 0.672 67%
55 5435040 36345633 0.791 79%

daos terribles.

Pag. 61
Estadstica fcil con hoja de clculo

65 4256919 40602552 0.883 88%


75 3431381 44033933 0.958 96%
85 1691684 45725617 0.995 99%
95 242018 45967635 1.000 100%
Si, por ejemplo, mi edad es 26, vemos que el 26 es mayor que el
= , por lo que estaramos en un percentil superior al 35 e inferior al 52. Si nuestra edad
coincide exactamente con un valor , entonces miramos en la columna correspondiente el
porcentaje que deja nuestra edad a la izquierda y ese es nuestro percentil exacto (por ejemplo,
si la edad es 45, estaramos en el percentil 67).
e) Como la tabla de datos es de 2012, una persona que naci en 1975 tiene 37 aos,
luego es un percentil mayor o igual al 52.

PROBLEMA 11
Se dispone del beneficio anual obtenido el pasado ao por 38 empresas:
Beneficio N
(miles ) empresas
230-280 5
280-330 7
330-580 14
580-630 9
630-780 3
Se pide:
a) Calcular el beneficio medio de estas 38 empresas.
b) Cul es el beneficio mayor de la mitad de las empresas ms modestas?
c) Determinar el beneficio ms frecuente.
d) El 25% de las empresas ms rentables qu nivel de beneficios tienen?
e) Estudiar la dispersin de esta distribucin a partir del recorrido intercuartlico,
desviacin tpica y coeficiente de variacin de Pearson. Interpretar los resultados obtenidos.
f) Estudiar la forma de esta distribucin. Comentar el resultado.
SOLUCIN.
Primero aadimos una columna a la tabla, para indicar las marcas de clase o puntos
medios de los intervalos
Beneficio Marcas de clase N empresas
(miles ) ( )
230-280 255 5
280-330 305 7
330-580 455 14
580-630 605 9
630-780 705 3

Ahora introducimos las dos ltimas columnas en la plantilla tablas-frecuencias.xlsx. En


la Figura 31 vemos, a la izquierda, las dos columnas (fondo azul) donde introducimos los datos,
y los resultados que nos da la plantilla, a la derecha. A partir de ellos podemos responder a las
preguntas.

a) El beneficio medio es 456315.8 euros.

Pag. 62
Estadstica fcil con hoja de clculo

Figura 31
b) Nos piden la mediana. Para ello hemos de construir la tabla de frecuencias
acumuladas


255 5 5
305 7 12
455 14 26
605 9 35
705 3 38

50
Ahora calculamos 38 = 19. Este valor, en la columna de los , est entre 12 y 26,
100
por lo que la mediana es 455 (en miles de euros).
c) El beneficio ms frecuente es 455 (la moda), o el intervalo modal 330-580.
25
d) Ahora nos piden calcular el percentil 25. Calculamos 38 = 9.5. Este valor, en la
100
columna de los , est entre 5 y 12, por lo que el percentil 25 es 305.
e) La desviacin tpica y el coeficiente de variacin los tenemos en la Figura 31. La
desviacin tpica es 140.24 y el coeficiente de variacin 0.30. Como el coeficiente de variacin
es menor que 1 diramos que la media es representativa.
Por otro lado, el recorrido intercuartlico es la diferencia entre el cuartil tercero y el
primero, que son el percentil 75 y el 25 (calculado en el apartado anterior).
El percentil 75 se calcula igual y da 605. Luego el recorrido intercuartlico es
605 305 = 300.
f) La forma la estudiamos mediante la asimetra y la curtosis. El coeficiente de asimetra
es 0.1 (por lo tanto es asimtrica positiva) y el coeficiente de curtosis es negativo (-1.11), por lo
que la distribucin es ms aplastada que la normal.
Comparando esta distribucin con la normal, vemos que no es simtrica y es menos
apuntada que la normal.

PROBLEMA 12
Una empresa dedicada a la seleccin de personal ha realizado un examen entre varios
aspirantes, puntuando de 0 a 50 el test psicotcnico, dando una calificacin media de 28 y una
varianza de 12. Se desea revisar el procedimiento de puntuacin, acotando entre 20 y 100
puntos. Cul ser la media y la varianza de las notas conseguidas por aquellos aspirantes?
SOLUCIN.

Pag. 63
Estadstica fcil con hoja de clculo

Queremos hacer una transformacin = + . Para calcular a y b hacemos


20 = 0 + ,

100 = 50 +
Resolviendo, tenemos que b=20 y a =8/5.
8 8 8 2
De manera que = + 20, luego = + 20 = 64.8 y 2 = 2 =
5 5 5
30.72

PROBLEMA 13
Una cadena hotelera tiene cinco hoteles de diferente nmero de plazas cada uno. Los
ingresos totales y el rendimiento por habitacin de cada hotel son los siguientes:
Hoteles Ingresos (euros) Rendimiento (euros/habitacin)
1 20000 100
2 36000 90
3 25000 50
4 24000 80
5 18000 120
Determinar el rendimiento medio por habitacin para el total de los hostales de la
cadena.
SOLUCIN.
El rendimiento medio de la cadena ser

=

Para calcular el total de habitaciones tenemos que calcular el nmero de habitaciones
en cada hotel, que ser

= =

Luego
20000 + 36000 + 25000 + 24000 + 18000 123000
= = = 79.35
20000 36000 25000 24000 18000 1550
+ 90 + + 80 + 120
100 50
El rendimiento medio de la cadena es 79.35 euros por habitacin, que es la media
armnica de los rendimientos de cada hostal.

PROBLEMA 14
A partir del siguiente histograma,

Pag. 64
Estadstica fcil con hoja de clculo

responder a las siguientes cuestiones:


a) La mediana puede valor 40?
b) Cul es el signo de la curtosis?
c) Es la distribucin asimtrica negativa?
SOLUCIN.
a) En un histograma, la mediana debe dejar el 50% del rea total a un lado y al otro. Aqu
el rea total es la suma de las reas de los rectngulos que es 19+16+6+3+6=50. La mitad es 25.
Como vemos, hasta el segundo rectngulo (incluido), hay de rea 19 + 16, que es mayor que 25,
luego la mediana ser un valor inferior a 40.
b) En principio, la curtosis se calculara con los datos (que no tenemos). Ahora bien, si
elegimos como representante de los intervalos de clase a su valor medio y trabajamos con ellos,
tendremos la distribucin con datos y frecuencias.
( , ) donde = 25,35,45,55,65 y = 19,16,6,3,6 respectivamente
A partir de ellos, se pueden realizar clculos de media, varianza, coeficiente de asimetra,
curtosis, etc. Lo dejo para que lo hagis vosotros y os divirtis.

PROBLEMA 15
Fijmonos en los boxplot de la Figura siguiente, que representan la distribucin de
temperaturas diarias en 5 meses consecutivos en Chikitistn.

Decir cul de estas opciones puede ser correcta (si es que hay alguna)
a) el coeficiente de asimetra del mes 7 podra ser negativo.
b) La distribucin del mes 5 es mesocrtica.
c) la moda del mes 6 es su valor mnimo.
SOLUCIN.
Con el boxplot, la curtosis del mes 5 no puede conocerse, por lo que la respuesta b es
incorrecta.
La moda tampoco sale en un boxplot, por lo que la c es incorrecta.
Para el mes 7, existen valores atpicos a la izquierda, con lo que parece que la
distribucin es ms larga a la izquierda, por lo tanto podra tener coeficiente de asimetra
negativo.

PARADOJA DEL PROMEDIO

Pag. 65
Estadstica fcil con hoja de clculo

PROBLEMA 16
Supongamos que en la primera mitad de la liga Cristiano Ronaldo tiene un promedio
de 30 por ciento de goles en tiros a puerta. En la segunda mitad un promedio del 40 por ciento.
.+.
El promedio total = = . .

En la primera mitad de la liga Mesi tiene un promedio de 29 por ciento de goles en
tiros a puerta. En la segunda mitad un promedio del 39 por ciento. El promedio total =
.+
= . .

Segn esto vemos que Cristiano Ronaldo le gana a Mesi.
Sin embargo, supongamos que en la primera mitad de la liga Cristiano Ronaldo tir
200 veces y marc 60 goles (promedio 0.3). En la segunda mitad tir 100 veces y marc 40
+
(promedio 0.4). El promedio total = = = .

Ahora supongamos que, en la primera mitad de la liga Mesi tir 100 veces y marc 29
goles (promedio 0.29). En la segunda mitad tir 200 veces y marc 78 (promedio 0.39). El
+
Promedio total = = = .

Segn esta cuenta, Mesi le gana a Cristiano Ronaldo.
Qu sucede?
SOLUCIN.
Sucede que no se deben hacer promedios de promedios. El tamao importa, en este
caso el de la muestra elegida. Si nos dan dos promedios, debemos saber los datos exactos con
qu se han calculado los mismos, para no cometer errores.

Pag. 66
Estadstica fcil con hoja de clculo

En el captulo anterior se ha considerado el estudio de un nico carcter o variable. Sin


embargo, es frecuente estudiar conjuntamente varios caracteres y preguntarse si existe o no
algn tipo de relacin entre ellos. Este captulo se dedica al estudio de la relacin entre dos
caracteres. Comenzamos con la organizacin y resumen de la informacin, siguiendo un
esquema anlogo al establecido en el captulo anterior, y conclumos con el estudio de la
relacin entre ambos. Habitualmente, cuando se tiene una muestra de una poblacin, si es
posible y no resulta especialmente costoso, se observan varias variables y/o atributos (cuanta
ms informacin se pueda obtener, siempre es mejor). En un anlisis de sangre, se miden varios
niveles; si se elige una muestra de personas para una encuesta, normalmente se le realizan
varias preguntas, etc. A continuacin, resulta lgico cuestionarse sobre qu grado de relacin o
dependencia existe entre las variables analizadas: hay relacin entre la estatura y el peso?, y
entre el nivel de renta y el consumo (de drogas o no)?; entre la estadstica y las mentiras?, la
poltica y la corrupcin?, la ruina y los impuestos?, la pesadez de una pelcula y el nmero de
premios en festivales europeos?...

DISTRIBUCIN CONJUNTA DE CARACTERES

Cuando el investigador est interesado en el estudio de dos caracteres de una poblacin,


se obtienen dos observaciones para cada individuo, que se recogen en forma de pares de
valores. A partir de ahora, trabajaremos con un par de variables (, ) de inters, medidas en
individuos.

pg. 67
Estadstica fcil con hoja de clculo

En vez de disponer de
valores, tendremos pares de
valores {(1 , 1 ), . . . , ( , )}
(que podrn repetirse o no). La
variable (, ) es una variable
estadstica bidimensional. Si
tuvieramos, en general,
variables, la variable conjunta se
llamara dimensional.

La manera habitual de
trabajar con datos en cualquier n individuos
programa estadstico es por medio de una tabla con columnas, donde cada columna representa
una variable (Excel, R, SPSS, Statgraphics... )

pg. 68
Estadstica fcil con hoja de clculo

DISTRIBUCIONES BIDIMENSIONALES

En ocasiones, la variable bidimensional (, ) viene representada por una tabla de


frecuencias, anloga al caso unidimensional. La tabla de frecuencias de una variable
unidimensional era una tabla con los datos y las frecuencias (nmero de veces que aparece cada
valor). Ahora la tabla de frecuencias ser una tabla de doble entrada, donde ser la
frecuencia absoluta del par ( , ).

Frecuencia
marginal de

.





Frecuencia
marginal de

Si e Y son variables numricas, la tabla se llama tabla de correlacin.


Si e son (uno o los dos) atributos, la tabla se llama tabla de contingencia.
Las frecuencias marginales de las variables corresponden a la suma de las frecuencias
por fila/columna de cada valor:

. = , . =
=1 =1

As, ( , . ) representa la distribucin marginal de la variable X (valores de X junto con


el nmero de veces que aparece cada valor. ( , . ) representa la distribucin marginal de la
variable Y. Lgicamente:

. = . =
=1 =1

DISTRIBUCIONES MARGINALES Y CONDICIONADAS

Cuando se posee informacin previa de una de las variables en estudio, sta puede
modificar la informacin disponible de la otra. En particular, cuando se considera la distribucin
de una variable para un valor fijo de la otra se obtiene la distribucin condicionada. Vemoslo
a travs de un ejemplo de una tabla de contingencia (atributos). Seleccionamos 200 personas y
las distribuimos segn el color de los ojos y el color del cabello, resultando la siguiente tabla de
contingencia 4 3:

Ojos \ Cabello Moreno Rubio Castao

pg. 69
Estadstica fcil con hoja de clculo

Negro 40 16 8 64

Marrn 32 4 22 58

Azul 10 16 16 42

Verde 20 10 6 36

102 46 52 n=200

La tabla de frecuencias puede venir dada en frecuencias relativas, igual que en el caso
de una variable unidimensional (cada frecuencia absoluta dividida por el nmero de datos
totales), o en porcentajes.

Ojos \ Cabello Moreno Rubio Castao

Negro 40/200 0.08 0.04 0.32

Marrn 32/200 0.02 0.11 0.29

Azul 0.05 (5%) 0.08 (8%) 0.08 0.21

Verde 0.1 0.05 0.03 0.18

0.51 0.23 0.26 1

Las distribuciones marginales corresponden a las distribuciones unidimensionales de la


variable y la variable , por separado. La distribucin marginal de X se construye cogiendo los
valores de la variable y las frecuencias . (columna de la derecha de la tabla). La distribucin
marginal de se construye cogiendo los valores de la variable Y y las frecuencias marginales .
(o bien las frecuencias relativas o porcentajes, segn nos interese).

Distribucin Marginal variable Distribucin Marginal variable

Ojos . Cabello .
Negro 0.32 Moreno 51%
Marrn 0.29 Rubio 23%
Castao 26%
Azul 0.21
Verde 0.18 100%

La distribucin de una variable condicionada a un valor particular de la otra no es ms


que considerar los valores de la primera variable, pero solamente relacionndola con los valores
pg. 70
Estadstica fcil con hoja de clculo

particulares de la segunda. Por ejemplo, construyamos la distribucin de condicionada a un


valor particular de (rubio)

Ojos/Cabello=Rubio | (notacin de frecuencia absoluta


condicionada para el valor j de Y)
Negro 16
Marrn 4
Azul 16
Verde 10
46

MOMENTOS EN DISTRIBUCIONES BIDIMENSIONALES

MOMENTOS RESPECTO AL ORIGEN.

Se define el momento respecto al origen de orden (r,s) como


=1
=

2 2
=1
Ejemplos: 00 = 1, 10 = , 10 = 20 = =1 , 02 =
Si los datos vienen expresados en tabla de frecuencias las frmulas son:
=1 =1
=

=1 =1
10 = = , 01 = =

=1 2 =1 2
20 = , 02 =

MOMENTOS CENTRALES O RESPECTO A LAS MEDIAS

Se define el momento respecto a la media de orden (r,s) como


=1( ) ( )
=

Ejemplos: 00 = 1, 10 = 01 = 0,
=1( )2 =1( )2
20 = = 2 02 = = 2

=1( )1 ( )1
11 = = ()

Si los datos vienen expresados en tabla de frecuencias:

=1 =1( ) ( )
=

=1( )2 =1( )2
20 = = 2 02 = = 2

pg. 71
Estadstica fcil con hoja de clculo

=1 =1( )1 ( )1
11 = =

REPRESENTACIONES GRFICAS

REPRESENTACIONES 3D

Si ambas variables e son cuantitativas discretas, se puede realizar un diagrama de


barras en tres dimensiones.
Si ambas variables e son cuantitativas continuas, el histograma visto para una
variable puede generalizarse para este caso, y obtener una representacin tridimensional. En
ambos casos se levanta una barra de altura la frecuencia (absoluta o relativa). Ahora, la barra,
en vez de corresponder a un valor concreto, ser del par ( , ) (esto para el diagrama de
barras).
En el caso del histograma 3d tendremos que la altura de la barra ser proporcional al
nmero de datos del rectngulo cuyos lados son [ , + ] [ , + ] (en donde los intervalos
[ , + ] corresponden a la clasificacin de la variable en intervalos, y los [ , + ] a la
clasificacin de la variable ).
El sentido de las grficas es el mismo que en el caso unidimensional: cuantos ms datos
hay en una cuadrcula, se levanta un prisma rectangular ms grande.

DIAGRAMA DE DISPERSIN O NUBE DE PUNTOS

Si ambas variables e son numricas, la representacin de los pares ( , ) en un


plano recibe el nombre de nube de puntos o, tambin, diagrama de dispersin. En la Figura 32
dibujamos los valores correspondientes a las variables =muertes por cirrosis frente a
pg. 72
Estadstica fcil con hoja de clculo

=consumo de alcohol (per cpita) del fichero datos-consumo-alcohol.txt (fichero que


contiene datos de varias poblaciones, consumo de vino y licores, y muerte por cirrosis. Obtenido
de los libros de Spaeth y Brownlee. Se puede consultar ms informacin en el fichero
http://alejandroquintela.com/libro-excel/datos/informacion-datos-consumo-alcohol.txt).

DEPENDENCIA E INDEPENDENCIA ESTADSTICA

Entre dos variables o atributos puede ocurrir que exista independencia, dependencia
funcional (matemtica) o dependencia estadstica. Por ejemplo:
Altura y renta mensual de los trabajadores de Mercamona (independencia)
Minutos de llamadas y factura mensual (dependencia funcional o matemtica)
Nmero de premios de una pelcula en festivales y el sopor que provoca en
espectadores normales (dependencia estadstica).
Poltica y Corrupcin (dependencia estadstica)
Intuitivamente, dos variables (o atributos) son independientes si los valores que toma
una variable no estn influenciados por los de la otra.

Figura 32

REGRESIN

pg. 73
Estadstica fcil con hoja de clculo

Cuando se estudian dos variables que no son estadsticamente independientes, interesa


estudiar la relacin entre ellas
Por ejemplo, nos puede interesar estudiar la relacin entre las variables
estatura y peso?
comida y colesterol?
sexo y osteoporosis?

CENTRO DE GRAVEDAD DE LA NUBE DE PUNTOS

El punto que viene determinado por la media de y la media de constituye el centro


de gravedad de la nube de puntos (punto ms grueso y otro color en Figura 33). Como podemos
observar en el diagrama de dispersin, cuando la variable (consumo de alcohol) crece, parece
que tambin crece la variable (muerte por cirrosis). La verdad o no de tal relacin es lo que
pretendemos estudiar, as como la forma de medir matemticamente la misma.

COVARIANZA. CORRELACIN LINEAL

La covarianza viene dada por la expresin



1
= 11 = ( )( ).

=1
es una medida simtrica (porque es igual a ) y se puede leer como la suma de
los productos de las desviaciones de por las desviaciones de con respecto a sus respectivas
medias. Si el signo de la desviacin de coincide con la de , como ocurre en el primer y tercer
cuadrante (ver Figura 33), se genera un sumando positivo; y cuando el signo es distinto -segundo
y cuarto cuadrante- la aportacin a la covarianza es negativa.
Veamos:
por primer cuadrante entendemos los puntos ( , ) donde > e > .
Por tercer cuadrante los puntos ( , ) donde < e < .
Por segundo cuadrante los puntos ( , ) donde > e < , y
por cuarto cuadrante los puntos ( , ) donde < e > .

Entonces, en el primer y tercer cuadrante ( )( ) siempre es un nmero


mayor o igual a cero, en cambio en el segundo y cuarto cuadrante, ( )( ) siempre es
un nmero menor o igual a cero.
Por lo tanto, la concentracin de valores en los distintos cuadrantes determina el signo
y el valor de . La covarianza mide, pues, la cantidad de relacin lineal entre las variables y el
sentido de sta, de la forma:

> 0, relacin lineal positiva (si crece una variable, la otra tambin).
< 0, relacin lineal negativa (si crece una variable, la otra decrece).
= 0, no hay relacin lineal entre las variables.
De la simple observacin de la nube de puntos podemos deducir que existe una relacin
lineal positiva entre las dos variables. En la Figura 33 vemos que, si crece el consumo de alcohol,
crece el porcentaje de fallecimientos. Tambin vemos que esa relacin podra venir
caracterizada, matemticamente, mediante una linea recta. Si calculamos la covarianza nos
dar un nmero positivo (en este caso, = . ). De todas formas, el nmero que

pg. 74
Estadstica fcil con hoja de clculo

Figura 33

resulte es de dificil interpretacin, puesto que depende de las unidades en que vengan
expresadas las variables. Es por ello que, en vez de trabajar con la covarianza, se trabaja con el
llamado coeficiente de correlacin (o coeficiente de correlacin lineal de Pearson) (el mismo
Pearson del que hablamos en el captulo anterior, que no sola perderse ningn botelln
estadstico).

CARACTERSTICAS DE LA COVARIANZA.

Si construimos 2 nuevas variables = + , = + , entonces:


(, ) = (, ).
Como vemos, la covarianza no es una medida invariante ante cambios de escala (si ante
cambios de origen o traslacin de datos)

COEFICIENTE DE CORRELACIN DE PEARSON

El coeficiente de correlacin lineal o coeficiente de correlacin de Pearson viene dado


por

= = ,

que es una medida adimensional, siempre toma valores en el intervalo [, ] y tiene el signo
de . Por lo tanto, se verifica:
- cuando la relacin lineal entre e es exacta y directa, es decir, todos los puntos se
encuentran sobre una recta con pendiente positiva, vale 1.
- cuando la relacin lineal es exacta e inversa, es decir, todos los puntos se encuentran
sobre una recta con pendiente negativa, vale 1.
- los valores intermedios (0 < < 1 o 1 < < 0) darn lugar a que los puntos se
aproximen ms o menos a una recta que pasa por el medio de los mismos. cuando no hay
relacin lineal, vale 0.Este ltimo caso se llama incorrelacin, y se dice que las variables estn
incorreladas.
Los distintos casos aparecen representados en la Figura 34.

pg. 75
Estadstica fcil con hoja de clculo

El coeficiente de correlacin lineal r tambin verifica que es invariante ante cambios de


escala y origen, es decir, si construimos 2 nuevas variables = + , = + ,
entonces:
(,) = (,) .

Figura 34

Al cuadrado de se le llama coeficiente de determinacin, y se le denota por 2 .


Lgicamente, se verifica
2
0 1
y, cunto ms prximo est 2 a 1, mayor es la relacin lineal existente entre las variables, y
menor cuanto ms prximo est 2 a 0.
Se concluye este apartado indicando que la independencia implica incorrelacin, pero
el recproco no siempre es cierto (recordemos que la incorrelacin se refiere a ausencia de
relacin lineal. Dos variables pueden estar relacionadas muy fuertemente mediante una funcin
diferente a una lineal, y la incorrelacin puede ser cero). Un ejemplo lo tenemos en la variable
que aparece en la Figura 35, donde las variables e estn relacionadas por una funcin, pero
si se calcula el valor de la correlacin lineal da cero.

Figura 35

pg. 76
Estadstica fcil con hoja de clculo

AJUSTE Y REGRESIN BIDIMENSIONAL

Considerada una serie estadstica (1 , 1 ), , ( , ), procedente de una distribucin


(, ), el problema que se denomina ajuste de una nube de puntos o regresin bidimensional
consiste en encontrar alguna relacin que exprese los valores de una variable en funcin de los
de la otra. La cuestin ser elegir la mejor funcin, y determinar los parmetros (frmula) de la
misma. Esta relacin podr ser utilizada, posteriormente, para hacer predicciones aproximadas;
por ejemplo, para hacer previsiones de ventas a corto o medio plazo, estimar el volumen de
cosecha en funcin de la lluvia cada, etc...
La eleccin de la funcin particular que mejor se adapte a las variables es el primer
problema que habr que solventar. En un principio, la observacin de la nube de puntos puede
dar una idea de la evolucin de los valores de la variable dependiente (a partir de ahora ) en
funcin de los de la independiente ().

CASO LINEAL

Sean (1 , 1 ), (2 , 2 ), , ( , ) los valores observados, y supongamos que la nube de


puntos nos indica que la funcin lineal (recta) puede ser una buena forma de ajustar los datos.
Sea = + la recta de ajuste de los valores de en funcin de los de . Esta recta se llama
recta de regresin, y sirve para predecirel valor de para un valor nuevo de la variable .
Consideremos otra vez el ejemplo de la seccin anterior ( muertes por cirrosis,
consumo de alcohol). En la nube de puntos intumos que la lnea recta podra ser un buen ajuste
para los datos, y en la Figura 36 vemos un ejemplo de tres posibles rectas que se acercan a la
nube de puntos (obviamente podramos dibujar muchas ms).

Para calcular la mejor recta se utiliza el mtodo de los mnimos cuadrados. Consiste
en lo siguiente: para cada punto de la nube (, ) se considera el llamado residuo, que es la
distancia entre dicho punto y su correspondiente en la recta, es decir ( , ), donde es el
valor predicho por la ecuacin de la recta (ver Figura 37).

pg. 77
Estadstica fcil con hoja de clculo

Figura 36
Ahora se considera la funcin de dos variables que mide la suma de todos los residuos
para todos los puntos de la nube, elevados al cuadrado para evitar que se compensen residuos
positivos con negativos:

(, ) = ( ) = ( ( + ))2 .
2

=1 =1

Los parmetros y de la recta se obtendrn como aquellos valores que minimizan la


funcin . Matemticamente, para minimizar esta funcin hay que diferenciar respecto a los
parmetros y , y despus igualar a cero.
(, )
= 0,

(, )
=0

Resulta un sistema de dos ecuaciones con dos incgnitas, que se resuelve y se obtiene

= , = 2

Quedando la ecuacin de la recta de regresin de sobre con una expresin fcil de
recordar:
= +

= 2 ( )

Anlogamente, si cambiamos los papeles de la variable y la variable , es decir nos
interesa predecir la en funcin de la , estaremos hablando de la regresin de sobre (por
ejemplo, antes podamos estar interesados en expresar el peso en funcin de la estatura , y
ahora podramos querer expresar la estatura en funcin del peso ). La recta tendr ahora la
forma:
= 1 + 1

pg. 78
Estadstica fcil con hoja de clculo

Figura 37

De nuevo, para calcular los parmetros de la recta, minimizaremos los residuos al


cuadrado. La funcin ahora ser

1 1) 2
( , = (1 + 1 )
=1
y las expresiones que resultan son equivalentes a las anteriores, pero cambiando los papeles de
y de .

= 2 ( )


1 = 1 , 1 = 2 .

Nota: A veces una variable depende de otra, pero no a la inversa. Por ejemplo, un descenso
de temperatura puede influir en un aumento del consumo elctrico (por las estufas), pero
un aumento del consumo elctrico no influir en el descenso de temperatura. De hecho, el
aumento del consumo elctrico podr relacionarse tanto con un descenso de temperatura
como con un aumento (si hace ms calor, aumentar el uso del aire acondicionado).

EJEMPLO 19
Un determinado partido poltico se plantea el problema de hasta qu punto le pueden
compensar los gastos de la campaa para las futuras elecciones, puesto que, como los
candidatos son siempre los mismos, han de dedicar cada vez ms dinero a ciruga esttica,
Photoshop y sobornos. En las ltimas elecciones, los gastos y el nmero de diputados elegidos
han sido:
Gastos ( ) Diputados elegidos
1500 30
1750 40
3250 40
4000 60
5000 80
El comit electoral del partido est estudiando la posibilidad de un presupuesto de
propaganda de diez millones de euros.

pg. 79
Estadstica fcil con hoja de clculo

a) Cul ser el nmero de diputados que seran elegidos de ese partido de acuerdo con
ese presupuesto, si la imagen del partido no vara respecto a las elecciones anteriores?
b) Con qu confianza se puede esperar ese resultado?
c) Cul sera el porcentaje de causas diferentes a los gastos que influiran en las
elecciones?

SOLUCIN.
Para resolver problemas donde tengamos 2 variables, con los datos de cada una de ellas
en una columna, lo ms cmodo ser utilizar la plantilla lnea-regresin.xlsx, que nos va a dibujar
el diagrama de dispersin, junto con la lnea de regresin de sobre y el coeficiente de
determinacin. Ojo: si queremos calcular la recta de sobre habr que abrir la plantilla otra
vez y permutar las variables (donde metimos la ahora metemos la , y vicevers
Introducimos pues los datos en la plantilla. En la Figura 38 vemos el diagrama de
dispersin, junto con la recta de regresin de sobre , y el coeficiente de correlacin lineal al
cuadrado.

Figura 38
= 0.0125 + 11.36
= 0.8569
pg. 80
Estadstica fcil con hoja de clculo

a) Segn la recta de regresin, el nmero de diputados estimado ser = 0.0125


10000 + 11.36 = 136.36, o sea entre 136 y 137 diputados.
b) La confianza la da el coeficiente de determinacin, que es un nmero entre 0 y 1,
multiplicado por cien. Por lo tanto, la confianza de la aproximacin lineal ser de un 85,69 por
ciento.
c) 100 85.69 = 14.31 por ciento es el porcentaje de causas diferentes a los gastos.

NOTAS HISTRICAS E INTERESANTES

El trmino "regresin" lo utiliz por primera vez Francis Galton, en el siglo XIX, para
describir un fenmeno biolgico. El fenmeno fue que las alturas de los descendientes de
ancestros altos tienden a regresar hacia abajo, hacia un promedio normal (lo que se llama
regresin hacia la media ).Para Galton, la regresin slo tena este significado biolgico, pero su
trabajo sera ampliado posteriormente por Udny Yule y Karl Pearson a un contexto estadstico
ms general.
Francis Galton (primo lejano de Darwin) ha pasado a la historia de la ciencia por dos
cuestiones fundamentales: primero por su conceptualizacin de un misterio matemtico: la
regresin hacia la media, para lo que necesit del mejor estadstico de su poca (Karl Pearson)
y la otra una palabra de infame recuerdo para nosotros los europeos, la eugenesia, que tanto
relacionamos con las aniquilaciones tnicas que llev a cabo del III Reich.
El fenmeno de la regresin a la media es fcilmente constatable cientficamente con
hechos como el del siguiente ejemplo, que fue el que motivo a Galton: la altura de los padres
correlaciona linealmente con la estatura de los hijos, pero la estatura de los hijos tiende a la
media. Es decir, el hijo de unos padres muy altos es muy probable que sea ms bajo que ellos. Es
mejor decir que existe una correlacin entre su altura y la media de ambos padres.
En realidad la correlacin es el fenmeno oculto de la regresin a la media (que Galton
llamaba regresin hacia la mediocridad.

LA IMPORTANCIA DE LA REGRESIN A LA MEDIA EN ENTORNOS EDUCATIVOS Y


MDICOS

(Kahneman 2012) expone: La regresin a la media se da en todas las circunstancias


donde se dan medidas extremas y tiene consecuencias predictivas de mucho inters, por
ejemplo en los rendimientos escolares, deportivos o en cualquier otra prestacin donde los
resultados pueden cuantificarse. Por ejemplo, si en un primer examen un nio saca un 10 y otro
saca un 2, siendo la nota media de la clase un 5, es bastante posible que en un segundo examen
el que sac un 10 disminuya su nota mientras que el que sac un 2 las aumente, pues las
puntuaciones tienden a igualarse buscando la mediocridad (la media).
Pero lo ms interesante de esta cuestin es que esta regresin va a darse igual tanto si
animamos o reprendemos al suspendido como si nos dedicamos a lisonjear al sobresaliente.
Algo que va en contra de nuestras intuiciones pedaggicas. En ellas tendemos a echar la
bronca a los que quedan por debajo de la media y a alabar los buenos rendimientos de los que
se salen por arriba, sin caer en la cuenta de que nuestros esfuerzos no sirven de nada cuando
estamos enfrentando puntuaciones extremas. Lo cual no quiere decir que la motivacin, el
apoyo o el empoderamiento no sean buenas estrategias pedaggicas, sino que solo sirven en
las medianas y no en los casos extremos.
pg. 81
Estadstica fcil con hoja de clculo

Y como tenemos tendencia a premiar a los buenos y a castigar a los malos estamos
condenados a cosechar decepciones por parte de los buenos (y con los que somos mas
agradables) y sorpresas agradables con aquellos con los que somos desagradables.

PROBLEMAS CON LA PREDICCIN

La prediccin usando una recta de regresin tiene claros problemas. Uno es el de la


extrapolacin (salirnos de los lmites del rango de valores analizado). Un ejemplo clsico es el
de los rcords humanos. En la siguiente figura aparece una grfica de los rcords mundiales en
la competicin de los 100 metros lisos (tiempo realizado frente al ao de la carrera), junto con
la recta de mnimos cuadrados (el valor que se obtiene para 2 es 0.94). El fichero de datos, que
puede bajarse de la web, es record-100-m.txt.

pg. 82
Estadstica fcil con hoja de clculo

Como sabemos, la marca mundial de los 100 metros lisos ha ido disminuyendo con el
paso de los aos. Si calculamos la recta de regresin que relacione =ao e =tiempo rcord
para recorrer los 100 metros, podramos predecir cual sera el ao en que se llegara a un tiempo
de 0 segundos, o incluso un tiempo negativo. Es evidente que este tipo de previsiones no tiene
sentido, puesto que los valores mnimos de para los aos actuales parece muy difcil
rebajarlos. En Internet pueden encontrarse estudios de cul es la funcin ms adecuada para el
ajuste de estas variables, con el fin de obtener una posible prediccin dentro de lmites
razonables.

OTROS AJUSTES

A travs del dibujo de la nube de puntos podemos, en muchas ocasiones, intuir que
existirn mejores funciones que la lnea recta (que es la ms sencilla de todas) para explicar la
variable en funcin de la variable . El proceso de elegir la mejor funcin no tiene por qu ser
sencillo ni simple. Debemos tener tambin en cuenta que quiz no haya una nica variable
influyendo en la variable , sino que pueden existir diferentes variables explicativas
1 , 2 , . . . , que sean necesarias para poder establecer predicciones de la variable de
inters. Si se dispone de una grfica como la de la Figura 39, la nube de puntos no da la idea de
ajustar una recta a la misma, sino una funcin ms variable; un polinomio, tal vez, pero no es
fcil de intuir a simple vista. La verdadera funcin, que es la que aparece en la figura,
corresponde a un polinmio de grado 6.
El problema de la regresin puede complicarse notablemente, y existen muchos textos
con los procedimientos analticos necesarios para una resolucin completa, que se escapan
totalmente del mbito de este texto. nicamente comentaremos que, utilizando el mtodo de
los mnimos cuadrados, se pueden ajustar muchos otros tipos de funciones a una nube de
puntos, y tambin se pueden calcular coeficientes que nos midan la calidad del ajuste de la curva
a los puntos (similares al coeficiente de determinacin, que tambin suelen denotarse como 2
y varan entre 0 y 1, siendo tanto mejor el ajuste cuanto ms se aproxime 2 a 1). A continuacin,
vemos algunos ejemplos, slo a titulo de muestra. Para ampliar bastante ms todos estos
conceptos puede consultarse el texto de Draper y Smith, por poner un ejemplo.

Figura 39

pg. 83
Estadstica fcil con hoja de clculo

BONDAD DEL AJUSTE

Recordemos que, para calcular la recta de regresin, minimizamos la funcin de residuos


al cuadrado. Para una funcin general puede hacerse lo mismo (Figura 40):

2
(, ) = ( )2 = ( ))
=1 =1
siendo
los valores observados de ,
los valores tericos asignados en la regresin,
= los residuos.

Figura 40

Sus valores medios:


La media de la serie observada

1
=

=1
La media de los residuos

1 1
= = ( ) = 0

=1 =1
La media de los valores tericos

1 1
= = ( ) = =

=1 =1
Sus varianzas:
Varianza total de los valores observados, que mide la variacin de Y en la distribucin
marginal observada

1 1
2 = ( )2 =

=1
La varianza de los errores o residuos, que mide la variacin entre los valores tericos y
los observados, es decir la dispersin que queda fuera de la recta de regresin.

pg. 84
Estadstica fcil con hoja de clculo


1 1
2 = ( )2 =

=1
La varianza debido a la regresin o varianza de los valores tericos, que recoge la
dispersin de los valores de la regresin

1 1
2 =2 = ( )2 =

=1

Si la funcin que se ha ajustado mediante la regresin pasa por todos los puntos, es
decir, los residuos son todos nulos, el grado de dependencia entre las variables es el mximo
posible.
Por el contrario, cuanto ms grandes sean los residuos, menor ser la dependencia
expresada por la funcin.
As, en general, para medir el grado de acierto de la utilizacin de la regresin, o para
dar una medida de la bondad del ajuste, se define el coeficiente de determinacin general
que nos indicar el porcentaje de variabilidad de Y que queda explicado por la regresin.
2
2
= 2 =

Se puede demostrar que este nmero siempre vara entre 0 y 1. Por lo tanto,
multiplicado por 100, tendremos la confianza al aproximar la variable Y mediante la funcin
que hayamos calculado por el mtodo de los mnimos cuadrados.
0 2 1

EJEMPLO 20
Con el xito creciente de la franquicia A todo gas (Fast & Furious), cantidades ingentes
de idiotas se estn lanzando a hacer carreras de coches e imitar lo que ven en las pelculas,
creyendo que son escenas reales. Despus del rodaje de la sexta pelcula en las islas Canarias,
un fisioterapeuta local est comprobando que su negocio crece da a da. A travs de las
variables =nmero de accidentados por hacer gansadas, que acuden a su clnica e =ganancias
en euros, se est planteando contratar personal nuevo, puesto que las ganancias, lgicamente
crecientes en funcin del nmero de lesionados, parecen no slo regirse por una relacin de
tipo lineal creciente, sino incluso parablica. Los datos que tiene en el ordenador, para cada una
de las variables antes mencionadas, son:
X Y X Y
2 612 35 13561
4 2256 36 14657
7 1665 39 13517
10 2830 41 15057
14 3386 43 17210
18 8096 45 15642
24 7056 47 17881
27 10381 50 18154
30 10982 53 24211
32 12037 55 30125
Comprobar si una relacin de tipo parablico entre las variables podra darle un mejor
nivel de prediccin de ganancias que una relacin simplemente lineal.
SOLUCIN.
Puede verse en la Figura 41 la nube de puntos, junto con tres funcionadas ajustadas por
mnimos cuadrados:
pg. 85
Estadstica fcil con hoja de clculo

- una lnea recta = +


- un polinomio de grado dos = + + 2
- una funcin exponencial =
El ajuste de otro tipo de funciones se realiza tambin por mnimos cuadrados, y el clculo
del coeficiente de determinacin 2 (como medida de la bondad del ajuste) se realiza de la
forma vista arriba:
2
2 2
= 1 2 = 2 ,

esto es, corresponde a la varianza de los valores predichos por la ecuacin que se ajuste dividido
por la varianza de los valores originales de la variable Y. El Excel o cualquier otro paquete
estadstico nos realiza el clculo automticamente, y la funcin que mejor se ajusta es la que
tenga un coeficiente 2 ms prximo a 1.

Figura 41

El Excel permite realizar ajustes de las siguientes funciones: lineal, exponencial,


logartmica, potencial, polinmica y de media mvil.
La manera de hacerlo es bien sencilla.
Una vez que se ha realizado un grfico de dispersin de 2 variables X e Y, se pincha con
el botn izquierdo de ratn algn punto de la nube, con lo que se marcar esta
. A continuacin, dndole al botn derecho del ratn, aparecern una serie de opciones,
entre las que se encuentra Agregar lnea de tendencia . Aparecer el men correspondiente
a la derecha, donde podremos seleccionar la opcin que deseemos y decirle si queremos que la
ecuacin y el 2 aparezca en el grfico, etc. (Figura 42).

pg. 86
Estadstica fcil con hoja de clculo

Figura 42

CORRELACIN NO IMPLICA CAUSALIDAD

EJEMPLO 3

En una capital espaola se fue anotando el nmero de habitantes que compraron un Ibad
(variable ) y el nmero de incapacitados por enfermedad psiquitrica grave (), durante una serie
de meses.


Calcular el coeficiente de determinacin entre las dos variables en estudio, y explicar el
resultado.
SOLUCIN.
Haciendo los clculos, se obtiene que el coeficiente de determinacin 2 = 0.85. Se
deja como ejercicio para el lector dibujar la nube de puntos y ver que se aprecia un buen ajuste
por medio de una lnea recta creciente, esto es, crece el nmero de Ibad, crece el nmero de
enfermos.
Resulta claro que se trata de dos
variables con nmeros inventados a
propsito para que salga un valor alto de la
correlacin lineal. Evidentemente, puede
ocurrir que se calcule este coeficiente para
cualesquiera dos variables elegidas al azar
y se obtenga un valor alto, pero quien haga
un estudio debe preocuparse de
seleccionar variables que tenga sentido
relacionar entre s.

pg. 87
Estadstica fcil con hoja de clculo

OTROS ASPECTOS A TENER EN CUENTA

Algunos ejemplos tomados de la literatura estadstica (resumidos en la wikipedia) dan


idea de errores comunes y detalles que cualquier investigador debe considerar siempre que
relacione dos variables. Los siguientes son ejemplos de conclusiones errneas obtenidas de una
mala interpretacin de la correlacin entre dos variables.
- Dormir sin quitarse los zapatos tiene una alta correlacin con despertarse con dolor de
cabeza. Por lo tanto, el dormir con los zapatos puestos ocasiona levantarse con dolor de cabeza.
Este resultado mezcla los conceptos de correlacin y causalidad, porque concluye que
dormir con los zapatos puestos provoca dolor de cabeza al levantarse. Hay un tercer factor que
no se ha tenido en cuenta, que es que irse borracho a la cama provoca ambos efectos: no poder
ni quitarse los zapatos y levantarse mareado.
- Los nios pequeos que duermen con la luz encendida son mucho ms propensos a
desarrollar miopa en la edad adulta.
Esta fue la conclusin de un estudio de la Universidad de Pennsylvania, publicado en
1999 en la revista Nature. Un estudio posterior de la Ohio State University refut esta teora, y
encontr una fuerte relacin entre la miopa de los padres y el desarrollo de la miopa infantil,
advirtiendo que los padres miopes tenan ms probabilidades de dejar una luz encendida en el
dormitorio de sus hijos. De nuevo una tercera variable no tenida en cuenta (la miopia de los
padres), causaba la alta correlacin entre las otras dos variables relacionadas.
- Cuando aumentan las ventas de helado, la tasa de muertes por ahogamiento tambin
aumenta. Por lo tanto, el consumo de helado provoca ahogamiento.
El helado se vende durante los meses de verano a un ritmo mucho mayor que en pocas
ms fras, y es durante estos meses de verano que las personas son ms propensas a participar
en actividades relacionadas con el agua, como la natacin. El mayor porcentaje de muertes por
ahogamiento es causado por una mayor exposicin a las actividades acuticas.
- Desde 1950, tanto el nivel de dixido de carbono (CO2) en la atmsfera como los niveles
de obesidad han aumentado considerablemente. Por lo tanto, el CO2 atmosfrico provoca la
obesidad.
Obviamente, en las ciudades que han mejorado su nivel de vida a partir de los aos 50,
se come ms y se expulsa ms CO2 a la atmsfera (coches, fbricas... ).
- Con una disminucin en el uso de sombreros, ha habido un aumento en el
calentamiento global durante el mismo perodo. Por lo tanto, el calentamiento global es causado
por personas que abandonan la prctica de usar sombreros.
La explicacin de este efecto sera muy parecida a la del ejemplo anterior.

pg. 88
Estadstica fcil con hoja de clculo

PROBLEMAS

PROBLEMA 1
Como es bien sabido gracias a las pelculas que subvenciona el ministerio de cultura, los
vampiros tienen un nivel de leucocitos en sangre que suele variar de cien mil en adelante (por
milmetro cbico). El ayudante de un famoso caza-vampiros est fabricando un lquido
neutralizador para calmar la sed de los vampiros, de manera que les aumente el nivel de
leucocitos y se estn tranquilos (ya que si tienen muchos leucocitos no tienen ganas de andar
chupando cuellos). La frmula de su invencin es un famoso producto de cola mezclado con
silicona lquida.
En un experimento en su laboratorio con 5 vampiros voluntarios, se anota el incremento
de leucocitos en sangre a partir de la cantidad de silicona que se mezcla con la cola:
Miligramos silicona por litro 10 15 20 25 30
Leucocitos por mm3 140.300 150.000 165.000 175.000 200.000
Se pide:
a) Establecer un modelo lineal que relacione las dos variables, estudiando la fiabilidad
de dicho modelo.
b) Como consecuencia de los resultados anteriores, el caza-vampiros decide aadir a las
galletas 40.25 miligramos de silicona, que es lo que le ha sobrado de reparar un grifo. Realizar
una prediccin de los leucocitos.
c) Si se desea que el nmero de leucocitos por mm3 de sangre sea de 160.000, qu
cantidad de silicona se debe aadir a un litro de cola?
d) Si se aporta 2.75 miligramos de silicona a un litro de cola cul ser el nmero de
leucocitos estimado? Explicar cul de las dos ltimas predicciones merece mayor confianza.
SOLUCIN.
Introducimos los datos en la plantilla lnea-regresion.xlsx, y obtenemos la Figura 43:
La lnea de regresin de leucocitos en funcin de la cantidad de silicona es =

Figura 43
2888 + 108300, con un coeficiente de determinacin muy prximo a 1 ( = 0.9678), lo
que quiere decir que la fiabilidad es muy alta.
b) Si = 40.25, utilizando la lnea de regresin, podemos predecir un valor = 224542
leucocitos. Hay que resaltar que esta prediccin es una extrapolacin (nos salimos de los valores
con los que hemos calculado la recta), y ya hemos visto que este tipo de predicciones puede ser
peligrosa (ver el ejemplo del record de los cien metros lisos).
pg. 89
Estadstica fcil con hoja de clculo

c) Si se desea obtener 160.000 leucocitos, debemos calcular la recta de regresin de


sobre (Figura 44), ya que ahora nos interesa predecir la cantidad de silicona en funcin de los
leucocitos:

Figura 44
Como vemos en la grfica, la recta tiene de frmula = 0.0003 35.65. Por lo
tanto, si = 160000 leucocitos, = 12.35 miligramos (ojo: fijmonos que en la Figura 44
hemos permutado las columnas X e Y). Como vemos tambin en la grfica, el coeficiente de
determinacin lineal es el mismo de antes ( = 0.9678).
d) Si aporta 2.75 gramos, los ingresos sern = 2888 2.75 + 108300 = 116242
euros (hecho con la lnea de regresin calculada en el apartado a)
Lgicamente, la fiabilidad de las predicciones de los apartados c y d es la misma, si bien
hemos de tener en cuenta lo dicho sobre la extrapolacin.

PROBLEMA 2
La siguiente tabla muestra las distribuciones de frecuencias de las puntuaciones finales
de 100 estudiantes en matemticas y fsica:
Fsica Matemticas
40-49 50-59 60-69 70-79 80-89
90-99 2 4
80-89 1 4 6
70-79 5 10 8
60-69 1 4 9 5 2
50-59 3 6 6 2

a) Nmero de alumnos que recibieron puntuacin entre 70 y 79 en matemticas y entre


80 y 89 en fsica.
b) Porcentaje de estudiantes con puntuacin en matemticas inferior a 70.
c) Porcentaje de que un estudiante obtenga 70 ms puntos en fsica y menos de 80 en
matemticas.
d) Porcentaje de estudiantes que aprob al menos una de las dos asignaturas,
suponiendo 60 la puntuacin mnima para aprobar.
e) Porcentaje de que un estudiante tenga aprobadas las dos asignaturas.

pg. 90
Estadstica fcil con hoja de clculo

f) Porcentaje de que un estudiante, que sabemos que tiene aprobada las matemticas,
tenga aprobada tambin fsica.
g) Porcentaje de estudiantes que tienen aprobada matemticas de entre los que tienen
aprobada fsica.
h) Sobre qu puntuacin en fsica tendr un estudiante del que sabemos que ha
obtenido 86 puntos en matemticas.
i) Da una medida de la exactitud del resultado obtenido en h).
SOLUCIN.
Cuando tengamos un ejercicio como este, donde los datos aparecen en una tabla de
doble entrada, usaremos la plantilla tabla-doble-entrada.xlsx.

Una vez introducidos los datos, la plantilla nos ofrece diversas columnas de utilidad, as
como los datos de medias, varianzas, covarianza y rectas de regresin.
Las distribuciones marginales son:

Distribucin marginal de (fsica) Distribucion marginal de (matemticas)

. .

95 6 45 7
85 11 55 15
75 23 65 25
65 21 75 23
55 17 85 20
45 12

a) 4 alumnos (es lo que pone la celda interseccin de los valores en


matemticas y en fsica).
47
b) con nota en matemticas inferior a 70 hay 7 + 15 + 25 = 47. El porcentaje es =
90
0.5222 = 52.22%.
c) con nota 70 o ms en fsica y menos de 80 en matemticas estamos quedndonos con
este trozo de la tabla:

Fsica Matemticas

pg. 91
Estadstica fcil con hoja de clculo

40-49 50-59 60-69 70-79

70-79 5 10
60-69 1 4 9 5
50-59 3 6 6 2
51
El total de alumnos es 51. El porcentaje es = 0.5666 = 56.66%.
90
Los apartados, d, e, f y g se hacen exactamente igual.
h) Si un estudiante obtiene un 86 en fsica, segn la recta de regresin sobre , que
es: = 0.618 + 27.073, estimamos para = 86: = 80.22
i) El coeficiente 2 = 0.5186, quiere decir que hay un 51.86 por ciento de fiabilidad

PROBLEMA 3
Una empresa del sector de la construccin realiza un estudio sobre las blasfemias
pronunciadas por hora por los trabajadores, y la antigedad en la empresa de los mismos:
Blasfemias Aos de antigedad
1 2 3 4 5 6
10-12 1 2
12-14 5 4 3 3 5 1
14-16 3 5 6 6 2
16-18 2 4
a) Un trabajador tiene una antigedad de 4 aos y 6 meses. Determina la cantidad de
blasfemias que se espera que diga en una hora.
c) Determina y comenta la fiabilidad del resultado anterior.
d) El sueldo base mensual de un trabajador es de 3000 euros fijos menos 100 que se
descuentan por el nmero medio de blasfemias a la hora. Cul es la media y la desviacin tpica
del sueldo base?
e) La paga extra es de 1200 euros ms 100 euros por ao de antigedad. Cul es la
covarianza y el coeficiente de correlacin entre sueldo base y paga extra?
SOLUCIN.
En la Figura 45 dejamos una copia de pantalla de la tabla de doble entrada, introducida
en la plantilla tabla-doble-entrada.xlsx, junto con los resultados que nos van a hacer falta.

Figura 45
a) Como vemos, la lnea de regresin del nmero de blasfemias por hora en funcin de
la antigedad, que es la recta de regresin de sobre , viene dada por = 0.541 +
6
12.203. Si un obrero tiene 4 aos y 6 meses de antigedad, entonces = 4 + = 4.5, por lo
12
que = 14.6375, es decir entre 14 y 15 blasfemias por hora.
b) La fiabilidad la da = 0.3206. es decir el 32.06 por ciento.
pg. 92
Estadstica fcil con hoja de clculo

c) El sueldo base mensual es = 3000 100, por lo que


= 3000 100 = 3000 100 14.19 = 1581
euros, y
= 100 = 100 2.347 = 153.19.
d) La paga extra es = 1200 + 100. Nos piden la correlacin entre y , que es la
misma que entre e , puesto que el coeficiente de correlacin lineal es invariante ante
cambios de origen y de escala

, = , = 0.56.

PREGUNTAS PUETERAS
Estudia en cules de los siguientes casos los resultados ofrecidos son compatibles
entre s:
a) = . ; = + .
Segn hemos visto, la recta de regresin de sobre tiene la expresin:

= + , = , = 2 .

Fijmonos que la pendiente de la recta es la covarianza dividida por la varianza de .
Como la varianza siempre es un nmero mayor o igual que cero, entonces el signo de (la
pendiente de la recta) coincide con el signo de la covarianza, que a su vez coincide con el signo

del coeficiente de correlacin lineal, pues = .

Vemos pues que si = 0.3 (negativo), la pendiente de la recta sobre no puede ser
4 (mayor que cero)
b) = ; = ; = ; =
Como
100
= = = 1,
20 5
los resultados son compatibles.
c) = ; =
y la pendiente de la recta tienen el mismo signo. Los resultados son compatibles.

pg. 93
Estadstica fcil con hoja de clculo

d) La recta de regresin de sobre es = + . La recta de regresin de sobre


es = ; = . .
Para hacer este ejercicio, hay que saber que el coeficiente de correlacin lineal coincide
con la media geomtrica de las pendientes de las rectas de regresin, esto es

= = 2 2

Veamos si ocurre en este caso:
= 5 5 = 5 0.2
Por lo tanto los resultados no son compatibles.
e) = ; = + ; = ;
=
Recordemos que las rectas de regresin pasan por el centro de gravedad de la nube de
puntos, que es (x, y ). Por lo tanto, si resolvemos el sistema formado por las dos rectas de
regresin, la solucin, que es el punto de corte de las rectas, debera darnos (16,12)
Al resolver el sistema x = 2y 8; x = y + 4 obtenemos los valores = 8 e =
12, por lo que los resultados no son compatibles.
f) La recta de regresin de sobre es: = + , y el coeficiente de correlacin
es = .
Como en el apartado a), la pendiente de la recta y el coeficiente de correlacin lineal
tienen diferente signo, lo que no es posible.
g) = ; = ; = ; = .
Calculamos
100 1
= = = 1
10 20 2
Por lo tanto los resultados no son compatibles.
h) Se calculan las rectas de regresin (de sobre , y de sobre ), aunque no
sabemos cul es cul, y tenemos: = + ; = (/) + ; = .
Si suponemos que la primera recta que nos dan es la sobre y la segunda la sobre
, entonces despejamos la en esta ltima y queda: = 5 45
Hacemos como en el apartado d):
= 5 5 = 5,
y los resultados no son compatibles.
Si suponemos que la primera recta es la sobre , despejamos : = (1/5) (8/5).
Ahora
1 1 1
= = = 0.2,
5 5 5
y los resultados si son compatibles.
i) La recta de regresin = + se ha calculado para estudiar la relacin entre
dos variables que cumplen:
= ; = . ; = ;
=
Como la recta de regresin se puede calcular con la frmula

= 2 ( ),

sustituimos
1
7 = ( 1)
0.5
que, haciendo clculos, se obtiene = 2 + 9. No son compatibles.

pg. 94
Estadstica fcil con hoja de clculo

j) Se ha realizado un estudio de regresin entre el porcentaje de horas que los


adolescentes varones ven porno por internet y el resultado acadmico en la nueva asignatura
de "educacin religiosa-sexual para la ciudadana". El coeficiente de determinacin sale 0.95.
Un chico que tiene decidido ser cura de mayor, y por tanto no consume porno en absoluto (ni
tiene ordenador ni televisin), saca un 9.5 en la nota de la asignatura. Puede ser esta nota
coherente con el valor del coeficiente de determinacin?
Es posible, puesto que, a menor porno, mayor nota. Hay una relacin lineal inversa entre
las variables, por lo que el coeficiente de correlacin lineal ser negativo. Pero el coeficiente de
determinacin es este nmero elevado al cuadrado, que siempre es positivo, y en este caso
podra ser alto.
h) Si tenemos 2 conjuntos de datos bidimensionales (, ) y ( , ) que tienen las
mismas medias y varianzas para las variables ( , = ), las mismas medias y
=
varianzas para las variables , el mismo coeficiente de correlacin ( = y la misma
lnea de regresin Tienen los mismos datos?
Para comprobar que no tienen que ser los mismos datos, veamos el siguiente apartado:

CURIOSIDADES. ANSCOMBE'S QUARTET

Los siguientes cuatro grupos de variables verifican (el que no lo crea que haga los
clculos):
Las medias de (de cada grupo) son iguales.
Las medias de (de cada grupo) son iguales.
Las varianzas de (de cada grupo) son iguales.
Las varianzas de (de cada grupo) son iguales.
Los coeficientes de correlacin de todos los grupos son iguales
Las rectas de regresin de cada grupo son iguales

A continuacin de la tabla de datos vemos el diagrama de dispersin y la recta de


regresin para cada grupo de datos, apreciando claramente que las nubes de puntos son
diferentes pero las rectas de regresin iguales.
Este conjunto de datos se llama el cuarteto de Anscombe. Fueron construdos en 1973
por Francis Anscombe para demostrar la importancia de representar grficamente los datos
antes de analizarlos, as como para ver los efectos de los datos atpicos sobre las propiedades
estadsticas (ver Anscombe, F. (1973)).

Grupo I Grupo II Grupo III Grupo IV


x y x y x y x y
10.0 8.04 10.0 9.14 10.0 7.46 8.0 6.58
8.0 6.95 8.0 8.14 8.0 6.77 8.0 5.76
13.0 7.58 13.0 8.74 13.0 12.74 8.0 7.71
9.0 8.81 9.0 8.77 9.0 7.11 8.0 8.84
11.0 8.33 11.0 9.26 11.0 7.81 8.0 8.47
14.0 9.96 14.0 8.10 14.0 8.84 8.0 7.04
6.0 7.24 6.0 6.13 6.0 6.08 8.0 5.25
4.0 4.26 4.0 3.10 4.0 5.39 19.0 12.50
12.0 10.84 12.0 9.13 12.0 8.15 8.0 5.56
7.0 4.82 7.0 7.26 7.0 6.42 8.0 7.91
5.0 5.68 5.0 4.74 5.0 5.73 8.0 6.89

pg. 95
Estadstica fcil con hoja de clculo

MEDIDAS DE ASOCIACIN ENTRE ATRIBUTOS

Recordemos que, cuando las variables e son atributos, la tabla de frecuencias de


doble entrada recibe el nombre de tabla de contingencia ( )

Frecuencia
marginal de

.





Frecuencia
marginal de

En una tabla de contingencia, vamos a plantearnos:


Son independientes los atributos?
En el caso de que no lo sean, cul es el grado de asociacin?
En este ltimo caso, calcularemos la medida de asociacin Q de Yule, el coeficiente de
contingencia de Pearson y la V de Cramer. Son coeficientes que miden el grado de asociacin

pg. 96
Estadstica fcil con hoja de clculo

(fuerte, dbil) entre las variables, en el mismo sentido que lo hace el coeficiente de correlacin
lineal entre variables numricas

INDEPENDENCIA

Formalmente, es independiente de si se verifica que:


| = = 1, , = 1,2, ,
es decir, si las frecuencias condicionadas coinciden con las frecuencias marginales. De la misma
forma se define la independencia de respecto de .
Otra forma de expresarlo es que e son independientes si el producto de las
frecuencias relativas conjuntas coincide con el producto de las frecuencias relativas marginales:
= . . = 1, , = 1,2, , .
Ahora bien, se verifica:
. . . .
= . . = = ,

Vemos entonces que otra definicin equivalente de independencia podra ser esta
ltima (que las frecuencias absolutas coincidan con el valor que aparece a su derecha en la
ltima ecuacin). A cada valor
. .
=

se le denomina frecuencia esperada (si las variables son independientes). Entonces, para que
las dos variables sean independientes, tiene que ocurrir que las frecuencias esperadas coincidan
siempre con las observadas, es decir
= = 1, , = 1,2, , .

EJEMPLO 21
El 10 de abril de 1912, el Titanic zarpaba del puerto de Southampton con destino a New
York, ante la admiracin de una muchedumbre de curiosos que contemplaban atnitos como
aquella mole de acero se alejaba majestuosamente del puerto. Cinco das despus los medios
de comunicacin de todo el mundo se hicieron eco de la increble noticia: el barco ms grande
jams construido yaca a casi cuatro mil metros de profundidad. La tabla siguiente muestra la
distribucin de pasajeros, segn supervivencia y clase social:

Sobrevive No sobrevive Total


Primera clase 194 128 322
Segunda clase 119 161 280
Tercera clase 138 573 711
Total 451 862 1313

La representacin grfica de una tabla de contingencia corresponde a un diagrama de


barras (Figura 47) en el cual se relacionan las clases de las dos variables. Esta tabla puede
realizarse tambin en 3 dimensiones, que es ms chachi piruli (Figura 46).

En la tabla siguiente mostramos las frecuencias esperadas en caso de independencia.


Vemos que la definicin de independencia no se cumple, puesto que ya no se cumple para la
primera celda. Para que las dos variables sean independientes, las frecuencias esperadas deben
ser iguales a las observadas en todas las celdas de las tablas. Con tal de que ya no ocurra en una
celda, las variables no son independientes.

pg. 97
Estadstica fcil con hoja de clculo

Figura 47

Figura 46
pg. 98
Estadstica fcil con hoja de clculo

MEDIDAS DE ASOCIACIN

Q DE YULE

Este coeficiente se calcula nicamente para tablas de 2 filas y 2 columnas (mucho no se


cans el seor Yule):

11 12
21 22
El coeficiente se define como
11 22 12 21
=
11 22 + 12 21
Este coeficiente siempre toma valores en el intervalo [, ].
El valor = 0 implica independencia.

pg. 99
Estadstica fcil con hoja de clculo

Un valor > 1 implica independencia positiva y < 1 negativa. El signo de solo tiene
sentido cuando los atributos vienen en escala ordinal.

COEFICIENTE DE CONTINGENCIA DE PEARSON

Se calcula nicamente para tablas cuadradas ( = ).


El origen es el estadstico 2 (Chi-cuadrado) de Pearson (se detalla ms en el ltimo
captulo), cuya frmula es
2
( )2
=


donde

=

A partir de este valor, el coeficiente de contingencia de Pearson se escribe
2
= 2
+
Si = 0 existe independencia. En las tablas cuadradas ( ) se puede calcular la cota
superior que es
1
.

Se define entonces el Coeficiente de contingencia corregido como

=
1

que representa la discrepancia entre el estadstico obtenido y el mximo valor alcanzable para
esa tabla. Ahora se verifica que
0 1

V DE CRAMER

Este coeficiente puede calcularse para cualquier valor del nmero de filas y columnas.
Se define como
2
=

donde = min{ 1, 1}. Se verifica
0 1

Como ejemplo, vamos a introducir los datos del hundimiento del Titanic en la tabla de
frecuencias observadas de la plantilla tabla-contingencia.xlsx. (Figura 48).

La tabla que est justo debajo es la tabla de frecuencias esperadas (las que se obtendran
si las variables fuesen independientes). En este caso, la tabla de frecuencias esperadas es la que
deberamos tener si el sobrevivir o no fuese independiente de que el billete del pasajero fuese
de primera, segunda o tercera clase. Los que hemos visto la pelcula sabemos que estas variables
no fueron independientes, porque los de tercera clase murieron como ratas. Esto es
comprobable viendo que existen diferencias entre las celdas de cada tabla.

pg. 100
Estadstica fcil con hoja de clculo

Figura 48

Realmente, la independencia entre variables es algo ms compleja de cmo la estamos


observando en este captulo. Podran existir algunas diferencias entre las frecuencias
observadas y las esperadas, y dichas diferencias podran deberse al azar (o no ser significativas
desde un punto de vista estadstico). Este asunto se trata al final del libro en el captulo de
contrastes de hiptesis, en donde utilizaremos esta misma plantilla.
En este caso, vemos que las medidas de asociacin que hemos definido anteriormente
son:
- La no se calcula al no ser una
tabla 2 2.
- La de Pearson vale 0.34.
- La corregida no se calcula al no
ser una tabla cuadradada.
- La de Cramer vale 0.36.

La interpretacin exacta de
estos valores corresponde a textos
de estadstica no paramtrica, como
por ejemplo Conover (1998).

PROBLEMA 4
En una facultad se quiere conocer si existe dependencia entre el nmero de estudiantes
que repiten alguna asignatura y el sexo de los alumnos. Se toman datos y se construye la
siguiente tabla.

pg. 101
Estadstica fcil con hoja de clculo

Han repetido alguna No han repetido


asignatura
Practica sexo 1224 270
No practica sexo 1319 252
Existe asociacin entre repetir alguna asignatura y el sexo?
SOLUCIN.
Insertamos los datos en la plantilla tabla-contingencia.xlsx y obtenemos los resultados
que siguen:

Figura 49

Observamos que los coeficientes de Yule, de Pearson, corregido y de Cramer


son prximos a cero, lo que viene a significar que las variables consideradas son independientes.
De hecho, el valor p-value 0.1478 que observamos en una celda (y que ahora no sabemos
comprender) indicara que se pueden considerar las variables independientes, a pesar de que
las frecuencias esperadas no coincidan con las observadas (pero no existe una diferencia muy
grande).

pg. 102
Estadstica fcil con hoja de clculo

Este captulo es totalmente terico, en el sentido exclusivo de que no se trabaja con


plantillas de excel para facilitar las cosas. En un principio, mi intencin era obviar este tema, por
ese motivo. Sin embargo, todo libro de probabilidad y estadstica que se precie tiene un captulo
dedicado a la probabilidad. Bsicamente, todos los libros de la misma rama (matemticas,
ingeniera, medicina ) tienen hasta casi las mismas palabras, porque no hay mucho que
inventar sobre el tema. Si acaso, las diferencias estriban en los ejemplos y en los problemas. Los
libros de economa traen problemas de probabilidad de ganancias en la bolsa, los de medicina
de curar enfermedades, los de biologa de animales que nadie conoce, etc.
Sin embargo, y creo que no me equivocar demasiado, y aun a pesar de que existen
millones de libros de probabilidad que ni he mirado, dudo que exista alguno que base sus
ejemplos y problemas en la biblia y en Jesucristo. Es este enfoque el que he pretendido que
dominara en este libro, fundamentalmente por dos motivos:
Cuando los libros introducen la probabilidad, empiezan hablando de los dados,
y cuentan que el emperador Romano Claudio (que vivi cuando vivi Jesucristo)
escribi un tratado de juego de dados.
Una gran parte de nuestra juventud se ha alejado cada vez ms de la cultura
cristiana y es intencin nuestra devolverla a la senda correcta, o al menos que
la conozca un poco ms.

pg. 103
Estadstica fcil con hoja de clculo

ANTECEDENTES HISTRICOS

La teora matemtica del clculo de probabilidades se desarrolla a partir del siglo XVII,
asociada a los juegos de azar. A fin de cuentas, la gran mayora de los juegos lleva aparejado un
sistema de apuestas alrededor del mismo. O no es ms divertido jugar con dinero que con
garbanzos, o por el simple hecho de entretenerse? Por ello, siempre resulta muy conveniente
tener alguna idea de la probabilidad de ganar, o de la probabilidad de que ocurra algn suceso
favorable al jugador.
Como comentbamos hace un momento, los libros de probabilidad suelen decir que la
historia de la probabilidad es casi tan larga como la de la humanidad, puesto que la probabilidad
est ligada a los juegos de azar, y estos son casi tan antiguos como el ser humano. Con este
razonamiento tan simple, supongo que sera vlido decir que la informtica es tan antigua como
la humanidad, puesto que comenz bsicamente con la segunda guerra mundial, y guerras hay
desde sabe dios cundo. Adems, uno de los padres de la informtica fue Alan Touring, que
estaba bastante trillado el pobre, y gente trillada hay desde muy antiguo tambin (desde Can
que mat a su hermano, total para nada porque no exista an el dinero y no poda robarle).
En fin, vayamos a lo nuestro. Sumerios y asirios (seores de civilizaciones de esas
antiguas de las que hablan en los documentales que todo el mundo ve) utilizaban un hueso
extrado del taln de animales como ovejas, ciervos o caballos, denominado astrgalo o talus,
que tallaban para que pudiese caer en cuatro posiciones distintas. Este es considerado el
precursor de los dados.
Asimismo, en las pirmides de
Egipto se han encontrado
pinturas que datan de la poca
de la primera dinasta (3.500
a.C.) en las que se muestran
juegos de azar.

Quien haya visto alguna


de romanos (Ben-hur,
Espartaco, Gladiador... ) ya sabe
que eran muy aficionados a los
juegos de azar (adems de a
barbaridades como crucificar
gente, arrojar a los esclavos a las
fieras... ). El emperador Claudio
(10 a.C. - 54 d.C.) escribi un tratado sobre el juego de los dados. Pese a tener unas cuantas taras
fsicas (por ejemplo cojera, tartamudez, tics nerviosos o aerofagia), y ser sealado como tonto
hasta por su madre, Claudio accedi al trono de emperador de una manera ms o menos
fortuita, tras el asesinato de su sobrino Calgula (que estaba ms loco que cien cabras). Como
gobernante, fue muy querido por el pueblo y se revel como un gran poltico, gestor y estratega
militar 8.
La historia de la probabilidad comienza realmente en el siglo XVII, cuando Pierre Fermat
(jurista y matemtico; 1601 - 1665) y Blaise Pascal (matemtico, fsico, filsofo cristiano y
escritor; 1623 - 1662) tratan de resolver algunos problemas relacionados con los juegos de azar.
En aquella poca vivi tambin Antoine Gombaud, escritor francs (1607 - 1684) que, a pesar

8
Fue clebre tambin su esposa Mesalina, por competir con la prostituta ms famosa de Roma,
para ver quin aguantaba con ms hombres en una noche. Gan Mesalina por goleada.
pg. 104
Estadstica fcil con hoja de clculo

de no pertenecer a la nobleza, adopt el ttulo de Chevalier (Caballero) para asignrselo al


personaje de sus dilogos que representaba sus propias opiniones (el caballero de Mr 9). Su
inters por conocer cul era la apuesta ms favorable en los juegos de dados ocasion una serie
de cartas entre Blaise Pascal y Pierre de Fermat, que establecieron los fundamentos de la teora
moderna de la probabilidad.

PROBABILIDAD

La probabilidad toma su forma actual a partir de los aos 30 del siglo XX, cuando Andrey
Nicolaievich Kolmogorov (como est claro, era ruso; 1903 - 1987) establece con sus axiomas las
bases matemticas de la teora de la probabilidad. Esta aparece en su famosa monografa
Grundbegriffe der Wahrscheinlichkeitsrechnung (1933) (que corresponde a una publicacin
alemana, y por cuyo nombre se comprende que, a pesar de su importancia, no se convirtiera en
un best-seller).
Para introducir detalladamente la nocin de probabilidad, vamos a hablar de dos tipos
de experimentos. Consideraremos que un experimento es un proceso por medio del cual se
obtiene una observacin. Bajo este enfoque, podemos distinguir entre experimentos
deterministas y aleatorios.
Los primeros son aquellos que siempre que se repitan bajo condiciones anlogas llevan
al mismo resultado, por tanto este se puede predecir (Ejemplos: una reaccin qumica en
condiciones prefijadas de antemano; cualquier experimento fsico que se realice en las mismas
condiciones).
Por el contrario, un experimento aleatorio es el que puede dar lugar a varios resultados
conocidos previamente, sin que sea posible saber de antemano cul de ellos se va a producir.

9
As por las referencias, da la impresin de que el caballero de Mr fue un antecesor del
pequeo Nicols.
pg. 105
Estadstica fcil con hoja de clculo

DEFINICIONES BSICAS

El conjunto de los posibles resultados de un experimento aleatorio se llama espacio


muestral. Se representa con la letra griega .

EJEMPLOS:
Experimento aleatorio: lanzamiento de una moneda. Posibles resultados = Espacio
muestral ={cara, cruz}.
Experimento aleatorio: lanzamiento
de un dado de tasca. Posibles resultados =
Espacio muestral ={1,2,3,4,5,6}.
Experimento aleatorio: nmero de
amores de Mesalina en una noche de lujuria.
={0,1,2,3,... }.
Experimento aleatorio: partido de
futbol. ={0-0, 0-1,1-0,1-1,... ,8-24,... }.

Suceso elemental. Cada uno de los posibles resultados de un experimento aleatorio. En


el ejemplo del lanzamiento de un dado, cualquiera de los nmeros del 1 al 6 es un suceso
elemental.
Suceso Es un subconjunto del espacio muestral, . Se dice que ocurre un suceso si
ocurre alguno de los sucesos elementales que lo componen.
Ejemplo: en el lanzamiento de un dado, el suceso =salir nmero par={2,4,6}.
Suceso imposible. Es el suceso que no puede ocurrir nunca. Como conjunto, es el
conjunto vaco . Ejemplo: al lanzar un dado, =el resultado es 7, 8, o el nmero pi.

NOTICIA BOMBA:
Un poltico es cogido infraganti al donar todo el dinero
que cobraba en negro a Critas.

Dos sucesos se llaman incompatibles si no pueden ocurrir simultaneamente (al lanzar


un dado no puede salir un nmero par e impar a la vez). Dos sucesos son incompatibles si como
conjuntos son disjuntos ( = ) (esta definicin se extiende a ms de dos sucesos o
conjuntos).

pg. 106
Estadstica fcil con hoja de clculo

SUCESOS Y CONJUNTOS. DIAGRAMAS DE VENN

Como acabamos de ver, un suceso es un subconjunto del espacio total . Las


propiedades de los conjuntos se vieron en algn curso muy lejano en el colegio o instituto, pero
conviene recordarlas, porque van a ser de gran utilidad para el clculo de probabilidades.

Unin (de conjuntos o sucesos): es el conjunto o suceso formado por los


elementos que estn en estn en .

Interseccin: est formado por los elementos que estn simultneamente en y


en .

pg. 107
Estadstica fcil con hoja de clculo

Diferencia: est formado por los elementos de que NO estn en B.

Complementario de un suceso : se escribe o . Es el suceso formado por todos los


elementos del espacio total que no estn en . Se verifica que = y = .

Podemos ver un grfico de estas operaciones en la Figura 50.

Figura 50

La unin e interseccin de sucesos o conjuntos cumplen las propiedades conmutativa y


asociativa:
= , = ,
( ) = ( ) ( ), ( ) = ( ) ( ),
y, obviamente, operaciones como la unin o interseccin pueden generalizarse a ms de dos
sucesos o conjuntos. Quien tenga dudas, que lo verifique haciendo los dibujos como en la Figura
50 (siempre que se tengan dudas del resultado de operaciones con sucesos o conjuntos, se
recomienda hacer los dibujos).

EJEMPLO 22
Supongamos que se lanza un dado. Considerar los sucesos
=salir nmero par y =salir nmero mayor o igual a 3.
= {, , }, = {, , , }.
Vamos a calcular , , y .
=el resultado es par o mayor o igual a 3= {, , , , }.
=el resultado es par y mayor o igual a 3= {, }.
=el resultado es par pero no mayor o igual a 3= {}.
="el resultado es mayor o igual a 3 pero no par= {, }.

pg. 108
Estadstica fcil con hoja de clculo

PROBABILIDAD

Es una funcin que le asigna a cada suceso de un espacio muestral un nmero


llamado probabilidad de , verificando:
1.-) Es un nmero entre 0 y 1. 0 () 1.
2.-) La probabilidad del espacio muestral es 1. () = 1.
3.-) Si se consideran sucesos incompatibles (con interseccin el vaco, = , si
), la probabilidad de la unin es la suma de las probabilidades:
(1 2 . . . ) = (1 ) + (2 )+. . . +( ).
Estas tres propiedades se llaman axiomas de Kolmogorov. Para entenderlas mejor, as
como para entender las propiedades que daremos a continuacin, conviene pensar en la
probabilidad como la medida de un conjunto, siendo el total el de mayor medida (mide 1),
y cualquier otro suceso mide menos que el total y, como muy poco, 0. La tercera propiedad
establece que si tenemos varios sucesos o conjuntos que no tienen interseccin entre s, la
medida de la unin de todos es la suma de las medidas.
En la Ilustracin 2 vemos un ejemplo de espacio muestral: una fuente de croquetas. La
fuente medir (en este caso pesar) lo que sea, pero le asignamos medida o peso 1. Cualquier
croqueta es un suceso que, lgicamente, pesa menos que el total. Un conjunto de croquetas
como el que aparece en la foto no tiene interseccin entre cada dos croquetas (no han salido
pegadas, estn en su punto), por lo que el peso total de un conjunto de croquetas ser la suma
del peso de las croquetas que lo componen.

Ilustracin 2: Ejemplo de espacio muestral rico rico.

ASIGNACIN DE PROBABILIDADES
pg. 109
Estadstica fcil con hoja de clculo

Hemos visto las propiedades que cumple la probabilidad. Ahora, cuando consideramos
un experimento aleatorio, y los posibles sucesos que pueden ocurrir en el mismo, cmo se sabe
cul es su probabilidad? Hay 3 maneras de asignar probabilidades a sucesos.

1.-) Asignacin frecuentista.


Consiste en tener en cuenta que, a medida que se repite un experimento aleatorio un
nmero grande de veces, la frecuencia relativa de ocurrencia de cualquier suceso converge a un
valor fijo.
Es decir, si el experimento se repite veces ( muy grande), y es un suceso, entonces
nmero de veces que ocurre
() = ().

Pensemos en el lanzamiento de una moneda un nmero muy grande de veces. La
frecuencia relativa de aparicin del suceso =cara tiende a 0.5. Igualmente, al lanzar un dado,
la frecuencia relativa de aparicin de un nmero tiende hacia 1/6. Este tipo de asignacin es el
que se utiliza para hablar de probabilidad de accidente de trfico (tras haber obtenido muchos
datos a lo largo de los aos) o la probabilidad de que un medicamento cure una enfermedad
(tras la observacin de muchos casos).

2.-) Asignacin equiprobable.


Si el experimento aleatorio da lugar a un espacio muestral finito de elementos:
= {1 , 2 , . . . , }
se le asigna a todos los sucesos elementales la misma probabilidad 1/.
Entonces, cualquier suceso estar formado por sucesos elementales, y la
probabilidad del suceso ser
casos favorables
() = =
casos posibles
Esta frmula es la conocida regla de Laplace.
Esta tipo de asignacin valdra, por citar un caso sencillo, cuando lanzamos un dado. La
probabilidad de que, por ejemplo, salga un nmero par, es 3 entre 6 (casos favorables entre
posibles).

3.-) Asignacin subjetiva.

pg. 110
Estadstica fcil con hoja de clculo

Cuando no es posible una asignacin de las dos formas anteriores, ser necesario asignar
probabilidades a los sucesos de acuerdo con la experiencia de la persona que realice u observe
el experimento (probabilidad de que llueva, de que se produzca un terremoto de cierta
magnitud, de que una pareja se acabe casando, de que un matrimonio acabe con cuernos, de
que un gordo feo pueda seducir a Natalie Portman...).

PROPIEDADES DE LA PROBABILIDAD

Hemos dicho que la probabilidad es una funcin que le asigna un nmero a un suceso,
verificando 3 propiedades:
1) El nmero est entre 0 y 1.
2) La probabilidad del total es 1.
3) Si se consideran sucesos incompatibles (con interseccin el vaco, = , si
), la probabilidad de la unin es la suma de las probabilidades:
(1 2 . . . ) = (1 ) + (2 )+. . . +( ).
Definiendo una probabilidad como la frecuencia relativa, o bien como casos favorables
entre casos posibles, es fcil ver que estas 3 propiedades se cumplen. Pensemos, por ejemplo,
en lo siguiente:
Consideremos el conjunto de todos los cristianos. Consideremos el experimento
aleatorio consistente en observar personas de ese conjunto. La probabilidad del total es 1. La
probabilidad de que cualquier persona observada sea cristiana es 1.
La probabilidad de que cualquier persona de ese conjunto sea budista es 0.
Consideremos el conjunto de los catlicos. La probabilidad de que una persona sea
catlica est entre 0 y 1, y la calcularamos

() =

Consideremos 1 =ser catlico y 2 =ser protestante. Se verifica que 1 2 =
, y (1 2 ) representara la probabilidad de ser catlico o protestante, que se calculara
+
(1 2 ) = = (1 ) + (2 ).

A partir de los axiomas de Kolmogorov, y teniendo en cuenta que un suceso es un
conjunto , puede comprobarse que se verifican tambin las siguientes propiedades:
P1) La probabilidad del complementario de un suceso es 1 menos la probabilidad de
dicho suceso: () = 1 () (ver el dibujo de la derecha en la Figura 50.
P2) La probabilidad del suceso imposible es cero (porque es el complementario del
total ).
P3) Si (siempre que ocurre ocurre ), entonces () ().
Por ejemplo, el suceso ser anglicano () implica ser protestante (). Pero el conjunto
es ms grande que el , puesto que hay varias divisiones entre las iglesias protestantes . Por
lo tanto, la probabilidad de ser anglicano es menor o igual que la de ser protestante.
P4) ( ) = () + () ( )
(fijmonos que esto no es contradictorio con la propiedad 3. En dicha propiedad decimos
que la probabilidad de la unin de sucesos es la suma de probabilidades, cuando las
intersecciones 2 a 2 entre ellos es el vaco. Si la interseccin no es el vaco, hay que restarle la
probabilidad de la misma).
Por ejemplo, A=ser carpintero, B=ser natural de Nazaret. Como hemos visto, los
romanos hacan censos con el fin de cobrar impuestos. De esta forma, saban en qu trabajaba
cada uno. La probabilidad de ser carpintero dentro de la poblacin juda es:

() =
( )
pg. 111
Estadstica fcil con hoja de clculo

La probabilidad de ser de Nazaret



() =

La probabilidad (ser carpintero o de Nazaret)

( ) = .

El nmero de carpinteros o habitantes de Nazaret es la suma de carpinteros y de
habitantes de Nazaret , pero habr que descontar el nmero de carpinteros naturales de
Nazaret, porque, de otro modo, los contamos dos veces (pensemos en Jess de Nazaret).
Recordemos que el objetivo de contar es para cobrar impuestos. Los romanos eran bastante
bestias (porque eso de crucificar a la gente ya le vale), pero en el tema del dinero eran justos,
as que no le iban a cobrar dos veces a la misma persona.
Entonces
+
( ) = =

= () + () ( ).
Llegados a este punto, alguien puede pensar 10: por qu no puedo considerar dos veces
la misma persona?. En caso de duda, id siempre al caso ms sencillo. Supongamos que slo
hubiese un carpintero en toda Judea, y que adems fuese de Nazaret (adivinis el nombre?).
Cuntas personas habra que cumplan un requisito u otro? Solo una, no 1+1 =2. Tendramos
que considerar 1 carpintero + 1 nacido en Judea 1 carpintero nacido en Judea =1.
Pongamos ahora otro ejemplo para ver que sucede si no tenemos en cuenta la
interseccin de los sucesos. Supongamos que la probabilidad de que llueva el sbado es 0.5, y la
probabilidad de que llueva el domingo es 0.5. Cul es la probabilidad de que llueva el fin de
semana? Si una piensa ( ) + ( ) = 0.5 + 0.5 = 1, lo
que significara que llueve seguro el fin de semana (y menos mal que no nos dicen que la
probabilidad de que llueva el domingo es 0.9, por ejemplo, porque entonces la probabilidad
saldra 1.8, y eso sera predecir una tormenta perfecta que ni la de George Clooney 11).
Obviamente, tendran que decirnos cual es la probabilidad de que llueva ambos das
(interseccin), que podra ser alta, para restrsela a la suma de las probabilidades anteriores.

Generalizacin a tres sucesos:

10
En mis aos dando clases a alumnos de diferentes carreras, a veces hay gente que le suena
raro lo de descontar la interseccin cuando se considera la unin de dos conjuntos. Es normal si es la
primera vez que se ven estas cosas. De todas maneras hay carreras (o grados, como se les llama desde
que empez el proceso de Bolonia que tantos males ha trado) donde las dificultades de comprender estas
cosas lgicas son ms altas que en otras, y mejor ahora me voy a quedar callado.
11
Que nadie piense en guarradas. La tormenta perfecta es una pelcula de George Clooney.
pg. 112
Estadstica fcil con hoja de clculo

( ) = () + () + ()
( ) ( ) ( )
+( )
(vase la figura y recurdese que probabilidad=medida).

EJEMPLO 23
Jess est dando un sermn en lo alto de la montaa. Abajo estn esperando turno
un grupo de enfermos para que los sane, y as no tener que hacer uso de la seguridad social
de aquella poca, que tena listas de espera muy largas. El 70% de los enfermos tenan alguna
tara, el 60% padecan del aparato digestivo y el 65% de los huesos. El 45% padeca de taras y
del aparato digestivo, el 40% tena taras y padeca de huesos, y el 50% del aparato digestivo y
huesos. El 30% tena las tres dolencias. Cul es la probabilidad de que el primer peregrino
que se acerque a Jesus no tenga ninguna enfermedad?
SOLUCIN.
Denominemos los sucesos =tener una tara, =padecer del aparato digestivo y
=padecer de los huesos. Los datos que nos dan son:
() = 0.7, () = 0.6, () = 0.65, ( ) = 0.45, ( ) = 0.4, (
) = 0.5 y ( ) = 0.3.
El porcentaje (o la probabilidad) de que una persona no padezca ninguna de las
enfermedades citadas es la probabilidad del complementario de tener alguna enfermedad, es
decir, 1 menos la probabilidad de la unin de , y , y esta es:
( ) = () + () + ()
( ) ( ) ( ) +
+( ).
Luego la probabilidad pedida es 1 [0.7 + 0.6 + 0.65 0.45 0.4 0.5 + 0.3] =
1 0.9 = 0.1, es decir el 10 por ciento. El porcentaje de la gente que tiene algo es el 90 por
ciento (no la suma de los porcentajes de , y , que dara ms del cien por cien).

Generalizacin a sucesos:
(1 2 . . . ) = (1 ) + (2 )+. . . +( )
(1 2 ) (1 3 ). . . (1 ) +
+(1 2 3 )+. . . +(2 1 )
. ..
+(1)+1 (1 2 . . . ).

P5) ( ) = () ( ) (ver Figura 50).

- Adems, al cumplirse las leyes de DeMorgan 12, que dicen:


a) el complementario de la unin es la interseccin de los complementarios:
1 . . . = 1 . . . ,
b) el complementario de la interseccin es la unin de los complementarios:
1 2 . . . = 1 . . . ,
podremos utilizar tambin que
P6)
(1 ) = 1 (1 2 )

12
Augustus De Morgan (1806 1871), matemtico britnico que formul el principio de
induccin. No se conoce que tuviese relacin con el pirata Morgan.
pg. 113
Estadstica fcil con hoja de clculo

y
(1 . . . ) = 1 (1 2 . . . ).

EJEMPLO 24
=las aguas se convierten en sangre, =plaga de langostas, =lceras y
sarpullido. Mejor no seguimos, que podemos llegar a diez (plagas de egipto).
A qu corresponde
?
La unin 1 2 3 es sufrir alguna de las plagas. El complementario es no sufrir
ninguna de las 3, que sera lo mismo que no sufrir la primera, ni la segunda, ni la tercera: es
decir, la interseccin 1 2 3 .
A qu corresponde ?
La interseccin 1 2 3
significa sufrir las tres plagas. El
complementario est compuesto por
todos los sucesos que no sean las tres
plagas a la vez. Por ejemplo, sufrir la
primera plaga y no las otras dos es un
suceso que est dentro del
complementario, o sufrir las dos primeras
plagas pero no la tercera, o no sufrir
ninguna... 1 2 3 sucede siempre
que no sucedan las tres plagas a la vez, por
lo tanto coincide con el complementario
de la interseccin de las 3 plagas o sucesos
.

Dejamos un resumen. Consejo: imprimir, agrandar y pegar en la puerta de la habitacin


en vez del poster de Justin Bieber/El Ch/Scarlett/Los Beatles/Pablo Iglesias/Rajoy...

( ) = 1
( ) es un nmero entre 0 y 1
( ) = 0
Si A est contenido en B, () ()
( ) = 1 ()
( ) = () + () ( ). = entonces () = () + ()
() = () + () + () ( ) ( ) ( ) +
+ ( ) y si la unin es de ms se va complicando
( ) = () ( )
(1 ) = 1 (
1 2 )

(1 . . . ) = 1 (1 2 . . . ).

EJEMPLO 25
En el circus de Roma estn los prisioneros esperando para ser devorados por Atila, el
gran len africano. De los presos, 65 son cristianos, 80 son hombres y 25 son mujeres
cristianas. Cul es la probabilidad de que el primero en salir a la arena sea un hombre? Cul
es la probabilidad de que le toque a un hombre cristiano?
pg. 114
Estadstica fcil con hoja de clculo

SOLUCIN.
Denotamos los sucesos =cristiano, =hombre, =mujer. Con los datos que nos
dan podemos formar la tabla:
Totales
80
25
Totales 65 120

Ahora rellenamos los huecos



Totales
40 40 80
25 15 40
Totales 65 55 120

La probabilidad de que le toque a un hombre es casos favorables entre posibles:


() = 80120 = 23.
La probabilidad de que le toque a un hombre cristiano es la probabilidad de la
interseccin :
( ) = 40/120 = 1/3.

EJEMPLO 26
Tras salir victorioso de alguna guerra, el 70 por ciento de los generales romanos
reciban un premio consistente en un bal de oro, o un volquete de esclavas(os), si bien el 40
por ciento reciba ambas cosas. Si exista un 50 por ciento de generales que slo admitan que
les pagaran con oro, calcular la probabilidad de que, escogido al azar un general romano:
a) slo reciba oro,
b) o bien reciba oro, o bien reciba esclavos(as), pero solamente una de las dos cosas
c) el general sea un pringado y no reciba nada ms que agradecimiento eterno del
emperador.
SOLUCIN.
Definimos los sucesos =recibir oro y =recibir esclavos. El enunciado del
problema nos da las probabilidades ( ) = 0.7, ( ) = 0.4, () = 0.5.
A partir de estos datos, podemos obtener: () = 1 () = 0.5, y, como (
) = () + () ( ), entonces
() = ( ) () + ( ) = 0.7 0.5 + 0.4 = 0.6.
Ahora podemos resolver los apartados.
a) (reciba oro Y no reciba esclavos)=
( ) = () ( ) = 0.6 0.4 = 0.2.
b) [(reciba oro Y no reciba esclavos) O (reciba esclavos Y no reciba oro)]=
= [( ) ( )] =
= [() ( )] + [() ( )] = () + ()
2 ( ) = 0.6 + 0.5 2 0.4 = 0.3.
c) (no reciba oro Y no reciba esclavos) =
( ) = ( ) = 1 ( ) = 1 0.7 = 0.3.

pg. 115
Estadstica fcil con hoja de clculo

Con una tabla seguro que es ms fcil de hacer. Los datos que nos dan son:
Totales
0.4

0.5
Totales 1
Calculamos () mediante la frmula de la probabilidad de la unin, puesto que nos
dan ( ), y () = 1 () = 0.5. Como antes, () = 0.6. Con estos datos
completamos la tabla


Totales
0.4 0.1 0.5

0.2 0.3 0.5
Totales 0.6 0.4 1
a) ( ) = () ( ), y estas dos ltimas probabilidades estn en la tabla.
b) [( ) ( )] = [() ( )] + [() ( )] =
= () + () 2 ( ),
y, de nuevo, tenemos directamente estos datos en la tabla.
c) ( ) = 0.3 est tambin en la tabla.

Las tablas, esa gran ayuda

PROBABILIDADES GEOMTRICAS

La regla de Laplace puede aplicarse a ciertas situaciones donde aparecen sucesos


asociados a conjuntos en el plano o en el espacio que podamos medir (longitud, rea,
volumen..). La probabilidad de un suceso ser la medida de dividida por la medida del total.

()
() =
()

Supongamos que tenemos un huevo frito y, con los ojos vendados, dejamos caer el
dedo. La probabilidad de que el dedo toque la yema (regin A) viene dada por la probabilidad
geomtrica que acabamos de definir (suponemos que siempre tocamos el huevo al dejar caer el
dedo).

pg. 116
Estadstica fcil con hoja de clculo

EJEMPLO 27
Juan 8:4
Pero Jess se fue al monte de los Olivos. Al amanecer se present de nuevo en el
templo. Toda la gente se le acerc, y l se sent a ensearles. Los maestros de la ley y los
fariseos llevaron entonces a una mujer sorprendida en adulterio, y ponindola en medio del
grupo le dijeron a Jess:
Maestro, a esta mujer se le ha sorprendido en el acto mismo de adulterio. En la ley
Moiss nos orden apedrear a tales mujeres. T qu dices?
Con esta pregunta le estaban tendiendo una trampa, para tener de qu acusarlo. Pero
Jess se inclin y con el dedo comenz a escribir en el suelo. Y como ellos lo acosaban a
preguntas, Jess se incorpor y les dijo:
Aquel de ustedes que est libre de pecado, que tire la primera piedra.
Entonces uno que estaba sordo (y adems era medio tonto), mientras atenda a Jess
lanz una piedra sin mirar. Suponiendo que la mujer estaba pegada a una pared de 5 metros
de ancho por 3 de alto, Cul es la probabilidad de que le diera a la mujer, que pesaba 60 kilos
y meda 155 cm?
SOLUCIN.
La frmula de Mosteller, que todo el mundo conoce, detalla la superficie de un cuerpo
humano en funcin de peso y altura, y es
2
=
3600
que, en este caso, da 1.607 2 .
El espacio total del muro es alto por ancho, por lo tanto 15 metros cuadrados
La probabilidad, por tanto, del suceso =acertar ser
1.607
() = = 0.107.
15

Marcos 10:25
Los discpulos se asombraron de sus palabras. Pero Jess respondiendo de nuevo, les
dijo: Hijos, qu difcil es entrar en el reino de Dios! Es ms fcil que un camello pase por el ojo
de una aguja, que el que un rico entre en el reino de Dios.

pg. 117
Estadstica fcil con hoja de clculo

Segn vemos en la
Ilustracin 3, la probabilidad de
que un camello pase por el ojo de
una aguja puede ser alta,
dependiendo de lo que mida la
aguja y su ojo. La probabilidad de
que un rico entre el reino de los
cielos puede ser pequea si el rico
es muy grande (esto suele
suceder, al menos suelen estar
gordos) y la puerta del cielo es
raqutica, pero eso habr que
esperar para comprobarlo, me
temo.

Ilustracin 3

PROBABILIDAD CONDICIONADA

En el ao 18 d.C. Caifs fue nombrado sumo sacerdote del Sanedrn (tribunal supremo
de los judos, donde estaba su suegro Ans 13, pudindose comprobar as como el nepotismo
existe desde tiempos inmemoriales). Por aquellos aos, un habitante de Judea, si era detenido,
poda ser acusado de delitos menores, siendo entonces llevado ante el Sanedrn (S). Si era
acusado de blasfemia, poda ser llevado ante Herodes (H) para que decidiese si era o no
crucificado. Ahora bien, recordemos que Judea haba sido invadida por los romanos y estaba
considerada una provincia de Roma. Como exista un movimiento independista bastante fuerte
(cuyo lema principal era Roma nos roba), el detenido poda ser acusado de sedicin ante el
gobernador Pilatos (P), famoso por su extremada limpieza de las manos. En la siguiente tabla se
ve la probabilidad de que el detenido acabara siendo ejecutado o no, segn por quien fuese
juzgado.

(hombres) (mujeres) Totales


(delito menor) 75 25 100
(blasfemia) 70 30 100
(sedicin) 250 50 300
Totales 395 105 500

Pilatos decide liberar a un preso de los 500. La probabilidad de que sea un hombre y est
acusado de sedicin
250
( ) = = 0.5.
500
Ahora Pilatos decide liberar a un hombre. En el primer caso, elegamos al azar un preso,
y queramos que cumpliese dos condiciones: fuese hombre y estuviese acusado de sedicin. En
cambio, ahora elegimos un hombre (estamos buscando en un grupo ms pequeo: los casos

13
Ver, por ejemplo, Jesucristo Superstar (1973)
pg. 118
Estadstica fcil con hoja de clculo

posibles ahora son 395). La probabilidad pedida se escribe (probabilidad del suceso dado o
condicionado a el suceso ):
250
(/) = .
395
Y, como la probabilidad de que, al escoger un preso de la crcel, al azar, sea un hombre,
es
395
() = ,
500
Vemos que se verifica
250 395 250
= ,
500 500 395
o, lo que es lo mismo,
( ) = () (/).
De donde obtenemos que
( )
(/) = .
()
Generalizacin: Dados 2 sucesos 1 y 2 (tales que (1 ) 0, (2 ) 0), la probabilidad
condicionada se calcula como
(1 2 ) (1 2 )
(1 /2 ) = y (2 /1 ) = .
(2 ) (1 )

En consecuencia, vemos que la probabilidad de una interseccin se puede obtener


como
(1 2 ) = (1 ) (2 /1 ) = (2 ) (1 /2 )

(hasta ahora, en las propiedades vistas, sabamos calcular la probabilidad de una unin; nunca
habamos visto como calcular la probabilidad de una interseccin).

Nota. Claramente, ( ) ( ). Hay un ejemplo clsico y muy clarificador. Sea


S el suceso tener dos brazos y dos piernas y R el suceso ser un mono. Obviamente,
(/) = , mientras que (/) .

PROPIEDADES DE LA PROBABILIDAD CONDICIONADA

pg. 119
Estadstica fcil con hoja de clculo

La probabilidad condicionada verifica las mismas propiedades que hemos visto para la
probabilidad, esto es, si es tal que () 0, entonces (/) = 1 (/); si 1 2 ,
entonces (1 /) (2 /), etc.
Si, por ejemplo, queremos calcular la probabilidad de que un hombre est acusado de
Delito menor () o Blasfemia (), podemos calcularlo (teniendo en cuenta que el suceso
es, en la tabla que estamos usando, el complementario de ) directamente mediante la frmula
de (/) = 1 (/), esto es
250 145
[( )/] = 1 (/) = 1 = .
395 395
La forma de calcularlo a partir de la tabla sera buscar, dentro de la columna de hombres,
los casos que hay de Delitos menores () o Blasfemia (), que son 75 + 70 = 145, y por tanto
la probabilidad es 145/395.

DIAGRAMA DE RBOL

Los problemas de probabilidades condicionadas, en muchas ocasiones, son fciles de


plantear mediante lo que se denomina diagrama de rbol (Figura 51):
A partir de la poblacin total, distinguimos dos ramas (en el caso ms simple, un suceso
y su complementario; las probabilidades de ambos suman 1).
A continuacin, desde el suceso abrimos otras dos ramas, que corresponden a / y
/ (de nuevo las probabilidades suman 1). Desde el suceso abrimos dos ramas / y /

(probabilidades sumando 1).
Al terminar el rbol, tenemos a la derecha las intersecciones correspondientes de cada
2 sucesos, y como calcular las probabilidades.

Figura 51

EJEMPLO 28
El 12% de los legionarios de un campamento romano es de familia noble. El 25% de
ellos sabe latn. a) Qu tasa de legionarios del campamento es noble y sabe latin? Qu tasa
no lo sabe?
SOLUCIN.
Consideramos los sucesos =ser de familia noble, =saber latn. Tenemos que
() = 0.12, (/) = 0.25 (/ representa, dentro de los que son nobles, los que saben
latn. Nos piden
pg. 120
Estadstica fcil con hoja de clculo

a)( ) = () () = 0.12 0.25 = 0.03 = 3%.


b) ( ) = () (/) = () (1 (/)) = 0.12 (1 0.25) = 0.09.

Si planteamos el diagrama de rbol para este caso, tendramos el de la Figura 52.


Dividiramos primero en 2 ramas (ser noble o no) y luego 2 ramas para cada nodo (saber latn o
no). Por la primera rama tenemos () y si continuamos de nuevo por la primera rama,
multiplicamos por () para obtener ( ).es decir el 9 por ciento.
Para el apartado b), despus de ir por la primera rama nos movemos por la segunda, y
tenemos ( ).

Figura 52

EJEMPLO 29
En las bodas de Can, el 70% de los presentes eran mujeres. De ellas el 10% eran
catlicas. De los hombres, eran catlicos el 20%.
a) Qu porcentaje de catlicos haba?
b) Se elije a una persona al azar y es catlica. Cul es la probabilidad de que sea un
hombre?
SOLUCIN.
Dibujamos el diagrama de rbol (Figura 53):

Figura 53

a) El porcentaje de catlicos es
() = ( ) + ( ) = 0.1 0.7 + 0.2 0.3 = 0.07 + 0.06 = 0.13 = 13%.
b) Nos piden ( ). Aplicamos la definicin de probabilidad condicional:
pg. 121
Estadstica fcil con hoja de clculo

( ) 0.2 0.3
( ) = = = 0.461.
() 0.13
Ahora vamos a hacerlo mediante una tabla.
Ponemos los datos que nos dan:
(catlico) (No catlico) Totales (%)
(hombre) 0.2 30 = 6 30
(mujer) 0.1 70 = 7 70
Totales (%) 100
Rellenamos los huecos:
(No catlico) Totales (%)
(catlico)
(hombre) 6 24 30
(mujer) 7 63 70
Totales 13 87 100
Mirando a la tabla, contestamos:
a) () = 0.13 13% (Total de la Columna).
()
b) ( ) = ()
, y estas probabilidades las miramos en la tabla:
( ) 0.06
( ) = = = 0.46
() 0.13

REGLA DEL PRODUCTO

Generalizando la frmula vista para la interseccin de dos sucesos:


(1 2 ) = (1 ) (2 /1 ),
cuando consideramos la interseccin de sucesos, su probabilidad se obtiene por la llamada
regla del producto:
(1 2 ) =
= (1 )(2 /1 )(3 /1 2 )(4 /1 2 3 ) . . . ( /1 . . . 1 ),
que, como vemos, consiste en que la probabilidad de la interseccin de sucesos se calcula
multiplicando las probabilidades sucesivas, pero condicionando cada suceso a que ocurran
todos los inmediatamente anteriores.

EJEMPLO 30
En la ltima cena, Jess le dijo a Pedro esta noche, t me negars tres veces. Jess
saba que iba a haber una redada y que Pedro iba a poner pies en polvorosa, y despus iba a
negar cualquier relacin con su maestro. Pedro, cada vez que lo paraban y le preguntaban por
Jess y l lo negaba, se iba arrepintiendo poco a poco de ser tan poco fiel. De esta forma, la
probabilidad de que negara a Jess era, en cada ocasin, un veinticinco por ciento menos que
la vez anterior. Cul es la probabilidad de que hubiera llegado a negarlo cinco veces?
SOLUCIN.
Denotemos por =negar a Jess en la vez , para = 1,2,3,
La probabilidad
( ) = (1 ) 0.25 (1 ) = 0.75 (1 ).
Nos piden
(1 2 5 ) =
= (1 ) (2 /1 ) (3 /1 2 ) (4 /1 2 3 ) (5 /1 2 3 5 ) =
pg. 122
Estadstica fcil con hoja de clculo

= (1 ) 0.75 (1 ) (0.75 (1 )2 ) (0.75 (1 )3 ) (0.75 (1 )4 ) =


= 0.7510 (1 )11 = 0.05631 (1 )11.
As pues, aunque la
probabilidad de que Pedro negara a
Jess por primera vez fuese igual a 1
(tengamos en cuenta que los
romanos eran ms temidos en
aquella poca que los mossos de
esquadra), la probabilidad de
negarlo 5 veces ya se reduce a
0.05631, o sea 5.63 por ciento.

INDEPENDENCIA DE SUCESOS

2 sucesos 1 y 2 son independientes si la ocurrencia de uno no influye en la ocurrencia


del otro. Se verifica entonces que
(1 /2 ) = (1 ) y (2 /1 ) = (2 ),
es decir, que el que haya ocurrido uno no influye para nada en la ocurrencia del otro.
Si sucesos son independientes, entonces la probabilidad de la interseccin es el
producto de las probabilidades:
(1 2 . . . ) = (1 ) (2 ) . . . ( ).

Nota: Muchas veces hay confusin entre probabilidad condicionada y probabilidad de una
interseccin. Para no despistarse, pinsese en el aprobado condicionado: suspendes un examen
parcial, y el profesor te lo aprueba, pero condicionado a aprobar el siguiente parcial. Llamemos
1 =aprobar el primero y 2 =aprobar el segundo.
Si al aprobar el segundo te dan el aprobado del primero, (1 /2 ) = 1. En cambio, calcular la
probabilidad de la interseccin (1 2 ) correspondera a preguntarnos, antes de hacer los
exmenes, cul es la probabilidad de aprobar los dos. Si el profesor no tiene en cuenta la nota del
primero para el segundo (ni al revs), los sucesos seran independientes, y (1 2 ) = (1 )
(2 ).
La probabilidad de una interseccin supone calcular la probabilidad de que sucedan 2 cosas
simultneamente. La probabilidad condicionada supone que una de ellas ha ocurrido, la sabemos,
y entonces calculamos la probabilidad de la otra (en funcin de lo que ha ocurrido).

EJEMPLO 31
Supongamos ahora que Pedro, en cada ocasin que le preguntan por Jess (despus
de que reventara la cena la patrulla romana y Pedro saliera corriendo) Pedro lo niega o no
tirando un sestercio al aire. Si sale la cara del emperador, niega a Jess. En otro caso, se
entrega. Cul es la probabilidad de que se entregara la cuarta vez que lo pararan?
SOLUCIN.
Si cada vez que lo paran, tira una moneda, ahora los sucesos =negar a Jess en la vez
son independientes, con probabilidad siempre 0.5 pues Pedro tira un sestercio al aire. Por lo
tanto, la probabilidad de no negar a Jess en la cuarta ocasin es:
4 ) = (1 ) (2 ) (3 ) (
(1 2 3 4 ) = 0.54 = 0.0625.

pg. 123
Estadstica fcil con hoja de clculo

EJEMPLO 32
Supongamos que un tratamiento mdico A cura a un enfermo de lepra con () =
. . El enfermo lo toma, pero, por si acaso, a pesar de la alta probabilidad de curacin, decide
ir junto a Jesucristo para que le toque. Cul es la probabilidad de que se cure?
SOLUCIN.
() = 0.9 () = 1 siendo =te cure Jesucristo.

() = () + () ( ) =
= () + () () () = 0.9 + 1 0.9 0.1 = 1.9 0.9 = 1.

TEOREMA DE LAS PROBABILIDADES TOTALES

Un sistema completo de sucesos es un conjunto de sucesos 1 , 2 , . . . , que


verifican:
- Son sucesos incompatibles 2 a 2:
= , si .
- La unin de todos es el total:

= ,
=1
y adems, la probabilidad de cada uno de ellos es distinta de cero.
Visualmente, un sistema completo de sucesos es una particin del espacio total en
conjuntos, todos disjuntos (no tienen interseccin entre s), y todos midiendo algo (tienen
probabilidad diferente a cero). Supongamos que el espacio muestral es una tarta, y la
troceamos (dibujo de la izquierda de la Figura 54).

El teorema de las probabilidades totales dice lo siguiente:

pg. 124
Estadstica fcil con hoja de clculo

Consideremos un sistema completo de sucesos, y sea otro suceso, , para el que


se conocen las probabilidades (/ ) para todo . Entonces, la probabilidad del suceso viene
dada por:

() = (/ )( ).
=1
Demostracin.
La demostracin es tan sencilla que conviene verla para seguir practicando con las
probabilidades de los sucesos.
podemos expresarlo como la unin = ( 1 ) ( 2 ) . . . ( ),
es decir intersecado con cada uno de los sucesos (Figura 54):

Figura 54

Como puede verse facilmente en la Figura 54, dado que los son disjuntos, tambin lo
son los conjuntos , luego podemos escribir:

() = ( ),
=1
y ahora, simplemente escribiendo la probabilidad de una interseccin en funcin de las
probabilidades condicionadas, tendremos que

() = (/ ) ( ).
=1

El resultado de este teorema tambin puede expresarse mediante un diagrama de rbol


(Figura 55), que servir para realizar problemas de frma fcil. Fijmonos que ahora, desde el
espacio total, abrimos una rama por cada suceso . Antes haciamos esto para un suceso y su
complementario. Ahora lo hacemos para todos los sucesos cuyas probabilidades suman
tambin 1 y tienen interseccin disjunta.
A partir de cada uno de los podemos abrir dos ramas: / y / (probabilidades
sumando 1). La probabilidad del suceso B se obtiene sumando todas las probabilidades de las
intersecciones que estn a la derecha del rbol:

() = ( ),
=1

pg. 125
Estadstica fcil con hoja de clculo

Figura 55

EJEMPLO 33
En una carpinteria de Judea, el volumen de produccin semestral en cada una de sus
secciones A (mesas de ltimas cenas), B (tabernculos) y C (cruces para los romanos) era de
500, 1000 y 2000 unidades, respectivamente.
A la carpintera se acerca el centurin Mximo, pensando en hacer el encargo de una
mesa para el saln. Teniendo en cuenta que el porcentaje de unidades defectuosas producidas
en cada seccin es del 1, 0.8 y 2 por ciento, respectivamente, calcular la probabilidad de que,
eligiendo Mximo una unidad al azar para ver la calidad, no tenga ningn defecto.
SOLUCIN.
Denotemos por =unidad defectuosa, 1 =pertenecer a la seccin A,
2 =pertenecer a la seccin B y 3 =pertenecer a la seccin C.
Al elegir una pieza de la carpintera, slo hay 3 opciones, que son 1 , 2 y 3 . Adems,
si ocurre una no ocurre ninguna de las otras. Por lo tanto, se verifica que 1 2 3 = y
son sucesos incompatibles. Tenemos entonces un sistema completo de sucesos.
En la prctica, lo que hacemos es ver si ( ) + ( ) + ( ) = , y que los sucesos
no puedan ocurrir simultaneamente.
En este caso,
500 1000 2000
() = , () = , () =
3500 3500 3500

Adems, sabemos que (/1 ) = 0.01, (/2 ) = 0.088 y (3 ) = 0.02.


Entonces, la probabilidad de que una pieza elegida al azar sea defectuosa es, mediante
el teorema de la probabilidad total
() = (1 ) (1 ) + (2 ) (2 ) + (3 ) (3 ) =
500 1000 2000
= 0.01 + 0.088 + 0.02 = 0.015.
3500 3500 3500
As pues, la probabilidad de que la pieza no sea defectuosa es 1 0.015 = 0.985.

pg. 126
Estadstica fcil con hoja de clculo

REGLA DE BAYES

El llamado Teorema de Bayes 14 utiliza las mismas hiptesis o supuestos que el teorema
de las probabilidades totales:
Sea un sistema completo de sucesos 1 , 2 , . . . , , es decir:
-Son sucesos incompatibles 2 a 2:
= , si .
-La unin de todos es el total:

= ,
=1
y, adems, la probabilidad de cada uno de ellos es distinta de cero.
Sea un suceso para el que se conocen las probabilidades (/ ).
Entonces, las probabilidades ( /) se pueden obtener de la forma
(/ ) ( )
( /) = , = 1, . . . , .
=1 (/ ) ( )
Esta frmula es conocida como regla o frmula de Bayes.
La demostracin tambin la escribimos, por ser muy simple: por la frmula de la
probabilidad condicionada, se tiene que
( )
( /) = .
()
Ahora, para calcular (), en el denominador, podemos usar la frmula de la
probabilidad total. En el numerador, la probabilidad la calculamos segn la definicin de la
probabilidad de una interseccin:
( ) = ( ) (/ ),

14
Thomas Bayes (1777-1855). Se comenta que sola frecuentar una taberna, donde los que
entraban por primera vez eran incordiados por un carota que les preguntaba: Has visto a Thomas? El
cliente preguntaba: Qu Thomas? Y entonces el carota miraba al tabernero y deca: Una cerveza,
muchas gracias.
pg. 127
Estadstica fcil con hoja de clculo

y ya est listo el resultado.

Nota: Las probabilidades ( ) se conocen como probabilidades a priori, y las


probabilidades ( /) se denominan a posteriori, puesto que se obtienen
posteriormente a que ha ocurrido el suceso .

EJEMPLO 34
En el ltimo ejercicio, supongamos que Marco Vinicio extrae para mirar una unidad
que es defectuosa. Calcular que haya sido fabricada en la seccin C.
SOLUCIN.
Nos dicen que se ha producido el suceso . Tenemos que calcular la probabilidad
condicionada (3 ). Por el teorema de Bayes:

(/3 ) (3 )
(/3 ) = =
(/1 ) (1 ) + (/2 ) (2 ) + (/3 ) (3 )

0.02 0.5714 0.0114


= = = 0.76.
() 0.015
Como vemos, la probabilidad de que una pieza sea de la seccin C es (3 ) = 0.5714.
Ahora bien, si la pieza es defectuosa, la probabilidad de que proceda de esa seccin es mayor
(0.76), ya que tambin es la que mayor nmero de piezas defectuosas produce.

EJEMPLO 35
Los romanos saban que iba a ser difcil detener a Jess, puesto que sus discpulos
nunca lo delataran. Probando a comprarlos, estimaron que, con 30 monedas, la probabilidad
pg. 128
Estadstica fcil con hoja de clculo

de que uno de los apstoles lo delatara slo ascenda a 0.01, exceptuando Pedro, que no lo
delatara, y tambin Judas, que lo delatara con probabilidad 1.
La patrulla romana entr en el restaurante donde cenaban pero, debido a que la
gestin de la luz era ineficiente al ser del estado, se quedaron a oscuras, y slo pudieron
detener a uno de los apstoles. Cul es la probabilidad de que delatara a Jess?
Despus de preguntar, Jess no fue delatado. Cul es la probabilidad de que el
detenido fuese Pedro?
SOLUCIN.
Planteamos el diagrama de rbol para este problema. Llamamos al suceso ser
delatado, y al suceso la patrulla romana detiene al apstol . Particularizamos = 1 para
Pedro e = 2 para Judas, y tenemos que
(B1 ) = 0, (B/2 ) = 1, (B/ ) = 0.01 = 3, ,12.
Adems, ( ) = 1/12, por lo que los forman un sistema completo de sucesos.

Por la frmula de la probabilidad total, la probabilidad de que Jess sea delatado es


() = (1 ) (1 ) + (2 ) (2 ) + + (/12 ) (12 ) =
1 1 1 1 1
=0 +1 + 0.01 + + 0.01 = 1.1 = 0.0916.
12 12 12 12 12
Por la regla de Bayes, la probabilidad de que el detenido fuese Pedro, sabiendo que Jess
no fue delatado, es
(/1 ) (1 )
(1 /) = 12 =
=1 (/ ) ( )
1 1 1 1
1 12 1 12 1 12 1 12 1
= = = = = = 0.0917.
() 1 (B) 1 1.1 1 12 1.1 10.9
12 12
Como vemos, la probabilidad a priori de que fuese Pedro era 1/12 = 0.083. Una vez
que Jess no fue delatado, la probabilidad de que el interrogado fuese Pedro aumenta, pero no
excesivamente, puesto que casi todos los apstoles delataran a Jess con muy poca
probabilidad.

pg. 129
Estadstica fcil con hoja de clculo

PROBLEMAS ANTIGUOS

PROBLEMA 5
Jud Ben-hur ha sido declarado culpable de intento de asesinato porque el tejado de
su casa cay accidentalmente sobre el tribuno Mesala. Mesala tena tres opciones como
castigo para su examigo de la infancia: crucificarlo, mandarlo a galeras o enviarlo al circo
romano como comida para los leones. Las probabilidades de supervivencia eran 0, 0.01 y 0.001
respectivamente. Cul es la probabilidad de que Ben-hur salga con vida del injusto castigo?
SOLUCIN.
Denotemos por =sobrevivir, 1 =ser crucificado, 2 =ir a galeras y 3 =ir al
circo.
Como vemos, hay 3 opciones, que son 1 , 2 y 3 . Adems, si ocurre una no ocurre
ninguna de las otras. Por lo tanto, se verifica que 1 2 3 = y son sucesos incompatibles.
Tenemos entonces un sistema completo de sucesos.
Recordad que lo que hacemos es ver si ( ) + ( ) + ( ) = , y que los sucesos
no puedan ocurrir simultaneamente.

Adems, sabemos que (/1 ) = 0, (/3 ) = 0.01 y (/2 ) = 0.001

Entonces, la probabilidad de que un preso salga con vida de semejante trance es


() = (/1 ) (1 ) + (/2 ) (2 ) + (/3 ) (3 )
1 1 1
= 0 + 0.01 + 0.001 = 0.0036.
3 3 3

pg. 130
Estadstica fcil con hoja de clculo

PROBLEMA 6
En la primera Semana Santa de la historia, los herejes soldados romanos que vigilaban
a Jess en la cruz decidieron jugarse la sbana a los dados. Lanzaban 3 dados y ganaba el que
mayor nmero consegua (sumando los tres dados). Como uno de los soldados, Montorus
Bellacus, quera regalarle la sbana a su mujer por su cumpleaos, decidi cambiar, en su
turno, los dados por unos propios en los que el 6 sala con probabilidad 1/2. Su jugada fue 1-
6-6. El siguiente en tirar fue el soldado Monederus, quien, a pesar de la dificultad de superar
la jugada, exclam:"Montorus, no te tengo miedo", y lanz los dados. Cuando los dados iban
a caer al suelo, se oy un gran trueno y la noche se impuso sobre el da. Se escuch una voz
"padre, perdnalos, porque no saben estadstica". Aprovechando la oscuridad, el centurin
Longinus escondi la sabana en su bolsa y se fue con ella. 15 Cul es la probabilidad de que
Monederus le hubiese ganado a Montorus?
SOLUCIN.
Para ganarle a Montorus, tena que salir una combinacin 6 6, donde sea un
1 3
nmero mayor que 1. La opcin 6-6-6 tiene probabilidad , y cada una de las otras 4 opciones
2
1 2 1
x-6-6 (con x=2,3,4 o 5) tiene probabilidad (en un dado trucado, el 6 sale con
2 10
probabilidad 1/2, por lo tanto el resto de nmeros del 1 al 5 salen con probabilidad 1/10).
Ahora bien, para cada nmero x, podemos obtener, al lanzar los 3 dados: x-6-6 o 6-x-6
o 6-6-x, es decir hay 3 posibilidades.
Por lo tanto, la probabilidad total ser

1 3 1 2 1
+43 = 0.425.
2 2 10

15
lo que le sucedi despus se puede ver en la pelcula "La tnica sagrada".
pg. 131
Estadstica fcil con hoja de clculo

PROBLEMA 7
Una hermandad sevillana est preocupada porque se moje la virgen en la procesin
de semana santa. El instituto meteorolgico les dice que la probabilidad de llover el jueves
santo es 0.5, exctamente igual que la probabilidad de que llueva el viernes santo y de que
llueva el sbado santo. Teniendo en cuenta que esta hermandad saca a pasear a la virgen los
3 das cul es la probabilidad de que la virgen se moje?
SOLUCIN.
( ) = () + () + () ()
() () () ()
() +
+() () () =

1 1 1 1 1 1 1 1 1
= + +
2 2 2 2 2 2 2 2 2
1 1 1 7
+ = = 0.875
2 2 2 8

PROBLEMA 8
Cleopatra se acuesta con Marco Antonio el 30 por ciento de las veces, con Craso el 60
por ciento, y el 10 por ciento restante con alguno de los criados. La probabilidad de que se
quede embarazada de Marco Antonio es 0.9, de Craso es 0.75 y de los criados 0.5. Tras la
amenaza de su marido Cesar de mandarla ejecutar, Cleopatra promete dejarse de tonteras y
no volver a serle infiel. Una noche, un criado observa a Cleopatra saliendo a escondidas de su
habitacin para ir a un cuarto oscuro. Tras una temporada, aparece embarazada. Cul es la
probabilidad de que se hubiera acostado con Craso (sabiendo que el hijo no puede ser de
Cesar, porque es estril)?
SOLUCIN.
Definimos los sucesos:
1 =acostarse con Marco Antonio,
pg. 132
Estadstica fcil con hoja de clculo

2 =acostarse con Craso,


3 =acostarse con algn criado,
=quedarse embarazada.
Las probabilidades que sabemos son:
(1 ) = 0.3, (2 ) = 0.6, (3 ) = 0.1. Como vemos, las probabilidades suman 1,
luego estos 3 sucesos (que adems son incompatibles, porque el enunciado no habla para nada
de camas triples) forman un sistema completo de sucesos.
Tambin sabemos que (/1 ) = 0.9, (/2 ) = 0.75, (/3 ) = 0.5.
Mesalina se ha quedado embarazada, y queremos calcular la probabilidad de que haya
podido acostarse con Craso. Tenemos que calcular la probabilidad condicionada (2 /). Por
el teorema de Bayes:

(/2 ) (2 )
(2 /) = =
(/1 ) (1 ) + (/2 ) (2 ) + (/3 ) (3 )

0.75 0.6
= = 0.584.
0.9 0.3 + 0.75 0.6 + 0.5 0.1

PROBLEMA 9
En el circo, el 50 por ciento son gladiadores, el 30 por ciento cristianos y el 20 por
ciento presos comunes. Un 10 por ciento de los gladiadores sobrevivan a los juegos, mientras
que tan solo sobrevivan un 0.5 por ciento de los cristianos y un 1 por ciento de los presos
comunes. Demetrius iba paseando por la via apia cuando fue detenido al confundirlo un
centurin con un antiguo enemigo. Tras recibir el tpico tratamiento de moda en la poca,
llamado tormento, es enviado al circo. All le dicen al vigilante que lo introduzca en
cualquiera de las tres mazmorras donde estn separados gladiadores, cristianos y presos
comunes. Cul es la probabilidad de que salga sano y salvo de los juegos de ese ao?
SOLUCIN.

Definimos los sucesos =salir sano y salvo, 1 =ir a la mazmorra de los gladiadores,
2 =ir a la mazmorra de los cristianos y 3 =ir a la mazmorra de los presos comunes. Este
es otro ejemplo donde los sucesos son incompatibles y la suma de probabilidades da uno. Por
lo tanto, forman un sistema completo de sucesos.

pg. 133
Estadstica fcil con hoja de clculo

Los datos que tenemos son: (1 ) = 0.5, (2 ) = 0.3, (3 ) = 0.2. Por otro lado,
(/1 ) = 0.1, (/2 ) = 0.005, (/3 ) = 0.1. Entonces
() = (/1 ) (1 ) + (/2 ) (2 ) + (/3 ) (3 ) =
= 0.1 0.5 + 0.005 0.3 + 0.1 0.2 = 0.0715.

PROBLEMA 10
Todos conocemos la famosa frase Roma no paga a traidores, que dijo el cnsul
Escipin, cuando fueron a pedir su dinero los traidores que mataron a Viriato mientras dorma.
Por ello, despus de que Judas traicion a Jess, los romanos lo estaban buscando
para que devolviera las 30 monedas, pero Judas se haba gastado 10 monedas en mujeres de
mala vida. Las otras 20 se las haba robado un griego aprovechando que dorma la mona. Como
los griegos ya tenan fama por aquella poca de no devolver las deudas, los romanos deciden
considerar las tres estrategias ms habituales en poca de pax romana para recuperar sus
20 monedas:
, enviar matones a la casa del griego, para amenazarlo y escribir cosas en el portal, del estilo
paga la deuda, primer aviso. Este tipo de estrategia consegua su objetivo el 90 por ciento
de las veces.
, enviarle unos testigos de Jehov para que lo volvieran loco, intentando que se convirtiese.
Esta estrategia consegua su objetivo el 60 por ciento de las veces.
, soltarle una serpiente venenosa trada directamente de Egipto. Esta ltima tctica
funcionaba el 70 por ciento de las veces.
El porcentaje de uso de cada mtodo era: el el 50 por ciento, el el 35 por ciento y
el el 15 por ciento de las veces.
Finalmente, el griego devolvi las 20 monedas. Cul es la probabilidad de que le
aplicaran el mtodo ?
SOLUCIN.
Las probabilidades que nos dan, para cada uno de los tres mtodos, son:
() = 0.5, () = 0.35, () = 0.15. Como vemos, las probabilidades suman 1,
luego estos 3 sucesos (que son incompatibles, entendiendo que no se aplican dos a la vez)
forman un sistema completo de sucesos.
Tambin sabemos que las probabilidades de =xito, dependiendo del mtodo
empleado, son (/) = 0.9, (/) = 0.6, (/) = 0.7.
Nos piden (/). Por el teorema de Bayes:

(/) ()
(/) = =
(/) () + (/) () + (/) ()

0.9 0.5
= = 0.588.
0.9 0.5 + 0.6 0.35 + 0.7 0.15

PROBLEMA 11
Un noble romano acaba de recibir una herencia y desea invertir en esclavos griegos o
en deuda de la pennsula de Iberia. Solicita un informe a tres asesores para que se pronuncien
de forma favorable o desfavorable a la compra. Por experiencias anteriores en operaciones
similares, se sabe que los tres asesores tienen actitudes ante el riesgo diferente e
independiente. Esta situacin se refleja en las probabilidades de aconsejar la compra de

pg. 134
Estadstica fcil con hoja de clculo

esclavos griegos, que son respectivamente 0.8, 0.5 y 0.3 (frente a comprar deuda de la
pennsula ibrica).
Con esta informacin calcular:
a) La probabilidad de que al menos uno de ellos aconseje la compra de esclavos
griegos.
b) La probabilidad de que ninguno de ellos aconseje comprar esclavos griegos.
SOLUCIN:
Se definen los siguientes sucesos:
A= El asesor A aconseja la compra de esclavos griegos.
B= El asesor B aconseja la compra de esclavos griegos.
C= El asesor C aconseja la compra de esclavos griegos.
Las probabilidades son:
() = 0.8, () = 0.5, () = 0.3
a) Con las definiciones anteriores, representa el suceso al menos uno de los
tres aconseja la compra de esclavos griegos, cuya probabilidad se calcula utilizando:
( ) = () + () + () ( ) ( ) ( ) + ( )
Como los sucesos son mutuamente independientes, estas probabilidades son:
( ) = () () = 0.4
( ) = () () = 0.24
( ) = () () = 0.15
( ) = () () () = 0.12
Entonces
( ) = 0.8 + 0.5 + 0.3 0.4 0.24 0.15 + 0.12 = 0.93
b) La probabilidad de que ninguno de los tres aconseje la compra es
( ) = ( ) = 1 ( ) = 1 0.93 = 0.07

PROBLEMA 12
El despertador de arena de Jess no funciona muy bien, pues el 20% de las veces no
suena. Cuando suena, Jess llega tarde a trabajar el carpintero con probabilidad 0.2, pero si
no suena, la probabilidad de que llegue tarde es 0.9.
a) Determina la probabilidad de que llegue temprano.
c) Jess ha llegado tarde al trabajo. Cul es la probabilidad de que haya sonado el
despertador
SOLUCIN:
Sean los sucesos = el despertador de Jess suena y = Jess llega tarde a trabajar.
Tenemos que () = 0.8, (/) = 0.2 y (/) = 0.9.
a) La probabilidad de llegar tarde es () = (/). () + (/). () = 0.2.
0.8 + 0.9. 0.2 = 0.16 + 0.18 = 0.34. Entonces la probabilidad de que llegue temprano es 1
() = 1 0.34 = 0.66
c)

(/)() 0.2 0.8


(/) = = = 0.47

(/) () + (/) () 0.34

PROBLEMA 13
En una cierta familia noble romana, famosa por los matrimonios entre parientes
prximos, el 40 por ciento son idiotas, y el 50 por ciento come papeles. Los estadistas han

pg. 135
Estadstica fcil con hoja de clculo

comprobado que, cuando ven a uno comiendo papeles, la probabilidad de que sea idiota es
0.8. Cul es la probabilidad de que un idiota no coma papeles?
SOLUCIN:
= ser idiota ,
= comer papeles .
Nos dicen que () = 0.4, () = 0.5 y (/) = 0.8.
Como (/) = ( )/(), tenemos que ( ) = () (/) = 0.5
0.8 = 0.4.
Nos piden ( /).
( ) ( )(/ ) (1 0.5) (/ )
( /) = = =
() () 0.4
Necesitamos calcular (/ ).
( ) ( )
(/ ) = 1 ( / ) = 1 =1 .
( ) 0.5
( ) podemos calcularlo como (leyes de Morgan):
( ) = = 1 ( ) =
= 1 [() + () ( )] = 1 [0.4 + 0.5 0.4] = 0.5.
0.5
Obtenemos pues que (/ ) = 1 = 0, con lo que ( /) = 0.
0.5
Tambin puede hacerse con la tabla (es mucho ms facil) (igual que hacerlo con un
diagrama de rbol)
(come papeles) (No come papeles) Totales (%)
(idiota) 0.8 50 = 40 40
(no idiota)
Totales (%) 50 100
Rellenamos los huecos:
(No come papeles) Totales (%)
(come papeles)
(idiota) 40 0 40
(no idiota) 10 50 60
Totales (%) 50 50 100
En la tabla vemos directamente que la probabilidad pedida es
( ) 0
(/ ) = =

( ) ( )

pg. 136
Estadstica fcil con hoja de clculo

PROBLEMAS CURIOSOS

Tomados prestados del libro de Paulos (1990)

PROBLEMA 14
Supongamos que la probabilidad de un sueo proftico sea de 1/10.000 (muy poco
frecuente). Entendemos por sueo proftico aquel donde alguien suea con su ta y la ve
muriendo en un accidente de coche, y efectivamente muere en accidente de coche, etc. En
una poblacin con 10 millones de personas adultas, cuntas tendrn al menos un sueo
proftico al ao?
SOLUCIN
Segn suponemos en el enunciado (pueden hacerse las cuentas con otro nmero ms
pequeo si se quiere), la probabilidad de que un sueo no sea proftico es muy grande:
9.999/10.000.
Por consiguiente, la probabilidad de que una persona tenga al menos un sueo proftico
al cabo de un ao es 1 ( ) =
9999 365
=1 = 1 0.9999365 = 1 0.9641 = 0.0359.
10000
Supongamos una poblacin con 10 millones de adultos. Cada uno de ellos tiene
probabilidad 0.0359 de tener al menos un sueo proftico al ao. Es decir, el 3.59 por ciento de
los adultos (que son 3.590.000 adultos) tendrn al menos un sueo proftico al ao.

pg. 137
Estadstica fcil con hoja de clculo

PROBLEMA 15
Supongamos las siguientes probabilidades:
Probabilidad de no morir en un accidente de automvil = 0.99
Probabilidad de no morir en un accidente domstico = 0.98
Probabilidad de no morir de enfermedad pulmonar = 0.95
Probabilidad de no morir por causa de enfermedad mental = 0.90
Probabilidad de no morir por cncer = 0.8
Probabilidad de no morir a causa del corazn = 0.75.
Cul es la probabilidad de morir por alguna de esas causas (suponemos las causas
independientes)?
SOLUCIN.
Como vemos, la probabilidad de morir por una concreta de esas causas es bastante
pequea. De hecho, la ms grande es morir a causa del corazn, que es 0.75.
Si llamamos =morir de la causa , nos piden
(1 2 6 ) = 1 (
1 2 6 ) =
1 [(1 2 6 )] =
= 1 (1 ) (2 ) (6 ) =
= 1 (0.99 0.98 0.95 0.9 0.8 0.75) = 1 0.4977 = 0.5023
Vemos que la probabilidad de morir por alguna de las causas es mayor que una entre
dos.

pg. 138
Estadstica fcil con hoja de clculo

En ocasiones, es til asociar un nmero a cada resultado de un experimento aleatorio.


Por ejemplo:
En el experimento aleatorio lanzar una moneda 3 veces, podemos considerar la
variable =nmero de caras. tomar los valores 0,1,2,3.
En el experimento aleatorio elegir un enfermo al azar de un hospital, podemos
considerar las variables =peso en kilos, =estatura en metros, =temperatura...
Una variable que asocia a cada resultado de un experimento aleatorio un nmero recibe
el nombre de variable aleatoria.
Definimos Rango o soporte de la variable aleatoria al conjunto de todos los posibles
valores de la variable. En funcin de su rango, una variable aleatoria puede ser:
Discreta: su rango es un conjunto finito o infinito numerable 16 de valores.

16
Un conjunto infinito numerable es aquel que tiene tantos elementos como el conjunto de los
nmeros naturales. Los nmeros naturales son 1,2,3,... y hasta infinito. Entre cada 2 nmeros
consecutivos no hay ningn otro. Este conjunto se dice que es infinito pero numerable, por
contraposicin a otros conjuntos tambin con infinitos elementos, pero con diferente forma, como puede
ser un intervalo de nmeros reales: por ejemplo, [0,1]. Dentro de este intervalo estn todos aquellos
nmeros entre el 0 y el 1, y con tantos decimales como queramos. Evidentemente hay infinitos nmeros
pg. 139
Estadstica fcil con hoja de clculo

Continua: : el rango es un intervalo de nmeros reales.


Ejemplo: la variable Altura de personas. Rango=[0,2.5].
Ejemplo: la variable nmero de hijos de una pareja. Rango={0,1,2,}. Es un caso de una
variable discreta que toma un conjunto infinito numerable de valores (porque no sabemos
dnde termina el conjunto; otra cuestin es que la probabilidad de cada valor vaya
paulatinamente disminuyendo, pero de eso hablaremos en breve).

VARIABLES ALEATORIAS DISCRETAS

Una variable aleatoria discreta est definida por los valores que toma y sus
probabilidades, las cuales debern sumar 1.

( = )
1
2

donde las probabilidades 1 +. . . + = 1.
Esta tabla se conoce como ley de probabilidad, distribucin de probabilidad, funcin
de probabilidad o funcin de masa de probabilidad. Grficamente, se representa con un
diagrama de barras (ver las Figura 56 y Figura 57).

EJEMPLO 36
Cuando realizamos el experimento aleatorio lanzar un dado, podemos considerar la
variable = si el resultado es par, y si es impar. Su ley de probabilidad es
( = )
1/2
1/2

EJEMPLO 37
Cuando realizamos el experimento aleatorio elegir un nmero al azar entre y ,
la variable aleatoria =valor que se observa se llama variable uniforme discreta. Su funcin
de probabilidad aparece dibujada en la Figura 56 (para = ). Esta variable es la
correspondiente a cualquier juego o sorteo equiprobable, como jugar a la ruleta (sale un
nmero entre 1 y 36), jugar a una lotera (sale un nmero entre los que se jueguen), etc.

Figura 56

tambin, pero entre cada dos podemos escribir tantos como queramos.

pg. 140
Estadstica fcil con hoja de clculo

FUNCIN DE DISTRIBUCIN

Es la funcin que asocia a un punto la probabilidad acumulada hasta ese punto:


() = ( ).
En el caso de una variable discreta,

() = ( = 1 ) + ( = 2 ) + + ( = ) = ( = ),
=1
siendo todos los , es decir, es la suma de las probabilidades de aquellos puntos menores
o iguales al valor .

En la Figura 57 podemos ver la ley de probabilidad y la funcin de distribucin de una


variable discreta .

Figura 58
Figura 57

La funcin de distribucin es, como vemos, una funcin escalonada que, en cada valor
, aumenta el valor correspondiente de la probabilidad en ese punto ( ). Es, por lo tanto, una
funcin no decreciente que siempre vara entre 0 y 1. Matemticamente, la funcin de
distribucin para la variable general que aparece en la Figura 57 se escribe de la forma:

pg. 141
Estadstica fcil con hoja de clculo

0 < 1
[1 , 2 )
1
1 + 2 [2 , 3 )
() =
+ +. . . + [ , )
1 2 +1


1
donde, como vemos, en los puntos , en los que precisamente la funcin no es continua (hay
un salto), a ( ) se le asigna el valor inmediatamente superior; por eso escribimos 1 +
2 +. . . + si [ , +1 ). En el punto +1 ya le damos el valor siguiente:
(+1 ) = 1 + 2 +. . . + + +1 = ( ) + +1 .

EJEMPLO 38
En las fiestas de Berlusconi se ha ido anotando el nmero de personas que se mete
en la misma cama en el mismo momento. Las frecuencias observadas se presentan en la
siguiente tabla:
N de personas 2 3 4 5 6 7 8
Frecuencia relativa 0.01 0.08 0.25 0.32 0.28 0.05 0.01
Dado que el nmero de fiestas observado ha sido muy grande, podemos considerar
las frecuencias relativas anteriores como probabilidades, disponiendo as de la distribucin de
la variable aleatoria =Nmero de personas en la misma cama.
a) Obtener y representar las funciones de masa de probabilidad y de distribucin.
b) Acaba de llegar a la mansin el Papa buscando a Berlusconi para darle un recado,
pero Berlusconi est encamado. El Papa est mayor y le puede dar un infarto si ve ms de
cuatro personas en la misma cama. Cul es la probabilidad de que el Papa regrese sano y
salvo al Vaticano?
SOLUCIN.
a) Construimos una columna sumando las probabilidades para obtener la funcin de
distribucin.
( = )
2 0.01 0.01
3 0.08 0.09
4 0.25 0.34
5 0.32 0.66
6 0.28 0.94
7 0.05 0.99
8 0.01 1

Para escribir de forma correcta la funcin de distribucin nicamente hay que tener en
cuenta las discontinuidades en los puntos de la variable .

0 <2
0.01 [2,3)

0.09 [3,4)

0.34 [4,5)
() =
0.66 [5,6)
0.94 [6,7)
0.99 [7,8)
1 8.
pg. 142
Estadstica fcil con hoja de clculo

Las grficas de la funcin de masa de probabilidad y de la funcin de distribucin


aparecen dibujadas en la Figura 59.

Figura 59

b) La probabilidad que tenemos que calcular es ( 4) = (4), que, sin ms que


buscar en la tabla de la funcin de distribucin, vemos que es 0.34.

VARIABLES DISCRETAS INFINITAS NUMERABLES.

Las variables discretas pueden tomar un conjunto infinito de valores, siempre que este
sea numerable. Por ejemplo, la variable =nmero de hombres con los que podra yacer
Mesalina (la mujer del emperador Claudio) toma los valores = 1,2,3. .. Lgicamente, la
probabilidad de tomar un valor deber ir disminuyendo de alguna forma, puesto que debe
verificarse siempre que la suma de probabilidades =1 ( = ) sea 1 (y no hay ningn ser
humano catalogado a da de hoy como capaz de infinitos encuentros amorosos incluyendo a
Lisa Sparxxx 17 , que se sepa).

EJEMPLO 39
Un francotirador de los Navy Seals pide la baja para dedicarse a disparar en las
barracas de feria, y es sustituido por el soldado Mag, que tiene varios miles de dioptras en
cada ojo. La probabilidad de que acierte a un blanco a 20 metros es solo de 1 entre 100.
Consideremos la variable aleatoria =nmero de disparos hasta que acierte. Vamos a
calcular la ley de probabilidad de .
SOLUCIN.
Tenemos que toma el valor 1 con probabilidad 1/100.
Si = 2, quiere decir que falla en la primera y acierta en la segunda, es decir
99 1
( = 2) = .
100 100

17
Buscadla en la Wikipedia
pg. 143
Estadstica fcil con hoja de clculo

De manera general, si = , quiere decir que


falla en los 1 primeros intentos y acierta en el ,
luego la probabilidad
99 1 1
( = ) = .
100 100
Puede comprobarse que

99 1 1
=1
100 100
=1

VARIABLES CONTINUAS

Una variable aleatoria continua es aquella que puede tomar cualquier valor (al menos
tericamente) entre 2 fijados. Los valores de la variable (al menos tericamente) no se repiten.
Ejemplos: =Tiempo observado al recorrer una cierta distancia, estatura, peso, nivel de
colesterol en sangre.... Todas las precisiones realizadas en el captulo de variables estadsticas
son igual de adecuadas en este caso. Cuando observamos valores de una variable aleatoria
continua, existe una limitacin en cuanto al nmero de valores que puede tener la misma. Esto
es, en la prctica, la variable no puede tomar infinitos valores. A la hora de medir el peso o la
estatura, por ejemplo, se trabaja con un nmero preciso de decimales (que puede ser grande
pero nunca ser infinito). Lo que se est haciendo es lo que se llama una discretizacin a la hora
de tomar datos. Sin embargo, desde un punto de vista matemtico, consideraremos siempre
que una variable continua puede tomar infinitos valores. Esto nos permitir trabajar con
propiedades matemticas que nos aportarn mucha informacin de la variable considerada.

FUNCIN DE DENSIDAD

Las variables aleatorias continuas vienen caracterizadas por una funcin que se llama
funcin de densidad, que es una generalizacin de la funcin de masa de probabilidad. Esta
funcin (real, de variable real), debe verificar que

() 0 en cualquier valor de (el dibujo de la funcin debe estar por encima


del eje horizontal) y

la integral () = 1 (el rea bajo la curva y el eje horizontal vale uno),
como vemos en la Figura 60.

El concepto de funcin de densidad surge de la generalizacin del polgono de


frecuencias. En el captulo de estadstica descriptiva vimos que el polgono de frecuencias
consiste simplemente en unir los puntos medios de las barras superiores de los rectngulos, en
el histograma de frecuencias, y comprobbamos que el rea encerrada por el histograma o el
polgono de frecuencias es 1 (considerando frecuencias relativas).

pg. 144
Estadstica fcil con hoja de clculo

Figura 60

Supongamos que realizamos una encuesta entre 50 personas y les preguntamos


el sueldo anual. A continuacin realizamos la misma encuesta, pero a 100 personas. Con
los resultados obtenidos podramos construir histogramas y polgonos de frecuencias
como los de la Figura 61.

Figura 61

pg. 145
Estadstica fcil con hoja de clculo

Figura 62

Cada vez que realizamos la encuesta, estamos tomando datos de la misma variable
continua (sueldo anual). Si tomamos muestras ms grandes, los histogramas (y el polgono de
frecuencias) se van a ir perfilando o dibujando una funcin continua. Por ejemplo, en la
Figura 62 vemos dos posibles dibujos para muestras de tamao 250 y 1000.

Supongamos ahora que tomamos sucesivamente diferentes muestras, de la misma


variable (sueldo), cada vez con mayor nmero de datos. A medida que aumenta, el nmero
de intervalos al realizar un histograma (o polgono) de frecuencias tambin crece. La lnea del
polgono de frecuencias se va dibujando con segmentos cada vez ms pequeos, que acaban
definiendo una funcin matemtica con alguna frmula especfica (Figura 63).

Figura 63

La frmula exacta de la funcin se corresponder con alguna de las muchas funciones


de densidad que han sido definidas a lo largo de los tiempos (muchas de ellas tienen nombre
pg. 146
Estadstica fcil con hoja de clculo

propio, como la exponencial, la normal, la uniforme, o el nombre de su(s) autor(es), como la t


de Student, la F de Fisher, etc.).

Una vez expuesto que, en una variable aleatoria continua, las propiedades de la misma
vendrn descritas por la funcin de densidad, indiquemos que las probabilidades se calcularn
como una integral definida:
2
(1 2 ) = (),
1
que corresponde al rea bajo la curva entre los valores 1 y 2 (Figura 64).

Figura 64

En el caso de una variable aleatoria continua, la probabilidad de cualquier punto


concreto es cero, porque no hay rea bajo la curva:

( = ) = () = 0.

Esto puede sonar un poco raro, al principio. Si hablamos, por ejemplo, de la variable
altura, nos podemos preguntar: cul es la probabilidad de medir 1.72?. Segn lo que
acabamos de decir, la probabilidad de un punto es cero. Qu sucede? Pues que, como dijimos
antes, en la prctica realizamos una discretizacin de la variable continua altura. La pregunta
matemticamente correcta sera: Cul es la probabilidad de tener una estatura entre 2 valores
1 y 2 ? En funcin de la precisin que estemos utilizando, cogeremos 1 y 2 muy cercanos a
1.72. Esa probabilidad es la probabilidad de un intervalo (por pequeo que sea), y esa
probabilidad s ser un nmero ms grande que cero.
Precisamente por este hecho, cuando calculemos la probabilidad de que una variable
continua tome valores entre dos nmeros y , tendremos que
( < < ) = ( < ) = ( ) = ( < ),
o sea, todas esas probabilidades dan lo mismo, porque considerar un punto ms no cuenta (al
tener probabilidad cero). Esto va a venir muy bien cuando se hagan ejercicios de variables
continuas, porque la probabilidad de equivocarse ser cero.

pg. 147
Estadstica fcil con hoja de clculo

FUNCIN DE DISTRIBUCIN.

La funcin de distribucin tiene el mismo significado para una variable aleatoria


continua que para una discreta, y es la probabilidad acumulada hasta un punto . Como el
equivalente continuo de una suma es la integral, la funcin de distribucin se calcular como:

() = ( ) = (),

que corresponde al rea acumulada, bajo la funcin de densidad , desde hasta el valor
. Grficamente, podemos verlo en la Figura 65. En esta figura en concreto, la funcin toma
valores mayores que cero a partir de 4, por lo que el area desde hasta cualquier valor

Figura 65
se convierte en el rea desde 4 hasta .
La funcin de distribucin, matemticamente, ser una funcin no decreciente que vara
entre 0 y 1. Al contrario que en el caso de una variable discreta, la funcin de distribucin de
una variable continua es una funcin continua. Por ltimo, indicar que, debido a que la funcin
de distribucin se calcula como la integral de la funcin de densidad, sta ltima es la derivada
de la funcin de distribucin:
() = (),
de manera que si, para una variable continua, conocemos su funcin de distribucin, no hay ms
que derivarla para obtener la funcin de densidad.

EJEMPLO 40
En una antigua empresa pblica privatizada por el gobierno, el sueldo mensual, en
miles de euros, que cobran los polticos consejeros de la empresa (slo por ir a sentarse) est
representado por una variable aleatoria continua con funcin de densidad

<

() = ( ) .
<


pg. 148
Estadstica fcil con hoja de clculo

Determinar la funcin de distribucin.


SOLUCIN.
La funcin de densidad tiene la siguiente grfica.

Matemticamente, la funcin de distribucin se escribe:



0 = 0 < 0
0 + = 1 2 0 < 2
() = 0 4 8
2 + 4 = 1 1 2 + 3 2 < 4
0 4 2 4 2 8 2
1 > 4

Grficamente, tiene la forma de la Figura 66.

Figura 66

Nota: como este tipo de ejercicios no pueden realizarse con Excel, no hacemos ninguno ms.
Podis encontrar unos cuantos en cualquiera de mis otros dos libros.

Igual que en el caso de variables estadsticas, para las variables aleatorias se pueden
definir medidas de centralizacin, dispersin y forma. Las ms utilizadas son el valor medio o
esperanza (generalizacin de la media aritmtica) y la varianza (o su raiz cuadrada la desviacin
tpica). Tambin podemos definir y calcular los mismos parmetros que hemos visto en variables
estadsticas: mediana, cuartiles, moda, coeficiente de simetra, curtosis, etc., y el significado de
pg. 149
Estadstica fcil con hoja de clculo

los mismos coincide con el definido en cada caso. Vamos a ver como se calculan los parmetros
ms utilizados.

ESPERANZA DE UNA VARIABLE ALEATORIA

Es la generalizacin de la media aritmtica. Tambin se llama valor medio, valor


esperado o esperanza matemtica, y se representa por la letra griega .
Si es una variable aleatoria discreta (representada, de manera general, por una tabla
de valores y probabilidades = ( = )), la esperanza se calcula como la media aritmtica
de los valores, es decir la suma de los valores por sus probabilidades (las probabilidades seran
las frecuencias relativas).

= () = .
=1
Recordemos que la media aritmtica de una variable estadstica se defini como
1 + 2 +. . . +
= ,

que, obviamente, sera equivalente a escribir

1 1
= = ,

=1 =1
es decir, sera la esperanza de una variable cuyos valores aparecen todos con la misma
probabilidad = 1/. Si a una variable estadstica la representamos por sus valores , y sus
frecuencias relativas son = /, entonces la media aritmtica se puede escribir como

= ,
=1
es decir, suma de valores por frecuencias. En el caso de una variable aleatoria, las frecuencias
se transforman en probabilidades (de ocurrencia). Por eso la esperanza es un valor medio
esperado.
Si es una variable aleatoria continua, la variable toma infinitos valores. Como vimos
en la funcin de distribucin, el equivalente continuo de la suma es la integral. La frmula
matemtica incluye en este caso a la funcin de densidad:

= () = ().

Nota. Puede ocurrir, tanto en variables discretas como continuas, que el valor que se obtenga al
calcular la esperanza sea un nmero que tiende a infinito. En este caso, se dice que la variable
aleatoria no tiene esperanza. Si la variable aleatoria no tiene esperanza, tampoco tiene varianza.
Ms adelante veremos algn ejemplo.

LA VARIANZA

Se representa 2 = (), y la desviacin tpica es la raiz cuadrada (con signo


positivo) de la varianza. Igual que en el caso de variables estadsticas, mide la dispersin de la
variable, y se calcula como la media de las desviaciones (elevadas al cuadrado) de los valores a
su media:

pg. 150
Estadstica fcil con hoja de clculo

2 = () = [( )2 ].
Tambin puede calcularse como
2 = E[ 2 ] 2
Si X es una variable discreta, la forma de hacer los clculos ser

= ( ) = 2 2 .
2 2

=1 =1
Si X es una variable continua,

= ( )2 (),
2

y que, igual que antes, puede calcularse como

2 = 2 () 2 .

EJEMPLO 41
Calcular la media o esperanza de la variable aleatoria del Ejemplo 38 (el de
Berlusconi).
SOLUCIN.
Utilizando la frmula, tenemos que sumar valores por probabilidades:

= () = =
=1
= 2 0.01 + 3 0.08 + 4 0.25 + 5 0.32 + 6 0.28 + 7 0.05 + 8 0.01 = 4.97.
La varianza la calculamos mediante la frmula

() = 2 2 .
=1
Como la media ya la hemos calculado, calculamos el primer trmino (que es igual que
calcular la media de los valores al cuadrado):
=1 2 = 22 0.01 + 32 0.08 + 42 0.25 + 52 0.32 + 62 0.28 + 72
0.05 + 82 0.01 = 25.93.
Por lo tanto, la varianza
() = 25.93 4.972 = 1.22.

PROPIEDADES DE LA ESPERANZA Y DE LA VARIANZA


La media y la varianza de una variable aleatoria poseen las mismas caractersticas o
propiedades vistas para las variables estadsticas unidimensionales, en la seccin
correspondiente . Concretamente, podemos resumir que si
= + , (donde , son nmeros cualesquiera)
() = () + y () = 2 ().

Adems, tenemos que, si sumamos variables independientes (el valor de cualquier


variable no depende de los valores de ninguna otra), la esperanza de la suma es la suma de
esperanzas, e igual ocurre con la varianza:
(1 + 2 +. . . + ) = (1 ) + (2 )+. . . ( ),
(1 + 2 +. . . + ) = (1 ) + V(2 )+. . . ( ).

pg. 151
Estadstica fcil con hoja de clculo

Una generalizacin de estas dos ltimas frmulas es el siguiente resultado: si tenemos


1 , . . . , variables independientes, y nmeros reales 1 , 2 , . . . , , entonces:
(1 1 + 2 2 +. . . + ) = 1 (1 ) + 2 (2 )+. . . ( ),
(1 1 + 2 2 + + ) = 12 (1 ) + 22 (2 )+. . . 2 ( )

EJEMPLO 42
La variable mide el peso de las pizzas sencillas de la marca Parradellos, y tienen
de media 500 gramos y varianza 5. La variable mide el peso de los yogures de la marca
Dadonde, y tiene de media 120 gramos con varianza 2. Manuel y Manuela cenan todos los das
una pizza doble y un yogur y medio. Cul es la media y varianza de la variable que mide el
peso de la cena?
SOLUCIN.
El peso de la cena es = 21 + 1.52 . Por lo tanto () = 2 500 + 1.5 120 = 1180
gramos, y la varianza es () = 22 (1 ) + 1. 52 (2 ) = 4 5 + 2.25 2 = 24.50.

MEDIANA

La mediana es el valor que deja a cada lado el 50 por ciento de la poblacin (la
probabilidad a cada lado es 0.5):
( < ) 0.5 y ( > ) 0.5 si es discreta,
( ) = 0.5 si es continua.

CUANTIL

Es la generalizacin de la mediana. Dado un valor , 0 < < 1, el cuantil es el punto


que deja una probabilidad a su izquierda (Figura 67).
< y > 1 si es discreta,
= si es continua.
Al igual que en el primer captulo, podemos definir:
- los cuartiles, que dividen a la poblacin en 4 partes iguales: 1 es el cuantil 0.25 , 2 es
el cuantil 0.5 o Mediana, y 3 sera el cuantil 0.75 (Figura 68).

- los deciles, que dividen a la poblacin en 10 partes iguales.


- los percentiles, que dividen a la poblacin en 100 partes iguales.

pg. 152
Estadstica fcil con hoja de clculo

Figura 67: cuantil , que deja a la izquierda rea o

MODA

La moda es el valor ms probable o frecuente, es decir, el valor con mayor si


es discreta (el valor que aparece con mayor probabilidad), o el valor que maximiza la funcin
de densidad si es continua. La moda no tiene por qu ser nica. En el caso de una nica
moda se dice que la distribucin es unimodal, y con ms modas multimodal.
Un ejemplo lo vemos en la Figura 68. La variable que posee la funcin de densidad que
vemos en la grfica tiene 2 modas relativas (los valores que hacen mxima la funcin en ciertos
intervalos, y una moda absoluta, sealada en el grfico).

En esta imagen inclumos tambin la posicin de los cuartiles, o valores que dividen la
variable en cuatro partes iguales segn el rea o probabilidad, que aparecen resaltados en el eje
horizontal de la grfica.

Figura 68

OTRAS MEDIDAS

pg. 153
Estadstica fcil con hoja de clculo

Como acabamos de ver, las medidas de posicin se definen de la misma manera que en
el caso de variables estadsticas. Tambin hemos visto que, en el caso de variables discretas, la
dispersin se puede calcular utilizando la varianza o desviacin tpica, teniendo el mismo
significado.
De la misma forma, se pueden definir el resto de medidas que veamos en el primer
captulo: coeficiente de variacin, rango, recorrido intercuartlico, as como el coeficiente de
asimetra y el coeficiente de curtosis.
El coeficiente de asimetra se define como:
( 3 )
1 =
3
y el coeficiente de curtosis como
( 4 )
2 = 3.
4
Las esperanzas ( 3 ) y ( 4 ) se calculan de modo anlogo a lo visto anteriormente.
De manera general, podemos definir, como en el caso de las variables estadsticas, los
momentos de una variable aleatoria.

MOMENTOS

Los momentos de una variable aleatoria X son los valores esperados de ciertas funciones
de X, ().
Si consideramos () = tendremos los momentos respecto al origen
= ( )
Si consideramos () = ( ) tendremos los momentos respecto a la media
o momentos centrales
= (( ) )

MOMENTOS RESPECTO AL ORIGEN

Dependiendo de que la variable aleatoria sea discreta o continua, los momentos se


calcularn de diferente manera. As, si X es discreta:
=

Si es continua:

= ()

Nota. Se verifica que, si existe el momento de orden r, tambin existe el momento de orden s, con
cualquier

MOMENTOS RESPECTO A LA MEDIA O MOMENTOS CENTRALES

Llamando = (), el momento central de orden se define


= [( ) ]

pg. 154
Estadstica fcil con hoja de clculo

De nuevo, en funcin de que la variable aleatoria sea discreta o continua, los momentos
se calcularn de diferente manera. As, si es discreta:
= ( ) .

Si es continua:

= ( ) ().

Nota. Cualquier momento respecto a la media, si existe, se puede calcular en funcin de los
momentos respecto al origen. En la siguiente tabla podemos ver las relaciones existentes entre los
momentos centrales y respecto al origen, de rdenes 2, 3 y 4. Existen relaciones de este tipo (cada
vez se van embrollando ms) para cualquier nmero.

Momento respecto a la media Momentos respecto al origen


2 = (( )2 ) = 2 12
3 = (( )3 ) = 3 31 2 + 212
4 = (( )4 ) = 4 41 3 + 612 2 314

EJEMPLO 43
En la ruleta francesa, la variable considerada sera

( = )
0 1/37
1 1/37

37 1/37

En este caso, la media es


= () = =
=1
36
1 0 + 1 + + 36 666
= = = = 18.
37 37 37
i=0
Como podemos ver, la esperanza de la variable sera el valor medio esperado despus
de infinitos movimientos de la ruleta (o media aritmtica de los valores que van saliendo). Desde
un punto de vista prctico, no tiene mayor inters.

pg. 155
Estadstica fcil con hoja de clculo

Tiene mucho ms inters el considerar la variable =ganancia al apostar. Cuando se


apuesta 1 unidad a un nmero, se ganan 35 unidades con probabilidad 1/37 si sale ese nmero.
Si no sale ese nmero, se pierde 1 (o se gana 1) con probabilidad 36/37. Sera una variable
cuya ley de probabilidad viene dada por esta tabla
( = )
35 1/37
1 36/37

Si calculamos el valor medio:


1 36 1
= () = 35 + (1) = .
37 37 37
Vemos que tiene valor medio (o ganancia media) negativa, es decir, que en muchas
jugadas el jugador sale perdiendo (o la casa gana). Eso es debido a que existe el cero, al cual no
se puede apostar, pero si sale, gana la casa. Si no existiera el cero, la media o esperanza es 0 (y
eso se denomina juego equitativo).

USO DE EXCEL

En este captulo, utilizaremos la plantilla momentos-variables-aleatorias.xlsx para el


clculo de momentos de una variable aleatoria discreta. Como podemos intuir, esta plantilla no
es ms que una generalizacin de la llamada tabla-frecuencias.xlsx, que se ha utilziado en el
captulo primero, para calcular momentos en una variable estadstica.
As, por ejemplo, si queremos calcular los momentos o medidas ms comunes para la
variable aleatoria vista en el Ejemplo 38 (el de Berlusconi), no hay ms que meter los valores de
la variable y sus probabilidades en la primera y segunda columna de la plantilla,
respectivamente. A la derecha de la captura de pantalla tenemos los resultados:

pg. 156
Estadstica fcil con hoja de clculo

EJEMPLO 44
Rendimiento o retorno esperado de un activo (Pieiro y de Llano, 2011): El
rendimiento o retorno de una inversin se mide como la ganancia o prdida de valor
experimentada en un periodo de tiempo determinado. El retorno esperado tiene que ver con
las expectativas que se tiene hacia el futuro, tomando en consideracin los distintos
escenarios de la economa:
( ) =
donde ( ) representa la media o valor esperado del activo ""; es el rendimiento del
activo "" y indica la probabilidad ocurrencia del rendimiento .
La varianza de la inversin se define como:
( ) ( )
Supongamos tres estados posibles de la economa (excelente, bueno y malo), que se
prev que pueden suceder con probabilidad 0.3, 0.6 y 0.1, respectivamente. Supongamos que
los rendimientos de 2 activos 1 y 2 vienen dados por la siguiente tabla
Estado de la Probabilidad Rendimiento del activo Rendimiento del activo
economa 1 2
Excelente 0.3 90 80
Bueno 0.6 75 60
Malo 0.1 40 50
Calcular el rendimiento esperado de cada activo y su varianza.

Los rendimientos esperados son


(1 ) = 90 0.3 + 75 0.6 + 40 0.1 = 76,
(2 ) = 80 0.3 + 60 0.6 + 50 0.1 = 65.

Las varianzas (que miden la dispersin de los rendimientos frente a su media):


Para el activo 1:
12 = (1 (1 ))2 1 =

= (90 76) 2 0.3 + (75 76)2 0.6 + (40 76)2 0.1 = 189
Para el activo 2:
22 = (2 (2 ))2 2 = 105.

EJEMPLO 45
Se lleva a cabo un estudio comparativo de dos frmacos destinados a mantener un
ritmo cardaco constante en pacientes que se agotan cumpliendo sus deberes conyugales
(motivo de un porcentaje muy elevado de roturas matrimoniales). Sea X ella variable aleatoria
que mide el nmero de latidos por minuto registrado mediante la utilizacin del frmaco A e
Y la que mide el nmero de latidos por minuto registrados con el frmaco B. Si las variables
aleatorias X e Y tienen como funciones de probabilidad las que aparecen en la siguiente tabla
X,Y 40 60 68 70 72 80 100

P(X = xi) 0.01 0.04 0.05 0.8 0.05 0.04 0.01

P(Y = yi) 0.4 0.05 0.04 0.02 0.04 0.05 0.4

pg. 157
Estadstica fcil con hoja de clculo

a) Hallar el ritmo cardaco medio para cada frmaco.


b) Cul de los dos frmacos provocar una mayor variacin en el ritmo cardaco de
los pacientes?
c) Decir si las distribuciones son simtricas o asimtricas.
SOLUCIN.
1 = () = 40 0.01 + 60 0.04 + 68 0.05 + 70 0.8 + 72 0.05 +
80 0.04 + 100 0.01 = 70.
2 = ()= 40 0.4 + 60 0.05 + 68 0.04 + 70 0.02 + 72 0.04 + 80
0.05 + 100 0.4 = 70
Vemos que el ritmo cardaco medio es el mismo para cada frmaco.
b) Debido a que las 2 variables tienen la misma media, la mayor variacin la dar aquella
que tenga mayor varianza. Para calcular la varianza, lo mejor es usar la frmula
2 = E[ 2 ] 2
E[ 2 ]= 402 0.01+602 0.04+682 0.05+702 0.8+722 0.05+802 0.04+1002 0.01 = 4926.4
E[ 2 ]= 402 0.4+602 0.05+682 0.04+702 0.02+722 0.04+802 0.05+1002 0.4 = 5630.3
Var(X) = E[ 2 ] 1 2 =4926.4 702 = 26.4
Var(Y ) = E[ 2 ]2 2 = 5630.3 702 = 730.3.
El segundo frmaco es, por lo tanto, el que provoca mayor variacin en el ritmo cardaco.
Si realizamos el ejercicio con Excel, introducimos los datos en las dos primeras columnas
de la plantilla y obtenemos los resultados de la Figura 70 y la Figura 69.

Figura 70

Figura 69
Como vemos en los grficos, el coeficiente de asimetra de ambas variables es cero,
puesto que las dos son simtricas.

Ms ejemplos y problemas (con ejemplos de variables continuas, que aqu no hacemos


ninguno puesto que con Excel no pueden realizarse) en cualquiera de mis otros dos libros
mencionados.

pg. 158
Estadstica fcil con hoja de clculo

pg. 159
Estadstica fcil con hoja de clculo

PUBLICIDAD
Por motivos que todo el mundo podr entender, y dado que los funcionarios hemos sido
sometidos a recortes continuos de sueldo desde el ao 2010, tenemos que financiarnos de la
mejor forma que sepamos. As que ahora tenemos que dedicar un par de pginas a publicidad.
Disculpen las molestias y, si tiene usted un comercio, una zapatera, un chiringuito, o lo que sea,
y quiere darse a conocer, pngase en contacto con el autor de este libro.

El placer de lo imposible intersecado con lo seguro.


Matemticos y ludpatas enfermizos, os esperamos.

Visite Gausslandia. El mayor parque de atracciones mundial para vivir y disfrutar de la


estadstica y las probabilidades:

Mesas de cartas donde podr jugar con o sin reemplazamiento, y quedarse con o sin
dinero.

Ruletas que siguen distintas distribuciones, no slo la uniforme: Poisson, Binomial

Pruebe lo que es la regla de Laplace en toda su extensin: Salas de ruleta rusa en


grupos de 6.
pg. 160
Estadstica fcil con hoja de clculo

Sala de Juegos J. Nash para grupos cooperativos.

Juegos novedosos donde podr perder dinero pero nunca la esperanza.

Habitaciones individuales, grupales y con interseccin si se desea, con aire


condicionado a priori (si usted quiere lo apaga), y mini-bar con nuestra especialidad,
totalmente gratuita: el agua con gaus.

Excursiones organizadas a los Bayes del entorno para recogida de datos.

Elija la montaa rusa con la curva que prefiera (normal, chi-cuadrado, F).

Wifi en todas las salas, con R instalado en linux (nosotros siempre usamos el mejor
software pblico y lo gestionamos de forma privada, que est demostrado que es
ms barato).

Desayuno completo con tartas redondas en donde usted elige los porcentajes por
sector.

T con hiptesis a las cinco, gratuito y de la potencia que desee.

Estadsticos robustos que harn las delicias de nuestras visitantes femeninas.

Y para los ms pequeos, excursiones con R-Man y los X2 -men, que harn las
delicias de los chavales con sus superpoderes estadsticos, convirtiendo todo lo que
tocan en un p-valor.

Barajas de cartas de Black-Jack infinitas numerables, para que usted pueda contar las
cartas si lo desea.

Cafeteras donde se puede fumar y coger cncer, e incluso donde no se puede fumar
pero si coger cncer a posteriori. Calcule usted mismo la probabilidad de que eso
ocurra con nuestras calculadoras gratuitas, y consulte un diagnstico ms preciso
con nuestro especialista, el doctor Jaus.

Con la orquesta de George Bernard Dantzig en directo.

Clientes Premium: curso gratuito de cmo ganar a la lotera con Carlos Fabra. Al final
del curso har una demostracin especial de cmo sacar la pirula y mear en la sede de Izquierda
Unida.
pg. 161
Estadstica fcil con hoja de clculo

En este captulo veremos algunas variables aleatorias discretas notables, con nombre
propio, por su inters especfico para la resolucin de problemas.

VARIABLE DE BERNOULLI

Supongamos un experimento aleatorio que admite slo 2 posibles resultados: xito ()


o fracaso (), que ocurren con probabilidad = () y = 1 , respectivamente. Este tipo
de experimento recibe el nombre de prueba de Bernoulli.
Ejemplos de prueba de Bernoulli: lanzar una moneda. Hay dos posibles resultados. Un
chico le pide a una chica una cita. Hay dos posibles resultados: xito y fracaso.

pg. 163
Estadstica fcil con hoja de clculo

La variable aleatoria con funcin de probabilidad


( = )

recibe el nombre de variable aleatoria de Bernoulli (se escribe ()).

Nota: cuando en matemticas se escucha el nombre Bernoulli, no necesariamente se estn


refiriendo a la misma persona, pero s a la misma familia. Los Bernoulli famosos fueron hasta
nueve miembros de la misma familia, con contribuciones muy importantes a la matemtica, la
fsica y las artes (consultar la Wikipedia). Es decir, como los Jackson en la msica, los Bernoulli
en las matemticas.
Pero en Espaa no somos menos (tenemos a los del Ro, los de la Macarena):

MEDIA Y VARIANZA DE LA VARIABLE DE BERNOULLI

Se obtiene fcilmente que


() = y () = .
Veamos:
() = 0 + 1 = .
() = ( 2 ) 2 = (02 + 12 ) 2 = 2 = (1 ) = .

EJEMPLO 46
La variable que toma el valor cero si sale cara al lanzar una moneda, y uno en caso
contrario.
La variable que toma el valor cero si la chica no acepta una cita, y 1 si la acepta.
EJEMPLO 47
Analizando una persona para saber si tiene una enfermedad. La variable toma el valor
si tiene la enfermedad, en caso contrario. en este caso es la probabilidad de tener la
enfermedad. Obviamente, a tener una enfermedad no se le llamara coloquialmente xito,
pero suele denominarse as a aquel suceso en el que estemos interesados.

pg. 164
Estadstica fcil con hoja de clculo

VARIABLE BINOMIAL

Supongamos que se realizan experimentos de Bernoulli de manera sucesiva, siendo


cada experimento o prueba independiente del anterior (por ejemplo, lanzar veces una
moneda; analizar personas para saber si tienen o no una enfermedad).
La Variable = nmero de veces que ocurre el suceso en las pruebas o nmero
de xitos en pruebas recibe el nombre de variable binomial de parmetros y ( = () =
( en 1 prueba)). Se escribe (, ).
La variable puede tomar los valores 0,1,2, . . . (en pruebas puede haber desde 0
hasta xitos) siendo la probabilidad con que los toma:
!
( = ) = , donde = ,
! ( )!
y recordemos que el factorial de un nmero es ! = ( 1) ( 2) . . . 3 2 1.

MEDIA Y VARIANZA DE LA VARIABLE BINOMIAL

Puede demostrarse que la media y la varianza son:


() = y () = .

Nota: Es conveniente darse cuenta de que la variable Binomial es la suma de variables de


Bernoulli, independientes, esto es:
= 1 + 2 +. . . + ,
siendo la variable que mide si hay xito en la prueba . Claramente, la variable de Bernoulli
es (, ). Por ello, y por las propiedades de la media y la varianza que vimos en el captulo
anterior (la media de una suma es la suma de las medias, y la varianza es la suma de varianzas,
refirindonos siempre a variables independientes), es trivial comprobar que, en efecto, la
esperanza de una variable binomial es y su varianza es , puesto que la esperanza de una
Bernoulli es y su varianza es .

PROPIEDAD ADITIVA

La Variable binomial es reproductiva respecto al parmetro . Esto quiere decir que

pg. 165
Estadstica fcil con hoja de clculo

Si (1 , ) e (2 , ) son 2 variables independientes, la suma +


(1 + 2 , )
(esta propiedad es generalizable a un nmero finito de variables).

EJEMPLO 48
En una poblacin muy grande, el porcentaje de gente que anda con pies de plomo es
del 90 por ciento. Un equipo de televisin del programa Robando Actualidad, capitaneado
por Jualix de la Terna, va a hacer un programa para saber si es que esa poblacin tiene miedo
de algo o es simplemente una moda. Entrevistan a diez personas. Cul es la probabilidad de
que al menos ocho anden con pies de plomo y no quieran responderle?
SOLUCIN.
La variable aleatoria =personas de la muestra seleccionada que andan con pies de
plomo sigue una distribucin binomial de parmetros n=10 y =0.9 (al decirnos que la
poblacin es muy grande, la probabilidad de elegir cada persona de la poblacin es 0.9. Cada
vez que se examina una persona, ocurre el suceso xito tiene pies de plomo con
independencia de que lo tenga cualquier otra persona examinada. As, la variable nmero de
personas de la muestra seleccionada que anden con pies de plomo es equivalente a nmero
de xitos en n pruebas, que es como se define una variable aleatoria binomial.
(n, ), n = 10, = 0.9
Nos preguntan
( 8) = ( = 8) + ( = 9) + ( = 10).
Vamos a calcular esta probabilidad utilizando la plantilla distribucin-binomial.xlsx. Al
abrir la plantilla, lo primero que hacemos es introducir los parmetros n y (a la izquierda), con
lo cual la tabla de probabilidades y de funcin de distribucin se recalcula (y se dibuja la funcin
de masa de probabilidad correspondiente (Figura 71).

Para calcular la probabilidad ( 8) = ( = 8) + ( = 9) + ( = 10) vemos


que estas tres probabilidades estn al final de la segunda columna en la tabla de probabilidades
y que corresponden a 0.19371+0.38742+0.34868=0.92981, que puede calcularse tambin
haciendo ( 8) = 1 ( < 8) = 1 (7) = 1 0.07019.

Figura 71

VARIABLE DE POISSON

pg. 166
Estadstica fcil con hoja de clculo

Antes de definir esta variable, definimos lo que se entiende por proceso de Poisson.

PROCESO DE POISSON

Es un experimento aleatorio que consiste en observar la aparicin de sucesos puntuales


sobre un soporte continuo (tiempo, longitud, superficie... ), de manera que:
El proceso sea estable, es decir, a largo plazo el nmero medio de sucesos (que
denominaremos ) por unidad de medida es constante,
los sucesos ocurren aleatoriamente de forma independiente,
la probabilidad de que un solo resultado ocurra en un intervalo de medida muy corto o
pequeo es la misma para todos los dems intervalos de igual tamao, y es proporcional
a la longitud del mismo o al tamao de medida.

Figura 72: EJEMPLO DE UN PROCESO DE POISSON

Ejemplos: clientes que acuden a un mostrador por unidad de tiempo, llamadas por
unidad de tiempo a una centralita, pelmazos por unidad de tiempo a una tia buena en una
disco, defectos por metro de cable, baches por kilometro cuadrado de autopista...

En un proceso de Poisson, la variable =nmero de sucesos ocurridos en un intervalo


se dice que sigue una distribucin de Poisson de parmetro . Se escribe (). Su
distribucin de probabilidad es

( = ) = , = 0,1,2, . ..
!

El nmero de valores puede llegar hasta infinito. Es un caso de una variable aleatoria
discreta que toma un nmero infinito numerable de valores.
Puede demostrarse que, en efecto, es siempre una ley de probabilidad, es decir las
probabilidades suman 1, independientemente de cunto valga (que tiene que ser mayor que
cero).



=1
!
=0

pg. 167
Estadstica fcil con hoja de clculo

La variable de Poisson es tambin una generalizacin de la variable binomial.


Supongamos que, en un experimento de Bernoulli, el suceso xito tiene una probabilidad =
() muy pequea (se dice que es un suceso raro). Puede demostrarse que si es la variable
(, ), que mide el nmero de xitos en pruebas, y tiende a infinito, puede aproximarse
por una variable de Poisson de parmetro = . Por este motivo, la distribucin de Poisson
tambin es conocida como distribucin de los procesos raros.

( = ) = con = .
si !
En la prctica, no hay que suponer que se realizan muchsimas pruebas. Esta
aproximacin funciona bien si > 30 y < 0.1.

EJEMPLO 49
Supongamos una fbrica que produce elementos en serie (tornillos, radios, coches,
muecas hinchables), siendo la probabilidad de producir un elemento defectuoso un
nmero p muy pequeo (un suceso raro). Para realizar un control de calidad del proceso de
fabricacin, lo lgico es elegir una muestra de elementos, de forma independiente, y contar
el nmero de elementos defectuosos.
La variable =nmero de elementos defectuosos en una muestra de tamao n es
una variable aleatoria binomial de parmetros y . Si es grande y pequeo, podremos
calcular las probabilidades (por ejemplo, de aparecer un nmero concreto de elementos
defectuosos) a travs de la variable de Poisson, que no utiliza nmeros combinatorios (y que
si n es grande puede hasta ser complicado hacer los clculos con ordenador).

MEDIA Y VARIANZA

Se tiene que
() = () = .

pg. 168
Estadstica fcil con hoja de clculo

PROPIEDAD ADITIVA

Al igual que la variable binomial, la variable de Poisson es reproductiva respecto al


parmetro :
Si (1 ) e (2 ) son 2 variables independientes, la suma +
(1 + 2 ) (y esto se puede generalizar a una suma finita de variables).

EJEMPLO 50
En los aos 80 del siglo XX, la probabilidad de encontrar un poltico espaol valiente y
con coraje era de 0.05 (hoy en da el nmero ha descendido prcticamente a cero). Si se
considera una muestra de 350 diputados de aquella poca, cul es la probabilidad de que,
ante una patrulla de guardias civiles disparando al aire y gritando al suelo, coo!, haya 3
que no se tiren al suelo (Surez, Gutirrez Mellado y Carrillo)?
SOLUCIN.
Definimos =xito = ser valiente. = () = 0.05.
=nmero de xitos en 350 pruebas (350,0.05).
Tenemos que calcular la probabilidad de ( = 3). Para esto, en principio, podemos
utilizar la plantilla binomial, como en el ejemplo anterior. Ahora bien, en este caso, al ser >
30 y < 0.1, la variable se puede aproximar por una variable de Poisson de parmetro =
= 350 0.05 = 17.5.
Abrimos entonces la plantilla distribucin-poisson.xlsx, y cambiamos el parmetro del
valor que est puesto por 17.5. Como podemos observar, la probabilidad ( = 3) nos da el
mismo valor de antes (Figura 73).

De hecho, hasta se puede calcular con alguna calculadora decente:


17.53
( = 3) = 17.5 = 2.2429 105 o 0.000022429.
3!

Con lo cual, queda demostrado que el golpe de Tejero estaba destinado al fracaso desde
el principio, porque Tejero empez teniendo muy mala suerte (como vemos era muy difcil que
3 tos no se echaran al suelo, como realmente sucedi). Todos los hechos posteriores fueron
consecuencia de la ley enunciada por un estadstico apellidado Murphy: si algo puede ir mal,
ir mal.

Figura 73

pg. 169
Estadstica fcil con hoja de clculo

EJEMPLO 51
Supngase que el nmero de promesas hechas realidad dichas por el presidente del
gobierno sigue una distribucin de Poisson de media 3 cada 50. Calcular la probabilidad de
que los familiares de un trabajador de la construccin naval no tengan que preocuparse, luego
de un mitin del presidente donde promete empleo a mansalva.
SOLUCIN.
="nmero de promesas que se hacen realidad" sigue una distribucin de Poisson de
3
media 3 de cada 50. Es decir = 0.06
50
Para saber si los familiares del trabajador tienen que preocuparse, calculamos la
probabilidad de que el presidente diga al menos una promesa que se cumpla.
Utilizando la plantilla de Excel para la distribucin de Poisson, introducimos como valor
de 0.06. La funcin de masa de probabilidad que aparece termina en 2, es decir que la variable
toma valores 0, 1 y 2, y el resto los toma con probabilidad cero o prcticamente cero.

Necesitamos calcular
( > 1) = ( = 2) = 0.0017
.

pg. 170
Estadstica fcil con hoja de clculo

VARIABLE HIPERGEOMTRICA

Supongamos que tenemos una poblacin de elementos, que se divide en dos clases:

y . El nmero de elementos de cada clase los denotamos como y . Lgicamente +
= . Supongamos que se extrae una muestra de tamao de la poblacin, sin
reemplazamiento. La variable =nmero de elementos de la clase en la muestra se dice
que sigue una distribucin hipergeomtrica de
parmetros , y .
Se escribe (, , ) (si le
llamamos xito a obtener un elemento de la
clase , la variable nos mide el nmero de
xitos obtenidos en la muestra).
NO se trata de una variable binomial,
puesto que en la variable binomial las pruebas
son independientes. Por lo tanto, en un
experimento binomial lo que haramos sera
quitar de la poblacin una muestra de tamao
con reemplazamiento; esto es, elegir un
elemento de la poblacin, ver si es de la clase
o no lo es, devolverlo a la poblacin, extraer otro elemento de la poblacin, ver si es de la clase
. . ., y as sucesivamente hasta veces.

EJEMPLO 52
Supongamos una baraja de = cartas, donde consideramos dos clases: , los oros
el resto de cartas, y extraemos de la baraja, por ejemplo, = cartas
(hay =10 cartas), y
(todas a la vez, no hay reemplazamiento).

La variable =nmero de oros en 5


cartas sera una variable hipergeomtrica
(, , ). En cambio, si sacamos una
carta, comprobamos si es oro o no lo es y
anotamos el resultado, devolvemos la carta a
la baraja, y hacemos esto 5 veces, la variable
=nmero de oros en 5 cartas sera una

variable , = .

pg. 171
Estadstica fcil con hoja de clculo

La ley de probabilidad de la variable hipergeomtrica es de la forma




( = ) = ,



donde vara desde max{0, + } hasta min{ , }.
No hay ninguna cosa rara en los posibles valores de la variable. Lgicamente, puede
ser 0,1... pero est limitado por los tamaos de la poblacin, el nmero de elementos de , etc.
Los valores mnimo y mximo son los que estn escritos arriba.

MEDIA Y VARIANZA

Puede comprobarse que estos valores son, respectivamente,



() = () = 1 .

1
Si se escribe = ( es la probabilidad de elegir un elemento de la clase ), y
llamamos = 1 (que equivaldra a elegir un elemento de la clase ), las frmulas de la
media y la varianza quedan de la forma:

() = , () = .
1
Como vemos en las frmulas escritas de esta manera, la media es la misma que la de la
variable binomial, y la varianza es la de la binomial multiplicada por un factor. Esta coincidencia
se debe a que la variable binomial puede considerarse un caso extremo de una variable
hipergeomtrica, cuando el tamao de la poblacin es infinito (muy grande). Si consideramos
una poblacin de tamao infinito, sacar una muestra sin reemplazamiento es prcticamente lo
mismo que sacarla con reemplazamiento.
En la prctica, si es grande respecto a , se pueden calcular las probabilidades de la
hipergeomtrica por medio de la distribucin binomial. Esto es posible cuando / < 0.1. Esto
se haca ms antes porque la distribucin binomial estaba tabulada (las famosas tablas de los
libros) pero la hipergeomtrica no, lo cual conllevaba hacer cuentas con la calculadora; y en
ocasiones ni con esta era posible. Hoy en da, usando plantillas como las que tenemos, no es
necesario, salvo que tengamos valores muy grandes de y ni con plantilla ni con nada seamos
capaces.

EJEMPLO 53
Un opositor a registrador de la propiedad tiene que preparar cien temas. En el examen
se sacan tres a sorteo, de los cuales deber exponer uno. El opositor decide estudiar solamente
la mitad y probar suerte. Cul es la probabilidad de que apruebe?
SOLUCIN.
Dividimos la poblacin, de tamao = 100, en 2 clases: los que ha estudiado el
opositor (, con = 50) y los que no ha estudiado (, con = 50). La variable =nmero
de temas que el opositor conoce, en la muestra de tamao 3 sigue una distribucin
hipergeomtrica de parmetros = 100, = 50, = 3.
Con que se sepa uno de los temas, el opositor aprobar. Tenemos que calcular entonces
50 50

( 1) = 1 P(X < 1) = 1 ( = 0) = 1 0 3 = 1 0.1212 = 0.8788.
100

3
Como vemos, la probabilidad de aprobar es alta. Hemos calculado la probabilidad
( = 0) por medio de la plantilla distribucion-hipergeometrica.xlsx (Figura 74), en donde
hemos introducido los parmetros de la variable y, segn vemos, tenemos los distintos valores
que puede tomar la variable junto con sus probabilidades.

pg. 172
Estadstica fcil con hoja de clculo

Figura 74

VARIABLE BINOMIAL NEGATIVA

Supongamos ahora que se realiza un experimento de Bernoulli (ese que slo puede ser
xito o fracaso), hasta que se obtiene el xito nmero ( 1).
Definamos la variable = "nmero de fracasos antes del xito . se dice que sigue
una distribucin Binomial Negativa de prametros y . Se escribe (, ).
Su ley de probabilidad es
+ 1
( = ) = , = 0,1,2,

+ 1 ( + + 1)!
= ,
( 1)! !
Segn vemos, se trata de una variable aleatoria discreta, pero que toma un conjunto
infinito numerable de valores.
Puede comprobarse que se trata, en efecto, de una ley de probabilidad, es decir

+ 1
= 1.

=0
La variable binomial negativa con = 1 recibe el nombre de variable aleatoria
geomtrica o de Pascal.

pg. 173
Estadstica fcil con hoja de clculo

MEDIA Y VARIANZA

Se obtiene que

() = () = 2 .

EJEMPLO 54
Un hacker sube fotos secretas a la pgina Whiskyleaks en formato png. Como el
servidor central es prestado por una ONG, no funciona bien y solo carga correctamente los
documentos en la web en un 75 por ciento de los casos. El hacker quiere subir una primicia
mundial, del Presidente del Gobierno dndole dinero a un pobre. Cul es la probabilidad de
que el nmero de intentos fallidos sea mayor que 2, antes de que logre subir correctamente
la foto?
SOLUCIN.
La variable X="nmero de fracasos antes de la primera foto correctamente subida" sigue
una distribucin binomial negativa de parmetros 1 y p=0.75 (o geomtrica). Es decir,
(1, )
Tenemos que calcular ( > 2).
( > 2) = 1 ( 2) = 1 (2),
siendo F la funcin de distribucin de la variable.
Utilizaremos en este caso la plantilla distribucin-binomial-negativa.xlsx. Introducimos
los parmetros necesarios en la tabla de la izquierda ( = 1 y = 0.75), y buscamos
directamente el valor de la probabilidad acumulada en 2, que es 0.9844 (Figura 75).
En consecuencia, ( > 2) = 1 0.9844 = 0.0156.

Figura 75

PLANTILLA TABLAS-DISTRIBUCIONES.XLSX

La funcin de probabilidad y de distribucin de las variables que hemos visto, adems


de tener su propia plantilla, aparecen en la plantilla general tablas-distribuciones.xlsx. Con esta
plantilla podemos calcular directamente la probabilidad, la distribucin o la probabilidad entre
dos valores concretos. En la Figura 76 vemos la parte correspondiente a las variables discretas.

pg. 174
Estadstica fcil con hoja de clculo

Figura 76

PROBLEMAS PARA ESTIMULAR EL INTELECTO

PROBLEMA 17
Un presidente de gobierno se comunica con los dems miembros de su partido por
medio de mensajes SMS. Para ahorrar, han contratado un operador telefnico algo cutre, y el
servicio de SMS no siempre funciona bien, existiendo una probabilidad de 0.05 de transmitir
incorrectamente un mensaje. Si el mensaje no se recibe correctamente, el tesorero debe
volver a mandrselo. Supongamos que el tesorero le enva un mensaje pidindole ayuda
urgente al presidente porque le est pegando un preferentista cabreado, y el presidente le
contesta su mensaje tipo Luis, se fuerte, maana te llamo. Calcular la probabilidad de que
el tesorero le tenga que enviar el mensaje dos veces, y la probabilidad de que tenga que
envirselo ms de dos veces.
SOLUCIN.
La variable X="nmero de mensajes incorrectos antes del primero correcto" sigue una
distribucin binomial negativa de parmetros 1 y p=0.95.
En el primer caso, debemos calcular ( = 1) (un fracaso antes del primer xito, que
corresponde a enviar el mensaje dos veces: la primera vez falla, la segunda llega bien).
En el segundo caso, debemos calcular ( > 1) = ( 2) (el nmero de fracasos
ser mayor o igual a dos, con lo cual el mensaje se enviar ms de dos veces seguro.
Con la plantilla de la distribucin hipergeomtrica y los parmetros correspondientes (1
y p=0.95) vemos que (Figura 77)
( = 1) = 0.0475.
( > 1) = 1 ( 1) = 1 (1) = 1 0.9975 = 0.0025.

En ambos casos se podra haber hecho fcilmente sin plantilla, por medio de la frmula.
Por ejemplo
1+11
( = 1) = 0.051 0.951 ,
1
y, en el segundo caso, calculando 1 [( = 0) + ( = 1)].

PROBLEMA 18

pg. 175
Estadstica fcil con hoja de clculo

Figura 77

Un internauta crea una web de porno esperando forrarse, pero comprueba que acaba
registrando tan solo una media de 25 visitas cada hora. Calcular la probabilidad de que haya
ms de 10 visitas en los prximos 12 minutos (para que la publicidad que tiene insertada en la
pgina le pague un cntimo de euro).
SOLUCIN.
La variable X=nmero de visitas a la web cada hora sigue una distribucin de Poisson
de media 25 por hora. Si consideramos la unidad de tiempo, en vez de la hora, los 12 minutos,
tenemos que la variable Y=nmero de visitas a la web cada 12 minutos sigue una distribucin
25
de Poisson de parmetro = = 5.
5
Entonces nos piden
( > 10) = 1 ( 10) = 1 (10) = 1 0.9863 = 0.0137.

Figura 78

El valor de (10) lo sacamos de la plantilla de la variable de Poisson, en la columna de


la funcin de distribucin, como podemos ver en la Figura 78.

PROBLEMA 19
Una delegacin de diez miembros de partidos de la casta se rene con una delegacin
de doce sacerdotes y monjas para charlar de temas de actualidad. Terminada la reunin, se
escoge una muestra de 6 personas para acudir a una tertulia televisiva. Cul es la
probabilidad de que haya tantos miembros de la casta como personas castas?
SOLUCIN.

pg. 176
Estadstica fcil con hoja de clculo

Tenemos una poblacin de tamao = 10 + 12, con 2 clases: los de la casta, que son
diez (, con = 10) y los castos (curas y monjas) (, con = 12). Del total se elige una
muestra de 6. La variable =nmero de miembros de la casta en la muestra de tamao 6 sigue
una distribucin hipergeomtrica de parmetros = 22, = 10, = 6.
Obviamente, dara igual considerar las clases y su complementaria al reves (primero
los castos y luego la casta). Lo que queremos calcular es que, en la muestra de 6 personas, haya
igual de castos que de miembros de la casta; por lo tanto, queremos calcular ( = 3).
Introduciendo los parmetros en la
plantilla de la variable hipergeomtrica
obtenemos directamente la probabilidad,
que es 0.3538 (Figura 79)
Por la frmula sera
10 12

( = 3) = 3 3 = 0.3538.
22

Figura 79 6

PROBLEMA 20
De un informe presentado por una asociacin de suegras, se desprende que solo el
18% de los hombres casados y el 5% de las mujeres casadas hablan bien de su suegra.
Suponiendo que la poblacin de gente casada se reparte equiprobablemente entre ambos
sexos; a) cul es la probabilidad de que una persona elegida al azar en una encuesta hable
bien de su suegra?; b) qu proporcin de esa gente corresponde a los hombres?; c) cul es
la probabilidad de que entre 200 individuos elegidos al azar, haya al menos seis que hablen
bien de la suegra?; d) cul es la probabilidad de que entre 20 personas que hablan bien de la
suegra, ms de la mitad sean hombres?
SOLUCIN.
Llamemos B=hablar bien de la suegra, H=ser hombre casado, M=ser mujer casada.
Nos dicen que (|) = 0.018, (|) = 0.05, () = () = 0.5.
a) Nos piden la probabilidad del suceso B. Para calcularla aplicamos el teorema de la
probabilidad total.
() = (|) () + (|) () = 0.018 0.5 + 0.05 0.5 = 0.034.
b) Ahora nos piden (|). Utilizamos la frmula de la probabilidad condicionada
( ) (|) () 0.015 0.5
(|) = = = = 0.26.
() () 0.034
c) Se eligen 200 individuos al azar. La variable =nmero de individuos que hablan bien
de la suegra sigue una distribucin binomial (200,0.034).
Nos piden ( 6) = 1 ( < 6) = 1 (5) = 1 0.32277 = 0.67723.
(para el clculo, vamos a la plantilla binomial e introducimos los datos n=200 y p=0.034).
d) Ahora se eligen 20 personas que hablan bien de la suegra. En cada persona,
observamos el suceso xito o ser hombre. La probabilidad de ser hombre (hablando bien de
la suegra) es 0.26, que es la probabilidad condicionada calculada en b.
Entonces, la variable =nmero de hombres en esa muestra de 20 sigue una
distribucin (20,0.26). La probabilidad de que ms de la mitad sean hombres es
( > 10) = 1 ( 10) = 1 (10) = 1 0.99454 = 0.00546
(para el clculo, introducimos los datos n=20 y p=0.26 en la plantilla tablas-distribuciones.xlsx).

pg. 177
Estadstica fcil con hoja de clculo

PROBLEMA 21
Con la clsica excusa es un momentito, una sexagenaria para el coche en el carril
bus para sacar dinero de un cajero automtico una media de cinco veces por semana, siendo
la probabilidad de que le multen tan slo de 0.3 porque hay pocos agentes de movilidad.
a) Cul es la probabilidad de que en una semana no pare el coche en el carril bus?
b) si en una semana ha parado el coche 3 veces en el carril bus, cul es la probabilidad
de que haya tenido suerte y no le hayan multado?
c) qu porcentaje de semanas para en el carril bus ms de 4 pero menos de 8 veces?
SOLUCIN.
La variable =nmero de veces que para en el carril bus sigue una distribucin de
Poisson de media 5 (por semana) (son sucesos independientes que ocurren a lo largo del tiempo,
en media constante).
a) Nos piden P(X=0).
Vamos a la plantilla de la variable de Poisson y miramos P(X=0)=0.0067.
b) Si la probabilidad de que la multen es 0.3, la probabilidad de que pare el coche 3
veces y no le multen nunca es 0.73 = 0.343.
c) Ahora nos piden
(4 < < 8) = ( = 5) + ( = 6) + ( = 7) =
= 0.1755 + 0.1462 + 0.1044 = 0.4261.
Quiere esto decir que el porcentaje de semanas que aparca mal ms de 4 pero menos
de 8 veces es del 42.61 por ciento.

PROBLEMA 22
A Yonatan le caen los calzoncillos al patio cuando iba a tenderlos. Va a hablar con la
seora del primero y le pide que le devuelva los cinco que le han cado a lo largo del mes. La
seora del primero, que est harta de recoger todo tipo de inmundicia que le cae (o le tiran)
desde el piso de Yonatan y del resto de vecinos, tiene una cesta con todos los calzoncillos: 5
son de Yonatan y 20 son de otros pisos. La seora, sin mirar, y con una pinza en la nariz, coge
5 al azar y se los da a Yonatan. Cul es la probabilidad de que al menos tres sean de l?
SOLUCIN.
El total de ropa que almacena la vecina tiene tamao = 25. De ellos, los hay
procedentes del piso de Yonatan: (clase , con = 5) y de otros vecinos (clase , con =

pg. 178
Estadstica fcil con hoja de clculo

20). La variable =nmero de calzoncillos de Yonatan, en la muestra de tamao 5 sigue una


distribucin hipergeomtrica de parmetros = 25, = 5, = 5.
La probabilidad de que al menos tres calzoncillos sean de Yonatan es
( 3) = P(X = 3) + P(X = 4) + P(X = 5) =
5 20 5 20 5 20

= 3 2 + 4 1 + 5 0 = 0.0358 + 0.0019 + 0 = 0.0377.
25 25 25

5 5 5
Estos valores los hemos mirado en la plantilla de la distribucin hipergeomtrica, sin
ms que introducir los parmetros correspondientes.

PROBLEMA 23
Se estima que el 60% de una poblacin de consumidores prefiere una marca particular
de pegamento para esnifar. Cul es la probabilidad, al entrevistar a un grupo de
consumidores, de que se tenga que entrevistar exactamente a cinco personas, para encontrar
el primer consumidor que prefiere dicha marca?
SOLUCIN.
Denotamos por suceso xito a preferir esa marca particular de pegamento. La
probabilidad p=p(xito)=0.6. Vamos entrevistando personas hasta encontrar al primero con
dicha preferencia. Definimos la variable X=nmero de fracasos antes del primer xito. X sigue
una distribucin binomial negativa (1, ). Nos preguntan
( = 4) = 4 1 = 0.44 0.61 = 0.01536.
En este caso, es tan fcil que ni plantilla hemos necesitado.

PROBLEMA 24
De un grupo de 20 alumnos de Ingeniera y 10 de Burrologa se eligen 2 alumnos al
azar para concursar en el "1,2,3, repetid curso otra vez". Cul es la probabilidad de que la
pareja sea uno de cada carrera?
SOLUCIN.
Tenemos una poblacin de tamao = 30, formada por una clase , con = 20
alumnos de Ingeniera, y otra clase , con = 10 alumnos de Burrologa. La variable
=nmero de alumnos de Ingeniera, en una muestra de 2 personas sigue una distribucin
hipergeomtrica de parmetros = 30, = 20, = 2.
La probabilidad de que en la muestra haya exactamente uno de Ingeniera (el otro
alumno ser de Burrologa, necesariamente) es
20 10

( = 1) = 1 1 = 0.4598.
30

2
Como podemos ver a continuacin, esto sale rpidamente a travs de la plantilla tablas-
distribuciones.xlsx, poniendo los parmetros adecuados:

PROBLEMA 25
En el ltimo pais que ha ingresado en la desunin europea, Paradolandia, se padece
una enfermedad que el BCE ha catalogado como rara, que es la de encontrar un trabajo digno.
La probabilidad de poseer dicha enfermedad es muy baja, = /. . Calcular la

pg. 179
Estadstica fcil con hoja de clculo

probabilidad de que en una ciudad con 500.000 habitantes haya ms de 3 desgraciados con
dicha enfermedad.
SOLUCIN.
1
Sea = nmero de personas con esa enfermedad . 500.000, .
100.000
Dado que > 30 y < 0.1, se puede aproximar por una distribucin de Poisson de
parmetro = = 5. Por lo tanto,
5
( > 3) = 1 ( 3) = 1 3=0 5 ! = 1 0.265 = 0.735.
Esta probabilidad se obtiene directamente en la plantilla tablas-distribuciones.xlsx,
buscando en la distribucin de poisson con prametro 5 y el valor 3, como vemos a continuacin.

PROBLEMA 26
Las estadsticas indican que un vidente de TV acierta en decir quien ganar un partido
de futbol una de cada tres veces.
a) Cul es la probabilidad de que este vidente tenga que ser preguntado por 10
partidos antes de acertar por primera vez?
b) Cul es la probabilidad que la primera vez que acierte sea antes de la dcima
pregunta?
SOLUCIN.
Como es evidente que el vidente (valga la redundancia) acierta por mero azar, cada vez
que le preguntan contesta con independencia de lo que haya dicho la vez anterior. Esto es,
estamos ante pruebas de Bernoulli.
La Variable X=nmero de fracasos antes del primer xito (en este caso nmero de
fallos antes de acertar por primera vez) sigue una distribucin binomial negativa (1, 13)
Entonces la probabilidad de que necesita exactamente 10 pruebas hasta lograr acertar
por primera vez es
1 1 2 9
( = 9) = 1+91
9
3 3 =0.0867,
que lo podemos calcular en la plantilla tablas-distribuciones.xlsx (aproximamos 1/3 por 0.333):

b) La probabilidad de que se realice el primer acierto antes de la dcima pregunta es que


el nmero de fracasos antes del primer xito sea menor o igual a 9.
( 9) = (9).

pg. 180
Estadstica fcil con hoja de clculo

Precisamente, esto ya nos aparece en la Figura 80, que es 0.9826.

Figura 80

PROBLEMA 27
Un estudiante de informtica presta servicios de contabilidad B a empresas y chorizos
varios, por los que cobra 200 euros la hora. Las averas que se pueden producir en su
ordenador, X, siguen una ley de Poisson de media 0.2 por hora, y el coste de reparar las X
averas viene dado por 50 euros, ms 30 de mantenimiento general por hora. Se pide:
a/ Probabilidad de que en 5 horas de servicio no se hayan producido averas.
b/ Beneficio esperado por hora de servicio.
SOLUCIN.
Sea X="averas en el ordenador por hora". ( = 0.2).
a) En 5 horas, el nmero de averas ser = 5 (5 0.2 = 1)
10 1
( = 0) = 1 = = 0.367
0!
b) En una hora, el beneficio ser 200 menos el coste de reparacin, es decir 200
[(50 2 ) + 30] = 200 [50 ( 2 ) + 30] = 170 50( 2 ).
Como es una variable de Poisson de media = 0.2, su varianza tambin es 0.2, luego
( 2 ) = 0.2 + (0.2)2 = 0.24.
En consecuencia, el beneficio esperado por hora ser 170 50 0.24 = 158 euros.

PROBLEMA 28
Inicialmente, Dios permiti salvar Sodoma y Gomorra de la destruccin si Abraham
encontraba en ellas 50 hombres justos. Abraham, que era bueno regateando, logro descender
ese nmero a 10, porque saba que aquellas ciudades estaban llenas de gamberros. Abraham
reuni a las 50 personas que estim que podran salvarse en la plaza del pueblo. All,
lgicamente, estaba Lot, con su mujer y sus dos hijas. El problema es que Abraham, con la
edad, no vea nada bien y, como slo poda salvar a 10 personas, decidi elegirlas al azar de
los 50 reunidos. Cul era la probabilidad de que en el grupo de los elegidos estuviera Lot con
su familia?
SOLUCIN.
Tenemos una poblacin de tamao = 50, formada por una clase
(los justos: Lot y su familia), con = 4, y otra clase , con = 46. La variable =nmero
de justos en una muestra de 10 personas sigue una distribucin hipergeomtrica de parmetros
= 50, = 4, = 10.
La probabilidad de que en la muestra haya exactamente 4 de la clase A (la familia de Lot
entera) es
4 46

( = 4) = 4 0 = 1 = 0.0009.
50 50

4 4
Como podemos ver a continuacin, esto sale rpidamente a travs de la plantilla tablas-
distribuciones.xlsx, poniendo los parmetros adecuados.

pg. 181
Estadstica fcil con hoja de clculo

Nota. Para los que no se sepan el final de la


historia bblica, los ngeles que advirtieron
a Lot y su familia que escaparan de Sodoma
porque Dios iba a destruirla, les dijeron que
no mirasen hacia atrs mientras
escapaban. La mujer de Lot ech un vistazo
y se qued convertida en estatua de sal.
Hoy da seguramente hubieran muerto
todos mientras grababan la escena con sus
mviles para subir los videos a Facebook.

PROBLEMA 29
La probabilidad de que un estudiante de ADE apruebe todas las asignaturas en primera
convocatoria es de 0.001. Se seleccionan 2000 estudiantes de ADE de la unin europea para
realizar un informe. Cul es la probabilidad de que hayan aprobado todas las asignaturas en
primera convocatoria al menos una docena?
Pista: el que no sabe hace ADE, y si no hay ms remedio, va a Magisterio
SOLUCIN.
Sea = nmero de estudiantes que aprueban en primera convocatoria, de un grupo de
2000. (2000,0.001).
Dado que > 30 y < 0.1, se puede aproximar por una distribucin de Poisson de
parmetro = = 2000 0.001 = 2. Por lo tanto,
( 12) = 1 ( < 12) = 1 (11) = 1 1 = 0.
Esta probabilidad se obtiene directamente en la plantilla tablas-distribuciones.xlsx, ,
como vemos a continuacin. Quiere decir que conseguir una docena de estudiantes que
aprueben todas las asignaturas en primera convocatoria es imposible.

HECHOS REALES DE INTERS INTERESANTES

Los siguientes problemas estn basados en el libro de Paulos (1990).

PROBLEMA 30
El efecto Jean Dixon. John Paulos comenta en su libro que cualquier suceso, por
extrao o raro que sea, se acaba produciendo, siempre que el experimento en el que puede
producirse se realice un nmero grande de veces. El nombre de efecto Jean Dixon est
relacionado con una vidente que, al realizar predicciones continuamente, la mayora de las
veces no acertaba, pero algunas s, y estas ltimas se encargaba de publicitarlas a los cuatro
vientos, consiguiendo as fama como gran dotada en percepcin extrasensorial.
Supongamos que una persona tiene una probabilidad muy pequea de predecir un
suceso (accidente, muerte). Realmente, todos podemos hacer una prediccin relativa a que

pg. 182
Estadstica fcil con hoja de clculo

la prxima semana un avin caer en algn sitio, alguien famoso morir de accidente, etc.
Supongamos que la probabilidad de acertar, por azar, es muy pequea, por ejemplo . Si,
por ejemplo, tenemos un canal en youtube y todos los das hacemos una prediccin, cul es
la probabilidad de tener algn acierto al cabo de, por ejemplo, dos aos?
SOLUCIN.
Sea = nmero de aciertos en 2 aos=nmero de aciertos de 365 2 predicciones.
(730, 104 ).
Dado que > 30 y < 0.1, se puede aproximar por una distribucin de Poisson de
parmetro = = 730 104 = 0.73. Por lo tanto,
( 1) = 1 ( < 1) = 1 (0) = 1 0.4819 = 0.5181

Como vemos, la probabilidad de acertar anda por 1/2.

PROBLEMA 31
(Hecho real) En 1964 una mujer rubia peinada con una cola de caballo rob el bolso a
otra mujer en Los ngeles. La ladrona huy a pie, pero posteriormente alguien la reconoci
cuando montaba en un coche amarillo conducido por un negro con barba y bigote. Las
investigaciones de la polica acabaron por encontrar a una mujer rubia con cola de caballo que
regularmente frecuentaba la compaa de un negro de barba y bigote que tena un coche
amarillo. No haba ninguna prueba fehaciente que relacionara a la pareja con el delito, ni
testigos que pudieran identificar a ninguno de los dos. Se estaba de acuerdo, no obstante, en
los hechos citados.
El fiscal bas sus conclusiones en que, como la probabilidad de que tal pareja existiera
era tan baja, la investigacin de la polica tena que haber dado con los verdaderos culpables.
Asign las siguientes probabilidades a las caractersticas en cuestin:
coche amarillo: /; hombre con bigote: /; mujer con cola de caballo: /;
mujer rubia: /; hombre negro con barba: /; pareja interracial en un coche: /. .
El fiscal arguy que como estas caractersticas eran independientes, la probabilidad de que
todas ellas concurrieran en una pareja elegida al azar haba de ser:

=
. .
que es un nmero tan pequeo que la pareja tena que ser culpable. El jurado les conden.
Los condenados recurrieron ante el Tribunal Supremo de California, que anul la sentencia
sobre la base de otro razonamiento probabilstico. El abogado defensor de la pareja arguy
que 1/12.000.000 no era la probabilidad que haba que considerar. En una ciudad de las
dimensiones de Los ngeles, con unos 2.000.000 de parejas, no era tan improbable, sostena,
que hubiera ms de una que reuniera todas las caractersticas mencionadas, dado que ya
haba por lo menos una pareja: la condenada. El Tribunal Supremo de California acept la
argumentacin del abogado y revoc la sentencia anterior. Cmo se establecera la
argumentacin del abogado?
SOLUCIN.
En Los ngeles se calcula que existan del orden de 2 106 parejas. Una pareja con todas
1 1
las caractersticas fsicas consideradas tiene una probabilidad = 12.000.000 = 12106 de
encontrarse.
Por lo tanto, el nmero de parejas de ese tipo (buscando entre todas las posibles
parejas) sigue una distribucin binomial:

pg. 183
Estadstica fcil con hoja de clculo

1
= "n parejas de ese tipo" 2 106 , .
12 106
Dado que n es muy grande y p muy pequeo, la variable se puede aproximar por una
1
distribucin de Poisson de parmetro = = 6 = 0.16.
El abogado defensor consider que deba calcularse la probabilidad de encontrar ms
de una pareja as, dado que, al menos, exista una (los detenidos) (y, segn l, existira alguna
ms puesto que sus defendidos no eran culpables). Lo que hay que calcular es
( 2) ({ 2} { 1}) ( 2)
( > 1) = = = =
( 1) ( 1) ( 1)
1 ( < 2) 1 (1) 0.0115
= = = = 0.077,
1 ( < 1) 1 (0) 0.1479

Figura 81

que ya no es tan pequea: est prxima al ocho por ciento, y permita establecer una duda
razonable de que los detenidos no fuesen culpables.

pg. 184
Estadstica fcil con hoja de clculo

Igual que existen variables discretas de inters como la binomial o la Poisson, veremos
algunas variables continuas que merecen destacarse.

VARIABLE UNIFORME CONTINUA

Una variable aleatoria continua se dice que sigue una distribucin uniforme entre dos
valores y (se representa (, )) si su funcin de densidad tiene la expresin
1
[, ]
() =
0 [, ]
Su funcin de distribucin es
0 <

() = [, ]

1 >

pg. 185
Estadstica fcil con hoja de clculo

Las grficas de las funciones de densidad y distribucin pueden verse en la Figura 82


(grficos de Wikipedia).

Figura 82

Esta variable es la generalizacin, al caso continuo, de la variable uniforme discreta (la


que da a todos los valores la misma probabilidad). La variable uniforme reparte de manera
continua y equivalente la probabilidad, es decir, intervalos de igual longitud (dentro de [, ])
tienen igual probabilidad. Recurdese que, en las variables continuas, la probabilidad entre 2
puntos 1 y 2 es el rea bajo la funcin de densidad. En este caso, el rea sera el rea de un
rectngulo, es decir (Figura 83):
2
1
(1 < < 2 ) = () = (2 1 ) ,
1
y, segn vemos en la figura, intervalos de igual longitud tienen igual rea:
2 2
2 1 2 1
() = () = = .
1 1

Figura 83

MEDIA Y VARIANZA

Sus parmetros media y varianza son:


+ ( )2
() = () = .
2 12

pg. 186
Estadstica fcil con hoja de clculo

EJEMPLO 55
El contenido de yema de los canutos de yema que venden en la cafetera de la facultad
sigue una distribucin uniforme entre . y . gramos, segn escriben en el plstico. Calcular
la probabilidad de que el canuto del estudiante ms gordo tenga ms de la mitad de lo
afirmado por la pastelera que hace los canutos.
SOLUCIN.
Tan simple como
0.5 1 1 0.25
( > 0.25) = 0.25 = (0.5 0.25) = = 0.625
0.50.1 0.4 0.4

VARIABLE EXPONENCIAL

Una variable continua se dice que sigue una distribucin exponencial de parmetro
> 0 si su funcin de densidad es
0 < 0
() =
0

Su funcin de distribucin es
0 < 0
() =
1 0
Se representa ().
Puede comprobarse que la funcin es una funcin de densidad (verifica las
propiedades vistas) para cualquier valor de > 0, esto es, () 0 y la integral vale 1.
La variable exponencial suele representar la duracin o tiempo de supervivencia de un
sistema biolgico o mecnico (tiempo de duracin de pilas, bateras, clulas; ojo, no seres
humanos ni animales normales tipo perros, gatos, vacas, etc.), adems de adaptarse bien a
otras medidas, como la magnitud de los terremotos en una determinada zona, tiempos de
espera (para ser atendidos en una tienda, una central telefnica, un sistema informtico, etc).
En la Figura 84 tenemos grficas de la funcin de densidad y distribucin, para algunos valores
de (fuente: wikipedia):

pg. 187
Estadstica fcil con hoja de clculo

Figura 84

MEDIA Y VARIANZA

Se puede comprobar que son:


1 1
() = y () = .
2

EJEMPLO 56
El tiempo que tiene que esperar una vicepresidenta de un parlamento a que su chfer
personal la recoja sigue una distribucin exponencial de media 5 minutos. Cul es la
probabilidad de que tenga que esperar ms de 7 minutos?
SOLUCIN.
= exp(15).
La probabilidad que nos piden es
1
( > 7) = 1 (7) = 1 1 57 = 0.2466.

La distribucin exponencial la tenemos en la plantilla distribucin-exponencial.xlsx,


donde podemos calcular reas y cuantiles. El resultado de este problema lo vemos en la Figura
85.

Figura 85

pg. 188
Estadstica fcil con hoja de clculo

VARIABLE NORMAL

La madre de todas las variables.


Una variable aleatoria continua sigue una distribucin Normal de parmetros y
(se escribe (, )) si su funcin de densidad es
1 ()2

() = 22 , < <
2
Esta variable, cuando se consideran los valores = 0 y = 1, se llama Normal
estndar o Normal tipificada. La funcin definida segn esta frmula tiene forma de campana,
llamada la campana de Gauss (por Carl Friedrich Gauss; 1777 - 1855) . Es la distribucin continua
ms importante, por la frecuencia con que aparece, y por sus propiedades tericas.
En 1783 Laplace la propuso para describir los errores accidentales en la medicin de una
magnitud fsica, por ejemplo en astronoma. La importancia de la distribucin normal radica en
que se ajusta a la medicin de:
Caracteres morfolgicos de individuos (personas, animales, plantas) de una
especie: Tallas, pesos, envergaduras, dimetros, permetros
Caracteres fisiolgicos: efecto de una misma dosis de un frmaco, o de una
misma cantidad de abono en la tierra
Caracteres sociolgicos: consumo de un cierto producto por un mismo grupo
de individuos, puntuaciones de examen
Caracteres psicolgicos: cociente intelectual, grado de adaptacin a un medio,
propensin al crimen
En general, cualquier caracterstica que se obtenga como suma de muchos factores
(teorema central del lmite).
Otras distribuciones, como la binomial o la de Poisson, se pueden aproximar por una
distribucin normal.

La funcin de distribucin no podemos escribirla, porque no fue capaz ni Gauss. 18

18
Para obtener la funcin de distribucin sera necesario calcular la integral de la de funcin de
densidad, que no tiene primitiva. Por eso se construyeron las famosas Tablas de la normal, que aparecen

pg. 189
Estadstica fcil con hoja de clculo

MEDIA Y VARIANZA

La media o esperanza corresponde al valor que aparece en la frmula, y la desviacin


tpica al valor .

Figura 86

PROPIEDADES

La funcin de densidad es simtrica respecto de la media , es decir, reas a la derecha


y reas a la izquierda (probabilidades) coinciden. En la Figura 86 y en la Figura 87 podemos

Figura 87: grfica correspondiente a la plantilla normal-interactiva.xlsx

observar distintas funciones de densidad cambiando la desviacin tpica (a mayor desviacin


tpica la curva se aplana; a menor desviacin tpica la curva es ms puntiaguda en la media).
Cambiar la media supone simplemente desplazar la curva a derecha o izquierda. Esto sucede
porque el rea bajo la curva siempre es igual a 1.

en tantos y tantos libros de estadstica. Hoy en da, igual que hacemos aqu, para calcular reas o
probabilidades asociadas a la distribucin normal, se acude a alguna pgina web o software estadstico,
que realizan aproximaciones de tipo numrico.

pg. 190
Estadstica fcil con hoja de clculo

Estas grficas las hemos realizado con la plantilla normal-interactiva.xlsx, donde aparece
fija la funcin de densidad de la normal estndar ((0,1)), y uno puede divertirse moviendo los
valores de la desviacin tpica y/o la media, para ver como la curva se estira o se aplana
(cambiando la desviacin tpica), o se desplaza paralelamente a lo largo del eje horizontal
(cambiando la media).

EJEMPLO 57
La nota de los estudiantes examinados por un profesor sigue una distribucin normal
de media 3.5 y desviacin tpica 2. Calcular la probabilidad de sacar notable.
SOLUCIN.
La variable = sigue una distribucin (3.5, 2). Si entendemos como notable
tener entre 7 y 9, queremos calcular (7 < < 9). Acudimos a la plantilla tablas-distribucin
normal.xlsx, introducimos los valores 7 y 9 , y la plantilla nos dibuja la funcin de densidad y nos
da el rea entre los valores (Figura 88).

Figura 88

Disponemos tambin de la plantilla normal-areas-barras-desplazamiento.xlsx (s que


pude haberle puesto un ttulo ms corto, pero no me dio la gana), donde uno puede desplazar
los valores de antes y despus del cero, para ir viendo progresivamente las reas existentes a
uno y otro lado. En la Figura 89 aparece un ejemplo.

Figura 89: grfica correspondiente a la plantilla normal-areas-barras-desplazamiento.xlsx

pg. 191
Estadstica fcil con hoja de clculo

Las reas entre valores de y + ( = 1,2,3) pueden verse en la Figura 90


(son siempre iguales, independientemente de los valores de y de ). Entre los valores - y
+ se concentra el 68.2 por ciento de la distribucin, y entre 2 y + 2 se concentra
el 95.4 por ciento. Esto hace que los valores 2 y + 2 se consideren los valores mximos
y mnimos comunes. Dicho de otro modo, los valores que estn ms alejados de la media dos
veces la desviacin tpica son valores raros en la distribucin (suelen llamarse lmites 2-).

Figura 90

Ejemplos clsico de aplicacin de estos lmites es el de los anlisis de sangre. Los mdicos
calculan el intervalo ( 2, + 2), donde y son los valores media y desviacin tpica de
la poblacin general (calculados tras realizar un nmero muy grande de observaciones). Si el
valor observado a un paciente no est dentro del intervalo de referencia correspondiente, es
que ese valor sale fuera del 95.4 por ciento ms normal. Por ejemplo, el nivel de colesterol,
triglicridos, hierro, azcar
Otro ejemplo muy conocido es el del coeficiente de inteligencia. Los valores a la derecha
del nmero + 2 corresponden a los coeficientes de los superdotados. Los valores a la
izquierda del nmero 2 a los coeficientes de los tertulianos de ciertos programas de TV.

TIPIFICACIN

Sirve para comparar individuos diferentes obtenidos de sendas poblaciones normales.



Si (, ), entonces = (0,1), es decir, es una variable normal tipificada o

normal estndar. Las probabilidades asociadas a cualquier variable normal pueden calcularse
a travs de la normal tipificada:

( < < ) = < < = < < .

EJEMPLO 58
Realizar el ejemplo anterior (probabilidad de sacar notable, pero ahora a travs de
una tipificacin.
SOLUCIN.
La variable (3.5, 2).

pg. 192
Estadstica fcil con hoja de clculo

73.5 3.5 93.5


(7 < < 9) = < < = (1.75 < < 2.75) = 0.0371.
2 2 2
Si no tenemos inters en obtener la grfica, podemos calcular esta probabilidad (y la
distribucin) directamente en tablas-distribuciones.xlsx:

PROPIEDAD ADITIVA

Igual que vimos en otras variables, la variable normal es reproductiva: la suma de


variables aleatorias normales independientes es otra variable aleatoria normal, con media la
suma de las medias y varianza la suma de varianzas.
Puede establecerse un resultado ms general: sean ( , ), y nmeros reales,
= , . . . , . Se verifica:

, 2 2 ,
=1 =1 =1

esto es, una combinacin lineal de variables aleatorias normales es otra variable aleatoria
normal, cuya media es la combinacin lineal de las medias, y la varianza es la combinacin lineal
de las varianzas, pero con los trminos elevados al cuadrado.

EJEMPLO 59
En Espaa, en 2014, el precio medio de la herona fue de 60 euros el gramo, y el de la
metaanfetamina 80 euros el gramo. Suponiendo que el precio de ambas sustancias sigue una
distribucin normal, con desviacin tpica 5 y 10 euros, respectivamente, y que un tertuliano
de televisin toma diariamente un mix de un gramo, formado por un 65 por ciento de
herona y un 35 por ciento de metanfetamina, calcular la probabilidad de que el precio no
supere los 70 euros (que es lo que le roba al ciego de la esquina).
SOLUCIN.
Llamemos 1 =precio del gramo de herona. Nos dicen que esta variable sigue una
distribucin normal (60,5).
Llamemos 2 =precio del gramo de metaanfetamina. Nos dicen que esta variable sigue
una distribucin normal (80,10).
Diariamente, el ministro gasta un dinero que ser la mitad de la variable
= 0.65 1 + 0.35 2
Esta variable, por ser una combinacin de variables normales, tambin sigue una
distribucin normal. Para ver qu parmetros sigue, aplicamos la frmula anterior.
Aqu tenemos 1 = 0.65 y 2 = 0.35. Por lo tanto, la media ser
0.65 1 + 0.35 2
y la varianza
0.652 12 + 0.352 22
de manera que 0.65 60 + 0.35 80, 0.652 52 + 0.352 102 67, 22.81 =
(67,4.77).
La probabilidad solicitada es ( < 70) = 0.7353. Esta probabilidad podemos
calcularla tipificando y buscando en la tabla de una (0,1), o directamente, en la tabla de la
distribucin normal (plantilla tablas-distribucion-normal.xlsx)
Por ejemplo, tipificando sera
70 67
( < 70) = < = ( < 0.628) = 0.735.
4.77

pg. 193
Estadstica fcil con hoja de clculo

Grficamente, podemos ver el resultado en la figura 2 de la plantilla citada (Figura 91).

Figura 91

TEOREMA CENTRAL DEL LMITE

Este teorema dice, de manera esquemtica, que, cuando sumamos un nmero grande
de variables, la variable resultante sigue una distribucin normal.
De manera general, si 1 , 2 , . . . , son variables de media o esperanza = ( ) y
varianza 2 = ( ), = 1, . . . , ,
se verifica que la variable suma = 1 + 2 +. . . + (si es un nmero tendiendo a infinito)
se puede aproximar por una variable normal, de media la suma de las medias y varianza la suma
de varianzas (desviacin tpica = raiz de la suma de varianzas), es decir


= 1 + 2 +. . . + , 2 .
=1 =1

Nota: En el caso de sumar variables aleatorias normales, la aproximacin anterior no es tal, sino
que es una distribucin exacta, como hemos visto anteriormente.

El simbolo hace referencia a convergencia en distribucin, que es una forma de convergencia
de las sucesiones de variables aleatorias (igual que hay lmites de sucesiones de nmeros, tambin
hay sucesiones de variables aleatorias, que las matemticas ya sabis que son muy raras).

Este teorema (del que damos nicamente una idea general, sin establecer las hiptesis
matemticas reales) establece la importancia de la distribucin normal. Su resultado es que,
cuando se suma un nmero grande de variables aleatorias, la variable resultante es una variable
con distribucin aproximadamente igual a la distribucin normal. Incluso, el trmino nmero
grande (porque matemticamente el teorema se establece cuando tiende a infinito) no lo es
tanto, porque, en la prctica, con > 30 la aproximacin ya proporciona buenas resultados.
Adems, el teorema es cierto independientemente de la distribucin que sigan las variables que
se sumen (no importa si son exponenciales, binomiales, etc.). Lo nico que se necesita es saber
su media y su varianza.

pg. 194
Estadstica fcil con hoja de clculo

Es a causa de este teorema que muchas variables aleatorias como pesos, alturas, tallas,
etc. siguen una distribucin normal, porque cada una de ellas es suma de un gran nmero de
variables aleatorias independientes. Por ejemplo:
- La altura (peso) de una persona es suma de muchos factores: hereditario,
alimentacin, tipo de vida...
- El consumo de combustible (gas, electricidad...) por da de una compaa es suma de los
consumos individuales de los usuarios.
- Las fluctuaciones del mercado de acciones son suma de multitud de variables.
- Los errores aleatorios, que se presentan en observaciones de pesos, distancias, o, en
general, en la mayora de medidas de algn aparato, son la suma de un nmero elevado
de errores elementales, tales como corrientes de aire, vibraciones, errores de
apreciacin.

El teorema tambin sirve cuando, en vez de sumar variables, se hace la media de ellas.
Es decir, la media de variables aleatorias se puede aproximar tambin por una variable normal
(por ello, los promedios anuales de temperatura, las notas promedio, etc. tambin suelen
adaptarse a la distribucin normal).

1 + 2 +. . . +
= 1 + 2 +. . . + = , = 2 ( , )

=1 =1

Caso particular: Si todas las variables tienen la misma distribucin, y por lo tanto la misma
media y desviacin tpica = ( ) = y varianza 2 = ( ) = 2 , entonces
+ +. . . +
= 1 + 2 +. . . + = , = 2
= (, )

EJEMPLO 60
El programa Crnicas marranas pide a los espectadores que manden sms si prefieren
que se recorte el dinero en sanidad antes que en la formula uno. A la centralita comienzan a
llegar mensajes a ritmo de 3 por minuto. Calcular la probabilidad de que lleguen al menos 160
mensajes en una hora.
SOLUCIN.
X =numerode mensajes por minuto Pois(3) (se adecua al proceso de Poisson)
Y =numero de mensajes en una hora =X1 + ... + X60 Pois(3 60 = 180).
Por ser una suma de variables, la distribucin de Y puede aproximarse por una normal
(180, 180).
Nos piden
180 160180
( 160) = = (0,1) 1.49 = 0.931.
180 180

Nota: cuando utilizamos el teorema central del lmite, como este caso, para calcular una
probabilidad por medio de la distribucin normal, el resultado no es exacto, sino una
aproximacin. Lo que ocurre, es que esa aproximacin, dependiendo de los casos, puede ser
bastante precisa.

EJEMPLO 61
Supongamos que un tratamiento mdico es eficaz (al cabo de un tiempo
determinado), en una proporcin del 80 por ciento. Un seguro mdico paga ms a una clnica

pg. 195
Estadstica fcil con hoja de clculo

si, por cada 300 asegurados que reciben el tratamiento, al menos se curan 260. Cul es la
probabilidad de que esto suceda?
SOLUCIN.
Definamos la variable que toma los valores 0 si el paciente no se cura (al cabo de ese
tiempo establecido), y 1 si se cura. es una variable de Bernoulli de parmetro = 0.8.
Como hemos visto al principio del captulo, una variable de Bernoulli tiene media y
varianza (1 ), en este caso media 0.8 y varianza 0.8 0.2 = 0.16.
Si consideramos la variable
= 1 + + 300 ,
mide el nmero de pacientes que se curan de 300 que acuden a la clnica.
Usando el teorema central del lmite, puede aproximarse por una distribucin normal
de media la suma de las medias y varianza la suma de varianzas, es decir
() = 300 0.8 = 240 y () = 300 0.16 = 48 = 48 = 6.92.
Por lo tanto, podemos calcular la probabilidad ( 260) usando la distribucin
(240,6.92). Tipificando:
240 260 240
( 260) = = ((0,1) 2.89) = 0.002,
6.92 6.92
que es una probabilidad muy pequea. Los seguros siempre procuran hacer clculos para pagar
lo menos posible.

Nota: Est claro que la variable del ejercicio anterior era una variable Binomial de prametros
= y = . . En el captulo de variables discretas vimos que una variable aleatoria
binomial puede aproximarse tambin mediante una variable de Poisson. La diferencia con el
teorema central del lmite (que aproxima la binomial por la normal) es que la aproximacin a la
Poisson es cuando < . (el suceso es un suceso raro). Si . (como en este caso), la
aproximacin se hace mediante la normal. En este caso, el teorema central del lmite se llama
teorema de Moivre. De Moivre demostr el teorema de convergencia de una distribucin binomial
a la normal antes de que se demostrara el teorema central del lmite que, como hemos visto, sirve
para la suma de variables cualesquiera.

RESUMEN

(, ) ( = ) > 30 < 0.1


(, ) , (1 ) > 30 > 0.1
() , ( > 1000 la aproximacin es muy buena)
A partir de > 10 la aproximacin empieza a funcionar bien.
Y recordad que una hipergeomtrica tambin se aproxima por una binomial si
() < 0.1

pg. 196
Estadstica fcil con hoja de clculo

EJEMPLO REAL DE INTERS: PUTIN CONTRA GAUSS

Extrado parcialmente del blog:


http://matemolivares.blogia.com/2011/121501-las-matematicas-no-enganan-gauss-
tampoco..php
En las siguientes grficas se representa el polgono de frecuencias de la variable
participacin electoral, en tanto por ciento, en una mesa electoral. Es decir, en cada mesa
electoral se anota el porcentaje de gente que acudi a votar, y luego se forma una tabla de
frecuencias donde la frecuencia absoluta es el nmero de mesas electorales con un porcentaje
de voto determinado.
En la Figura 92 aparecen las grficas correspondientes a las elecciones en Mxico (2009),
Polonia (2010), Bulgaria (2009) y Suecia (2010). Los polgonos de frecuencias son campanas de
Gauss o se aproximan bastante. En todo caso, se podra apreciar alguna ligera asimetra por los
extremos. Es decir, hay pocas mesas donde hay poca participacin, un nmero alto de mesas

Figura 92

pg. 197
Estadstica fcil con hoja de clculo

electorales tienen una participacin media, y hay pocas mesas con participacin del 90-100 por
cien (parece lo habitual, vaya).
En la Figura 93 vemos el mismo polgono de frecuencias en las elecciones de Rusia (2010)
(grfico de la izquierda) y en las cuatro anteriores (grfico de la derecha). Casualmente en Rusia
hay muchas mesas electorales con participacin altsima.

Figura 93

Protesta pblica en Rusia donde vemos manifestantes mostrando los


grficos. Aqu no los ponen porque los polticos no pueden
entenderlos.

UN POCO DE HISTORIA SOBRE PUTIN

Cuando, en 1991, se desintegr la Unin Sovitica, el presidente de Rusia era Boris


Yeltsin (foto), famoso por dejar en quiebra las fbricas de vodka el da que muri, aparte de ser
gran amigo de Bill Clinton. Al igual que otras repblicas soviticas que se independizaron, como

pg. 198
Estadstica fcil con hoja de clculo

Letonia, Estonia, etc., Chechenia intent ser


independiente y, dado que tiene petrleo y gas, no
le dejaron, as que su parlamento decidi
independizarse unilateralmente. Comenz entonces
la primera guerra por la independencia de Chechenia
en 1994. Los chechenos opusieron una gran
resistencia y, despus de graves contratiempos del
ejrcito ruso, en 1996 el general Aleksandr Lebed
logr cerrar un acuerdo de paz que le dio una gran
popularidad en Rusia.
En 1998 Yeltsin se retir a dormir la mona
hasta el 2007 (ao en que muri), conservado en una
marmita de vodka. Vladimir Putin, que era primer
ministro, asumi la presidencia (y se encarg de ir todos los das a mantener bien embalsamado
en alcohol a Yeltsin).
En 1999 se sucedieron explosiones en edificios de viviendas en Mosc y otras ciudades
rusas, con gran nmero de bajas civiles. Se atribuyeron los atentados a los independentistas
chechenos, aunque a da de hoy ni el propio Putin se molesta en discutir sobre quien dio
realmente la orden de volar los edificios (alguna idea?).
A partir de ese momento comenz la segunda guerra chechena, con una nueva estrategia
consistente en:
- Destrozar todo a base de bombardeos masivos.
- Cuando no quedaba prcticamente nada en pie, hacer entrar al ejrcito y detener a
todos los hombres mayores de dieciocho aos como sospechosos de terrorismo, para
ser interrogados y mantenidos presos sin ser juzgados, hasta que se aburrieran.

En el ao 2000 se present a presidente de Rusia. Desde entonces, siempre ha ganado por


abrumadora mayora (hubo una etapa en la que dej de ser presidente porque la ley rusa
prohbe enlazar tres mandatos, pero ya se ocup de colocar a Dimitri Medvedev en el cargo,
mientras l pasaba a ser primer ministro, para luego volver a ser presidente. Se sospecha que
Medvedev es uno de los mejores inventos de la KGB, un robot lo ms parecido a un humano que
se ha inventado).
Vladimir Putin, igual que una serie de polticos espaoles han sido favorecidos con la suerte
de ganar premios de lotera continuamente, ha visto como todos los polticos con aspiraciones
y posibilidades a ser presidentes de Rusia han muerto, han tenido que escapar a la carrera del
pas o han entrado en la crcel. Tambin ha tenido la suerte de librarse de opositores, de
periodistas entrometidos que no aceptan su forma de hacer poltica, etc. Citemos, por ejemplo:
Aleksandr Lebed, al que hemos mencionado antes, que se hizo famoso por haber
logrado los acuerdos de paz de la primera guerra chechena, y aspirante a la presidencia, muri
en accidente de helicptero en 2002.
Mijail Jodorkovski, millonario y opositor poltico, acab en la crcel. Su petrolera, Yukos,
fue embargada por el estado.
Boris Berezovski, millonario opositor, tuvo que escapar de Rusia antes de que le pasara
algo raro. En Reino Unido se encontr con otros examigos de Putin. Entre ellos se encontraba
Aleksandr Litvinenko, que muri envenenado con polonio radioactivo (como todo el mundo
sabe, lo venden en cualquier supermercado).
La famosa periodista Anna Politkvskaya, investigadora de crmenes contra los derechos
humanos en la guerra de Chechenia, Muri tiroteada en el ascensor del edificio de su
apartamento en Mosc el 7 de octubre de 2006.
El presidente de Ucrania durante 2005 a 2010, Vktor Yshchenko, luego de un intento
de asesinato en su contra a finales de 2004 durante su campaa electoral, sufri de una notable

pg. 199
Estadstica fcil con hoja de clculo

desfiguracin. Se confirm que Yschenko haba sido envenenado con cantidades peligrosas de
TCDD, la dioxina ms potente y un contaminante en el Agente Naranja.
El ltimo y sonado caso ha sido el de Bors Nemtsov, otro opositor a Putin con
posibilidades de ser elegido presidente, que fue asesinado el 27 de febrero de 2015,
casualmente por terroristas chechenos, y casualmente mientras paseaba con su novia por una
zona aledaa al Kremlin donde hay cmaras de seguridad grabando continuamente, pero ese
da estaban estropeadas.

VARIABLE CHI-CUADRADO

Se escribe variable 2 . El hecho de que su funcin de densidad dependa de un nmero


entero positivo llamado grados de libertad hace que se hable de la distribucin 2 con
grados de libertad. As, existe una variable para cada valor de mayor o igual a 1. Esta variable
aparece cuando se suman variables aleatorias independientes con distribucin (0,1),
elevadas al cuadrado.
2 = 12 + 22 +. . . +2 , con (0,1).
A continuacin aparecen dibujadas varias funciones de densidad, dependiendo del
nmero de grados de libertad .

Figura 94

No reproducimos aqu la frmula de la densidad por innecesaria. Quien est interesado


puede acudir, por ejemplo, a la wikipedia (igual que tampoco haremos en los dos casos
siguientes, la distribucin de Student y la distribucin ). El inters de esta distribucin radica
en su uso para la construccin de intervalos de confianza y realizacin de contrastes de hiptesis.
Quien necesite calcular reas relacionadas con esta variable, dispone de la plantilla distribucion-
chi-cuadrado.xlsx.

VARIABLE DE STUDENT

pg. 200
Estadstica fcil con hoja de clculo

La variable (o de Student) aparece a partir de la distribucin normal y la Chi-cuadrado,


puesto que si es una variable (0,1), e es una variable aleatoria independiente de , con
distribucin Chi-cuadrado con grados de libertad, entonces la variable

=
/
es una variable con distribucin con grados de libertad. La distribucin de Student (con
grados de libertad) es una variable aleatoria cuya funcin de densidad tambin tiene forma de
campana y es simtrica. Es, por lo tanto, muy parecida a la densidad de la variable (0,1) (de
hecho, la media o esperanza de cualquier variable de Student es cero). Sin embargo, tiene colas
ms pesadas que la campana de Gauss, lo que significa que el rea o probabilidad en los
extremos izquierdo y derecho de la curva es mayor que en el caso de la distribucin normal.
Estos hechos pueden visualizarse en la imagen de la funcin de densidad (tomada de wikipedia),
donde se representan diferentes valores del parmetro (df en la grfica, de degree freedom).

Figura 95

Hay que resear que, a medida que el nmero de grados de libertad aumenta, la curva
se parece cada vez ms a la campana de Gauss, lo cual sucede a partir de valores como = 40,
siendo la coincidencia total para = . El inters de esta variable es, igual que en el caso de
la variable Chi-cuadrado, su aparicin en la construccin de intervalos de confianza y realizacin
de contrastes de hiptesis.
La frmula de la funcin de densidad de la variable fue publicada en 1908 por William
Sealy Gosset (1876 - 1937), mientras trabajaba en la fbrica de cervezas Guinness, en Dublin.
Existe la ancdota de que el origen del seudnimo Student, que fue el seudnimo utilizado
por Gosset para escribir el artculo de investigacin matemtico donde define la variable, vino
motivado porque la direccin de la fabrica impeda a los empleados la publicacin de trabajos
cientficos.
Quien necesite calcular reas relacionadas con esta variable, dispone de la plantilla
distribucion-t.xlsx. Sugerencia: jugar un poco calculando probabilidades en la t de Student con
valores de los grados de libertad mayores que 30 y 40, y viendo las diferencias con respecto a la
normal estndar.

pg. 201
Estadstica fcil con hoja de clculo

VARIABLE F DE FISHER-SNEDECOR

La distribucin es conocida habitualmente como la distribucin F de Snedecor, o


distribucin F de Fisher-Snedecor, en honor a R.A. Fisher (1890 - 1962) y George W. Snedecor
(1881 - 1974). Su funcin de densidad es bastante complicada, y depende de dos parmetros 1
y 2 que son sus grados de libertad. La utilidad de esta distribucin es, de nuevo, la construccin
de intervalos de confianza y realizacin de contrastes de hiptesis. La distribucin aparece a
travs de la distribucin Chi-cuadrado, puesto que si sigue una distribucin 2 , e es otra
2
variable (independiente de ) con distribucin , entonces la variable definida como
/
= ,
/
sigue una distribucin con y grados de libertad. A continuacin, algunos casos concretos
para la densidad (fuente: wikipedia).
Como no poda ser menos, tenemos la plantilla F.xlsx para calcular reas relacionadas
con esta variable.

Figura 96

pg. 202
Estadstica fcil con hoja de clculo

RESUMEN DE PLANTILLAS

Como hemos visto, disponemos de una plantilla para cada una de las variables continuas
que hemos introducido (excepto para la uniforme, que es muy fcil), y tambin disponemos de
la plantilla general tablas-distribuciones.xlsx, que es la ms prctica si nicamente queremos
calcular la densidad de probabilidad, la funcin de distribucin o la probabilidad entre dos
valores, sin realizar el dibujo del rea correspondiente. En la Figura 97 vemos la parte de la
plantilla para las variables continuas (donde tambin podemos calcular reas para la distribucin
uniforme).

Figura 97

pg. 203
Estadstica fcil con hoja de clculo

PROBLEMAS

PROBLEMA 32
Como era un gran amigo suyo, Juanca ha decidido ir de incgnito al funeral de
Mandela. All, mientras bailaba en los actos de homenaje, se ha cado y roto el hueso palomo.
Un cirujano de la prestigiosa clnica Septiembre (USA) le pone una prtesis experimental. La
duracin media de la prtesis es 10 aos, pero slo si el paciente no baila en absoluto durante
el tiempo que la lleve. Como se sabe que la probabilidad de que Juanca aguante sin bailar
mientras lleve la prtesis es tan slo de 0.1, cul es la probabilidad de que la prtesis aguante
ms de 10 aos?
SOLUCIN.
La variable X=duracin de la prtesis sigue una distribucin exponencial de parmetro
, valiendo el inverso de la media, que son 10 aos (puesto que la esperanza de una
exponencial es precisamente 1/).
La probabilidad de que la duracin sea mayor a 10 aos es
( > 10) = 1 ( 10) = 1 (10) = 1 [1 exp( 10)] =
= exp(1) =0.3679.
Para que la prtesis aguante ms de 10 aos tiene que ocurrir que Juanca aguante sin
bailar, y que la duracin de la prtesis sea mayor a 10. Es decir, tienen que ocurrir ambos
sucesos, que se supone que son independientes. Por lo tanto, la probabilidad de que ocurran
ambos sucesos es el producto de las probabilidades:
( > 10) 0.1 = 0.3679 0.1 = 0.03679

PROBLEMA 33
En un parlamento de un pas imaginario conviven tres partidos A, B y C. El 55% de los
parlamentarios pertenece a la casta (perdn, al partido) A, el 20% a la casta B y el 25% a la
casta C. Los cocientes intelectuales de los parlamentarios siguen distribuciones
(, ), (, ) y (, ), para A, B y C, respectivamente.
a) Si elegimos al azar un parlamentario del partido A, qu probabilidad habr de que
su coeficiente intelectual sea inferior a 64?.
b) Hallar la probabilidad de que el primer parlamentario que nos encontremos tenga
coeficiente intelectual superior a 64.
c) Si el primer parlamentario que nos encontramos tiene coeficiente intelectual menor
de 64, qu probabilidad hay de que pertenezca al partido A?
SOLUCIN.
Llamemos =coeficiente intelectual del partido A. Nos dicen que esta variable sigue
una distribucin normal (75,10). Anlogamente tenemos que (90,10) y
(95,15).
a) Nos preguntan ( < 64).

pg. 204
Estadstica fcil con hoja de clculo

64 75
( < 64) = < = ( < 1.1) = 0.1357.
10
b) Nos preguntan la probabilidad ( > 64). Esta probabilidad
depende de que el individuo que nos encontremos pertenezca al partido A, B o C. Para calcularla,
tendremos que aplicar el teorema de las probabilidades totales (puesto que la suma de
probabilidades () + () + () = 1).
( > 64) = > 64 () + > 64 () + > 64 () =
= ( > 64) () + ( > 64) () + ( > 64) () =
64 75 64 90 64 95
= > () + > () + > () =
10 10 1015
= ( > 1.1) () + ( > 2.6) () + ( > 2.06) () =
= 0.8643 0.55 + 0.9953 0.2 + 0.9803 0.25 = 0.9195.
c) Nos piden
( { < 64}) ( < 64) () 0.1357 0.55
< 64 = = = = 0.9271.
( < 64) 1 ( > 64) 1 0.9195

PROBLEMA 34
Zenn de Citium era un famoso filsofo que tardaba en comer un jabal de media 12
minutos y desviacin tpica 3. Cul era la probabilidad de que tardase menos de 9 horas y
media en comer 50 jabalies?
SOLUCIN.
La variable T=tiempo que tarda Zenn en comer un jabal tiene media 12 y varianza 9.
Por lo tanto, la variable que mide el tiempo en comer 50 jabales sigue,
aproximadamente, una distribucin normal de media 50 12 y varianza 50 9. Es, por lo tanto,
aproximadamente 600, 450 = (600,21.21).
La probabilidad pedida es
570 600
( < 570) = < = ( < 1.41) = 0.0786
21.21
Podemos buscarlo directamente en la plantilla tablas-distribuciones.xlsx.

PROBLEMA 35
El Empire State Building tiene 73 ascensores, que permiten llevar cada uno un peso
variable uniforme entre 0 y 2000 kilos. Cul es la probabilidad de subir, en una sola tanda,
una cantidad de personas cuyo peso sea equivalente al de King-Kong (130 toneladas)?
SOLUCIN.
El peso que soporta un ascensor sigue una distribucin uniforme (0,2) (en toneladas).
0+2 (20)2 4 1
La media es = 1 y su varianza es 12 = = .
2 12 3
Los 73 ascensores soportan un peso
total que, por el teorema central del lmite,
sigue, aproximadamente, una distribucin
1
normal, de media 73 1 y varianza 73 , 3
73
luego es, aproximadamente, 73, =
3
(73,4.93).
La probabilidad pedida es
130 73
( > 130) = > =
4.93
= ( > 11.56) = 0.

pg. 205
Estadstica fcil con hoja de clculo

PROBLEMA 36
Un banco redondea hacia arriba los intereses de 20.000 hipotecas. Suponiendo que
las partes fraccionarias de las hipotecas se distribuyen de forma continua y uniforme entre 0
y 1, cul es la probabilidad de que el banco, con ese msero redondeo, gane ms de un milln
y medio de las antiguas pesetas, para que pueda el director del mismo dar una propina
generosa la prxima vez que vaya a un bar?
SOLUCIN.
Supongamos que el inters por una hipoteca es, por ejemplo, 65437.23 euros. El banco
lo que hace es redondear siempre al alza, es decir, cobra 65438 euros. Como esto lo hace con
tal de que el inters supere un cntimo, el banco siempre gana una cantidad variable, con
distribucin uniforme entre 0 y 100 (cntimos de euro).
Lo que gana el banco es la suma de los redondeos de 20.000 hipotecas. Llamando G a la
variable ganancias
= 1 + 20000,
donde sigue una distribucin uniforme (0,1 ). Por lo tanto, la media es 0.5 y la varianza
es 1/12.
Por el teorema central del
lmite, sigue, aproximadamente, una
distribucin normal, de media 20000 0.5
1
y varianza 20000 , o sea
12
10000, 1666.66
o (10000,40.82).
La probabilidad pedida es
9000 10000
( > 9000) = >
40.82
= ( > 24.49) = 1.

PROBLEMA 37
La vicepresidenta de un parlamento est aprovechando que da un discurso el
presidente del gobierno para jugar en su Tablet al Manolo-Crash. Este juego consiste,
bsicamente, en ir superando pruebas y aguantando tiempo, donde el tiempo de cada prueba
es exponencial de media la mitad de la prueba anterior (la primera prueba tiene una duracin
media de 20 minutos, y consiste en resolver una ecuacin de grado uno).
Cul es la probabilidad de que la vicepresidenta supere la tercera prueba, sabiendo
que consiste en hacer la o con un canuto, y esto a la vicepresidenta le suele llevar 8 minutos?
SOLUCIN.
El tiempo =duracin de la prueba sigue una distribucin exponencial de parmetro
1
= (2)1 (ya que el prametro de la exponencial es la inversa de la media, luego
20
1 20
( ) = = .
1 1
20 (2)1 (2)
Como vemos, cada prueba el tiempo medio se reduce a la mitad.
Nos piden
1
( > 8) = 1 (8), siendo en este caso 4 = (2)41=0.4.
20
Metemos los datos en la plantilla de la exponencial y obtenemos ( > 8) = 0.0408.

pg. 206
Estadstica fcil con hoja de clculo

PROBLEMA MUY TPICO DE LOS EXMENES

Iker Fernndez, en su programa de televisin cuanto temiento, afirma que ha sido


localizado por fin el hangar 18 del rea 51, donde la CIA tiene ocultos los cuerpos de dos
extraterrestres que vinieron a la tierra a participar en Eurovisin. Despus de aos de
investigaciones, se ha descubierto que el peso de los extraterrestres sigue una distribucin
normal de parmetros desconocidos, y se sabe que ( > ) = . , y ( <
. ) = . . Calcular los parmetros de la citada distribucin.
SOLUCIN.
Nos dicen que la variable =peso de los extraterrestres (, ), y que
( > 20) = 0.3 ( < 2.5) = 0.1
Tipificamos:
, 20 , 2.5
> = 0.3 < = 0.1.

Es decir
20 2.5
< = 0.7 < = 0.1

Buscando en las tablas de la distribucin (0,1) (o mejor en nuestra plantilla de la
distribucin normal) los cuantiles que verifican ( < 1 ) = 0.7 y ( < 2 ) = 0.1,
obtenemos que 1 = 0.52 y 2 = 1.28.

pg. 207
Estadstica fcil con hoja de clculo

Por consiguiente,

20 2.5
0.52 = 1.28 =

Esto corresponde a un sistema de dos ecuaciones con dos incgnitas. Resolvemos y se
obtiene
= 14.94, = 9.72

Nota: cuando nos referimos a que este ejercicio es muy tpico de exmenes, nos referimos a dar
dos probabilidades y que pidan calcular y , no nos referimos a que pongan problemas sobre
extraterrestres.

pg. 208
Estadstica fcil con hoja de clculo

Un intervalo de confianza de nivel (donde es un nmero entre 0 y 1) para estimar


un parmetro es un intervalo de valores (, ) que contiene al parmetro con probabilidad
1 , es decir ( (, )) = 1 .
se llama nivel de significacin. 1 es el nivel de confianza. En general, es un
nmero prximo a 0, con lo que 1 est prximo a 1.
Cojamos, por ejemplo, = 0.05. Que el parmetro est en un intervalo con una
confianza del 95% significa que, si dispusiramos de todas las posibles muestras que pudisemos
extraer de la poblacin, el 95% de ellas contendran al parmetro, y habra un 5% de muestras
que no lo contendran (en vez de 95 lase (1 ) 100 para cualquier otro ).
Los valores que, tradicionalmente, se suelen utilizar para el nivel de significacin son
0.01,0.05 y 0.1.
La manera general de construir, matemticamente, un intervalo de confianza para un
parmetro , suele ser a travs de un estadstico llamado pivote, con distribucin conocida
(como la normal, la de Student, la Chi-cuadrado o la ). Dicho estadstico pivote se utiliza
tambin para realizar los contrastes de hiptesis para el parmetro , que veremos en el
siguiente captulo. Los intervalos de confianza para un parmetro suelen tener la forma (
, + ), donde es un estimador de y es una cierta cantidad que depende del tamao de
la muestra y del nivel de significacin . Cuanto mayor sea el nivel de confianza 1 que
pretendamos, mayor longitud tendr el intervalo. Anlogamente, a menor nivel, menor
longitud. Asimismo, cuanto mayor sea el tamao de la muestra, menor ser la longitud del
intervalo.

pg. 209
Estadstica fcil con hoja de clculo

Nota: si no se conoce nada acerca de lo que es un estadstico, o un estimador, o una


muestra, consultar el libro El estadstico accidental (Quintela).

INTERVALOS DE CONFIANZA PARA VARIABLES ALEATORIAS NORMALES

Sea una variable aleatoria normal, que mide una caracterstica de inters en una
poblacin, (, ). Exponemos, a continuacin, cules son las frmulas de los intervalos de
confianza para los parmetros y .
Se parte de una muestra aleatoria simple (1 , 2 , , ).

INTERVALOS DE CONFIANZA PARA LA MEDIA

Existen dos posibilidades para calcular un intervalo de confianza para el parmetro :


conocer la desviacin tpica o no conocerla.

INTERVALO CONOCIENDO LA DESVIACIN TPICA


El intervalo tiene la frmula

/2 , + /2 ,

siendo
1 +. . . +
=


la media muestral, y /2 el valor de una distribucin (0,1) que deja a su derecha de rea,
2

es decir es el cuantil o valor que deja a la izquierda una probabilidad 1 .
2

Este cuantil podemos calcularlo utilizando la plantilla distribucion-normal.xlsx, por


medio de la cuarta grfica que tenemos en la plantilla (Figura 98). En esta caso, hemos calculado
el valor que deja a la derecha rea 0.05 (o 0.1/2), que es 1.64.

INTERVALO DESCONOCIENDO LA DESVIACIN TPICA

pg. 210
Estadstica fcil con hoja de clculo

Figura 98
Es muy dificil que, en un caso real, se tenga la informacin de cul es la desviacin tpica
terica o verdadera de la poblacin, por lo que el intervalo anterior no resulta, en la prctica,
eficaz. Al desconocerse lo que se hace es estimarla a partir de una muestra, usando la cuasi-
desviacin tpica muestral. El intervalo que resulta utiliza la distribucin de Student, vista en el
captulo anterior.
El intervalo es
1 1
1,/2 , + 1,/2

siendo 1,/2 el valor de una de Student con 1 grados de libertad que deja a la derecha
/2 de rea (igual que en el caso anterior, es el cuantil que deja a la izquierda rea o

probabilidad 1 , pero debemos buscar dicho valor en la densidad con 1 grados de
2
libertad). 1 es la cuasi-desviacin tpica muestral

1
1 = ( )2
1
=1

Estos valores podemos buscarlos a partir de la plantilla distribucion-t-student.xlsx. En la


Figura 99 vemos como calcular, en una de Student con 14 grados de libertad, el cuantil que
deja a la derecha 0.05.

Figura 99

INTERVALO DE CONFIANZA PARA (PARA SIMPLEMENTE SE ELEVAN LOS


VALORES AL CUADRADO)

pg. 211
Estadstica fcil con hoja de clculo

CONOCIENDO LA MEDIA
La frmula del intervalo es
=1 ( )2 =1 ( )2
2 , 2 ,
,/2 ,1/2
2
siendo ,/2 el valor de una Chi-cuadrado, con grados de libertad, que deja a la derecha /2

de rea (Figura 100), o cuantil que deja a su izquierda 1 de rea.
2
Estos valores podemos buscarlos en la plantilla distribucion-chi-cuadrado.xlsx. En la
Figura 100 vemos como calcular, en una Chi-cuadrado con 12 grados de libertad,
simultaneamente los valores que dejan a la izquierda y a la derecha 0.05/2 (0.05 en total) de
rea.

Figura 100

DESCONOCIENDO LA MEDIA
Cuando la media terica no se conoce, se estima mediante la media muestral. En este
caso, la distribucin Chi-cuadrado de referencia tiene un grado menos de libertad. El intervalo
es:
( )2 =1 ( )2
=12 , 2 ,
1,/2 1,1/2
que puede escribirse en funcin de la varianza o cuasi-varianza muestral, del modo:
( 1)1
2
( 1)1
2
2 2
2 , 2 = 2 , 2 ,
1,/2 1,1/2 1,/2 1,1/2
2
siendo 1,/2 el valor de una Chi-cuadrado, con 1 grados de libertad, que deja a la
derecha /2 de rea.
Evidentemente, los valores de la Chi-cuadrado se buscan en la misma plantilla que en el
caso anterior.
Nota. Para calcular directamente los intervalos de confianza, no necesitamos usar las
plantillas de las distribuciones citadas, puesto que los valores de los cuantiles mencionados
los calcula ya directamente la propia plantilla. Ms fcil, imposible.

INTERVALOS PARA LA COMPARACIN DE POBLACIONES

pg. 212
Estadstica fcil con hoja de clculo

Ahora estamos interesados en comparar dos poblaciones o variables ( , ) e


( , ), independientes, a travs de dos muestras (1 , 2 , . . . , ) e (1 , 2 , . . . , ) (los
tamaos de muestra no tienen por qu ser iguales).

INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE MEDIAS


Para dar un intervalo para tenemos cuatro posibilidades.

CONOCIENDO LAS DESVIACIONES TPICAS Y


El intervalo es
2 2
( ) /2 + .

Podemos ver que este es un intervalo de la forma del usado para la media de una nica
muestra, pero ahora aparecen dos medias muestrales, dos tamaos muestrales y dos varianzas.

DESCONOCIENDO LAS DESVIACIONES TPICAS PERO SUPONIENDO QUE SON


IGUALES
( 1)1
2
+ ( 1)1
2
1 1
( ) +2,/2 + .
+ 2
Si no conocemos la varianza (pero suponemos que las dos variables tienen la misma),
entonces la estimamos. Cmo? Pues mediante la muestra (1 , 2 , . . . , ) realizamos una
estimacin 1
2
; mediante la muestra (1 , 2 , . . . , ) realizamos una segunda estimacin 1
2

y, a continuacin, se toma la media ponderada (como ponderaciones usamos los tamaos


muestrales):
( 1)1
2
+ ( 1)1 2
.
+ 2
Esta es una estimacin de la varianza. Calculando la raz cuadrada tenemos una
estimacin de la desviacin tpica. Ahora, en el intervalo de confianza, en vez de utilizar la
variable o normal, utilizamos la de Student.

DESCONOCIENDO LAS DESVIACIONES TPICAS Y SUPONIENDO QUE LOS


TAMAOS DE LAS MUESTRAS SON GRANDES (, )

1
2
1
2
( ) /2 +

Si los tamaos de muestra son grandes (y no se conocen las desviaciones tpicas ni se


puede suponer que sean iguales), entonces se aprovecha que la de Student se parece a la
distribucin normal, tanto ms cuanto ms grande es el nmero de grados de libertad. Por eso
sale ahora un intervalo de confianza igual al del primer caso (donde conocamos las varianzas),
pero ahora no las conocemos y las sustituimos por sus estimaciones.

DESCONOCIENDO LAS DESVIACIONES TPICAS Y SUPONIENDO QUE LOS


TAMAOS DE LAS MUESTRAS SON PEQUEOS (, < )

pg. 213
Estadstica fcil con hoja de clculo

1
2
1
2
( ) +
+2,
2

siendo el entero ms prximo a
2
2 2
( 1) 1

( 1) 1

2 2
2 1
2
( 1) 1
+ ( 1)

INTERVALO DE CONFIANZA PARA LA RAZN DE VARIANZAS

El intervalo de confianza para la proporcin o cociente de varianzas (2 /2 ) es


1
2
1
2
1,1,1/2 2 , 1,1,/2 2 ,
1 1
siendo 1,1,/2 el valor de una F de Fisher-Snedecor, con 1 y 1 grados de libertad,

que deja a la derecha /2 de rea (o sea el cuantil que deja a la izquierda 1 2 de rea).
Igual que en el caso de una nica muestra, los cuantiles de de una distribucin F de
Fisher-Snedecor se pueden buscar en la plantilla distribucin-F.xlsx, pero si queremos calcular
los intervalos de confianza a travs de dos muestras, no necesitaremos tampoco usarla.

CASO DE MUESTRAS RELACIONADAS O PAREADAS

Puede darse el caso de que las muestras que tengamos no sean independientes, sino
que estn relacionadas o pareadas (segn los textos, aparece el trmino pareadas o apareadas).
La diferencia entre muestras independientes o relacionadas es que, en el segundo caso, se dan
dos mediciones de la misma o similar caracterstica para cada individuo, o para dos individuos
de idnticas caractersticas relevantes de la muestra. Por ejemplo, cuando observamos el peso
de una serie de personas antes y despus de realizar una dieta, o bien si de una serie de personas
medimos las caractersticas peso y estatura, no podemos considerar que las muestras son
independientes. En ambos casos tendramos ejemplos de muestras apareadas.
El tratamiento de este caso es muy sencillo. Si disponemos de dos muestras (debern
ser de igual tamao) (1 , 2 , . . . , ) e (1 , 2 , . . . , ), de las variables ( , ) e (
, ), lo que haremos ser trabajar con la variable de diferencias = (o , es
indiferente), y por tanto con una sola muestra (1 , 2 , . . . , ), donde = . Lo que nos
puede interesar ser calcular intervalos de confianza o estimaciones de la media de la variable
(o de su desviacin tpica).

INTERVALOS PARA PROPORCIONES

INTERVALO PARA UNA PROPORCIN

Supongamos que se mide una cierta caracterstica en una poblacin. Sea = () la


proporcin de elementos de la poblacin con dicha caracterstica. El parmetro se estima

pg. 214
Estadstica fcil con hoja de clculo

puntualmente mediante la proporcin muestral = (nmero de elementos con la carcterstica


en la muestra de tamao )/. El intervalo de confianza de nivel para el parmetro es de
la forma
(1 )
/2 ,

donde /2 es el valor de una (0,1) que deja a su derecha /2 de rea.

INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE PROPORCIONES

Ahora suponemos dos poblaciones en donde se considera la misma caracterstica . 1


es la proporcin de elementos con dicha caracterstica en la primera poblacin, y 2 es la
proporcin en la segunda poblacin. Se toma una muestra de tamao 1 de la primera
poblacin, y otra de tamao 2 en la segunda, y se calculan las respectivas proporciones
muestrales 1 y 2 . El intervalo de confianza para la diferencia 1 2 es
1 (1 1 ) 2 (1 2 )
(1 2 ) /2 +
1 2

PROBLEMAS

PROBLEMA 38
A travs de los aos, se sabe que los funcionarios de ventanilla tienen un rendimiento
(horas) real en el trabajo cuya desviacin tpica es de 3. Para saber cmo estn funcionando
las nuevas medidas (recortes de salario, acoso laboral, ruido, cortes de luz, supresin de la
calefaccin, etc. ) del gobierno en el rendimiento medio, se ha realizado un estudio a 14
funcionarios a los que se les midi el rendimiento de trabajo de un dia cualquiera
(rendimiento= horas ante el ordenador - horas mirando internet):
(. , . , . , . , , . , . , . , . , . , . , , , )
Calcular un intervalo de confianza para el tiempo medio de rendimiento, al 90 por
ciento de confianza.
SOLUCIN.
Como el intervalo de confianza para la media (cuando la desviacin tpica es conocida,
que en este caso es 3) es

/2 , + /2 ,

tenemos que calcular = 3.139, = 1 0.9 = 0.1 /2 = 1.645, y el intervalo sale
3 3
3.139 1.645 , 3.139 + 1.645 = (1.82, 4.458)
14 14
Como podemos observar en la Figura 101, este intervalo se realiza en la plantilla IC-
media-varianza.xlsx introduciendo los datos en la columna de la izquierda (acordndose de
borrar los que puedan estar en la plantilla de usos anteriores), y automticamente se obtienen
los resultados de la media muestral, el valor de /2 (indicando el valor de , lgicamente), y el
intervalo de confianza, sin necesidad de hacer ningn clculo.

pg. 215
Estadstica fcil con hoja de clculo

Figura 101

PROBLEMA 39
En la imagen de la Ilustracin 4 podemos observar el sueldo de los 30 ejecutivos mejor
pagados en Espaa durante 2013 (Fuente: El pas, 09/05/2014).
Estos datos ya los usamos en el Captulo 1. De nuevo, vamos a suponer que el sueldo
medio actual terico es, ms o menos, el medio entre estas 30 personas cualesquiera , es
decir, 4.75 (millones de euros anuales). Calcular un intervalo de confianza para la desviacin
tpica al 95 por ciento, de manera que podemos hacernos unas estimaciones para el prximo
ao de sueldos mximos y mnimos (media ms menos 3 veces la desviacin tpica, suponiendo
normalidad), cuando nos ofrezcan un trabajo de reponedor en cualquier superficie comercial
de barrio.
SOLUCIN.
Como los datos muestrales son los que aparecen en la imagen, el intervalo de confianza
para la desviacin tpica tiene la forma (conocemos la media = 4.75):
( )2 ( )2
=1 2 , =12 ,
,/2 ,1/2
2
siendo ,/2 el valor de una Chi-cuadrado con = 30 grados de libertad que deja a la derecha
2 2 2
/2 = (1 0.95)/2 = 0.025 de rea. En este caso, ,/2 = 30,0.025 = 46.979 y 30,0.0975 =
16.791. El intervalo es

pg. 216
Estadstica fcil con hoja de clculo

Ilustracin 4

62.226 62.226
, = (1.150, 1.925).
46.979 16.791
En la Figura 102 vemos que, al introducir los datos en la primera columna de la plantilla
IC-media-varianza.xlsx, y los datos de la media terica y de (envueltos en crculos en la primera
tabla), ya se obtienen directamente los valores que habra que calcular y el correspondiente
intervalo de confianza (rodeados por crculos).

Figura 102

PROBLEMA 40
Para tratar de estimar la media de consumo por cliente, el dueo de un restaurante
que acaba de abrir decide hacer una estimacin a partir de sus primeros 49 clientes,

pg. 217
Estadstica fcil con hoja de clculo

obtenindose una media de gasto de 22.60 euros y una cuasi-desviacin tpica muestral de
2.50 euros.
Con un coeficiente de confianza del 95%, calcular un intervalo de confianza para la
media, y otro para la dispersin del gasto.
SOLUCIN.
El Intervalo de confianza para la media es (dado que no conocemos la desviacin tpica
terica)
1 1
1,1/2 , + 1,/2 .

En este caso, = 22.6, 1 = 2.50 y 1,1/2 corresponde a 48,1/2, = 2.011 ( =
2.5
0.05). El intervalo de confianza es (22.6 2.0.11 ) = (21.882, 23.318).
49
Para la desviacin tpica, el intervalo es (como no conocemos la media terica):
( 1) 1
2
( 1) 1
2
2 , 2 ,
1,/2 1,1/2
2 2 2 2
donde 1,/2 = 48, 0.05 = 69.023. 1,1,/2 =
48,1
0.05 = 30.755, de forma que el
2 2
intervalo para la dispersin queda
48 2. 52 48 2. 52
, = (4.346, 9.754) = (2.084,3.123).
69.023 30.755

Con la plantilla de Excel (Figura 103), nicamente introduciendo los datos que nos dan
(en crculos en la columna de la izquierda), obtenemos los resultados que nos hacen falta y los
intervalos (segunda y tercera columna).

Figura 103

Por sacar alguna


conclusin, y suponiendo que
esos 49 primeros clientes
suponen una muestra aleatoria
representativa del resto de
clientes a lo largo del tiempo, si
usamos los lmites superiores
de ambos intervalos, el dueo
del restaurante podra
esperarse (pensando en
optimista) una media de gasto
de 23.31 euros + dos o tres
veces la desviacin tpica
(3.12). Es decir, siendo muy

pg. 218
Estadstica fcil con hoja de clculo

optimista 23.31 + 3 3.12 = 32.67 euros. O sea, que no se espere gran cosa el bueno del
emprendedor, que lo mismo est muy mal el barrio por la crisis (o bien ha puesto el restaurante
en un barrio de cutres). En caso de desesperacin, siempre le quedar llamar a Chicote.

PROBLEMA 41
Las intervenciones de Hugo Chuvez en el programa al presidente eran famosas
por su duracin. Aqu tenemos una muestra aleatoria de la duracin (horas) de algunas de sus
intervenciones:
(. , . , . , . , . , . , , . , . , . , . , . , , ,
. , . , . , , . , . , . , . , . , . , . )
Calcular un intervalo de confianza para la media de horas de duracin de los discursos,
al 95 por ciento.

SOLUCIN.
En este caso, tendramos que calcular los datos necesarios para calcular un intervalo de
confianza para la media (desconociendo la desviacin tpica terica):
1 1
1,1/2 , + 1,/2 .

Lo que hacemos es introducir los datos en la columna izquierda de la plantilla de Excel e
indicar el nivel = 0.05, y ya va todo mucho ms rpido (al menos ms rpido que en un
discurso de Chuvez).

Figura 104

pg. 219
Estadstica fcil con hoja de clculo

Segn podemos ver en la Figura 104, el intervalo es (6.5392, 7.180)

PROBLEMA 42
En un sanatorio psiquitrico acaban de inventar un nuevo test para evaluar, ante la
llegada de enfermos graves y peligrosos, si deben aplicarle terapia (electroshock) o aislarlo en
una celda casi de por vida. Para ello, le van a preguntar cuntas veces ha sido capaz de ver
2001, una odisea del espacio o Memento (cualquiera de las dos pelculas tiene los mismos
efectos). Para discriminar qu nmero es grande, eligen una muestra aleatoria de enfermos
del bloque de los gafapasta sin remedio, y anotan el nmero de veces que vieron alguna de
las dos pelculas:
(38, 25, 42, 21, 36, 55, 29, 44, 31, 40, 26, 34).
Calculando intervalos de confianza para la media y la desviacin tpica, los mdicos
van a utilizar el extremo superior como valor alto para aplicar electroshock, y dos veces dicho
valor para encerrar al enfermo. Para una confianza del 95 por ciento, de qu valores
hablamos?
SOLUCIN.
En la Figura 105 vemos el resultado de introducir en la plantilla la columna con los datos.
La estimacin de la desviacin tpica viene dada por la cuasi-desviacin tpica muestral 1 =
9.51, y el intervalo de confianza para la desviacin tpica es (6.737,16.147).

Figura 105

Como el intervalo de confianza para la media es (29.04, 41.12), los mdicos deciden
poner los siguientes lmites:
41.12 + 16.147 = 57.26 (sobre 57 veces para aplicar electroshock)
41.12 + 2 16.147 = 73.41 (sobre 73 veces para aislamiento)

PROBLEMA 43
Cuando, al poco tiempo de empezar la democracia en Espaa, sali al mercado la
revista Intervi, la gran mayora de la gente deca que la compraba por la poltica, no por las
mujeres desnudas. Hoy en da, dicha revista contina en el mercado, y es habitual en las
barberas de caballeros para amenizar las esperas. La empresa encuestadora Chisma-2 ha
entrevistado a una muestra de 200 caballeros saliendo de la barbera, preguntndoles si leen
el Intervi fundamentalmente por la poltica. 184 carotas (digo, caballeros) contestaron que
s. En base a estos datos, construir un intervalo de confianza (al 95 por ciento) para la
proporcin de mentirosos (que van a las peluqueras no mixtas) de este pas.
SOLUCIN.

pg. 220
Estadstica fcil con hoja de clculo

El intervalo de confianza para una proporcin es


(1 )
/2 .

184
En este caso, = = 0.92, /2 = 1.96, = 200. El intervalo sale:
200

184 184 184 184


184 (1 200) 184 (1 200)
1.96 200 , + 1.96 200 = (0.8824,0.9576),
200 200 200 200

es decir, el intervalo va del 88.24 al 95.76 por ciento. Para calcular el intervalo con poco
esfuerzo, podemos usar la plantilla IC-proporciones.xlsx. Los datos que nos dan los introducimos
en la primera tabla (en crculos), y los resultados aparecen en la segunda (Figura 106).

Figura 106

PROBLEMA 44
Con los datos del ejercicio anterior, se pretende repetir la experiencia para conseguir
que la cota del error que se comete al estimar, por un intervalo de confianza, la proporcin de
gente que lee intervi, no precisamente por la poltica, no sea superior a 0,03, con un nivel de
confianza del 99%. Cuntas personas tendran que tomar, como mnimo, en la muestra?
SOLUCIN.
Con una probabilidad de 0.99, queremos que el error no exceda el 3 por ciento, es decir
se requiere calcular tal que | | 0.05.
Como
(1 )
| | /2 ,

tendremos que (si 1 = 0.99 /2 = 2.64),
(1 ) 0.92(1 0.92)
/2 0.03 2.64 0.03

2.642 0.92 0.08


= 569.96.
0.0009

Por lo tanto, ha de ser mayor o igual a 570.

pg. 221
Estadstica fcil con hoja de clculo

PROBLEMA 45
Un grupo de estudiantes de ADE+Derecho Erasmus van a Roma. Un catedrtico un
poco cabroncete les ha mandado fotografiarse con un grupo de personas que supieran hablar
romano (o latn, que el catedrtico les ha dicho que era lo mismo). Tras buscar y buscar, logran
encontrar a 10 personas que lo hablan (curas del vaticano que estn de permiso). Dado que
se pasaron toda la tarde y preguntaron a 3000 personas, calcular un intervalo de confianza al
95 por ciento para la cantidad de gente que habla romano en Roma (o de curas del vaticano
que van sin sotana por Roma).
SOLUCIN.
(1)
El intervalo de confianza para una proporcin es /2 . En este caso, =

10
= 0.0033. Introduciendo estos datos en la plantilla (con = 0.05), obtenemos la tabla de
3000
la Figura 107, donde vemos que el intervalo de confianza es (0.0013,0.0054), es decir va del
0.13 al 0.54 por ciento.

Figura 107

PROBLEMA 46
En Hollywood existe bastante confusin entre los actores Javier Bardem y Jeffrey Dean
Morgan. Se elige por la calle aleatoriamente a 100 personas, y se les ensea una foto de
Bardem, pidindoles que marquen una casilla segn quien crean que es. 52 personas aciertan.
Se hace lo mismo con otras 100 personas a las que se les ensea una foto de Jeffrey Dean
Morgan, y slo 53 personas aciertan. Crees que a lo mejor son la misma persona?

pg. 222
Estadstica fcil con hoja de clculo

Quin es Quien?

SOLUCIN.
Denotamos por 1 la proporcin de gente que reconoce correctamente a Javier Bardem,
y 2 el porcentaje de gente que reconoce correctamente a Jeffrey Dean Morgan. El intervalo de
confianza para la diferencia 1 2 es
1 (11 ) (12 )
(1 2 ) /2 + 2 .
1 2
Vamos a elegir un nivel de confianza del 95 por ciento, es decir /2 = 1.96. Tenemos
52 53
que 1 = , 2 = , = 2 = 100. El intervalo de confianza es
100 100 1

52 52 53 53
52 53 100 (1 100) 100 (1 100)
( ) 1.96 + = (0.1484,0.1284).
100 100 100 100

Como vemos, la proporcin de gente que reconoce correctamente a Bardem puede


coincidir con la proporcin de gente que reconoce correctamente a J.D. Morgan (puesto que el
intervalo de confianza contiene al cero). O, lo que es lo mismo, la proporcin de gente que se
equivoca (creyndose que es la otra persona) pueden coincidir. Si estuvisemos en un programa
de Iker Jimnez, tendramos que exigir un anlisis de ADN a ambos actores. Como aqu no
llegamos a eso, tendremos que fiarnos de lo que dicen los peridicos y creer que son personas
distintas, porque tampoco me imagino a nadie que conozca en persona a los dos actores y que
est necesitado de leer este libro.

PARECIDOS RAZONABLES

PROBLEMA 47

pg. 223
Estadstica fcil con hoja de clculo

Para que quede constancia de la popularidad del noble arte de cuchares dentro de la
farndula nacional, aqu van los siguientes datos. En las plazas de Espaa y Francia que
celebraron corridas de toros en 1999 y 2000, se obtuvieron los siguientes resultados:
Orejas Rabo Cuernos
Espaa 900 971 5588
Francia 51 120 145 (haba un toro manco)
En Espaa se lidiaron 7250 toros y en Francia 334. Con estos datos, el ministro Wert
logr hacer gala de la marca Espaa ante los avergonzados franceses, que slo supieron
presentar cifras de mayor calidad educativa en la universidad y en la investigacin.
A la vista de estos datos, y con respecto a los cuernos, es mayor o menor la
proporcin de cuernos por corrida en Espaa o en Francia?
Con respecto a los rabos franceses y espaoles, puede afirmarse que la proporcin
de rabos por corrida es mayor en Espaa que en Francia?
SOLUCIN.
Llamemos 1 la proporcin de cuernos por corrida en Espaa, y 2 la proporcin de
5585 145
cuernos en Francia.Tenemos que 1 = , 2 = . El intervalo de confianza para la
7250 334
diferencia 1 2 es
5585 5585 145 145
5585 145 7250 (1 7250) 334 (1 334)
= 1.96 + = (0.2822,0.3902),
7250 334 7250 334

que puede calcularse directamente en la plantilla, segn vemos en la Figura 108. Esto es, entre
el 28.22 por ciento y el 39.02 por ciento de diferencia, nada menos.
Con respecto a los rabos, llamando ahora 1 la proporcin de rabos por corrida en
971
Espaa, y 2 la proporcin de rabos por corrida en Francia, tenemos que 1 = = 0.134,
7250
120
2 = = 0.359. Introducimos estos datos en la plantilla y los resultados de la Figura 109 nos
334
proporcionan directamente el intervalo de confianza (0.2774, 0.1733).

Figura 109

Figura 108

pg. 224
Estadstica fcil con hoja de clculo

Aqu observamos que la diferencia de proporciones es negativa, es decir, que aunque


los espaoles tenemos ms rabos por corrida, en proporcin nos ganan los franceses.

PROBLEMA 48
El nmero de fotos de famosas desnudas que consigue un Hacker a travs de telfonos
Sifones se distribuye segn una distribucin N(300; ), para = , , dependiendo de la
versin de software de primer o segundo ao. De telfonos con software del primer ao
consigue hackear 10 telfonos de sendas famosas, obteniendo el siguiente nmero de
fotografas:
300, 290, 280, 307, 305, 295, 299, 305, 300, 307.
Del segundo ao hackea 12 telfonos y consigue las siguientes fotos:
280, 300, 307, 290, 285, 295, 300, 260, 290, 300,304, 298.
Hallar un intervalo del 90% para el cociente de varianzas.
SOLUCIN.
El intervalo de confianza para la razn de varianzas es
1
2
1
2
1,1,1/2 2 , 1,1,/2 2 .
1 1
Aqu, = 10; = 12; 1 = 8.561; 1 = 12.894.
Los valores de la distribucin son
9,11,0.025 = 0.322; 0.05 = 2.896.
9,11,1
2
Por lo tanto, el intervalo de confianza es

12.894 12.894
0.322 , 2.896 = (0.731,6.57).
8.561 8.561
En la Figura 110 tenemos los resultados al meter en la plantilla los datos de las dos
variables (segundo cuadro en la segunda fila).

pg. 225
Estadstica fcil con hoja de clculo

Figura 110

PROBLEMA 49
Con objeto de estudiar si una marca de lencera que se produce en fbricas del tercer
mundo es menos abusiva que una marca de churros que produce en la misma regin, se
cuentan el nmero de accidentes mensuales en cada una de las fbricas.

Fbrica 1 74 77 71 76 79 74 83 79 83 72 79 77 81 79 84 82

Fbrica 2 81 84 80 73 78 80 82 84 80 84 75 82 79 82

Calcular un intervalo de confianza para la diferencia de medias entre accidentes en la


fbrica de lencera y la fbrica de churros, suponiendo que las varianzas de cada grupo son
iguales. Usar = . .
SOLUCIN.
El intervalo de confianza para la diferencia de medias, suponiendo que las varianzas por
grupos son iguales, es:
1 1
( ) +2, + =
2

2 +(1) 2
(1)1 1 1
= ( ) +2,/2 1
+ .
+2
Los resultados que se obtienen son:
Grupo A: = 16, = 78.125, 1 = 3.981
Grupo B: = 14, = 80.286, 1 = 3.268.
+2,/2 = 28,0.05 = 2.048.
2
La desviacin tpica del total es:

pg. 226
Estadstica fcil con hoja de clculo

15 3.9812 + 13 3.2682 1 1
= + = 3.667 0.366 = 1.3421.
28 16 14
Haciendo los clculos, el intervalo de confianza resulta:
(4.910,0.589).
Como vemos, el intervalo de confianza para la diferencia de medias contiene al cero,
con lo que, con esta muestra, no podemos afirmar que el nmero medio de accidentes sea
diferente segn la fbrica.

PROBLEMA 50
Resolver el ejercicio anterior suponiendo que no sabemos que las desviaciones tpicas
tericas sean iguales.
SOLUCIN.
Suponiendo que las varianzas (o desviaciones tpicas) no son iguales, el intervalo de
confianza es (dado que los tamaos de muestra son menores que 30):
2
1 2
1
( ) +2,/2
+
,
con el entero ms prximo a la frmula monstruo (qu terrible es, dios mo...)
2
1
2
1
2
3.9812 3.2682
2
( 1) ( 1) 13 16 15 14
2 2 = 2 2 = 0.0957.
1
2
1
2 3.9812 3.2682
( 1) + ( 1) 13 16 + 15 14

Figura 111
que, como podemos ver, nos evitamos calcular, mirando en el resultado de la plantilla (Figura
111, columna cuarta), que aparece ampliada en la Figura 112.
En consecuencia, = 1, y el valor de es 281,0.025 = 2.048. Como

2 2 3.9812 3.2682
1 + 1 = + = 1.3
16 14
que tambin nos la da la plantilla, igual que el
intervalo final:

(4.873, 0.552).

Molan las plantillas, verdad?

Figura 112

pg. 227
Estadstica fcil con hoja de clculo

Nota: La teora de este captulo est bastante ms desarrollada en el libro El estadstico


accidental (Quintela, 2013).

Una hiptesis estadstica es una afirmacin que se hace sobre una o ms caractersticas
de una poblacin (decir que la vida media de un televisor son tantas horas, que un determinado
producto hace adelgazar, que a la gente le gusta mayoritariamente el morbo...). Un test o
contraste de hiptesis es algn procedimiento para aceptar o rebatir dicha hiptesis o
afirmacin.
Los contrastes pueden ser de tipo paramtrico o no paramtrico, segn se refieran o
no a parmetros de una poblacin (a la media, a la varianza, a una proporcin...).

pg. 229
Estadstica fcil con hoja de clculo

Una hiptesis paramtrica es una afirmacin sobre una o ms caractersticas


(parmetros) de una poblacin. Si dicha hiptesis especifica un nico valor para el parmetro la
llamaremos hiptesis simple. Ejemplo: la estatura media de los varones espaoles mayores de
18 aos es 1.77 m ( = 1.77).
Si se especifica ms de un valor para el parmetro la llamaremos hiptesis compuesta.
Ejemplo: 1.75.
Ejemplos de hiptesis no paramtricas:
- Las notas de una asignatura son normales (la variable =nota sigue una distribucin
normal).
- Los resultados de un sorteo no son aleatorios (la variable =resultado no sigue una
distribucin uniforme).
El planteamiento de una hiptesis estadstica (y su alternativa) es una primera forma de
afrontar la llamada teora estadstica de la decisin. As, por medio de un test o contraste de
hiptesis, el investigador deber tomar una decisin entre dos alternativas. La manera de
hacerlo ser elegir una muestra lo suficientemente representativa de la poblacin en estudio, y
ver si los resultados que se obtienen son coherentes con la hiptesis formulada. Por ejemplo,
cuando queremos comprobar si las notas de una asignatura siguen una distribucin normal, una
posible forma de tomar una decisin sera representar los resultados de un examen por medio
de un histograma de frecuencias y chequear el parecido con la campana de Gauss., o tambin
calcular la curtosis y ver si est prxima a cero. Lgicamente, al tomar una muestra siempre
habr desviaciones conforme a la base terica que planteemos. Lo que habr que estudiar es si
esas desviaciones son fruto de la casualidad o no.

La realizacin de un contraste implica la existencia de dos hiptesis:


Hiptesis nula.
Se denota por 0 , y se asume como correcta.
Hiptesis alternativa.
Se denota por 1 , y es la que pretendemos contrastar como opuesta a la hiptesis nula.

En ocasiones, la hiptesis nula se llama de igualdad, porque se presupone que es la


hiptesis que cumple la poblacin, y la alternativa ha de demostrar lo contrario.
La hiptesis nula es la que el investigador asume como correcta, y se trabaja con el
principio bsico de que es cierta mientras los datos no prueben con gran certidumbre lo
contrario. Ahora bien, tras realizar un test o contraste, la aceptacin de 0 no implica que sta
haya sido probada al 100 por 100, sino que los datos no han proporcionado evidencia suficiente
como para refutarla. En este sentido, la consideraremos neutra pero nunca totalmente probada.
Es habitual poner como ejemplos de hiptesis nula y alternativa las siguientes:
a) Una persona llega a un hospital.
0 : enfermo. 1 : no enfermo.
b) Un acusado en un juicio.
0 : inocente. 1 : culpable.
Obviamente, hemos indicado dos problemas que, generalmente, no se resuelven con
ayuda de las matemticas. Sin embargo, los ejemplos nos van a servir perfectamente para
ilustrar los diferentes conceptos y tcnicas de trabajo que tendremos que desarrollar en un
anlisis numrico - estadstico.
Centrmonos en el caso b) y recordemos lo dicho un par de parrfos ms arriba. La
hiptesis nula (en este caso 0 : inocente) es cierta mientras no se pruebe lo contrario. Es el
principio bsico de la justicia en todo pas civilizado. Est claro que para demostrar lo contrario
hay que presentar un buen nmero de pruebas que la tiren por tierra.
Cmo se procede? Como todos sabemos, un jurado popular o profesional analiza las
pruebas presentadas contra el acusado y toma una decisin. Las pruebas presentadas por el
fiscal son las que muestran evidencia a favor de 1 : culpable. Seran el arma del crimen, las

pg. 230
Estadstica fcil con hoja de clculo

huellas, los testigos, la cara de malo del sospechoso, los vecinos que siempre sospecharon de l
porque les pareca raro, sus dudas, la autoinculpacin en un primer interrogatorio (esto no suele
contar si hay hematomas por el medio)...
Por medio de un test o contraste de hiptesis, el investigador deber tomar una decisin
entre dos alternativas. La manera de hacerlo ser elegir una muestra lo suficientemente
representativa de la poblacin en estudio, y ver si los resultados que se obtienen son coherentes
con la hiptesis formulada.
Cuando estamos realizando un contraste pueden darse las situaciones que vemos en
la siguiente tabla

REALIDAD
0 1
RECHAZO 0 Error tipo I Decisin correcta
1 Decisin Correcta Error tipo II

Denotamos por:
=P(rechazar 0 siendo cierta)=P(Error tipo I).
se llama nivel de significacin del contraste.
=P(aceptar 0 siendo falsa)=P(Error tipo II).
1- = (rechazar 0 siendo falsa) se llama Potencia del contraste (mide la
probabilidad de acertar cuando rechazamos 0 ).

TEST O CONTRASTES DE TIPO PARAMTRICO

Una hiptesis paramtrica es una afirmacin sobre una o ms caractersticas


(parmetros) de una poblacin.
Si dicha hiptesis especifica un nico valor para el parmetro la llamaremos hiptesis
simple.
Ejemplo: la estatura media de los varones espaoles mayores de 18 aos es 1.77 m ( =
1.77).
Si se especifica ms de un valor para el parmetro la llamaremos hiptesis compuesta.
Ejemplo: 1.75.
Un contraste es bilateral cuando tiene la forma
: = 0 (Por nos referimos a un parmetro terico y por 0 a un valor constante,
un nmero) frente a
: 0 .
Un contraste unilateral es de la forma:
: = 0 frente a : > 0
o bien
: = 0 frente a : < 0 .
EJEMPLOS:
Con el mayor consumo de chucheras y comida basura, parece que el peso medio de los
nios de 12 aos ha aumentado.
Contraste unilateral
0 : = 26 kg frente a 1 : > 26
El nuevo virus zombi ha provocado una alteracin en el peso de los adultos.
Contraste bilateral:
0 : = 60 kg frente a 1 : 60

pg. 231
Estadstica fcil con hoja de clculo

ETAPAS EN LA REALIZACIN DE UN CONTRASTE DE HIPTESIS

1.-) Especificar las hiptesis nula y alternativa.


2.-) Elegir un estadstico de contraste apropiado (para medir la discrepancia entre lo
observado y lo terico). Este estadstico tendr una funcin de densidad determinada
3.-) Tomar una muestra (1 . 2 , . . . , ) y evaluar el estadstico del contraste bajo 0 , es
decir
= (1 . 2 , . . . , ; 0 ).
4.-) Concluir si la diferencia es estadsticamente significativa (se rechaza 0 o no),
segn el p-valor del estadstico. Para ello podemos fijar un nivel de confianza 1
determinado, y tomar una decisin en base al mismo.
Nivel crtico o valor: es la probabilidad de tener un valor del estadstico igual o
mayor al observado cuando 0 es cierta.
La regla de decisin, tras calcular el p-valor, es:

Si p valor > aceptamos 0

Si p valor rechazamos 0

Si no se fija ningn , la regla general es


Si p valor > 0.1 aceptamos 0

Si p valor 0.1 rechazamos 0

De todos modos, si el p valor est entre 0.1 y 0.2, es mejor ampliar la muestra.

Nota: Rechazar una hiptesis no prueba que sea totalmente falsa. Podemos cometer un
error de tipo I. (rechazamos que sea inocente, va a la crcel, pero tal vez puede haber
pruebas no consideradas )
No rechazar una hiptesis no prueba que sea totalmente cierta. Podemos cometer un error
de tipo II.

pg. 232
Estadstica fcil con hoja de clculo

PRINCIPALES CONTRASTES PARAMTRICOS

Los contrastes paramtricos ms utilizados se refieren a los mismos parmetros que se


estudian en intervalos de confianza: la media y la desviacin tpica (o varianza) de una variable
normal, la diferencia de medias de dos variables, la razn o proporcin de varianzas, y los
contrastes sobre una o dos proporciones de caractersticas de inters en una poblacin.

CONTRASTE PARA LA MEDIA DE UNA VARIABLE NORMAL

La hiptesis nula para este contraste es


0 : = 0

SI SE CONOCE LA DESVIACIN TPICA

El estadstico (y su distribucin) es

= (0,1).
/
Como ya se coment en el captulo de intervalos de confianza, no es habitual conocer la
desviacin tpica real de una poblacin, por lo que, para realizar contrastes relativos a la media
de una poblacin normal, se utiliza casi exclusivamente el siguiente estadstico basado en la
distribucin de Student.

SI NO SE CONOCE LA DESVIACIN TPICA

En este caso, el estadstico para realizar el contraste es

pg. 233
Estadstica fcil con hoja de clculo


= 1 .

1 /

PARA LA VARIANZA

La hiptesis nula del contraste es


0 : 2 = 02

SI SE CONOCE LA MEDIA

En este caso, el estadstico para realizar el contraste es


ni=1 (xi )2
w= 2n .
2o

SI NO SE CONOCE LA MEDIA

En este caso, el estadstico para realizar el contraste es


2 ( 1)1
2 =1 ( )2 2
= 2 = = 1 .
2 2
Volvemos a sealar que, en la prctica, parece bastante irreal el conocer la media terica
de la poblacin, con lo cual el estadstico a utilizar habitualmente es este ltimo.

PARA LA DIFERENCIA DE MEDIAS

Suponemos ( , ) e ( , ), y que tenemos dos muestras aleatorias


simples (1 , 2 , . . . , ) e (1 , 2 , . . . , ) de las variables. Queremos contrastar
0 : = o = 0.
Los estadsticos para este contraste son los siguientes.

CONOCIENDO LAS DESVIACIONES TPICAS


( ) ( )
= (0,1).
2 2
+

DESCONOCIENDO LAS DESVIACIONES TPICAS PERO SUPONINDOLAS IGUALES


(x y) (X Y )
w= t n+m2 .
2 2
(n 1) Sn1 + (m 1) Sm1 1 + 1
n+m2 n m

DESCONOCIENDO LAS DESVIACIONES TPICAS Y SUPUESTO QUE LOS TAMAOS


DE LAS MUESTRAS SON GRANDES (, )

pg. 234
Estadstica fcil con hoja de clculo

( ) ( )
= (0,1)
1
2 1
2

+
(el smbolo indica que la distribucin, en lugar de ser exacta, es una aproximacin).

DESCONOCIENDO LAS DESVIACIONES TPICAS Y SUPUESTO QUE LOS TAMAOS


DE LAS MUESTRAS SON PEQUEOS (, < )
( ) ( )
= +2 ,
1
2 1
2

+
siendo el entero ms prximo a
2
1
2
1
2
( 1) ( 1)
2 2.
1
2
1
2
( 1) + ( 1)

PARA LA RAZN DE VARIANZAS


Para realizar el contraste
2
0 : 2 = , el estadstico a utilizar es

1
2
2
= 2 1,1 .
1 2
Este test nos sirve para saber si podemos considerar las varianzas de 2 variables e
iguales o no, que es necesario para contrastar despus la igualdad de las medias. Para ello,
2 2
tendremos que contrastar 0 : 2 = 1 frente a 1 : 2 1.

PARA UNA PROPORCIN

Consideramos la proporcin terica de una caracterstica en una poblacin. Nos


interesa realizar el contraste
0 : = 0 .
En este caso, el estadstico a usar es
0
= (0,1).
0 (1 0 )

PARA LA DIFERENCIA DE PROPORCIONES

0 : 1 = 2 o 1 2 = 0.

pg. 235
Estadstica fcil con hoja de clculo

(1 2 ) (1 2 )
= (0,1).
(1 1 ) 2 (1 2 )
1 +
1 2

CASO DE DOS MUESTRAS RELACIONADAS (APAREADAS)

Por ltimo, si suponemos 2 variables o poblaciones e , ( , ),


( , ), pero dependientes (observaciones antes y despus en los mismos individuos, etc.),
estaremos en el caso de muestras o variables pareadas, que ya tratamos en el captulo anterior.
Igual que vimos all, de la variable se escoger una muestra (1 , 2 , , ) y de otra muestra
(1 , 2 , , ) (los tamaos de las muestras han de ser iguales), y trabajaremos con la variable
= o , con lo que estaremos en la situacin de anlisis de una nica muestra.

PROBLEMAS

PROBLEMA 51
El Banco central de Hispanistn afirma, en su ltimo informe trimestral, que la cotizacin
de las acciones del banco Manguia se distribuye normalmente con desviacin tpica 800 euros.
Un jubilado selecciona una muestra aleatoria de la cotizacin alcanzada en 100 das, obteniendo
como cotizacin media =2100 euros. A partir de este valor, y dado que, como buen ahorrador,
no se fa del banco, quiere contrastar la posibilidad de que la cotizacin media pueda ser =2900
euros (media + desviacin tpica, que es el mximo que puede alcanzar una variable, segn todo
buen estadstico de barra de bar).
SOLUCIN.
Se trata de contrastar
0 : = 2900 frente a 1 : < 2900.
Como nos dicen que la desviacin tpica es conocida e igual a 800, el estadstico a utilizar
es

= / (0,1).

En este caso,
21002900

= 800 = 10.
100
Para realizar el contraste de forma fcil, abrimos la plantilla test-media.xlsx e
introducimos los datos en el tercer caso, que es el correspondiente a que no nos dan los datos
de la muestra, solo los clculos. En la siguiente grfica vemos el resultado del estadstico (
, que
es -10) y como queda dicho valor muy a la izquierda de la curva normal, lo que significa que el
rea a la izquierda es cero (p-valor).

Figura 113

pg. 236
Estadstica fcil con hoja de clculo

Al ser el p-valor cero no


podemos aceptar la hiptesis nula. El
jubilado deber aceptar que la
cotizacin media no va a llegar a 2900,
pero puede seguir pasando la tarde
probando valores ms pequeos en la
hiptesis nula.

PROBLEMA 52
La federacin de lucha sumo establece que la variable que mide el peso de los monitores
es una variable normal con media 140 kilos y desviacin tpica igual a 15 kilos. Una delegacin
de 125 monitores van al congreso anual mundial de lucha sumo, y en el ritual del peso se obtiene
una media de 135. Se puede afirmar, con un nivel de significacin del 5%, que los monitores
han adelgazado?
SOLUCIN.
Se trata de contrastar
0 : = 140 frente a 1 : < 140.
Como nos dicen que la desviacin tpica es conocida e igual a 15, el estadstico a utilizar
es

= (0,1).
/
En este caso,
135140

= 15 = 3.726.
125
El contraste es igual que en el ejercicio anterior, y la plantilla a usar es la misma (test-
media.xlsx). El p-valor es prcticamente 0 (Figura 114). Como p es menor que = 0.05, no
podemos aceptar la hiptesis nula, es decir que la federacin debe reformar los valores de peso
medio de los monitores (o alimentarlos mejor).

Figura 114

PROBLEMA 53
En un hilo de un conocido foro de coches, la mayora de los participantes dicen que, al
ir a repostar a una gasolinera, echan una media de 20 euros, independientemente de cmo est

pg. 237
Estadstica fcil con hoja de clculo

el precio de la gasolina. Con el fin de contrastar la hiptesis, en una gasolinera de Robonor se


selecciona una muestra aleatoria de 30 conductores, obtenindse una media de dinero gastado
en repostar de 18.73 euros, y una varianza muestral 2 =16.202. Con estos datos, se puede
aceptar como cierto lo que se afirma en el foro?
SOLUCIN.
Vamos a contrastar
0 : = 20 frente a 1 : 20.
Para la muestra que nos dan, los valores que se obtienen son:
= 30, = 18.73, 2 = 16.202.
A partir de la varianza muestral 2 , se puede obtener directamente la cuasi-varianza
2
muestral 1 a partir de la relacin
2 2
2 = ( 1) 1 1 = 2
1
2
En este caso, 1 = (30/29) 16.202 = 16.761 1 = 4.093, y el valor del
estadstico del contraste es
18.7320

= = = 1.699.
1 / 4.093/30
El p-valor, en este caso, es dos veces el rea a la izquierda de 1.69, (por ser un test
bilateral). Lo buscamos en una distribucin con 29 grados de libertad, y es 0.099 (Figura 115).
Para valores de iguales a 0.01 o 0.05 no se podra rechazar la hiptesis. En cambio, para un
valor de igual a 0.1 no se aceptara. Proponemos entonces tomar una muestra ms grande
para poder obtener un p-valor ms concluyente, porque sabemos que en los foros de coches
hay mucho trolero.

Figura 115

PROBLEMA 54

pg. 238
Estadstica fcil con hoja de clculo

El peso neto escurrido de un determinado tipo de conserva en lata es una varianza


aleatoria distribuida normalmente. En el etiquetado de las latas se afirma que el peso neto
medio escurrido es igual a 150 g. Un sindicalista cabreado entra en un supermercado, toma una
muestra aleatoria de 15 latas y las pesa, obteniendo que la media es 148.234 y la desviacin
tpica muestral 4.072. Al momento, empieza a gritar en medio del supermercado "delincuentes,
delincuentes, nos roban a mano armada!". Tiene derecho a armar la bronca el sindicalista?
SOLUCIN.
El sindicalista se cabrea porque el peso medio muestral ha salido ms bajo que el que
afirma la lata de conservas. Vamos a contrastar entonces
0 : = 150 frente a 1 : < 150.
Para la muestra que ha tomado el sindicalista, los valores que se obtienen son:
= 15, = 148.234, = 4.072.
2
De la relacin entre la varianza muestral 2 y la cuasi-varianza muestral 1 podemos
obtener la cuasi-desviacin tpica
15
1 = = 4.072 = 4.21
1 14
Entonces, el valor del estadstico del contraste es
148.234150

= = 4.21 = 1.62.
1 /
15
El p-valor ser el rea a la izquierda de este valor, en una distribucin con 14 grados
de libertad, que es 0.0633 (Figura 116, obtenida usando la misma plantilla que en los problemas
anteriores). Ocurre que para valores de como 0.01 o 0.05 no se podra rechazar la hiptesis

Figura 116
nula, pero s se podra rechazar para valores de como 0.1. O sea, que lo mejor ser que el
sindicalista tome una muestra ms grande para tener una opcin clara, antes de liarla.

pg. 239
Estadstica fcil con hoja de clculo

PROBLEMA 55
Dos candidatos a alcalde de diferentes ayuntamientos deciden realizar publicidad
electoral regalando alcohol de garrafn en el botelln del viernes. Esa noche, en el primer
ayuntamiento, de 35 accidentes de coche que se producen, 24 han sido debidos al alcohol de
garrafn, mientras que en el segundo ayuntamiento, de 63 accidentes, 41 fueron debidos al
alcohol. Podemos concluir que utilizaron la misma gasolina para hacer la mezcla (el garrafn
era precisamente gasolina con agua destilada)?
SOLUCIN.
Las proporciones muestrales de accidentes por alcohol son, en cada ayuntamiento, 1 =
24 41
y 2 = .
35 63
El contraste que se plantea es
0 : 1 = 2 frente a 1 : 1 2 . 0 es lo mismo que 1 2 = 0.
El estadstico para este contraste es
(1 2 ) (1 2 )
= ,
1 (1 1 ) 2 (1 2 )
+
1 2
que sigue, aproximadamente, una distribucin (0,1) cuando 0 es cierta. El valor del
estadstico para las muestras observadas es:

24 41 24 41
( 63) (1 2 ) ( 63) 0

= 35 = 35 = 0.353.
24 24 41 41 24 24 41 41
35 (1 35) 63 (1 63) 35 (1 35) 63 (1 63)
+ 63 + 63
35 35
En este caso, debemos utilizar la plantilla test-2-proporciones.xlsx. El p-valor es el doble
del rea a la derecha de 0.353 (Figura 117), que es 0.72. Por consiguiente, podemos concluir
que los alcaldes fueron a la misma gasolinera (que les da comisin, por otro lado), para hacer
las mezclas para repartir.

Figura 117

PROBLEMA 56
Un profesor africano, no precisamente de escuela, sin de estos que mete papeles en
los buzones, asegura en su publicidad, dirigida a mujeres con problemas para tener hijos, ms

pg. 240
Estadstica fcil con hoja de clculo

del 92% de embarazos tras la primera sesin. Con el fin de contrastar esta afirmacin, el
ministerio de santidad ha elegido aleatoriamente una muestra de 60 mujeres, de las que 42
quedan embarazadas tras la primera sesin. Ponen en duda estos resultados la publicidad del
profesor africano?
SOLUCIN.
Contrastamos 0 : la proporcin es , es decir 0.92 frente a 1 : > 0.92.

El estadstico del contraste es = que sigue, aproximadamente una distribucin
(1)


(0,1) cuando 0 es cierta.
42
En este caso, = = 0.7, con lo que
60
0.7 0.92

= = 6.28.
0.92 (1 0.92)
60
El p-valor es el rea a la derecha de -6.28 en una (0,1), que es 1, luego no
rechazaramos la hiptesis nula, es decir se rechazara claramente la alternativa ( > 0.92, que
es lo que afirma el profesor africano).
Todos estos resultados los vemos en la Figura 118.

Figura 118

pg. 241
Estadstica fcil con hoja de clculo

PROBLEMA 57
Un control de calidad de una fbrica de preservativos considera averiada la mquina
principal si la varianza del peso en aire de los preservativos inflados es mayor o igual que 0.02
g 2 , pues en ese caso podran llegar a explotar. Se selecciona una muestra aleatoria de 30
preservativos resultando que su varianza es de 0.03 g 2 . Suponiendo que la poblacin de
preservativos inflados por la mquina es normal con media desconocida, chequear con nivel de
significacin del 5% si la mquina puede considerarse como averiada.
SOLUCIN.
Se quiere contrastar 0 : 2 = 0.02 frente a 1 = 2 > 0.02
El estadstico a utilizar es

( 1)1
2
2
= 1 si 0 es cierta.
2
En este caso, como nos dan la varianza muestral, 2 = 0.03, podemos calcular la
cuasivarianza muestral mediante la frmula

1
2
= 2 = 0.17622 ,
1
o bien utilizar el cuadro para vagos que tenemos en la plantilla test-varianza.xlsx (Figura 119)

Figura 119

Obtenemos
29 0. 17622

= = 45.01.
0.02
Como vemos en la Figura 119, el p-valor es 0.0293, con lo que, salvo para un nivel del 1
o 2 por ciento, no aceptaramos la hiptesis nula, con lo que mandaramos a reparar la mquina,
que con estas cosas no se juega.

PROBLEMA 58
Se suele decir que los hombres "se tiran una y cuentan veinte" (y no jugando al parchs,
precisamente). Para comprobar la veracidad de esta afirmacin, un grupo feminista realiza una
encuesta annima entre 12 hombres, usuarios habituales de cierto foro de internet,
preguntando el nmero de mujeres (distintas, y las experiencias zooflicas no cuentan) con las
que han estado durante el ltimo ao. Los resultados han sido: 120, 80, 16, 230, 53, 95, 31, 18,
125, 162, 7, 38, 45, 6, 114, 92. Al mismo tiempo, se pregunta a 12 mujeres, del mismo rango
de edad, con cuntos hombres han estado el ltimo ao y los resultados son: 2, 5, 7, 2,
1,1,0,5,4,3,3,6.
SOLUCIN.
Si llamamos =nmero de veces que lo hacen los hombres, y =nmero de veces
que lo hacen las mujeres, el grupo feminista quiere saber si es cierto que = 20. Como
sabemos, al multiplicar una variable por una constante, la nueva variable tiene media y
desviacin tpica la de la variable anterior multiplicada por la constante:

pg. 242
Estadstica fcil con hoja de clculo

() = 20(), () = 202 () () = 20().


En base a esto, podemos plantear el test
22
0 , 2 = 202 .
1
El estadstico para este contraste es
1
2
22
= 2 1,1 si 0 es cierta.
1 12

En este caso, las cuasi-varianzas muestrales son 1


2
= 3939.6 y 1
2
= 4.75. El valor
3936.6
del estadstico para esta muestra es = 400 = 331755.7895, con lo que el p-valor es
4.75
0, como podemos ver en el resultado de la plantilla test-varianza.xlsx (Figura 120).
Se rechaza entonces la hiptesis de que los hombres en vez de una cuentan veinte. Lo
que parece claro, a la vista de las muestras, es que hay diferencia en las medias. Dejamos
comprobar esto como ejercicio para el lector.

Figura 120

PROBLEMA 59
Un adolescente est probando dos programas para borrar porno del disco duro, ante
una posible invasin de la intimidad de su habitacin por parte de los padres. El tiempo de
borrado puede suponerse normal, con desviaciones estndar 1 = 0.015 y 2 = 0.018. Se cree
que ambos programas tienen un mismo tiempo de borrado. Para ello los prueba varias veces
con diferentes tipos de archivos, anotando el tiempo que cada programa tarda en destruir
(segundos) 10 gigas de porno del disco duro. A la vista de los resultados, puede usarse
cualquiera de los dos programas?

Programa 1 16.03 16.04 16.05 16.05 16.02 16.01 15.96 15.98 16.02 15.99

Programa 2 16.02 15.97 15.96 16.01 15.99 16.03 16.04 16.02 16.01 16
SOLUCIN.
Las varianzas tericas se supone que son 12 = (0.015)2 = 0.000225 y 22 =
(0.018)2 = 0.000324
Planteamos el contraste 0 : = frente a 1 : .
El estadstico del contraste es

pg. 243
Estadstica fcil con hoja de clculo

( ) (1 2 )

=
2 2
1 + 2

que sigue una distribucin (0,1) si 0 es cierta. En este caso
(16.015 16.005) 0

= = 1.3496,
2 2
(0.015) + (0.018)
10 10
Para este valor del estadstico, el p-valor que se obtiene es 0.1771, con lo que no se
podra rechazar la hiptesis nula para niveles inferiores a 0.17, y considerariamos iguales los
tiempos medios.
Para este problema, tendremos que utilizar la plantilla de excel test-diferencia-
medias.xlsx. Como vemos en la Figura 121, introducimos los datos de las muestras en las dos
columnas de la izquierda, y utilizamos el test de la segunda tabla (varianzas conocidas), que nos
da los resultados obtenidos arriba.

Figura 121

PROBLEMA 60
Los siguientes son tiempos de quemado (en minutos) de contenedores realizados por
un gamberro, durante diez jornadas de lucha urbana (hasta que lo pill la policia). Para poder
aplicarle la eximente de enfermedad mental, sus abogados necesitan demostrar que utiliz el
mismo lquido inflamable que usan los pirmanos de psiquitrico, y para ello deben de probar
que las dispersiones de contenedores quemados coinciden con las obtenidas de una muestra de
un pirmano actualmente en el psiquitrico penitenciario.
Contenedores
quemados 63 81 57 66 82 82 68 59 75 73
gamberro
Contenedores
quemados 64 72 83 59 65 56 63 74 82 82
pirmano
SOLUCIN.
A partir de las dos muestras, hay que plantear un test de igualdad de varianzas:
2
0 : 12 = 22 frente a 1 : 12 22 . Bajo 0 , 22 = 1.
1
El estadstico para este contraste es
1
2
22
= 2 1,1 si 0 es cierta.
1 12

pg. 244
Estadstica fcil con hoja de clculo

En este caso, las cuasi-varianzas muestrales son 1


2
= 88.71 y 1
2
= 100.44. El valor
del estadstico para esta muestra es
88.71

= 1 = 0.8832.
100.44
El p-valor, en este caso, hay que buscarlo en la tabla de la distribucin con 9 y 9 grados
de libertad. Podramos usar la plantilla distribucion-F.xlsx para buscar el rea resultante. Ahora
bien, todos estos resultados los tenemos en la plantilla para test de diferencia de medias (primer
rectngulo), segn vemos en la Figura 122. El p-valor es 0.8562, es decir que se aceptara 0
casi sin ningn gnero de duda, con lo cual el gamberro podra salir a la calle a seguir haciendo
de las suyas.

Figura 122

PROBLEMA 61
Para decidir la compra de ordenadores para los informticos de una empresa, el jefe de
la seccin opta entre dos marcas. Para tomar la decisin, se mide lo que tardan en conectarse a
los peridicos online ms visitados por los informticos.
Marca Tiempo de conexin.
Manzana 14 14.1 13.9 14 13.8 14.4
HdP 13.5 13.8 14 13.9
Suponiendo que las varianzas son iguales, puede decirse que el tiempo de conexin es
similar para ambas marcas de ordenador?
SOLUCIN.
Planteamos el test 0 : = frente a
1 : .
Introducimos los datos en las dos primeras
columnas de la plantilla. Debemos realizar un test para
diferencia de medias, supuesto que las varianzas son
desconocidas pero iguales. El recuadro correspondiente
de la plantilla (Figura 123) nos da todos los resultados. A lo
que nos interesa: valor del estadstico es 1.7 y el p-valor es
0.12.
Entonces, con los niveles ms habituales de
0.01,0.05 y 0.1 no se rechazara la hiptesis nula (al menos
Figura 123
con esta caca de muestras).

pg. 245
Estadstica fcil con hoja de clculo

PROBLEMA 62
Un anestesista de la seguridad social, debido a los recortes en la anestesia para
operaciones, ha decidido mezclar vino con dos compuestos de su invencin. El rendimiento que
consigue (ratio de la duracin del colocn consiguiente comparado con el de anestesia normal)
es el siguiente (probado en seis pacientes del hospital, y en otros tantos vecinos de su barriada)
Rendimiento (%)
Anestsico 1 (X) 24.2 26.6 25.7 24.8 25.9 26.5
Anestsico 2 (Y) 21 22.1 21.8 20.9 22.4 22
Puede creerse que alguno de los dos anestsicos tiene un rendimiento medio mejor
que el otro?
SOLUCIN.
En este caso, primero debemos comprobar si las varianzas pueden considerarse iguales
o no.
0 : 12 = 22 frente a 1 : 12 22 .
Introduciendo los datos en la plantilla, vemos en el primer recuadro de la Figura 124 la
columna que nos realiza este contraste. El valor del estadstico para este contraste es 2.39 y el
p-valor es 0.35, con lo que no rechazamos la hiptesis de igualdad de varianzas. Bajo este
supuesto, ahora realizamos el test para igualdad de medias, con varianzas desconocidas pero
supuestas iguales.
Debido a que = 25.61 y que = 21.7, nos planteamos un test del tipo
0 : = frente a 1 : < .

Figura 124

La realizacin del test est en la


columna de la derecha de la Figura 124 (slo
hemos tenido que elegir el signo o direccin de
la hiptesis alternativa del test). Vemos que el
valor del estadstico es 8.48, y el p-valor es 0,
con lo que rechazamos la hiptesis de igualdad
de medias, siendo mejor por lo tanto el
rendimiento del primer anestsico.

PROBLEMA 63
Un sargento de los Navi Seal desea comparar el proceso de montaje de un fusil
ametrallador en condiciones normales frente a una situacin de extrema gravedad. Para ello

pg. 246
Estadstica fcil con hoja de clculo

selecciona ocho de sus mejores hombres y toma nota del tiempo que tardan en montar en fusil,
en condiciones normales, y ms tarde simulando que la unidad es atacada por un comando de
polticos que no han salido elegidos y estn desesperados buscando un cargo. Se seleccionaron
ocho de los mejores hombres del pelotn, y se les pidi que montasen las armas en ambas
situaciones. Los siguientes son los tiempos observados en segundos.
SOLDADO 1 2 3 4 5 6 7 8
Tiempo normal 38 32 41 35 42 32 45 37
Tiempo extremo 30 32 34 37 35 26 38 32
SOLUCIN.
Se quiere saber si el tiempo medio en situacin extrema es inferior al de una situacin
normal, es decir
0 : = frente a 1 : > .
En este caso, las muestras son dependientes (muestras relacionadas o apareadas),
porque son los mismos soldados. Hay que calcular las diferencias entre los datos de una muestra
y la otra: = (1 = 1 1 , , = ) = (8,0,7, 2,7,6,7,5), y ahora el contraste a
realizar es 0 : = 0 frente a 1 : > 0. Esto es, simplemente un test para la media de una
muestra, para el que utilizaremos la plantilla test-media.xlsx.
El estadstico es


=
1 /
Para las muestras observadas, tenemos que = 4.75, 1 = 3.69 y = 0 bajo 0 .
En consecuencia,
4.75

= = 3.63
3.69/8
El p-valor del contraste es 0.99588 (Figura 125).

Figura 125

PROBLEMA 64
La asociacin de defensa del espectador de televisin ha emitido una queja por la
cantidad de minutos de anuncios en medio de los programas. Para ello, ha escogido una muestra
aleatoria de 20 programas en cadenas de todo tipo y anotado el tiempo del primer bloque de
anuncios (minutos):
6, 6.6, 6.5, 5.8, 7, 6.3, 6.2, 7.2, 5.7, 6.4, 6.5, 6.2, 6, 6.5, 7.2, 7.3, 7.6, 6.8, 6
Al espectador medio esta queja no le preocupa, ms bien al contrario, puesto que est
preocupado porque en alguna de esas treguas para ir al bao no le de tiempo a terminar la
faena. Podr ir al bao tranquilo el espectador medio, con una confianza del 95 por ciento, si

pg. 247
Estadstica fcil con hoja de clculo

el tiempo medio de evacuacin, segn la O.M.S., para un homo-televisivus medio est tasado
en 6.8 minutos?
SOLUCIN.
Hay que contrastar 0 : = 6.8 frente a 1 : < 6.8.
Introduciendo los datos en la plantilla (Figura 126), vemos que el valor del estadstico es
-2.15 y que el p-valor, que es el rea a la izquierda, resulta 0.02.
En este caso, se aceptar la hiptesis nula para valores pequeos de (0.01), pero, o
bien se coge una muestra ms grande para tomar una decisin con mayor precisin estadstica,
o, tal vez lo mejor ser llevarse un televisor al retrete para no perder detalle del programa.

Figura 126

TEST DE INDEPENDENCIA DE CARACTERES

Este test est directamente relacionado con lo visto en el captulo 2 sobre tablas de
contingencia y relacin entre dos atributos.
En el test o contraste de independencia, se desea decidir si las dos variables en una tabla
de contingencia estn o no asociadas. Este es un ejemplo de contraste no paramtrico, puesto
que ahora en la hiptesis nula no hacemos referencia a ningn parmetro. Las hiptesis del test
son las siguientes:
0 : Las variables en filas y columnas de la tabla son independientes
1 : Hay asociacin o dependencia entre las filas y columnas de la tabla

pg. 248
Estadstica fcil con hoja de clculo

Cuando tenemos un par de variables estadsticas cuyos valores son atributos,


recordemos que representbamos dicho par mediante una tabla de contingencia. Con lo visto
hasta ahora, podemos estudiar la dependencia o independencia entre las variables o atributos
mediante un test de hiptesis que utiliza la variable Chi-cuadrado.
Regresemos al ejemplo que vimos en el captulo 2, sobre la tabla de muertos y
supervivientes segn el billete de primera, segunda o tercera clase, en el Titanic.

Sobrevive No sobrevive Total


Primera clase 194 128 322
Segunda clase 119 161 280
Tercera clase 138 573 711
Total 451 862 1313

Por medio de una grfica de barras ya puede intuirse si hay dependencia o


independencia entre las variables.

INDEPENDENCIA

Formalmente, X es independiente de Y si se verifica que:


| = = 1, , = 1,2, , .
es decir, si las frecuencias condicionadas coinciden con las frecuencias marginales. De la misma
forma se define la independencia de Y respecto de X.
Tambin hemos visto en el captulo 2 que otra forma de expresarlo es que X e Y son
independientes si las frecuencias absolutas coinciden con las esperadas.
= = 1, , = 1,2, , .
Las (frecuencias esperadas) se calculan como
. .
=

Por ejemplo, el valor de la celda (1,1) se calcula como
322 451
110.6 =
1313
y se hace igual para cada celda de la tabla.
La tabla de frecuencias esperadas ser, entonces:

pg. 249
Estadstica fcil con hoja de clculo

Sobrevive No sobrevive Total


Primera clase 110,6 211,4 322
Segunda clase 96,2 183,8 280
Tercera clase 244,2 466,8 711
Total 451 862 1313

CONTRASTE DE INDEPENDENCIA

El estadstico que se usa es el Chi-cuadrado (porque usa la distribucin Chi-cuadrado), y


tiene la frmula
( )2 2
= ~(1)(1)


Si hay independencia, las se parecern a las y el valor 2 ser prximo a cero.
Cuanto ms alejado de cero el valor obtenido, mayor dependencia.
Realizaremos el contraste basndonos en una distribucin Chi-cuadrado con (
1) ( 1) grados de libertad para calcular el p-valor.

En nuestro ejemplo: 2 =174.4 y (m-1) x (n-1)=(3-1) x (2-1)=2.


El p-valor lo podemos buscar, por ejemplo, en la plantilla distribucin-chi-cuadrado.xlsx.
Ahora bien, lo ms cmodo es introducir los datos de la tabla en la plantilla tabla-
contingencia.xlsx, que usamos en el captulo de variables bidimensionales, que nos dar
directamente el valor del estadstico y el p-valor. En este caso el p-valor es casi cero (Figura 127).

Figura 127

pg. 250
Estadstica fcil con hoja de clculo

CORRECIN DE YATES

En el caso de tener una tabla de slo dos filas y dos columnas, el estadstico anterior se
transforma, mediante lo que se conoce como correccin de Yates, en
( 0.5)2
2 =

PROBLEMA 65
Un investigador quiere estudiar si hay asociacin entre la prctica deportiva y la
sensacin de bienestar. Para ello extrae una muestra aleatoria de 100 personas. Los datos
aparecen a continuacin.
Sensacin de Prctica deportiva Total
Bienestar S no

S 20 25 45
No 10 45 55
Total 30 70 100
Contrastar la hiptesis de independencia entre bienestar y prctica de deporte.
SOLUCIN.
Introducimos los datos en la tabla
de doble entrada de la plantilla tabla-
contingencia.xlsx. En la Figura 128 tenemos
los resultados. Vemos que el valor del
estadstico es 2 = 6.92 (que se ha
calculado utilizando la correccin de Yates,
al ser una tabla 2 2.
El p-valor es = 0.0085. La decisin, con
un p-valor tan bajo, es no aceptar la
Figura 128
hiptesis de independencia.

CONTRASTE DE HOMOGENEIDAD

Otro caso en que usamos una tabla de contingencia es aqul en que se dispone de una
poblacin clasificada en r subpoblaciones 1 , 2 , , . En cada una de estas poblaciones se
toma una muestra, y los individuos de la misma se clasifican segn una variable Y que puede
tomar m valores posibles 1 , 2 , , . Sea la proporcin de individuos que, en la poblacin
tiene como valor de = .
Un contraste de homogeneidad es cuando se desean contrastar las dos hiptesis siguientes:
0 : 1 = 2 = = para todo ; dicho de otro modo, todas las subpoblaciones
tienen idntica distribucin para la variable .
1 : algunas de estas proporciones son diferentes. Dicho de otro modo, la distribucin
de la variable Y en alguna de estas subpoblaciones es diferente.

El principal objetivo de realizar este contraste es comprobar que las distribuciones de


todas las subpoblaciones son iguales, o si hay alguna que difiere. Esto nos resulta prctico para

pg. 251
Estadstica fcil con hoja de clculo

poder combinar los resultados de todas las subpoblaciones, pues es necesario asegurarse de
que los datos de las distintas muestras que se pretende agrupar son homogneos.

PROBLEMA 66
Se desea saber si la distribucin de los grupos sanguneos es similar en los individuos de
dos poblaciones. Para ello se elige una muestra aleatoria de cada una de ellas, obtenindose los
siguientes datos Qu decisin se debe tomar?
A B AB 0 Total
Muestra 1 90 80 110 20 300
Muestra 2 200 180 240 30 650
Total 290 260 350 50 950
SOLUCIN.
Los grados de libertad son: ( 1) ( 1) = 1 3 = 3.
El valor del estadstico es 2 = 1.76.
Mirando en la tabla Chi-cuadrado obtenemos que la probabilidad de obtener un valor
1.76 o mayor, con 3 grados de libertad, es = 0.62, que es muy alto, con lo que aceptaramos
la hiptesis de que las distribuciones de las subpoblaciones (grupos sanguneos) no difieren.

Fin del libro

pg. 252
Estadstica fcil con hoja de clculo

Aczel, A.D. y Sounderpandian, J. Complete busines statistics. McGraw-Hill.


http://highered.mheducation.com/sites/0073373605/student_view0/index.html
Anscombe, F. J. (1973). "Graphs in statistical analysis". The American Statistician 27 (1):
1721.
Brownlee, K. Statistical theory and methodology. Editorial Wiley.
Conover, W.J. Practical nonparametric statistics. John Wiley & Sons
Draper, N.R. y Smith, H. Applied regression analysis. John Wiley and Sons.
Kahneman, D. Pensar rpido, pensar despacio. Editorial Debate.
Gonick, L. y Smith, W. La estadstica en cmic. Editorial Zendrera Zariquiey, Barcelona.
IBM Corp. IBM SPSS Statistics for Windows, Version 23.0. Armonk, NY: IBM Corp.
Microsoft. Excel 2013. https://support.office.com
Montgomery, D. C. y Runger, G. C. Probabilidad y estadstica aplicadas a la ingeniera.
McGraw-Hill.
Paulos, J. El hombre anumrico. El analfabetismo matemtico y sus consecuencias.
Editorial Tusquets.
Pea Snchez de Rivera, D. Fundamentos de estadstica. Alianza Editorial.
Pieiro Snchez, C. y de Llano Monelos, P. (2011). Finanzas empresariales. Teora y
modelos con hoja de clculo. Editorial Andavira.
Poblacin Sez, A. Las matemticas en el cine. Proyecto Sur de Ediciones.
Quintela del Ro, A. Problemas estimulantes de probabilidad y estadstica. Editorial
Lulu.com. http://alejandroquintela.com/libros
Quintela del Ro, A. El estadstico accidental. Editorial Lulu.com.
http://alejandroquintela.com/libros
R Core Team (2015). R: A language and environment for statistical computing. R
Foundation for Statistical Computing, Vienna, Austria. http://www.R-project.org/
Spaeth, H. Mathematical algorithms for linear regression. Academic Press.
Tukey, J. Exploratory data analysis. Editorial Pearson.
Varios. Biblia, La. Antiguo y Nuevo Testamento.

pg. 253
Estadstica fcil con hoja de clculo

Aczel (segundo), 45
Amir, 14 Confianza
Aditividad, 165 nivel de, 209
Anscombe Contraste
Francis, 95 bilateral, 231
Apuntamiento, 45 Chi-cuadrado, 250
Asimetra de independencia, 250
coeficiente de, 154 potencia del, 231
negativa o a la izquierda, 44 unilateral, 231
positiva o a la derecha, 44 Correlacin, 74
Atributo, 17 Covarianza, 74
Bayes Cramer, 96
teorema de, 127 Cuantil, 35
Thomas, 127 de una variable aleatoria, 152
Bernoulli Cuarteto de Anscombe, 95
prueba de, 163 Cuartil, 35, 152
variable de, 163 Curtosis, 45
Biblia, 103 coeficiente de, 154
Binomial Darwin
variable, 165 Charles, 81
Binomial negativa Dato
variable, 173 anmalo, 49, 50
Bisbal atpico, 49
David, 39 extremo, 49
Blancanieves, 33 Datos, 16
Boxplot, 49 Decil, 35, 152
Clculo de probabilidades, 15 DeMorgan
Campana de Gauss, 45, 189 leyes de, 113
Carcter, 17 Densidad
Cartograma, 21 funcin de, 144
Centro de gravedad, 31, 74 Desviacin estndar, 38
Chi-cuadrado, 250 Desviacin tpica, 38
variable, 200 de una variable aleatoria, 150
Claudio, 103, 104 Diagrama
Coeficiente de rbol, 120
de contingencia corregido, 100 de barras, 22, 72
de correlacin, 75 tridimensional, 72
de determinacin, 76 de caja, 49
Coeficiente de contingencia, 100 de dispersin, 72
Coeficiente de Fisher de sectores, 22
(primero), 44 de tallo y hojas, 48
de tarta, 22

pg. 254
Estadstica fcil con hoja de clculo

Dispersin, 37 compuesta, 231


Distribucin contraste de, 229
condicionada, 69 estadstica, 229
funcin de, 141 no paramtrica, 230
marginal, 69 nula, 230
Error tipo I, 231 paramtrica, 230
Error tipo II, 231 simple, 231
Espacio test de, 229
muestral, 106 Histograma, 23
Esperanza tridimensional, 72
matemtica, 150 homogeneidad
propiedades de, 151 contraste de, 251
Estadstica descriptiva, 15 Incorrelacin, 75
Estadstico independencia, 97
del contraste, 232 Inercia
Estadstico pivote, 209 momento de, 39
Experimentos Integral definida, 147
aleatorios, 105 Intervalo
deterministas, 105 de confianza, 209
Exponencial Jesucristo, 103
variable, 187 Kahneman, 81
F Kolmogorov
variable, 202 Andrey, 105
Fermat axiomas de, 109
Pierre, 15, 104 Laplace
Fisher Pierre, 189
R.A., 202 regla de, 110
Frecuencia Leptocrtica, 46
absoluta, 19 Media
absoluta acumulada, 20 aritmtica, 28
esperada, 97 armnica, 29
relativa, 20 geomtrica, 29
relativa acumulada, 20 ponderada, 29
Frecuencias recortada, 28
marginales, 69 Mediana, 31
Funcin de distribucin, 148 de una variable aleatoria, 152
Galton Medidas de asociacin, 96, 99
Francis, 81 Mere
Gauss Chevalier de, 105
Carl, 189 Mr, 16
Geomtrica Mesocrtica, 46
variable, 173 Mnimos cuadrados, 77
Grados de libertad, 200, 201, 202 Moda, 34
Hipergeomtrica de una variable aleatoria, 153
variable, 171 Momento
Hiptesis respecto a la media o central, 154
alternativa, 230 respecto al origen, 154

pg. 255
Estadstica fcil con hoja de clculo

Momentos, 154 Recorrido intercuartlico, 42


centrales, 71 Recta
de una variable estadstica, 50 de regresin, 77
en distribuciones bidimensionales, 71 Regla del producto, 122
respecto a la media o central, 50 Regresin, 73, 77
respecto al origen, 50, 71 Regresin de X sobre Y, 78
Mosteller, 117 Regresin hacia la media, 81
Nivel crtico, 232 Representaciones 3D, 72
Normal Representaciones grficas, 72
variable, 189 Reproductividad, 165, 169
Normal estandarizada Robustez, 33
variable, 189 Significacin
Nube de puntos, 72 nivel de, 209, 231
Pareadas Simetra, 43
muestras, 214, 236 Snedecor
Pascal G.W., 202
Blaise, 15 Student, 201
Blaise, 104 Sturges
variable de, 173 formula de, 24
Pearson Suceso, 106
Karl, 42, 81, 96 complementario, 108
Percentil, 35, 152 elemental, 106
Pictograma, 20 imposible, 106
Pilatos Sucesos
Poncio, 118 incompatibles, 106
Platicrtica, 46 independientes, 123
Poblacin, 16 propiedades, 107
Poisson T de Student
proceso de, 167 variable, 201
variable de, 167 Tabla
Potencia del contraste, 231 de contingencia, 69, 96
Prediccin, 82 de correlacin, 69
Probabilidad, 103 de doble entrada, 69
axiomas, 109 de frecuencias, 19
condicionada, 118 Tabla de frecuencias, 18
de una interseccin, 119 Tchebychev
ley, funcin, distribucin de, 140 desigualdad de, 40
propiedades, 111 Teorema
total, 124 central del lmite, 194
Probabilidades Test
asignacin de, 110 de hiptesis, 229
geomtricas, 116 no paramtrico, 229
Putin paramtrico, 229
Vladimir, 197 test de hiptesis
p-valor, 232 etapas de, 232
Q de Yule, 96, 99 Tipificacin
Recorrido, 41 de variables aleatorias, 192

pg. 256
Estadstica fcil con hoja de clculo

Titanic, 97 estadstica discreta, 17


Tukey tipificada, 47
John, 48 variables
Uniforme pareadas, 236
variable, 185 Variables
V de Cramer, 100 pareadas, 214
Valor Varianza, 38
esperado, 150 de una variable aleatoria, 150
Variable, 17 propiedades de la, 151
aleatoria, 139 Yates
aleatoria continua, 140, 144 correccin de, 251
aleatoria discreta, 139, 140 Yeltsin
aleatoria discreta numerable, 143 Boris, 198
continua, 18 Yule
discreta, 18 Q de, 96
estadstica bidimensional, 68 Udny, 81
estadstica continua, 17

pg. 257