You are on page 1of 34

P Pa ar rt te e 1 1. .

V Va ar ri ia ab bl le es s y y t to od do o e es so o
P Pa ar rt te e 2 2. . L La a m me ed di ia a e es s i ir r m me ed di ia an na am me en nt te e a a l la a m mo od da a
P Pa ar rt te e 3 3. . E En n l la a V Va ar ri ia an nz za a e es st tá á e el l B Bu ue en n G Gu us st to o
P Pa ar rt te e 4 4. . ¡ ¡E Es so o e es s m mu uy y p pr ro ob ba ab bl le e! !
P Pa ar rt te e 5 5. . ¡ ¡C Co or rr re e! ! ¡ ¡R Re eg gr re es sa a! !

ESTADÍSTICA PARA RUBIAS
Por Edu L.M.


Introducción

Estudiar es un asco.

Estudiar estadística es un asco aún mayor.

Estudiar estadística con unos apuntes tochos e ininteligibles es todavía peor.

Lo primero y lo segundo no lo podemos cambiar. Es un rollo, pero es útil y necesario, aunque sea para aprobar.
Pero sobre el tercer punto… ¡sí que podemos hacer algo!

Estos apuntes están dedicados a todo aquel que pueda hacer uso de ellos, pero con muy especial cariño para
todas las chicas rubias del mundo que estudian estadística, y en particular a una rubita única que ha inspirado,
entre otras muchas cosas, estos apuntes.

Aquí no encontrarás –espero- mucho rollo ni parafernalia. Son apuntes para aprobar. Si quieres profundizar en
la materia, hay cientos de libros y material adicional. Pero eso lo sabrías si fueras a clase, claro…

Sin más, te dejo con este humilde esfuerzo que ojalá demuestre que estudiar estadística está chupao.

Especialmente si eres rubia.






Parte 1. Variables y todo eso
Variable
Una variable es algo que se puede medir. Por ejemplo, la presión sanguínea; la velocidad de un coche, o qué se
yo; el número de pelos del sobaco de alguien.

Pero también puede ser algo que no se mida con números. Por ejemplo, el género de una persona (masculino o
femenino) , color del pelo (rubio, moreno, pelirrojo, castaño, albino) y un sinfín de cosas más.

Cuando se mide con números, se le llama cuantitativa (de cantidad). Cuando no se mide con números se llama
cualitativa (de cualidad. También hay quien los llama categóricos). Muchos profesores me pegarían si
escucharan esta definición, pero para aprobar nuestro examen nos vale esta definición de andar por casa.
Si una variable es cuantitativa (recuerda, se mide con números) normalmente lleva asociada una unidad: por
ejemplo la edad se mide en años, la altura en metros, etc.

Pero aún hay más. Si los datos cuantitativos pueden tomar cualquier valor dentro del margen que le damos; se
llama continua.

Por ejemplo: el peso de una persona puede ser cualquier valor dentro de lo que admita nuestro estudio: una
persona puede pesar 40,6 kg, otra puede pesar 80,31 kg, etc. Decimos que el peso de una persona es una
variable continua.

Si los datos sólo pueden tomar algunos valores dentro del margen que estamos estudiando, entonces se llama
variable discreta. Un ejemplo fácil: el número de hijos de una persona. Puede ser 0, 2, incluso 10 –¡toma ya!-
pero en ningún caso puede ser 3,51 o 1,22. Siempre tienen que ser 0, 1, 2, etc. sin decimales. No nos vale
cualquier valor. Por eso es una variable discreta –sí, a mi también se me ocurrieron chistes la primera vez que lo
escuché-.

Población y muestra

Imagínate que estamos haciendo un estudio sobre… no sé… el número de veces que la gente practica sexo al
mes. Quieres hacerlo sobre la ciudad de Albacete para conocer sus tendencias y vender los datos a alguna
empresa –o por puro morbo, oye –. Esto se llama tu población, es decir, el conjunto de personas (o células, o
bacterias, o lo que sea) sobre quienes vas a hacer tu estudio.
Así que te preparas tu encuesta, coges tu boli y sales a la calle a saber cómo de calenturientos son los
albaceteños. Pero se te presenta un problema.

¿Les vas a preguntar a todos?

Evidentemente es imposible. Por eso, lo que haces realmente es preguntarle a unos cuantos. No a todos,
lamentablemente no se puede muchas veces –ni tú tienes tanto tiempo libre- . Estos pocos que responderán a tu
estudio se llaman la muestra de tu estudio estadístico.

Sin embargo, esta muestra no se puede coger al azar. Bueno, puedes, pero imagina que te has propuesto coger
una muestra de cien individuos a quieres preguntarle y resulta que la mitad de las preguntas las has hecho a
ancianas, que no se caracterizan –normalmente- por una vida sexual activa.
Tu encuesta dirá que los albaceteños… nanay en la cama; y probablemente sepas que esto tiene poco que ver
con la realidad –¡digo yo! -.

¿Qué ha fallado?

¡Pues que la muestra tiene que escogerse bien, tiene que ser representativa de la población que estás
estudiando!
Si de los cien a los que vas a preguntar hubieras escogido veinte jóvenes, veinte adultos, veinte ancianos, etc.
probablemente te hubiera salido una estadística más ajustada a la realidad.

Ah, otra cosa más. Cada persona –o célula, o lo que sea- de tu estudio se llamará individuo a los efectos de la
estadística. En este caso está muy claro, pero en una encuesta sobre países, cada país será un individuo, etc.

Te preguntarás por qué todo este tocho para explicar lo que es la muestra y la población y las variables. ¡Eso es
porque salen mucho en los exámenes! ¡Y no le pongas en tus problemas el ejemplo de la actividad sexual de los
albaceteños! ¡Y un saludo para ellos!
Representando los datos

Con tablas.

Bueno, hay muchas formas. Gráficos y demás. Pero casi todos parten de una tabla donde se representan los
datos.

Ah, dicho sea de paso, fíjate bien. Tenemos una estadística que dice el número de personas que saben mover las
orejas en función de su edad, a partir de 20 años. Llamamos frecuencia absoluta (y se suele representar con una
“f” minúscula) al número de veces que aparece una persona de cada fila:

Edad de las personas que
mueven las orejas
Frecuencia absoluta
f
20 4
21 1
22 2
23 4
24 5
25 6
26 1
27 0
28 3
29 4
30 5
31 0
32 2
33 1
34 0
35 1

Por ejemplo, si en nuestro estudio nos han salido 5 tipos de 24 años que mueven las orejas, la frecuencia en la
fila de edad 24 años será 5.

También podemos agrupar la variable edad en intervalos, así:

Edad de las personas que
mueven las orejas
Frecuencia absoluta
f
20-25 22
26-30 13
31-35 4

Lo cual acorta la tabla. Dicho sea de paso, se llama amplitud del intervalo a lo grande que sea este intervalo; por
ejemplo también podríamos haber hecho una fila de 20-30 en vez de 20-25 y 26-30.

En el ejemplo vemos que ha habido 22 personas dentro del intervalo de 20 a 25 años que saben mover las
orejas.
Conviene, normalmente, que la amplitud de los intervalos sea fija. No siempre se puede, claro.

Aunque en las tablas te vas a encontrar esto, también:

Edad de las personas que
mueven las orejas
Frecuencia absoluta
f
20-25 22
25-30 13
30-35 4

Fíjate: es como si las personas que tienen 25 años estuvieran en dos filas. ¿Cómo puede ser?

No te engañes. Esto se hace así porque en cálculos posteriores facilita las cosas, son números más cómodos de
manejar. Se considera que el número de la derecha no se incluye. Así, 20-25 en realidad incluye a las personas de
20 a 24 años, etc.
La excepción es el último intervalo, que como es el último, sí se incluye. En nuestro caso, 30-35 incluye a todas
las personas de 30 a 35 años.

El Punto Medio de un intervalo se calcula siempre así (no te asustes, es dividir):

punto mcJio: númcro pcoucño +
omplituJ Jcl intcr:olo
2



¡¡Tranquiiiiiilo!!! ¡Que no cunda el pánico! ¡Es sencillote!

La amplitud del intervalo, como dijimos antes, es lo “grande” que es el intervalo. Para calcularla restamos dónde
acaba de donde empieza. Al número mayor le restamos el menor.
En nuestro ejemplo, si queremos saber lo grande que es el intervalo 20-25 hacemos la resta: 25 menos 20 = 5.

Así que el intervalo 20-25 es de amplitud 5. Explicado que ni para rubias, eh.
Pues si eso lo dividimos entre dos y sumado al número más pequeño del intervalo, nos da el punto medio que
hablamos. Se usa para bastantes cosas.

De hecho, en el examen es probable que te caiga una tabla con intervalos. Para saber cómo llamar a cada
intervalo y hacer operaciones con él, muchas veces vas a tener que calcular antes el punto medio de cada
intervalo, así que ya puedes ir familiarizándote con el término.

Frecuencia absoluta, relativa, acumulada y relativa acumulada

Con tan rimbombantes nombres, son conceptos fáciles pero hay que tenerlos claros.
Si tenemos esta tabla sobre la temperatura que hemos tomado a todos los pacientes de una planta del hospital:

Temperatura corporal Frecuencia absoluta f
36-37 56
37-38 34
38-39 29
39-40 11

Es una variable cuantitativa, porque se mide en números. Podemos añadir más cosas.

El tamaño de la muestra (representado normalmente como N) es el número de individuos en total a quienes
que hemos realizado el estudio. En este caso lo hemos hecho a 130 personas. Si te fijas, sumando todas las
frecuencias absolutas lo podemos obtener.

Así que N= 130.

Quiere decir que la tabla representa a ciento treinta personas. ¿Ok?

La frecuencia relativa se calcula para cada fila de nuestra tabla. Mide el porcentaje de todo el total que
representa esa fila. Tranqui, a ver si me explico:

Hay 130 personas en nuestra tabla. La primera fila dice que de esas 130, hay 56 personas que tienen una
temperatura entre 36º-37º.

¿Qué porcentaje del total es esa fila? Para saberlo, tenemos que recordar cómo se calcula el porcentaje de una
cantidad dada. Tranquilo, es algo muy fácil y además muy útil en temporada de Rebajas.

Frccucncio rcloti:o =
¡rccucncio obsoluto x 100
tomoño Jc lo mucstro



Venga, vamos a probar. Para la fila 36º-37º:
Frccucncio rcloti:o =
56 x 100
130
= 43,07

Así que la fila 36º-37º tiene una frecuencia relativa del 43,07% (fíjate que nos quedamos sólo con dos decimales
ignorando el resto, normalmente con dos decimales suele ir bien). Cuando se calcula un porcentaje se le pone el
simbolillo “%”, pero en Estadística no se suele poner. ¿No te resulta sencillo esto? Léetelo otra vez, ya verás
como es una chorrada.

Hacemos la frecuencia relativa para todas las filas. La frecuencia relativa se suele abreviar como una “p”
minúscula:

Temperatura corporal Frecuencia absoluta f Frecuencia relativa p
36-37 56 43,07
37-38 34 26,15
38-39 29 22,30
39-40 11 8,46

Fíjate que si sumamos todas las frecuencias relativas nos tiene que dar 100 (el cien por cien). Bueno, en este
caso da casi cien, por los redondeos que hemos hecho al ignorar decimales y todo eso. Vete acostumbrando.

La frecuencia acumulada es la frecuencia absoluta de cada fila más las frecuencias absolutas de las filas
anteriores.
Es decir; en la primera fila la frecuencia acumulada es la misma que la frecuencia absoluta; en la segunda fila la
frecuencia acumulada es la frecuencia absoluta sumada a la frecuencia absoluta de la fila anterior, etc.
Es más complicado explicarlo que verlo uno mismo:
Temperatura
corporal
Frecuencia
absoluta f
Frecuencia relativa p Frecuencia
acumulada F
36-37 56 43,07 56
37-38 34 26,15 90
38-39 29 22,30 119
39-40 11 8,46 130

Se suele representar como “F” mayúscula.

La última fila debe ser igual que el tamaño de la población (N), porque representa la suma de las frecuencias
absolutas de todos los individuos.


La frecuencia relativa acumulada es muy parecido pero con la frecuencia relativa p. Es decir, es la frecuencia
relativa de cada fila más las frecuencias relativas de las filas anteriores.
Es decir; en la primera fila la frecuencia acumulada es la misma que la frecuencia relativa; en la segunda fila la
frecuencia acumulada es la frecuencia relativa sumada a la frecuencia relativa de la fila anterior, etc.

Temperatura
corporal
Frecuencia
absoluta f
Frecuencia
relativa p
Frecuencia
acumulada
F
Frecuencia
relativa
acumulada P
36-37 56 43,07 56 43,07
37-38 34 26,15 90 69,22
38-39 29 22,30 119 91,52
39-40 11 8,46 130 100,00

Se suele representar como “P” mayúscula.

La última fila debe ser 100 siempre (el cien por cien) ya que representa el total de las frecuencias relativas
sumadas; ignoramos los errores de redondeo y todo eso.



No me lo creo. He gastado casi dos páginas para explicar todo esto. Estarás contento.

Gráficos

Hay muchas formas de presentar los datos; tanto para variables cuantitativas como cualitativas (categóricas, las
que no se miden con números). Entre los más populares (y muy útiles para variables cualitativas) son diagramas
de barras y diagramas de sectores.




Hay más cosas. Está el histograma, que sólo se usa para variables cuantitativas (las que se miden con números) y
se representan así:

· En las abscisas (la horizontal) se ponen la variable a medir, las filas. Si es una variable contínua (con intervalos)
pues se ponen los puntos medios de cada intervalo.
· En las ordenadas (la vertical) se ponen las frecuencias relativas (los porcentajes, la “p”).



Ojo: en el eje vertical están los porcentajes, las frecuencias relativas; ¡y por eso no se debe confundir con un
diagrama de barras! En los diagramas de barras se pone la frecuencia absoluta, que no es lo mismo… (repásate la
sección de antes si aún te confunden los nombres, nos pasa a todos).

El polígono de frecuencias se construye de esta manera:

· En las abscisas (la horizontal) se ponen los valores o punto medio de los intervalos
· En las ordenadas (la vertical) se marca un puntito (no se traza una barra) en la frecuencia absoluta, relativa,
relativa acumulada, o lo que queramos.
· Esos puntitos que salen, se unen formando una línea.

Queda algo así (se ha usado en las ordenadas la frecuencia relativa, recuerda, los porcentajes) :




Dos variables
No acaba ahí la cosa. A menudo podemos estudiar a la vez dos variables. Por ejemplo, SEXO (hombre, mujer) a la
vez que CONSUMO DE ALCOHOL (nunca, ocasionalmente).

A la hora de representar tablas con estas variables, podemos hacerlo de varias formas. Fíjate que en este caso las
dos variables elegidas son cualitativas (no se miden con números).

Mira un ejemplo de tabla. Se pone la frecuencia absoluta en cada caso:


Fíjate en los datos fuera de cada fila y columna. Indican las frecuencias acumuladas (“total”) que corresponden a
cada variable. Quédate un buen rato mirando la tabla hasta que la entiendas.

Y fíjate en otra cosa más: si sumamos el total de hombres y mujeres nos da 200, el total de individuos. Pero si
sumamos el total que Nunca beben y el total que beben Ocasionalmente nos da también 200; lo cual tiene
mucho sentido. Fíjate también en que en la esquina se pone el tamaño de la muestra, N. (El número de
individuos).


Podemos ampliar esta tabla recogiendo las frecuencias relativas, relativas acumuladas, etc. Ya veremos más
ejemplos.

Ah, y por supuesto que este tipo de tablas también se puede representar gráficamente.


Las cuantitativas (las que se miden con números) no se escapan. Además de estos diagramas de barras y más;
también hay muchas más formas. Otra común es el diagrama de dispersión. En las abscisas se pone una variable
y en las ordenadas la otra variable.



Fíjate un caso curioso: una variable cuantitativa y la otra cualitativa. En este caso se opta por utilizar un polígono
de frecuencias con la salvedad de que las categorías de la variable cualitativa se representan con líneas de
diferente color:














(Por hoy vale… ¡tómate un respiro!)

Parte 2. La media es ir
medianamente a la moda
La media aritmética

Tenemos una variable cuantitativa. Desde el colegio, hemos sabido calcular la Media: intuitivamente, es coger
todos los valores que hay y dividir la suma por el número de individuos que hay en la muestra.

Es decir:

HcJio =
sumo Jc toJos los :olorcs
nº Jc inJi:iJuos ouc ℎoy


Si tenemos la variable EDAD:

Edad
20
21
22
23
24
25

La media es:

6
25 24 23 22 21 20     
 Media

Poniéndonos más matemáticos; vamos a llamar a las variables con símbolos –porque en el examen las verás así-. Así
que llamemos a la variable X mayúscula. Nos da igual qué esté representando X; para nosotros es una variable y
punto.
La media se representa X . Y la fórmula genérica para la media es:

N
x x x x
X
n
   


3 2 1


No te asustes. Estoy poniendo esto porque lo verás en los apuntes. A ver qué significa…
X
1
quiere decir el primer valor de la variable X. Si tenemos esta tabla:

X
20
31
26
41
9
18

Entonces X
1
es 20. X
2
será 31, X
3
será 26, etc. hasta llegar a X
6
que es 18. En la fórmula, X
n
se refiere al último valor.
Recuerda también que N es el número de individuos que hay, el número de valores, y en este caso, el número de
filas.

Le estoy dando tantas vueltas a este tema porque así me permite afianzarte conceptos que vas a necesitar más
adelante. Tú ya sabes intuitivamente qué es la media; así que has aprendido a manejarte entre fórmulas
matemáticas… que desgraciadamente es parte de la asignatura.


Ahora vamos a meter un concepto quizá más nuevo. ¿Qué pasa con las frecuencias absolutas? Si te dan esta tabla:

X Frecuencia absoluta
f
20 4
21 1
22 2
23 4
24 5
25 6


Tú no puedes sencillamente hacer la media de X y decir que la media es
20+21+22+23+24+25
6
= 22,5.

Eso está mal. ¿Por qué?

Pues porque tenemos que recordar qué significa la frecuencia absoluta. Quiere decir que hay varios individuos que
cumplen el requisito que se dice.

Es decir, en esta tabla hay 4 individuos cuya X es 20. Hay 1 individuo cuya X es 21, hay 2 individuos cuya X es 22, etc.

¿Cómo solucionamos esto?

Venga, pues vamos a llamar como antes, f
1
a la frecuencia absoluta de la primera fila. Así, a x
1
le corresponde f
1.
Es
decir, de la fila de X cuyo valor es 20 hay 4 individuos. Entiende eso muy bien antes de seguir.

Ahora vamos a complicar la fórmula de la media. En realidad es sencillo en cuanto lo entiendas:

X

=
x
1
∗ ¡
1
+x
2
∗ ¡
2
+⋯+x
n
∗ ¡
n
N


Es decir, multiplicamos cada valor de X por el número de veces que aparece, es decir; su frecuencia absoluta. Eso lo
hacemos para todas las filas. Al final se suma todo y se divide por N, como antes.

Recuerda que N es la suma de todos los individuos que hay. Puedes obtenerla sumando todas las frecuencias
absolutas. N en este caso sería 22, porque hay un total de 22 individuos (sumamos todas las frecuencias absolutas).

Vamos a resolver el ejemplo:


X

=
20 ∗ 4 +21 ∗ 1 + 22 ∗ 2 + 23 ∗ 4 +24 ∗ 5 +25 ∗ 6
22
= 23,045

¡Y voilá! Ya hemos resuelto nuestro ejemplo.

A lo mejor estás diciendo… “¡dios mio! ¡tanto para una simple media!” pues deja de preocuparte. Ahora que ya lo
sabes, y en cuanto la hagas tres veces, será algo automático para ti. Recuerda que lo único que cambia respecto a lo
que tú ya sabes desde el colegio es que ahora hay que multiplicar cada valor por la frecuencia absoluta, que no es
más que el número de veces que aparece.

Lo que también estás pensando es que son muchas cuentas para un simple dato. Bueno, eso sí es cierto. Por eso la
calculadora es imprescindible en estos exámenes. Pero sobre todo no te rayes, hay un truco para hacerlo fácil.

Simplemente cuando estés en el examen, añade columnas a la tabla, así:



Al añadir esa columna, las operaciones las vas escribiendo conforme las haces y es más difícil equivocarse. Al final de
la columna pones la suma total. La media la haces tan sencillo como dividir esa suma entre N.

Esos pasos intermedios, además, son muy útiles para luego otros cálculos que te serán necesarios. ¡Añade todas las
columnas que te hagan falta siempre!


La media ponderada

Es algo fácil. Digamos que queremos dar más “importancia” a ciertos valores que a otros. Por ejemplo: en nuestro
estudio sobre la sexualidad de la población albaceteña, queremos que las opiniones de los jóvenes de 20 a 25 años
tenga más importancia –tenga más peso- que las de los de 25 a 30, y éstas tengan igual peso que las de 30-35.

Pues ese mismo concepto, el peso, es lo que estudiamos.

Aunque en muchos apuntes los llaman con la letra “p”; como nosotros ya hemos usado esa letra, le vamos a llamar
“w” (de Weight, peso, en inglés) que además es la más frecuente forma de expresarlo.

Cada fila tendrá su peso, pues.
X Frecuencia absoluta
f
Peso
w
20-25 4 0,6
25-30 1 0,2
30-35 2 0,1,5
35-40 3 0,05

La media ponderada no es más que la media aritmética de siempre, la del apartado anterior, pero esta vez
multiplicamos además cada elemento x*f por su peso, quedando x*f*w para cada fila.

Así:


X

=
x
1
∗ ¡
1
∗ w
1
+x
2
∗ ¡
2
∗ w
2
+⋯+ x
n
∗ ¡
n
∗ w
n
N



La mediana

La representamos como Me, y por decirlo de algún modo; la mediana es el punto que deja igual número de
individuos por encima que por debajo.

Para calcular la mediana debes seguir dos pasos fundamentalmente.

· Primer paso: Calcular en qué intervalo estará la mediana.

Esto lo consigues dividiendo
N
2
y la comparas con la frecuencia acumulada (recuerda, es la suma de las
frecuencias absolutas de las filas anteriores). En el intervalo en que esté, ese será el intervalo candidato para tener la
mediana.

Ejemplo.
X Frecuencia absoluta
f
Frecuencia acumulada
F
20-25 8 8
25-30 2 10
30-35 3 13
35-40 6 19

En este ejemplo, N= 19. Dividimos y tenemos que
N
2
= 9,5 .

¿En qué fila de la tabla en las frecuencias acumuladas está nuestro 9,5? Vemos que en la fila del intervalo 25-30.

X Frecuencia absoluta
f
Frecuencia acumulada
F

20-25 8 8
25-30 2 10 
30-35 3 13
35-40 6 19


¿Por qué? Pues porque 10 es la frecuencia acumulada que es mayor que
N
2
= 9,5 y está más cerca.

Bueno, pues ése será el intervalo de la mediana, en algún punto de ese intervalo estará.

¿En qué punto exactamente estará la mediana? Lo vemos en el siguiente apartado.


· Segundo paso: Calcular la mediana

La fórmula es algo así:

i
i
i
f
F
N
amplitud L Me
1
1
2
*



 
(¡qué hart@ debes estar ya! Tómatelo con calma si llevas demasiadas fórmulas hoy…)

Vamos despacito a ver qué pasa con esta fórmula.

1  i
L es el límite inferior (el número más pequeño) del intervalo donde está la mediana, ese intervalo que hemos
conseguido en el paso anterior.

amplitud es… bueno, ya sabes; la amplitud del intervalo. Se consigue restando al número mayor el menor. El
intervalo 30-35 tendría amplitud 5, por ejemplo.

2
N
es el resultado de dividir N entre dos, como es obvio.

1  i
F es la frecuencia acumulada del intervalo anterior al que está la mediana.

i
f es la frecuencia absoluta del intervalo en el que está la mediana.


Un ejemplo, que esto es sencillo.

X Frecuencia absoluta
f
Frecuencia acumulada
F
20-25 8 8
25-30 2 10
30-35 3 13
35-40 6 19

Hemos calculado antes que el intervalo donde está la mediana es en el [25-30]. Vamos mirando la fórmula y
sustituimos poco a poco sus elementos:

1  i
L es 25.

amplitud es 5. Porque 30 menos 25 = 5.

2
N
es 9,5.

Atención con
1  i
F . Es la frecuencia acumulada del intervalo anterior al que está la mediana. Es decir, si ya sabemos
que la mediana está en el [25-30] como hemos dicho,
1  i
F se refiere al anterior, a la F del intervalo [20-25]; que es 8.

i
f es la frecuencia absoluta del intervalo donde está la mediana. En este caso, 2.

Lo juntamos todo según la fórmula y…

75 . 28
2
8 5 , 9
* 5 25 

  Me



Percentiles

Se basa en el mismo concepto de la mediana, pero fíjate que la mediana dividía N entre 2.

Pues un percentil es parecido, pero en vez de dividir todos los individuos al 50%, los divide al porcentaje que
queramos. Por ejemplo, el percentil 30 en una tabla será el individuo que por debajo tenga al 30% de todos, y por
encima al resto.

Se calcula muy parecido a la mediana, pero cambiando el
2
N
por esto:
100
* porcentaje N
.

Si queremos el percentil 69, por ejemplo, será:

i
i
i
f
F
N
amplitud L Me
1
1
100
69 *
*



 

Y para calcular el intervalo donde está el percentil 69 es igual, nos quedamos con aquel cuya frecuencia acumulada
contenga a
100
69 * N
y hacemos los cálculos como en la mediana. De hecho, si te fijas; la mediana en realidad es el
percentil 50, ¡porque deja el 50% por debajo!


Deciles y cuartiles

El mismo perro, distinto collar. Un decil es una mediana pero en vez de
2
N
es
10
*decil N
. Hay deciles de 1 a 10; es
decir:
10
1 * N
,
10
2 * N
, … ,
10
9 * N
,
10
10 * N


Un cuartil divide en ¼ la población, es decir: el 25%, el 50%, o el 75%. Puedes calcularlos como el Percentil 25, el 50,
o el 75 respectivamente.

Una chorrada, pero por alguna razón tienden a preguntarlo en los exámenes. Asegúrate de entenderlo bien.

La Moda
(Y me voy a ahorrar cualquier chiste de rubi@s)

La definición intuitiva de la moda es… lo que más se lleva. Efectivamente, se trata de la fila que más frecuencia
absoluta tiene. Así de simple.

Bueno, lo que pasa es que cuando tratamos tablas con intervalos, y estos tienen amplitudes diferentes, esto puede
no ser tan evidente; así que vamos a dar una fórmula y a desglosarla poco a poco:
2 1
1
1
A A
A
c L Mo
i i

 


1  i
L es el límite inferior (el número más pequeño) del intervalo que más frecuencia absoluta tiene.
i
c es la amplitud de ese intervalo. Lo llamamos “c” porque es lo que suele salir en los apuntes.

A
1
es la diferencia entre las frecuencias absolutas del intervalo al que le corresponde la moda y el intervalo anterior.
A
2
es la diferencia entre las frecuencias absolutas del intervalo al que le corresponde la moda y el intervalo posterior.
Parte 3. En la Varianza está el
Buen Gusto
Dispersión de los datos

Es sencillote de pillar.
Si tú te comes 10 magdalenas y yo no me como ninguna, la media aritmética nos dirá que ambos nos hemos comido
5 magdalenas de media. Sin embargo… tú estás saciado y yo sigo con el estómago vacío…

¿Es la media tan poco fiable?

Bueno, realmente es que nos faltan cosas para poder interpretar bien los datos. Lo que hemos dado hasta ahora
(media, mediana, moda) son valores que en estadística se llaman “Puntos Centrales”. Se llaman así porque si tú
estás calculando por ejemplo la media, los datos se dice que se agrupan en torno a esa media. Lo que no nos dice, es
cómo de dispersos están los datos respecto a ese punto.

Es decir, en el caso de las magdalenas, los datos están muy dispersos respecto a la media.

Si ahora tú te comes seis magdalenas y yo cuatro, entonces la media es la misma que en el caso anterior, pero ahora
la dispersión es mucho menor. ¡Entiende bien eso!

Pues lo que vamos a ver aquí son diferentes criterios con los que medir la dispersión de los datos y cosas al respecto.

Rango

El concepto es bastante fácil. Coges el valor más grande que estás estudiando y le restas el más pequeño.

X
20-25
25-30
30-35
35-40
El rango es 40 menos 20 = 20.

Aunque sencillote, este concepto realmente a veces no es tan útil como parece. Cuando estamos estudiando
variables muy grandes o muy pequeñas, o los intervalos son más raros; el rango por sí solo no nos da mucha idea.
Hay que recurrir a cosas más sofisticadas –para tu pesar y el mío-.

Rango intercuartílico

Es muy parecido, pero esta vez hacemos la resta entre el tercer cuartil, Q
3
, y el primer cuartil, Q
1
. Repásate lo que
eran los cuartiles en secciones anteriores si no te acuerdas; ¡que salen a menudo!


Varianza

Sin entrar en muchos detalles, la varianza es un valor que nos va a decir cuánto se dispersan los datos.
Básicamente, cuando veas dos ejercicios de Estadística distintos y uno tenga más varianza que el otro, quiere
decir que el que tiene más varianza tiene los datos más dispersos; es decir, es menos “equitativo” que el otro.

Para el examen, no tienes que entrar en muchos detalles, te basta con saber calcular la varianza. Para empezar,
hay que decir que la varianza se representa como s
2
(“s” al cuadrado). El por qué de esto lo verás luego.

Atención, que la fórmula hay que verla poquillo a poco:



 
n
i
i i
X x f
N
s
1
2 2
) (
1


Veamos:

N
1
no tiene mucho misterio. Es dividir 1 entre N, el tamaño de la muestra, el número de individuos que hay.




n
i
i i
X x f
1
2
) ( Estarás gritando al ver esto. Cálmate, tómate unas tilas y vuelve, que es una tontería. Los
matemáticos, que lo lían todo. El símbolo

se llama sumatoria. Quiere decir que hay que hacer lo que
sale dentro tienes que calcularlo para cada fila y luego sumarlos todos. Lo entenderás mejor después.

2
) ( X x f
i i
 Vamos con esto. Parece lioso, pero no lo es tanto. Quiere decir que para cada fila, tienes que
hacer lo siguiente:

Frecuencia_absoluta_de_la_fila * (valor_de_esa_fila – media_aritmética)
elevado al cuadrado


Es decir, que para cada fila:
1º restas el valor de esa fila menos la media aritmética.
2º Lo que te da lo elevas al cuadrado.
3º Lo que te da lo multiplicas por la frecuencia absoluta de la fila.

Ojalá hubiera una forma de que no te tiraras de los pelos al leer esto. Pero con un sencillo ejemplo lo vas a
entender:

X Frecuencia absoluta
f
18 2
20 3
24 5
30 1

Aplicando lo que ya sabemos de otros temas, hemos sacado que la media es 36 , 22  X . Ahora queremos
calcular la varianza, y vamos a hacerla poquito a poco.

N
1
no da problemas. Vemos que N es 11, porque sumando la columna de frecuencias absolutas da eso. Repásate
antiguos capítulos si tienes dudas.

Ahora el resto.

Para cada fila, tenemos que calcular
2
) ( X x f
i i
 . Luego las sumaremos todas (que es lo que quiere decir el

ese raro) y todo eso lo multiplicamos por el
N
1
. Digamos que vamos a ir “de dentro a fuera” por decirlo así.

En el examen, ni se te ocurra hacer todos estos cálculos a la vez. Una vez hayas aprendido a hacer la varianza, no
se te resistirá ninguna; pero no te librarás de un buen rato tecleando en la calculadora. Por eso tenemos que ser
previsores -¿quién no se equivoca escribiendo tanto número?- y hacerlo poquito a poco, de esta manera:

· Primero, vamos haciendo los cálculos en columnas paso a paso, para todas las filas:


Hasta que al final tenemos una tabla con todos los cálculos necesarios:



De esta forma, yendo paso a paso, es más difícil que nos equivoquemos. Cuando tenemos todos los
2
) ( X x f
i i
 para cada fila, los sumamos y obtenemos el



n
i
i i
X x f
1
2
) ( que tanto nos había asustado.

Por cierto, los subíndices “i” y todo eso que aparece, si no sabes interpretarlos; no te asustes. Simplemente es la
notación matemática para indicar que la operación se aplica a todas las filas. Si lo haces tal como viene explicado
aquí no tendrás ningún problema. Que no te distraigan.
Bien, una vez tenemos



n
i
i i
X x f
1
2
) ( la fórmula de la varianza se completa multiplicando por
N
1
.
En nuestro ejemplo:
49 , 11 44 , 126 ·
11
1


Así que la varianza de nuestro ejemplo es 11, 49.

49 , 11
2
 s

Voilá.
Desviación típica

La desviación típica es, por así decirlo, la “media” de lo que se “desvían” los datos. En general, los datos se desvían
tanto como su desviación típica. Es un poquillo abstracto esto, lo sé.

Pero bueno, lo que te interesa sobre todo es saber que la desviación típica se calcula como la raíz cuadrada de la
varianza y le cambias el signo. Por eso “s
2
” es la varianza y “s” es la desviación típica. Cosas de los matemáticos.

Tú sólo quédate con el cuento: “s
2
” es la varianza y “s” la desviación típica. Y punto. Para calcular la desviación típica
cuando te la pidan:

2
s s  

Es decir, calculas la varianza, le sacas la raíz cuadrada, y le cambias el signo que lleve (positivo a negativo, o negativo
a positivo).
Coeficiente de Variación

Otra forma de medir cómo se desvían los datos. También se usa la varianza que hemos visto antes para calcularlo.
El Coeficiente de Variación se abrevia como CV.

100 *
X
s
CV 

Es decir, dividimos la desviación típica entre la media aritmética. Lo que nos da lo multiplicamos por cien y ya está;
ése es el Coeficiente de Variación.

Una cosa muy típica que suelen pedir es para qué sirve el coeficiente de variación. Verás, si estamos haciendo
estudios estadísticos con unidades diferentes, la desviación típica no nos serviría. Imagina esto:

Número de duchas
a la semana
f
0 2
1 3
2 5
3 1

Y esta otra tabla:

Velocidad de cada
coche (km/h)
f
80 5
90 10
100 13
120 24

¡Son completamente distintas! Tienen diferentes unidades (la de las duchas es número de veces y la de velocidades
de coches es kilómetros por hora) y sus rangos de valores son completamente distintos.
Podemos intentar sacar la varianza y la desviación típica a cada una; pero al ser unidades diferentes y escalas muy
distintas, esto no nos va a servir. La desviación típica sólo vale cuando las tablas tienen la misma unidad y sus
valores son similares.

El modo más seguro de comparar la dispersión de dos tablas es calculando el CV a ambas. Ahí sí que no hay duda
posible. El CV nos dará un número entre 0 y 100, un porcentaje. Aquella que tenga más CV, estará más dispersa, sea
la unidad que sea.

¡Así podemos comparar la dispersión varias tablas que están expresadas en unidades distintas y que tienen poco que
ver!

Extra: Trabajar con intervalos

Sólo un último apunte. Cuando estés calculando estas fórmulas y de aquí en adelante, se te puede plantear el
siguiente problema:

X Frecuencia absoluta
f
20-25 4
25-30 1
30-35 2
35-40 3

Queremos calcular la varianza, o lo que sea. Llegamos a nuestra fórmula infernal y nos encontramos que tenemos
que calcular X x
i
 para cada fila, etc. etc.

El problema es…

¿qué cojo como
i
x ? Es decir, de la fila [20-25]; ¿qué valor tomo para luego restarle la media?

La respuesta es muy rápida: Coges el punto medio de ese intervalo. Así cada vez que veas un intervalo de valores y
necesites sacar un valor que lo represente, un
i
x , le coges el punto medio.

Si no te acuerdas de cómo calcular el punto medio, es de las primeras cosas que vimos, en el primer capítulo.

¡Suerte!
Parte 4. ¡Eso es muy probable!
Experimentos aleatorios

Tira un dado.¿A que no se puede saber lo que sale antes de tirarlo? Eso es un experimento aleatorio.
Espacio muestral
Los frikis y los matemáticos lo representan como Ω (se lee “omega”). El espacio muestral son todos los posibles
resultados que pueden salir.

Por ejemplo, si tiramos el dado; puede salir un 1,2,3,4,5, o 6; pero no puede salir un -100 o un 8. Entonces, en el
Experimento “Tirar un dado” el espacio muestral es: Ω={1,2,3,4,5,6}

Date cuenta de que cuando escribimos conjuntos, los escribimos separando sus elementos por comas y entre
corchetes. Es una tontería pero te pueden crujir en los exámenes…

Suceso aleatorio
Un suceso es “algo que puede pasar” en un experimento. A efectos estadísticos, cualquier subconjunto del espacio
muestral puede ser un suceso.

Vamos por partes. Si tenemos un espacio muestral de: “Resultado de mi examen”, cuyo espacio muestral puede ser:
Ω ={1,2,3,4,5,6,7,8,9,10} (vamos a considerar que siempre sacamos notas sin decimales) .

Cualquier subconjunto de Ω será un suceso. Recuerda que un subconjunto es coger unos cuantos elementos del
conjunto principal. Por ejemplo, el suceso Aprobar (me lo estoy inventando, nos podemos inventar los sucesos como
queramos) sería “Aprobar”: {5,6,7,8,9,10}. De igual forma, el suceso “Suspender” sería: {1,2,3,4} . Como vemos,
Aprobar y Suspender son subconjuntos de Ω.

Puedes inventarte un suceso de muchas formas, por ejemplo, podemos inventar el suceso “Sacar un Notable o más”:
{7,8,9,10}.

Sucesos imposibles y seguros
A veces hay sucesos que ocurren siempre. Por ejemplo, tirando un dado, Ω={1,2,3,4,5,6}. El suceso “Sacar un 1 o
más” : {1,2,3,4,5,6}. Coincide con el espacio muestral; es decir, que ese suceso se da siempre. Decimos que es un
suceso seguro.

Al contrario, podemos encontrar sucesos imposibles. Por ejemplo, en “Sacar menos de un 0 en el examen”; no se
puede, la nota mínima es un cero. “Sacar menos de 0 en el examen”:{} (conjunto vacío). Para indicar que un
conjunto no tiene elementos, también se representa como ∅ (conjunto vacío).
Suceso complementario
Si tenemos el suceso “Sacar más de un 4 en el dado:” {5,6}, el resto de Ω que no contiene a ese suceso: {1,2,3,4} . Eso
se llama suceso complementario.
Si llamamos “A” a un suceso, representamos a su complementario como A
̅
(se lee “A complementario”, ¡qué
original!)


Suceso unión
Si tengo el suceso: Notable:{7,8} y Sobresaliente:{9,10}, podemos “juntarlos”. Usamos el símbolo ∪ (Unión, no
confundir con una “U” mayúscula) y es así: {7,8} ∪ {9,10} = {7,8,9,10}. Ese nuevo suceso es la unión de los
anteriores, podemos llamarlo “Sacar un 7 o más en el examen”:{7,8,9,10}.
Suceso Intersección
Si tenemos “Sacar un numero par en el dado”: {2,4,6} y otro suceso “Sacar un tres o un cuatro:”{3,4}. La intersección
de los sucesos es lo que ambos sucesos tienen en común. En este caso, se representa con ∩ (Intersección).

Por ejemplo, la intersección de {2,4,6} y {3,4} es: {2,4,6} ∩ {3,4} = {4}. Da como resultado {4} porque es el único
elemento que tienen en común. Si hubiera más, pues más elementos estarán en el resultado.
Sucesos incompatibles
Si tenemos dos sucesos, “Sacar un numero par en el dado”:{2,4,6} y “Sacar un número impar en el dado”:{1,3,5};
vemos que su intersección es {} (conjunto vacío). Esto quiere decir que son sucesos incompatibles entre sí; porque
no pueden ocurrir los dos al mismo tiempo.
Es de lógica. Tirando un dado, no puedes obtener un número par y a la vez impar.

Probabilidad
Tras todo este coñazo de los sucesos, llegamos al meollo del asunto. ¿Qué es la probabilidad? Vamos a hacerlo
sencillo:
Pruhah|||dad de un xucexu =
Númeru de caxux Jauurah|ex
Númeru de caxux pux|h|ex


Seguro que esto te suena de antes. Realmente este tema no tiene mucho más, pero sí que hay q tener las cosas
claras.
Por ejemplo, la probabilidad de sacar un “3” en el dado es de 1/6 (1 caso favorable dividido entre 6 resultados
posibles).

Otro ejemplo: la probabilidad de sacar un notable en un examen. ¿Cómo se calcula?
Veamos; Notable:{7,8} (dos elementos). Espacio muestral (recuerda que son los casos posibles)
Ω={0,1,2,3,4,5,6,7,8,9,10} (11 elementos)

ProbobiliJoJ Jc Notable =
2
11
= 0,18

La probabilidad de obtener un Notable es pues de 0,18 (si lo multiplicamos por 100 nos dará el %; es decir, 18%)

Pero esto seguro que ya lo sabías.

Lo interesante de la probabilidad es aprender a calcularla para varios sucesos.

Por cierto, cuando veas P(suceso) se refiere a la Probabilidad de suceso. Por ejemplo, P(A) es la probabilidad del
suceso A y P(B) la probabilidad del suceso B. Seguro que esta notación cuadra más con tus apuntes. Cosas, para
variar, de los matemáticos.

Pero nosotros podemos más que ellos. 


Probabilidad para sucesos incompatibles

Oh, me temo que el principal problema de calcular probabilidades… va a ser determinar qué tipo de sucesos tienes
ante ti. El resto es usar fórmulas. Desgraciadamente, no te puedo ayudar mucho con eso. Mi recomendación es que
veas muchos problemas del estilo y afines tu ojo para distinguirlos (o un buen jamón al profesor. Siempre ayuda).

Si los sucesos A y B son incompatibles (recuerda, no pueden ocurrir al mismo tiempo; o lo que es lo mismo, su
Intersección es el conjunto vacío), se sigue esta fórmula:

P(A ∪ B) = P(A) +P(B)

Traducido al cristiano: La probabilidad de que ocurra A ∪ B (A unión B) es igual a la probabilidad de A por separado
más la probabilidad de B por separado.

Esto sólo se da si A y B son incompatibles, es decir, no pueden ocurrir a la vez.

Ejemplo:

A: Sacar un 3 o menos en el dado: {1,2,3}. Su P(A) es 3/6 B: sacar un 4 o más en el dado:{4,5,6}. Su P(B) es 3/6
A ∪ B = {1,2,3,4,5,6}

Según la fórmula; P(A ∪ B) = P(A) +P(B) =
3
6
+
3
6
= 1. Su probabilidad es 1.

Probabilidad del suceso imposible
A veces se ve. La probabilidad de un suceso imposible (es decir, que no tiene elementos, conjunto vacío) es 0.

Probabilidad del suceso complementario
Ya sabemos que si tenemos el suceso A, su complementario es A
̅
. Puedes sacar esta fórmula:

P(A
̅
) = 1 −P(A)

De hecho, esto me sirve para que veas que cuando un suceso tiene probabilidad “1” es un suceso seguro, tiene un
100% de probabilidades de ocurrir.

Probabilidad de sucesos compatibles

Dos sucesos se llaman compatibles… cuando no son incompatibles (inserte broma estúpida aquí). Por ejemplo:
A=Sacar un numero par en el dado : {2,4,6} y B=Sacar más de un tres en el dado: {4,5,6}. Su intersección no es el
vacío, porque ambos sucesos tienen elementos en común ( {4,6} ). Así que A y B son compatibles.

Bien, visto esto, para sacar la probabilidad de la unión de A y B…

P(A ∪ B) = P(A) +P(B) − P(A ∩ B)
Es decir, es la suma de sus probabilidades menos la probabilidad de su intersección. Te darás cuenta de que con
estos problemas hay que ir por partes. Siguiendo el ejemplo:

P(A)=3/6
P(B)=3/6
P(A ∩ B)= 2/6

Quedando:
P(A ∪ B) =
3
6
+
3
6

2
6
= 0,66


Probabilidad condicionada
Tenemos dos sucesos, A y B. Suponemos que el suceso B va a ocurrir. Supuesto eso, ¿qué probabilidad hay de que el
suceso A se dé?

Para responder a eso (es rebuscado, lo sé, pero se usa); se usa esta fórmula. Esto se llama Probabilidad de “A”
condicionada a “B”; por eso mismo, porque presupones que “B” se cumple. Dicho sea de paso, se representa P(A|B)
(no confundas con el símbolo de división).

En cualquier caso la fórmula es esta:

P(A|B) =
P(A ∩ B)
P(B)


Vamos con un ejemplo.

El suceso A : ”Sacar un 5 o más en el dado”: {5,6} y el suceso B: (Sacar un número impar en el dado):{1,3,5}.
¿Cuál es la probabilidad de A; condicionada (es decir, supuesto que se cumple) a B? Es decir, piden (A|B).

Dicho en cristiano: ¿qué probabilidad hay de sacar un 5 o más en el dado si suponemos que sacaremos un número
impar?

P(A)=2/6 = 0,33
P(B)=3/6=0,5
P(A ∩ B) =
1
6
= 0,16

Pues ya tenemos todos los ingredientes para la fórmula. Hemos calculado hasta el P(A), que no es estrictamente
necesario. Calculamos P(A|B):

P(A|B) =
0,16
0,5
= 0,32

Así que la probabilidad de sacar un 5 o más en el dado, condicionada a que saquemos un número impar, es 32%.

Sucesos independientes
Si P(A|B) da el mismo resultado que P(A) simplemente, es un indicativo de que al suceso A no le afecta en absoluto
que ocurra o no el suceso B. Se dice que A y B son independientes.

Si esto no se cumple, entonces es que son… dependientes.

Esto puede volverse un poco trabalenguas; estúdialo varias veces si te lías.

Cuando los sucesos A y B son incompatibles (recuerda, quiere decir q no se pueden dar a la vez; como por ejemplo
salir cara y cruz a la vez en una misma tirada de moneda); entonces si ocurre uno, el otro por narices no ocurrirá;
esto los hace dependientes. Tiene lógica, ya que independientes serían si a un suceso no le afectara el otro lo más
mínimo.

Prosigue cuando tengas todo esto más claro y no te líes con los nombres.

Ahora vamos a estudiar P(A ∩ B) (A Intersección B) según si los sucesos A y B son independientes o no:

· Cuando A y B son independientes entre sí; P(A ∩ B) = P(A) · P(B) La probabilidad de la intersección es
multiplicar las probabilidades por separado. Así de simple.

·Cuando A y B son dependientes entre sí; P(A ∩ B) = P(A|B) · P(B) Tenemos que sacar la probabilidad de A
condicionada a B y después multiplicarlo por la probabilidad de B.
También puedes hacerlo al revés y da el mismo resultado: P(A ∩ B) = P(B|A) · P(A) . A veces te resultará útil,
porque conocerás las probabilidades de A en vez de las de B; y el truco es saber que da lo mismo hacerlo de una
forma u otra.


Probabilidad Total
Imagínate que hacemos un experimento estadístico sobre los resfriados; y tenemos estos sucesos:

A
1
: Resfriado causado por virus
A
2
: Resfriado causado por bacterias
B: Curaciones gracias al tratamiento por antibióticos

Y tenemos P(A
1
) =0,90, P(A
2
)=0,10, y nos dicen también que P(B| A
1
)=0,001 y P(B| A
2
)=0,70

Nos piden averiguar la probabilidad total de curar un catarro con antibióticos, es decir, la probabilidad P(B).

En este caso podemos usar el Teorema de la Probabilidad Total; que dice así:

P(B) = P(B|A
1
) · P(A
1
) + P(B|A
2
) · P(A
2
) +⋯

Es decir, la probabilidad de que curemos un catarro, en general; es la probabilidad de curar un catarro causado por
virus, más la probabilidad de curar un catarro causado por bacterias. Si hay más “partes” del suceso A (imagínate;
resfriado causado por hongos –por inventarnos algo-) también las añadiríamos, como A
3
,etc.

Teorema de Bayes
Es rizar el rizo de lo anterior. Sabiendo que hay varias “partes” del suceso A: A
1
, A
2
, A
3
, etc. Este Teorema de
Bayes nos permite saber la probabilidad de que el suceso B haya ocurrido por la A
1
o A
2
o la que nos interese.

En el ejemplo de antes, queremos averiguar la probabilidad de que un resfriado causado por virus ha sido curado
con antibióticos. En otras palabras, nos piden P(A
1
|B). (La probabilidad de que el resfriado, supuesto curado, haya
sido causado por un virus).

El Teorema de Bayes nos dice esto:

P(A
1
|B) =
P(A
1
∩ B)
P(B)


Pero si nos resulta muy complicado calcular P(A
1
∩ B); puedes usar esta variante equivalente:

P(A
1
|B) =
P(A
1
) · P(B|A
1
)
P(B)


En el ejemplo anterior;
P(A
1
|B) =
0,90 · 0,001
0,0709
= 0,012
Parte 5. ¡Corre! ¡Regresa!
Dos Variables

Vamos a introducirnos en el mundo de las dos variables. Hasta ahora, en general, hemos estado estudiando las
variables de una en una. Pero es posible estudiar dos variables a la vez, y la interacción entre ellas.

¿Cómo hacemos esto sobre una misma tabla? Aunque pueda resultar confuso al principio, hay un mecanismo
bastante ingenioso para esto…

Todo lo que hemos estado estudiando hasta ahora es perfectamente válido. Sin embargo, a ti cuando te dan
una tabla de varias variables se te puede presentar esto:

Edad de los novios en los matrimonios celebrados durante un año en una ciudad.

Mujer
Hombre 20-25 25-30 30-35 35-40
20-25 920 170 17 3
25-30 500 325 56 10
30-35 118 112 60 15
35-40 20 28 30 16


Como vemos, hay dos variables. La primera variable es Edad del Hombre (podríamos llamarla X, como hasta ahora
hemos estado haciendo) y la otra es Edad de la Mujer (podríamos llamarla Y). En la tabla, se rellena la frecuencia
que ha habido de cada caso.

Si te fijas, gracias a esta tabla podemos sacar mucha información. Por ejemplo; ¿cuántos matrimonios ha habido en
que el hombre rondaba entre 25-30 años y la mujer tenía 35-40 años? Con un simple vistazo a la tabla, vemos que ha
habido 10 matrimonios de este tipo.

Vamos a aclarar cosas:

· En total, el tamaño de la población, N, es la suma de todas las celdas de la tabla, porque son los diferentes casos.
En este caso, N=2400
·Si cogemos todas las frecuencias de una fila (que es donde está representada la variable X), podemos tener lo que
se llama la frecuencia marginal de X.

Es decir, para el hombre en edad [20-25], hay un total de 1110 casos. Esta cifra la hemos sabido porque sumamos
todos los números en su fila.

Mujer
Hombre 20-25 25-30 30-35 35-40 f
i

20-25 920 170 17 3 1110  sumamos toda la fila


Hacemos una nueva columna porque nos va a ser increíblemente útil después. El nombre, como hemos dicho, es
frecuencia marginal, y lo representamos como f
i
(“f” con un subíndice “i”) para el caso de la variable X. En el caso de
la variable Y, lo representaremos como f
j
(“f” con un subíndice “j”).

Vamos a completar la tabla entera:

Mujer
Hombre 20-25 25-30 30-35 35-40 f
i
20-25 920 170 17 3 1110
25-30 500 325 56 10 891
30-35 118 112 60 15 305
35-40 20 28 30 16 94
f
j
1558 635 163 44


Asegúrate de entender muy bien esta tabla antes de seguir. Hemos sacado las frecuencias marginales de cada fila y
de de cada columna. Las de las filas, f
i
, corresponden a la variable Edad del Hombre, y las de las columnas f
j

corresponden a la variable Edad de la Mujer.

Si sumamos todas las

f
i
o las f
j
, nos dará el tamaño de la población, N. Así que suele ponerse en el espacio que
queda en la última fila, así:

Mujer
Hombre 20-25 25-30 30-35 35-40 f
i
20-25 920 170 17 3 1110
25-30 500 325 56 10 891
30-35 118 112 60 15 305
35-40 20 28 30 16 94
f
j
1558 635 163 44
2400


Esta forma de trabajar es más engorrosa al principio, pero luego verás lo clarificadora y eficaz que resulta.

Por supuesto, de esta manera, podemos sacar la media, la moda, etc. ¿Qué es lo que ocurre? Pues que nos saldrá
una media para la variable X y otra para la variable Y, una mediana para la variable X y otra para la variable Y, etc.

El trabajo se “duplica”, pero es sencillo de entender.

Así podemos hacer aún más operaciones, añadiendo filas y columnas para cada variable, etc.

Regresión lineal

Imagina estos datos:



Ahora voy a trazar una línea. Esa línea va a intentar representar la tendencia de los datos. Es decir, nos va a decir
aproximadamente cómo están distribuidos.



¿a que no está mal? Esto es una regresión lineal, ni más ni menos. Sí, todo ese tocho de apuntes que tienes es
simplemente esto.

¿Dónde está el meollo de la cuestión? Bueno, pues esta regresión líneal, nuestra línea azul; puede servir para
bastantes cosas. Por ejemplo, una de las más útiles es hacer predicciones.

Por ejemplo, voy a añadir un dato más, que me inventaré; representado por un punto verde:




¿A que tiene sentido que esté ahí? La línea, que se llama más formalmente recta de regresión, nos ayuda a predecir
el comportamiento de los datos.

Ojo: normalmente, como puedes ver, esa predicción suele ser aproximada. Realmente la recta no predice
exactamente por dónde pasan los datos o pasarán si hacemos predicciones. Pero nos da una aproximación. Más
adelante veremos que también podemos medir cómo de buena es una aproximación, es decir, lo útil que realmente
nos será nuestra recta de regresión.

Covarianza


Tómatelo con calma y ve haciendo filas y columnas para cada (x
i
-x̅ ), etc. La Covarianza es un cálculo que te será
necesario para bastantes otras cosas después.

Coeficiente de correlación lineal de Pearson

¿Quiéres saber cuán relacionada está X con Y? (sé que no quieres) Pues el Coeficiente de Correlación Lineal de
Pearson (vaya nombrecito…) te dará un numerito entre -1 y 1. Cuanto más se acerque a 0, peor correlación hay
y menos relacionadas están las variables. Si te da 0 exacto, quiere decir que las variables no tienen ninguna
relación entre sí.

Ejemplo: X:Temperatura ambiental en Albacete y Y:número de pie que tienen las señoras de Valladolid.

Para sacer el coeficiente de correlación lineal bla bla blah, es esta fórmulaca:




La leche, ¿eh? Pues luego la harás volando, simplemente es un poco coñazo. Al Coeficiente blah blah se lo
representa como r (“r” minúscula).

r = coeficiente de correlación de Pearson.
xy = sumatoria de los productos de ambas variables. (para cada x e y de cada fila, los multiplicas y luego sumas
todos los resultados que te han salido)
x = sumatoria de los valores de la variable X.
y = sumatoria de los valores de la variable Y.
x
2
= sumatoria de los valores al cuadrado de la variable X.
y
2
= sumatoria de los valores al cuadrado de la variable Y.
N = tamaño de la muestra

Ya hemos dicho que si r=0, quiere decir que no hay relación entre las variables.

Si r se acerca a 1 o lo iguala, quiere decir que hay bastante relación entre las variables; la Y depende mucho de la
X que sería la “principal”. Si llega a más de 0,6 o así; está bastante relacionada.

Por el contrario, si r se acerca a -1 o lo iguala, quiere decir que hay bastante relación entre las variables pero al
revés, es decir, que la X depende mucho de la Y . Si llega a -0,6 o más bajo, está bastante relacionada.

Es importante que sepas interpretar el Coeficiente de Correlación Lineal de Pearson en los exámenes, pues casi
siempre lo preguntan. Quiere decir que mires si se acerca más bien a 1, a 0, o a -1; y digas si las variables se
relacionan bastante entre sí o por el contrario no tienen mucha relación.

Ecuación de una recta

Volvamos al instituto. ¿Diste matemáticas? Si te acuerdas, las líneas rectas las representábamos con ecuaciones.

Oh, sí. No tiembles. Has hecho cosas muchísimo más difícil antes. Incluso tu rubia cabellera puede aguantar esto sin
despeinarse, te lo digo yo. Mira qué fácil es:



Tenemos nuestro eje de coordenadas. Ya sabes, la “Y” representa hacia arriba, la “X” representa hacia la derecha.
Bien.

La ecuación de una recta es así:

y=mx+b

Su gráfica es algo así:


¡No te asustes! Vamos a ver qué quiere decir.

La ecuación nos sirve para describir cualquier punto de la línea que tenemos. Así, si nos dan la x, podemos saber
automáticamente qué “y” le corresponde.

Por ejemplo, en la ecuación:

y=2x +1

Si yo te doy la x=2; tú puedes hacer cálculos y enseguida decirme (sustituyendo “x” por “2”) que: 2*2+1=5.

Por tanto la “y” vale “5” cuando la x vale 2.

Si esto lo hacemos muchas veces, para muchas “x”, nos va dando puntos, puntos, puntos y al final queda una línea:



¡Tachán! Ya has comprendido de dónde viene esa famosa ecuación de y=mx+b que tanto recuerdas.

A “m” se le llama pendiente. ¿Por qué? Bueno, pues porque los matemáticos se dieron cuenta de que alterando la
“m” la inclinación de esa recta cambiaba.

A “b” se le llama término independiente. Se le llama así porque va como aparte, aislado, solico. Que no te dé pena.

En algunos apuntes a m la llaman b
0
y a b la llaman b
1
. Al autor le parece una complicación innecesaria que sólo da
lugar a confusión. Haz lo que te dé la gana.


La ecuación de la recta, pues, siempre es así; y=mx+b. La “y” y la “x” las dejamos así, pues son nuestras variables. Sin
embargo, los parámetros “m” y “b” los podemos tocar, para hacer que la recta cambie.

Esto es lo que ocurre si variamos la “m”, la hacemos más grande o más pequeña:



Como ves, cambia bastante, hace honor a su nombre, “pendiente”.

Y esto es lo que ocurre si tocamos la “b”:



Se mueve hacia arriba o abajo.

Por supuesto, esto es lo que ocurre si tocamos ambas, la “m” y la “b”:




Una vez entendido que y=mx+b es la ecuación de una recta, vamos a juntarlo con lo que teníamos antes.

Calcular la regresión lineal

A ti te dan una serie de datos. Además, te pide que calcules la regresión lineal.
Por otra parte, sabemos que una línea tiene por ecuación y=mx+b y que ajustando los parámetros “m” y “b”
podemos cambiar la forma de la línea.

Pues calcular la regresión lineal sirve para sacar qué parámetros “m” y “b” forman una línea que se ajuste lo mejor
posible a los datos.

Así de simple.

De hecho, no vas a tener que romperte mucho la cabeza. Los matemáticos lo hicieron por ti hace ya tiempo. Hasta
nosotros nos llega directamente la fórmula que tienes que usar para sacar “m” y para sacar “b”.

m=
Cuuar|anza(x, y)
x
x
2


¿Qué qué es s
x
2
? Pues ni más ni menos que la varianza (acuérdate del tema anterior) pero sacada sólo a la variable
X.

Así hemos sacado la “m”, la pendiente, de la recta de regresión.



Sacar la “b”, el término independiente; es aún más sencillo. Para empezar, escoge de los datos que ya tienes un
valor para X e Y que sepas de antemano (es decir, coge el valor de X que más te guste y el valor de Y que
corresponda a esa X que has elegido).

Entonces simplemente, la fórmula es:

b=(valor_conocido_de_Y) - m*(valor_conocido_de_X)

(por abreviarlo: b=y-mx )


Y así, con la “m” y la “b”, ¡ya tenemos nuestra recta de regresión!


Coeficiente de determinación

Una recta puede estar más ajustada que otra a los datos. Por ejemplo, esta recta:


Está más y mejor “ajustada” que esta otra:




Para medir esto, se usa el Coeficiente de Determinación. Se representa como R
2
y su fórmula es:



Donde S
2
e

es la desviación típica residual y S
2
Y
es la desviación típica (a secas) de la variable Y.
Cómo interpretar R
2


R
2
siempre nos va a dar un valor entre 0 y 1.

 Cuanto más se acerque a 1, quiere decir que nuestra recta de regresión tiene una alta bondad de ajuste,
es decir, que se ajusta muy bien a los datos.
 Cuanto más se acerque a 0; pues lo contrario, que la recta no es muy buena y no representa mucho la
tendencia de los datos.