You are on page 1of 71

Probabilidad y Estadı́stica

Grado en Ingenierı́a Informática

Tema 1
Estadı́stica descriptiva

Javier Cárcamo
Departamento de Matemáticas
Universidad Autónoma de Madrid
javier.carcamo@uam.es

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 1


Información de contacto

Javier Cárcamo

Correo electrónico: javier.carcamo@uam.es

Teléfono: 91 497 7635

Despacho: Módulo 17 (Facultad de Ciencias) - Despacho 412

Página web: http://www.uam.es/javier.carcamo

Transparencias utilizadas en clase:


http://www.uam.es/javier.carcamo/Tema-PREST-1.pdf
http://www.uam.es/javier.carcamo/Tema-PREST-2.pdf
.. .. .. .. .. .. .. .. ..
. . . . . . . . .

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 2


Ejemplo introductorio:
Contaminación por mercurio en el pescado

• El agua de los rı́os contiene pequeñas concentraciones de


mercurio que se pueden ir acumulando en los tejidos de los
peces.

• Se ha realizado un estudio en los rı́os Wacamaw y Lumber en


Carolina del Norte (EE.UU.), analizando la cantidad de
mercurio que contenı́an 171 ejemplares capturados de una
cierta especie de peces.

• Los datos obtenidos se encuentran en el fichero


mercurio.txt (formato texto) o en el fichero mercurio.sav
(formato SPSS).

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 3


Variables

Nombre variable Descripción


RIO Código del rı́o (0=Lumber, 1=Wacamaw)
ESTACION Código de la estación (de 0 a 16)
LONG Longitud (en cm) del pez
PESO Peso (en g) del pez
CONC Concentración (en ppm) de mercurio

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 4


Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 5
Problemas de interés relacionados con estos datos

• Resumir la información que contienen con unas pocas cifras o


gráficos.

• ¿Qué valores toma cada variable? ¿Cuáles son los más


frecuentes? ¿Hay grandes diferencias entre ellos?

• ¿Es significativamente más alta la concentración de mercurio


en un rı́o que en otro?

• ¿Existe relación entre la concentración de mercurio y la


longitud o el peso del pez?

• ¿Depende la concentración de mercurio de la estación en la


que ha sido capturado el pez?

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 6


Tema 1: Estadı́stica descriptiva

Descripción del tema

1. Introducción.
2. Variables. Distribución de una variable.
3. Representación gráfica de la distribución.
4. Medidas numéricas para resumir la distribución.
5. Correlación.
6. Transformaciones: estandarización y transformación
logarı́tmica.
7. Regresión lineal.

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 7


1. Introducción
• La estadı́stica permite extraer información y conocimiento a
partir de la observación de un fenómeno.
• Una variable es el valor de una caracterı́stica de interés de un
fenómeno objeto de estudio.

Ejemplos varios de variables


• x ≡ altura de una persona.
• x ≡ peso de una persona.
• x ≡ número de visitas al dı́a de una página web.
• x ≡ tiempo entre la llegada de un mail y su respuesta.
• x ≡ vida útil de una componente de un sistema.
• x ≡ tiempo de procesado de un programa informático.
• x ≡ número de errores de código de un programador.
• x ≡ horas de estudio en PREST de un alumno.
• x ≡ nota en la asignatura PREST de un alumno.
• x ≡ ······
Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 8
Definiciones básicas

• Población: Conjunto de elementos objeto de estudio


(estudiantes universitarios; personas con ı́ndice de masa
corporal superior a 25; empresas en España; etc.).

• Muestra: Subconjunto de la población.

• Tamaño muestral: Cardinal de la muestra (número de


elementos de la muestra, se suele denotar por n).

• Un conjunto de datos es el resultado de medir una o más


variables en una muestra.

• En la mayor parte de las ocasiones es imposible observar una


caracterı́stica de interés en toda la población (censo).

• Esto nos obliga a utilizar un procedimiento aproximado. Es


aquı́ donde entra la Estadı́stica.
Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 9
1. Introducción

Pregunta: ¿Por qué necesitamos de una muestra y no estudiamos


toda la población (censo)?
1 En poblaciones infinitas (o de tamaño muy grande) es
materialmente imposible efectuar un censo.

2 Coste económico más reducido.

3 Menor tiempo empleado.

4 En ocasiones los elementos muestreados se destruyen o


modifican en el proceso. Por ejemplo, pruebas de airbag o de
armamento explosivo.

5 Precisión: En muchos casos, la recogida de la información


muestral se puede realizar de forma más fiable y controlada
que en el caso de datos de toda la población.

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 10


1. Introducción

• La estadı́stica descriptiva (o análisis exploratorio de


datos) tiene por objetivo identificar y resumir las principales
caracterı́sticas de un conjunto de datos mediante un número
reducido de gráficos y/o números.

• Para describir un conjunto de datos se realiza un análisis


individual de cada variable y posteriormente se estudian las
relaciones entre las distintas variables.

• Se utilizan representaciones gráficas y resúmenes numéricos.

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 11


2. Tipos de variables

1 Variables cualitativas: Describen cualidades o atributos (ej.


color del pelo; sexo de una persona; etc.).
2 Variables cuantitativas discretas: Toman un número
pequeño de valores, normalmente enteros (ej. número de
hijos).
3 Variables cuantitativas continuas: Toman valores en un
intervalo (ej. tiempo hasta que llega un autobús).

En los datos sobre contenido de mercurio, ¿de qué tipo es cada


una de las variables?

En general, la técnica estadı́stica adecuada para analizar una


variable depende de su tipo.

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 12


2. Distribución de una variable
• Normalmente, los valores que toma una variable x en una
muestra de tamaño n se suelen representar genéricamente por
x1 , x2 , . . . , xn .

• La distribución de una variable viene determinada por los


valores que toma esa variable y la frecuencia con la que los
toma.

• La frecuencia absoluta de un valor (o de un intervalo) es el


número de individuos para los que la variable toma ese valor
(o pertenece a ese intervalo).

• La frecuencia relativa es igual a la frecuencia absoluta


dividida por el número total de datos n.

• La frecuencia relativa siempre es un número entre 0 y 1.


Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 13
Aspectos interesantes de una distribución

• Su posición: entorno a qué valor central toma valores la


variable.

• Su dispersión: el grado de concentración de los valores que


toma la variable alrededor de su posición central.

• Su forma: por ejemplo, la simetrı́a, es decir, si los valores se


reparten de la misma forma a uno y otro lado del centro.
Piensa en dos conjuntos de 5 datos que tengan:

(a) La misma posición y distinta dispersión.


(b) La misma dispersión y distinta posición.

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 14


3. Representación gráfica de las frecuencias

Gráficos de sectores o barras (sólo datos cualitativos o discretos)

25
RIO
,00
1,00
20

Frecuencia
15

10

0
,00 1,00 2,00 3,00 4,00 5,00 6,00 7,00 8,00 9,00 10,00 11,00 12,00 13,00 14,00 15,00

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 15


3. Representación gráfica de las frecuencias
Histogramas (datos cuantitativos)
• Se divide el rango de los datos en un número adecuado de
intervalos.
• Sobre cada intervalo se dibuja un rectángulo cuya área es
proporcional a la frecuencia (relativa o absoluta) de datos en
el intervalo.

30
Frecuencia

20

10

Media =1,1918
Desviación típica =0,76166
N =171
0
0,00 2,00 4,00

CONC

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 16


3. Representación gráfica de las frecuencias

Aspectos a tener en cuenta para interpretar un histograma

• Normalmente la base de todos los rectángulos es la misma por


lo que la altura es proporcional a la frecuencia.
• Identificar si se han usado frecuencias absolutas o relativas.
• ¿Cuántas modas hay?
• ¿Hay algún dato atı́pico en relación al resto?
• ¿Es simétrica la distribución?
• En caso de asimetrı́a, ¿es asimétrica a la izquierda o a la
derecha
• ¿En torno a qué valor aproximado están centrados los datos?
• ¿Están muy dispersos los datos en torno a este centro o muy
concentrados?

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 17


3. Tipos de simetrı́a
50 40

40
30

30
20
20

10
10

0 0
Distribución simétrica unimodal Distribución simétrica bimodal

100 100

80 80

60 60

40 40

20 20

0 0
Distribución asimétrica a la derecha Distribución asimétrica a la izquierda
Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 18
La forma depende del número de intervalos

50

75 40

R ecu ento
30
Recu ento

50

20

25
10

0
1,00 2,00 3,00 1,00 2,00 3,00

CONC CONC
Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 19
Con SPSS

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 20


4. Medidas numéricas de posición: la media aritmética
La medida de posición más conocida es la media aritmética o
promedio de los datos:
n
x1 + · · · + xn 1X
x̄ = = xi .
n n
i=1

x̄ da una idea del valor central alrededor del cual se reparten los
valores x1 , . . . , xn .
Algunas propiedades
• La suma de las desviaciones a la media siempre es igual a cero:

(x1 − x̄) + (x2 − x̄) + · · · + (xn − x̄) = 0.


Esto significa que x̄ es el centro de gravedad de los datos.
• Si la distribución es muy asimétrica, la media puede
distorsionar nuestra percepción de cómo son los datos.
• La media es muy sensible a la existencia de datos atı́picos.
Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 21
4. Posición de la media en un histograma

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 22


4. Medidas numéricas de posición: la mediana
Una medida alternativa de posición es la mediana.
Para calcular la mediana:
• Se ordenan los datos de menor a mayor.
• Si el número de datos es impar, la mediana es el dato que
ocupa la posición central.
• Si el número de datos es par, la mediana es la media de los
dos datos centrales.
Observaciones:
• La media aritmética hace referencia al valor medio y la
mediana al valor que ocupa el lugar medio.
• La mediana es más robusta que la media pero hace un uso
menos eficiente de la información contenida en los datos.
Pregunta: ¿Cuál es la relación entre la simetrı́a de una
distribución y la posición relativa entre la media y la mediana?
Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 23
4. Medidas de dispersión: el rango y los cuartiles
Una medida de dispersión muy sencilla es el rango o recorrido de
los datos: el valor máximo menos el mı́nimo R = xmax − xmin .
El rango sólo depende de los datos extremos por lo que no es muy
conveniente.
Mejores propiedades tienen los cuartiles y el rango intercuartı́lico:
• El primer cuartil, Q1 , es el valor que deja el 25 % de los
datos por debajo (los menores) y el 75 % de los datos por
encima (los mayores). Es decir, Q1 es la mediana de los datos
menores que la mediana.
• El tercer cuartil, Q3 , es el valor que deja el 75 % de los datos
por debajo (los menores) y el 25 % de los datos por encima
(los mayores), es decir, Q3 es la mediana de los datos mayores
que la mediana.
• El rango, recorrido o amplitud intercuartı́lica es la
diferencia entre los dos cuartiles anteriores: RIQ = Q3 − Q1 .
Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 24
4. Medidas de dispersión: el rango y los cuartiles

De acuerdo con las anteriores definiciones, responde a las


siguientes cuestiones:

¿Qué porcentaje de datos hay...


(a) ... entre Q1 y Q3 ?
(b) ... a la izquierda de Q1 ?
(c) ... a la derecha de Q3 ?
(d) ... entre el mı́nimo y Q3 ?

Una descripción útil de un conjunto de datos viene dada por los


cinco números siguientes:

Mı́nimo, Q1 , Mediana, Q3 , Máximo

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 25


4. Medidas de dispersión: la varianza y la desviación tı́pica
La varianza y la desviación tı́pica son las medidas de dispersión
más utilizadas.
La varianza es el promedio de las desviaciones al cuadrado de los
datos a su media.
Datos x1 , . . . , xn
Desviaciones x1 − x̄, . . . , xn − x̄
Desviaciones al cuadrado (x1 − x̄)2 , . . . , (xn − x̄)2

(x1 − x̄)2 + · · · + (xn − x̄)2


La varianza es vx =
n
Se suele usar más la (cuasi)varianza:
(x1 − x̄)2 + · · · + (xn − x̄)2
s2 =
n−1
La (cuasi)varianza mide la desviación de los datos respecto a la
media. A mayor (cuasi)varianza, mayor dispersión.
Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 26
4. Medidas de dispersión: la varianza y la desviación tı́pica
Observación: Es interesante definir un coeficiente que mida la
variación expresado en las mismas unidades de la variable.
La (cuasi)desviación tı́pica es la raı́z cuadrada de S 2 :
s
(x1 − x̄)2 + · · · + (xn − x̄)2
s=
n−1
Para comparar la dispersión de variables de magnitudes muy
distintas a veces se usa el coeficiente de variación:
s
CV = .

El CV no depende de las unidades en las que midamos una variable
(adimensional). A mayor CV, menos representativa es la media x̄.
Una fórmula alternativa y útil para calcular vx y s 2 :
x12 + · · · + xn2
 2
x1 + · · · + xn2

2 2 n 2
vx = − x̄ , s = − x̄ .
n n−1 n
Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 27
4. Medidas de dispersión: la varianza y la desviación tı́pica

Ejercicio: Considerar las muestras observadas

-10, -8, -6, -4, -2, 2, 4, 6, 8, 10

y
1 1 1 1 1 1 1 1 1 1
− ,− ,− ,− ,− , , , , , .
10 8 6 4 2 2 4 6 8 10
Calcular sus medias, medianas y varianzas.

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 28


4. Medidas de dispersión: la varianza y la desviación tı́pica
Ejercicio: En una comunidad numerosa de propietarios desean
estudiar el volumen de agua utilizado en cada hogar para ver si es
posible reducir su consumo. Toman una muestra aleatoria del
número de m3 de agua utilizados por 10 hogares en los últimos dos
meses y obtienen:

10, 15, 13, 20, 25, 18, 15, 14, 21, 19.

Calcular los valores observados de la media, la mediana y la


varianza.
Un hijo del presidente de la comunidad decide jugar con el papel
donde se han anotado los datos y lo rompe. Se toma una nueva
muestra

17, 22, 14, 15, 19, 23, 21, 13, 14, 11.

Recalcular la media, mediana y la varianza.


Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 29
Cuestiones
Da un ejemplo de un conjunto de datos tal que s 2 = 0.

Dado un conjunto de observaciones medidas en kg, supongamos


que cambiamos las unidades y las pasamos a gramos (es decir,
multiplicamos por mil). Determina si son verdaderas o falsas las
siguientes afirmaciones:
• Tanto la media como la mediana de los nuevos datos se
multiplican también por mil.
• La varianza se multiplica también por mil.
¿Cómo cambiarı́a la desviación tı́pica?

Ahora sumamos 100 a todos los datos. Determina si son


verdaderas o falsas las siguientes afirmaciones:
• Los cuartiles no cambian.
• El rango intercuartı́lico no cambia.
• La desviación tı́pica no cambia.
Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 30
Descripción numérica
Estadísticos

LONG PESO CONC


N Válidos 171 171 171
Perdidos 0 0 0
Media 39,9708 1147,9123 1,1918
Error típ. de la media ,65132 66,95359 ,05825
Mediana 39,0000 873,0000 ,9300
Desv. típ. 8,51715 875,53176 ,76166
Varianza 72,542 766555,869 ,580
Rango 39,80 4308,00 3,49
Mínimo 25,20 203,00 ,11
Máximo 65,00 4511,00 3,60
Percentiles 25 33,3000 491,0000 ,5900
50 39,0000 873,0000 ,9300
75 46,2000 1455,0000 1,6000

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 31


Cuestiones

• Calcula el coeficiente de variación de las tres variables.


¿Qué se deduce sobre la dispersión de los valores que toman?

• Comparando los valores de la media y la mediana, ¿cuál de las


tres distribuciones parece ser más simétrica?

• Verdadero o falso: Al menos para 100 peces, la concentración


de mercurio es superior a 0.93 ppm.

• Verdadero o falso: La longitud de aproximadamente 42 peces


es mayor que 25.20 cm y menor que 33.3 cm.

• ¿Cuál es el rango intercuartı́lico de la variable que mide el


peso de los peces?

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 32


Con SPSS

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 33


Con SPSS

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 34


Diagrama de cajas

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 35


¿Para qué sirven?

Los diagramas de cajas son especialmente útiles para comparar


varios conjuntos de datos.

Además, proporcionan información sobre:


• La posición (mediana) y la dispersión (rango intercuartı́lico)
de los datos.
• La simetrı́a de la distribución (comparamos el tamaño de las
cajas).
• La existencia de datos que se desvı́an del patrón general
(posibles datos atı́picos).

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 36


Concentración de mercurio y rı́o

4,00

162
70

66
CONC

2,00

0,00

,00 1,00

RIO

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 37


Concentración de mercurio y estación

4,00

66

123
CONC

2,00
24
25 76
82 138

75

0,00

,00 1,00 2,00 3,00 4,00 5,00 6,00 7,00 8,00 9,00 10,00 11,00 12,00 13,00 14,00 15,00

ESTACION

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 38


Relaciona cada histograma con su diagrama de cajas

5
2

4
1


3
5
0

2
4
−1


1


−2

0

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 39


Diagrama de dispersión: Concentración frente a peso

4,00
CONC

2,00

0,00

0,00 2000,00 4000,00

PESO
Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 40
Interpretación de un diagrama de dispersión

• Es importante fijarse en las unidades de cada eje.

• ¿Se observa alguna asociación entre las variables?

• ¿Cómo es de estrecha la asociación entre las variables?

• ¿Cuál es la “dirección” de la asociación entre las variables?

• ¿Hay algún punto o colección de puntos que no siga el patrón


general del resto?

• Si hay una tercera variable cualitativa, resulta conveniente


utilizar sı́mbolos o colores diferentes para cada valor de esta
tercera variable.

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 41


Concentración frente a longitud (color según rı́o)
RIO
,00
1,00
60,00

50,00
LONG

40,00

30,00

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 42


Matriz de diagramas de dispersión
RIO
,00
1,00
LONG
PESO
CONC

LONG PESO CONC

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 43


5. Covarianza
Se dispone de un conjunto de n pares de observaciones
(x1 , y1 ), . . . , (xn , yn ).
El objetivo es definir una medida numérica para cuantificar el
grado de relación lineal que hay entre las variables x e y : Para ello
se usa la covarianza entre x e y :
n
1 X
sxy = (xi − x̄)(yi − ȳ ).
n−1
i=1
Observaciones
• La covarianza entre x e y mide el grado de relación lineal
entre las dos variables.
• Para entender por qué esta definición es útil miramos el
gráfico de la transparencia siguiente.
• sxx es la cuasi-varianza de x, sx2 .
• sxy tiene el inconveniente de que depende de las unidades en
que se midan x e y .
Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 44
5. Interpretación de la covarianza

● ● ●
4

● ●
● ● ● ●

4
● ● ●
● ●
● ● ●
● ● ● ● ● ●
● ● ● ● ●
●● ● ● ● ● ●
●●● ● ● ● ● ●
●● ● ● ● ● ● ● ● ● ●

● ●● ● ● ● ● ● ●● ● ● ● ●
● ● ● ●● ● ● ● ● ●
● ●●● ● ●
2

● ● ● ● ● ●● ● ● ● ●● ●
● ●●● ● ●
● ●● ● ● ●
● ● ● ● ● ● ● ●
●●● ●
● ● ●● ● ● ●

2
● ● ●● ● ● ● ● ● ● ● ●

● ●
● ●
● ●● ●
● ● ● ●● ●● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ●●● ●
● ●
● ● ● ●●
● ● ● ●● ●● ● ● ● ●
●● ●
● ●●●
● ● ●
● ●
● ● ●
●● ● ● ● ●● ● ●
● ●
● ● ● ●● ●● ●● ● ● ● ● ●●●● ● ●
●●
● ● ● ● ● ●● ● ● ●
● ● ● ●●● ● ● ● ●●
●● ● ●● ● ● ●●●●● ● ●●●●●● ● ●
● ●●
●●● ● ● ●●● ●● ● ● ● ●
●● ●● ● ● ●● ● ● ● ● ● ● ● ●
● ●● ● ●●●● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ●● ●● ● ● ●●● ● ●
● ●●
●● ● ● ● ● ● ●●●●● ●● ●
● ●● ● ●●● ● ● ● ●●●● ● ●
●● ●● ● ●
●● ●● ● ●● ●● ●
● ● ●
● ●● ● ● ●● ● ● ● ●● ● ●● ●
● ●
●● ● ●
● ● ● ● ●● ●●
● ● ●● ● ● ● ● ●● ● ●●

● ●● ●
y

y
● ●● ● ● ● ●●●● ● ●●●● ● ● ●● ●
● ●●● ● ● ● ●● ●●●●● ●● ● ●●


● ●● ● ●
● ●●● ● ● ● ●● ● ● ●● ●

● ● ●● ●● ●
● ● ● ●● ●
0

● ● ●● ●● ●● ● ● ● ● ● ● ● ● ●● ● ● ●●●●● ●● ● ● ●●

0
● ● ● ● ●●●● ● ● ●● ● ● ●● ●● ● ● ● ●● ● ● ● ● ●● ● ● ● ●●
● ● ●●● ● ● ●● ● ●●● ●●●● ● ●

● ● ● ●● ● ● ● ●● ● ● ●● ● ● ●●●● ● ● ● ● ●● ● ●●
●●●● ●● ●● ● ●●
● ●●
●●
● ●● ● ●●● ●●●● ● ● ● ● ● ● ●● ●● ●● ●●● ● ●
●●●●

●● ●
● ● ●● ● ● ●

●● ● ●● ● ●●
● ● ● ●● ●● ●● ● ● ●
● ● ●● ● ● ● ● ●● ● ● ● ● ●● ●● ●●● ● ●
●● ●●● ● ●● ●
● ●● ● ●● ● ● ●● ● ●● ●● ● ●●● ● ● ●


● ● ● ●● ● ● ● ●●●●● ● ● ●

● ●
●●● ● ● ● ●● ●●● ● ●●
● ● ●● ● ● ● ● ●●● ● ●● ● ● ● ● ●
● ● ● ● ● ● ● ●●
● ● ● ● ●● ●● ● ● ● ● ●●● ● ●●● ● ● ●● ● ●● ●● ●● ● ● ● ●
●● ●● ● ● ●● ● ●

●● ● ●●
● ● ● ●● ● ●
●● ●


● ●● ●
● ●
● ● ● ●
● ●
● ●●
● ●● ●

−2
● ● ● ● ● ● ●
−2

●● ● ● ● ●● ● ●●

● ● ● ● ● ● ● ●
● ● ● ●●
● ● ● ●● ● ● ●● ● ● ● ●

●●● ●
● ● ● ●
● ● ● ● ● ●
● ● ●
● ●

−4

● ●
−4

−2 −1 0 1 2 −2 −1 0 1 2

Covarianza positiva Covarianza negativa

● ● ●

● ● ●
● ● ●
● ● ● ●
2

● ● ● ●
●● ●
● ●

6
● ● ●
● ● ● ● ● ● ● ●
● ● ●● ● ●
● ● ● ● ●
● ● ● ● ●● ●
● ● ●●● ●●●● ● ●
●● ● ● ● ●
●● ●
●● ● ● ● ● ● ●● ●


● ● ● ●● ● ● ●
1


● ●● ●● ● ● ● ● ● ●● ●
● ●
●●● ● ● ● ●●
● ●● ● ●● ● ● ● ● ●

● ● ● ●
● ● ●● ● ● ● ● ●
● ● ● ● ●● ● ● ●

4
● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ●
● ●

● ●
● ● ● ●
● ● ● ●●● ● ● ● ● ● ●
● ● ● ● ●
●● ● ●
● ● ● ● ● ● ● ● ● ● ●● ● ●●●●●●● ● ●●● ● ● ● ● ● ● ● ●● ●● ● ● ●
● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●
● ●● ●● ● ● ● ● ●●
● ●● ●● ● ● ●
● ● ●● ●

● ● ●● ●● ● ● ● ● ●● ● ● ● ● ● ●● ●● ●
● ● ● ● ●● ● ●●
● ● ●●● ● ● ● ● ● ● ●
● ●
● ● ● ●● ●
0


●●●● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ●● ●
y

● ● ● ● ●●● ● ●
● ● ● ● ● ● ● ● ● ● ● ●
● ● ●● ● ● ● ●
● ● ● ● ● ● ●
● ● ●● ● ● ● ● ●● ● ●●● ● ● ●● ● ● ●
● ●● ● ●
● ●●● ●● ●●● ● ● ●● ●● ●● ● ● ●● ● ●●●● ● ●
2
● ● ● ● ● ● ● ●● ● ● ●● ●● ● ● ●
● ●
● ● ● ● ● ●
● ● ● ●● ●
● ● ●●● ● ●● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ●
● ● ●● ● ● ● ● ●

● ● ●
●●● ● ● ● ● ● ● ● ●●● ● ●●●●
● ●
● ● ● ● ● ●● ● ●● ●● ● ● ●●●● ● ● ● ● ● ●● ● ●
● ●● ● ● ●
●● ●● ● ● ●●●● ●
● ● ● ●
●●

●●
●● ● ●● ● ●
●● ●●
● ● ●
●● ● ●●
● ●
●●●●● ● ● ● ● ●● ● ●● ●
●●●●

● ● ●

● ● ●●●● ● ●●
● ●

−1

● ● ●● ● ● ● ● ● ● ● ●● ●
● ●
●● ●●●● ● ● ● ● ● ●
● ● ●
● ●● ● ● ●●● ●
● ●● ●● ● ●● ● ● ● ●●
● ● ● ●● ●● ●

● ●●● ● ● ● ● ● ●● ●● ●●● ●●●
● ● ●● ●● ● ● ● ●●● ●
● ● ● ●●

● ● ●● ●●
● ● ● ●● ● ●●●●●●
●● ●
● ●● ●
●●
● ●
● ●● ●● ● ●● ● ● ● ● ●● ● ●
● ● ● ● ● ●●● ● ●
● ● ●● ● ●
0

● ●● ● ● ● ● ●● ● ●● ● ●● ● ● ● ●
●● ● ● ●● ● ● ●●●● ●● ●●●●●●●● ●
● ● ●
● ● ● ● ● ● ● ●●● ● ● ●● ●● ●
● ●
● ● ●● ● ● ● ● ● ● ●● ● ●● ● ●●●● ●● ● ● ● ● ● ● ● ● ●
● ● ● ●●●● ●●● ● ●● ● ● ●
● ● ● ●
●● ● ● ● ● ●●

● ●
● ● ● ●●●
−2

● ● ● ● ●
● ● ● ●●
●● ● ● ● ● ●
● ● ●● ●
● ●● ● ● ●

−2

● ● ●
● ● ● ● ● ●
● ●
● ●
● ●

−2 −1 0 1 2 −2 −1 0 1 2

Covarianza aprox. cero Covarianza aprox. cero

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 45


5. Coeficiente de correlación

Resulta conveniente disponer de una medida de relación lineal que


no dependa de las unidades. Para ello, se normaliza sxy dividiendo
por el producto de (cuasi)desviaciones tı́picas, lo que lleva al
coeficiente de correlación:
sxy
rxy = .
sx sy

Propiedades del coeficiente de correlación:


• No depende de las unidades (es adimensional).
• Toma valores entre -1 y 1.
• Su signo se interpreta igual que el de la covarianza.
• Sólo vale 1 ó -1 cuando los puntos están perfectamente
alineados.

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 46


5. Ejemplos de correlaciones

rxyy = 1 rxy =‐1

rxy próximo a 1 rxy próximo a ‐1

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 47


5. Covarianzas y correlaciones de los datos

Correlaciones

LONG PESO CONC


LONG Correlación de Pearson 1 ,900 ,650
Sig. (bilateral) ,000 ,000
Suma de cuadrados y
12332,114 1141004 716,835
productos cruzados
Covarianza 72,542 6711,790 4,217
N 171 171 171
PESO Correlación de Pearson ,900 1 ,554
Sig. (bilateral) ,000 ,000
Suma de cuadrados y
1141004 1E+008 62786,546
productos cruzados
Covarianza 6711,790 766555,9 369,333
N 171 171 171
CONC Correlación de Pearson ,650 ,554 1
Sig. (bilateral) ,000 ,000
Suma de cuadrados y
716,835 62786,546 98,622
productos cruzados
Covarianza 4,217 369,333 ,580
N 171 171 171

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 48


5. Covarianzas y correlaciones con SPSS

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 49


6. Estandarización o tipificación
La Estandarización o tipificación consiste en restarle a cada
observación la media de todos los datos y dividir por la desviación
tı́pica:
xi − x̄
zi =
s
El valor zi representa la distancia de xi a la media expresada en
desviaciones tı́picas (el signo indica si el dato es mayor o menor
que la media).
Utilidad de la tipificación
• Eliminar los efectos de las unidades de medida, ya que la
variable z = (x − x̄)/s es adimensional.
• Detectar posibles valores atı́picos en los datos.
• Realizar comparaciones de los valores de una variable en
diferentes poblaciones.
Preguntas: ¿Cuánto vale la media de los datos estandarizados? ¿Y
su desviación tı́pica?
Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 50
6. Efecto de estandarizar un conjunto de datos

−4 −2 0 2 4 6 8

Datos originales

−4 −2 0 2 4 6 8

Datos centrados (media cero)

−4 −2 0 2 4 6 8

Datos estandarizados (media cero y varianza uno)

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 51


6. Tomar logaritmos
Si las observaciones xi son positivas, a veces es conveniente
trabajar con sus logaritmos log xi en lugar de con las variables
originales.

1 0
log (x)
−1 −2
−3

0 1 2 3 4 5
x
Utilidad
• En algunas ocasiones se consigue que la distribución de log x
sea más simétrica.
• En algunas ocasiones se consigue que la asociación entre dos
variables sea aproximadamente lineal.
Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 52
6. Tomar logaritmos para hacer la distribución más
simétrica

30

30

25

20

Frecuencia
Frecuencia

20

15

10
10

Media =1,1918 Media =-0,0268


Desviación típica =0,76166 Desviación típica =0,66104
N =171 0 N =171
0 -2,00 -1,00 0,00 1,00
0,00 2,00 4,00

CONC
LNCONC

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 53


6. Tomar logaritmos para hacer que la asociación sea lineal

4,00

1,00

0,00

LNCONC
CONC

2,00

-1,00

-2,00

0,00

30,00 40,00 50,00 60,00


0,00 2000,00 4000,00

PESO LONG

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 54


6. Transformaciones con SPSS

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 55


6. Transformaciones con SPSS

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 56


7. Regresión lineal: Introducción

En algunas situaciones, los diagramas de dispersión sugieren que


hay una relación lineal entre dos variables.

Asociación positiva Asociación negativa


7
7

6 6

5
5

4
4

3
3 4 5 6 7 3 4 5 6 7

Pregunta: ¿Cómo es la correlación en estos dos ejemplos?

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 57


7. Regresión lineal: Introducción
En algunas situaciones, los diagramas de dispersión sugieren que
hay una relación lineal entre dos variables.

Asociación positiva Asociación negativa


7
7

6 6

5
5

4
4

3
3 4 5 6 7 3 4 5 6 7

Aplicaciones:
• Resumir la información de los datos mediante una recta.
• Predecir valores de una variable usando la otra.
Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 58
Ejemplo: consumo de vino y dolencias cardı́acas

Consideramos dos variables:


• X : Consumo anual de vino en litros por habitante
• Y : Número de muertes por enfermedad cardı́aca, por cada
100.000 habitantes.

Algunas preguntas:
¿Qué podemos decir sobre la relación entre las dos variables?

¿Podemos afirmar que valores altos en consumo de vino están


asociados con valores bajos en número de muertes por enfermedad
cardı́aca?

¿Podemos predecir aproximadamente el valor de la variable Y si


sabemos el valor de X ?

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 59


Estadísticos Correlaciones

Vino Card
Vino Card Vino Correlación de Pearson 1 -,843
N Válidos 19 19 Sig. (bilateral) ,000
Perdidos 0 0 N 19 19
Card Correlación de Pearson -,843 1
Media 3,026 191,05
Sig. (bilateral) ,000
Desv. típ. 2,5097 68,396 N 19 19

Irlanda
300

250

200
Card

150

100

Francia

50

0,0 2,0 4,0 6,0 8,0 10,0


Vino

Pregunta: ¿Implica esta asociación causalidad?


Correlaciones

Vino Card
Vino Correlación de Pearson 1 -,843
Javier Cárcamo
Sig. (bilateral) PREST.
,000 Tema 1: Estadı́stica descriptiva 60
2. ¿ASOCIACION
2. ¿ASOCIACION ESTADISTICA
ESTADISTICA O CAUSAL?
7.OAsociación
2. ¿ASOCIACION ESTADISTICA O CAUSAL?
CAUSAL? estadı́stica y causalidad
La asociación
La asociación entreentre
unauna causa (C)
causa y un efecto (E),puede
puedesurgir
surgirde
detres
tresmodos
modos distintos:
distintos:
La asociación entre(C)
unay un efecto
causa (E),
(C) y un efecto (E), puede surgir
La asociación entre una causa (C) y un efecto (E), puede surgir de tres modos distintos:
de tres modos
es causadistintos:
a) a) C esCcausa de de
E E
a) (a) C es causa
C es causa dede E E.
C E
C E
E
C
b) C y E tiene una causa común (variable X)
b)b) CCy yEEtiene una causa común (variable X)
(b) C y Etiene unauna
tiene causa común
causa (variable
común X)
(variable X).
X
X
X
C E
C
C E
E
c) E es causa de C
c)c) (c)EEE
eseses
causa
causade
deCde
causa C C.

C E
C
C E
E
Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 61
Ejemplo Ejemplo: renta y fracaso escolar en la CAM

Ana Justel Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 62


Ejemplo: renta y fracaso escolar en la CAM


Arganda

35

30


● ●
% fracaso escolar

● ●
25

● ●


20


● ●

● ●

15

● ●


10

● Torrelodones

10 12 14 16 18 20 22

Renta (en miles de euros)

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 63


7. Problema de regresión

Observamos dos variables, X e Y , el objetivo es analizar la relación


existente entre ambas de forma que podamos predecir o aproximar
el valor de la variable Y a partir del valor de la variable X .

• La variable Y se llama variable respuesta


• La variable X se llama variable regresora o explicativa

Observación: En un problema de regresión (a diferencia de


cuando calculamos el coeficiente de correlación) el papel de las dos
variables no es simétrico. La variable X juega el papel de variable
independiente y la variable Y el papel de variable dependiente (de
la primera).

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 64


7. Recta de regresión
Frecuentemente, existe entre las variables observadas una relación
aproximadamente lineal:

yi ≈ β0 + β1 xi , i = 1, . . . , n.

• La recta y = β0 + β1 x es una recta de regresión.


• El parámetro β1 es la pendiente de la recta. Indica cómo
cambia la variable respuesta cuando el incremento de x es una
unidad.
• El parámetro β0 es el término independiente de la recta.
Indica el valor de Y cuando X = 0.

Problema estadı́stico: Estimar los parámetros β0 y β1 a partir de


los datos (xi , yi ), i = 1, . . . , n, de una muestra.
Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 65
7. La recta de mı́nimos cuadrados
Si estimamos β0 y β1 mediante β̂0 y β̂1 , la predicción de la variable
respuesta Y en función de la regresora X es:
Ŷ = β̂0 + βˆ1 X .
En particular, para los datos de la muestra:
ŷi = β̂0 + βˆ1 xi , i = 1, . . . , n.
Unos buenos estimadores (de β0 y β1 ) deben ser tales que los
errores de predicción sean pequeños:
ei = yi − ŷi = yi − (β̂0 + βˆ1 xi ).
La recta de regresión de mı́nimos cuadrados viene dada por los
valores β̂0 y β̂1 para los que se minimiza la suma de los errores de
predicción:
n
X n
X n
X
ei2 = [yi − ŷi ]2 = [yi − (β0 + β1 xi )]2 .
i=1 i=1 i=1

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 66


7. Los errores de predicción

● ●
3

3
● ●
2

2
● ●

● ●
● ●
1

1
y

y
● ●●● ● ●●●
0

0
● ●

● ● ● ●
● ●
−1

−1

● ●

● ●

−2 −1 0 1 2 −2 −1 0 1 2

x x

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 67


7. Estimadores de mı́nimos cuadrados
La recta de regresión de Y sobre X es la recta y = β̂0 + β̂1 x con
sy sy
y = ȳ + r (x − x̄) ⇐⇒ y − ȳ = r (x − x̄).
sx sx
Pendiente:
sy
β̂1 = r ,
sx
donde r es el coeficiente de correlación, sy es la desviación tı́pica
de la variable respuesta y sx es la desviación tı́pica de la variable
regresora.
Término independiente:

β̂0 = ȳ − βˆ1 x̄.

A los errores ei = yi − ŷi se les llama residuos.


A las predicciones yˆi = β̂0 + β̂1 xi se les llama valores ajustados.
Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 68
Ejemplo: consumo de vino

Estimadores de los parámetros:


sy 68,396
β̂1 = r = −0,843 = −22,974.
sx 2,5097

β̂0 = ȳ − βˆ1 x̄ = 191,05 − (−22,974) × 3,026 = 260,57.

Recta de regresión:

y = 260,57 − 22,974x.

Predicción de Y para x0 = 4:

ŷ0 = 260,57 − 22,974 × 4 = 168,674.

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 69


Diagrama de dispersión y recta estimada
A
A
300 Regresión lineal
A

A
A
A A
A
200 A
A
Card

A
A A

A
A
100
A
1Card = 260,56 + -22,97 * Vino
A
R-cuadrado = 0,71

2,0 4,0 6,0 8,0

Vino

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 70


7. Observaciones
• La recta de mı́nimos cuadrados pasa por el punto cuyas
coordenadas son las medias: (x̄, ȳ ).
• Puede demostrarse que la suma de los residuos siempre vale
cero.
• La recta para predecir Y en función de X no es la misma que
la recta para predecir X en función de Y .
• Como medida de lo bien que se ajusta la recta a los datos, se
utiliza el coeficiente de determinación (o R-cuadrado): el
cuadrado del coeficiente de correlación. Cuando R 2 está cerca
de 0, el ajuste será malo. Cuando R 2 está cerca de 1, el ajuste
será bueno. R 2 indica el porcentaje de la variable Y explicado
por la variable X .
• No es aconsejable realizar predicciones con la recta de
regresión fuera del rango de valores observados.
Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 71

You might also like