Tema 1 Estadistica Descriptiva

Probabilidad y Estadı́stica
Grado en Ingenierı́a Informática
Tema 1
Estadı́stica descriptiva
Javier Cárcamo
Departamento de Matemáticas
Universidad Autónoma de Madrid
javier.carcamo@uam.es
Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 1

Información de contacto
Javier Cárcamo
Correo electrónico: javier.carcamo@uam.es
Teléfono: 91 497 7635
Despacho: Módulo 17 (Facultad de Ciencias) - Despacho 412
Página web: http://www.uam.es/javier.carcamo
Transparencias utilizadas en clase:

http://www.uam.es/javier.carcamo/Tema-PREST-1.pdf
http://www.uam.es/javier.carcamo/Tema-PREST-2.pdf
.. .. .. .. .. .. .. .. ..
. . . . . . . . .

Ejemplo introductorio:
Contaminación por mercurio en el pescado
• El agua de los rı́os contiene pequeñas concentraciones de

mercurio que se pueden ir acumulando en los tejidos de los
peces.
• Se ha realizado un estudio en los rı́os Wacamaw y Lumber en

Carolina del Norte (EE.UU.), analizando la cantidad de
mercurio que contenı́an 171 ejemplares capturados de una
cierta especie de peces.
• Los datos obtenidos se encuentran en el fichero

mercurio.txt (formato texto) o en el fichero mercurio.sav
(formato SPSS).

Variables
Nombre variable Descripción

RIO Código del rı́o (0=Lumber, 1=Wacamaw)
ESTACION Código de la estación (de 0 a 16)
LONG Longitud (en cm) del pez
PESO Peso (en g) del pez
CONC Concentración (en ppm) de mercurio

Problemas de interés relacionados con estos datos
• Resumir la información que contienen con unas pocas cifras o

gráficos.
• ¿Qué valores toma cada variable? ¿Cuáles son los más

frecuentes? ¿Hay grandes diferencias entre ellos?
• ¿Es significativamente más alta la concentración de mercurio

en un rı́o que en otro?
• ¿Existe relación entre la concentración de mercurio y la

longitud o el peso del pez?
• ¿Depende la concentración de mercurio de la estación en la

que ha sido capturado el pez?

Tema 1: Estadı́stica descriptiva
Descripción del tema
1. Introducción.
2. Variables. Distribución de una variable.
3. Representación gráfica de la distribución.
4. Medidas numéricas para resumir la distribución.
5. Correlación.
6. Transformaciones: estandarización y transformación
logarı́tmica.
7. Regresión lineal.

1. Introducción
• La estadı́stica permite extraer información y conocimiento a
partir de la observación de un fenómeno.
• Una variable es el valor de una caracterı́stica de interés de un
fenómeno objeto de estudio.
Ejemplos varios de variables

• x ≡ altura de una persona.
• x ≡ peso de una persona.
• x ≡ número de visitas al dı́a de una página web.
• x ≡ tiempo entre la llegada de un mail y su respuesta.
• x ≡ vida útil de una componente de un sistema.
• x ≡ tiempo de procesado de un programa informático.
• x ≡ número de errores de código de un programador.
• x ≡ horas de estudio en PREST de un alumno.
• x ≡ nota en la asignatura PREST de un alumno.
• x ≡ ······
Definiciones básicas
• Población: Conjunto de elementos objeto de estudio

(estudiantes universitarios; personas con ı́ndice de masa
corporal superior a 25; empresas en España; etc.).
• Muestra: Subconjunto de la población.
• Tamaño muestral: Cardinal de la muestra (número de

elementos de la muestra, se suele denotar por n).
• Un conjunto de datos es el resultado de medir una o más

variables en una muestra.
• En la mayor parte de las ocasiones es imposible observar una

caracterı́stica de interés en toda la población (censo).
• Esto nos obliga a utilizar un procedimiento aproximado. Es

aquı́ donde entra la Estadı́stica.
1. Introducción
Pregunta: ¿Por qué necesitamos de una muestra y no estudiamos

toda la población (censo)?
1 En poblaciones infinitas (o de tamaño muy grande) es
materialmente imposible efectuar un censo.
2 Coste económico más reducido.
3 Menor tiempo empleado.
4 En ocasiones los elementos muestreados se destruyen o

modifican en el proceso. Por ejemplo, pruebas de airbag o de
armamento explosivo.
5 Precisión: En muchos casos, la recogida de la información

muestral se puede realizar de forma más fiable y controlada
que en el caso de datos de toda la población.

1. Introducción
• La estadı́stica descriptiva (o análisis exploratorio de

datos) tiene por objetivo identificar y resumir las principales
caracterı́sticas de un conjunto de datos mediante un número
reducido de gráficos y/o números.
• Para describir un conjunto de datos se realiza un análisis

individual de cada variable y posteriormente se estudian las
relaciones entre las distintas variables.
• Se utilizan representaciones gráficas y resúmenes numéricos.

2. Tipos de variables
1 Variables cualitativas: Describen cualidades o atributos (ej.

color del pelo; sexo de una persona; etc.).
2 Variables cuantitativas discretas: Toman un número
pequeño de valores, normalmente enteros (ej. número de
hijos).
3 Variables cuantitativas continuas: Toman valores en un
intervalo (ej. tiempo hasta que llega un autobús).
En los datos sobre contenido de mercurio, ¿de qué tipo es cada

una de las variables?
En general, la técnica estadı́stica adecuada para analizar una

variable depende de su tipo.

2. Distribución de una variable
• Normalmente, los valores que toma una variable x en una
muestra de tamaño n se suelen representar genéricamente por
x1 , x2 , . . . , xn .
• La distribución de una variable viene determinada por los

valores que toma esa variable y la frecuencia con la que los
toma.
• La frecuencia absoluta de un valor (o de un intervalo) es el

número de individuos para los que la variable toma ese valor
(o pertenece a ese intervalo).
• La frecuencia relativa es igual a la frecuencia absoluta

dividida por el número total de datos n.
• La frecuencia relativa siempre es un número entre 0 y 1.

Aspectos interesantes de una distribución
• Su posición: entorno a qué valor central toma valores la

variable.
• Su dispersión: el grado de concentración de los valores que

toma la variable alrededor de su posición central.
• Su forma: por ejemplo, la simetrı́a, es decir, si los valores se

reparten de la misma forma a uno y otro lado del centro.
Piensa en dos conjuntos de 5 datos que tengan:
(a) La misma posición y distinta dispersión.

(b) La misma dispersión y distinta posición.

3. Representación gráfica de las frecuencias
Gráficos de sectores o barras (sólo datos cualitativos o discretos)
25
RIO
,00
1,00
20
Frecuencia
15
10
0
,00 1,00 2,00 3,00 4,00 5,00 6,00 7,00 8,00 9,00 10,00 11,00 12,00 13,00 14,00 15,00

Histogramas (datos cuantitativos)
• Se divide el rango de los datos en un número adecuado de
intervalos.
• Sobre cada intervalo se dibuja un rectángulo cuya área es
proporcional a la frecuencia (relativa o absoluta) de datos en
el intervalo.
30
Frecuencia
20
10
Media =1,1918
Desviación típica =0,76166
N =171
0
0,00 2,00 4,00
CONC

Aspectos a tener en cuenta para interpretar un histograma
• Normalmente la base de todos los rectángulos es la misma por

lo que la altura es proporcional a la frecuencia.
• Identificar si se han usado frecuencias absolutas o relativas.
• ¿Cuántas modas hay?
• ¿Hay algún dato atı́pico en relación al resto?
• ¿Es simétrica la distribución?
• En caso de asimetrı́a, ¿es asimétrica a la izquierda o a la
derecha
• ¿En torno a qué valor aproximado están centrados los datos?
• ¿Están muy dispersos los datos en torno a este centro o muy
concentrados?

3. Tipos de simetrı́a
50 40
40
30
30
20
20
10
10
0 0
Distribución simétrica unimodal Distribución simétrica bimodal
100 100
80 80
60 60
40 40
20 20
0 0
Distribución asimétrica a la derecha Distribución asimétrica a la izquierda
La forma depende del número de intervalos
50
75 40
R ecu ento
30
Recu ento
50
20
25
10
0
1,00 2,00 3,00 1,00 2,00 3,00
CONC CONC
Con SPSS

4. Medidas numéricas de posición: la media aritmética
La medida de posición más conocida es la media aritmética o
promedio de los datos:
n
x1 + · · · + xn 1X
x̄ = = xi .
n n
i=1
x̄ da una idea del valor central alrededor del cual se reparten los
valores x1 , . . . , xn .
Algunas propiedades
• La suma de las desviaciones a la media siempre es igual a cero:
(x1 − x̄) + (x2 − x̄) + · · · + (xn − x̄) = 0.

Esto significa que x̄ es el centro de gravedad de los datos.
• Si la distribución es muy asimétrica, la media puede
distorsionar nuestra percepción de cómo son los datos.
• La media es muy sensible a la existencia de datos atı́picos.
4. Posición de la media en un histograma

4. Medidas numéricas de posición: la mediana
Una medida alternativa de posición es la mediana.
Para calcular la mediana:
• Se ordenan los datos de menor a mayor.
• Si el número de datos es impar, la mediana es el dato que
ocupa la posición central.
• Si el número de datos es par, la mediana es la media de los
dos datos centrales.
Observaciones:
• La media aritmética hace referencia al valor medio y la
mediana al valor que ocupa el lugar medio.
• La mediana es más robusta que la media pero hace un uso
menos eficiente de la información contenida en los datos.
Pregunta: ¿Cuál es la relación entre la simetrı́a de una
distribución y la posición relativa entre la media y la mediana?
4. Medidas de dispersión: el rango y los cuartiles
Una medida de dispersión muy sencilla es el rango o recorrido de
los datos: el valor máximo menos el mı́nimo R = xmax − xmin .
El rango sólo depende de los datos extremos por lo que no es muy
conveniente.
Mejores propiedades tienen los cuartiles y el rango intercuartı́lico:
• El primer cuartil, Q1 , es el valor que deja el 25 % de los
datos por debajo (los menores) y el 75 % de los datos por
encima (los mayores). Es decir, Q1 es la mediana de los datos
menores que la mediana.
• El tercer cuartil, Q3 , es el valor que deja el 75 % de los datos
por debajo (los menores) y el 25 % de los datos por encima
(los mayores), es decir, Q3 es la mediana de los datos mayores
que la mediana.
• El rango, recorrido o amplitud intercuartı́lica es la
diferencia entre los dos cuartiles anteriores: RIQ = Q3 − Q1 .
4. Medidas de dispersión: el rango y los cuartiles
De acuerdo con las anteriores definiciones, responde a las

siguientes cuestiones:
¿Qué porcentaje de datos hay...

(a) ... entre Q1 y Q3 ?
(b) ... a la izquierda de Q1 ?
(c) ... a la derecha de Q3 ?
(d) ... entre el mı́nimo y Q3 ?
Una descripción útil de un conjunto de datos viene dada por los

cinco números siguientes:
Mı́nimo, Q1 , Mediana, Q3 , Máximo

4. Medidas de dispersión: la varianza y la desviación tı́pica
La varianza y la desviación tı́pica son las medidas de dispersión
más utilizadas.
La varianza es el promedio de las desviaciones al cuadrado de los
datos a su media.
Datos x1 , . . . , xn
Desviaciones x1 − x̄, . . . , xn − x̄
Desviaciones al cuadrado (x1 − x̄)2 , . . . , (xn − x̄)2
(x1 − x̄)2 + · · · + (xn − x̄)2

La varianza es vx =
n
Se suele usar más la (cuasi)varianza:
(x1 − x̄)2 + · · · + (xn − x̄)2
s2 =
n−1
La (cuasi)varianza mide la desviación de los datos respecto a la
media. A mayor (cuasi)varianza, mayor dispersión.
Observación: Es interesante definir un coeficiente que mida la
variación expresado en las mismas unidades de la variable.
La (cuasi)desviación tı́pica es la raı́z cuadrada de S 2 :
s
(x1 − x̄)2 + · · · + (xn − x̄)2
s=
n−1
Para comparar la dispersión de variables de magnitudes muy
distintas a veces se usa el coeficiente de variación:
s
CV = .
x̄
El CV no depende de las unidades en las que midamos una variable
(adimensional). A mayor CV, menos representativa es la media x̄.
Una fórmula alternativa y útil para calcular vx y s 2 :
x12 + · · · + xn2
2
x1 + · · · + xn2

2 2 n 2
vx = − x̄ , s = − x̄ .
n n−1 n
Ejercicio: Considerar las muestras observadas
-10, -8, -6, -4, -2, 2, 4, 6, 8, 10
y
1 1 1 1 1 1 1 1 1 1
− ,− ,− ,− ,− , , , , , .
10 8 6 4 2 2 4 6 8 10
Calcular sus medias, medianas y varianzas.

Ejercicio: En una comunidad numerosa de propietarios desean
estudiar el volumen de agua utilizado en cada hogar para ver si es
posible reducir su consumo. Toman una muestra aleatoria del
número de m3 de agua utilizados por 10 hogares en los últimos dos
meses y obtienen:
10, 15, 13, 20, 25, 18, 15, 14, 21, 19.
Calcular los valores observados de la media, la mediana y la

varianza.
Un hijo del presidente de la comunidad decide jugar con el papel
donde se han anotado los datos y lo rompe. Se toma una nueva
muestra
17, 22, 14, 15, 19, 23, 21, 13, 14, 11.
Recalcular la media, mediana y la varianza.

Cuestiones
Da un ejemplo de un conjunto de datos tal que s 2 = 0.
Dado un conjunto de observaciones medidas en kg, supongamos

que cambiamos las unidades y las pasamos a gramos (es decir,
multiplicamos por mil). Determina si son verdaderas o falsas las
siguientes afirmaciones:
• Tanto la media como la mediana de los nuevos datos se
multiplican también por mil.
• La varianza se multiplica también por mil.
¿Cómo cambiarı́a la desviación tı́pica?
Ahora sumamos 100 a todos los datos. Determina si son

verdaderas o falsas las siguientes afirmaciones:
• Los cuartiles no cambian.
• El rango intercuartı́lico no cambia.
• La desviación tı́pica no cambia.
Descripción numérica
Estadísticos
LONG PESO CONC

N Válidos 171 171 171
Perdidos 0 0 0
Media 39,9708 1147,9123 1,1918
Error típ. de la media ,65132 66,95359 ,05825
Mediana 39,0000 873,0000 ,9300
Desv. típ. 8,51715 875,53176 ,76166
Varianza 72,542 766555,869 ,580
Rango 39,80 4308,00 3,49
Mínimo 25,20 203,00 ,11
Máximo 65,00 4511,00 3,60
Percentiles 25 33,3000 491,0000 ,5900
50 39,0000 873,0000 ,9300
75 46,2000 1455,0000 1,6000

Cuestiones
• Calcula el coeficiente de variación de las tres variables.

¿Qué se deduce sobre la dispersión de los valores que toman?
• Comparando los valores de la media y la mediana, ¿cuál de las

tres distribuciones parece ser más simétrica?
• Verdadero o falso: Al menos para 100 peces, la concentración

de mercurio es superior a 0.93 ppm.
• Verdadero o falso: La longitud de aproximadamente 42 peces

es mayor que 25.20 cm y menor que 33.3 cm.
• ¿Cuál es el rango intercuartı́lico de la variable que mide el

peso de los peces?

Con SPSS

Con SPSS

Diagrama de cajas

¿Para qué sirven?
Los diagramas de cajas son especialmente útiles para comparar

varios conjuntos de datos.
Además, proporcionan información sobre:

• La posición (mediana) y la dispersión (rango intercuartı́lico)
de los datos.
• La simetrı́a de la distribución (comparamos el tamaño de las
cajas).
• La existencia de datos que se desvı́an del patrón general
(posibles datos atı́picos).

Concentración de mercurio y rı́o
4,00
162
70
66
CONC
2,00
0,00
,00 1,00
RIO

Concentración de mercurio y estación
4,00
66
123
CONC
2,00
24
25 76
82 138
75
0,00
,00 1,00 2,00 3,00 4,00 5,00 6,00 7,00 8,00 9,00 10,00 11,00 12,00 13,00 14,00 15,00
ESTACION

Relaciona cada histograma con su diagrama de cajas
5
2
4
1
●
●
3
5
0
2
4
−1
●
●
1
●
●
●
−2
0
●

Diagrama de dispersión: Concentración frente a peso
4,00
CONC
2,00
0,00
0,00 2000,00 4000,00
PESO
Interpretación de un diagrama de dispersión
• Es importante fijarse en las unidades de cada eje.
• ¿Se observa alguna asociación entre las variables?
• ¿Cómo es de estrecha la asociación entre las variables?
• ¿Cuál es la “dirección” de la asociación entre las variables?
• ¿Hay algún punto o colección de puntos que no siga el patrón

general del resto?
• Si hay una tercera variable cualitativa, resulta conveniente

utilizar sı́mbolos o colores diferentes para cada valor de esta
tercera variable.

Concentración frente a longitud (color según rı́o)
RIO
,00
1,00
60,00
50,00
LONG
40,00
30,00

Matriz de diagramas de dispersión
RIO
,00
1,00
LONG
PESO
CONC
LONG PESO CONC

5. Covarianza
Se dispone de un conjunto de n pares de observaciones
(x1 , y1 ), . . . , (xn , yn ).
El objetivo es definir una medida numérica para cuantificar el
grado de relación lineal que hay entre las variables x e y : Para ello
se usa la covarianza entre x e y :
n
1 X
sxy = (xi − x̄)(yi − ȳ ).
n−1
i=1
Observaciones
• La covarianza entre x e y mide el grado de relación lineal
entre las dos variables.
• Para entender por qué esta definición es útil miramos el
gráfico de la transparencia siguiente.
• sxx es la cuasi-varianza de x, sx2 .
• sxy tiene el inconveniente de que depende de las unidades en
que se midan x e y .
5. Interpretación de la covarianza
● ● ●
4
● ●
● ● ● ●
4
● ● ●
● ●
● ● ●
● ● ● ● ● ●
● ● ● ● ●
●● ● ● ● ● ●
●●● ● ● ● ● ●
●● ● ● ● ● ● ● ● ● ●
●
● ●● ● ● ● ● ● ●● ● ● ● ●
● ● ● ●● ● ● ● ● ●
● ●●● ● ●
2
● ● ● ● ● ●● ● ● ● ●● ●
● ●●● ● ●
● ●● ● ● ●
● ● ● ● ● ● ● ●
●●● ●
● ● ●● ● ● ●
2
● ● ●● ● ● ● ● ● ● ● ●
●
● ●
● ●
● ●● ●
● ● ● ●● ●● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ●●● ●
● ●
● ● ● ●●
● ● ● ●● ●● ● ● ● ●
●● ●
● ●●●
● ● ●
● ●
● ● ●
●● ● ● ● ●● ● ●
● ●
● ● ● ●● ●● ●● ● ● ● ● ●●●● ● ●
●●
● ● ● ● ● ●● ● ● ●
● ● ● ●●● ● ● ● ●●
●● ● ●● ● ● ●●●●● ● ●●●●●● ● ●
● ●●
●●● ● ● ●●● ●● ● ● ● ●
●● ●● ● ● ●● ● ● ● ● ● ● ● ●
● ●● ● ●●●● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ●● ●● ● ● ●●● ● ●
● ●●
●● ● ● ● ● ● ●●●●● ●● ●
● ●● ● ●●● ● ● ● ●●●● ● ●
●● ●● ● ●
●● ●● ● ●● ●● ●
● ● ●
● ●● ● ● ●● ● ● ● ●● ● ●● ●
● ●
●● ● ●
● ● ● ● ●● ●●
● ● ●● ● ● ● ● ●● ● ●●
●
● ●● ●
y
y
● ●● ● ● ● ●●●● ● ●●●● ● ● ●● ●
● ●●● ● ● ● ●● ●●●●● ●● ● ●●
●
●
● ●● ● ●
● ●●● ● ● ● ●● ● ● ●● ●
●
● ● ●● ●● ●
● ● ● ●● ●
0
● ● ●● ●● ●● ● ● ● ● ● ● ● ● ●● ● ● ●●●●● ●● ● ● ●●
0
● ● ● ● ●●●● ● ● ●● ● ● ●● ●● ● ● ● ●● ● ● ● ● ●● ● ● ● ●●
● ● ●●● ● ● ●● ● ●●● ●●●● ● ●
●
● ● ● ●● ● ● ● ●● ● ● ●● ● ● ●●●● ● ● ● ● ●● ● ●●
●●●● ●● ●● ● ●●
● ●●
●●
● ●● ● ●●● ●●●● ● ● ● ● ● ● ●● ●● ●● ●●● ● ●
●●●●
●
●● ●
● ● ●● ● ● ●
●
●● ● ●● ● ●●
● ● ● ●● ●● ●● ● ● ●
● ● ●● ● ● ● ● ●● ● ● ● ● ●● ●● ●●● ● ●
●● ●●● ● ●● ●
● ●● ● ●● ● ● ●● ● ●● ●● ● ●●● ● ● ●
●
●
● ● ● ●● ● ● ● ●●●●● ● ● ●
●
● ●
●●● ● ● ● ●● ●●● ● ●●
● ● ●● ● ● ● ● ●●● ● ●● ● ● ● ● ●
● ● ● ● ● ● ● ●●
● ● ● ● ●● ●● ● ● ● ● ●●● ● ●●● ● ● ●● ● ●● ●● ●● ● ● ● ●
●● ●● ● ● ●● ● ●
●
●● ● ●●
● ● ● ●● ● ●
●● ●
●
●
● ●● ●
● ●
● ● ● ●
● ●
● ●●
● ●● ●
−2
● ● ● ● ● ● ●
−2
●● ● ● ● ●● ● ●●
●
● ● ● ● ● ● ● ●
● ● ● ●●
● ● ● ●● ● ● ●● ● ● ● ●
●
●●● ●
● ● ● ●
● ● ● ● ● ●
● ● ●
● ●
●
−4
●
● ●
−4
−2 −1 0 1 2 −2 −1 0 1 2
Covarianza positiva Covarianza negativa
● ● ●
●
● ● ●
● ● ●
● ● ● ●
2
● ● ● ●
●● ●
● ●
6
● ● ●
● ● ● ● ● ● ● ●
● ● ●● ● ●
● ● ● ● ●
● ● ● ● ●● ●
● ● ●●● ●●●● ● ●
●● ● ● ● ●
●● ●
●● ● ● ● ● ● ●● ●
●
●
● ● ● ●● ● ● ●
1
●
● ●● ●● ● ● ● ● ● ●● ●
● ●
●●● ● ● ● ●●
● ●● ● ●● ● ● ● ● ●
●
● ● ● ●
● ● ●● ● ● ● ● ●
● ● ● ● ●● ● ● ●
4
● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ●
● ●
●
● ●
● ● ● ●
● ● ● ●●● ● ● ● ● ● ●
● ● ● ● ●
●● ● ●
● ● ● ● ● ● ● ● ● ● ●● ● ●●●●●●● ● ●●● ● ● ● ● ● ● ● ●● ●● ● ● ●
● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●
● ●● ●● ● ● ● ● ●●
● ●● ●● ● ● ●
● ● ●● ●
●
● ● ●● ●● ● ● ● ● ●● ● ● ● ● ● ●● ●● ●
● ● ● ● ●● ● ●●
● ● ●●● ● ● ● ● ● ● ●
● ●
● ● ● ●● ●
0
●
●●●● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ●● ●
y
● ● ● ● ●●● ● ●
● ● ● ● ● ● ● ● ● ● ● ●
● ● ●● ● ● ● ●
● ● ● ● ● ● ●
● ● ●● ● ● ● ● ●● ● ●●● ● ● ●● ● ● ●
● ●● ● ●
● ●●● ●● ●●● ● ● ●● ●● ●● ● ● ●● ● ●●●● ● ●
2
● ● ● ● ● ● ● ●● ● ● ●● ●● ● ● ●
● ●
● ● ● ● ● ●
● ● ● ●● ●
● ● ●●● ● ●● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ●
● ● ●● ● ● ● ● ●
●
● ● ●
●●● ● ● ● ● ● ● ● ●●● ● ●●●●
● ●
● ● ● ● ● ●● ● ●● ●● ● ● ●●●● ● ● ● ● ● ●● ● ●
● ●● ● ● ●
●● ●● ● ● ●●●● ●
● ● ● ●
●●
●
●●
●● ● ●● ● ●
●● ●●
● ● ●
●● ● ●●
● ●
●●●●● ● ● ● ● ●● ● ●● ●
●●●●
●
● ● ●
●
● ● ●●●● ● ●●
● ●
●
−1
● ● ●● ● ● ● ● ● ● ● ●● ●
● ●
●● ●●●● ● ● ● ● ● ●
● ● ●
● ●● ● ● ●●● ●
● ●● ●● ● ●● ● ● ● ●●
● ● ● ●● ●● ●
●
● ●●● ● ● ● ● ● ●● ●● ●●● ●●●
● ● ●● ●● ● ● ● ●●● ●
● ● ● ●●
●
● ● ●● ●●
● ● ● ●● ● ●●●●●●
●● ●
● ●● ●
●●
● ●
● ●● ●● ● ●● ● ● ● ● ●● ● ●
● ● ● ● ● ●●● ● ●
● ● ●● ● ●
0
● ●● ● ● ● ● ●● ● ●● ● ●● ● ● ● ●
●● ● ● ●● ● ● ●●●● ●● ●●●●●●●● ●
● ● ●
● ● ● ● ● ● ● ●●● ● ● ●● ●● ●
● ●
● ● ●● ● ● ● ● ● ● ●● ● ●● ● ●●●● ●● ● ● ● ● ● ● ● ● ●
● ● ● ●●●● ●●● ● ●● ● ● ●
● ● ● ●
●● ● ● ● ● ●●
●
● ●
● ● ● ●●●
−2
● ● ● ● ●
● ● ● ●●
●● ● ● ● ● ●
● ● ●● ●
● ●● ● ● ●
●
−2
● ● ●
● ● ● ● ● ●
● ●
● ●
● ●
−2 −1 0 1 2 −2 −1 0 1 2
Covarianza aprox. cero Covarianza aprox. cero

5. Coeficiente de correlación
Resulta conveniente disponer de una medida de relación lineal que

no dependa de las unidades. Para ello, se normaliza sxy dividiendo
por el producto de (cuasi)desviaciones tı́picas, lo que lleva al
coeficiente de correlación:
sxy
rxy = .
sx sy
Propiedades del coeficiente de correlación:

• No depende de las unidades (es adimensional).
• Toma valores entre -1 y 1.
• Su signo se interpreta igual que el de la covarianza.
• Sólo vale 1 ó -1 cuando los puntos están perfectamente
alineados.

5. Ejemplos de correlaciones
rxyy = 1 rxy =‐1
rxy próximo a 1 rxy próximo a ‐1

5. Covarianzas y correlaciones de los datos
Correlaciones
LONG PESO CONC

LONG Correlación de Pearson 1 ,900 ,650
Sig. (bilateral) ,000 ,000
Suma de cuadrados y
12332,114 1141004 716,835
productos cruzados
Covarianza 72,542 6711,790 4,217
N 171 171 171
PESO Correlación de Pearson ,900 1 ,554
Suma de cuadrados y
1141004 1E+008 62786,546
productos cruzados
Covarianza 6711,790 766555,9 369,333
N 171 171 171
CONC Correlación de Pearson ,650 ,554 1
Suma de cuadrados y
716,835 62786,546 98,622
productos cruzados
Covarianza 4,217 369,333 ,580
N 171 171 171

5. Covarianzas y correlaciones con SPSS

6. Estandarización o tipificación
La Estandarización o tipificación consiste en restarle a cada
observación la media de todos los datos y dividir por la desviación
tı́pica:
xi − x̄
zi =
s
El valor zi representa la distancia de xi a la media expresada en
desviaciones tı́picas (el signo indica si el dato es mayor o menor
que la media).
Utilidad de la tipificación
• Eliminar los efectos de las unidades de medida, ya que la
variable z = (x − x̄)/s es adimensional.
• Detectar posibles valores atı́picos en los datos.
• Realizar comparaciones de los valores de una variable en
diferentes poblaciones.
Preguntas: ¿Cuánto vale la media de los datos estandarizados? ¿Y
su desviación tı́pica?
6. Efecto de estandarizar un conjunto de datos
−4 −2 0 2 4 6 8
Datos originales
−4 −2 0 2 4 6 8
Datos centrados (media cero)
−4 −2 0 2 4 6 8
Datos estandarizados (media cero y varianza uno)

6. Tomar logaritmos
Si las observaciones xi son positivas, a veces es conveniente
trabajar con sus logaritmos log xi en lugar de con las variables
originales.
1 0
log (x)
−1 −2
−3
0 1 2 3 4 5
x
Utilidad
• En algunas ocasiones se consigue que la distribución de log x
sea más simétrica.
• En algunas ocasiones se consigue que la asociación entre dos
variables sea aproximadamente lineal.
6. Tomar logaritmos para hacer la distribución más
simétrica
30
30
25
20
Frecuencia
Frecuencia
20
15
10
10
Media =1,1918 Media =-0,0268

Desviación típica =0,76166 Desviación típica =0,66104
N =171 0 N =171
0 -2,00 -1,00 0,00 1,00
0,00 2,00 4,00
CONC
LNCONC

6. Tomar logaritmos para hacer que la asociación sea lineal
4,00
1,00
0,00
LNCONC
CONC
2,00
-1,00
-2,00
0,00
30,00 40,00 50,00 60,00

0,00 2000,00 4000,00
PESO LONG

6. Transformaciones con SPSS

6. Transformaciones con SPSS

7. Regresión lineal: Introducción
En algunas situaciones, los diagramas de dispersión sugieren que

hay una relación lineal entre dos variables.
Asociación positiva Asociación negativa

7
7
6 6
5
5
4
4
3
3 4 5 6 7 3 4 5 6 7
Pregunta: ¿Cómo es la correlación en estos dos ejemplos?

7. Regresión lineal: Introducción
En algunas situaciones, los diagramas de dispersión sugieren que
hay una relación lineal entre dos variables.
Asociación positiva Asociación negativa

7
7
6 6
5
5
4
4
3
3 4 5 6 7 3 4 5 6 7
Aplicaciones:
• Resumir la información de los datos mediante una recta.
• Predecir valores de una variable usando la otra.
Ejemplo: consumo de vino y dolencias cardı́acas
Consideramos dos variables:

• X : Consumo anual de vino en litros por habitante
• Y : Número de muertes por enfermedad cardı́aca, por cada
100.000 habitantes.
Algunas preguntas:
¿Qué podemos decir sobre la relación entre las dos variables?
¿Podemos afirmar que valores altos en consumo de vino están

asociados con valores bajos en número de muertes por enfermedad
cardı́aca?
¿Podemos predecir aproximadamente el valor de la variable Y si

sabemos el valor de X ?

Estadísticos Correlaciones
Vino Card
Vino Card Vino Correlación de Pearson 1 -,843
N Válidos 19 19 Sig. (bilateral) ,000
Perdidos 0 0 N 19 19
Card Correlación de Pearson -,843 1
Media 3,026 191,05
Sig. (bilateral) ,000
Desv. típ. 2,5097 68,396 N 19 19
Irlanda
300
250
200
Card
150
100
Francia
50
0,0 2,0 4,0 6,0 8,0 10,0

Vino
Pregunta: ¿Implica esta asociación causalidad?

Correlaciones
Vino Card
Vino Correlación de Pearson 1 -,843
Javier Cárcamo
Sig. (bilateral) PREST.
,000 Tema 1: Estadı́stica descriptiva 60
2. ¿ASOCIACION
2. ¿ASOCIACION ESTADISTICA
ESTADISTICA O CAUSAL?
7.OAsociación
2. ¿ASOCIACION ESTADISTICA O CAUSAL?
CAUSAL? estadı́stica y causalidad
La asociación
La asociación entreentre
unauna causa (C)
causa y un efecto (E),puede
puedesurgir
surgirde
detres
tresmodos
modos distintos:
distintos:
La asociación entre(C)
unay un efecto
causa (E),
(C) y un efecto (E), puede surgir
La asociación entre una causa (C) y un efecto (E), puede surgir de tres modos distintos:
de tres modos
es causadistintos:
a) a) C esCcausa de de
E E
a) (a) C es causa
C es causa dede E E.
C E
C E
E
C
b) C y E tiene una causa común (variable X)
b)b) CCy yEEtiene una causa común (variable X)
(b) C y Etiene unauna
tiene causa común
causa (variable
común X)
(variable X).
X
X
X
C E
C
C E
E
c) E es causa de C
c)c) (c)EEE
eseses
causa
causade
deCde
causa C C.
C E
C
C E
E
Ejemplo Ejemplo: renta y fracaso escolar en la CAM
Ana Justel Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 62

Ejemplo: renta y fracaso escolar en la CAM
●
Arganda
35
●
30
●
● ●
% fracaso escolar
● ●
25
● ●
●
●
20
●
● ●
● ●
●
15
● ●
●
●
10
● Torrelodones
10 12 14 16 18 20 22
Renta (en miles de euros)

7. Problema de regresión
Observamos dos variables, X e Y , el objetivo es analizar la relación

existente entre ambas de forma que podamos predecir o aproximar
el valor de la variable Y a partir del valor de la variable X .
• La variable Y se llama variable respuesta

• La variable X se llama variable regresora o explicativa
Observación: En un problema de regresión (a diferencia de

cuando calculamos el coeficiente de correlación) el papel de las dos
variables no es simétrico. La variable X juega el papel de variable
independiente y la variable Y el papel de variable dependiente (de
la primera).

7. Recta de regresión
Frecuentemente, existe entre las variables observadas una relación
aproximadamente lineal:
yi ≈ β0 + β1 xi , i = 1, . . . , n.
• La recta y = β0 + β1 x es una recta de regresión.

• El parámetro β1 es la pendiente de la recta. Indica cómo
cambia la variable respuesta cuando el incremento de x es una
unidad.
• El parámetro β0 es el término independiente de la recta.
Indica el valor de Y cuando X = 0.
Problema estadı́stico: Estimar los parámetros β0 y β1 a partir de

los datos (xi , yi ), i = 1, . . . , n, de una muestra.
7. La recta de mı́nimos cuadrados
Si estimamos β0 y β1 mediante β̂0 y β̂1 , la predicción de la variable
respuesta Y en función de la regresora X es:
Ŷ = β̂0 + βˆ1 X .
En particular, para los datos de la muestra:
ŷi = β̂0 + βˆ1 xi , i = 1, . . . , n.
Unos buenos estimadores (de β0 y β1 ) deben ser tales que los
errores de predicción sean pequeños:
ei = yi − ŷi = yi − (β̂0 + βˆ1 xi ).
La recta de regresión de mı́nimos cuadrados viene dada por los
valores β̂0 y β̂1 para los que se minimiza la suma de los errores de
predicción:
n
X n
X n
X
ei2 = [yi − ŷi ]2 = [yi − (β0 + β1 xi )]2 .
i=1 i=1 i=1

7. Los errores de predicción
● ●
3
3
● ●
2
2
● ●
● ●
● ●
1
1
y
y
● ●●● ● ●●●
0
0
● ●
● ● ● ●
● ●
−1
−1
● ●
● ●
−2 −1 0 1 2 −2 −1 0 1 2
x x

7. Estimadores de mı́nimos cuadrados
La recta de regresión de Y sobre X es la recta y = β̂0 + β̂1 x con
sy sy
y = ȳ + r (x − x̄) ⇐⇒ y − ȳ = r (x − x̄).
sx sx
Pendiente:
sy
β̂1 = r ,
sx
donde r es el coeficiente de correlación, sy es la desviación tı́pica
de la variable respuesta y sx es la desviación tı́pica de la variable
regresora.
Término independiente:
β̂0 = ȳ − βˆ1 x̄.
A los errores ei = yi − ŷi se les llama residuos.

A las predicciones yˆi = β̂0 + β̂1 xi se les llama valores ajustados.
Ejemplo: consumo de vino
Estimadores de los parámetros:

sy 68,396
β̂1 = r = −0,843 = −22,974.
sx 2,5097
β̂0 = ȳ − βˆ1 x̄ = 191,05 − (−22,974) × 3,026 = 260,57.
Recta de regresión:
y = 260,57 − 22,974x.
Predicción de Y para x0 = 4:
ŷ0 = 260,57 − 22,974 × 4 = 168,674.

Diagrama de dispersión y recta estimada
A
A
300 Regresión lineal
A
A
A
A A
A
200 A
A
Card
A
A A
A
A
100
A
1Card = 260,56 + -22,97 * Vino
A
R-cuadrado = 0,71
2,0 4,0 6,0 8,0
Vino

7. Observaciones
• La recta de mı́nimos cuadrados pasa por el punto cuyas
coordenadas son las medias: (x̄, ȳ ).
• Puede demostrarse que la suma de los residuos siempre vale
cero.
• La recta para predecir Y en función de X no es la misma que
la recta para predecir X en función de Y .
• Como medida de lo bien que se ajusta la recta a los datos, se
utiliza el coeficiente de determinación (o R-cuadrado): el
cuadrado del coeficiente de correlación. Cuando R 2 está cerca
de 0, el ajuste será malo. Cuando R 2 está cerca de 1, el ajuste
será bueno. R 2 indica el porcentaje de la variable Y explicado
por la variable X .
• No es aconsejable realizar predicciones con la recta de
regresión fuera del rango de valores observados.

Tema 1 Estadistica Descriptiva

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Tema 1 Estadistica Descriptiva

Uploaded by

Copyright:

Available Formats

Probabilidad y Estadı́stica

Grado en Ingenierı́a Informática

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 1

Correo electrónico: javier.carcamo@uam.es

Teléfono: 91 497 7635

Despacho: Módulo 17 (Facultad de Ciencias) - Despacho 412

Página web: http://www.uam.es/javier.carcamo

Transparencias utilizadas en clase:

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 2

• El agua de los rı́os contiene pequeñas concentraciones de

• Se ha realizado un estudio en los rı́os Wacamaw y Lumber en

• Los datos obtenidos se encuentran en el fichero

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 3

Nombre variable Descripción

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 4

• Resumir la información que contienen con unas pocas cifras o

• ¿Qué valores toma cada variable? ¿Cuáles son los más

• ¿Es significativamente más alta la concentración de mercurio

• ¿Existe relación entre la concentración de mercurio y la

• ¿Depende la concentración de mercurio de la estación en la

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 6

Descripción del tema

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 7

Ejemplos varios de variables

• Población: Conjunto de elementos objeto de estudio

• Muestra: Subconjunto de la población.

• Tamaño muestral: Cardinal de la muestra (número de

• Un conjunto de datos es el resultado de medir una o más

• En la mayor parte de las ocasiones es imposible observar una

• Esto nos obliga a utilizar un procedimiento aproximado. Es

Pregunta: ¿Por qué necesitamos de una muestra y no estudiamos

2 Coste económico más reducido.

3 Menor tiempo empleado.

4 En ocasiones los elementos muestreados se destruyen o

5 Precisión: En muchos casos, la recogida de la información

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 10

• La estadı́stica descriptiva (o análisis exploratorio de

• Para describir un conjunto de datos se realiza un análisis

• Se utilizan representaciones gráficas y resúmenes numéricos.

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 11

1 Variables cualitativas: Describen cualidades o atributos (ej.

En los datos sobre contenido de mercurio, ¿de qué tipo es cada

En general, la técnica estadı́stica adecuada para analizar una

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 12

• La distribución de una variable viene determinada por los

• La frecuencia absoluta de un valor (o de un intervalo) es el

• La frecuencia relativa es igual a la frecuencia absoluta

• La frecuencia relativa siempre es un número entre 0 y 1.

• Su posición: entorno a qué valor central toma valores la

• Su dispersión: el grado de concentración de los valores que

• Su forma: por ejemplo, la simetrı́a, es decir, si los valores se

(a) La misma posición y distinta dispersión.

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 14

Gráficos de sectores o barras (sólo datos cualitativos o discretos)

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 15

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 16

Aspectos a tener en cuenta para interpretar un histograma

• Normalmente la base de todos los rectángulos es la misma por

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 17

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 20

(x1 − x̄) + (x2 − x̄) + · · · + (xn − x̄) = 0.

Javier Cárcamo PREST. Tema 1: Estadı́stica descriptiva 22

De acuerdo con las anteriores definiciones, responde a las