You are on page 1of 6

Semana 3 Actividad 1

1. Determine si se puede considerar que las variables Millaje y Price se distribuyen


normalmente. Para hacer esto pueden calcular e interpretar cada una de las
siguientes medidas o procedimientos, y finalmente concluir.
a. El sesgo
b. La curtosis
c. Una gráfica de la curva normal (q-q plot)
d. La regla empírica.
2. Asuman que los datos corresponden a una población. Van a seleccionar una
muestra usando el muestreo aleatorio simple. Supongan conocido el tamaño de la
población
¿Qué tamaño de muestra escogen? Justifiquen su respuesta.
Seleccionen la muestra y muestren o expliquen cómo la obtuvieron.

Solución:
Se desea determinar si las variables Millaje (Kilometraje) y Price(precio), se
distribuyen normalmente, para esos se hace usos de las siguientes medidas o
procedimientos. Para calcular las medidas de forma pertinentes se utilizará las
herramientas de Microsoft Excel.

A continuación, se resumen las estadísticas descriptivas y pertinentes para el


análisis de dicho trabajo.

 Millaje (Kilometraje)

Variable Millaje
Sesgo -0,131
Curtosis 0,184

 Sesgo
De acuerdo a los resultados se puede evidenciar que la variable Millaje
(Kilometraje) es asimétrica negativa o a la izquierda, es decir

∑ ( x−μ)3
N
g3= 3
=−0,131

 Curtosis
la distribución sería leptocúrtica, es decir existe una alta concentración de sus
datos con respecto a su media.

∑ (x−μ)4
N
4
g4 =
=0,184

 Una gráfica de la curva normal (q-q plot)

QQ-Plot (Millaje)
60000

50000

40000
Sample Quantiles

30000

20000

10000

0
0 0.2 0.4 0.6 0.8 1 1.2
Theoretical Quantiles

La variable Millaje(kilometraje) no se ajustan muy bien a la recta normal, por lo


que se tiene un indicio que los datos no siguen una distribución Normal.

 Regla empírica
Para este caso se hace uso del test de normalidad más relevantes en estos casos
el test de Shapiro-Wilk

Veamos las hipótesis

{
H 0 : La variable Millaje sigue una distribución normal
vs
H 1 : La variable Millaje no sigue una distribución normal

Con α =0.05
Prueba de Shapiro-Wilk

Shapiro-Wilk normality test

data: Millaje
W = 0.98418, p-value = 1.25e-07

Veamos que en el test el p valor es inferior al nivel de significancia 5%, es decir existe
suficiente evidencia para rechazar la hipótesis nula H 0 en favor de H 1, por lo que se
puede concluir que la variable Millaje (kilometraje) no sigue una distribución normal.

 Price (Precio)
Variable Price
Sesgo 1,576
Curtosis 3,291

 Sesgo

Observe que la variable Price (Precio) es asimétrica positiva o a la derecha


∑ (x−μ)3
N
g3= 3
=1,576>0

 Curtosis

Además, la distribución sería leptocúrtica, es decir existe una gran concentración


de sus datos con respecto a su media.
∑ (x−μ)4
N
g4 = =3,291> 0
nσ4

 Una gráfica de la curva normal (q-q plot)


QQ-Plot (Price)
80000

70000

60000

50000
Sample Quantiles

40000

30000

20000

10000

0
0 0.2 0.4 0.6 0.8 1 1.2
Theoretical Quantile

La variable Price (precio) no se ajustan muy bien a la recta normal, por lo que
se tiene un indicio que los datos no siguen una distribución Normal.

 Regla empírica
Para este caso se hace usos del test de normalidad más relevantes en este caso
el test de Shapiro-Wilk y

Veamos las hipótesis

{
H 0 : La variable price sigue una distribución normal
vs
H 1 : La variable price no sigue una distribución normal

Con α =0.05

Prueba de Shapiro-Wilk

Shapiro-Wilk normality test

data: Price
W = 0.8615, p-value < 2.2e-16
Veamos que en el test el p valor es inferior al nivel de significancia 5%, es decir existe
suficiente evidencia para rechazar la hipótesis nula H 0 en favor de H 1, por lo que se
puede concluir que la variable Price (precio) no sigue una distribución normal.

2) Asumiendo que los datos corresponden a una población.

Para calcular el tamaño de la muestra, se utiliza la fórmula del tamaño muestra


poblaciones finitas.
2
N∗Z α pq
n= 2 2
ε ( N −1 ) +Z α pq
De donde se, tiene
N=804
p=0.05
q=1− p=0.95
Para α =0.05 , entonces Z α /2 =1.96
ε =0.05
Luego, se tiene
2 2
N∗Z α pq (804)∗(1.96 ) ( 0.05)(0.95)
n= 2 2
= 2
≈ 67
d ( N−1 ) + Z α pq (0.05)2 ( 804−1 )+ ( 1.96 ) (0.05)(0.95)

mediante el método de selección Coordinado negativo se selecciona una muestra


representativa de tamaño 67

Algoritmo:

 Generar N realizaciones de una variable aleatoria ε k (k ∈U) con distribución


uniforme (0,1).

 Asignar ε k al elemento k-´esimo de la población.

 Ordenar la lista de elementos descendente (o ascendentemente) con


respecto a este número aleatorio ε k .

 A continuación, seleccionar los n primeros (o los n últimos) elementos. Esta


selección corresponde a la muestra realizada.

La muestra seleccionada de tamaño 67, se encuentra adjunta en una hoja del


archivo Excel.

You might also like