You are on page 1of 17

Programación Estadística

Con R
Temario

Estadística Descriptiva.

Medidas de Posición Central y Dispersión. La


Distribución Normal.
Medidas de Posición Central y Dispersión. La Distribución
Normal.
En R studio la media se puede obtener con el comando “mean”, existiendo una media simple y una
recortada.

mean(data.frame$columna, na.rm = TRUE)

mean(data.frame$columna, na.rm = TRUE, trim=0.025)

Para el caso de la media recortada, se agrega el argumento trim, que permite indicar la
proporción de casos que se eliminan en cada extremo de la distribución.

na.rm = Excluye los casos perdidos


Medidas de Posición Central y Dispersión. La Distribución
Normal.
En R studio la mediana se puede obtener con el comando “median”.

median(data.frame$columna, na.rm = TRUE)

Para el caso de la moda, es necesario instalar el programa “modeest”.

install.packages("modeest")

library(modeest)

mfv(data.frame$columna)
Medidas de Posición Central y Dispersión. La Distribución
Normal.

Frecuencias absolutas y relativas, cuantiles

El cálculo de tablas de frecuencias absolutas para una variable se efectúa mediante el


comando table, indicando como argumento de la función la variable sobre la cual se ejecuta el
cálculo.

tabla = table(data.frame$columnas)

Para el cálculo de frecuencias relativas, se ejecuta la función prop.table.

Prop.table(table(data.frame$columnas))
Medidas de Posición Central y Dispersión. La Distribución
Normal.

Frecuencias absolutas y relativas, cuantiles


Construir una tabla de porcentajes, es multiplicar por 100 la tabla de proporciones, si se quiere
una mejor visualización se puede acotar a menos decimales ( ejm 2),para ello se le agrega la función
round.

Round((Prop.table(table(data.frame$columnas))*100),2)

Para frecuencias absolutas acumuladas, utilizamos el comando cumsum.

cumsum(table(data.frame$columnas))

Para frecuencias relativas acumuladas:

Cumsum(Prop.table(table(data.frame$columnas)))

Usando el comando round, se tendría a los decimales que se


elijan.
Medidas de Posición Central y Dispersión. La Distribución
Normal.

Frecuencias absolutas y relativas, cuantiles

Para el cálculo de los quantiles:

quantile(data.frame$columna, prob = c(0.25, 0.5, 0.75), na.rm = TRUE)


Medidas de Posición Central y Dispersión. La Distribución
Normal.
Medidas de dispersión: rango, varianza, desviación estándar y
coeficiente de variación

Rango:

La función range, permite calcular los valores máximos y mínimos, indicando como
argumentos la variable de interés y adicionando también el argumento na.rm =
TRUE en el caso de que hubieran sido codificados como NA los valores perdidos.

range(data.frame$columna, na.rm = TRUE)

max(data.frame$columna, na.rm = TRUE)

min(data.frame$columna, na.rm = TRUE)


Medidas de Posición Central y Dispersión. La Distribución
Normal.
Medidas de dispersión: rango, varianza, desviación estándar y
coeficiente de variación

Varianza y desviación estándar:

El cálculo de ambas medidas, sigue la misma lógica, las funciones utilizadas


son var para varianza y sd, para desviación estándar.

var(data.frame$columna, na.rm = TRUE)


sd(data.frame$columna, na.rm = TRUE)

sd(data.frame$columna, na.rm = TRUE)


Coeficiente de variación=
mean(data.frame$columna)
Medidas de Posición Central y Dispersión. La Distribución
Normal.
Medidas de dispersión: rango, varianza, desviación estándar y
coeficiente de variación

Otra opción:
install.packages("FinCal")

library(FinCal)

coefficient.variation(sd=sd(data.frame$columna), avg = mean(data.frame$columna))


Medidas de Posición Central y Dispersión. La Distribución
Normal.
Forma de una distribución: simetría, curtosis y normalidad

Para ello, utilizamos el siguiente paquete:

install.packages("psych") skew(data.frame$columna)
library(psych) kurtosi(data.frame$columna)

Para tener valores estandarizados:

skew(data.frame$columna)/sqrt(6/num_casos)

kurtosi(data.frame$columna) /sqrt(6/num_casos)

Un criterio general para determinar si los coeficientes de simetría y


curtosis reflejan una variable semejante a una distribución normal es que
ambos valores se encuentren entre -2 y 2.
Medidas de Posición Central y Dispersión. La Distribución
Normal.

Forma de una distribución: simetría, curtosis y normalidad

Distribución dnorm(data.frame$columna, mean=0, sd=1, log= FALSE)


normal

Para evaluar si la distribución de datos de una variable se comporta como una


distribución normal se aplica un test estadístico. Para ello, se diferencia el test
de Shapiro Wilk y el de Kolmogorov Smirnov.

El primero se adecua a muestras pequeñas (menores a 50 casos), mientras que


el segundo sirve para muestras de entre 50 y 1.000 casos.
Medidas de Posición Central y Dispersión. La Distribución
Normal.

Forma de una distribución: simetría, curtosis y normalidad

Prueba de Shapiro Wilk (muestras pequeñas)

shapiro.test(data.frame$columna)

Prueba Kolmogorov Smirnov (muestras grandes)

ks.test(data.frame$columna, "pnorm",
mean(data.frame$columna, na.rm=T),
sd(data.frame$columna,na.rm=T))
Medidas de Posición Central y Dispersión. La Distribución
Normal.
Gracias!!!
COMUNICACIÓN PERMANENTE CON LA ESCUELA

Correo de la Escuela del INEI


enei@inei.gob.pe

Área de Campus Virtual


Campus.virtual@inei.gob.pe

Para poder atenderte mejor puedes contactarnos al 433-3127 anexo 102-103 o


escribirnos a: enei@inei.gob.pe

Pasaje Hernán Velarde 285 Lima (Altura cuadra 1 y 2 de la Av Arequipa)

You might also like