You are on page 1of 15

PC 1 – ESTADÍSTICA

2023 – I

20205813: BRANDON STEFANO BRICEÑO TAPULLIMA


a20205813@pucp.edu.pe

20203179: CARLOS ANDRÉS CASTILLEJO GONZÁLES


a20203179@pucp.edu.pe
PREGUNTA 1
library(haven)

datos<-read.csv(file.choose())

View(datos)

#------------------------------------------------------------------------------
#Pregunta 1 (5.0 puntos)
# a) (2.0 puntos) Construya un gráfico de la función distribución
# acumulada empírica del Número total de
# usuarios del sistema (cnt) para cada estación del año (season).

# RESPUESTA

datos$cnt
datos$season

#según estaciones:

#inVierno
ecdf(datos$cnt[datos$season==1])
invierno<-ecdf(datos$cnt[datos$season==1])
plot(invierno,
main="DISTRIBUCION ACUMULADA EMPIRICA DE LOS USUARIOS DEL SISTEMA POR
ESTACION",
xlab=" Número total de usuarios del sistema")

#primavera
ecdf(datos$cnt[datos$season==2])
primavera<-ecdf(datos$cnt[datos$season==2])
plot(primavera,
xlab=" Número total de usuarios del sistema",
add=TRUE,
col=2)

#verano

ecdf(datos$cnt[datos$season==3])
verano<-ecdf(datos$cnt[datos$season==3])
plot(verano,
xlab=" Número total de usuarios del sistema",
add=TRUE,
col=3)

#otoño
ecdf(datos$cnt[datos$season==4])
otoño<-ecdf(datos$cnt[datos$season==4])
plot(otoño,
xlab=" Número total de usuarios del sistema",
add=TRUE,
col=4)

abline(h=0.5,col=2,lty=2)
abline(h=0.25,col=2,lty=2)
abline(h=0.75,col=2,lty=2)

legend(600,0.8,c("Invierno","Primavera","Verano","Otoño"),bty ="n" ,pch =15, col = 1:4)


# b) (1.5 punto) Usando el gráfico responda verdadero o falso y justifique
# la siguiente afirmación: “la
# mediana del número total de usuarios del sistema en verano es mayor que
# en invierno”.

# RESPUESTA

# VERDADERO, se observa del grafico que verano tiene una mayor media (199) que
# invierno (76)

median(datos$cnt[datos$season==3]) #199 mediana de verano


median(datos$cnt[datos$season==1]) #76 mediana de invierno

median(datos$cnt[datos$season==3]) > median(datos$cnt[datos$season==1])


#TRUE

# c) (1.5 punto) Usando el gráfico responda verdadero o falso y justifique


# la siguiente afirmación: “el rango
# intercuartil del número total de usuarios del sistema en invierno es menor
# que el del verano”.
# RESPUESTA

#VERDADERO, se aprecia del grafico que el IQR rango intercuartil de invierno


# es menor que el de verano de acuerdo a la diferencia de los valores de los
#percentiles P75 y P25 de cada estación.

IQR(datos$cnt[datos$season==3]) # VERANO IQR= 277


IQR(datos$cnt[datos$season==1]) #INVIERNO IQR= 135

IQR(datos$cnt[datos$season==1])<IQR(datos$cnt[datos$season==3])
#TRUE

PREGUNTA 2
#------------------------------------------------------------------------------
# Pregunta 2 (4.0 puntos)
# Responda a las siguientes preguntas
# a) (1.0 punto) Se aplicó la función summary a la variable número total
# de usuarios del sistema en una hora(cnt) y a partir de los resultados
# obtenidos, se llegó a la conclusión que en el 50% de las horas evaluadas

# se alquilaron más de 142 bicicletas. Evalúe la veracidad o falsedad de


# esta afirmación. Justifique su respuesta.

# RESPUESTA
summary(datos$cnt)
# Min. 1st Qu. Median Mean 3rd Qu. Max.
# 1.0 40.0 142.0 189.5 281.0 977.0
# FALSO, ya que la mediana indica que en el 50% de las horas evaluadas se
# alquilaron no más de 142 bicicletas.

# b) (1.0 punto) “En esta ciudad, el nivel de Humedad (hum) presenta mayor
# cantidad de datos atípicos que la Velocidad del viento (windspeed)”.
# Evalúe la veracidad o falsedad de esta afirmación. Justifique su respuesta.

# RESPUESTA

boxplot(datos$hum,
main = "Nivel de humedad") #grafico de cajas de el nivel de humedad
length(boxplot(datos$hum)$out) #conteo de la cantidad de datos
#22 valores atípicos

boxplot(datos$windspeed,
main = "Velocidad del viento") #grafico de cajas de la velocidad del viento
length(boxplot(datos$windspeed)$out) #conteo de la cantidad de datos
#342 valores atípicos

length(boxplot(datos$hum)$out)>length(boxplot(datos$windspeed)$out)
#FALSO, la cantidad de valores atípicos es mayor el de los datos de la
#velocidad del viento con 342 a comparación del nivel de humedad con 22 datos.

# c) (1.0 punto) Se puede afirmar que en promedio el número usuarios


# ocasionales del sistema en una hora (casual) es el mismo para días feriados
# y no feriados (holiday). Evalúe la veracidad o falsedad de esta afirmación.
# Justifique su respuesta.

# RESPUESTA

mean(datos$casual[datos$holiday==1])
#44.718
mean(datos$casual[datos$holiday==0])
#35.40838
#FALSO, la media de usuarios ocasionales respecto a los días que son feriado (44.72)
#es mayor a los no feriados (35.41)

# d) (1.0 punto) Para representar la tendencia central de la variable


# número total de usuarios del sistema en una hora (cnt) es adecuado usar
# la media. Evalúe la veracidad o falsedad de esta afirmación.
# Justifique su respuesta.

# RESPUESTA

mean(datos$cnt)
boxplot(datos$cnt
main = “Número total de usuarios del sistema por hora”)

length(boxplot(datos$cnt)$out)
#505 valores atípicos
#FALSO, porque la media es afectada por los valores atípicos, por ende, no sería
#un buen indicador de tendencia central. En cambio, la mediana si lo sería.
PREGUNTA 3
#------------------------------------------------------------------------------

# Pregunta 3 (6.0 puntos)


# a) (1.5 punto) Grafique la distribución del número de usuarios registrados
# del sistema (registered) de acuerdo a la hora (hr) mediante un gráfico
# de boxplot. Realice este mismo gráfico para el número de usuarios ocasionales
# del sistema (casual).

# RESPUESTA

boxplot(datos$registered~datos$hr,
main = "Numero de usuarios registrados del sistema de acuerdo a la hora ",
xlab = "Hora",
ylab = "Usuarios registrados del sistema")

boxplot(datos$casual~datos$hr,
main = "Numero de usuarios ocasionales del sistema de acuerdo a la hora ",
xlab = "Hora",
ylab = "Usuarios registrados del sistema")
# b) (1.5 punto) En base a los gráficos anteriores, se podría decir que durante
# las mañanas la hora en que en promedio se hace mayor uso del sistema es las 8,
# independientemente que el usuario sea registrado u ocasional. Justifique su respuesta.

# RESPUESTA

#De acuerdo a lo observado de los gráficos no se podría afirmar que el mayor


#uso del sistema es a las 8 am independientemente que sea usuario registrado u
ocasional
#ya que para los usuarios registrados sí se cumple el mayor uso, pero para los usuarios
#ocacionales no.

# c) (1.5 punto) Considerando los resultados en a) indique cuál sería la


# hora pico del sistema para los usuarios ocasionales, considerando como indicador el
percentil 75.
# RESPUESTA

boxplot(datos$casual~datos$hr,
main = "Numero de usuarios ocasionales del sistema de acuerdo a la hora ",
xlab = "Hora",
ylab = "Usuarios registrados del sistema")

abline(h=quantile(datos$casual, 0.75), col=2, lty=2)


quantile(datos$casual, 0.75)

#la hora pico del sistema sería a las 12pm ya que es cuando en una misma hora se
concentra
# específicamente el P75

# d) (1.5 punto) Muestre un gráfico adecuado que le permita analizar en qué


# estación del año (season) se presentan la mayoría de los casos atípicos
# para el número de usuarios ocasionales que utilizan el sistema a las 17 horas.

# RESPUESTA
Hora5pm<- datos[datos$hr==17,]
boxplot(Hora5pm$casual~Hora5pm$season,
xlab = "Estaciones",
ylab = "Usuarios casuales",
main = "Usuarios casuales por estación a las 17 horas")
mybox<- boxplot(Hora5pm$casual~Hora5pm$season,

xlab = "Estaciones",
ylab = "Usuarios casuales",
main = "Usuarios casuales por estación a las 17 horas")
mybox

#Según el gráfico podemos observar ligeramente que en invierno presenta una mayor
cantidad
#de datos atípicos.
PREGUNTA 4
#------------------------------------------------------------------------------

# Pregunta 4 (4.0 puntos)


install.packages("curl")
library(curl)
library(haven)
salud.personal = read_sav("http://portal.susalud.gob.pe/wp-
content/uploads/archivo/base-de-datos/2015/CUESTIONARIO%2002%20-
%20CAPITULOS.sav")
salud.medicos = salud.personal[salud.personal$C2P1 == 1 , ]
salud.medicos = as_factor(salud.medicos)
View(salud.medicos)

# a) (2.0 punto) Presente un gráfico adecuado para estudiar


# la relación entro los intervalos de ingreso (C2P28) reportados y tener o no
# especialidad (C2P13).
# ¿Existe asociación entre estas dos variables?, justifique su respuesta.

# RESPUESTA

ingresos<-salud.medicos$C2P28
especialidad<-salud.medicos$C2P13

table(especialidad,ingresos)
prop.table(table(especialidad,ingresos))
barplot(prop.table(table(especialidad,ingresos)),

beside = T,
col=1:2,
xlab= "Intervalos de ingresos",
ylab= "Proporción",
main= "Ingresos de médicos de acuerdo a si tienen o no especialidad")
legend("topleft",c("si","no"),bty="n", pch=15, col = 1:2)

#Los que SÍ tienen una especialidad tienden a ganar más ingresos a comparación de los
#que NO tienen una especialidad.

# b) (1.0 punto) Responda verdadero o falso y justifique la


# siguiente afirmación: “En personas con
# especialidad, la proporción de médicos que reporta ingresos
# mayores a 5000 soles es 0.6348”

# RESPUESTA

prop.table(table(especialidad,ingresos),1)
#VERDADERO, la proporción de médicos que si tienen especialidad con un ingreso

#mayores a s/. 5000 es 0.6348 y los que no 0.2839.

# c) (1.0 punto) Responda verdadero o falso y justifique la siguiente


# afirmación: “En personas que ganan
# entre 4001 y 5000 soles la proporción de médicos que tienen
# especialidad es menor a la proporción
# de estos que no la tiene”.

# RESPUESTA

prop.table(table(especialidad,ingresos),2)
#FALSO, DENTRO DEL RANGO 4001 y 5000 soles, LOS QUE SI TIENEN ESPECIALIDAD
# PRESENTAN UNA PROPORCIÓN DE 0.5990 Y LOS QUE NO UNA PROPORCIÓN DE 0.4010,
SIENDO MAYOR LOS QUE
#TIENEN ESPECIALIDAD A LOS QUE NO.

# d) (1.0 punto) Responda verdadero o falso y justifique la


# siguiente afirmación: “La proporción de
# médicos que tienen ingresos menores o iguales a 3000 soles es de 0.0505”

# RESPUESTA

prop.table(table(especialidad,ingresos))

#FALSO, la proporción de médicos con ingresos menores o iguales a 3000 soles da un


total de 0.0617

You might also like