Professional Documents
Culture Documents
PC 1
PC 1
2023 – I
datos<-read.csv(file.choose())
View(datos)
#------------------------------------------------------------------------------
#Pregunta 1 (5.0 puntos)
# a) (2.0 puntos) Construya un gráfico de la función distribución
# acumulada empírica del Número total de
# usuarios del sistema (cnt) para cada estación del año (season).
# RESPUESTA
datos$cnt
datos$season
#según estaciones:
#inVierno
ecdf(datos$cnt[datos$season==1])
invierno<-ecdf(datos$cnt[datos$season==1])
plot(invierno,
main="DISTRIBUCION ACUMULADA EMPIRICA DE LOS USUARIOS DEL SISTEMA POR
ESTACION",
xlab=" Número total de usuarios del sistema")
#primavera
ecdf(datos$cnt[datos$season==2])
primavera<-ecdf(datos$cnt[datos$season==2])
plot(primavera,
xlab=" Número total de usuarios del sistema",
add=TRUE,
col=2)
#verano
ecdf(datos$cnt[datos$season==3])
verano<-ecdf(datos$cnt[datos$season==3])
plot(verano,
xlab=" Número total de usuarios del sistema",
add=TRUE,
col=3)
#otoño
ecdf(datos$cnt[datos$season==4])
otoño<-ecdf(datos$cnt[datos$season==4])
plot(otoño,
xlab=" Número total de usuarios del sistema",
add=TRUE,
col=4)
abline(h=0.5,col=2,lty=2)
abline(h=0.25,col=2,lty=2)
abline(h=0.75,col=2,lty=2)
# RESPUESTA
# VERDADERO, se observa del grafico que verano tiene una mayor media (199) que
# invierno (76)
IQR(datos$cnt[datos$season==1])<IQR(datos$cnt[datos$season==3])
#TRUE
PREGUNTA 2
#------------------------------------------------------------------------------
# Pregunta 2 (4.0 puntos)
# Responda a las siguientes preguntas
# a) (1.0 punto) Se aplicó la función summary a la variable número total
# de usuarios del sistema en una hora(cnt) y a partir de los resultados
# obtenidos, se llegó a la conclusión que en el 50% de las horas evaluadas
# RESPUESTA
summary(datos$cnt)
# Min. 1st Qu. Median Mean 3rd Qu. Max.
# 1.0 40.0 142.0 189.5 281.0 977.0
# FALSO, ya que la mediana indica que en el 50% de las horas evaluadas se
# alquilaron no más de 142 bicicletas.
# b) (1.0 punto) “En esta ciudad, el nivel de Humedad (hum) presenta mayor
# cantidad de datos atípicos que la Velocidad del viento (windspeed)”.
# Evalúe la veracidad o falsedad de esta afirmación. Justifique su respuesta.
# RESPUESTA
boxplot(datos$hum,
main = "Nivel de humedad") #grafico de cajas de el nivel de humedad
length(boxplot(datos$hum)$out) #conteo de la cantidad de datos
#22 valores atípicos
boxplot(datos$windspeed,
main = "Velocidad del viento") #grafico de cajas de la velocidad del viento
length(boxplot(datos$windspeed)$out) #conteo de la cantidad de datos
#342 valores atípicos
length(boxplot(datos$hum)$out)>length(boxplot(datos$windspeed)$out)
#FALSO, la cantidad de valores atípicos es mayor el de los datos de la
#velocidad del viento con 342 a comparación del nivel de humedad con 22 datos.
# RESPUESTA
mean(datos$casual[datos$holiday==1])
#44.718
mean(datos$casual[datos$holiday==0])
#35.40838
#FALSO, la media de usuarios ocasionales respecto a los días que son feriado (44.72)
#es mayor a los no feriados (35.41)
# RESPUESTA
mean(datos$cnt)
boxplot(datos$cnt
main = “Número total de usuarios del sistema por hora”)
length(boxplot(datos$cnt)$out)
#505 valores atípicos
#FALSO, porque la media es afectada por los valores atípicos, por ende, no sería
#un buen indicador de tendencia central. En cambio, la mediana si lo sería.
PREGUNTA 3
#------------------------------------------------------------------------------
# RESPUESTA
boxplot(datos$registered~datos$hr,
main = "Numero de usuarios registrados del sistema de acuerdo a la hora ",
xlab = "Hora",
ylab = "Usuarios registrados del sistema")
boxplot(datos$casual~datos$hr,
main = "Numero de usuarios ocasionales del sistema de acuerdo a la hora ",
xlab = "Hora",
ylab = "Usuarios registrados del sistema")
# b) (1.5 punto) En base a los gráficos anteriores, se podría decir que durante
# las mañanas la hora en que en promedio se hace mayor uso del sistema es las 8,
# independientemente que el usuario sea registrado u ocasional. Justifique su respuesta.
# RESPUESTA
boxplot(datos$casual~datos$hr,
main = "Numero de usuarios ocasionales del sistema de acuerdo a la hora ",
xlab = "Hora",
ylab = "Usuarios registrados del sistema")
#la hora pico del sistema sería a las 12pm ya que es cuando en una misma hora se
concentra
# específicamente el P75
# RESPUESTA
Hora5pm<- datos[datos$hr==17,]
boxplot(Hora5pm$casual~Hora5pm$season,
xlab = "Estaciones",
ylab = "Usuarios casuales",
main = "Usuarios casuales por estación a las 17 horas")
mybox<- boxplot(Hora5pm$casual~Hora5pm$season,
xlab = "Estaciones",
ylab = "Usuarios casuales",
main = "Usuarios casuales por estación a las 17 horas")
mybox
#Según el gráfico podemos observar ligeramente que en invierno presenta una mayor
cantidad
#de datos atípicos.
PREGUNTA 4
#------------------------------------------------------------------------------
# RESPUESTA
ingresos<-salud.medicos$C2P28
especialidad<-salud.medicos$C2P13
table(especialidad,ingresos)
prop.table(table(especialidad,ingresos))
barplot(prop.table(table(especialidad,ingresos)),
beside = T,
col=1:2,
xlab= "Intervalos de ingresos",
ylab= "Proporción",
main= "Ingresos de médicos de acuerdo a si tienen o no especialidad")
legend("topleft",c("si","no"),bty="n", pch=15, col = 1:2)
#Los que SÍ tienen una especialidad tienden a ganar más ingresos a comparación de los
#que NO tienen una especialidad.
# RESPUESTA
prop.table(table(especialidad,ingresos),1)
#VERDADERO, la proporción de médicos que si tienen especialidad con un ingreso
# RESPUESTA
prop.table(table(especialidad,ingresos),2)
#FALSO, DENTRO DEL RANGO 4001 y 5000 soles, LOS QUE SI TIENEN ESPECIALIDAD
# PRESENTAN UNA PROPORCIÓN DE 0.5990 Y LOS QUE NO UNA PROPORCIÓN DE 0.4010,
SIENDO MAYOR LOS QUE
#TIENEN ESPECIALIDAD A LOS QUE NO.
# RESPUESTA
prop.table(table(especialidad,ingresos))