You are on page 1of 6

PROBABILIDAD Y ESTADÍSTICA FUNDAMENTAL - TALLER 1

SEGUNDO SEMESTRE DE 2018


Profesor: Andrés Nicolás López. Correo: anlopezl@unal.edu.co. Departamento de Estadı́stica.
Universidad Nacional de Colombia

Instrucciones
Presentación
• El trabajo puede entregarse a mano (en letra legible) o a computador (debe imprimirse) en grupos de 3 ó 4
personas. La calificación será la misma para los integrantes del grupo.

• El taller debe entregarse el dı́a miércoles 12 de septiembre a comienzo de la clase. El trabajo debe
entregarse en fı́sico, no por correo.
• Se recomienda el uso de hojas reciclables para la entrega, que no estén arrugadas ni tampoco manchadas.
• La utilización de carpetas de presentación u hojas en blanco afectará negativamente la nota del taller. Asegúrese
de utilizar ambas caras en caso de usar hojas en blanco.

Calificación
• Se seleccionará de manera aleatoria una de las preguntas de cada grupo de preguntas para la calificación final.
La nota de la pregunta seleccionada será representativa del grupo de preguntas a la que pertenece.
• Es ideal responder todas las preguntas de cada grupo:
* Si no responde la pregunta seleccionada, a pesar de haber respondido las demás, la nota del grupo de
preguntas será 0.
* Si únicamente responde la pregunta seleccionada, la nota del grupo no se verá afectada por no responder
las demás preguntas.
Note que los últimos 4 puntos del taller tienen probabilidad de inclusión igual a 1, ya que sólo tienen una pregunta
en su grupo de preguntas.
• La importancia de cada grupo de preguntas para la nota final se presenta mediante la letra w. La nota final del
taller está dada por
Xk
wi = 100
i=1

Dónde k representa el número de grupos de preguntas.


• Sean concisos al momento de justificar los puntos e incluir solamente aquellos gráficos y tablas relevantes para
la discusión. Esto será considerado en la nota.

1
Preguntas 1. w1 = 8
1.1 Según lo discutido en clase responda:
a. ¿Cuál es la principal diferencia entre la estadı́stica y la matemática?
b. Explique 3 razones por las cuales se cuestiona la posibilidad inferencial en los sondeos electorales de las
firmas encuestadoras del plebiscito por la paz en Colombia
c. ¿Es necesaria la inferencia estadı́stica cuando se observa toda la población?
d. ¿Por qué muestrear de una población?.
e. ¿Cuál es la importancia de la estadı́stica para la toma de decisiones?
f. ¿Cuál es la principal diferencia entre la estadı́stica descriptiva y la estadı́stica inferencial?
1.2 Responda Verdadero (V) o Falso (F) según corresponda y explique:
a. En el estudio de la estadı́stica se presenta un error inherente que en la práctica es despreciable
b. La caracterı́stica común entre las 4 escalas de medida estudiadas (nominal, ordinal, intervalo y razón) es
que entre las modalidades de respuesta se cumple la relación de igualdad o desigualdad
c. La escala de intervalo y de razón proveen el mismo nivel de sofisticación.
d. La representación gráfica de una variable cuantitativa discreta es siempre igual a la representación de una
variable cualitativa nominal u ordinal.
e. La variable sexo al nacer codificada como 0 (igual a hombre) y 1 (igual a mujer) es cuantitativa, pues sus
atributos son ahora representados por números.
f. La detección de datos atı́picos a partir del diagrama de caja, la regla empı́rica y la desigualdad de Chebyshev
aplica únicamente para distribuciones acampanadas.

Preguntas 2. w2 = 8
2.1 Identifique las unidades experimentales en las que se miden las siguientes variables. Adicionalmente, determine
el tipo de variable involucrada y la escala de medición de la misma:
a. Tamaño del tumor cancerı́geno de un paciente.
b. Intención de voto para las elecciones presidenciales.
c. Estadı́o del cáncer en un paciente.
d. Cociente de inteligencia (IQ) de los candidatos a la alcaldı́a.
e. Grado de escolaridad de un votante.
2.2 Identifique cada una de las variables cuantitativas como discretas o continuas:
a. Número de accidentes en botes en un tramo de 50 millas del rı́o.
b. Tiempo para completar un cuestionario.
c. Rendimiento en kilogramos de una cosecha de papas.
d. Población en una región particular de un paı́s.
e. Número de pensamientos intrusivos después del diagnóstico de cáncer.
2.3 Un investigador médico desea estimar el tiempo de supervivencia de un paciente con cáncer después de un régimen
particular de radioterapia:

a. ¿Cuál es la variable de interés para el investigador médico?


b. ¿La variable del inciso anterior es cualitativa, cuantitativa discreta o cuantitativa continua?
c. Identifique la población de interés para el investigador médico.
d. De manera simple, describa la forma en que el investigador podrı́a seleccionar una muestra de entre la
población.
e. ¿Qué problemas podrı́an surgir al muestrear desde esta población?

2
Preguntas 3. w3 = 8
3.1 En caso de ser posible, construya el gráfico boxplot para la variable Estatura en cms de los estudiantes del curso
de Estadı́stica con la siguiente información:
• La persona más baja mide 100 cm.
• ¡La distribución es completamente simétrica!.
• La segunda persona más alta mide 195 cm, la más alta 220 cm.
• El tercer cuartı́l es 170 cm y la mediana 155 cm.
3.2 Según lo aprendido en clase respecto al diagrama de caja y bigotes o boxplot:
a. Describa detalladamente el proceso para su construcción.
b. Represente gráficamente mediante un bosquejo la caracterización de las siguientes distribuciones:
– Asimétrica, alto apuntamiento y sesgo a la derecha. Un outlier superior.
– Platicúrtica y simétrica. Sin outliers.
– Asimetrı́a negativa, bajo apuntamiento y dos outliers inferiores.
3.3 Basado en la lectura del primer capı́tulo de la monografı́a Gráficos Estadı́sticos con R

https://cran.r-project.org/doc/contrib/grafi3.pdf

Responda:
a. ¿Cuál es la motivación de la distorsión de los gráficos estadı́sticos por parte de los medios de comunicación?.
b. Escriba y explique 3 de los principios de William Playfair en la elaboración de gráficos.
c. ¿Cuál es la principal desventaja de los gráficos que el autor denomina de paquete?.

Preguntas 4. w4 = 8
4.1 Responda Verdadero (V) o Falso (F) según corresponda y explique:

a. A diferencia del diagrama de tallo y hojas, el histograma permite recuperar los valores individuales de la
variable de interés.
b. El número de intervalos seleccionados para la construcción de un histograma debe seleccionarse cuidadosa-
mente y generalmente de manera experta (es decir, por parte del investigador).
c. La descripción de datos con medidas numéricas es importante en el estudio de la variable, sin embargo, un
muy buen resumen de la distribución de frecuencias es suficiente para caracterizar de manera completa la
variable de interés.
d. La mediana es la única medida de tendencia central que puede calcularse para todas las escalas de medida
estudiadas.
e. Para la media muestral, todos los individuos tienen el mismo peso, por lo cual, esta es una estadı́stica
bastante robusta ante valores atı́picos
f. El rango muestral generalmente sobreestima el poblacional.
g. A diferencia de la varianza, el coeficiente de variación no tiene unidades.

4.2 Para una muestra de 20 dı́as del mes de Enero de 2018 se obtuvo la distribución de frecuencias absolutas de la
variable Número de personas que ingresan diariamente a la unidad de urgencias del hospital de Usaquén.

Figure 1: Diagrama de tallo y hojas. Ejercicio 4.2.

3
La Figura 1 presenta la distribución de frecuencias muestral mediante un diagrama de tallo y hojas. A partir de
esta:
a. Recupere la información original del gráfico de tallo y hojas y represéntela de manera adecuada en una
pequeña base de datos.
b. Describa el tipo de variable medida y la escala de medición de la misma.
c. Con ayuda del gráfico de tallo y hojas de la Figura 1, caracterice de manera detallada la distribución de la
variable Número de personas que ingresan diariamente a la unidad de urgencias del hospital de Usaquén.

Preguntas 5. w5 = 12
5.1 a. Muestre que
Pn la suma de desvı́os respecto a x̄ para un conjunto de observaciones x1 , ... ,xn es igual a cero,
es decir, i=1 (xi − x̄) = 0
b. Si un conjunto de observaciones x1 , ... ,xn mayores a cero es transformado conforme a yi = ln xi para i =
1, ..., n ¿A qué es igual exp ȳ en términos de los datos originales?
c. Suponga que tiene un conjunto de observaciones x1 , ..., xn con media x̄ y varianza s2x el cual es transformado
conforme a
xi − x
zi = para i = 1, ..., n
sx
¿A qué es igual z̄ y s2z ?
5.2 Unos investigadores realizaron un muestreo aleatorio de las orquı́deas del bosque de neblina en el Valle de
Cosñipata para evaluar la diversidad dentro de 3 transectos altitudinales. El total de especies por género y
transecto encontrados se presentan el el cuadro 1.

Género Transecto 1 Transecto 2 Transecto 3


Epidendrum 100 11 5
Maxillaria 0 10 6
Pleurothallis 110 0 7
Stelis 98 12 5
Hofmeisterella 0 11 4
Frondaria 12 0 0
Cuadro 1. Especies de orquı́deas por género y transecto muestreado.

Teniendo en cuenta que la variable Género es nominal.


a. ¿Cuál transecto parece más disperso respecto al número de orquı́deas? ¿cuál menos disperso? ¿es esto fácil
o difı́cil de observar?.
b. Uno de los investigadores propone cuantificar la diversidad mediante el ı́ndice H definido como
k
X
H=− pi logpi
i=1

Donde k representa el número de categorı́as, pi la proporción de observaciones encontradas en la categorı́a


i y n el tamaño de la muestra. ¿refleja H la dispersión en cada transecto?. Calcule.
c. Muestre a los investigadores que la siguiente igualdad se mantiene:
Pk
nlogn − i=1 fi logfi
H=
n
Dónde fi representa el total de observaciones en la categorı́a i.

El ı́ndice H de Shannon, basado en la teorı́a de información, describe de manera cuantitativa la dispersión de


una variable nominal.

4
Pregunta 6. w6 = 14
El conjunto de datos Wage de la librerı́a ISLR brinda información de un grupo de trabajadores. Los datos presentan
la información del salario y otras variables de interés de una muestra de tamaño n = 3000.

a. Extraiga las mediciones de la variable age, que corresponde a la edad en años de los trabajadores, del conjunto
de datos e identifique el tipo de variable y su escala de medición.
b. Realice el diagrama de barras para la variable age y analice gráficamente la distribución de frecuencias relativas
de los datos. Tenga en cuenta caracterı́sticas tales como tendencia, dispersión y forma. ¿Requiere categorizar
(construir intervalos) para esta variable?, en dado caso, utilice la regla de Sturges y usando el método de inclusión
a izquierda.
c. Realice un análisis completo de la distribución de los datos a través de la descripción numérica de la variable.

Ayuda en R
• summary(). Centro, localización y dispersión.
• install.packages(e1071). Forma asimetrı́a.

Pregunta 7. w7 = 14
Del mismo conjunto de datos del punto anterior (Wage), considere ahora la variable wage, que es propiamente aquella
que proporciona el valor del salario semanal de los 3000 trabajadores de la muestra.
a. Trace un histograma que considere adecuado y que permita analizar preliminarmente la tendencia, dispersión y
forma de los datos.
b. Construya una gráfica de caja. En comparación con el primer literal de este punto, comente si sus observaciones
preliminares fueron adecuadas.
c. ¿Qué puede decir de los datos atı́picos de esta variable? Tenga en cuenta los tres criterios vistos en clase que
apliquen para este conjunto de datos.
Ayuda en R
• hist(). Histograma.
• boxplot(). Diagrama de caja.

Pregunta 8. w8 = 14
Se quiere estudiar el número de horas que emplean los estudiantes de Probabilidad y Estadı́stica Fundamental en trans-
portarse diariamente. Por el gran volumen de estudiantes inscritos en la asignatura, se decide encuestar únicamente a
50 estudiantes. A continuación se muestra el conjunto de datos recolectados:
1, 2, 2, 3, 1, 3, 4, 2, 2, 1
1, 1, 2, 2, 3, 2, 2, 5, 2, 3
4, 1, 2, 1, 1, 2, 1, 2, 3, 1
2, 2, 2, 1, 3, 2, 3, 1, 2, 2
3, 2, 3, 2, 2, 3, 1, 2, 2, 2

a. ¿Es este conjunto de mediciones una población o una muestra?.


b. Identifique el tipo de variable (cualitativa, cuantitativa discreta ó cuantitativa continua) y la escala de medición
correspondiente (nominal, ordinal, intervalo o razón).
c. Realice la representación tabular de la variable empleando la función adecuada en R. Tenga en cuenta el tipo de
variable y su escala de medida.
d. Represente gráficamente el comportamiento de los datos en R. Tenga en cuenta la misma recomendación del
numeral anterior.

5
Ayuda en R

• table(). Frecuencias absolutas.


• prop.table(). Frecuencias relativas.
• cut(). Categorización de una variable.

Pregunta 9. w9 = 14
Comente detalladamente el código Clase práctica 3. Programación en R.

You might also like