You are on page 1of 20

Ingeniera

Civil Industrial
Estadstica Aplicada 2

Facultad de Ingeniera y Ciencias Geolgicas / Escuela de Ingeniera


2 Semestre 2014


Ayudantas Tema 2
1. Suponga que el coste aproximado de un lote de produccin est relacionado con el tamao
del lote mediante una expresin lineal (tipo coste=constante+constantetamao).
Representemos con Y una observacin sobre el costo de un lote. Podra suceder que P(Y>
5900,00| x = 90) = 0,05 y P (Y> 6077,91 | x = 100) = 0,10? Explique. Si la expresin lineal fuera
y = 4000 + 20x, seguira opinando lo mismo?

2. Dispone de una lista con las siguientes observaciones de una variable, dado un valor de otra
variable.

X
Y

1
1

3
2

4
4

6
4

8
5

9
7

11
8

14
9


a)
b)

Construya una lnea recta que aproxime los datos de la siguiente lista
Partiendo de la lnea recta determinada anteriormente, indique qu valor considera que
tendr la variable Y si la variable X toma valor 10.
Cree que esta tcnica sera trasladable para pronosticar valores de Y cuando X fuera
50? Qu inconveniente le encuentra?

c)

3. (Datos originales tomados de S.Weisberg, Applied Linear Regression, 3rd Ed.) Dispone de
datos de capturas de un tipo de pescado que relacionan edad con su longitud. Puede
consultar dicha informacin en la hoja de clculo que acompaa a los enunciados.

a) Grafique un diagrama de dispersin de la informacin disponible.
b) Realice un diagrama de dispersin que relacione la edad del pescado con la varianza de
peso entre las observaciones con esa edad.
c) Basndose en el grfico anterior. Cree usted que la edad es un factor importante para
explicar la varianza de peso por edad?

4. El gerente de abastecimiento de una multinacional interesado en estudiar el coste asociado a
la compra de productos, ha determinado una relacin lineal entre el coste total por orden de
compra (y, en USD) y el peso total de los productos solicitados en dicha orden (x, en kg.). La
relacin no es determinista debido a que el coste por orden (coste fijo) y el coste por kg. a
transportar (coste variable) varan dependiendo de la regin territorial en la cual se
encuentren (como multinacional, esta compaa tiene muchas sucursales operacionales
alrededor del mundo). Se ha determinado que la relacin es y = 60 + 5x, y que la desviacin
estndar de la desviacin aleatoria es = 5 USD.

a) Si en este momento en una de las sucursales se estn realizando dos rdenes de compra
con una diferencia de 10 kg. entre el peso total de los productos ordenados entre ellas,
cunto es de esperar que sea la diferencia en el costo total de las rdenes?
b) Sean Y1 y Y2 los costos asociados a dos rdenes en las cuales se ordenaron x = x1 y x = x2
kg. en peso de productos respectivamente. En cuntos kilogramos debe exceder el
1 / 20

Ingeniera Civil Industrial


Estadstica Aplicada 2

Facultad de Ingeniera y Ciencias Geolgicas / Escuela de Ingeniera


2 Semestre 2014


peso ordenado en la segunda orden a la primera, para que el coste de la segunda orden
exceda al de la primera con una probabilidad del 90%?
c) Cul es la probabilidad de que los costes de dos rdenes, observados de forma
independiente para pesos separados por 1 kg., sean tales que el coste de la orden con
ms peso sea mayor que el coste de la orden con menor peso?
d) Si tomamos al azar 9 rdenes de la empresa alrededor del mundo, cada una de las
cuales tiene un peso en productos de 25 kg., cul es la probabilidad que 5 de ellas
tengan un costo entre 185 y 205 USD?

5. Usted ha sido contratado por un grupo de investigadores sociales para analizar
estadsticamente algunos de los datos que disponen de diversos estudios que han realizado.
El primer anlisis que le solicitan est asociado a la relacin entre maternidad entre
adolescentes y nivel educativo de la poblacin). Para ello dispone de una tabla con
informacin de diversos pases que incluye la tasa de natalidad de las mujeres de entre 15 y
19 aos en el citado pas y el promedio del nmero de aos de educacin que tiene un
adulto del citado pas (vase hoja de clculo que acompaa a estos enunciados).

a) Su contratista desea estudiar el efecto de la educacin en la tasa de natalidad de las
mujeres adolescentes. En trminos estadsticos qu variable considerar como variable
explicativa y cul la variable independiente?
b) Podra realizar algn tipo de grfico apoyar visualmente la hiptesis que la educacin
reduce la tasa de natalidad entre adolescentes?
c) Proponga un modelo lineal para explicar dicha relacin y exprese verbalmente las
conclusiones del modelo.
d) Qu efecto predice el modelo de un aumento medio de cuatro aos en el promedio de
aos de educacin que tiene un adulto del citado pas?
e) Segn el modelo, qu probabilidad existe que el aumento indicado en el apartado d no
tenga ningn efecto en la tasa de natalidad?
f) En realidad el inters de los investigadores es relacionar la tasa de embarazo
adolescente con la educacin media del pas. Existen argumentos a favor y en contra de
usar la tasa de natalidad como indicador de la tasa de embarazo. Podra indicar
algunas ventajas y desventajas del indicador?
g) Alguien le sugiere realizar una regresin que asocie el logaritmo de la tasa de natalidad
de las mujeres adolescentes con el nmero medio de aos de educacin. Qu modelo
cree que es el que reporta una mejor estimacin de la relacin entre las variables?


6. Se han utilizado agentes de enlace de Silano en la industria del caucho para mejorar la
operacin de rellenos en compuestos de caucho. Los datos siguientes representan y:
coeficiente a la tensin (en kPa, una medida de la efectividad de enlace del silano) y x:
contenido de caucho de enlace (%).

X
Y

10
10
15
15
20
20
25
25
30
30
35
35
2281 2448 2911 2690 3154 2821 4000 3152 4012 4038 5159 5229

2 / 20

Ingeniera Civil Industrial


Estadstica Aplicada 2

Facultad de Ingeniera y Ciencias Geolgicas / Escuela de Ingeniera


2 Semestre 2014


a)
b)

c)

d)


Se pide que realice estime los parmetros del modelo de regresin lineal simple, a travs
del mtodo de los mnimos cuadrados.
Utilizando el modelo obtenido, encuentre un IC del 95% para el verdadero cambio
esperado en el coeficiente a la tensin cuando el contenido de caucho de enlace
aumenta en 1%.
Utilizando el modelo obtenido, encuentre un IC del 95% para el verdadero cambio
esperado en el coeficiente a la tensin cuando el contenido de caucho de enlace
disminuya en 2%.
Utilizando el modelo obtenido, encuentre un IC del 95% el coeficiente a la tensin
esperado cuando el contenido de caucho de enlace es de 0%.


7. Le han pedido que estudie el efecto de las variaciones de valor del ndice burstil de
Standard and Poors sobre el ndice DAX. Los datos (expresado en tanto por uno de
variacin respecto al valor del da anterior) estn disponibles en la hoja de clculo que
acompaa a estos enunciados.


a) Estime los parmetros del modelo.
b) Cree que el modelo es representativo?
c) Utilizando el modelo obtenido, determine un IC del 95% del promedio del efecto.
d) Determine la probabilidad que el efecto de un incremento de un uno por ciento en el
ndice de Standard and Poors no se traduzca en un incremento del ndice DAX.

8. Demuestre que la recta de regresin siempre pasa por el punto , .

9. (Ejercicio adoptado de S.Weisberg, Applied Linear Regression, 3rd Ed.) Le han pedido que
estudie la relacin entre la altura de las hijas (variable de respuesta) y la altura de sus
madres (variable predictora). Partiendo de la informacin disponible:

a) Determine si existe una correlacin positiva o negativa entre ambas variables.
b) Determine el coeficiente de determinacin de la regresin.
c) Determine mediante algn estadstico una medida de la validez del modelo
d) Determine un intervalo del 95% para el valor del parmetro ! .

10. A veces es conveniente escribir la regresin lineal en un formato ligeramente diferente al
utilizado en clase de ctedra. Partiendo de la ecuacin = ! + ! , y aadiendo ! !
al lado derecho de la ecuacin, y combinando trminos, podemos escribir: = ! + ! +
! ! ! + ! = ! + ! + ! ! + ! = + ! ! + ! , donde = ! + ! .
Esta forma se conoce como la forma de regresin simple a travs de desviaciones de la
media muestral. (Ejercicio adaptado de S.Weisberg, Applied Linear Regression, 3rd Ed.)

a) Cul es el significado del parmetro ?

3 / 20

Ingeniera Civil Industrial


Estadstica Aplicada 2

Facultad de Ingeniera y Ciencias Geolgicas / Escuela de Ingeniera


2 Semestre 2014


b)

Utilizando la ecuacin expresada con anterioridad, qu significado tendra 1 en el


problema anterior. Especficamente qu significa que 1<1, 1=1 y 1>1.


11. (Ejercicio adoptado de S.Weisberg, Applied Linear Regression, 3rd Ed.) Con los datos de las
capturas de pescado presentados en el ejercicio 3.

a) Determine intervalos de confianza del 95% para la longitud media con edad 2, 4 y 6.
b) Obtenga un intervalo de confianza del 90% para la longitud media con edad 9.
Explique por qu este intervalo seguramente no es fiable.
c) Dispone de datos adicionales sobre la longitud de los de un tipo de pescado respecto a
su edad. Utilizando los mtodos expuestos en clase, indique si una regresin lineal
simple ofrece una buena aproximacin de la relacin presentada.

12. Suponga que los datos de las observaciones sufren un cambio de escala (un ejemplo de
cambio de escala correspondera a cambiar una medida de metros a centmetros o a
pulgadas). Matemticamente un cambio de escala es equivalente a indicar que los
predictores X pasan a ser cX donde c es una constante no nula.

a) Determine el cambio que sufrira los estimadores de la recta de regresin.
b) Qu efecto tendra en la varianza del modelo.
c) Cmo cambiara el resultado del test de hiptesis H0 1=0.
d) Muestre numricamente este efecto en los datos del ejercicio 11 apartado c.

13. La variacin en el consumo de gasolina entre diferentes modelos de automviles est
fuertemente relacionado con el peso y cubicaje del vehculo. Dispone de datos sobre
diferentes modelos de coche.

a) Determine un modelo simple para explicar la variable MPG (millas por galn de
gasolina) a travs de la variable HP (Cubicaje).
b) Determine un modelo simple para explicar la variable MPG (millas por galn de
gasolina) a travs de la variable WT (peso).
c) Repita el anlisis realizado en la pregunta a, puedo use log(MPG) como variable de
respuesta.
d) Indique cul de los modelos considera como mejor.

14. Existe una fuerte relacin entre la altura de un nio y su edad. Utilizando los datos que
dispone:

a) Proponga un modelo de regresin lineal que permite predecir la altura de un nio
basndose en su edad
b) Determine en cunto mejora (o empeora) el modelo a eliminar el trmino
independiente.

4 / 20

Ingeniera Civil Industrial


Estadstica Aplicada 2

Facultad de Ingeniera y Ciencias Geolgicas / Escuela de Ingeniera


2 Semestre 2014


15. Se dispone de informacin datos sobre una estimacin del contenido de nieve de las
montaas de una regin a fecha de 1 de abril, y del aporte de agua provocado por deshielo
entre Abril y Julio en los ros de la regin para 17 aos consecutivos.

a) Determine un modelo de regresin simple que pase por el origen para explicar la
relacin entre variable explicativa y variable de respuesta.
b) Realice una prueba F para un nivel de confianza del 95% del modelo anterior
c) Obtenga un modelo de regresin simple que no pase por el origen y determine qu
modelo es mejor, el realizado en el apartado a o el modelo realizado en el presente
enunciado.


16. La cromatografa es una tcnica que se utiliza para detectar pequeas cantidades de
sustancias. Usted dispone de datos que relacionan la cantidad de sustancia que hay en un
espcimen (en nanogramos) con el valor que reporta la cromatografa.

a) Determine una recta de regresin lineal que explique la variable cantidad de sustancia
en el espcimen con el valor que reporta la cromatografa.
b) Estudie la validez del modelo mediante las pruebas de hiptesis que conozca
c) Estudie la validez del modelo mediante el estudio visual de las diferentes cualidades
que deberan presentar los residuos.


17. (Ejercicio adoptado de A.Sen, M. Srivastava, Regression Analysis, Theory, Methods and
Applications) Dispone de informacin sobre la densidad de poblacin y el nmero de robo
de vehculos en la ciudad de Chicago en cada uno de sus distritos (el distrito 1 corresponde
al centro de la ciudad).

a) Determine una recta de regresin que estudie la relacin entre la cantidad de robos
respecto a la poblacin del distrito.
b) Estudie la validez del modelo, incluyendo la deteccin de posibles outlaiers.
c) En caso de existir algn outlaier, Cree que es explicable su existencia? Al sustituirlo
variara el modelo?
d) Determine si se puede rechazar la hiptesis nula de que la pendiente de la recta es 0
respecto a la hiptesis alternativa.

18. Los datos adjuntos a este enunciado corresponden a informacin recogida para el estudio de
las condiciones econmicas de familias de clase baja en los Estados Unidos. Se dispone de 39
observaciones que representan promedios de 39 barriadas populares a lo largo del pas. El
inters es estudiar la relacin el promedio de horas trabajadas por los hombres de las
familias y el sueldo medio (el inters es identificar si un aumento de los sueldos mnimos
provocara una reduccin de horas laborales).

a) Determine una recta de regresin que permita comprobar el efecto comentado.
b) Compruebe la validez del estudio realizado.

5 / 20

Ingeniera Civil Industrial


Estadstica Aplicada 2

Facultad de Ingeniera y Ciencias Geolgicas / Escuela de Ingeniera


2 Semestre 2014


Nota: Se utiliza el smbolo * para indicar que no se dispone de la informacin. En este
ejercicio no resulta importante el valor de *, pero existen diversas maneras de eliminar o
sustituir valores desconocidos en mtodos estadsticos.

19. El propietario de un restaurante en Bloomington, Indiana, ha registrado los datos de ventas
de los ltimos 19 aos, as como los datos de otras variables potencialmente relevantes. Los
datos aparecen en el archivo Excel que acompaa a estos enunciados.

a) Estimar una ecuacin de regresin mltiple que incluye como variable respuesta a las
ventas anuales y como variables explicativas a: el ao, la poblacin que reside 10 millas
a la redonda del restaurante, los gastos anuales de publicidad, y los gastos en
publicidad en el ao anterior.
b) Cul de las variables explicativas tienen efectos significativos sobre las ventas al nivel
de significacin del 10%? Le llama la atencin alguno de estos resultados? Explique
por qu s o por qu no.
c) Excluya todas las variables explicativas insignificantes del modelo y estimar el nuevo
modelo. Est justificada estadsticamente su decisin? Una vez ms utilice un 10% de
significancia.


20. La Compaa Polilla S.A. vende muebles de madera personalizados y en grandes
cantidades a minoristas de muebles.

Juan Prez ha sido asignado recientemente para analizar la poltica de precios de la
compaa. l ha dicho que los descuentos por cantidad, es una buena poltica. Por ejemplo,
para un tipo de silla, cambi la poltica de precios en las cantidades de 200 y 400, es decir,
hasta antes 200 unidades tena un precio, desde 200 y hasta antes de 400 otro y por 400
ms otro precio (menor obviamente). Para este tipo de silla, se adjuntan los datos de 81
pedidos de un cliente, los cuales incluyen la cantidad y el precio total. Estos datos aparecen
en el archivo Excel que acompaa a estos enunciados.

Lo que se pide es que use el anlisis de regresin para ayudar a Juan a descubrir la
estructura de precios que utiliza Polilla S.A. [Sugerencia: (1) Es esencial un grfico de
dispersin para entender el comportamiento, (2) Un modelo de regresin lineal simple del
Precio Total v/s Cantidad da un buen ajuste, pero no permite estimar los descuentos que se
producen por cantidad]

21. La hoja de clculo que acompaa a los presentes enunciados contiene datos sobre las
ltimas 128 ventas de casas en MidCity. Por cada venta, el archivo muestra.

La localidad en el que se encuentra ubicada la casa (1, 2, 3)
El nmero de ofertas realizadas por la casa
El tamao de la casa (en pies cuadrados)
Si la casa est hecha principalmente de ladrillo

6 / 20

Ingeniera Civil Industrial


Estadstica Aplicada 2

Facultad de Ingeniera y Ciencias Geolgicas / Escuela de Ingeniera


2 Semestre 2014


El nmero de dormitorios
El nmero de baos
El precio de venta

Las localidades 1 y 2 son los barrios ms tradicionales, mientras que 3 es un barrio ms
nuevo, con ms prestigio.

a) Realice un modelo de regresin lineal mltiple que use todas las variables entregadas
para predecir el precio de venta de las casas.
b) Son todas las variables cuantitativas significativas? Explique.
c) Obtenga la estadstica de Durbin-Watson, y conteste lo siguiente:
a. La autocorrelacin es positiva o negativa? Justifique.
b. La autocorrelacin es significativa? Justifique.

22. El gerente de RR.HH. de DataCom, quiere predecir los sueldos anuales de los trabajadores
utilizando las siguientes variables explicativas: (1) nmero de aos de experiencia laboral
previa, (2) nmero de aos trabajando en DataCom, (3) nmero de aos de educacin
despus de secundaria, (4) gnero del empleado, y (5) el nmero de personas supervisadas
por el empleado. La informacin recopilada se encuentra en la hoja de clculo adjunta a los
enunciados.

a) Encuentre un modelo de regresin lineal mltiple que prediga el salario de los
empleados utilizando todas las variables explicativas suministradas.
b) Utilcelo con el propsito encontrar un intervalo, en el cual tengamos un 99% de
confianza, para el salario anual de Juanita Prez quien tiene las siguientes caractersticas:
(1 y 2) :
Ella ha trabajado en un departamento similar de otra compaa por


10 aos, antes de trabajar en DataCom por 5 aos.
(3)
:
Se titul en una escuela de negocios en 4 aos.
(5)
:
Ella ha supervisado a 12 subordinados en el departamento de



adquisiciones desde que lleg a la compaa.
c) En el modelo anterior encontrado, parece tener importancia el gnero del empleado?
Realice un anlisis estadstico apropiado para comparar el ajuste del modelo completo,
con lo del modelo reducido que no considere el gnero.

23. Sharon Parsons, presidenta de Gourmet Box Mini Pizza, le ha pedido ayuda para desarrollar
un modelo que prediga la demanda semanal de la nueva pizza llamada Pizza1.

Actualmente, este producto est vendido por tres grandes cadenas de distribucin llamadas
1, 2 y 3 para identificarlas. Estas tres cadenas tienen diferentes cuotas de mercado y, por lo
tanto, es probable que las ventas de cada distribuidor sean diferentes.

7 / 20

Ingeniera Civil Industrial


Estadstica Aplicada 2

Facultad de Ingeniera y Ciencias Geolgicas / Escuela de Ingeniera


2 Semestre 2014


La hoja de clculo asociada a los enunciados de ayudanta del tema 2 contiene datos
semanales recogidos en las 52 ltimas semanas en las tres cadenas de distribucin. A
continuacin, se definen las variables del fichero de datos.

Semana: Nmero secuencial de la semana en la que se recogieron los datos
Distribuidor: Identificador numrico del distribuidor
(1) Precio: Precio al por menor de Pizza1 cobrado por el distribuidor durante esa semana
(2)Ventas: Nmero de unidades de Pizza1 vendidas por el distribuidor durante la
semana
(3) Promocin Pizza1: Nivel de promocin de la semana:

0. Significa Ninguna promocin;
1. Significa Exposicin en las tiendas;
2. Ssignifica Anuncios en la televisin y Exposicin en las tiendas

a) Realice tres modelos de regresin lineal sin interaccin, uno para cada distribuidor.
Estos modelos deben utilizar las variables entregadas para predecir las ventas de Pizza1
a la semana (independiente de cual semana sea).
b) Por cada uno de los modelos, Qu porcentaje de la variabilidad de las ventas semanales
de Pizza1 sea explicado por el modelo?
c) Determina si el (los) variable(s) cuantitativo(s) son significativas. Justifica tu respuesta
en base de las pruebas de hiptesis que corresponden.

24. En un nuevo proceso, el tiempo (t) de conversin de metal blanco hasta cobre depende de:
(1) x1: la masa de la carga (T) y (2) x2: la tasa del soplo (Tefec/hr). Usted dispone de diversas
mediciones experimentales para estudiar la funcin t(x1, x2) en la hoja de clculo asociada al
presente ejercicio. Considere los 3 modelos siguientes, que no incluye constantes.
.


(i)
t = 1x1 + 2x2


(ii)
t = 3 x1 x2


(iii)
t = 4 x1 / x2

a) Utilice los tres modelos para obtener intervalos de confianza del nivel de 95%, para el
tiempo de conversin de 2 T con una tasa de 1 Tefec/hr. Segn estos intervalos de
confianza, cul de los modelos parece ser ms adecuado para (x1, x2) = (2 ; 1)? Justifique.
b) Las unidades de la tasa del soplo, Tefec/hr, estn definidas tal que una tasa de 1 Tefec/hr
debera convertir una tonelada de carga en una hora, idealmente. Entonces, el coeficiente
4 es el inverso del factor de eficacia,Eficacia = 1/4.Segn los datos, con qu nivel de
confianza podremos concluir que la eficacia del nuevo proceso sea menor a 0,97? (Puede
conseguir s4 de la salida de Minitab)
c) Realice grficos que permiten analizar los residuos observados, segn el modelo (iii).
Comente sobre la normalidad y la homocedasticidad de los residuos.

8 / 20

Ingeniera Civil Industrial


Estadstica Aplicada 2

Facultad de Ingeniera y Ciencias Geolgicas / Escuela de Ingeniera


2 Semestre 2014


25. En la hoja de clculo asociada al presente enunciado, aparece la informacin asociada a
precios de venta de casas, en una determinada comunidad, junto a sus respectivas
caractersticas: Tamao de la casa (en pies2), Tamao del Terreno (en acres), nmero de
baos y nmero de habitaciones.
a) Realice un modelo de regresin lineal (sin interaccin) que use todas las variables
entregadas para predecir el precio de venta de las casas. Es til este modelo? Son todas
las variables significativas? Explique a travs de las pruebas de hiptesis pertinentes.
Existe algn problema de multicolinealidad? Razone lgicamente y luego concluya
estadsticamente.
b) A partir del modelo anterior, parecen influyentes las variables nmero de habitaciones
y nmero de baos en el precio final? Justifique estadsticamente su respuesta. Plantee el
modelo final.
c) Realice un modelo de regresin cuadrtico completo para predecir el precio de venta.
Est justificada estadsticamente la inclusin de las variables de segundo orden (de
interaccin y cuadrticas)?
d) Concluya con el mejor modelo lineal (sin interaccin) que puede entregar. Existe algn
supuesto fundamental que no se cumpla? Justifique mediante grficos y pruebas de
hiptesis cuando corresponda. En caso de que algn supuesto no se cumpliese, cules
son las consecuencias sobre el modelo?

26. Hay dos aditivos (A y B) que reducen el tiempo de reaccin (y) entre el cido fluorhdrico y
el polymethanoglicol. Se puede controlar las adiciones de estos aditivos, lo cual corresponde
a dos variables independientes.


xA : el volumen del aditivo A que se introduce al cido

xB : el volumen del aditivo B que se introduce al cido

Antes de introducir el polymethanoglicol, se puede obtener el peso total de la solucin
(cido + aditivo A + aditivo B), lo cual da una tercera variable,


xC : la masa total de la solucin, antes de introducir el polymenthanoglicol

La hoja adjunta contiene datos recogidos de una planta piloto que est aplicando los
aditivos.

a) Utilice los datos para obtener un modelo lineal (sin interacciones), que describe el tiempo
de reaccin en funcin de xA, xB y xC.
b) Obtiene los valores VIF que corresponde al modelo anterior, y comente sobre la
multicolinealidad que se puede observar.
c) Elige un subconjunto de los variables xA, xB y xC, lo cual servira para construir un nuevo
modelo lineal en lo cual no hay problemas de multicolinealidad. (No es necesario
obtener este nuevo modelo).

9 / 20

Ingeniera Civil Industrial


Estadstica Aplicada 2

Facultad de Ingeniera y Ciencias Geolgicas / Escuela de Ingeniera


2 Semestre 2014



27. La gestin de una determinada empresa se ha interesado hace tiempo en la precisin
predictiva del nivel de actividad obtenida a partir de la informacin suministrada por sus
clientes en un intento de proporcionar un mejor fundamento de los controles de produccin
y el marketing. Con este fin, los investigadores de esta empresa han encuestado a 100
clientes, quienes han llenado una encuesta, en la cual se consultaba la siguiente informacin:

X1: Velocidad de Entrega tiempo que transcurre hasta que se entrega el producto, una
vez que se hubo confirmado el pedido (medida a escala continua entre 0 y 10).
X2: Nivel de Precio nivel de precios percibido por los clientes industriales (medido a
escala continua entre 0 y 10).
X3: Flexibilidad de Precios la disposicin percibida en los representantes de la empresa
para negociar el precio de todas las compras (medida a escala continua entre 0 y 10).
X4: Imagen del Fabricante imagen conjunta del fabricante/distribuidor (medida a escala
continua entre 0 y 10).
X5: Servicio nivel conjunto de servicio necesario para mantener una relacin
satisfactoria entre el oferente y el comprador (medido a escala continua entre 0 y 10).
X6: Imagen de la Fuerza de Ventas imagen conjunta de la fuerza de ventas del
fabricante (medida a escala continua entre 0 y 10).
X7: Calidad del Producto nivel de calidad percibido en un producto particular (medida
a escala continua entre 0 y 10).
X8: Tamao de la Empresa tamao de la empresa (cliente) respecto a otras empresas en
el mismo mercado (dos categoras: 1 = grande, 0 = pequea).
X9: Nivel de Fidelidad cunto se compra a esta empresa del total que compra el cliente
(medido en porcentaje de 0 a 100).
X10: Nivel de Satisfaccin satisfaccin del comprador con las compras anteriores
realizadas a la empresa (medida a escala continua entre 0 y 10).
X11: Compra detallada medida por la cual un comprador particular evala cada
compra separadamente (anlisis del valor total) o en funcin de una compra detallada,
donde se especifican precisamente las caractersticas del producto deseado (dos
categoras: 1 = emplea la aproximacin al anlisis del valor total, evaluando cada compra
por separado, 0 = uso de la compra detallada).
X12: Estructura de la adquisicin mtodo de adquisicin/compra de productos a una
compaa en particular. (dos categoras: 1 = adquisicin centralizada, 0 = adquisicin
descentralizada).
X13: Tipo de Industria clasificacin de la industria a la que pertenece el comprador del
producto (dos categoras: 1 = industria de clase A, 0 = otras industrias).
X14: Tipo de Situacin de Compra tipo de situacin a la que se enfrenta el comprador.
(tres categoras: 1 = nueva tarea, 2 = re-compra similar modificada y 3 = re-compra
simple).

Los datos se encuentran en el fichero Excel con los datos de las ayudantas del tema 2.

10 / 20

Ingeniera Civil Industrial


Estadstica Aplicada 2

Facultad de Ingeniera y Ciencias Geolgicas / Escuela de Ingeniera


2 Semestre 2014


a) Utilice el mtodo de regresin por pasos, usando s para ingresar y eliminar variables,
siempre en un enfoque conservador, para encontrar un modelo de regresin lineal (sin
interaccin) mltiple que prediga el nivel de fidelidad del cliente, como una funcin de
las de las restantes variables predictoras.
b) Repita el inciso anterior, pero esta vez utilice el mtodo del mejor subconjunto para
determinar su modelo elegido. Explique claramente su decisin.
c) Usando el mejor modelo encontrado a su juicio, entre los encontrados en los incisos
anteriores, realice un anlisis de los residuos que le permita validar el modelo. Algn
supuesto no se cumple? Explique claramente.

28. En la hoja Excel anexa, se presenta el consumo de gasolina de 25 automviles, junto a nueve
variables adicionales de los automviles, las cuales representan: x1: desplazamiento [pulg3],
x2: caballos de fuerza [lb-pie], x3: razn de compresin, x4: relacin del puente trasero, x5:
nmero de gargantas del carburador, x6: nmero de velocidades de transmisin, x7: longitud
total [pulg], x8: ancho [pulg], x9: peso [lb]. Se pide que construya un modelo de regresin
lineal simple mltiple sin interaccin, que explique el comportamiento del consumo de
gasolina (y), usando las siguientes tcnicas:


a) Eliminacin hacia atrs (BE), con un nivel de significancia para eliminar de = 0,05.
b) Seleccin hacia adelante (FS), con un nivel de significancia para ingresar de = 0,05.
c) Regresin por Pasos (Stepwise), utilizando un enfoque neutro al riesgo para ingresar y
eliminar variables del modelo.
d) Compare los modelos obtenidos anteriormente. Si lleg al mismo modelo en cada uno
de los incisos anteriores, explique cmo seleccionara al mejor modelo en un caso donde
al menos tuviramos dos modelos distintos.
e) A travs del anlisis de residuos, determine si se cumplen los supuestos de
heterocedasticidad, autocorrelacin y normalidad para el modelo escogido.

29. Una compaa de seguros quiere determinar cmo sus costos anuales de operacin
dependen del nmero de plizas de seguro hogar ( ) y automotriz ( ) que han sido
vendidas. La hoja Problema29 del archivo que acompaa a estos enunciados contiene la
informacin relevante de 10 sucursales de la compaa de seguros. La compaa cree que un

modelo multiplicativo (de la forma = ) podra ser adecuado debido a que los
costos operacionales tpicamente se incrementan en un porcentaje constante a medida que el
nmero de cualquiera de las plizas se incrementa en un porcentaje dado. Use los datos
dados para estimar el modelo multiplicativo para esta compaa de seguro. Interprete sus
resultados. Entrega el modelo multiplicativo un buen ajuste para estos datos? Explique.

30. Evercrisp ha encontrado que algunos de sus chips de papas fritas resultan un poco
aceitosos, por ello es importante encontrar las caractersticas del proceso de produccin para
que se produzcan chips con la contextura apropiada. Los datos que representan : tiempo
de fredo (seg.), : contenido de humedad (%), se encuentran en la hoja Excel asociada a los
ejercicios de ayudanta del tema 2.

11 / 20

Ingeniera Civil Industrial


Estadstica Aplicada 2

Facultad de Ingeniera y Ciencias Geolgicas / Escuela de Ingeniera


2 Semestre 2014



a) Construya un diagrama de dispersin de y v/s x. Comente.
b) Construya un diagrama de dispersin de los pares (ln(x), ln(y)). Comente.
c) Qu tipo de relacin probabilstica entre x e y se sugiere a partir del patrn lineal del
diagrama construido en b)?.
d) Prediga, en forma de intervalo con un 95% de confianza, el contenido de humedad (%)
en un chip de papas cuando el tiempo de fredo es de 20 seg.
e) Analice los residuos del ajuste del modelo de regresin lineal de los datos transformados.
Comente.

Ejercicios Adicionales.

1.

Cierto artculo consider la regresin de la resistencia estndar de curado (en 28 das, en lb/pulg2 =
psi) contra : resistencia acelerada (en lb/pulg2 = psi). Suponga que la ecuacin de la verdadera recta
de regresin es = 1800 + 1,3. Suponga que la desviacin estndar alrededor de la recta es 350
[psi].
a) Cunto podemos esperar que cambie la resistencia de 28 das cuando la resistencia acelerada
aumenta en 1 [psi]?
b) Cul es la probabilidad de que el valor observado de la resistencia de 28 das exceda de 5000
[psi] cuando el valor de la resistencia acelerada es 2000 [psi]?
c) Repita el inciso b) con 2500 [psi] en lugar de 2000 [psi].
d) Considere realizar dos observaciones independientes en la resistencia de 28 das, la primera para
una resistencia acelerada de 2000 [psi] y la segunda para = 2500 [psi]. Cul es la probabilidad
de que la segunda observacin exceda a la primera en ms de 1000 [psi]?
e) Represente con ! y ! las observaciones en la resistencia de 28 das cuando = ! y = ! ,
respectivamente. En cunto tendra ! que exceder a ! para que P (Y2 > Y1 ) = 95% ! >
! = 95%?

2.

Suponga que el costo aproximado de un lote de produccin est relacionado con el tamao del lote
por la ecuacin = 4000 + 10. Representemos con una observacin sobre el costo de un lote. Si
las variables magnitud y costo estn relacionadas segn el modelo de regresin lineal simple, podra
suceder que > 5500 = 100) = 0,05 y > 6500 = 200 = 0,10? Explique.

3.

En un artculo se presenta una regresin de : contenido de calcio [gr/lt] sobre : material disuelto
[mg/cm2]. La ecuacin de la recta de regresin estimada fue = 3,678 + 0,144 con ! = 0,860,
basada en = 23.
a) Interprete la pendiente estimada 0,144 y el coeficiente de determinacin 0,860.
b) Calcule un estimado puntual del contenido promedio real de calcio cuando el material disuelto es
50 [mg/cm2].
c) El valor de la suma total de cuadrados fue SST = 320,398. Calcule un estimado de la desviacin
estndar del error en el modelo de regresin lineal simple.

12 / 20

Ingeniera Civil Industrial


Estadstica Aplicada 2

Facultad de Ingeniera y Ciencias Geolgicas / Escuela de Ingeniera


2 Semestre 2014


4.

El directorio de una empresa ha decidido para el 2013 invertir 65 millones en publicidad y quiere
analizar su impacto sobre las ventas. Para ello ha recogido datos del volumen de ventas y del gasto
en publicidad expresado en millones de euros.

a)

Ao

Ventas

Gasto en publicidad

2001

50

15

2002

100

30

2003

150

23

2004

200

25

2005

200

30

2006

300

40

2007

400

55

2008

500

60

2009

650

65

2010

700

70

Realice un grfico de dispersin y la lnea de regresin, verifique la factibilidad de utilizar un


modelo de regresin lineal entre las ventas como funcin de la inversin en publicidad.
Comente (tendencia, dispersin, etc.). Utilice Excel y tambin Minitab.
Estime el modelo lineal que explique las ventas de la empresa en funcin de la inversin
publicitaria. Utilice la herramienta Anlisis de Datos de Excel y tambin Minitab.
Calcule el coeficiente de determinacin del modelo, e interprtelo.
Pedro, el abogado del directorio, dice que las ventas en 2013 sern de 650 millones ya que la
evidencia histrica seala que en 2009 se vendieron 650 millones con 65 millones de gasto.
Asuma que las ventas siguen un modelo lineal dado por

b)
c)
d)

= 141,6 + 11,3 + ,
~ 0, ! = 10. Calcule:

El valor esperado de las ventas en 2013 (recuerde que el gasto en 2013 es de 65MM.)
La probabilidad de que en 2013 las ventas sean mayores a 640 MM.
La probabilidad de que en 2013 las ventas sean menores a 613 MM y mayores de 570.

Qu opina usted sobre la prediccin de Pedro? Por qu Pedro estara equivocado? Qu prediccin
de ventas propondra usted?
5.

La siguiente tabla muestra los mejores tiempos mundiales en Juegos Olmpicos hasta 1976 en carrera
masculina para distintas distancias:
Tiempo (s)

9,9

19,8

Distancia (m)

100

200

44,26 103,5 214,9 806,4


400

800

13 / 20

1500

1658

7795

5000 10000 42196

Ingeniera Civil Industrial


Estadstica Aplicada 2

Facultad de Ingeniera y Ciencias Geolgicas / Escuela de Ingeniera


2 Semestre 2014


a) Ajuste un modelo de regresin lineal para explicar los mejores tiempos de las carreras en funcin
de la distancia que los atletas deben recorrer. Luego calcule la varianza residual y el coeficiente de
determinacin.
b) Obtenga un IC del 95% para el cambio esperado en el tiempo por cada metro adicional de
distancia en la carrera.
c) Analice si la relacin lineal es adecuada, a travs de un grfico de dispersin, el coeficiente de
determinacin y la prueba de utilidad del modelo.
d) Supngase que en aquellas Olimpiadas hubiera existido una carrera de 500 metros. Estime el
tiempo esperado para el record olmpico en dicha carrera, dando un intervalo de confianza del
99%.
e) Calcule el rango de valores dentro de los cuales podra fluctuar el record de la carrera de 500
metros, usando un 90% de confianza.
6.

El tiempo necesario para que un vendedor abastezca de sodas en una vitrina en una tienda (y), y las
cajas de producto abastecido (x) se encuentran en la hoja adicional6 del libro que acompaa la
coleccin de enunciados.
a) Realice la regresin de y sobre x. Qu ecuacin se obtiene?
b) Realice la regresin por el origen de y sobre x. Qu ecuacin se obtiene?
c) Realice una prueba de hiptesis que le permita verificar si la regresin por el origen es suficiente.
Utilice el mtodo del valor p.
d) Qu se puede concluir comparando las desviaciones estndares de los residuos de los modelos
de la parte a) y de la b)?

Prueba de Ctedra Primer Semestre curso 2013.


Problema 1. Parte I
En un Banco se est estudiando la relacin que existe entre el dinero disponible en la cuenta de ahorro de
175 personas y otras variables explicativas. Para ello dispone de un conjunto de datos que considera las
variables:

a)
b)
c)

Saldo: dinero disponible en la cuenta de ahorros.


Casado: Dummy que indica con 1 si la persona est casada.
Hombre: Dummy que indica con 1 si es hombre.
Edad: Edad de la persona.
Ysp: Ao de apertura de la cuenta ahorro.

Realice un regresin entre la variable saldo y las dems variables con una interaccin entre Edad y
Hombre.
Interprete el coeficiente de Edad segn si es hombre o si es mujer.Cmo interpretara el coeficiente
de YSp?
Cul es el valor esperado del saldo de: un hombre casado en funcin de la Edad y Ysp?Cul es la
expresin para una mujer soltera?

14 / 20

Ingeniera Civil Industrial


Estadstica Aplicada 2

Facultad de Ingeniera y Ciencias Geolgicas / Escuela de Ingeniera


2 Semestre 2014


Problema 1. Parte II
En un Banco se est estudiando la relacin que existe entre el dinero disponible en la cuenta de ahorro de
175 personas y otras variables explicativas. Para ello dispone de un conjunto de datos que considera las
variables:

Saldo: dinero disponible en la cuenta de ahorros.


Casado: dummy que indica con 1 si la persona esta casada.
Hombre: Dummy que indica con 1 si es hombre.
Edad: Edad de la persona.
Ysp: Ao de apertura de la cuenta ahorro.

a)

Con el modelo de la parteI.a, realice una seleccin de variables con el criterio Ck, Qu modelo
preferira? Por qu?

b)

Analice los grficos de los errores estandarizados que permitan analizar la hiptesis de
homocedasticidad.

Problema 2.
La hoja tiempos del archivo Excel adjunto a la segunda prueba de ctedra del curso 2013, semestre 1,
contiene los tiempos que demora un computador (Y) en procesar un cantidad X de datos (en millones).
a) Realice un grfico de dispersin y verifique la factibilidad de usar una regresin lineal. En base al
grfico Le parecera mejor utilizar un polinomio cuadrtico? Explique.
b) Usted tiene dudas si es mejor considerar un modelo cuadrtico, entregue los resultados de la
regresin entre Y, X y ! , incluyendo los valores VIF y los valores p de la regresin Le parece
un buen modelo?Qu problemas observa?Podremos hablar que hay variables independientes no
significativas?.
c) Para evitar el problema de la parte b, usted considera solo el modelo = ! + ! +
Estime los coeficientes de modelo y evalu su significancia con = 10%.
d) Calcule el valor esperado de Y cuando X es cero y un intervalo de confianza al 95% para la
media cree usted que el modelo es realista?
e) Analice el histograma de los errores normalizados del modelo 1, qu puede concluir? Afecta
esto la conclusin de la parte d?
f) Para evitar esto usted propone un modelo de regresin por el origen Con cul modelo se
quedara? Por qu?
Problema 3.
El Gerente de RRHH de una empresa de transporte ha recolectado la informacin disponible en la hoja
sueldos del libro que acompaa a los enunciados, describiendo: sueldo de cada operador(chofer) (Y), un
ndice de productividad de los ltimos 3 aos (! ), los aos de servicio(! ), y la cantidad de vehculos
diferentes que cada chofer est certificado para operar(! ). El Gerente quiere hacer un modelo de

15 / 20

Ingeniera Civil Industrial


Estadstica Aplicada 2

Facultad de Ingeniera y Ciencias Geolgicas / Escuela de Ingeniera


2 Semestre 2014


regresin para estimar el sueldo promedio que puede recibir un operador en base a su productividad, aos
de servicio y certificaciones.
a) Si el Gerente quisiera hacer un modelo con hasta dos variables independientes, Cul escogera?
b) Suponga que el Gerente de RRHH decidi hacer una tabla de remuneraciones en base a las tres
variables independientes Le parece una buena idea? Por qu? Interprete el coeficiente ! .
c) Basndose en la decisin del Gerente de RRHH (parte anterior) se ha considerado que el rango de
sueldo que debe recibir un trabajador no puede desviarse del valor esperado del modelo en ms de
0.8 veces la desviacin estndar del error de modelo multilineal.
Cuntos trabajadores estn con sobresueldo? Indique a que observaciones corresponde.
d) El trabajador de la observacin 17 se acerca el Gerente de RRHH para solicitar un aumento de
sueldo argumentando que su sueldo est entre lo ms bajos de la empresa. En base al modelo y al
criterio del Gerente Le parece que debera recibir un aumento de sueldo? de cunto? (3%)
Problema 4.
Un laboratorio bioqumico est estudiando el efecto que produce la variacin en la cantidad de ciertos
nutrientes respecto a lo recomendado internacionalmente, con la tasa de crecimiento de unas bacterias y
su vez cmo ambas afectan el crecimiento de un tipo especial de microalga utilizada en la industria
farmacutica. La hoja Bacterias del libro que acompaa a los enunciados contiene

Y: Tasa de crecimiento de la microalga utilizada en la industria.


R1- R7:variacin respeto a la cantidad recomendada internacionalmente para 7 nutrientes
! ! tasa de crecimiento de las bacterias que interactan con la microalga y los
nutrientes.
Usted debe presentar el mejor modelo que explique la variacin en el crecimiento de las microalgas, para
ello:

a)

Realice una regresin con todas las variables y entregue los valores VIF. Hay problemas de
multicolinealidad?
b) Para solucionar este problema elimin la variable que posea la mayor VIF y reestime el modelo,
repita el proceso hasta verificar que no existe un problema de multicolinealidad, qu variables
elimin?
c) Explique brevemente porque si hubiera eliminado del modelo original las dos variables con el mayor
VIF (parte a) no hubiera obtenido el modelo de la parte b.
d) Con el nuevo modelo realice y entregue el modelo obtenido por eliminacin hacia atrs (BE), con un
nivel de significancia para eliminar de = 0,05.Qu variables fueron eliminadas?
e) Realice una prueba de hiptesis que le permita verificar si es posible eliminar de una vez a todas las
variables que fueron eliminadas en la parte d.

Prueba de Ctedra Primer Semestre curso 2013.
1. La hoja Problema 1 S1_2014 del libro asociado a las ayudantas de este tema incluye las ventas
durante el ltimo ao de diversos accesorios de cocina en un gran centro comercial. Estas ventas estn
expresadas en centenas de miles de pesos chilenos por semana para los ltimos aos.

16 / 20

Ingeniera Civil Industrial


Estadstica Aplicada 2

Facultad de Ingeniera y Ciencias Geolgicas / Escuela de Ingeniera


2 Semestre 2014


a. Estudie la correlacin en las ventas entre los diversos accesorios. Realice las respectivas
pruebas de hiptesis para identificar los accesorios cuyas ventas pueden considerarse
correlacionadas.
b. Establezca una regresin que estudie la evolucin de las ventas de esptulas respecto a la
poblacin de la ciudad de Antofagasta. Realice tambin una regresin que estudie la
evolucin de la venta de esptulas respecto a la de las ventas de vasos. Cul de las dos
regresiones es ms significativa desde un punto de vista estadstico? Qu regresin tiene ms
sentido desde un punto de vista prctico? Explique el por qu de ambas respuestas y utilice el
mayor nmero posible de criterios para justificarlas.
c. Considere una regresin por el origen para la regresin que estudia la venta de esptulas
segn la poblacin de Antofagasta. Determine el parmetro de la regresin y comprela con
la obtenida en el apartado b. Escoja una de las rectas de regresin, exponiendo el motivo que
le lleva a la seleccin y determine un intervalo de prediccin del 99% para el nmero de
esptulas que se espera vender cada mes en caso que la poblacin de Antofagasta alcanzase
los 565.000 habitantes.
Indique claramente la fuente de cada uno de los elementos que intervienen en la construccin
de este intervalo de confianza.
d. Estudie las hiptesis de partida de la regresin que asocia la venta de esptulas con la
poblacin de Antofagasta. Realice un estudio lo ms detallado posible de cada una de ellas
(considere todas las pruebas de hiptesis y grficos de bondad del ajuste que usted conozca y
que sean aplicables) e indique qu pretende verificar en cada una de ellas.
Para cada prueba de hiptesis indique la hiptesis nula, el valor del estadstico utilizado, el
valor crtico y si la hiptesis nula se acepta o se rechaza.
Para cada grfico de bondad, determine si existen diferencias significativas e identifique la
zona del grfico en que aparecen. En caso que las diferencias no sean significativas, indique
la zona del grfico en que aparecen mayores diferencias e identifique las observaciones que
causan estas diferencias.
2. La hoja Problema 2 S1_2014 del libro asociado a las ayudantas de este tema incluye los datos de
un estudio que analiza los diversos factores que influyen en el nmero de horas extra trabajadas al ao
(columna H.Extra) en un centro comercial segn diferentes condicionantes de los trabajadores. Este
estudio se realiz tomando medidas de diferentes trabajadores en diversos aos (columna Ao). El
resto de factores (identificados por el nombre de la columna) son:
S.An.: Salario base del trabajador durante el ao (en dlares).
Hijos: Nmero de hijos del trabajador.
CatProf: Variable categrica que representa la profesional del trabajador: La escala usada
va de 1 (categora ms baja) a 7 (categora ms alta considerada en el estudio)
Casado: Variable que indica si el trabajador est casado (1 indica que s, 0 que no).
Edad: Edad del trabajador.
Ao: Ao en que se recogi la observacin.
a. Estudie un modelo de regresin lineal basado en los predictores S.An. / Hijos / Edad.
Partiendo de los resultados encontrados, estudie la validez de cada estimador de forma
separada y la validez de los estimadores tomados de dos en dos para el modelo seleccionado.
b. Partiendo de las conclusiones del modelo anterior, indique el modelo que recomendara y
estudie las hiptesis de partida de la regresin. Al igual que en la pregunta 1, apartado c,

17 / 20

Ingeniera Civil Industrial


Estadstica Aplicada 2

Facultad de Ingeniera y Ciencias Geolgicas / Escuela de Ingeniera


2 Semestre 2014


realice un estudio detallado de cada una de ellas siguiendo las indicaciones mostradas con
anterioridad.
c. Explore regresiones alternativas utilizando todas las variables explicativas a su disposicin.
Para el modelo escogido realice grficos que analicen los cambios de los residuos con cada
una de las variables explicativas utilizadas.
3. La hoja Problema 3 S1_2014 del libro asociado a las ayudantas de este tema contiene los datos
sobre las ventas anuales dentro del territorio de EE.UU., desde 1970 hasta 1999. Las variables que se
encuentran son las siguientes:

Ventas: ventas anuales de autos al interior de EE.UU. (en unidades)


IPC Transporte: ndice de precios del consumidor para el rubro de transporte
Ingresos: ingresos anuales totales en EE.UU., en billones de dlares
Inters: Tasa de inters bancaria base
a. Realice los grficos de dispersin que considere oportuno entre las variables explicativas y la
variable respuesta que le permitan analizar las relaciones que puede haber entre stas.
b. Estime e interprete un modelo con todas las variables explicativas que relacione las ventas
como variable de respuesta y el ndice de Precios, los Ingresos y el Inters como variables
explicativas. Explique el procedimiento, e interprete el modelo estimado (sus coeficientes).
c. Si para el ao actual se estima que el ndice de precio ser de 140, los ingresos sern de 6.200
billones de USD, y la tasa de inters del 10%, utilice el modelo encontrado en el apartado b)
para estimar las ventas de automviles en EE.UU., en unidades.

Prueba de Recuperativa Primer Semestre curso 2013.


1. La hoja Problema 1 Recuperativa S1_2014 del libro asociado a las ayudantas de este tema contiene
informacin sobre la cantidad de plutonio en un tipo de residuo mdico (variable a explicar) respecto
a la tasa de partculas alpha detectadas en un contador Geiger por segundo (variable explicativa).
a. Estudie un modelo de regresin para explicar la relacin. Realice todas las conversiones
que considere oportunas y presente grficas y tests de hiptesis para comprobar la
normalidad de los residuos
b. Realice una previsin de valor de cantidad de plutonio si la tasa de partculas alpha
detectada fuera de 0,071, y determine un intervalo de confianza sobre el valor
pronosticado, mostrando detalladamente los elementos utilizados para calcular este
intervalo.
c. Determine un estimador de la varianza del coeficiente asociado a la variable explicativa.
Detalle cada elemento de la frmula utilizada para realizar el clculo, incluyendo una
explicacin detallada del origen de los valores utilizados en la frmula.
2. La hoja Problema 2 Recuperativa S1_2014 del libro asociado a las ayudantas de este tema contiene
informacin sobre un experimento realizado en la calidad del pavimento de las carreteras segn el
asfalto utilizado originalmente para realizar el asfaltado.
El modelo pretende explicar la variable prof. Surco. (cm. Por milln de pasadas de ruedas). Esta
variable representa el desgaste del asfalto (cuanto ms pequeo sea el valor mejor). El resto de
variables son variables explicativas de tipo cuantitativo.

18 / 20

Ingeniera Civil Industrial


Estadstica Aplicada 2

Facultad de Ingeniera y Ciencias Geolgicas / Escuela de Ingeniera


2 Semestre 2014


a. Realice los grficos de dispersin que considere oportunos entre variable explicada y las
variables explicativas. Estos grficos deben permitirle analizar las relaciones que pueden
existir entre las variables explicativas y la variable explicada. Explique las grficas.
b. Estudie la posibilidad de hacer transformaciones tanto en las variables explicativas como
en la variable respuesta. Explique las transformaciones que propone y justifique su
eleccin (o la decisin de no usarlas).
c. Estime e interprete un modelo con todas las variables explicativas. Explique los defectos
que cree que tiene el modelo propuesto.
d. Determine un modelo que considere nicamente un subconjunto de variables que
considere conveniente. Para ello utilice diversos criterios y mtodos expuestos en la
asignatura.
e. Estudie los residuos del modelo escogido en el apartado d) y determine si los residuos se
comportan adecuadamente. Utilice todos los grficos y pruebas que estime oportunos.
3. La hoja Problema 3 Recuperativa S1_2014 del libro asociado a las ayudantas de este tema incluye
los datos de referentes a los resultados en las pruebas escolares de nios americanos. Se dispone de
200 observaciones y cada observacin tiene identificadas los siguientes datos:
Id: Un cdigo para identificar al alumno
Sexo: 0 varn, 1 hembra
Etnia: 1 hispano, 2 asitico, 3 afro-americano, 4 blanco
Ses: Status socioeconmico, 1 bajo, 2 medio y 3 alto
Tipo Escuela: 1 pblica, 2 privada
Programa: Tipo de programa educativo, 1 general, 2 acadmico y 3 vocacional
Lectura: Nota estandarizada en las pruebas de lectura
Escritura: Nota estandarizada en las pruebas de escritura
Matemticas: Nota estandarizada en las pruebas de matemticas
Ciencia. Nota estandarizada en la pruebas de ciencias
Sociales: Nota estandarizada en las pruebas de ciencias sociales
a. Estime e interprete un modelo que explique la nota de matemticas con todas las
variables explicativas. Determine el modelo que considere ms adecuado con el
subconjunto de variables que estime conveniente, utilizando los criterios expuestos en la
asignatura.
b. Realice un estudio de los residuos con el objeto de verificar que las hiptesis en las que
se basa el modelo de regresin lineal escogida en el apartado a) se cumplen.
c. Determine si las variables no educativas (sexo, etnia, ses) son relevantes para estimar la
nota de un estudiante.
d. Utilizando el modelo encontrado en el apartado a), determine el valor esperado de la nota
de matemticas para un varn, hispano, de status socioeconmico medio que asiste a una
escuela pblica con un programa general y cuya nota de lectura, escritura ciencia y
sociales son respectivamente de 65, 70, 75 y 70. Cree que el valor esperado es
significativo? Justifique su respuesta a la pregunta realizada.
Examen Final Semestre 1. Curso 2014
1. En la industria maderera es beneficioso estimar la produccin de madera que se podr obtener del
rbol basndose en las medidas que se toman de ste antes de cortarlo. La hoja Arboles del fichero
Excel asociado a las ayudantas contiene cuatro de estas variables que fueron tomadas para varios
rboles que posteriormente fueron cortados y para los que se midi el peso que finalmente se pudo
obtener. Las variables son:

19 / 20

Ingeniera Civil Industrial


Estadstica Aplicada 2

Facultad de Ingeniera y Ciencias Geolgicas / Escuela de Ingeniera


2 Semestre 2014


-
-
-
-
-

Dimetro: Dimetro del rbol a metro y medio de la base, en pulgadas.


Altura: Altura del rbol, en pies (1 pie son 12 pulgadas).
Edad: Edad del rbol, en aos.
Gravedad: Peso especfico de una muestra de la madera del rbol (libras/pie3)
Peso: Peso final del rbol una vez cortado, en libras.

a) Realice una regresin lineal que relacione el peso con el resto de variables. Represente los
residuos normalizados respecto a cada una de las variables (tanto explicativas como explicada) y
determine si basndose en estos grficos, y el resultado de la regresin lineal, el modelo puede
considerarse adecuado.
b) Sugiera y evale un modelo alternativo que ofrezca una estimacin del peso ms adecuada (nota:
se sugiere considerar la relacin fsica del peso con otras variables). Compruebe la normalidad de
los residuos de ese modelo utilizando varios tests estadsticos ofrecidos por Minitab.

20 / 20