You are on page 1of 8

Estadstica Tcnica (71.

03)
Preguntas Tericas de Exmenes Integradores

Explique qu datos necesita y cmo se calcula el tamao de muestra para obtener el intervalo de
confianza para la varianza de una poblacin normal.

Cul es la propiedad indeseada de la suma de cuadrados residual en el anlisis exploratorio de


regresin? Cuando se agrega una variable, cmo se determina si su aporte es significativo? Explique
qu es el PRESS.

Propiedad indeseable de Q: la suma de cuadrados residual Q disminuye necesariamente al agregar


variables, o sea que R2 necesariamente aumenta aunque las variables agregadas no tengan relacin con
las respuesta.

Entonces, un valor alto del coeficiente de determinacin mltiple (R2) es condicin necesaria pero no
suficiente para un buen ajuste.

Cuando se agrega una variable, si S2 disminuye la variable aport informacin, si S2 aumenta la



variable aport ruido. 2 =

PRESS (Prediction Sum of Squares): es una medida de la capacidad predictiva del modelo. A menor
PRESS, el modelo dar mejores pronsticos.

Dada una tabla de datos con las variables Y, X1, X2, X3, X4, X5, cuntos modelos pueden
examinarse?

2k - 1 = 25 - 1 = 31 modelos.

En qu tipo de poblaciones conviene aplicar el muestreo estratificado? Qu procedimientos hay


para la estratificacin de una poblacin? Cmo deben ser internamente los estratos y como deben
ser entre s?

Conviene estratificar una poblacin cuando se advierte una elevada heterogeneidad entre sus unidades
experimentales, con respecto a la variable que se desea relevar.

La estratificacin de una poblacin puede estar dada en forma natural:


Zonas geogrficas para una investigacin de mercado.
Hombres y mujeres para una encuesta sobre un tipo de gaseosas.
Distintos tipos de clientes de una empresa.

Tambin es posible estratificar una poblacin en funcin de los valores de una variables concomitante.
Debe tratarse que cada estrato sea internamente lo ms homogneo posible, es decir, que su dispersin
sea mnima.

Se desea estimar el total desconocido (N) de una poblacin. Se capturan R individuos y se les coloca
una marca indeleble. Luego se capturan n individuos y se cuentan los r (entre los n) que presentan la
marca. Explique cmo calcula la estimacin puntual y el intervalo de confianza para N.


= =



Aunque N ser muy grande para valores pequeos de r, y su esperanza no existir cuando r sea 0.
Entonces, se usa el siguiente estimador:

( + 1)( + 1)
=

+ 1


Sea = la estimacin de 1 2 ( ) + 1 2 ( )
Se estima la varianza de y se reemplaza a N por su estimacin:


1 1 1
2 ( )
= ( ) =
2
; = 1 2 ( )

Una sola de las siguientes afirmaciones es correcta. Indique cul es fundamentando la respuesta. En
el modelo lineal general de regresin:
a) Conviene que haya multicolinealidad
b) No conviene que haya multicolinealidad
c) Las variables independientes se tratan como aleatorias
d) La variable dependiente no es aleatoria

En el problema de comparacin de p medias, el cuadrado medio entre muestras (o cuadrado medio


de los tratamientos):
a) Es un estimador siempre sesgado de la varianza residual
b) Es un estimador fuertemente correlacionado con el cuadrado medio intra muestras
c) Es un estimador siempre insesgado de la varianza residual
d) Es un estimador cuyo sesgo depende del cumplimiento o no de la igualdad entre las p medias

2
= 2 + 1 ( )2 Si H 0 ) es verdadera, las medias son todas iguales y el segundo
trmino se anula.
En la distribucin conjunta normal bidimensional:
a) Las distribuciones condicionales pueden ser o no normales
b) Slo si las variables son independientes, su combinacin lineal tiene distribucin normal
c) Slo en este caso la incorrelacin implica la independencia
d) Slo en este caso la independencia implica la incorrelacin

y/x = y + *y/x*(x-x)

Si = 0, entonces y/x = y, con lo cual x e y son independientes. Tenemos as que en este nico
caso la incorrelacin implica la independencia.

La duracin de una pieza que falla por fatiga tiene distribucin (elegir opcin). Aplicaciones de las
otras distribuciones.
a) Exponencial
b) Weibull
c) Beta
d) Fisher Snedecor

Exponencial: fallas de una pieza que constituyen un proceso de Poisson, siempre que se produzcan por
causas exclusivamente aleatorias, no por desgaste ni por fatiga (fusible de luz, chip de memoria RAM).
Beta: para algunas variables con dominio acotado, como ndices o porcentajes. Tambin se usa para
facilitar el clculo numrico de otras distribuciones.
Fisher Snedecor: ensayo de comparacin de varianzas para determinar si un caso de comparacin de
medias es homocedstico o heterocedstico.

En el problema de comparacin de dos medias con varianzas poblacionales desconocidas, hay un


caso en que hay que amalgamar las varianzas, debido a que:
a) Las varianzas desconocidas de las poblaciones son distintas
b) Las varianzas de las poblaciones son iguales
c) Los tamaos de las muestras son distintos
d) Los tamaos de las muestras son iguales

Cada una de las siguientes variables responde a una de las distribuciones dadas:
a) Resistencia de rotura de muestras de un material --> Normal
b) Consumo de energa elctrica de los habitantes de una ciudad --> Lognormal
c) Varianza muestral en muestras de Poblaciones Normales --> Gamma
d) Vida de seres humanos de una poblacin dada --> Gumbel del mnimo

1) Normal; 2) Lognormal; 3) Gumbel del mnimo; 4) Exponencial; 5) Gumbel del mximo; 6)


Gamma; 7) Poisson
Tablas de contingencia, decir cual es verdadera:
a) La hiptesis que se ensaya es que la columnas y filas son independientes
b) La hiptesis que se ensaya es que la columnas y filas son dependientes
c) Las frecuencias observadas no necesariamente son enteras, pueden ser reales
d) ---------------

Cul de los siguientes se usan como complemento de ANOVA? Para qu casos se usan los dems?
a) Welch
b) Tukey
c) -------
d) -------

Cmo llegar a la frmula para calcular "n" en inferencia sobre la media, teniendo como datos , ,
1, 2.

Cundo se utiliza el test de Welch?

Se utiliza en casos de comparacin de medias de poblaciones con varianzas desconocidas y desiguales.


Sirve para determinar los grados de libertad de la t de Student usada en el ensayo.

En problemas de estimacin, un inconveniente que se presenta con frecuencia es que el tamao de la


muestra depende una caracterstica muestral, hecho que se soluciona adoptando una estimacin
subjetiva o proveniente de una muestra piloto. Indique cul (solo uno) de los siguientes casos no
presenta tal inconveniente:
Intervalo de confianza para:
a) La porcin de xitos de un proceso de Bernoulli,
b) La tasa de fallas de un proceso a la Poisson (muestra a la Gamma)
c) La tasa de fallas de un proceso a la Poisson (muestra a la Poisson)
d) La media de una poblacin Normal con desvo desconocido

Explique el procedimiento para obtener el tamao de muestra global (n) en el muestreo estratificado
y luego cmo debe distribuirse el tamao de los estratos (n = n 1 + n 2 + + n i ), o sea cmo se
calculan los n i a efectos de lograr una precisin o error de estimacin prefijado.

En el muestreo ptimo, se minimiza el:


a) Tamao de muestra total
b) Sesgo del estimador de la media
c) Costo total de muestreo para una varianza D2( ) dada
d) Error de estimacin

Minimiza la varianza del estimador de la media.


Explique qu es la multicolinealidad, cmo se detecta, qu consecuencias trae y cmo se soluciona.

Llamamos multicolinealidad a la existencia de asociaciones lineales aproximadas entre los datos de las
variables explicativas.

Cmo se detecta: la multicolinealidad en los datos conlleva errores muestrales altos para los
coeficientes de regresin y, consecuentemente, pruebas no significativas.

La multicolinealidad puede producir signos contrarios a su naturaleza en los coeficientes de las


variables explicativas.

Para detectarla, tambin se puede hacer uso de la matriz de correlaciones. Su determinante cumple
0 1, el 0 corresponde a la multicolinealidad perfecta y el valor 1 a la ausencia absoluta de
multicolinealidad (esta ausencia se denomina ortogonalidad, pero rara vez se presenta en la prctica).
El umbral es < 0,1, si esto ocurre se sospecha multicolinealidad severa en los datos.
El DET tiene una propiedad importante: al agregar una variable al modelo, necesariamente disminuye,
es decir que se agrega algo de multicolinealidad.

Otras consecuencias y solucin: como consecuencia de la multicolinealidad, puede ocurrir que un


coeficiente de regresin no resulte significativo, an en presencia de un R2 alto, lo cual puede llevar a
eliminar la variable correspondiente, a efectos de mejorar el ajuste. Pero esto no implica que dicha
variable sea irrelevante, nicamente implica que su informacin est contenida en otra u otras
variables del sistema.

Si se desea retirar una o ms variables del modelo, ser necesario conocer cul es la ms perniciosa.
1
Para esto se utilizan los VIF (Factores de Inflacin de la Varianza) = 1 2 . Si un VIF es mayor

que 10 (o sea R i 2 > 0,9), implica que la variable correspondiente es perturbadora en lo que a la
multicolinealidad respecta. Si hay una o ms variables con VIF mayores que 10, convendr eliminar la
que tiene el VIF mayor.

Cuando hay multicolinealidad, el sistema se vuelve muy sensible a la inclusin de nuevos datos,
debido a la mala estimacin de sus parmetros.
Adems, los datos de las variables explicativas que se utilicen para la prediccin, debern estar dentro
del intervalo de los datos originales. Es decir, en presencia de multicolinealidad no debe extrapolarse.

Naturaleza de la multicolinealidad: es un problema muestral, o sea est contenida en los datos, y es


independiente del planteo terico del modelo.
Siempre habr algo de multicolinealidad en los datos, pero el problema ser si est presente en una
medida que pueda traer los inconvenientes sealados.
La varianza muestra de una poblacin Normal tiene distribucin:
a) Chi-cuadrado
b) Gamma
c) t de Student
d) Normal

La distribucin de Weibull tiene:


a) Siempre asimetra negativa
b) Siempre asimetra positiva
c) Es simtrica
d) Su simetra depende de los parmetros

La distribucin de Pareto es:


a) Siempre asimtrica positiva
b) Siempre asimtrica negativa
c) Siempre simtrica
d) La simetra depende de los parmetros

La duracin de una pieza que falla por causas exclusivamente aleatorias tiene (solo una opcin es
correcta, indique aplicaciones de las otras) distribucin de:
a) Weibull
b) Pareto
c) Gamma
d) Lognormal
e) Exponencial

Un estimador es consistente si:


a) Su varianza es mnima
b) Su esperanza matemtica coincide con el valor del parmetro
c) Su distribucin es simtrica
d) Al aumentar el tamao de la muestra se aproxima cada vez ms al valor del parmetro

Un estimador es insesgado si:


a) Al aumentar el tamao de la muestra se aproxima cada vez ms al valor del parmetro
b) Su varianza es mnima
c) Su distribucin es simtrica
d) Ninguna de las anteriores
En el problema de comparacin de 2 medias de poblaciones Normales, el ensayo de igualdad de
varianzas se aplica en caso de varianzas poblacionales (fundamentar respuesta):
a) Desconocidas e iguales
b) Conocidas y distintas
c) Desconocidas y distintas
d) Desconocidas presumiblemente iguales

En el anlisis de la varianza (V o F y justificar):


a) Las medias de todas las poblaciones deber ser normales (V)
b) Las medias de todas las observaciones deben ser normales (F)
c) Las medias de las poblaciones deben ser iguales (F)
d) Las varianzas de las poblaciones deben ser iguales (V)

a) y d): los supuestos para el anlisis son homocedasticidad y normalidad de las variables.
c): es la hiptesis a ensayar, puede rechazarse o no.
b): las observaciones son datos.

Al agregar una variable al modelo de regresin mltiple, el DET:


a) Necesariamente aumenta
b) Necesariamente disminuye
c) Aumenta o disminuye
d) No se modifica

En un problema de regresin lineal mltiple con multicolinealidad severa, puede usted eliminar dos
variables explicativas simultneamente? Justifique.

No es aconsejable eliminar 2 o ms variables explicativas simultneamente, dado que stas podran


estar conteniendo la misma informacin (por multicolinealidad) y al eliminarlas al mismo tiempo, esa
informacin se perdera. Se debe eliminar primero la variable con VIF ms alto, la ms perniciosa, y
evaluar nuevamente la multicolinealidad antes de eliminar otra, si fuera necesario.

En una poblacin finita, un experto estadstico dise un muestreo, cuya operatoria supervis
personalmente, a efectos de estimar la media de una variable y su intervalo de confianza. Tiempo
despus, se pudo efectuar el relevamiento de toda la poblacin y se comprob que el intervalo
calculado anteriormente no contena a la media verdadera. Por qu pudo haber ocurrido esto?
a) Por la aleatoriedad de la muestra
b) Porque la muestra fue mal tomada
c) Porque la muestra era demasiado pequea, o sea con informacin pobre
d) Porque la muestra era demasiado grande, o sea que dio un intervalo muy angosto

2 ( 0 ) ( ) 2
Demostrar que (| 0 ) = ( 0 )
(0 )
0
La multicolinealidad se define como:
a) La existencia de asociaciones lineales entre las variables Xi
b) La existencia de asociaciones lineales aproximadas entre las variables Xi
c) La existencia de asociaciones lineales entre los datos de las variables Xi
d) La existencia de asociaciones lineales aproximadas entre los datos de las variables Xi

El tiempo que transcurre hasta que llegan 5 personas a una fila (diga cul es la correcta y d
aplicaciones de las dems):
a) Weibull
b) Normal
c) Exponencial
d) Gamma

En los modelos lineales de regresin:


a) Y i es una variable aleatoria
b) S no es variable
c) --------
d) --------

Para el modelo Y = 0 + 1 X + explique cmo efecta la estimacin de los parmetros.

Explique qu datos necesita y cmo se calcula el tamao de muestra, para obtener el intervalo de
confianza para la varianza de una poblacin normal.