Professional Documents
Culture Documents
Utiliza el método de los "mínimos cuadrados" para ajustar una línea a una serie de
observaciones. Puede utilizar esta herramienta para analizar la forma en que los valores
de una o más variables independientes afectan a una variable dependiente; por ejemplo,
en el rendimiento de un atleta inciden varios factores: la edad, la estatura y el peso entre
otros. Basándose en un conjunto de datos de rendimiento, la regresión determinará la
incidencia de cada uno de los factores en la medición del rendimiento y podrán utilizarse
estos resultados para predecir el rendimiento de un atleta nuevo no sometido a ninguna
prueba.
En un Análisis de Regresión simple existe una variable respuesta o dependiente (y) que
puede ser el número de especies, la abundancia o la presencia-ausencia de una sola
especie y una variable explicativa o independiente (x).
a) Formule las hipótesis que se hacen sobre los parámetros del modelo y explique
la consecuencia de aceptar o rechazar cada una de éstas.
Prueba de hipótesis para el parámetro β0 (que indica la intersección con el eje y).
H0: β0 = 0
HA: β0 ≠ 0
Al aceptar la H0: β0 = 0, nos indica que nuestra ecuación nos quedaría de la siguiente
manera: yi= β1xi y por lo tanto, al graficar nuestra recta de regresión ésta pasa por el
origen formando respecto al eje de las abscisas, un ángulo de 45°.
Con este resultado, no podemos considerar que nuestro modelo de regresión sea
confiable para predecir resultados debido a que no nos está mostrando una relación de
significancia entre nuestros parámetros.
Al aceptar nuestra H0: β1 = 0, estamos considerando un valor nulo para nuestra pendiente,
y la ecuación de regresión toma la siguiente forma: yi= β0 + (0) xi es decir, el último
término queda eliminado y por lo tanto, a la hora de graficarlo nos queda de la siguiente
manera:
El resultado de la variable dependiente toma el valor constante de nuestro parámetro β0 y
lo que nos queda no es una recta de regresión lineal, ya que como en el caso anterior, no
nos plantea una relación para poder predecir con cierta confianza valores para nuestra
variable dependiente y.
b) Anote en forma detallada el estadístico de prueba, t0, para cada una de las
hipótesis y dé una explicación de por qué sirven para probar las hipótesis. Es
decir, determine cuándo estos estadísticos tienen valores pequeños o grandes, y
la decisión que se tomaría con respecto a su hipótesis correspondiente.
Un estadístico de prueba es aquel calculado de una sola muestra aleatoria simple tomada
de la población de interés, en una prueba de hipótesis para establecer la verdad o
falsedad de la hipótesis nula.
^β 1
t 0=
√ CMε /Sxx
Para obtener la fórmula de éste estadístico, se hace un análisis respecto a la media y
varianza del parámetro β1 y se considera que tienen una distribución normal. Para calcular
la desviación estándar del estimador se hace una estimación dada por:
CMε
^ β 1=
√V
√ Sxx
Y recibe el nombre de error estándar de β1. Nótese que esta igualdad se toma en cuenta
para el cálculo del estadístico.
La distribución t-student se utiliza para muestras de n≤30. También es importante
mencionar que como nuestra HA contiene desviaciones desde la hipótesis nula en
cualquier dirección (por lo de β1≠0) se denomina hipótesis de dos colas, y he aquí donde
se aplica la distribución t-student.
β^ 0
t 0=
1 x́ 2
√ CMε [ +
n Sxx ]
Como en el caso anterior, para formular el estadístico de prueba se tomó en cuenta que el
parámetro de β0 sigue una distribución normal considerando su media y varianza.
Entonces una estimación de esta última es:
2 2
^ ( ^β 0 ) =σ^ 2 1 + x́ =CMε 1 + x́
V [
n Sxx ]
n Sxx[ ]
De igual manera notamos que esto se toma en cuenta en la estructura del estadístico de
prueba.
En ambos casos para saber si aceptamos o rechazamos nuestra H0, representamos nuestro
criterio de rechazo de la siguiente manera:
Para el análisis de varianza, sólo utilizamos la prueba de hipótesis para el estimador β1,
como ya sabemos, la pendiente.
H0: β1 = 0
HA: β1 ≠ 0
SCR/1 CMR
F0 = =
SCE/(n−2) CME
La distribución Fisher, se utiliza para probar si dos muestras provienen de poblaciones que
poseen varianzas iguales. Esta prueba es útil para determinar si una población normal
tiene una mayor variación que la otra. Y como al principio se menciona que los datos del
problema están sometidos a un análisis de varianza, es por eso que debemos utilizar este
estadístico de prueba.
5.-Con respecto a los intervalos de confianza para la recta y los intervalos de predicción,
señale ¿Cómo se obtienen y para que se aplica cada uno de ellos?
Un intervalo de confianza está definido por dos valores entre los cuales se encuentra el
valor del parámetro con un determinado nivel de confianza que se denota (1 –α) y que se
aplica para mostrar los valores entre los cuales se puede encontrar nuestro estimador
puntual, para dar una idea de la confiabilidad de nuestro estimador.
Entre más alejado del valor medio es xi, mayores son los intervalos de confianza y de
predicción.
Los intervalos tienen la propiedad de ser de diferente ancho, según el valor de X, siendo
más angostos cuando X es igual al promedio, ensanchándose a medida que nos alejamos
del promedio. Cuando se sale del rango de los datos, se ensanchan más fuertemente. Esto
significa que mientras más nos alejamos del centro de los valores de la variable X, más
imprecisas serán nuestras estimaciones del valor de la variable Y, lo que parece razonable.
Generalmente, para el caso de k variables independientes X1, X2,....,Xk, la media de Y| X1, X2,....,XK
está dada por el modelo de regresión lineal múltiple
donde cada coeficiente de regresión i se estima por bi de los datos de la muestra con el uso del
método de mínimos cuadrados. Con 4 variables (x1, x2, x3, x4) y 12 observaciones (n=12) El
procedimiento matemático es mediante el ajuste del modelo de regresión lineal múltiple:
. Al utilizar el concepto de mínimos cuadrados para llegar a las estimaciones 0, 1, 2, 3, 4,
minimizamos la expresión:
Al diferenciar SSE a su vez con respecto a 0, 1, 2, 3, 4, e igualar a cero:
Sustituyendo n con 12 y k con 4, estas ecuaciones se pueden resolver para a 0, 1, 2, 3, 4
mediante cualquier método apropiado para resolver sistemas de ecuaciones lineales.
b) Denote el modelo en forma matricial: y=X + exprese con precisión todas las
matrices involucradas en el modelo.
De manera resumida:
y1 1 x 11 x 12 x 13 x 14 b0 e1
Y=
[] [
y2
y3
:
y 12
1 x 21 x 22 x 23
X = 1 x 32
: :
x 32 x 33
: :
1 x 121 x 122 x 123
x 24
x 34
:
x 124
] [] []
=
b1
b2
b3
b4
e2
e 3
:
e 12
La matriz de datos X representa en realidad los valores de las variables independientes ya sean en
cuadrados, cubos, productos cruzados u otras funciones de las variables de predicción. Se observa
que la primera columna de la matriz X es una columna de unos, por tanto, estamos insertando un
valor de x, específicamente x0, como coeficiente de b0. Donde x0 siempre es igual a 1.
La siguiente matriz representa los estimadores del modelo, para cada parámetro de la matriz hay
una columna en la matriz X.
Entonces la solución de mínimos cuadrados para la estimación de 0, 1, 2, 3, 4 , implica encontrar
b para la que
=(X’X)-1 X’Y
e) De la expresión del estadístico de prueba, F0, para la hipótesis anterior, así como una
explicación racional de por qué funciona como estadístico de prueba, es decir, vea
cuando este estadístico tiene valores grandes o pequeños, y lo que eso significa en
términos de calidad de ajuste.
F0 = CMR/CME
La hipótesis nula anterior se rechaza si: F0 > F (α, 4, 7)
f) Formule las hipótesis sobre los parámetros individuales del modelo y comente que
significa aceptar o rechazar cada una de estas.
H0 : j = 0
HA : j ≠ 0 j = 1, 2, 3, 4
Aceptar la hipótesis nula, para cualquier estimador, indica que el mismo no contribuye
esencialmente a predecir Y en general, en caso contrario, rechazar hipótesis nula y por
consiguiente aceptar la hipótesis alternativa, indica que el parámetro Bj es significativo.
g) Proporcione la expresión para el estadístico de prueba para el caso anterior y
comente por que estos estadísticos funcionan como criterio de aceptación o
rechazo.
Bj
t0 =
√ CMe Cj +1 , j+ 1
h) ¿Cuáles son los riesgos de hacer predicciones fuera de la región de los datos
originales?
Fuera de la región, los aspectos físicos o sociales que están atrás de todo modelo de regresión
pueden empezar a actuar de otra forma, muy fuera de la región de los datos originales empiezan a
actuar otros fenómenos no considerados en el modelo original. Este riesgo es más grande en el
análisis de regresión múltiple, ya que se trabaja con regiones multidimensionales.