You are on page 1of 15

ESTADISTICA I

PROFESOR WALTER LOPEZ


MDULO 11 Estimacin, Hiptesis y Regresin Lineal

ESTIMACIN DE LMITES
Para una poblacin con media y variancia 2, la distribucin de muestreo de
las medias de todas las muestras posibles de tamao n obtenidas de una
poblacin tendr una distribucin normal aproximada con la media de la
distribucin de muestreo igual a y la variancia igual a 2/ n si se supone
que el tamao de la muestra es suficientemente grande.
4.3 PRUEBA DE HIPTESIS PARA UNA MEDIA
Qu es una hiptesis?
Hiptesis: enunciado acerca de una poblacin elaborada con el
propsito de ponerse a prueba.
Ejemplos de hiptesis acerca de un parmetro de poblacin son:
la media mensual de ingresos para analistas de sistemas es
$3625,
el 20% de los delincuentes juveniles son capturados y
sentenciados a prisin.
CONCEPTO DE PRUEBA DE HIPTESIS
Afirmacin acerca de los parmetros de la poblacin.

ESTADISTICA I
PROFESOR WALTER LOPEZ
Etapas Bsicas en Pruebas de Hiptesis.
Al realizar pruebas de hiptesis, se parte de un valor supuesto (hipottico) en
parmetro poblacional. Despus de recolectar una muestra aleatoria, se
compara la estadstica muestral, as como la media (x), con el parmetro
hipottico, se compara con una supuesta media poblacional (). Despus se
acepta o se rechaza el valor hipottico, segn proceda. Se rechaza el valor
hipottico slo si el resultado muestral resulta muy poco probable cuando la
hiptesis es cierta.
Etapa 1.- Planear la hiptesis nula y la hiptesis alternativa. La hiptesis nula
(H0) es el valor hipottico del parmetro que se compra con el resultado
muestral resulta muy poco probable cuando la hiptesis es cierta.
Etapa 2.- Especificar el nivel de significancia que se va a utilizar. El nivel de
significancia del 5%, entonces se rechaza la hiptesis nula solamente si el
resultado muestral es tan diferente del valor hipottico que una diferencia de esa
magnitud o mayor, pudiera ocurrir aleatoria mente con una probabilidad de 1.05
o menos.
Etapa 3.- Elegir la estadstica de prueba. La estadstica de prueba puede ser la
estadstica muestral (el estimador no segado del parmetro que se prueba) o
una versin transformada de esa estadstica muestral. Por ejemplo, para probar
el valor hipottico de una media poblacional, se toma la media de una muestra

ESTADISTICA I
PROFESOR WALTER LOPEZ
aleatoria de esa distribucin normal, entonces es comn que se transforme la
media en un valor z el cual, a su vez, sirve como estadstica de prueba.
Definiciones
Hiptesis nula H0: afirmacin acerca del valor de un parmetro poblacional.
Hiptesis alterna H1: afirmacin que se aceptar si los datos muestrales
proporcionan evidencia de que la hiptesis nula es falsa.
Nivel de significancia: probabilidad de rechazar la hiptesis nula cuando es
verdadera.
Error Tipo I: rechazar la hiptesis nula cuando en realidad es verdadera.
Error Tipo II: aceptar la hiptesis nula cuando en realidad es falsa.
Estadstico de prueba: valor obtenido a partir de la informacin muestral, se
utiliza para determinar si se rechaza o no la hiptesis.
Valor crtico: el punto que divide la regin de aceptacin y la regin de rechazo
de la hiptesis nula.
Valor p en la prueba de hiptesis
Valor p: es la probabilidad de observar un valor muestral tan extremo o ms que
el valor observado, dado que la hiptesis nula es verdadera.
Si el valor p es menor que el nivel de significancia, H0 se rechaza.
Si el valor p es mayor que el nivel de significancia, H0 no se rechaza
3

ESTADISTICA I
PROFESOR WALTER LOPEZ
UNIDAD V ANLISIS DE REGRESIN
5.1 CONCEPTOS BSICOS DE SERIES DE TIEMPO
Se llama Series de Tiempo a un conjunto de mediciones de cierto fenmeno o
experimento registrado secuencialmente en el tiempo. El primer paso para
analizar una serie de tiempo es graficarla, esto permite: identificar la tendencia,
la estacionalidad, las variaciones irregulares (componente aleatoria). Un modelo
clsico para una serie de tiempo, puede ser expresada como suma o producto
de tres componentes: tendencia, estacional y un trmino de error aleatorio.
En adelante se estudiar como construir un modelo para explicar la estructura y
prever la evolucin de una variable que observamos a lo largo del tiempo.
5.2 METODO DE MINIMOS CUADRADOS
Modelo de minimos cuadrados ordinarios
El anlisis de regresin trata de la dependencia de las variables explicativas, con
el objeto de estimar y/o predecir la media o valor promedio poblacional de la
variable dependiente en trminos de los valores conocidos o fijos de las
variables explicativas.
Se trata de encontrar una mtodo para hallar una recta que se ajuste de una
manera adecuada a la nube de puntos definida por todos los pares de valores
muestrales (Xi,Yi).

ESTADISTICA I
PROFESOR WALTER LOPEZ
Este mtodo de estimacin se fundamenta en una serie de supuestos, los que
hacen posible que los
estimadores poblacionales que se obtienen a partir de una muestra, adquieran
propiedades que permitan sealar que los estimadores obtenidos sean los
mejores.
Pues bien, el mtodo de los mnimos cuadrados ordinarios consiste en hacer
mnima la suma de los cuadrados residuales, es decir lo que tenemos que hacer
es hallar los estimadores que hagan que esta suma sea lo ms pequea posible.
Los supuestos del mtodo MCO son los que se presentan a continuacin:
Supuesto 1
El modelo de regresin es lineal en los parmetros:
Yi = _ + _*Xi +_i
La linealidad de los parmetros se refiere a que los _s son elevados solamente
a la primera potencia.
Supuesto 2
Los valores que toma el regresor X son considerados fijos en muestreo repetido.
Esto quiere decir que la variable X se considera no estocstica. Este supuesto
implica que el anlisis de regresin es un anlisis condicionado a los valores
dados del (los) regresores.
5

ESTADISTICA I
PROFESOR WALTER LOPEZ
Supuesto 3
Dado el valor de X, el valor esperado del trmino aleatorio de perturbacin _i es
cero.
E ( _i/Xi ) = 0
Cada poblacin de Y corresponde a un X dado, est distribuida alrededor de los
valores de su media con algunos valores de Y por encima y otros por debajo de
sta. Las distancias por encima y por debajo de los valores medios son los
errores, y la ecuacin antes sealada requiere que en promedio estos valores
sean cero.
Supuesto 4
Homoscedasticidad. Dado el valor de X, la varianza de _i es la misma para todas
las observaciones.
Var (_i/Xi ) = E (_i E(_i)/ Xi)2
= E (_i2/Xi )
=_
Esta ecuacin seala que la varianza de las perturbaciones para cada Xi es
algn nmero positivo igual a _. Homoscedastidad significa igual dispersin, en
otras palabras significa que las poblaciones Y correspondientes a diversos
valores de X tienen la misma varianza. Por el contrario, se dice que existe
6

ESTADISTICA I
PROFESOR WALTER LOPEZ
heteroscedasticidad cuando la varianza poblacional, ya no es la misma en cada
muestra. El supuesto de homoscedasticidad est indicando que todos los
valores de Y correspondientes a diversos valores de X son igualmente
importantes.
Supuesto 5
Dados dos valores cualquiera de X, Xi y Xj ( i " j ), la correlacin entre _i y _j
cualquiera ( i " j ) es cero.
Cov ( _i, _j / Xi, Xj ) = E (_i E(_i)/ Xi) (_j E (_j/Xj ))
= E (_i/Xi ) (_j/Xj )
=0
Este supuesto indica que las perturbaciones no estn correlacionadas. Esto
significa que los errores no siguen patrones sistemticos. La implicancia del no
cumplimiento de este supuesto (existencia de autocorrelacin) implicara que Yt
no depende tan slo de Xt sino tambin de _t1, puesto que _t1 determina en
cierta forma a _t.
Supuesto 6
La covarianza entre _i y Xi es cero, formalmente:
Cov (_i/Xi ) = E (_i E(_i)) (Xi E(Xi))

ESTADISTICA I
PROFESOR WALTER LOPEZ
= E (_i (Xi E(Xi)))
= E (_i Xi E(Xi) E(_i))
= E (_i Xi)
=0
Este supuesto indica que la variable X y las perturbaciones no estn
correlacionadas. Si X y _ estuvieran relacionadas, no podran realizarse
inferencias sobre el comportamiento de la variable endgena ante cambios en
las variables explicativas.
Supuesto 7
El nmero de observaciones debe ser mayor que el nmero de parmetros a
estimar.
Supuesto 8
Debe existir variabilidad en los valores de X. No todos los valores de una
muestra dada deben ser
iguales.Tcnicamente la varianza de X debe ser un nmero finito positivo. Si
todos los valores de X son idnticos entonces se hace imposible la estimacin
de los parmetros.
Supuesto 9

ESTADISTICA I
PROFESOR WALTER LOPEZ
El modelo de regresin debe ser correctamente especificado, esto indica que no
existe ningn en el modelo a estimar. La especificacin incorrecta o la omisin
de variables importantes, harn muy cuestionable la validez de la interpretacin
de la regresin estimada.
Supuesto 10
No hay relaciones perfectamente lineales entre las variables explicativas. No
existe multicolinealidad perfecta. Aunque todas las variables econmicas
muestran algn grado de relacin entre s, ello no produce excesivas
dificultades, excepto cuando se llega a una situacin de dependencia total, que
es lo que se excluy al afirmar que las variables explicativas son linealmente
dependientes.

Estadstica Inferencial: Regresin y Correlacin Lineal Simple )


introduccin, Modelo de regresin, estimacin por cuadrados mnimos,
uso del modelo de regresin, correlacin; introduccin a regresin
logstica.)
Cuando representamos una nube de puntos, y en el caso de que exista una
correlacin lineal entre las dos variables, podemos trazar una recta, llamada
recta de regresin, que se ajuste a la nube de puntos. En la medida en que la
coincidencia de la recta con la nube de puntos sea mayor, la correlacin tambin
ser mayor.
9

ESTADISTICA I
PROFESOR WALTER LOPEZ
No obstante, tambin comentamos que la apreciacin visual de la existencia de
correlacin no es suficiente. Vamos a proceder ahora a estudiar el
procedimiento de seleccin de esta recta y los parmetros de medida que
debemos usar.
Una vez encontrada la funcin que representa esta dependencia de las
variables, podremos predecir los valores de una variable (variable dependiente o
explicada) a partir de los valores de las otras (variables independientes o
explicativas). Adems, podremos calcular la fiabilidad de esta prediccin.
Antes de continuar debemos advertir que la regresin puede o no representarse
por una recta. En el caso de que elijamos una recta para ajustarla a la nube de
puntos, estaremos hablando de regresin lineal. En otro caso, diremos que la
regresin es no lineal.
Asimismo, diremos que una regresin lineal es simple cuando solamente exista
una variable independiente. Cuando sean ms de una las variables
independientes diremos que la regresin lineal es mltiple (no estudiaremos aqu
ese caso).
Teora de la Regresin
A partir de la observacin de la nube de puntos se elige el tipo de funcin o
curva que mejor relaciona las dos variables. Se obtiene as la ecuacin de la
recta o de la curva que mejor se adapta al conjunto de puntos y que sirve para
predecir el valor de una de las variables.
10

ESTADISTICA I
PROFESOR WALTER LOPEZ
Obtener la ecuacin de la recta que mejor se adapte al conjunto de puntos, de
entre las infinitas de dicho tipo que hay en el plano es lo que se conoce como el
problema del ajuste y se pueden emplear diferente mtodos matemticos para
ello:

Mtodo de los mnimos cuadrados

Mtodo de los polinomios ortogonales

Mtodo de los momentos

Mtodo de la curva logstica

Teora de la correlacin
Obtiene medidas de la fuerza de correlacin entre las variables. De esta forma
podemos establecer la fiabilidad de las predicciones realizadas con la curva o
recta de regresin.
1.1. Estimacin de la ecuacin de regresin por el mtodo de mnimos
cuadrados
Con este mtodo se trata de seleccionar aquella recta que hace mnimo el
resultado de sumar el cuadrado de cada una de las distancias de los puntos de
la nube a la recta. Es el mtodo ms frecuente, aunque como hemos visto en el
apartado anterior no es el nico.
La ecuacin de la recta de regresin lineal simple responde a la frmula:

11

ESTADISTICA I
PROFESOR WALTER LOPEZ

donde:

es la puntuacin pronosticada en la variable Y para el caso i-simo.

es la ordenada en el origen. Es el valor de Y cuando X = 0 (grficamente el


punto donde la recta cruza el eje de ordenadas).

es el Coeficiente de regresin o pendiente de la recta y representa su


inclinacin.

es la variable predictora. Conociendo la puntuacin en X del caso i-simo


podremos pronosticar la puntuacin en Y.
Yi es el criterio (puntuacin real obtenida en la variable Y por el caso i-simo de
nuestra investigacin.
En el mtodo de mnimos cuadrados, los valores de bo y b1 son los siguientes:

12

ESTADISTICA I
PROFESOR WALTER LOPEZ

Una vez obtenida la recta, debemos medir la exactitud de ese ajuste o fiabilidad
de sus predicciones:
Error de prediccin
Para cada valor xi de X, se obtiene una diferencia (el residuo) entre el valor
observado de Y en la nube de puntos y el correspondiente valor terico obtenido
en la funcin.

Varianza residual y error tpico de estimacin


Es la media de todos los residuos elevada al cuadrado

El error tpico de estimacin es la raz cuadrada de la varianza residual

Interpretacin de la varianza residual

13

ESTADISTICA I
PROFESOR WALTER LOPEZ

Si la varianza residual es pequea (cerca de cero), la dependencia ser


grande, el ajuste entre la recta y la nube de puntos ser bueno.

Si la varianza residual es grande los residuos sern grandes y la


dependencia ser pequea, el ajuste entre la recta y la nube de puntos
ser malo.

Por esto se llama ajuste por mnimos cuadrados, porque se considera que se
aproxima lo ms posible cuando la suma de los cuadrados de las diferencias
entre cada valor yi de la variable y el valor y que predice la recta buscada sea lo
menor posible.
Regresin logstica
Introduccin al anlisis de regresin logstica
El anlisis de regresin logstica es la tcnica para el estudio de la relacin entre
una o mas variables independientes (X1, X2,X3....Xn) y una variable
dependiente de tipo dicotmica.
Se define como variable dicotmica aquella que solo admite dos categoras que
definen opciones o caractersticas mutuamente excluyentes u opuestas tales
como (Y=SI , Y=NO); (Y=0 , Y=1), (Y=Encendido , Y=Apagado).
Un modelo de regresin logstica permite estimar o predecir la probabilidad de
que un individuo posea una caracterstica (Y=Registro , Y=Oferta) en funcin de

14

ESTADISTICA I
PROFESOR WALTER LOPEZ
una determinada o unas determinadas caractersticas individuales (X1=Precio
Unitario, X2=Edad, X3=Area .....Xn).
La diferencia fundamental entre el modelo de regresin lineal y de regresin
logstica es que el primero predice el valor medio de la variable dependiente (Y)
a partir de una o mas variables independientes (X1, X2, X3 ... Xn); mientras que
el segundo permite predecir la proporcin de una de las dos categoras de la
variable dependiente dicotmica (Y=SI , Y=NO) en funcin de una o mas
variables independientes (X1, X2, X3 ... Xn).
La probabilidad, por definicin, solo puede incluir un valor comprendido entre 0 y
1; por lo tanto hay que desarrollar un modelo matemtico que pueda estimar
valores de P(Y=1) dentro del rango real de 0 a 1.
El modelo matemtico que mejor estima tal probabilidad, debido a que restringe
los valores a su rango 0 < < 1, es el siguiente:

Este modelo comnmente presenta una forma de "S", limitada en el eje de las
Ordenadas entre los valores 0 y 1

15

You might also like