You are on page 1of 295

UNIVERSIDAD DE CHILE

MAGISTER EN GESTION Y POLITICAS PUBLICAS

ESTADISTICA APLICADA
Y ECONOMETRIA

Sara Arancibia C

2012
1

Objetivos
Comprender y aplicar los conceptos bsicos de Econometra y
metodologas de Anlisis Multivariante, fundamentales para el
anlisis de informacin.
Conocer y manejar el software estadstico SPSS, con nfasis en
la resolucin de estudios de casos aplicados a la gestin y
polticas pblicas.

Metodologa
Clases tericas y prcticas.
Apoyo de material; transparencias, guas, lecturas
complementarias
Manejo del software SPSS
En los laboratorios se realizarn estudios de casos apoyados de
guas.
2

Evaluacin
Tareas semanales ( 30%), controles (30%), examen (40%)

Bibliografa:
Introduccin a la Econometra. Un enfoque moderno.
Jeffrey y Wooldridge . Ed Thomson Learning
Econometra. Cuarta Edicin
Gujarati Ed. Mc Graw Hill
Anlisis Multivariable para las Ciencias Sociales.
Lvy y Varela Ed Pearson
Anlisis multivariante
Hair-Anderson-Tatham-Black. Ed Prentice Hall.
Anlisis de datos con SPSS 13 Base
Pardo y Ruiz. Ed Mc Graw Hill.
Anlisis Estadstico con SPSS para windows. Estadstica Multivariante.
Visauta y Martori. Ed Mc Graw Hill. Segunda Edicin
3

Contenidos
Primera sesin
Introduccin a la Econometra
Introduccin al Anlisis Multivariable
Anlisis de varianza
Anlisis no paramtrico de H de Kruskall-Wallis
Gua 1-Estudios de casos
Segunda y Tercera Sesin
Anlisis de regresin lineal simple
Modelos lin-log y log-lin y semilogaritmicos
Gua 2- Estudios de casos
Cuarta y Quinta Sesin
Anlisis de regresin mltiple
Gua 3- Estudios de casos

Contenidos
Sexta Sesin
Modelos de regresin mltiple con variables cualitativas ( dami)
Estimacin ponderada
Gua 4- Estudios de casos
Sptima Sesin
Regresin logstica
Gua 5- Estudios de casos
Octava Sesin
Anlisis Factorial
Gua 6- Estudios de casos

Introduccin

Introduccin a la Econometra
Introduccin al Anlisis Multivariante

Introduccin a la Econometra
Naturaleza de la Econometra
y de los datos econmicos
Qu es la Econometra?
Funciones de la Econometra
La metodologa de la Econometra
La regresin es una herramienta fundamental de la
Econometra.
Estructura de los datos econmicos
Relaciones estadsticas vs. Relaciones determinsticas
Regresin vs. Causalidad
Regresin vs. Correlacin
Terminologa
7

Introduccin
Naturaleza de la econometra y de los datos econmicos
Qu es la
econometra?
Literalmente,
econometra significa
medicin econmica.

La econometra se basa en mtodos


estadsticos para estimar las relaciones
econmicas, poner a prueba teoras
econmicas y evaluar y poner en prctica
polticas gubernamentales y comerciales.

Aplicaciones de la econometra
Pronstico de variables macroeconmicas ( inflacin, el producto
interno bruto)
Estudios aplicados a diversos campos de la economa (Ej: estudio de
los efectos de los gastos de las campaas polticas en los resultados
de las votaciones, en el efecto de los gastos en educacin en el
rendimiento de los estudiantes, etc)

Cules son las funciones de la econometra?


La econometra tiene bsicamente tres funciones estrechamente
interrelacionadas.
1) Probar teoras econmicas o hiptesis.
Por ejemplo, est el consumo
directamente relacionado con el ingreso?,
est la cantidad demandada de un artculo
inversamente relacionada con su precio?.
2) Dar estimaciones numricas de los
coeficientes de las relaciones econmicas.
Estos son esenciales en la toma de
decisiones. Por ejemplo, un asesor
gubernamental necesita tener una
estimacin exacta del coeficiente de la
relacin entre consumo e ingreso con el fin
de determinar el efecto estimulante de una
reduccin de impuestos propuesta.
3) La prediccin de sucesos econmicos

La Econometra da
contenido emprico a
gran parte de la teora
econmica

La metodologa de la Econometra
En trminos generales, el anlisis economtrico sigue las
siguientes lneas generales de accin:
1. Enunciado de la teora o hiptesis
2. Especificacin del modelo economtrico dirigido a probar la
teora
3. Estimacin de los parmetros del modelo
4. Verificacin o inferencia estadstica
5. Predicciones o pronsticos
6. Utilizacin del modelo para fines de control o formulacin de
polticas

10

Ejemplo
Consideremos a continuacin la teora keynesiana de la
funcin consumo
Enunciado de la teora o hiptesis
Keynes plantea
La ley sicolgica fundamental consiste en que los hombres
estn dispuestos, por regla general y en promedio, a aumentar
su consumo a medida que aumenta su ingreso, aunque no en la
misma proporcin al incremento en dicho ingreso.
Keynes afirma que la propensin marginal a consumir (PMC),
la tasa de cambio del consumo ante un cambio de una unidad
en el ingreso, es mayor que cero pero menor que uno.

11

Especificacin del modelo economtrico


Para simplificar, un economista matemtico puede sugerir la
siguiente forma para la funcin de consumo de Keynes:
Y 0 1 X

0 1 1

(1)

en donde
Y gastos de consumo
X ingreso

0 int er sec cin con el eje Y


1 pendiente

El coeficiente de la pendiente 1 representa la propensin marginal


a consumir (PMC)
12

La ecuacin (1), que afirma que el consumo est relacionado


linealmente con el ingreso, es un ejemplo de un modelo
matemtico.
Si el modelo, como del ejemplo anterior, consta de una sola
ecuacin, recibe el nombre de modelo uniecuacional; si tiene
ms de una ecuacin, se denomina modelo multiecuacional o
modelo de ecuaciones simultneas.
El modelo matemtico de la funcin de consumo (1) es de
limitado inters para el econometrista, por cuanto supone una
relacin exacta o determinstica entre el consumo y el ingreso.
Sin embargo, las relaciones existentes entre las variables
econmicas son generalmente inexactas

13

Para tener en cuenta la existencia de una relacin


inexacta entre las variables econmicas, el
econometrista debe modificar la funcin de consumo
determinstica de (1), de la siguiente manera

Y o 1 X u

(2)

En la que u representa el trmino de perturbacin o de


error, que es una variable aleatoria ( estocstica) con
propiedades probabilsticas bien definidas.
El trmino perturbacin, u, suele representar todas
aquellas fuerzas que afectan el consumo pero que no se
tienen en cuenta de manera explcita en la ecuacin
14

Estimacin
Habiendo especificado el modelo economtrico, la tarea
siguiente del econometrista consiste en obtener
estimaciones (valores numricos) de los parmetros del
modelo, a partir de la informacin disponible, generalmente
proporcionada por el estadstico econmico. Estas
estimaciones le confieren un contenido emprico a la teora
econmica. As por ejemplo, si en el estudio de la funcin
de consumo anteriormente expuesta, se encuentra que 1
0,8, este valor no slo proporciona una estimacin
numrica de la PMC sino que corrobora la hiptesis
keynesiana segn la cual la PMC es menor que 1.
Cmo se estiman los parmetros?
La tcnica utilizada para obtener dichas estimaciones es el
anlisis de regresin

15

Verificacin ( inferencia estadstica)


Habiendo obtenido ya estimaciones de los parmetros, la tarea
siguiente consiste en desarrollar criterios apropiados dirigidos
a establecer si las estimaciones obtenidas estn de acuerdo
con lo que se espera de la teora que se est verificando.
La refutacin o confirmacin de las teoras econmicas,
basndose en la evidencia emprica, se fundamenta en la
inferencia estadstica ( prueba de hiptesis)
Predicciones o pronsticos
Si el modelo escogido confirma la hiptesis o teora que se
est investigando, se puede entonces proceder a predecir
el (los) valor(es) futuro(s) de la variable dependiente Y con
base en valores futuros, conocidos o esperados, para la(s)
variable(s) explicativa(s) X.

16

Utilizacin de los modelos para fines de control o


formulacin de polticas
Supngase que un economista del gobierno estima la funcin de
consumo keynesiana, obteniendo los siguientes resultados
Y= 5+0,7X
donde el gasto de consumo Y y el ingreso X se miden en miles de
millones de dlares. Adicionalmente se supone que el gobierno
cree que un nivel de gastos de 1060 ( miles de millones de
dlares) mantendr la tasa de desempleo a un nivel relativamente
bajo, del orden del 5%. Qu nivel de ingresos (X) garantizar
que se obtenga la cantidad presupuestada inicialmente de gastos
de consumo?.
Suponiendo que el modelo es aceptable, se tiene que:
1060=5+0,7X o
X=1055/ 0,7 =1507
Lo anterior implica que un nivel de ingresos de 1507 (miles de
mill de dlares), dada una PMC=0,7, generar un gasto de
1060 (miles de millones de dlares)
17

La regresin es una herramienta


fundamental de la econometra.
Interpretacin moderna de la regresin
El anlisis de regresin est relacionado con el estudio de la
dependencia de una variable, la variable dependiente, de una
o ms variables adicionales, las variables explicativas con la
perspectiva de estimar y/ o predecir el valor (poblacional)
medio o promedio de la primera en trminos de valores
conocidos o fijos ( en muestreos repetidos) de las segundas.
Debe tenerse siempre en mente que el xito del anlisis de
regresin depende de la disponibilidad de informacin adecuada.

18

Estructura de los datos econmicos


Las estructuras de datos ms comunes en la econometra
aplicada son las de los datos de corte transversal, de series de
tiempo, de combinacin de cortes transversales, y de panel.
Datos de corte transversal
Un conjunto de datos de corte transversal consta de una muestra
de individuos, hogares, empresas, ciudades, estados, pases u
otras diversas unidades, tomada en un momento determinado. A
veces, los datos de todas las unidades no corresponden con
exactitud al mismo periodo; por ejemplo, es posible entrevistar a
varias familias durante semanas distintas del ao. En un anlisis
de seccin cruzada pura, ignoraramos cualquier diferencia de
tiempo mnima en la recopilacin de los datos. Si se entrevist a un
grupo de familias en semanas distintas del mismo ao, an
veramos esta informacin como un conjunto de datos de corte
transversal.
19

Tabla 1.1

Conjunto de datos de corte transversal sobre salario


y otras caractersticas individuales
Obs

sala

educ

exper

sexo

ecivil

3.10

11

3.24

12

22

3.00

11

6.00

44

5.30

12

525

11.56

16

526

3.50

14

20

Tabla 1.2

Conjunto de datos sobre las tasas de crecimiento


econmico y caractersticas de los pases
obs

pas

tpib

Consgob60

Secund60

Argentina

0.89

32

Austria

3.32

16

50

Blgica

2.56

13

69

Bolivia

1.24

18

12

..

..

..

61

Zimbabwe

2.30

17

21

Datos de series de tiempo


Un conjunto de datos de series de tiempo (o datos de series
temporales) consta de observaciones, de una o ms variables,
hechas en el tiempo.
Entre los ejemplos de este tipo de informacin se encuentran los
precios de las acciones, el ndice de precios al consumidor, el
producto interno bruto, los ndices anuales de homicidios y las
cifras de venta de automviles. Como los hechos del pasado
pueden tener influencia en los del futuro y los rezagos en el
comportamiento son comunes en las ciencias sociales, el tiempo
es un factor importante en los datos de series de tiempo. A
diferencia del ordenamiento de los datos de corte transversal, la
disposicin cronolgica de las observaciones en una serie
temporal proporciona informacin potencialmente importante.

22

Tabla 1.3

Salario mnimo, desempleo y datos relacionados


para Puerto Rico
obs

ao

salamin

cob

desem

pib

1950

0.20

20.1

15.4

878.7

1951

0.21

20.7

16.0

925.0

1952

0.23

22.6

14.8

1015.9

37

1986

3.35

58.1

18.9

4281.6

38

1987

3.35

58.2

16.8

4496.7

23

Combinacin de cortes transversales


Algunos conjuntos de datos tienen caractersticas tanto de corte
transversal como de series temporales.
Por ejemplo, supongamos que se realizaron a escala nacional dos
encuestas transversales de hogares, una en 1985 y otra en 1990. En
1985 se entrevist a una muestra aleatoria de hogares sobre
variables como ingreso, ahorro, tamao de la familia, etc. En 1990 se
realiz una nueva muestra aleatoria con las mismas preguntas. Con el
objeto de aumentar el tamao de nuestra muestra, podemos formar
una combinacin de cortes transversales para los dos aos. Como las
muestras aleatorias se tomaron cada ao, sera mera casualidad que
el mismo hogar apareciera en la muestra de ambos aos. (Por lo
regular, el tamao de la muestra ser muy pequeo, en comparacin
con el de todos los hogares del pas). Este importante factor distingue
a la combinacin de cortes transversales de los conjuntos de datos de
panel.
24

Tabla 1.4

Combinaciones de cortes transversales:


dos aos de precios de la vivienda
obs

ao

precio

imptos

piecuad

habit

Baos

1993

85500

42

1600

2.0

1993

67300

36

1440

2.5

1993

134000

38

2000

2.5

250

1993

243600

41

2600

3.0

251

1995

65000

16

1250

1.0

252

1995

182400

20

2200

2.0

253

1995

97500

15

1540

2.0

520

1995

57200

16

1100

1.5

25

Datos de panel o longitudinales


Un conjunto de datos de panel (o longitudinales) consta de una
serie temporal para cada miembro del corte transversal en el
conjunto de datos. Como ejemplo, supongamos que tenemos
salario, educacin y antecedentes de empleo de un grupo de
individuos a los que se ha dado seguimiento durante 10 aos; o
tambin podramos reunir informacin, como datos financieros y
de inversiones, sobre el mismo conjunto de empresas durante un
periodo de cinco aos. De igual forma es posible recopilar datos
de panel en unidades geogrficas. Por ejemplo, podemos reunir
datos de los mismos municipios de un pas sobre flujos de
migracin, tasas impositivas, niveles de salarios, gastos
gubernamentales, etc., para los aos 1980, 1985 Y 1990.
La caracterstica fundamental de los datos de panel, que los
distinguen de las combinaciones de cortes transversales, es el
hecho de que se da seguimiento a las mismas unidades
26

Tabla 1.5

Conjunto de datos de panel de dos aos sobre


estadsticas de delincuencia urbana
obs

ciudad

ao

homicidi
os

poblaci
n

desem

Polica

1986

350000

8.7

440

1990

359200

7.2

471

1986

64300

5.4

75

1990

65100

5.5

75

297

149

1986

10

260700

9.6

286

298

149

1990

245000

9.8

334

299

150

1986

25

543000

4.3

520

300

150

1990

32

546200

5.2

493

27

Nota: Los conjuntos de datos que incluyen la


dimensin del tiempo, como los de series
temporales y de panel, exigen un tratamiento
especial por la correlacin con el paso del
tiempo de la mayor parte de las series de tiempo
econmicas. Otros temas, como las tendencias
y la estacionalidad, surgen en el anlisis de los
datos de series temporales, pero no en los de
corte transversal.

28

Relaciones estadsticas vs. Relaciones determinsticas


En el anlisis de regresin nos interesa lo que se conoce como
dependencia estadstica entre variables, pero no la funcional o
determinstica propia de la fsica clsica.

En las relaciones estadsticas entre variables tratamos esencialmente


con variables aleatorias o estocsticas, esto es variables que tienen
distribuciones de probabilidad.

Por otra parte, en la dependencia funcional o determinstica tambin


manejamos variables, pero stas no son aleatorias o estocsticas.
NOTA: La palabra estocstica viene de la palabra griega stokhos
que significa "centro del blanco". El resultado de lanzar dardos
sobre un tablero es un proceso estocstico, esto es, un proceso
que permite errores.
29

Relaciones estadsticas vs. Relaciones determinsticas


La dependencia del producto de una cosecha respecto a la
temperatura ambiente, la lluvia, el sol y los fertilizantes, por ejemplo, es
de naturaleza estadstica en el sentido que las variables explicativas, si
bien son importantes, no permitirn al agrnomo predecir en forma
exacta el producto de la cosecha debido a los errores involucrados en
la medicin de estas variables y en razn de otra serie de factores
(variables), que afectan colectivamente la produccin pero pueden ser
difciles de identificar individualmente. De esta manera habr alguna
variabilidad "intrnseca" o aleatoria en la variable dependiente, producto
de la cosecha, que no puede ser explicada en su totalidad sin importar
cuntas otras variables explicativas consideremos.

30

Regresin vs Causalidad
Si bien el anlisis de regresin tiene que ver con la dependencia de
una variable respecto a otras variables, esto no implica causalidad
necesariamente.
En palabras de Kendall y Stuart: "Una relacin estadstica, sin
importar qu tan fuerte y sugestiva sea, nunca podr establecer
una conexin causal: nuestras ideas de causalidad deben venir
de estadsticas externas y, en ltimo trmino, de una u otra
teora."
Por ejemplo si consideramos el producto de una cosecha, no hay una
razn estadstica para suponer que la lluvia no depende del producto
de la cosecha. El hecho de que se trata el producto de la cosecha
como dependiente de la lluvia (entre otras cosas) es debido a
consideraciones no estadsticas: el sentido comn sugiere que la
relacin no puede revertirse, ya que no podemos controlar la lluvia
modificando la produccin de la cosecha.

31

Regresin vs Correlacin
El anlisis de correlacin est estrechamente relacionado con el
de regresin aunque conceptualmente los dos son muy diferentes.

En el anlisis de correlacin el objetivo principal es medir la


fuerza o el grado de asociacin lineal entre dos variables.
El coeficiente de correlacin, mide esta fuerza de asociacin
(lineal).
Por ejemplo, se puede estar interesado en encontrar la
correlacin (el coeficiente) entre el hbito de fumar y el cncer del
pulmn; entre las calificaciones obtenidas en exmenes de
estadstica y las obtenidas en exmenes de matemticas; entre
las altas calificaciones obtenidas en la escuela secundaria y en la
universidad, y as sucesivamente.
32

Regresin vs Correlacin
En el anlisis de regresin, como ya se mencion, no
estamos interesados en ese tipo de medicin.
En cambio, se trata de estimar o de predecir el valor
promedio de una variable sobre la base de valores
fijos de otras variables. As, quizs se desee saber si
se puede predecir el promedio de las calificaciones en
un examen de estadstica, conociendo la calificacin
de un estudiante en un examen de matemticas.

33

Terminologa

Yi 1 2 X 2i 3 X 3i .... n X ni i
En la teora econmica los trminos variable dependiente y variable
independiente estn descritos de varias maneras; a continuacin se
presenta una lista representativa de ellas:

X1, X2, X3, . Xk

Variable dependiente

Variable independiente

Variable explicada

Variable explicativa

Variable de respuesta

Variables de control

Variable predicha

Variables predictora

Regresada

Regresora
34

Introduccin al Anlisis Multivariante


Conceptos y tcnicas del Anlisis Multivariable

Qu es el Anlisis Multivariable?
Utilidad del Anlisis Multivariable
Los datos en el Anlisis Multivariable
Variables y escalas de medida
Anlisis inicial de datos
Las tcnicas de Anlisis Multivariable
Tcnicas de anlisis de la dependencia
Tcnicas de anlisis de la interdependencia

35

Qu es el Anlisis Multivariable?

Qu es el Anlisis
Multivariable?

El anlisis multivariable puede


definirse como el conjunto de
mtodos o tcnicas, diseados
con el fin de maximizar e
interpretar la informacin
contenida en un conjunto de
variables, sin perder la
interaccin o grado en que se
afectan unas con otras

El anlisis multivariable permite llevar a cabo la


resolucin de problemas y la toma de decisiones con
un enfoque analtico sobre todas las variables que
llegan a influir sobre el o los problemas en cuestin.
36

Utilidad del Anlisis Multivariable


La complejidad de la realidad socioeconmicoempresarial y el hecho de que en su conocimiento
confluyan disciplinas cientficas de origen diverso hacen
que el contenido de los mtodos multivariables se
proyecte como un cuerpo de conocimientos de
naturaleza interdisciplinaria.
Las necesidades de
informacin de los
investigadores y
decidores para la
planificacin, ejecucin
de acciones o el control
de resultados son cada
vez mayores.

En el anlisis multivariable,
se puede encontrar una
herramienta prctica,
verstil y adaptable a todo
tipo de anlisis, al permitir
extraer informacin
relevante, y eficiente.
37

Los datos en el Anlisis Multivariable


Variables y escalas de medida

Datos

Anlisis
Multivariable

Valores que toman


las Variables

Magnitudes que
representan distintos
conceptos o atributos de
individuos u objetos

La precisin de tal
representacin depender
directamente de la escala
de medida
38

Los datos en el Anlisis Multivariable


Escalas de medida
La tipologa de escalas de medida distingue cuatro bsicas

Nominal
Ordinal

Escalas no mtricas o cualitativas

Intervalo
Razn

Escalas mtricas o cuantitativas

39

Los datos en el Anlisis Multivariable


Escalas de medida
Una variable no mtrica puede ser convertida en variable
ficticias binarias (dummy). Sera necesario contar con un
nmero de ellas igual al nmero de categoras de la variable
no mtrica menos uno.
Ejemplo:
Supngase que se pretende
transformar la variable medios de
transporte ms comunes de tres
categoras: 1=autobs, 2=tren y
3=avin.
La conversin podra efectuarse por
medio de dos variables ficticias, F1 y
F2. Los valores que stas tomaran
para representar cada categora seran
los siguientes:

Categora F1

F2

Autobs

Tren

Avin

0
40

Los datos en el Anlisis Multivariable


Anlisis inicial de datos
Antes de comenzar con el anlisis multivariable, es esencial
realizar un examen exhaustivo de los datos.
La deteccin de problemas ocultos en las matrices de datos
supondr un gran avance en la consecucin de resultados
lgicos y consistentes.

Es fundamental inspeccionar:
Analizar si es relevante para el
Anlisis de datos ausentes
(missing values)

anlisis obtener los datos


perdidos.
Determinar si la informacin que
falta puede ser completada.
Sustituir los datos por valores
estimados
41

Los datos en el Anlisis Multivariable


Anlisis inicial de datos
Es fundamental inspeccionar:

Representaciones grficas
para el anlisis de datos
Tablas
Deteccin de outliers

Histogramas de cada variable


Grficos de dispersin
Grfico de cajas ( Boxplot)
Tablas de frecuencia
Tablas de contingencia
Estudiar los casos atpicos

42

Los datos en el Anlisis Multivariable


Anlisis inicial de datos
Es fundamental inspeccionar:
Supuestos
subyacentes en
los mtodos
multivariables

Normalidad de las variables


Linealidad ( existencia de
asociaciones lineales entre
variables)
Homocedasticidad
(Varianza de los errores es
constante)

43

Las tcnicas del Anlisis Multivariable


Tipologa de las tcnicas

De anlisis de la dependencia
De anlisis de la interdependencia
Otras tcnicas

44

Las tcnicas del Anlisis Multivariable

De anlisis de la
dependencia

De anlisis de la
interdependencia

Otras tcnicas

Tcnicas aplicables cuando una o varias


variables dependientes van a ser explicadas por un conjunto de variables independientes que actan como predictoras
Tcnicas que otorgan la misma
consideracin a todas las variables objeto
de estudio, sin distinguir entre dependientes e independientes, y que tienen como
fin descubrir las interrelaciones entre ellas.
Son tcnicas de clasificacin.
Tcnicas novedosas que permiten un
tratamiento ms eficaz y eficiente en
grandes cantidades de datos, como
anlisis con redes neuronales, data
mining.
45

Tcnicas de anlisis de la dependencia


Tcnica
Anlisis de la varianza y
covarianza

Variable
dependiente

Variables
independientes

la Mtrica

No mtricas

Anlisis discriminante

No mtrica

Mtricas

Regresin lineal mltiple


dem con variables ficticias

Mtrica
Mtrica

Mtricas
No mtricas

Modelos de eleccin discreta


dem con variables ficticias

No mtrica
No mtrica

Mtricas
No mtricas

Anlisis conjunto

Mtrica
mtrica

Segmentacin Jerrquica

No
mtrica
mtrica

no No mtricas
o No mtricas

Anlisis de ecuaciones estructurales Mtrica

Mtricas o no mtricas

Anlisis con clases latentes

No mtricas observables

No mtrica latente

46

Terminologa
Variable ficticia
Variable binaria que se suele emplear para representar una
categora de una variable no mtrica.
Variable mtrica (o cuantitativa)
Variable medida en escala de intervalo o de razn, capaz de
reflejar, por tanto, diferencias de grado o cantidad entre sus
elementos. La diferencia entre dos elementos consecutivos es
constante a lo largo de toda la escala.
Variable no mtrica (o cualitativa)
Variable medida en escala nominal u ordinal que identifica
categoras o propiedades. Si es ordinal, los nmeros asignados
a cada categora guardan una relacin de orden; pero, por lo
dems, son simples etiquetas sin ningn otro significado.
47

ANOVA (o anlisis de la varianza)


Mtodo para contrastar si diversas muestras proceden
de poblaciones con igual media.
ANCOVA (o anlisis de la covarianza)
Proceso que comienza por emplear la regresin para
eliminar la variacin experimentada por la variable
dependiente producida por una variable independiente
no controlada (covariable) cuyos efectos se consideran
indeseados, y sigue con un ANOVA sobre la variable
dependiente ajustada.
48

Anlisis discriminante
Tcnica de clasificacin que permite agrupar a los elementos
de una muestra en dos o ms categoras diferentes,
predefinidas en una variable dependiente no mtrica, en
funcin de una serie de variables independientes mtricas
combinadas linealmente.
Regresin lineal mltiple
Tcnica que pretende determinar la combinacin lineal de
variables independientes cuyos cambios son los mejores
predictores de los cambios experimentados por la variable
dependiente. Todas las variables que intervienen en la
regresin son mtricas, aunque admite la posibilidad de
trabajar con variables independientes no mtricas si se
emplean variables ficticias para su transformacin en variables
dami.
49

Modelo logit
Modelo de eleccin discreta en el que la funcin de
distribucin de probabilidad de la variable perturbacin
es la funcin logstica.
Modelo logit multinomial
Modelo logit en el que la variable dependiente es
politmica en lugar de dicotmica.
Modelo probit
Modelo de eleccin discreta en el que la funcin de
distribucin de probabilidad de b, variable perturbacin
es la funcin normal.

50

Anlisis conjunto
Tcnica que se emplea para entender cmo conforman
los individuos sus preferencias hacia los objetos,
normalmente marcas o productos.
Segmentacin jerrquica
Tcnica de anlisis de la dependencia que tiene por
objeto distinguir grupos de elementos homogneos en
una poblacin a travs de un proceso iterativo
descendente de particin de la muestra total en
sucesivos grupos en virtud del valor adoptado por la
variable dependiente, el cual es funcin de los valores
presentados por las variables independientes.

51

Anlisis con clases latentes


Tcnica que busca distinguir en una muestra grupos de
elementos homogneos en funcin de los valores que
adopta una variable latente no mtrica. Tales valores
son las categoras de esa variable, las cuales reciben el
nombre de clases latentes.
Anlisis con ecuaciones estructurales (o anlisis de
estructuras de covarianzas)
Tcnica que permite analizar varias relaciones de
dependencia que se presentan simultneamente.

52

Tcnicas de anlisis de la interdependencia


Se incluyen en esta categora las siguientes: el
anlisis factorial y por componentes principales, el
anlisis de correspondencias, el anlisis de
conglomerados, el escalamiento multidimensional y el
anlisis con clases latentes.
En el cuadro siguiente se observan algunas
caractersticas diferenciadoras entre ellas, como son
el tipo de variables que permiten manejar y qu clase
de elementos componen los grupos que resultan de la
aplicacin de cada una.
53

Tcnicas de anlisis de la interdependencia.


Tcnica

Variable

Forma grupos de

Anlisis factorial y por Mtrica


componentes principales

Variables

Anlisis
correspondencias

Categoras de variables

de No mtrica

Anlisis de conglomerados

Mtrica y no Objetos
mtrica

Escalamiento
multidimensional

Mtrica y no Objetos
mtrica

Anlisis con clases latentes

No mtricas

Objetos y categoras de
variables

54

Anlisis factorial
Tcnica de anlisis de la interdependencia presentada por un cierto
nmero de variables susceptible de ser sintetizada en un conjunto de
factores comunes que subyacen tras ella. Dichos factores pueden ser
comunes (captan la variabilidad compartida por todas las variables), o
especficos (captan la variabilidad propia de cada variable, sin relacin
con las dems).
Anlisis por componentes principales
Tcnica de anlisis de la interdependencia presentada por un cierto
nmero de variables susceptible de ser sintetizada en un conjunto de
factores comunes que subyacen tras ella. Dichos factores o
componentes buscan explicar la mayor proporcin posible de la
variabilidad total, lo que quiere decir que, a diferencia de lo que ocurre
en anlisis factorial. no existen factores especficos.

55

Anlisis de correspondencias
Tcnica basada en el estudio de la asociacin entre las
categoras de mltiples variables no mtricas, que
persigue la elaboracin de un mapa perceptual que ponga
de manifiesto dicha asociacin en modo grfico.
Anlisis de conglomerados (o anlisis cluster)
Tcnica cuyo fin es clasificar sujetos u objetos en funcin
de ciertas caractersticas de
modo que los elementos de cada grupo sean muy
similares entre s.

56

Escalamiento multidimensional
Tcnica cuyo fin es elaborar una representacin grfica
que permita conocer la imagen que los individuos se
crean de un conjunto de objetos por posicionamiento de
cada uno en relacin a los dems.
Anlisis con clases latentes
Tcnica que busca distinguir en una muestra grupos de
elementos homogneos en funcin de los valores que
adopta una variable latente no mtrica. Tales valores son
las categoras de esa variable, las cuales reciben el
nombre de clases latentes.
57

Otras tcnicas
Eleccin multicriterio discreta
Conjunto de mtodos de ayuda en la resolucin de problemas de
decisin en los que se han de tener en cuenta diferentes puntos de vista
o criterios y en los que se baraja un nmero finito de alternativas.
Data mining (o minera de datos o extraccin de datos)
Proceso mediante el cual se explora y analiza un gran volumen de datos
con el fin de descubrir relaciones, reglas o patrones de comportamiento
en ellos que sean de utilidad para el usuario en la toma de decisiones.
Anlisis con redes neuronales
Tcnica cuya forma de proceder pretende replicar el funcionamiento del
cerebro humano, intentando aprender de los errores cometidos en aras
de la consecucin del mejor resultado posible.

58

La eleccin de una tcnica concreta

A la luz de lo expuesto en este apartado se deduce que la eleccin


de una determinada tcnica de anlisis multivariable pasa por dar
respuesta previa a preguntas como

Sigue un fin predictivo o clasificatorio?


Se puede distinguir entre variables dependiente e
independientes?
Cuntas variables dependientes hay?
Qu tipo de escalas de medida presentan las
variables?
Estas se distribuyen normalmente?
59

TECNICAS DE ANLISIS DE LA DEPENDENCIA

VARIABLE INDEPENDIENTE
Mtrica

No mtrica

VARIABLE DEPENDIENTE
Mtrica

Simple

Regresin
Lineal mltiple

VARIABLE DEPENDIENTE

No mtrica

Mltiple

Anlisis
con ecuaciones
estructurales

Mtrica

Simple

Anlisis
Discriminante
Modelos de
Eleccin discreta

ANOVA,
ANCOVA
Anlisis conjunto
Segmentacin
Jerrquica
Regresin lineal
con variable
ficticias

No mtrica

Mltiple

MANOVA
MANCOCA
Anlisis con
Ecuaciones
estructurales

Modelo de
eleccin discreta
con variable
Ficticias
Anlisis conjunto
Segmentacin
Jerrquica
Anlisis con
Clases latentes

60

TCNICAS DE ANLISIS DE LA INTERDEPENCIA


VARIABLES
Mtricas

No mtrica

Anlisis factorial

Anlisis de correspondencias

Anlisis por componentes principales

Anlisis de conglomerados

Anlisis de conglomerados

Escalamiento multidimensional

Escalamiento multidimensional

Anlisis con clase latentes

OTRAS TCNICAS

Eleccin multicriterio discreta


Redes neuronales
Data mining

61

Tcnicas a estudiar
Anlisis de varianza de
un factor
Regresin lineal simple

Regresin lineal mltiple

Regresin logstica

Anlisis Factorial

De anlisis de la dependencia
En SPSS
men Analizar/Comparar Medias
De anlisis de la dependencia
En SPSS
men Analizar/Regresin
De anlisis de la dependencia
En SPSS
men Analizar/Regresin
De anlisis de la dependencia
En SPSS
men Analizar/Regresin/Logstica
De anlisis de la interdependencia
En SPSS
men Analizar/Reduccin de datos
62

Anlisis de Varianza de un factor

El anlisis ANOVA de un factor

Datos y supuestos
Prueba de homogeneidad de Varianzas.
Comparaciones post-hoc

Prueba no parmetrica H de Kruskal-Wallis

63

Anlisis de Varianza
Anlisis de varianza de un factor
El anlisis ANOVA de un factor es una generalizacin de la prueba
T para dos muestras independientes al caso de diseos con ms
de dos muestras.
Sirve para comparar varios grupos en una variable cuantitativa.
Variable Independiente (VI)
o factor

Variable categrica
(Nominal u ordinal)
que define los grupos

Variable Dependiente (VD)

Variable cuantitativa en la que


se desea comparar los grupos

64

Anlisis de varianza de un factor


Datos. Los valores de la variable de factor deben ser
enteros y la variable dependiente debe ser cuantitativa
(nivel de medida de intervalo).
Supuestos. Cada grupo es una muestra aleatoria
independiente procedente de una poblacin normal. El
anlisis de varianza es robusto a las desviaciones de la
normalidad, aunque los datos debern ser simtricos.
Los grupos deben proceder de poblaciones con
varianzas iguales. Para contrastar este supuesto, utilice
la prueba de Levene de homogeneidad de varianzas.

65

Anlisis de varianza de un factor


La hiptesis que se pone a prueba en el ANOVA de un
factor es que las medias poblacionales ( las medias de la
VD en cada nivel de la VI) son iguales.

H 0 : 1 2 3 ... n
Si las medias poblacionales son iguales, eso significa que
los grupos no difieren en la VD y que, en consecuencia, la
VI o factor es independiente de la VD.
El procedimiento para poner a prueba la Ho consiste en obtener
un estadstico, llamado F, que refleja el grado de parecido
existente entre las medias que se estn comparando.
2

n Y
S

2
j

66

Anlisis de varianza de un factor

n Y
S

2
j

El numerador del estadstico F es una


estimacin de la varianza poblacional
basada en la variabilidad existente
entre las medias de cada grupo
El denominador del estadstico F es
una estimacin de la varianza
poblacional, basada en la variabilidad
existente dentro de cada grupo ( j se
refiere a los distintos grupos o niveles
del factor)

Si las medias poblacionales son iguales, las medias muestrales de los diferentes
grupos sern parecidas, existiendo entre ellas tan slo diferencias atribuibles al
2
azar. En ese caso, la estimacin ( basada en las diferencias entre las medias
1
2
muestrales) reflejar el mismo grado de variacin que la estimacin
basada
2
en las diferencias entre las puntuaciones individuales dentro de
cada grupo) y el cuociente F tomar un valor prximo a 1
67

Anlisis de varianza de un factor


Por el contrario, si las medias muestrales son distintas, la estimacin 2
1
reflejar mayor grado de variacin que la estimacin 2 , en cuyo
2
caso el cuociente F tomar un valor mayor que 1. Cuanto ms
diferentes sean las medias muestrales, mayor ser el valor de F.
2

n Y
S

2
j

Si las poblaciones muestreadas


son normales y sus varianzas
iguales, el estadstico F se
distribuye segn el modelo de
probabilidad F de Fisher
Snedecor

Los grados de libertad del numerador son el nmero de


grupos menos 1;los del denominador el nmero total de
observaciones menos el nmero de grupos.
68

Anlisis de varianza de un factor


Ejemplo: ANOVA de un factor
Consideremos el archivo de Datos de empleados
Variable dependiente: Salario actual (salario)
Factor: Categora laboral (catlab)
Descriptivos
Salario actual

N
Administrativo
Seguridad
Directivo
Total

363
27
84
474

Media
$27,838.54
$30,938.89
$63,977.80
$34,419.57

Desviacin
tpica
$7,567.995
$2,114.616
$18,244.776
$17,075.661

Mnimo
$15,750
$24,300
$34,410
$15,750

Mximo
$80,000
$35,250
$135,000
$135,000

69

Anlisis de varianza de un factor


ANOVA
Salario actual

Inter-grupos
Intra-grupos
Total

Suma de
cuadrados
89438483925,9
48478011510,4
137916495436

gl
2
471
473

Media cuadrtica
44719241962,971
102925714,459

F
434,481

Sig.
,000

La tabla ANOVA muestra el resultado del estadstico F ( cuociente entre


dos estimadores diferentes de la varianza poblacional. Uno de los
estimadores se obtiene a partir de la variacin existente entre las medias
de los grupos (variacin Inter-grupos). El otro estimador se obtiene a
partir de la variacin existente entre las puntuaciones dentro de cada
grupo (variacin Intra-grupos)
La tabla ofrece una cuantificacin de ambas fuentes de variacin (Suma
de cuadrados), los grados de libertad asociados a cada suma de
cuadrados (gl) y el valor concreto que adopta cada estimador de la
varianza poblacional (medias cuadrticas, que se obtienen dividiendo
las sumas de cuadrados entre sus correspondientes grados de libertad)
70

Anlisis de varianza de un factor


ANOVA
Salario actual

Inter-grupos
Intra-grupos
Total

Suma de
cuadrados
89438483925,9
48478011510,4
137916495436

gl
2
471
473

Media cuadrtica
44719241962,971
102925714,459

El cuociente entre las dos medias


cuadrticas (la inter-grupos y la
intra-grupos) proporciona el valor
del estadstico F, el cual aparece
acompaado de su correspondiente
nivel de significacin observado
(Sig)

F
434,481

Sig.
,000

Puesto que el nivel


crtico (Sig=0,000)
es menor que 0,05,
debe rechazarse la
hiptesis de
igualdad de medias

Puede concluirse que las poblaciones definidas por la variable


catlab no poseen el mismo salario medio: hay al menos una
poblacin cuyo salario medio difiere del de al menos otra.
71

Anlisis de varianza de un factor


Prueba de homogeneidad de las varianzas
El estadstico F del ANOVA de un factor se basa en el cumplimiento
de dos supuestos fundamentales:
normalidad
y
homocedasticidad
Normalidad significa que la variable
dependiente se distribuye normalmente
en la J poblaciones muestreadas
(tantas como grupos definidos por la
variable factor); si los tamaos de los
grupos son grandes, el estadstico F se
comporta razonablemente bien incluso
con distribuciones poblacionales
sensiblemente alejadas de la
normalidad

Homocedasticidad o
igualdad de varianzas
significa que la J
poblaciones muestreadas
poseen la misma varianza;
con grupos de distinto,
tamao el incumplimiento
de este supuesto debe ser
cuidadosamente vigilado.
72

Prueba de homogeneidad de las varianzas.


Prueba de Levene
La prueba de Levene permite contrastar el supuesto de homogeneidad
de varianzas, es decir permite contrastar la hiptesis de que los grupos
definidos por la variable factor proceden de poblaciones con las misma
varianza
Prueba de homogeneidad de varianzas
Salario actual
Estadstico
de Levene
59,733

gl1
2

gl2
471

Sig.
,000

La tabla contiene el estadstico de Levene. Puesto que el nivel crtico es


menor que 0,05, se debe rechazar la hiptesis de igualdad de varianzas
y concluir, que en las poblaciones definidas por las tres categoras
laborales, las varianzas de la variable salario no son iguales.
73

Pruebas robustas de igualdad de las medias


Salario actual
a

Welch
Brown-Forsythe

Estadstico
162,200
306,810

gl1
2
2

gl2
117,312
93,906

Sig.
,000
,000

a. Distribuidos en F asintticamente.

El estadstico de Welch y el de Brown-Forsythe contrasta


la igualdad de las medias de grupo. Este estadstico es
preferible al estadstico F cuando no se puede mantener
el supuesto de igualdad de varianzas.
Puesto que el nivel crtico asociado a ambos estadsticos
es menor que 0,05, se puede rechazar la hiptesis de
igualdad de medias y concluir que los promedios
salariales de las poblaciones no son iguales
74

Comparaciones post-hoc
El estadstico F del ANOVA nicamente permite
contrastar la hiptesis general de que los J promedios
comparados son iguales. Rechazar esa hiptesis
significa que las medias poblacionales comparadas no
son iguales, pero no permite precisar dnde en concreto
se encuentran las diferencias detectadas.
Para saber qu media difiere de qu otra se debe utilizar
un tipo particular de contrastes denominados
comparaciones mltiples post-hoc
Asumiendo varianzas iguales
Existen varios mtodos , el ms utilizado es la opcin Tukey
75

No asumiendo varianzas iguales


Existen varios mtodos , el ms utilizado es la opcin Games -Howell
En nuestro ejemplo por la prueba de Levene, no podemos
asumir que las varianzas poblacionales sean iguales por tanto
debe prestarse atencin a la opcin de Games- Howell
Comparaciones mltiples
Variable dependiente: Salario actual
Games-Howell

(I) Categora laboral


Administrativo
Seguridad
Directivo

(J) Categora laboral


Seguridad
Directivo
Administrativo
Directivo
Administrativo
Seguridad

Diferencia de
medias (I-J)
-$3,100.349*
-$36,139.258*
$3,100.349*
-$33,038.909*
$36,139.258*
$33,038.909*

Error tpico
$568.679
$2,029.912
$568.679
$2,031.840
$2,029.912
$2,031.840

Sig.
,000
,000
,000
,000
,000
,000

Intervalo de confianza al 95%


Lmite
Lmite inferior
superior
-$4,454.82
-$1,745.88
-$40,977.01 -$31,301.51
$1,745.88
$4,454.82
-$37,881.37 -$28,196.45
$31,301.51
$40,977.01
$28,196.45
$37,881.37

*. La diferencia entre las medias es significativa al nivel .05.

Puede concluirse que todos los promedios comparados


difieren significativamente.
76

Anlisis no paramtrico
Prueba de H de Kruskal-Wallis
La prueba de Mann- Whitney para dos muestras independientes
fue extendida al caso de ms de dos muestras por Kruskal y Wallis
(1952). La situacin experimental que permite resolver esta prueba
es similar a la estudiada a propsito del ANOVA de un factor
completamente aleatorizado: J muestras son aleatoria e
independientemente extradas de J poblaciones para averiguar si
las J poblaciones son idnticas o alguna de ellas presenta
promedios mayores que otra.
Las ventajas fundamentales de esta prueba frente al estadstico F del
ANOVA de un factor son dos:
(1) no necesita establecer supuestos sobre las poblaciones originales
tan exigentes como los del estadstico F (normalidad,
homocedasticidad); y
(2) permite trabajar con datos ordinales.
Si se cumplen los supuestos en los que se basa el estadstico F, la
potencia de ste es mayor que la que es posible alcanzar con el
estadstico H de Kruskal- Wallis.
77

Ejemplo:
Pruebas no paramtricas /Varias muestras independientes
H de Kruskal-Wallis
Rangos

Salario actual

Categora laboral
Administrativo
Seguridad
Directivo
Total

Estadsticos de contrastea,b

N
363
27
84
474

Rango
promedio
190,37
278,98
427,85

Chi-cuadrado
gl
Sig. asintt.

Salario actual
207,679
2
,000

a. Prueba de Kruskal-Wallis
b. Variable de agrupacin: Categora laboral

La primera tabla ofrece el tamao de cada grupo (N) y los rangos


promedios resultantes de la asignacin de rangos a las
puntuaciones de los tres grupos.
En la segunda tabla, puesto que el nivel crtico es menor que 0,05,
se puede rechazar la hiptesis de igualdad de medias
poblacionales y concluir que las poblaciones comparadas difieren
en salario actual.
78

Anlisis de regresin lineal

Anlisis de regresin lineal simple


Anlisis de regresin lineal mltiple

79

Anlisis de regresin lineal simple


Anlisis de regresin con dos variables: Algunas ideas bsicas
Concepto de funcin de regresin poblacional
Significado del trmino lineal
Especificacin estocstica de la FRP
Funcin de regresin muestral (FRM)

Anlisis de regresin con dos variables: problema de estimacin.

Mtodo de Mnimos cuadrados ordinarios (MCO)


Modelo clsico: Supuestos detrs del mtodo MCO
Precisin o errores estndar de MCO
Propiedades de los estimadores de MCO
Coeficiente de determinacin r2:una medida de bondad de ajuste
Coeficiente de correlacin muestral y propiedades de r
Interpretacin de la pendiente
80

Anlisis de regresin lineal simple


Modelo clsico de regresin lineal normal (MCRLN)
Regresin con dos variables: estimacin de intervalos
y pruebas de hiptesis.
Intervalos de confianza
Pruebas t
Aplicacin problemas de prediccin
Prediccin del valor de la media condicional
Prediccin de un valor individual

Formas funcionales de los modelos de regresin


Modelo log-lineal
Modelos semilogaritmicos

81

Anlisis de regresin lineal simple


Algunas ideas bsicas
El anlisis de regresin se relaciona en gran
medida con la estimacin y/o prediccin de la
media (de la poblacin) o valor promedio de la
variable dependiente, con base en los valores
conocidos o fijos de las variables explicativas.
Consideremos los datos de la tabla siguiente, la que se
refiere a la poblacin total de 60 familias de una
comunidad hipottica, as como a su ingreso semanal (X)
y a su gasto de consumo semanal (Y), dados en dlares.
82

Algunas ideas bsicas


Tabla 1

Gastos de consumo familiar semanal Y,$. Ingreso familiar semanal X,$


Y\X
80 100 120 140 160 180 200 220
55
65
79
80 102 110 120
135
60
70
84
93 107 115 136
137
65
74
90
95 110 120 140
140
70
80
94 103 116 130 144
152
75
85
98 108 118 135 145
157
88
113 125 140
160
115
162
Total
325 462 445 707 678 750 685 1043
Medias
65
77
89 101 113 125 137
149

240

260

137
145
155
165
175

150
152
175
178
180
185
191
1211
173

777
155

Las 60 familias se dividen en 10 grupos de ingresos


(de $80 a $260). Se tienen 10 valores fijos de X y los
correspondientes valores de Y para cada uno de los valores X;
as que hay 10 subpoblaciones Y
83

Algunas ideas bsicas

Se tienen 10 valores
medios para las 10
subpoblaciones de Y.

A estos valores medios se les


denomina valores esperados
condicionales, en vista de que
dependen de los valores
dados a la variable condicional
X. Se denota por E(Y/X)

Resulta importante distinguir dichos valores condicionales


esperados del valor esperado incondicional del gasto de
consumo semanal, E(Y).
E(Y)=7272/60=121,2
Es incondicional en el sentido de que para obtener esta cifra
se omiten los niveles de ingresos de las diversas familias
84

Algunas ideas bsicas


Cul es el valor esperado del gasto de consumo semanal
de una familia?
La media incondicional: $121,20
Cul es el valor esperado del gasto de consumo semanal
de una familia cuyo ingreso mensual es, digamos, $140?
La media condicional: $101
Saber el nivel de ingreso nos permite predecir mejor
el valor medio del gasto de consumo

85

Algunas ideas bsicas


Se puede observar en l grfico de dispersin, al unir las
medias condicionales la recta de regresin poblacional (RRP).
( o regresin de Y sobre X).
El adjetivo poblacional se debe al hecho de que en este
ejemplo se consider una poblacin de 60 familias.
Grfico de dispersin
Gasto de consumo v/s Ingreso
200
180
160

Gasto de consumo

140
120
100
80
60
40
0

20

40

60

80

100 120

Ingreso semanal

140

160 180

200

220 240

260

280

A pesar de la
variabilidad del
gasto para cada
ingreso, en
promedio el
consumo semanal
se incrementa en
la misma medida
que el ingreso
86

Curva de regresin poblacional


Desde el punto de vista geomtrico, una curva de
regresin poblacional es simplemente el lugar geomtrico
de las medias condicionales de la variable dependiente para los
valores fijos de la (s) variables explicativa(s).

Es la curva que conecta las


medias de las
subpoblaciones de Y que
corresponden a los valores
del regresor X

87

Concepto de funcin de regresin poblacional (FRP)


Es claro que cada media condicional E(Y/Xi) es funcin de Xi,
donde Xi es un valor dado de X.
E(Y/Xi)=f(Xi) (1)
y f(Xi) denota alguna funcin de la variable explicativa X.

Qu forma toma la funcin f(Xi)?


En una situacin real no tenemos la totalidad de la poblacin
para efectuar el anlisis.
La forma funcional de la FRP es, una pregunta emprica, aunque
en casos especficos la teora puede tener algo que decir. Por
ejemplo, un economista podra plantear que el gasto de
consumo est relacionado linealmente con el ingreso.
Por tanto, como una primera aproximacin podemos suponer
que la FRP es una funcin lineal de Xi

E (Y / X i ) 1 2 X i

88

Ecuacin de regresin poblacional FRP

E (Y / X i ) 1 2 X i

Ecuacin de
regresin
poblacional FRP

(2)

Donde 1 y 2 son parmetros no conocidos pero


fijos que se denominan coeficientes de regresin.
En el anlisis de regresin el inters es estimar la FRP,
es decir estimar los valores de 1 y 2
no
conocidos con base en las observaciones de Y y X
89

Significado del trmino lineal


Linealidad en las variables
Se dice que una funcin Y=f(X) es lineal en X si X aparece
elevado a una potencia o ndice de 1 solamente y dicha
variable no est multiplicada ni dividida por alguna otra variable

E (Y / X i ) 1 2 X i

es lineal en Xi.
Geomtricamente la curva de regresin es una lnea recta
Linealidad en los parmetros
Se dice que una funcin es lineal en el parmetro, 1 por ejemplo

si 1 aparece elevado a una potencia o ndice de 1 solamente y


no est multiplicado ni dividido por ningn otro parmetro.
Es lineal en los parmetros pero no
E (Y / X i ) 1 2 X i2
es lineal en la variable X

90

Especificacin estocstica de la FRP


Qu podemos decir sobre la relacin entre el gasto de
consumo de una familia individual y un nivel dado de ingresos?
Se observa en la figura , que dado el nivel de ingresos de Xi, el
gasto de consumo de una familia individual est agrupado alrededor
del consumo promedio de todas las familias en ese nivel de Xi, esto
es, alrededor de su esperanza condicional. Por consiguiente,
podemos expresar la desviacin de un Yi individual alrededor de su
valor esperado de la siguiente manera:

ui Yi E (Y / X i )

Yi E (Y / X i ) ui

(3)

Donde la desviacin ui es una variable aleatoria no observable


que toma valores positivos o negativos. Tcnicamente , ui es
conocida como perturbacin estocstica o trmino de error
estocstico.

91

Especificacin estocstica de la FRP


Se puede decir que el gasto de una familia individual,
dado su nivel de ingresos, puede ser expresado como la
suma de dos componentes

Yi E (Y / X i ) ui
La media del gasto
de consumo de
todas las familias
con el mismo nivel
de ingresos.

(4)

Componente aleatorio .
Es un sustituto para todas
aquellas variables que son
omitidas del modelo pero que
colectivamente afectan a Y
92

Especificacin estocstica de la FRP


Si se supone que E (Y / X i ) es lineal en Xi como en la ec (2)
la ecuacin (3) puede escribirse como

Yi E (Y / X i ) ui 1 2 X i ui

(5)

La ecuacin plantea que el gasto de consumo de una familia


est relacionado linealmente con su ingreso, ms el trmino de
perturbacin. As los gastos de consumo individual, dado
X=US$80, pueden ser expresados como

Y1 55 1 2 80 u2

Y2 60 1 2 80 u2
Y3 65 1 2 80 u3

Y4 70 1 2 80 u4
Y5 75 1 2 80 u5

93

Especificacin estocstica de la FRP


Ahora, si se toma el valor esperado de (5), obtenemos

Yi E (Y / X i ) ui

(5)

E (Yi / X i ) E E (Y / X i ) E (ui / X i )
E (Y/X i ) E (ui / X i )
Puesto que E (Yi / X i ) es lo mismo que E (Y / X i )
Implica que E (ui / X i ) 0

(6)

As, el supuesto de que la recta de regresin pasa a travs de las


medias condicionales de Y implica que los valores de la media
condicional de ui son cero.
94

Especificacin estocstica de la FRP


La especificacin estocstica

Yi E (Y / X i ) ui 1 2 X i ui

(7)

Tiene la ventaja que muestra claramente otras variables adems del


ingreso, que afectan el gasto de consumo y que un gasto de
consumo de familias individuales no puede ser explicado en su
totalidad solamente por la(s) variable(s) incluida(s) en el modelo de
regresin.

95

Funcin de regresin muestral (FRM)


En la prctica lo que se tiene al alcance no es ms que una
muestra de valores de Y que corresponden a algunos valores fijos
de X. Por consiguiente la labor ahora es estimar la FRP con base
en informacin muestral.
Supngase que no se conoca la poblacin de la tabla 1 y que la
nica informacin que se tena era una muestra de valores de Y
seleccionada aleatoriamente para valores dados de X tal como se
presenta en la tabla 2
Y
X
De la muestra de la tabla 2,
se puede predecir el gasto de
consumo semanal promedio Y para
la poblacin correspondiente a los
valores de X seleccionados?
Se puede estimar la forma FRP a
partir de la informacin muestral?

70
65
90
95
110
115
120
140
155
150

80
100
120
140
160
180
200
220
240
260

Tabla 2 Primera muestra

96

Funcin de regresin muestral (FRM)


Consideremos otra muestra tomada de la poblacin de la tabla 1.
Las rectas de la figura se conocen como rectas de regresin
muestral. En general, se podran obtener N FRM diferentes para N
muestras diferentes y estas FRM no necesariamente son iguales
Y

X
55
88
90
80
118
120
145
135
145
175

80
100
120
140
160
180
200
220
240
260

Tabla 3 Segunda muestra

97

Ahora, en forma anloga a la FRP en la cual se basa la recta de


regresin poblacional, se puede desarrollar el concepto de funcin
de regresin muestral.
La contraparte muestral de (1) puede escribirse como

Yi 1 2 X i
Donde

Yi estimador de E(Y/X)

Es la contraparte de

E (Y / X i ) 1 2 X i

1 estimador de 1

2 estimador de 2
Un estimador, conocido tambin como estadstico (muestral) es
simplemente una regla, o mtodo que dice cmo estimar el
parmetro poblacional a partir de la informacin suministrada por la
muestra disponible. Un valor numrico particular obtenido por el
estimador en una aplicacin es conocido como estimado.
98

Funcin de regresin muestral (FRM)


en su forma estocstica
La FRM en su forma estocstica se puede
expresar como

Yi 1 2 X i i
Donde

(8)

i denota el trmino residual (muestral)

Conceptualmente es anlogo a ui y puede ser considerado


como un estimado de ui
El objetivo principal en el anlisis de regresin
es estimar la FRP

Yi 1 2 X i i

Con base en la FRM

Yi 1 2 X i i
99

Rectas de regresin muestral y poblacional

Debido a fluctuaciones muestrales el estimado de la FRP basado


en FRM es, en el mejor de los casos, una aproximacin.
100

Rectas de regresin muestral y poblacional


Para X=Xi, se tiene una observacin muestral Y=Yi. En trminos de
la FRM, la Yi observada puede ser expresada como

Yi Yi i
Y en trminos de la FRP, puede ser expresada como

Yi E (Y / X i ) i
Dado que la FRM es apenas una aproximacin de la FRP, se
puede disear un mtodo que haga que esta aproximacin
sea lo ms ajustada posible?

101

Funcin de regresin simple:


problema de estimacin
La tarea consiste en estimar la funcin de regresin
poblacional (FRP) con base en la funcin de regresin
muestral (FRM) en la forma ms precisa posible.
Los dos mtodos de estimacin que suelen utilizarse
son:
1) Los mnimos cuadrados ordinarios (MCO)
2) La mxima verosimilitud (MV).
El mtodo de MCO es el que ms se emplea en el
anlisis de regresin por ser en gran medida ms
intuitivo y matemticamente ms simple.
102

Mtodo de mnimos cuadrados ordinarios (MCO)


El mtodo MCO se atribuye a Carl Friedrich Gauss un matemtico
alemn. Bajo ciertos supuestos el mtodo tiene algunas
propiedades estadsticas muy atractivas que lo han convertido en
uno de los ms eficaces y populares del anlisis de regresin.

Primero se estima ui Yi 1 2 X i

(9)

que muestra que los residuos son simplemente las


diferencias entre los valores observados y los
estimados de Y.
Ahora, dados n pares de observaciones de Y y X, se
est interesado en determinar la FRM de tal manera
que est lo ms cerca posible a la Y observada.
103

Mtodo de mnimos cuadrados ordinarios (MCO)


Con este fin se puede adoptar el siguiente criterio: seleccionar
la FRM de tal manera que la suma de los residuos :

sea la menor posible.


Este criterio, no es muy bueno
porque a todos los residuos se les
da la misma importancia sin
considerar qu tan cerca o qu
tan dispersas estn las
observaciones individuales de la
FRM. Debido a lo anterior, es muy
posible que la suma algebraica de
los residuos sea pequea (aun

cero) a pesar de que las u estn


i
bastante dispersas alrededor de
FRM.

ui Yi Y i

104

Valores ajustados y residuos

105

Mtodo de mnimos cuadrados ordinarios (MCO)


Se puede evitar este problema si se adopta el criterio de
mnimos cuadrados, el cual establece que la FRM puede
determinarse en forma tal que
2

Y
i
i i

Yi 1 2 X i

(10)

sea la menor posible. Este mtodo da ms peso a los residuos

tales como u1 y u4
que a los residuos
u 2 y u3
El procedimiento de MCO genera las siguientes ecuaciones
para estimar 1 y 2 donde n es el tamao de la muestra

106

Mtodo de mnimos cuadrados ordinarios (MCO)

Y n X
Y X X X
i

2
i

Ecuaciones
normales

Resolviendo las ecuaciones normales simultneamente se obtiene

xy

x
i

2
i

1 Y - 2 X

Estimadores
de mnimos
cuadrados

107

Modelo clsico de regresin lineal:


supuestos detrs del mtodo MCO
El modelo de Gauss, modelo clsico o estndar de regresin
lineal (MCRL) el cual es el cimiento de la mayor parte de la
teora economtrica, plantea 10 supuestos.
Supuesto 1: Modelo de regresin lineal
El modelo de regresin es lineal en los parmetros

Yi 1 2 X i i

modelo simple

Supuesto 2: Los valores de X son fijos en muestreo


repetido.
Significa que el anlisis de regresin es un anlisis de
regresin condicional, esto es, condicionado a los valores
dados del (los) regresor X.
108

Supuesto 3: El valor medio de la perturbacin ui es igual


a cero.
Dado el valor de X, el valor esperado del trmino aleatorio de
perturbacin ui es cero.

E (ui / X i ) 0

Ntese que el supuesto


E(ui/Xi)=0 implica que

E (Y / X i ) 1 2 X i

109

Supuesto 4: Homocedasticidad o igual varianza de ui.


Dado el valor de X, la varianza de ui es la misma para todas
las observaciones, es decir, las varianzas condicionales de ui
son idnticas.
2

var(ui / Xi )

Homocedasticidad

Heterocedasticidad
110

Supuesto 5: No existe auto correlacin entre las


perturbaciones.
Dados dos valores cualquiera de X, Xi y Xj , la correlacin entre
dos ui y uj es cero.

cov(ui, uj / Xi, X j ) 0

111

Supuesto 6: La covarianza entre ui y Xi es cero o E(uiXi)=0

cov(ui, X i ) 0
Supuesto 7: El nmero de observaciones n debe ser mayor
que el nmero de parmetros por estimar.
Supuesto 8: Variabilidad en los valores de X.
No todos los valores de X en una muestra dada deben ser
iguales.

var( X ) 0

Recordar que la varianza muestral de X es

var( X )

n 1
112

Supuesto 9: El modelo de regresin est correctamente


especificado.

Supuesto 10:No hay multicolinealidad perfecta.


No hay relaciones perfectamente lineales entre las variables
explicativas.
113

Precisin o errores estndar de los mnimos


cuadrados estimados
Lo que se requiere es alguna medida de confiabilidad o precisin

de los estimadores

1 y 2

. En estadstica la precisin de un

valor estimado es medida por su error estndar (ee). Los errores


estndar de los MCO estimados pueden obtenerse de la siguiente
manera

2
var( 2 )
2
x
i

ee( 2 )

2
i

(11)

Nota: El error estndar es la desviacin estndar de la distribucin


muestral del estimador, y la distribucin muestral es una distribucin
del conjunto de valores del estimador obtenidos de todas las
muestras posibles de igual tamao de una poblacin dada.
114

Precisin o errores estndar de los mnimos


cuadrados estimados
Nota:

2 es estimada mediante la frmula

Donde
.

2
i

Suma de residuos
al cuadrado (SRC)

n2

Nmero de
grados de libertad

es el estimador de MCO de la verdadera

El trmino nmero de grados de libertad

(12)

significa el nmero

total de observaciones n menos el nmero de restricciones


puestas en ellas.
115

Error estndar de la regresin

2
i

(13)

n2

Es la desviacin estndar de los valores de Y


alrededor de la recta de regresin estimada, la cual
es utilizada como una medida resumen de la
bondad del ajuste de dicha recta

116

Propiedades de los estimadores de mnimos


cuadrados: Teorema de Gauss-Markov
Dados los supuestos del modelo de regresin lineal
clsica, los estimativos de mnimos cuadrados
poseen propiedades ideales u ptimas, las cuales se
encuentran resumidas en el teorema de Gauss
Markov

Un estimador 2 de MCO es el mejor estimador


lineal insesgado (MELI) de 2 si:
1. Es lineal, es decir, una funcin lineal de una
variable aleatoria tal como la variable dependiente Y
en el modelo de regresin.
117

Propiedades de los estimadores de mnimos


cuadrados: Teorema de Gauss-Markov

2. Es insesgado, es decir, su valor promedio o

esperado, E ( 2 ) es igual al valor verdadero, E ( )


2
2
3. Tiene varianza mnima entre la clase de todos los
estimadores lineales insesgados; a un estimador
insesgado con varianza mnima se le conoce como
estimador eficiente

118

Teorema de Gauss-Markov
En el contexto del anlisis de regresin se puede demostrar
que los estimadores de MCO son MELI

Teorema de Gauss-Markov: Dados los supuestos


del modelo clsico de regresin lineal, los
estimadores de mnimos cuadrados, en la clase
de estimadores lineales insesgados, tienen
varianza mnima; es decir son MELI

119

Coeficiente de determinacin r2
Una medida de la bondad del ajuste

La cantidad r2 se conoce como coeficiente de


determinacin (muestral) y es la medida ms
frecuente utilizada de la bondad del ajuste de
una recta de regresin.

Mide la proporcin o el porcentaje de la variacin total


en Y explicada por el modelo de regresin

120

Coeficiente de determinacin r2
Para calcular r2 , para cada i se escribe:

yi y i i
Elevando la expresin al cuadrado en ambos lados y
sumando sobre la muestra, se obtiene

(14)

puesto que y i ui 0

y i 2 xi

121

Coeficiente de determinacin r2
Las diversas sumas de cuadrados que aparecen en la expresin
anterior pueden describirse de la manera siguiente

2
yi Yi Y

(STC)

variacin total de los valores reales de y con respecto a su media


muestral, los cuales pueden ser llamados suma total de cuadrados
(STC)
2
2
2
2
2

y i Yi Y Y Y 2 xi
(SEC)

variacin de los valores Y estimados alrededor de su media Y


que apropiadamente puede llamarse la suma de los cuadrados
debida a la regresin [es decir, debida a la(s) variable(s)
explicativa(s)], o explicada por sta, o simplemente la suma
explicada de cuadrados (SEC).

122

Coeficiente de determinacin r2

2
i

(SRC)

As, (14) es
STC = SEC + SRC

la variacin residual o no explicada


de los valores de Y alrededor de la
recta de regresin, o simplemente
la suma de residuos al cuadrado
(SRC).

123

Coeficiente de determinacin r2
muestra que la variacin total en
los valores Y observados
alrededor del valor de su media
puede ser dividida en dos partes,
una atribuible a la recta de
regresin y la otra a fuerzas
aleatorias, puesto que no todas
las observaciones Y caen sobre
la recta ajustada. Ahora
dividiendo por la STS en ambos
lados, se obtiene
Ahora, se define r2 como

STC = SEC + SRC

r2

Y
Y

SEC
STC
124

Coeficiente de determinacin r2
O en forma alterna
2

r 1
2

Coeficiente de
SRC
(15) determinacin
1
STC

La cantidad r2 as definida se conoce como el coeficiente de


determinacin (muestral) y es la medida ms frecuentemente
utilizada de la bondad del ajuste de una recta de regresin
r2 mide la proporcin o el porcentaje de la variacin total
en Y explicada por el modelo de regresin.

125

Coeficiente de correlacin muestral


Una cantidad estrechamente relacionada con r 2 pero
conceptualmente muy diferente de sta es el coeficiente de
correlacin, el cual, es una medida del grado de asociacin entre
dos variables. Puede ser calculado a partir de

r r 2
O a partir de su definicin

xy

x y
i

2
i

2
i

x y
n x x n y y
n xi yi

(16)
126

Propiedades de r
Puede tener signo positivo o negativo, dependiendo del signo del
trmino en el numerador de (16), el cual mide la covariacin
muestral de dos variables.
Cae entre los lmites de -1 y 1
Es simtrico por naturaleza; es decir, el coeficiente de correlacin
entre X y Y (rxy) es el mismo que entre Y y X (ryx).

Es independiente del origen y de la escala


Si X y Y son estadsticamente independientes, el coeficiente de
correlacin entre ellos es cero; pero si r = O, esto no significa que las
dos variables sean independientes. En otras palabras, una
correlacin igual a cero no necesariamente implica independencia.
Es una medida de asociacin lineal o dependencia lineal
solamente; su uso en la descripcin de relaciones no lineales no
tiene significado.
127

Coeficiente de correlacin muestral

128

Interpretacin de la pendiente:
Puesto que el coeficiente de la pendiente es
simplemente la tasa de cambio, se mide en
las unidades de la siguientes proporcin
unidades de la variable dependiente (Y)
unidades de la variable explicativa (X)

La interpretacin del coeficiente de la pendiente


2 es que si X cambia en una unidad , la Y
cambia en promedio en 2 unidades

129

Ejemplo; Gasto de consumo familiar e ingreso familiar


Considerando una muestra de una poblacin donde X representa
ingreso familiar por semana e Y gastos de consumo familiar por
semana, se obtienen los siguientes clculos
Y

X
70
65
90
95
110
115
120
140
155
150

80
100
120
140
160
180
200
220
240
260

1 24,4545

2 0,5091
r 2 0,9621

se( 1 ) 6,4138

se( 2 ) 0,0357
r 0,9809

Por tanto la lnea de regresin estimada es

Yi 24,4545 0,5091X i
130

Ejemplo; Gasto de consumo familiar e ingreso familiar


Resultados en SPSS
Resumen del modelo
Modelo
1

R
,981a

R cuadrado
,962

R cuadrado
corregida
,957

Error tp. de la
estimacin
6,493

a. Variables predictoras: (Constante), X

Coeficientesa

Modelo
1

(Constante)
X

Coeficientes no
estandarizados
B
Error tp.
24,455
6,414
,509
,036

Coeficientes
estandarizad
os
Beta
,981

t
3,813
14,243

Sig.
,005
,000

a. Variable dependiente: Y

131

Ejemplo; Gasto de consumo familiar e ingreso familiar


Interpretacin:

El valor de
0,5091 que mide la pendiente de la lnea, muestra
que dentro del rango de la muestra de X comprendido entre $80 y
$260 semanales, a medida que X aumenta, digamos en $1, el
aumento estimado en el promedio de gastos de consumo semanales
es de aproximadamente 51 centavos. El valor
, el cual
de
24,45
corresponde a la interseccin de la lnea, indica el nivel promedio de
los gastos de consumo semanales cuando el ingreso semanal es
cero. No obstante, esta es una interpretacin mecnica de la
interseccin. En el anlisis de regresin esta interpretacin literal del
intercepto no es siempre significativa, aunque en el ejemplo que
estamos considerando se puede argumentar que una familia sin
ingreso alguno( ya sea por desempleo, despido, etc.) puede
mantener algn nivel mnimo de gastos de consumo, ya sea
tomando dinero prestado o utilizando sus ahorros.

132

Ejemplo; Gasto de consumo familiar e ingreso familiar


Sin embargo en general, se debe apelar al sentido comn para
interpretar la interseccin puesto que es muy comn que el rango
que ha tomado la muestra de valores de X no haya incluido el
valor cero como uno de los valores observados.
Quiz sea mejor interpretar la interseccin como el efecto medio
o promedio que tienen todas las variables omitidas del modelo de
regresin sobre el valor de Y. El valor de 0,9621 para r cuadrado
significa que cerca del 96% de la variacin en los gastos de
consumo semanales se explica por la variable ingreso; puesto
que r cuadrado puede tener un valor mximo de 1 solamente, el r
cuadrado observado sugiere que la lnea de regresin muestral
se ajusta muy bien a la informacin. El coeficiente de correlacin
de 0,9809 muestra que las dos variables, gastos de consumo e
ingreso, estn muy positivamente correlacionadas.

133

Ejemplo: Salario y educacin


De la poblacin de trabajadores en 1976, sea y = sala, en la que
sala se mide, en dlares por hora. As, para una persona
cualquiera, si sala = 6.75, el salario por hora es de 6.75 dlares.
Sea x = educ los aos de escolaridad; por ejemplo, educ = 12
corresponde a la educacin preparatoria completa. Puesto que el
salario promedio de la muestra es de 5.90 dlares, el ndice de
precios al consumidor indica que esta suma es equivalente a 16.64
dlares de 1997.
Con los datos de SALA 1.RAW, en los que n = 526 individuos,
obtenemos la siguiente lnea de regresin de MCO (o funcin de
regresin muestra!):

sala 0.90 0.54 educ.

134

Ejemplo: Salario y educacin


Debemos interpretar con cuidado la ecuacin. La intercepcin
-0.90 significa literalmente que una persona sin instruccin
recibe un salario pronosticado de -90 centavos de dlar por
hora, lo que, desde luego, es una tontera. Resulta que ningn
miembro de la muestra tiene menos de ocho aos de
educacin, lo que explica el pronstico descabellado de una
escolaridad de 0 aos.
Para una persona con ocho aos de escolaridad, el salario
pronosticado es

sala

= -0.90 + 0.54(8) = 3.42, o 3.42 dlares por hora


(en dlares de 1976).

La estimacin de la pendiente implica que un ao ms de


educacin aumenta el salario promedio en 54 centavos de
dlar por hora.
135

Ejemplo: Resultados electorales y gastos de campaa


El archivo VOTE 1.RAW contiene datos sobre los resultados
electorales y los gastos de campaa de 173 contiendas
bipartidistas para la Cmara de los Representantes
estadounidense en 1988.
En cada contienda hay dos candidatos, A y B.
Sea votoA el porcentaje de los votos recibidos por el
candidato A y partA el porcentaje de participacin de los
gastos de su campaa, ambos en el total correspondiente.
Adems de partA, muchos otros factores influyen en los
resultados electorales (entre ellos la calidad de los
candidatos y posiblemente las sumas gastadas por A y B).
No obstante, podemos estimar un modelo de regresin
simple para averiguar si gastar ms que el contrario produce
un porcentaje mayor en la votacin.
136

Ejemplo: Resultados electorales y gastos de campaa


La ecuacin estimada con las 173 observaciones es

votoA = 40.90 + 0.306 partA.


Esto significa que, si la participacin de los gastos del
candidato A aumenta un punto porcentual, ste casi obtiene
un tercio de punto porcentual ms de R
la2 votacin total.
En la ecuacin de los resultados electorales
= 0.505.
As, la participacin en los gastos de campaa explica algo
ms de 50 por ciento de la variacin en los resultados de
esta muestra, lo cual es una proporcin bastante
considerable.

137

El supuesto de normalidad: El modelo clsico de


regresin lineal normal
Recordemos que con los supuestos vistos anteriormente los

estimadores de MCO 1 , 2 , 2 satisfacan diferentes propiedades


estadsticas muy deseables, tales como insesgamiento y varianza
mnima . Si nuestro objetivo es nicamente la estimacin puntual el
mtodo de MCO ser suficiente, sin embargo la estimacin puntual
es slo la formulacin de un aspecto de la inferencia estadstica.
Nuestro inters no consiste solamente en estimar la funcin muestral
de regresin (FRM), sino tambin en utilizarla para obtener
inferencias respecto a la funcin de regresin poblacional (FRP).

138

El supuesto de normalidad: El modelo clsico de


regresin lineal normal
La regresin lineal normal clsica supone que cada ui,
est normalmente distribuida con

Media :
Varianza :
Cov (ui , u j ) :

E(ui ) 0

E ui E (ui ) E (ui2 ) 2
2

E ui E (ui ) u j E (u j ) E (ui u j ) 0 i j

Estos supuestos pueden expresarse en forma ms compacta como

ui ~ N(0, 2 )
139

El supuesto de normalidad
La regresin lineal normal clsica supone que la distribucin
probablistica de ui es normal.
La suposicin de normalidad permite utilizar las pruebas
estadsticas t, F, 2
Consideremos el ejemplo consumo e ingreso.

Yi 24,4545 0,5091X i

Obtuvimos que la PMC estimada es de 0,5091,


correspondiente a una sola estimacin puntual de la PMC de
la poblacional desconocida.

Qu tan confiable es esta estimacin?.


Debido a fluctuaciones muestrales, es posible que una sola
estimacin difiera del valor verdadero, aunque en un
muestreo repetido se espera que su valor medio sea igual al

valor verdadero
E ( 2 ) 2

140

Estimacin de intervalos
Ahora, en estadstica, la confiabilidad de un estimador
puntual se mide por su error estndar. Por consiguiente,
en lugar de depender de un solo estimador puntual, se
puede construir un intervalos alrededor del estimador
puntual, por ejemplo, dentro de dos o tres errores
estndar a cada lado del estimador puntual, tal que este
intervalo tenga, digamos, 95% de probabilidad de incluir
el verdadero valor del parmetro. Esta es la idea bsica
de la estimacin de intervalos.

141

Estimacin de intervalos

Consideremos el ejemplo hipottico consumo-ingreso. La ecuacin

Yi 24,4545 0,5091X i

muestra que la propensin marginal a consumir (PMC) estimada es


0,5091, la cual constituye una nica estimacin (puntual) de la PMC
poblacional desconocida 2 que es un (punto) estimado de la
poblacin desconocida PMC 2 .

Qu tan confiable es esta estimacin?


Debido a las fluctuaciones muestrales, es probable que una sola
estimacin difiera del valor verdadero, aunque en un muestreo
repetido se espera que el valor de su media sea igual al valor
verdadero (Nota: E ( 2 ) 2
)
142

Estimacin de intervalos
Ahora, en estadstica, la confiabilidad de un estimador puntual se
mide por su error estndar. Por consiguiente, en lugar de depender
de un solo estimador puntual, se puede construir un intervalo
alrededor del estimador puntual, por ejemplo, dentro de dos o tres
errores estndar a cada lado del estimador puntual, tal que este
intervalo tenga, digamos, 95% de probabilidad de incluir el verdadero
valor del parmetro. sta es, a grandes rasgos, la idea bsica de la
estimacin de intervalos.
Para ser ms especfico, supngase que se desea encontrar qu tan"

cerca" est por ejemplo, 2 de 2


Con este fin, tratamos de encontrar dos nmeros positivos, y ,
este ltimo situado
entre 0 y 1, tal que la probabilidad de que el

2 - , 2 -
intervalo aleatorio

contenga el verdadero 2 sea 1 - .


143

Estimacin de intervalos
Simblicamente

Pr 2 - 2 2 1

Tal intervalo, si existe, se conoce como intervalo de confianza;


a 1 - se le denomina coeficiente de confianza; y (0 < < 1)
se conoce como el nivel de significancia.
Los puntos extremos del intervalo de confianza se conocen como
lmites de confianza (tambin denominados valores crticos),

siendo 2 - el lmite de confianza inferior y 2


el lmite de confianza superior.
Obsrvese que en la prctica y 1 - son expresados
frecuentemente en forma porcentual como 100 y 100(1 - )%.

144

Intervalos de confianza para los


coeficientes de regresin 1 y 2
Intervalo de confianza de 100(1-) por ciento para

- t /2 se(

Al regresar a nuestro ejemplo ilustrativo de consumo e ingreso


encontramos que

2 0,5091

se( 2 ) 0,0357

Si suponemos que que =5%, es decir un coeficiente de


confianza del 95% entonces la tabla t muestra que para 8 gl, el t
crtico es t 0,025 2.306
145

Intervalos de confianza para los


coeficientes de regresin 1 y 2
Al sustituir esos valores se obtiene que el intervalo de confianza
del 95% para 2 es el siguiente:
0,4268 2 0,5914

La interpretacin de este intervalo de confianza es: dado un


coeficiente de confianza del 95%, a largo plazo, en 95 de cada cien
casos, intervalos como (0,4268 ; 0,5914) contendrn el verdadero
2 .
Como se advirti antes, obsrvese que no se puede decir que la
probabilidad de que el intervalo especfico (0,4268 ; 0,5914)
contenga el verdadero 2 . de 95% porque este intervalo es ahora fijo
y no aleatorio;por consiguiente 2 se encontrar o no dentro de l.
146

Intervalos de confianza para los


coeficientes de regresin 1 y 2
Para el ejemplo consumo-ingreso, el intervalo de confianza para
1 al 95% es:
9,6643 1 39,2448

Utilizando

Se tiene

- t /2 se(

24,4545 - 2,306(6,4138)

Se debe ser cauteloso al interpretar el intervalo de confianza


( 9,6643; 39,2448). A largo plazo, en 95 de cada 100 casos, intervalos
como ( 9,6643; 39,2448) contendrn el verdadero 1; la probabilidad de
que este intervalo fijo incluya el verdadero 1 es 1 o 0
147

Prueba de hiptesis.

Prueba t

La idea fundamental detrs de las pruebas de significancia consiste


en utilizar un estadstico de prueba ( estimador).
Bajo el supuesto de normalidad la variable


t 1 1

se( 1 )

sigue la distribucin t con N-2 grados de libertad. Si el valor


verdadero de 1 se especifica en la hiptesis nula, el valor t puede
calcularse fcilmente a partir de la muestra disponible, pudiendo
servir por tanto como estadstico de prueba

148

Prueba de hiptesis. Prueba t


Consideremos nuevamente el ejemplo de
consumo -ingreso. Sabemos que

1 0,5091

Si Ho: 1=0,3

0,5091 0,3
5,86
0,0357
Si 5%, , , gl 8 entonces

se( 1 ) 0,0357

H1: 10,3

t0, 025 2.306

luego el t calculado es mayor al t de tabla y por lo tanto se rechaza la hiptesis nula

El procedimiento anterior se denomina prueba t. En el lenguaje


de pruebas de significancia, se dice que un estadstico es
estadsticamente significativo si el valor del estadstico de
prueba se encuentra en la regin crtica. En nuestro ejemplo, el
estadstico t es significativo y procedemos a rechazar la
hiptesis nula.
149

Aplicacin problema de prediccin


Con base en los datos muestrales, se obtuvo la siguiente
regresin muestral.

Yi 24,4545 0,5091X i

Donde Y es el estimador del verdadero E (Yi ) correspondiente


t
a X dada. Qu uso se puede dar a esta regresin histrica?
Uno es predecir o pronosticar el gasto de consumo futuro Y
correspondiente a algn nivel dado de ingreso X.
Ahora, hay dos clases de predicciones:
1) la prediccin del valor de la media condicional de Y
correspondiente a un valor escogido X, por ejemplo, que es el
punto sobre la recta de regresin poblacional misma, y
2) prediccin de un valor individual Y correspondiente a X 0 .
Se llamarn estas dos predicciones de prediccin media y la
prediccin individual.

150

Aplicacin problema de prediccin


Supngase que Xo = 100 y se desea predecir
E(Y I Xo = 100). Ahora, puede demostrarse que la regresin

histrica
Yi 24,4545 0,5091X i

proporciona la estimacin puntual de esta prediccin media de la

siguiente forma:
Y0 1 2 X 0

24.4545 0.5091(100) 75.3645

Donde Y0 = estimador de E(Y I Xo). Puede demostrarse que este


predictor puntual es el mejor estimador lineal e insesgado (MELI).

Puesto que Y0 es un estimador, es probable que ste sea diferente


de su verdadero valor. La diferencia entre los dos valores dar
alguna idea sobre el error de prediccin o de pronstico.
151

Aplicacin problema de prediccin

se demuestra que en la ecuacin Y0 1 2 X 0

Y0 est normalmente distribuida con media

varianza dada por la siguiente frmula:

1 2 X 0

y con una

X X
2 1
var(Y0 )
0 2
n
xi

Al reemplazar 2 desconocida por su estimador insesgado se

cumple que la variable


Y X
0

ee(Y 0 )

sigue una distribucin t con n - 2 g de l. La distribucin t


puede ser utilizada por consiguiente para construir intervalos
de confianza para el verdadero E(Yo I Xo) y para hacer
pruebas de hiptesis acerca de tal valor de la manera usual,
a saber,

1 2 X 0

- /2

ee(Y 0 )
152

Aplicacin problema de prediccin


Para los datos del ejemplo (tabla 3.3 anexo 1)
1 100 170 2
var(Y0 ) 42.159

10.4759
33000
10

ee(Y0 ) 3.2366

Por consiguiente, el intervalo de confianza al 95% para el


verdadero
E (Y / X 0 ) 1 2 X 0
es

67.9010 E (Y / X 100) 82.8381

Por tanto, dada X0 =100, en muestreo repetido, en 95 de cada 100


intervalos como el anterior estar incluido el verdadero valor medio;
la mejor estimacin del verdadero valor medio es, por supuesto, la
estimacin puntual 75.3645
153

Prediccin individual
Si nuestro inters est en predecir un valor individual Y, Y0
correspondiente a un valor dado X, digamos X0, entonces el mejor
estimador lineal insesgado de Y0 est dado tambin por

Y0 1 2 X 0
24.4545 0.5091(100) 75.3645

Pero su varianza es la siguiente

(17)

1 X X
var(Y0 Y 0 ) E (Y0 Y 0 ) 2 1 0 2

n
xi

(18)

Puede demostrarse adems que Y0 tambin sigue una distribucin


normal con media
y varianza dadas por (17) y (18), respectivamente.

2
Sustituyendo 2 desconocida por
se cumple que

Y0 Y0

ee(Y0 Y0 )

tambin sigue una distribucin t


154

Prediccin individual
Por consiguiente, la distribucin t puede utilizarse para hacer
inferencia sobre la verdadera Yo. Al continuar con nuestro ejemplo
consumo-ingreso, se ve que la prediccin puntual de Yo es

75.3645, igual a Y0 y su varianza es 52.6349. Por consiguiente, el


intervalo de confianza al 95% para Yo correspondiente a Xo =100
es

(58.6345 Y0 / X 0 100) 92.0945)

Comparando este intervalo con


67.9010 E (Y / X 100) 82.8381

Se ve que el intervalo de confianza para el Y0 individual es ms


amplio que el intervalo para el valor medio de Y0
155

Intervalos de confianza para Y media y


para valores individuales de Y

156

Formas funcionales de los modelos de regresin


Consideremos algunos modelos de regresin que
pueden ser no lineales en las variables pero que son
lineales en los parmetros o que pueden serIo
mediante transformaciones apropiadas de las
variables.
En particular, consideremos los modelos de regresin:
1. El modelo log-lineal
2. Modelos semilogartmicos

157

Cmo medir la elasticidad: Modelo Log-Lineal


Considrese el siguiente modelo, conocido como el
modelo de regresin exponencial:

Yi 1 X i 2 e i

El cual puede ser expresado alternativamente

ln Yi ln 1 2 ln X i i
Si escribimos como

ln Yi 2 ln X i i
Donde

ln 1 este modelo es lineal en los parmetros y 2

y lineal en los logaritmos de las variables Y y X y puede ser


estimado por regresin MCO
158

Cmo medir la elasticidad: Modelo Log-Lineal


Una caracterstica importante del modelo log-Iog, que
lo ha hecho muy popular en el trabajo emprico, es
que el coeficiente de la pendiente 2 mide la
elasticidad de Y con respecto a X, es decir, el cambio
porcentual en Y ante un pequeo cambio porcentual
en X dado. As, si Yrepresenta la cantidad
demandada de un bien y X su precio unitario, 2 mide
la elasticidad-precio de la demanda, un parmetro de
gran inters en economa.

159

Modelo de elasticidad constante

Cantidad demandada

Yi 1 X i 2 e i

Precio

ln de cantidad demandada

Si la relacin entre la cantidad demandada y el precio es como


se muestra en la figura (a ) la transformacin doble-Iog
presentada en la figura ( b) dar entonces la estimacin de la
elasticidad-precio (-2 )
lnY

ln Y ln 1 2 ln X i

lnX
Ln del Precio
160

Ejemplo
Gasto en bienes duraderos respecto al gasto de
consumo personal total
Consideremos datos sobre el gasto de consumo personal total
(GCPERT), el gasto en bienes duraderos (GASBD), el gasto en
bienes perecederos (GASBPER) y el gasto en servicios
(GASERV), todos medidos en millones de dlares de 1992.
(tabla 6.3-Anexo 1)
Su pngase que se desea calcular la elasticidad del gasto en
bienes durables respecto al gasto de consumo personal total. Al
graficar el logaritmo del gasto en bienes durables en comparacin
con el logaritmo del gasto de consumo personal total, se observar
que la relacin entre las dos variables es lineal. Por tanto, el
modelo del doble logaritmo podra resultar adecuado. Los
resultados de la regresin son:
161

In GASBD = -9.6971 + 1.9056 In GCPERT,


ee = (0.4341)
(0.0514)
t =
(-22.3370)*
(37.0962)*
r = 0.9849
donde * indica que el valor p es extremadamente pequeo.
Todos estos resultados muestran que la elasticidad de GASBD
respecto a GCPERT es de casi 1.90, lo que sugiere que si el gasto
personal total aumenta 1 %, en promedio, el gasto en bienes
duraderos se incrementa casi 1.90%. En consecuencia, el gasto en
bienes duraderos es muy sensible a los cambios en el gasto de
consumo personal. sta es una razn por la que los productores de
bienes duraderos siguen muy de cerca los cambios en el ingreso
personal y el gasto de consumo personal.

162

Ejemplo: Salario y ventas


Podemos estimar un modelo de elasticidad constante que relacione
el salario del director ejecutivo con las ventas de la empresa. Sea
vtas las ventas anuales de la compaa, medidas en millones de
dlares. Un modelo de elasticidad constante es

ln sala 0 1 ln vtas u

en el que es la elasticidad de sala en relacin con vtas. Este


modelo se encuentra entre los de regresin simple, al definir la
variable dependiente como y = log(sala) y la independiente como
x = log(vtas). La estimacin de esta ecuacin mediante MCO da

ln sala 4.822 0.257 ln vtas


n 209, R 2 0.211.

El coeficiente de ln(vtas) es la elasticidad estimada de sala con


respecto a vtas. Implica que un incremento de uno por ciento en
las ventas de la compaa aumenta el salario del director ejecutivo
en alrededor de 0.257 por ciento, que es la interpretacin usual de
elasticidad.

163

Cmo medir la tasa de crecimiento: Modelo Log-Lin


Los economistas, la gente de negocios y los gobiernos
frecuentemente estn interesados en encontrar la tasa de
crecimiento de ciertas variables econmicas. tales como
poblacin, PNB, oferta monetaria, empleo, productividad, dficit
comercial. etc.
Supngase que se desea saber la tasa de crecimiento del gasto
de consumo personal en servicios.
Sea Y, el gasto real en servicios en el tiempo t, y Yo el valor inicial
del gasto en servicios.
Recordemos la muy conocida frmula del inters compuesto, vista
en los cursos bsicos de economa.

Yi Y0 (1 r) t

(1)

Donde r es la tasa de inters compuesta de Y


164

Cmo medir la tasa de crecimiento: Modelo Log-Lin


Tomando el logaritmo natural, podemos escribir

ln Yi ln Y0 t ln(1 r)
Ahora sea

1 lnY0

(2)

2 ln(1 r)

Se puede escribir (2) as

ln Yi 1 2 t

(3)

Agregando el trmino de perturbacin, se obtiene

ln Yi 1 2 t i

(4)

Este modelo es igual a cualquier otro modelo de regresin


lineal en el sentido de que los parmetros 1 y 2 son lineales.
La nica diferencia es que la variable dependiente o regresada
es el logaritmo de Y y el regresor o variable explicativa es el
"tiempo", que adquiere valores de 1 ,2,3, etc.

165

Cmo medir la tasa de crecimiento: Modelo Log-Lin


Modelos como

ln Yi 1 2 t i

se denominan modelos semilog porque solamente una variable (en


este caso la regresada) aparece en forma logartmica.
Para fines descriptivos, un modelo en el cual la variable regresada
es logartmica se denominar modelo log-lin.

En este modelo el coeficiente de la pendiente mide el


cambio proporcional constante o relativo en Y para un
cambio absoluto dado en el valor del regresor (en este
caso la variable t ), es decir;

cambio relativo en Y
2
cambio absoluto en X
166

Cmo medir la tasa de crecimiento: Modelo Log-Lin


Si se multiplica el cambio relativo en Y por 100, 2 nos dar
entonces el cambio porcentual, o la tasa de crecimiento, en Y
ocasionada por un cambio absoluto en X, el regresor.
Es decir, 100 por 2 da como resultado la tasa de crecimiento en Y;
100 por 2 se conoce en la literatura como la semielasticidad de Y
respecto a X.

167

Cmo medir la tasa de crecimiento: Modelo Log-Lin


Ejemplo: Para ilustrar el modelo de crecimiento
ln Yi 1 2 t i

consideremos los datos sobre el gasto en servicios


proporcionados en (tabla 6.3-Anexo 1). Los resultados de
la regresin son los siguientes:
ln

=
ee =
t =

GES T

7.7890
(0.0023)
(3.387.619)*

0.00743t
(0.00017)
(44.2826)*

r2

= 0.9894

Nota: GES significa gasto en servicios y el asterisco (*)


denota que el valor p es extremadamente pequeo.

168

Cmo medir la tasa de crecimiento: Modelo Log-Lin


La interpretacin de la ecuacin es
que durante un periodo de un
trimestre, el gasto en servicios se
increment a una tasa (trimestral)
de 0.743%. Aproximadamente esto
es igual a un crecimiento anual de
2.97%. Puesto que
7.7890 = ln(GES) al comienzo del
periodo de anlisis, si se toma su
antilogaritmo se tiene 2.41390
(billones de dlares), como el valor
inicial de GES (es decir, el valor al
final del ltimo trimestre de 1992).
169

Cmo medir la tasa de crecimiento: Modelo Log-Lin


Ejemplo: Salario y educacin
Recuerde el ejemplo del salario y la educacin, en el que hicimos la
regresin del salario por hora sobre los aos de escolaridad.
Obtuvimos una estimacin de la pendiente de 0.54, que significa
que pronosticamos que cada ao adicional de instruccin aumenta
. promedio el salario por hora en 54 centavos de dlar.
en
A causa del carcter lineal de

sala 0.90 0.54 educ.

0, 54 centavos es el incremento tanto para el primer ao como para


el vigsimo, lo que acaso no sea razonable.
Ahora, consideremos ln(sala) como la variable dependiente,
obtenemos la siguiente relacin:

ln sala 0.584 0.083 educ


n 526, R 2 0.186
170

Cmo medir la tasa de crecimiento: Modelo Log-Lin


El coeficiente de educ tiene una interpretacin porcentual cuando se
multiplica por 100: sala aumenta 8.3 por ciento por cada ao
adicional de escolaridad. Es lo que entienden los economistas
cuando se refieren al "rendimiento de otro ao de estudios".
Es importante recordar que la principal razn para tomar el logaritmo
de sala es imponer un efecto porcentual constante de la educacin
en sala.
La intercepcin no es muy significativa, ya que da el log(sala)
pronosticado cuando educ = 0. La R cuadrada muestra que educ
explica alrededor de 18.6 por ciento de la variacin en log(sala) (que
no es sala).

171

El modelo Lin-Log
A diferencia del modelo de crecimiento recin
estudiado, en el cual se estaba interesado en
encontrar el crecimiento porcentual en Y, ante un
cambio unitario absoluto en X, ahora hay inters en
encontrar el cambio absoluto en Y debido a un
cambio porcentual en X. Un modelo que puede lograr
este propsito puede escribirse como

Yi 1 2 lnX i i
Para fines descriptivos, llamamos a este modelo un
modelo lin-Iog.

172

El modelo Lin-Log
Interpretacin de la pendiente
cambio en Y
cambio en Y

2
cambio relativo en X
cambio en ln X

Simblicamente, se tiene

En forma equivalente

Y
X / X

Y 2 X / X

Esta ecuacin plantea que el cambio absoluto en Y


(= Y) es igual a la pendiente multiplicada por el
cambio relativo en X.
173

El modelo Lin-Log
Si este ltimo es multiplicado por 100 entonces

Y 2 X / X
da el cambio absoluto en Y ocasionado por un cambio porcentual
en X. As, si X/X cambia en 0.01 unidades (o 1%), el cambio
absoluto en Y es 0.01(2).
Por tanto, si en una aplicacin se encuentra que 2 = 500,
entonces el cambio absoluto en Y es (0.01)(500), o 5.0.
Por consiguiente, cuado se utiliza MCO para estimar regresiones
como en

Yi 1 2 lnX i i

se debe multiplicar el valor del coeficiente de la pendiente


estimado, 2 por 0.01 o, dividido entre 100.
174

El modelo Lin-Log
Ejemplo:
Como ejemplo del modelo lin-Iog,
consideremos el gasto alimenticio
en India, (tabla 2.8-Anexo 1). Si
se grafican los datos, se obtiene la
grfica de la figura . Tal y como
esta figura sugiere, el gasto
alimenticio se incrementa en
forma ms lenta, conforme el
gasto total aumenta, lo cual quiz
proporcione sustento a la ley de
Engels.
Nota:Cundo resulta til un modelo lin-log ? Se ha encontrado una
interesante aplicacin en los as conocidos modelos de gasto Engel
[nombrados en honor del estadstico alemn Emst Engel (1821-1896).
Engel postul que "el gasto total que se dedica a los alimentos tiende a
incrementarse en progresin aritmtica, mientras que el gasto total aumenta
175
en progresin geomtrica.

El modelo Lin-Log
Los resultados de ajustar el modelo lin-Iog a los datos son los
siguientes:
GASAL I = -1 283.912
t = (-4.3848)*

+ 257.2700 ln
(5.6625)*

GASTOTi
r2

= 0.3769

Interpretado de la forma antes descrita, el coeficiente de la


pendiente, que vale casi 257, significa que un incremento en el
gasto total en alimentos de 1%, en promedio, propicia un
incremento de casi 2.57 rupias en el gasto en alimento de las 55
familias incluidas en la muestra. (Nota: se dividi el coeficiente
estimado de la pendiente entre 100.)

176

Anlisis de regresin mltiple


Anlisis de regresin mltiple: problema de la estimacin

Notacin y supuestos
Interpretacin de la ecuacin de regresin mltiple
Significado de los coeficientes de regresin parcial
Estimacin MCO de los coeficientes de regresin parcial
El coeficiente de determinacin mltiple R2
El coeficiente de correlacin mltiple R

Anlisis de regresin mltiple: el problema de la inferencia


El supuesto de normalidad
Prueba de hiptesis en regresin mltiple
Prueba t para coeficientes individuales
Prueba F de significacin global

Modelos de regresin con variables dicotmicas


Problemas en el anlisis de regresin
Estimacin ponderada

177

Anlisis de regresin mltiple


El modelo de dos variables, con frecuencia es
inadecuado en la prctica. Es el caso del ejemplo
consumoingreso, en donde se supuso implcitamente que
solamente el ingreso X afecta el consumo Y. Pero la teora
econmica rara vez es tan simple, ya que, adems del
ingreso, existen muchas otras variables que
probablemente afectan el gasto de consumo.
Por consiguiente, se necesita ampliar el modelo simple de
regresin con dos variables para considerar modelos que
contengan ms de dos variables.
La adicin de variables conduce al anlisis de los modelos
de regresin mltiple, es decir, a modelos en los cuales la
variable dependiente, o regresada, Y, depende de dos o
ms variables explicativas, o regresoras.
178

Modelo de tres variables


Generalizando la funcin de regresin poblacional (FRP) de
dos variables se puede escribir la FRP de tres variables as:

Yi 1 2 X 2i 3 X 3i i
donde Y es la variable dependiente, X2 y X3 las variables
explicativas (o regresoras). ui es el trmino de perturbacin
estocstica, e i la isima observacin.
Los coeficientes se denominan coeficientes de regresin parcial
Se contina operando dentro del marco del modelo clsico de
regresin lineal (MCRL).
179

Modelo de tres variables


Supuestos
Especficamente. se supone lo siguiente

Valor medio de ui, igual a cero


E (ui / X 2i , X 3i ) 0

para cada i

No correlacin serial
cov(ui , u j ) 0

i j

Homocedasticidad
var(ui ) 2
180

Supuestos

Covarianza entre ui y cada variable X igual a cero


cov(ui , X 2i ) cov(ui , X 3i ) 0

No hay sesgo de especificacin


El modelo est especificado correctamente

No hay colinealidad exacta entre las variables X


No hay relacin lineal exacta entre X2 y X3
Adicionalmente, se supone que el modelo de regresin mltiple
es lineal en los parmetros, que los valores de las regresoras
son fijos en muestreos repetido y que hay suficiente variabilidad
en dichos valores..

181

Interpretacin de la ecuacin de regresin mltiple


Dados los supuestos del modelo de regresin clsico, se
cumple que, al tomar la esperanza condicional de Y a ambos
lados de

Yi 1 2 X 2i 3 X 3i i

se obtiene

E (Yi / X 2i , X 3i ) 1 2 X 2i 3X 3i

Expresado en palabras, de la expresin anterior se obtiene la media


condicional o el valor esperado de Y condicionado a los valores dados o
fijos de las variables X2 y X3. Por consiguiente, igual que en el caso de
dos variables, el anlisis de regresin mltiple es el anlisis de regresin
condicional, sobre los valores fijos de las variables explicativas, y lo que
obtenemos es el valor promedio o la media de Y, o la respuesta media
de Y a valores dados de las regresoras X.
Nota: Las propiedades de los estimadores MCO del modelo de
regresin mltiples son similares a aquellas del modelo con dos
variables
182

Significado de los coeficientes de regresin parcial


Los coeficientes de regresin 2 y 3 se denominan
coeficientes de regresin parcial.

2 mide el cambio en el valor de la media de Y,


E(Y) por unidad de cambio en X2 permaneciendo X3
constante.
3 mide el cambio en el valor medio de Y, E(Y) por
unidad de cambio en X3 cuando el valor de X2 se
conserva constante.
183

El coeficiente de determinacin mltiple R2


En el caso de tres variables nos gustara conocer la
proporcin de la variacin en Y explicada por las variables X
y X conjuntamente. La medida que da esta informacin es
conocida como el coeficiente de determinacin mltiple y se
denota por R2;conceptualmente se asemeja a r2.

2
i
2
i

u
SRC

R 1
1
STC
y
2

R2, al igual que r2, se encuentra entre 0 y 1.


Se dice que el ajuste del modelo es mejor entre ms cerca
est R2 de 1
184

El coeficiente de correlacin mltiple R


Recurdese que en el caso de dos variables, se
defini r como el coeficiente de correlacin y se indic
que ste mide el grado de asociacin (lineal) entre las
dos variables.
El anlogo de r para tres o ms variables es el
coeficiente de correlacin mltiple, denotado por R, el
cual es una medida del grado de asociacin entre Y y
todas las variables explicativas conjuntamente.
Aun cuando r puede ser positivo o negativo, R
siempre se considera positivo. En la prctica, sin
embargo, R tiene poca importancia. La medida de
mayor significado es R2.
185

Ejemplo: Mortalidad Infantil respecto al PIB


per cpita y a la tasa de alfabetizacin en las mujeres
Consideremos como ejemplo el comportamiento de la mortalidad
infantil (MI) en relacin con el PIB per cpita (PIBPC) y el
alfabetismo femenino medido por la tasa de alfabetizacin en las
mujeres (TAM). A priori. se espera que la TAM tambin ejerza un
impacto negativo en la MI al igual que el PIBPC. cuando se
introducen ambas variables en el modelo, se requiere eliminar la
influencia neta de cada regresora. Es decir. se necesita estimar los
coeficientes de regresin (parcial) de cada regresora. Por lo tanto.
el modelo es:

MI i 1 2 PIBPCi 3TAM i ui
186

Ejemplo: Mortalidad Infantil respecto al PIB


per cpita y a la tasa de alfabetizacin en las mujeres
Tngase en cuenta que MI es el nmero de muertes de nios menores
de 5 aos por cada 1 000 nacimientos vivos. el PIBPC es el PIB per
cpita en 1980 y que la TAM se mide en porcentaje. La muestra se
realiz en 64 pases.
Utilizando un paquete estadstico se obtienen los siguientes resultados:

MI i 263,6416 0,0056 PIBPCi 2,2316TAM i


ee (11,5932) (0,0019)
R 2 0,7077

R 2 0,6981

187

Interpretacin
El coeficiente de regresin parcial -0,0056 del PIBPC indica que
si la influencia de la TAM se mantiene constante, conforme el
PIBPC se incrementa, digamos en un dlar, en promedio, la
mortalidad infantil disminuye en 0.0056 unidades. Para hacerlo
interpretable desde el punto de vista econmico, si el PIB per
cpita se incrementara mil dlares, en promedio, el nmero de
muertes de nios menores de 5 aos se reducira a 5.6 por cada
1000 nacimientos vivos.
El coeficiente -2.2316 seala que si la influencia del PIBPC se
mantiene constante, el nmero de muertes de nios menores de 5
aos disminuira, en promedio, 2.23 por cada mil nacimientos
vivos, en tanto que la tasa de alfabetizacin en las mujeres subira
un punto porcentual. El valor de la interseccin de casi 263, si se
interpretara de una forma mecanicista, significara que si los
valores del PIBPC y de la TAM fuesen cero, la mortalidad infantil
promedio sera de aproximadamente 263 muertes por cada mil
nacimientos vivos.
188

El valor de la interseccin de casi 263, si se interpretara de una


forma mecanicista, significara que si los valores del PIBPC y de la
TAM fuesen cero, la mortalidad infantil promedio sera de
aproximadamente 263 muertes por cada mil nacimientos vivos.
Por supuesto, tal interpretacin debera tomarse con mucho
cuidado.
El valor de R2 de casi 0.71 significa que casi 71 % de la variacin
en la mortalidad infantil se explica mediante el PIBPC y la TAM, lo
cual es un gran porcentaje si se considera que el valor mximo
que puede tener R2 es 1l. De todo lo dicho hasta aqu, los
resultados de la regresin tienen sentido.

189

Anlisis de regresin mltiple: el problema de la


inferencia
El supuesto de normalidad
Como ya se sabe, si el nico objetivo es la estimacin puntual de
los parmetros de los modelos de regresin, ser suficiente el
mtodo de mnimos cuadrados ordinarios (MCO), el cual no hace
supuestos sobre la distribucin de probabilidad de las
perturbaciones u. Pero si el objetivo no slo es la estimacin sino
adems la inferencia, entonces, como se analiz para el modelo de
regresin simple, se debe suponer que las u siguen alguna
distribucin de probabilidad.
Se supuso que las u seguan la distribucin normal con media cero
y varianza constante. Se mantiene el mismo supuesto para los
modelos de regresin mltiple. Con el supuesto de normalidad , se
halla que los estimadores MCO de los coeficientes de regresin
parcial, son los mejores estimadores lineales insesgados (MELI)..
190

El supuesto de normalidad
Consideremos nuevamente el ejemplo de la regresin de la
mortalidad infantil (MI) sobre el PIB per cpita (PIBP) y la tasa
de analfabetismo en las mujeres (TAM) para una muestra de
64 pases. Los resultados de la regresin se reproducen a
continuacin.

MI i 263,6416 0,0056 PIBPCi 2,2316TAM i


ee (11,5932) (0,0019)
R 2 0,7077

R 2 0,6981

Qu hay respecto a la significancia estadstica de los


resultados observados? Considrese por ejemplo el coeficiente del
PIBP (-0.0056). Es estadsticamente significativo este coeficiente;
es decir, es estadsticamente diferente de cero? Ambos coeficientes
son estadsticamente significativos?
191

Prueba de hiptesis sobre coeficientes


individuales de regresin parcial
Bajo el supuesto de que ui ~ N (0, 2 ) entonces, se puede
utilizar la prueba t para demostrar una hiptesis sobre cualquier
coeficiente de regresin parcial individual .
Para ilustrar el procedimiento, considrese la regresin sobre la
mortalidad infantil.
La hiptesis nula establece que, manteniendo X3 constante
(la tasa de alfabetismo en las mujeres), el ingreso personal
disponible no tiene influencia (lineal) sobre el gasto personal de
consumo. Para probar la hiptesis nula, se utiliza la prueba t
donde:

H0 : 2 0

H1 : 2 0
192

Prueba de hiptesis sobre coeficientes


individuales de regresin parcial
Para el ejemplo considerado se tiene

0.0056
2.8187
0.0020

193

Prueba de hiptesis sobre coeficientes


individuales de regresin parcial
Puesto que el valor t calculado de 2.8187 (en trminos absolutos)
excede el valor crtico t de 2, se puede rechazar la hiptesis nula de
que el PIBP no tiene ningn efecto sobre la mortalidad infantil. Para
expresarlo en trminos ms positivos, si se mantiene la tasa de
analfabetismo para las mujeres constante, el PIB per cpita tiene un
efecto significativo (negativo) sobre la mortalidad infantil, como se
podra esperar a priori. De forma grfica, la situacin es la que se
muestra en la figura anterior.
En la prctica, no se tiene que suponer un valor particular de para
llevar a cabo la prueba de hiptesis. Uno simplemente utiliza el valor
p dado, que en el caso actual es de 0.0065. La interpretacin de
este valor p (es decir, el nivel exacto de significancia) es que si la
hiptesis nula fuese verdadera, la probabilidad de obtener un valor t
igual a 2.8187 o mayor (en trminos absolutos ) es de slo 0.0065 o
0.65%. que de hecho es una probabilidad pequea, mucho menor
que el valor artificial mente adoptado de = 5%.
194

Prueba de hiptesis sobre coeficientes


individuales de regresin parcial
Existe una conexin muy estrecha entre la prueba de hiptesis
y la estimacin del intervalo de confianza. Para este ejemplo, el
intervalo de 95% de confianza para es

- t /2 se( )

que para 2 de este ejemplo se convierte en

0.0096 2 0.0016

o sea, el intervalo de -0.0096 a -0.0016 incluye al verdadero


coeficiente 2 con un coeficiente de confianza del 95%. Por tanto,
si 100 muestras de tamao 64 se seleccionan y 100 intervalos de
confianza como el anterior se forman, entonces se espera que 95
de ellos contengan el verdadero parmetro de poblacin 2 .Puesto
que el intervalo no incluye el valor cero de la hiptesis nula, se
puede rechazar tal hiptesis (que el verdadero 2 es cero con 95%
195
de confianza).

Prueba de la significacin global de la regresin


La prueba t hace referencia a la prueba de significancia
individual de los coeficientes de regresin parcial estimados, es
decir, bajo la hiptesis separada de que cada uno de los
verdaderos coeficientes de regresin parcial de la poblacin era
cero. Pero ahora considrese la siguiente hiptesis:

H 0 : 2 3 0
Esta hiptesis nula es conjunta de que 2 y 3 son iguales a
cero en forma conjunta o simultnea. Una prueba de tal
hiptesis se denomina prueba de significancia global de la recta
de regresin observada o estimada, es decir, si
Y est relacionada o no linealmente con X2 y X3 a la vez..

196

Prueba de la significacin global de la regresin


La significacin global de la regresin se puede probar con la
relacin de la varianza explicada a la varianza no explicada: Esta
sigue una distribucin F con k-1 y n-k grados de libertad, donde n
es el nmero de observaciones y k es el nmero de parmetros
R 2 /( k 1)
estimados.
F

k 1, n k

(1 R 2 ) /( n k )

Si la relacin F calculada excede el valor tabulado de F al


nivel especificado de significacin y grados de libertad, se
acepta la hiptesis de que los parmetros de la regresin no
son todos iguales a cero y que R cuadrado es
significativamente diferente de cero.
H 0 : 1 2 3 .... n 0
H1 : No todas las son cero
197

Modelos de regresin con variables


dicotmicas
En el anlisis de regresin, la variable dependiente o regresada,
est influida frecuentemente no slo por variables de razn de
escala (por ejemplo: ingreso, produccin, precios, costos,
estatura y temperatura), sino tambin por variables que son
esencialmente cualitativas por naturaleza, o de escala nominal
(por ejemplo, sexo, raza, color, religin, nacionalidad, regin
geogrfica, trastornos polticos y afiliacin a un partido).
Por ejemplo, manteniendo los dems factores constantes, se ha
encontrado que las trabajadoras ganan menos que sus colegas
masculinos y que las personas de color ganan menos que las
blancas. Este patrn puede resultar de la discriminacin sexual o
racial, pero cualquiera que sea la razn, las variables cualitativas
tales como sexo y raza s influyen sobre la variable
dependiente y es claro que deben ser incluidas dentro de las
explicativas, o regresoras.

198

Modelos de regresin con variables


dicotmicas
Puesto que tales variables usualmente indican la presencia o
ausencia de una "cualidad" o atributo, tal como femenino o
masculino, negro o blanco, catlico o no catlico, demcrata o
republicano son variables de escala nominal esencialmente.
Se podran "cuantificar" tales atributos mediante la elaboracin de
variables artificiales que tomaran los valores 0 y 1, donde 1
indicara la presencia (o la posesin) de ese atributo y 0 la
ausencia de tal atributo. Por ejemplo, el 1 puede indicar que una
persona es de sexo masculino y 0 puede designar una de sexo
femenino; o el 1 puede indicar que una persona se ha graduado
en la universidad y 0 que no lo ha hecho y as sucesivamente. Las
variables que adquieren tales valores 0 y 1 se llaman variables
dictomas. Tales variables son, por tanto, esencialmente un
recurso para clasificar datos en categoras mutuamente
excluyentes, como masculino o femenino.
199

Modelos de regresin con variables


dicotmicas
Las variables ficticias se pueden usar para establecer
cambios en la ordenada en el origen, cambios en la
pendiente y cambios tanto en la ordenada en el origen
como en la pendiente.
Y b0 b1 X b2 D u
Y b0 b1 X b2 XD u
Y b0 b1 X b2 D b2 DX u

200

Modelos de regresin con variables


dicotmicas
Si una variable cualitativa tiene m categoras, slo hay
que agregar (m-1) variables dicotmicas
Ejemplo: Considrese el siguiente modelo:

Yi 1 2 D2i 3 D3i X i ui
donde Y = salario por hora en dlares
X = educacin (aos de escolaridad)
D2 = 1 si es mujer; 0 en otro caso
D3 = 1 si no es blanco y no hispano; 0 en otro caso

201

Modelos de regresin con variables


dicotmicas
En este modelo el sexo y la raza son regresoras cualitativas y la
escolaridad es cuantitativa. Est implcita en este modelo la
suposicin de que el efecto diferencial de la variable dictoma sexo,
D2, es constante en las dos categoras de raza y el efecto diferencial
de la variable dictoma raza, D3, tambin es constante en los dos
sexos. Es decir, si el salario medio es mayor para los hombres que
para las mujeres, se debe a que pertenezcan o no pertenezcan a la
categora de no hispanos ni blancos. De igual forma, si por ejemplo
los no blancos ni hispanos tienen salarios medios menores, se debe
a que son hombres o mujeres.

202

Modelos de regresin con variables


dicotmicas
En muchas aplicaciones, dicha suposicin puede ser
insostenible. Una mujer no blanca ni hispana tal vez gane menor
salario que un hombre de esa misma categora. En otras
palabras, quiz haya una interaccin entre las dos variables
cualitativas D2 y D3. Por tanto, su efecto sobre la media quiz
no sea simplemente aditivo, sino multiplicativo, como en el
siguiente modelo:

Yi 1 2 D2i 3 D3i 4 D2i D3i X i ui


de donde

E (Yi / D2i 1, D3i 1, X i ) 1 2 3 4 X i


Que es la funcin salario medio por hora para las trabajadoras
no blancas ni hispanas.
203

Modelos de regresin con variables


dicotmicas
Obsrvese que
2 = efecto diferencial de ser mujer

3 = efecto diferencial de ser no blanco ni hispano


4 = efecto diferencial de ser mujer no blanca ni hispana
lo cual muestra que el salario medio por hora de las mujeres no
blancas ni hispanas es diferente (en una cantidad igual a 4 ) del
salario medio por hora de las mujeres blancas o hispanas. Si por
ejemplo los tres coeficientes de las variables dictomas son
negativos, implicara que las trabajadoras no blancas ni hispanas
ganan un salario medio por hora mucho ms bajo que las
trabajadoras blancas o hispanas, si se compara con la categora
base, la cual en el ejemplo presente es la de hombres blancos o
hispanos.
204

Modelos de regresin con variables


dicotmicas

Ejemplo:
Ingresos promedio por hora en comparacin con la escolaridad,
sexo y raza
Los resultados de la regresin basados en el modelo

Yi 1 2 D2i 3 D3i X i ui
donde Y = salario por hora en dlares
X = educacin (aos de escolaridad)
D2 = 1 si es mujer; 0 en otro caso
D3 = 1 si no es blanco y no hispano; 0 en otro caso
son

Y i 0.2610 2.3606 D2i 1.7327 D3i 0.8028 X i


t (0.2357)** (-5.4873)* (-2.1803)* (9.9094)*
R 2 0.2032 n 528
205

Modelos de regresin con variables


dicotmicas
donde * indica los valores p menores que el 5%, y ** seala los
valores p mayores que 5%.
Los coeficientes diferenciales de la interseccin son
estadsticamente significativos y tienen los signos que se esperaban
y la escolaridad tiene un gran efecto positivo sobre el salario por
hora.
Como lo muestra la ecuacin, ceteris paribus, los ingresos promedio
por hora de las mujeres son inferiores por casi $2.36;adems, los
ingresos promedio por hora de los trabajadores no blancos ni
hispanos tambin son menores por $1.73.

206

Modelos de regresin con variables


dicotmicas
Ahora consideremos los resultados del modelo

Yi 1 2 D2i 3 D3i 4 D2i D3i X i ui

Que incluye la variable dicotmica de interaccin.

Y i 0.2610 2.3606 D2i 1.7327 D3i 2.1289 D2i D3i 0.8028 X i


t (0.2357)** (-5.4873)* (-2.1803)* (1.7420)**

(9.9095)**

R 2 0.2032 n 528
donde * indica los valores p menores que el 5%, y ** seala los
valores p mayores que 5%.
Como se observa las dos variables dicotmicas aditivas siguen
siendo estadsticamente significativas, pero la variable dicotmica
interactiva no est al nivel convencional del 5%

207

Si se considera estadsticamente significativa


entonces se interpreta de la siguiente manera. Si se
mantiene constante el nivel de educacin y si se
aaden los tres coeficientes de las variables
dicotmicas entonces se obtendr
-1,964=-2,3605-1,732+2,128
Lo cual significa que los salarios medios por hora de
las trabajadoras no blancas ni hispanas es menor
por casi $1,96, valor que est entre -2,3605
(diferencia slo debida a sexo) y -1,7327 ( diferencia
slo debida a la raza)
208

Problemas en el anlisis de regresin


Multicolinealidad:
Se refiere al caso en el cual dos o ms variables
explicatorias en el modelo de regresin estn altamente
correlacionadas, haciendo difcil o imposible aislar sus
efectos individuales sobre la variable dependiente. Con
multicolinealidad, los coeficientes de MCO estimados
pueden ser estadsticamente insignificantes (y an tener el
signo contrario) aunque R cuadrado puede ser alto. La
multicolinealidad puede ser superada a veces o reducirse
coleccionando ms datos, usando informacin a priori,
transformando la relacin funcional, o reduciendo una de las
variables altamente colineales.

209

Heteroscedasticidad

Si no se mantiene la suposicin de MCO de que la


varianza del trmino de error es constante para todos los
valores de las variables independientes, enfrentamos el
problema de la heterocedasticidad. Esto conduce a
estimaciones sesgadas e ineficientes (es decir, con
varianza mayor que la mnima) de los errores estndar
( y as pruebas estadsticas incorrectas e intervalos de
confianza tambin incorrectos)

210

Autocorrelacin:
Cuando el trmino de error en un perodo est correlacionado
positivamente con el trmino de error en el perodo anterior,
enfrentamos el problema de autocorrelacin (de primer orden
positiva). Esto es comn en anlisis de series de tiempo.
La presencia de autocorrelacin de primer orden se prueba
utilizando la tabla del estadstico de Durbin- Watson a los
niveles de significacin del 5% o 1% para n observaciones y k,
variables explicatorias

211

Estimacin ponderada ( MCP- WLS)


Los modelos de regresin lineal tpicos asumen
que la varianza es constante en la poblacin objeto de
estudio. Cuando ste no es el caso (por ejemplo cuando
los casos con puntuaciones mayores en un atributo
muestran ms variabilidad que los casos con
puntuaciones menores en ese atributo), la regresin
lineal mediante mnimos cuadrados ordinarios (MCO,
OLS) deja de proporcionar estimaciones ptimas para el
modelo.

212

Estimacin ponderada ( MCP- WLS)


Si las diferencias de variabilidad se pueden pronosticar a
partir de otra variable, el procedimiento Estimacin
ponderada permite calcular los coeficientes de un
modelo de regresin lineal mediante mnimos cuadrados
ponderados (MCP, WLS), de forma que se les d mayor
ponderacin a las observaciones ms precisas (es decir,
aqullas con menos variabilidad) al determinar los
coeficientes de regresin.
Ejemplo.
Cules son los efectos de la inflacin y el paro sobre los cambios en
el precio de las acciones? Debido a que los valores con mayor valor
de cotizacin suelen mostrar ms variabilidad que aquellos con menor
valor de cotizacin, la estimacin de mnimos cuadrados ordinarios no
generar estimaciones que sean ptimas. El mtodo de Estimacin
ponderada permite capturar el efecto del precio de cotizacin sobre la
variabilidad de los cambios en el precio, al calcular el modelo lineal. 213

Estimacin ponderada ( MCP- WLS)


Consideraciones sobre los datos
Datos. Las variables dependiente e independientes deben ser
cuantitativas. Las variables categricas, como la religin, la edad o
el lugar de residencia, han de recodificarse como variables binarias
(dummy) . La variable de ponderacin deber ser cuantitativa y
estar relacionada con la variabilidad de la variable dependiente
Supuestos. Para cada valor de la variable independiente, la
distribucin de la variable dependiente debe ser normal. La relacin
entre la variable dependiente y cada variable independiente debe ser
lineal y todas las observaciones deben ser independientes. La
varianza de la variable dependiente puede cambiar segn los niveles
de la variable o variables independientes, pero las diferencias se
deben poder pronosticar en funcin de la variable de ponderacin.
214

Regresin Logstica
Consideraciones sobre los datos
Fases fundamentales
Fundamentos Funcin logstica
Clculo de las probabilidades pronosticadas
Interpretacin de los coeficientes
El problema de clasificacin
Estadsticos: Puntuacin de Rao, Chi cuadrado, Wald
Regresin logstica versus anlisis discriminante

215

Regresin Logstica
La regresin logstica resulta til para los casos en los
que se desea predecir la presencia o ausencia de una
caracterstica o resultado segn los valores de un
conjunto de variables predictoras.
Es similar a un modelo de regresin lineal pero est
adaptado para modelos en los que la variable
dependiente es dicotmica.
Los coeficientes de regresin logstica pueden
utilizarse para estimar la razn de las ventajas (odds
ratio) de cada variable independiente del modelo.
La regresin logstica se puede aplicar a un rango ms
amplio de situaciones de investigacin que el anlisis
discriminante.
216

Regresin logstica: Consideraciones sobre los datos


Datos. La variable dependiente debe ser dicotmica. Las variables
independientes pueden estar a nivel de intervalo o ser categricas; si
son categricas, deben ser variables dummy o estar codificadas como
indicadores (existe una opcin en el procedimiento para recodificar
automticamente las variables categricas).
Supuestos. La regresin logstica no se basa en supuestos
distribucionales en el mismo sentido en que lo hace el anlisis
discriminante. Sin embargo, la solucin puede ser ms estable si los
predictores tienen una distribucin normal multivariante.
Adicionalmente, al igual que con otras formas de regresin, la
multicolinealidad entre los predictores puede llevar a estimaciones
sesgadas y a errores tpicos inflados.
El procedimiento es ms eficaz cuando la pertenencia a grupos es una
variable categrica autntica.
217

Regresin Logstica
El anlisis de regresin logstica tiene como finalidad principal
pronosticar la pertenencia a un grupo a partir de una serie de
variables independientes.
Grupo 1
Variables independientes
Grupo 2

Variable dependiente
dicotmica

Para llevar a cabo un anlisis de regresin logstica binaria es


necesario disponer de una variable categrica que defina dos grupos:
Los clientes que devuelven un crdito y los que no
Los ciudadanos que votan y los que no
Los pacientes que tienen una determinada enfermedad y los que no

218

Regresin Logstica
Grupo 1
Variables independientes
o predictoras (covariables)

Las variables en las que


se supone que se
diferencian los grupos

Grupo 2

Variable dependiente
dicotmica

La variable dicotmica es la
variable dependiente del anlisis,
es decir, la variable cuyos
valores se desea pronosticar.

El anlisis de regresin logstica genera una serie de pesos o


coeficientes que:
(1) Informan sobre la capacidad individual de cada variable
independiente para diferenciar entre los grupos.
(2) Permiten obtener pronsticos que sirven para clasificar a los
sujetos

219

Fases fundamentales
Un anlisis de regresin logstica consta de cuatro fases
fundamentales:
La seleccin de las variables de anlisis.
La estimacin de los pesos o coeficientes de las variables
seleccionadas.
La clasificacin de los casos.
El anlisis de los residuos.
La seleccin de las variables puede realizarse a partir de criterios
tericos o puede obedecer a criterios estadsticos
La estimacin de los pesos o coeficientes asociados a cada variable se
realiza mediante una algoritmo iterativo de mxima verosimilitud.
La clasificacin de los casos se realiza a partir de los pronsticos del
modelo estimado.
El anlisis de los residuos permite detectar posibles casos atpicos o
predicciones anmalas.

220

Fundamentos Funcin Logstica

1
1 e

( B0 B1 X )

El coeficiente Bo representa la posicin de la curva sobre el eje horizontal


o las abscisas (ms hacia la izquierda o ms hacia la derecha). Y el
coeficiente B1 representa la pendiente de la curva medida en la zona de
inflexin de la curva.

0<Y<1

1 e ( B0 B1 B2 X 2 L Bk X k )

El exponente del nmero e es una ecuacin lineal mltiple en la que cada


variable independiente recibe una ponderacin proporcional a su capacidad
221
para predecir Y.

Fundamentos Funcin Logstica


Si dos sucesos son exclusivos entre s (no se solapan) y exhaustivos
(agotan el espacio muestral de posibles sucesos), la probabilidad de
aparicin de cualquiera de ellos es igual a 1 menos la probabilidad de
aparicin del otro.
Supongamos que la variable Y puede tomar slo dos valores (0 y 1)
Sea P(Y = 1) la probabilidad de que la variable Y tome el valor 1,
entonces la probabilidad de que Y tome el valor 0 ser:
P(Y = 0) = 1-P (Y = 1).

222

Ejemplo
Supongamos que interesa explicar y predecir si una persona
ha votado o no en las ltimas elecciones a partir de un
conjunto de caractersticas socio-demogrficas.
La variable que distingue a los sujetos que manifiestan haber
votado de aquellos que manifiestan no haber votado es la
variable voto.
Vot en 1992?

Vlidos

Perdidos
Total

S vot
No vot
Total
Sistema

Frecuencia
1032
420
1452
48
1500

Porcentaje
68,8
28,0
96,8
3,2
100,0

Porcentaje
vlido
71,1
28,9
100,0

Porcentaje
acumulado
71,1
100,0

223

Ejemplo
Consideremos en primer lugar la variable lee como variable
independiente (Lee el peridico?)
Lee el peridico?

Vlidos

Perdidos
Total

S lee
No lee
Total
Sistema

Frecuencia
862
148
1010
490
1500

Porcentaje
57,5
9,9
67,3
32,7
100,0

Porcentaje
vlido
85,3
14,7
100,0

Porcentaje
acumulado
85,3
100,0

En el ejemplo propuesto, el fenmeno que interesa estudiar es la


abstencin, es decir, el hecho de que una persona no acuda a
votar.
Una buena estimacin de la probabilidad de este fenmeno es la
frecuencia relativa de abstencin observada en la muestra.
224

Ejemplo
Tabla de contingencia Vot en 1992? * Lee el peridico?

Vot en
1992?

S vot
No vot

Total

Recuento
% de Lee el peridico?
Recuento
% de Lee el peridico?
Recuento
% de Lee el peridico?

Lee el peridico?
S lee
No lee
624
68
74,9%
47,6%
209
75
25,1%
52,4%
833
143
100,0%
100,0%

Total
692
70,9%
284
29,1%
976
100,0%

En las frecuencias marginales de la tabla puede apreciarse que se


ha abstenido de votar el 29,1% de los encuestados. La estimacin
de la probabilidad del suceso No vot ser P(Y = 1) = 0,291. Por
tanto, la probabilidad del suceso S vot ser P(Y = 0) = 0,709.

225

Ejemplo
Se sabe que aproximadamente una tercera parte de los sujetos
encuestados se abstiene y que, por tanto, cabe esperar que una de
cada tres personas no acuda a las urnas; pero no se sabe nada
acerca de las caractersticas de las personas que se abstienen.

La pregunta que interesa responder en este momento es:


es posible utilizar alguna otra variable, previa a la votacin,
que permita pronosticar adecuadamente la probabilidad de
que un sujeto no vote?.
Es decir, es posible construir un modelo de regresin que
permita pronosticar la probabilidad de abstencin a partir de
una o varias variables independiente?.

226

Ecuacin logstica
Si existen variables capaces de predecir la abstencin, entonces es
posible incluirlas en un modelo de regresin y utilizarlas para
corregir las estimaciones de proporcin de votantes y no votantes.
El problema que surge en una situacin de estas caractersticas es
que, al tener que pronosticar una probabilidad (es decir, un valor
comprendido entre 0 y 1), un modelo de regresin lineal puede
plantear serios problemas de prediccin por no tener mximo ni
mnimo tericos en los pronsticos que arroja. Por esta razn es
ms apropiado recurrir a un modelo de tipo logstico. Considrese
la siguiente ecuacin logstica:

P (Y 1)

1
1 e ( B0 B1 X )
227

Definida la ecuacin que puede utilizarse, el objetivo consiste en


encontrar una variable que discrimine bien entre los dos posibles
valores de Y.
La figura muestra cuatro curvas logsticas correspondientes a
cuatro posibles variables independientes o predictoras.

228

Las curvas se encuentran ordenadas por orden creciente de


capacidad discriminativa. Puesto que el coeficiente que controla la
pendiente de la curva es B1, una buena variable predictora ser
aquella que genere una curva con mucha pendiente (es decir, una
variable que tenga asociado un coeficiente muy alto, en valor
absoluto), mientras que una mala variable predictora ser aquella
que genere una curva sin pendiente o con muy poca pendiente (es
decir, que tenga asociado un coeficiente B1 prximo a 0, en valor
absoluto).

El objeto de anlisis de regresin logstica es encontrar las


variables con mayor (en valor absoluto) coeficiente asociado.

229

Supongamos, por simplicidad, que para clasificar a un sujeto


como votante o abstencionista se decide establecer como
punto de corte el valor de probabilidad 0,5.

0,5

Los sujetos con un pronstico


menor o igual que 0,5 son
clasificados como votantes

1
Los sujetos con un pronstico
mayor que 0,5 son clasificados
como abstencionista

Una buena variable predictora (podra decirse ptima) ser aquella


que permita obtener pronsticos (probabilidades) iguales a 0 para el
suceso Y=0 y pronsticos iguales a 1 para el suceso Y=1 .

230

Clculo de las probabilidades pronosticadas


Utilizando los datos de la tabla ( software SPSS) del ejemplo;
Variables en la ecuacin
Paso
a
1

LEE
Constante

B
1,192
-1,094

E.T.
,186
,080

Wald
41,258
187,316

gl
1
1

Sig.
,000
,000

Exp(B)
3,293
,335

a. Variable(s) introducida(s) en el paso 1: LEE.

la ecuacin de regresin logstica toma la forma :

P (Y 1)
Donde

1
1 e

Y=0 S vot
Y=1 No vot

B0 B1 X

1
1 e

( 1,094 1,192 X )

X=0 S lee
X=1 No lee
231

Clculo de las probabilidades pronosticadas


En el caso de que un encuestado no lea el peridico , la
probabilidad pronosticada por la ecuacin de regresin
logstica para la categora No vot vale:

P(Y 1 X 1)

1
1 e

1,094 1,192 1

0,5245
0,098
1 e

Y en el caso de que un encuestado lea el peridico, la probabilidad


pronosticada para la categora No vot vale:

P Y 1 X 0 =

1
1 e

1,094 1,192 0

0, 2509
1,094
1 e

232

Clculo de las probabilidades pronosticadas


Por tanto, a partir de los pronsticos derivados de la ecuacin de
regresin logstica, se puede afirmar que, entre los sujetos que
manifiestan no leer el peridico, la probabilidad de abstencin en las
elecciones es mayor (aproximadamente el doble) que entre los
sujetos que manifiestan leer el peridico.

Es muy importante tener en cuenta que los pronsticos


obtenidos con la ecuacin de regresin logstica siempre
se refieren a una de las dos categoras de la variable
dependiente: aquella codificada con el valor mayor y que
es la que el procedimiento Regresin logstica codifica
internamente con el valor 1. En el ejemplo, la categora
No vot.
233

Interpretacin de los coeficientes


Cmo interpretar los coeficientes de un modelo de regresin logstica? Ya se
ha dicho que
P(Y 0) 1 P (Y 1)
Dividiendo la probabilidad de uno de los sucesos por su probabilidad
complementaria y simplificando se obtiene el cuociente denominado la ventaja
(odds) del suceso Y=1 frente al suceso Y=0 :

1/ 1 e

B0 B1 X

P Y 1

B B X
P Y 0
11/ 1 e 0 1

e B0 B1 X

La ventaja de un suceso es el cuociente entre la


probabilidad de que el suceso ocurra y la probabilidad
de que no ocurra

234

Interpretacin de los coeficientes


Tomando el logaritmo neperiano de la ventaja se obtiene la
transformacin logit:

P Y 1
ln

B
X

0
1

P
Y

Este modelo se ajusta a un modelo de regresin lineal. Por tanto, el


coeficiente de regresin de un modelo logstico puede interpretarse
como el cambio que se produce en la transformacin logit (en el
logaritmo de la ventaja del suceso Y = 1) por cada unidad de
cambio que se produce en la variable independiente.
Un coeficiente positivo debe interpretarse como un incremento
en la probabilidad que el individuo tome el valor 1 debido a una
variacin unitaria en la variable, mientras que un valor negativo
debe interpretarse como una disminucin en la misma
235
probabilidad

Interpretacin de los coeficientes


Con los datos del ejemplo, la transformacin logit del suceso No
vot (Y = 1), cuando el encuestado Lee el peridico (X = 0) vale:
P Y 1

ln

X 0

P Y 0 X 0

0, 2509
ln 0,335 1, 094
1

0,
2509

B0 ln

Y la transformacin logit del suceso No vot cuando el encuestado


No lee el peridico (X = 1) vale:
P Y 1

ln

X
P Y 0 X

1
0,5245
B0 B1 ln
ln 1,103 0, 098

1
1 0,5245

Por tanto, la diferencia entre ambos logaritmos permite obtener el valor del
coeficiente:
B1 0, 098 1, 094 1,192

236

Interpretacin de los coeficientes


As, en el modelo de regresin logstica, el coeficiente de regresin
asociado a una variable independiente representa el cambio
producido en la transformacin logit por unidad de cambio en
la variable independiente.
Es preferible interpretar directamente el cambio en las ventajas y no
en los logaritmos de las ventajas. Volviendo a la expresin de la
ventaja:

P Y 1

P Y 0

e B0 B1 X e B0 e B1 X

Se ve claramente que una ventaja se puede expresar en trminos


de potencias del nmero e. Por ello se suele informar del valor
exponencial de los coeficientes de regresin.
237

Interpretacin de los coeficientes


En los resultados de la regresin logstica se incluye tanto el valor del
coeficiente de regresin (B) como el de Exp(B) . En el ejemplo, la ventaja
del suceso No vot cuando el encuestado No lee el peridico vale
1,103, mientras que la ventaja de ese mismo suceso cuando el encuestado
S lee el peridico vale 0,335.

Si se expresa el cambio proporcional de la ventaja en trminos


de un cociente (como una razn) se obtiene
1,103/0,335 = 3,293, que es justamente el valor de Exp(B). A
este cambio proporcional se le denomina razn de las ventajas
(odds ratio en ingls), dado que es el resultado de dividir dos
ventajas. Y se interpreta en trminos del cambio
proporcional (ya sea aumento o disminucin) que se
produce en la ventaja del suceso o evento de inters (No
vota en el ejemplo) por cada unidad de cambio que se
produce en la variable independiente (VI).
238

El problema de la clasificacin
Una ecuacin de regresin logstica raramente arroja pronsticos
con valores 0 y 1, es decir, raramente genera una curva en forma
de escaln Lo habitual es encontrar que la probabilidades
pronosticadas adoptan valores comprendidos entre 0 y 1.
Este es el motivo que obliga a tener que establecer un punto
de corte para poder tomar la decisin de clasificar a los
sujetos en uno u otro grupo a partir de las probabilidades
pronosticadas.
Cuando la variable independiente es dicotmica, como en el
ejemplo, establecer el punto de corte es una tarea bastante
sencilla. Puesto que una variable dicotmica slo adopta dos
valores (en el ejemplo: 0 = Si lee el peridico y 1 = No lee el
peridico), slo es posible obtener dos pronsticos. (0,2509 y
0,5245).
239

Tambin se ha visto que la probabilidad del suceso No vot


vale 0,291 As parece razonable pensar que el punto del corte
debera encontrarse entre las dos probabilidades pronosticadas;
ese punto de corte bien podra ser, por ejemplo 0,291.

0
0,291
Los sujetos con un pronstico
menor o igual que el punto de
corte son clasificados en el
grupo que s votan

1
Los sujetos con un pronstico
mayor que el punto de corte
son clasificados en el grupo
que no votan

240

En los modelos con ms de una variable independiente se


incrementa el nmero de valores distintos que es posible
pronosticar
Existen dos caminos alternativos para determinar el punto de
corte ptimo, es decir, para encontrar cul es el valor (la
probabilidad) a partir del cual se consigue diferenciar al mximo a
los sujetos de uno y otro grupo y, consecuentemente, para
efectuar la mejor clasificacin posible.

El primero de estos caminos


consiste en generar mltiples
tablas de clasificacin variando
en cada una de ellas el punto de
corte hasta optimizar el
porcentaje de casos
correctamente clasificados.

El segundo camino para


determinar el punto de corte
ptimo consiste en utilizar la
curva COR.

241

Tablas de clasificacin con distintos valores de corte


Tabla de clasificacina
Pronosticado

Paso 1

Observado
Vot en 1992?

S vot
No vot

Vot en 1992?
S vot
No vot
624
68
209
75

Porcentaje global

Porcentaje
correcto
90,2
26,4
71,6

a. El valor de corte es ,500

Tabla de clasificacina
Pronosticado

Paso 1

Observado
Vot en 1992?
Porcentaje global

S vot
No vot

Vot en 1992?
S vot
No vot
624
68
209
75

Porcentaje
correcto
90,2
26,4
71,6

a. El valor de corte es ,300

242

Tabla de clasificacina
Pronosticado

Paso 1

Observado
Vot en 1992?

S vot
No vot

Vot en 1992?
S vot
No vot
624
68
209
75

Porcentaje global

Porcentaje
correcto
90,2
26,4
71,6

a. El valor de corte es ,260

Tabla de clasificacina
Pronosticado

Paso 1

Observado
Vot en 1992?
Porcentaje global

S vot
No vot

Vot en 1992?
S vot
No vot
0
692
0
284

Porcentaje
correcto
,0
100,0
29,1

a. El valor de corte es ,250

243

Regresin logstica mltiple


Nos interesa interpretar un anlisis de regresin logstica utilizando ms de
una variable independiente.
Variables independientes
Variable dependiente
Voto

Leer
Edad
Hijos
Educ
Ingfam91

Consideremos la misma variable dependiente que en el primer


ejemplo (voto) y, adems de la variable independiente all utilizada
(leer), otras cuatro nuevas: edad (Edad del encuestado), hijos
(Nmero de hijos), educ (Aos de escolarizacin) e ingfam91
(Ingresos familiares en 1991)
244

Estadstico de puntuacin de Rao


La tabla siguiente contiene los valores del estadstico de
puntuacin de Rao. Este estadstico mide la contribucin
individual de cada variable a la mejora del ajuste global del modelo.
El nivel crtico (Sig) asociado a cada estadstico indica qu variables
contribuyen significativamente al ajuste. Puede verse que,
exceptuando la variable hijos, todas las variables incluidas en el
anlisis son significativas; por tanto, buenas candidatas para formar
parte del modelo de regresin. La ltima lnea, Estadsticos
globales, contiene una valoracin global de todas las variables
independientes tomadas juntas.
Variables que no estn en la ecuacin
Paso
0

Variables

Estadsticos globales

LEE
EDAD
EDUC
INGFAM91
HIJOS

Puntuacin
45,137
20,956
60,910
53,935
,188
136,954

gl
1
1
1
1
1
5

Sig.
,000
,000
,000
,000
,664
,000

245

El estadstico chi-cuadrado
Pruebas omnibus sobre los coeficientes del modelo
Paso 1

Paso
Bloque
Modelo

Chi-cuadrado
143,754
143,754
143,754

gl
5
5
5

Sig.
,000
,000
,000

El estadstico chi-cuadrado permite contrastar la hiptesis de


que el incremento obtenido en el ajuste global del modelo es
nulo. Este estadstico sirve para determinar si, al introducir las
cinco variables independientes en el modelo, se consigue un
incremento significativo del ajuste global. Este incremento se
valora tomando como punto de referencia el modelo nulo.
Puesto que el modelo se construye en un nico paso (pues se
est utilizando el mtodo introducir; ver siguiente apartado),
todas las secciones de tabla informan del mismo valor; la mejora
respecto al modelo nulo, es decir, respecto al modelo del paso 0
(Chi-cuadrado = 143,754). En el ejemplo, esta mejora es
significativa:
246

Resumen de los modelos

Paso
1

-2 log de la
R cuadrado
verosimilitud
de Cox y Snell
a
970,392
,143

R cuadrado
de
Nagelkerke
,205

a. La estimacin ha finalizado en el nmero de


iteracin 5 porque las estimaciones de los
parmetros han cambiado en menos de ,001.

La tabla ofrece un resumen del modelo. Contiene tres


estadsticos que permiten valorar el ajuste global del modelo en
el paso 1, es decir, del modelo que incluye todas las variables.
Los parmetros estn estimados a travs del mtodo de mxima
verosimilitud (-2LL), de modo que sus valores tendern a 0 si la
verosimilitud tiende a mxima y al revs si sta es baja.En el
ejemplo se observa un un bajo ajuste del modelo a los datos.
Este resultado queda corroborado con el estadstico de Cox y
Snell, que se interpreta de la misma forma que el coeficiente de
determinacin de un modelo de regresin lineal.
247

Matriz de confusin
Tabla de clasificacina
Pronosticado

Paso 1

Observado
Vot en 1992?
Porcentaje global

S vot
No vot

Vot en 1992?
S vot
No vot
615
54
189
76

Porcentaje
correcto
91,9
28,7
74,0

a. El valor de corte es ,500

La tabla muestra la matriz de confusin con los resultados de la


clasificacin.
Aunque no es posible mejorar el porcentaje global de
clasificacin correcta sin incluir nuevas variables independientes,
si es posible equilibrar la tasa de aciertos en los dos grupos
manipulando el punto de corte utilizado en la clasificacin.

248

Variables en la ecuacin
Paso
a
1

LEE
EDAD
EDUC
INGFAM91
HIJOS
Constante

B
,671
-,034
-,192
-,056
,018
3,636

E.T.
,207
,006
,032
,016
,051
,526

Wald
10,468
36,188
35,276
12,722
,125
47,706

gl
1
1
1
1
1
1

Sig.
,001
,000
,000
,000
,723
,000

Exp(B)
1,956
,967
,825
,945
1,018
37,957

a. Variable(s) introducida(s) en el paso 1: LEE, EDAD, EDUC, INGFAM91, HIJOS.

La tabla muestra las estimaciones de los coeficientes (B) del


modelo y los datos necesarios para valorar su significacin e
interpretarlos.
La significacin de cada coeficiente se evala a partir del
estadstico de Wald. Este estadstico permite contrastar la
hiptesis nula de que el coeficiente vale cero en la
poblacin y se obtiene elevando al cuadrado el cociente
entre el valor estimado del coeficiente (B) y su error tpico
(error tip).
249

Estadstico de Wald

Estadstico de Wald

Coeficiente

E.estndar

Es un estadstico similar a una t2. Cuando el nivel crtico


(Sig.) asociado al estadstico de Wald es menor que 0,05, se
puede rechazar la hiptesis nula y, por tanto, concluir que la
correspondiente variable independiente est
significativamente relacionada con la variable dependiente.
Un inconveniente de este estadstico es que es demasiado
sensible al tamao de los coeficientes; en general, cuando el
valor de un coeficiente es muy grande (en valor absoluto) el
estadstico de Wald es poco fiable. En estos casos es
preferible evaluar la significacin de las variables utilizando
un mtodo por pasos
250

Razn de las ventajas


La columna de la razn de las ventajas, Exp(B), permite
cuantificar en qu grado aumenta la abstencin cuando los
sujetos no leen el peridico (y se mantienen constantes las
restantes variables). Puesto que el punto de comparacin es el
valor 1 y el Exp(B) de la variable leer vale 1,956, se puede
concluir que la ventaja de la abstencin entre los sujetos que no
leen el peridico es aproximadamente el doble que entre los que
s lo leen.
El signo negativo del resto de los coeficientes indica que el
incremento en cualquiera de las dems variables disminuye la
probabilidad de que un sujeto no vote: la abstencin es menos
probable a medida que aumentan la edad, los ingresos familiares
y los aos de escolarizacin.
251

Anlisis de regresin logstica por pasos


Cuando, se dispone de ms de una variable independiente,
existen varios mtodos para seleccionar la variable o
variables que deben formar parte del modelo final.

El mtodo de introduccin forzosa hace que el modelo de regresin


incluya todas las variables independientes seleccionadas.
Los mtodos de seleccin por pasos permiten utilizar criterios
estadsticos para, de forma automtica, incluir en el modelo las
variables que son significativas y dejar fuera las que no lo son.
Los mtodos de seleccin por bloques permiten al usuario manipular
la inclusin y/o exclusin de variables mediante la combinacin
secuenciada de distintos procedimientos, pudiendo generar modelos
jerrquicos.
252

Regresin logstica multinomial


La opcin Regresin logstica multinomial resulta til en aquellas
situaciones en las que desee poder clasificar a los sujetos segn
los valores de un conjunto de variables predictoras. Este tipo de
regresin es similar a la regresin logstica, pero ms general, ya
que la variable dependiente no est restringida a dos categoras.
Ejemplo. Para conseguir una produccin y distribucin de
pelculas ms eficaz, los estudios de cine necesitan predecir qu
tipo de pelculas es ms probable que vayan a ver los
aficionados. Mediante una regresin logstica multinomial, el
estudio puede determinar la influencia que la edad, el sexo y las
relaciones de pareja de cada persona tienen sobre el tipo de
pelcula que prefieren. De esta manera, el estudio puede orientar
la campaa publicitaria de una pelcula concreta al grupo de la
poblacin que tenga ms probabilidades de ir a verla.
253

Regresin logstica versus anlisis discriminante


La regresin logstica se puede aplicar a un rango ms amplio de
situaciones de investigacin que el anlisis discriminante.
El anlisis discriminante resulta til para las situaciones en las que
se desea construir un modelo predictivo para pronosticar el grupo de
pertenencia de un caso a partir de las caractersticas observadas de
cada caso. El procedimiento genera una funcin discriminante (o,
para ms de dos grupos, un conjunto de funciones discriminantes)
basada en combinaciones lineales de las variables predictoras que
proporcionan la mejor discriminacin posible entre los grupos. Las
funciones se generan a partir de una muestra de casos para los que
se conoce el grupo de pertenencia; posteriormente, las funciones
pueden ser aplicadas a nuevos casos que dispongan de medidas
para las variables predictoras pero de los que se desconozca el
grupo de pertenencia.
254

Anlisis discriminante
Datos. La variable de agrupacin debe tener un nmero limitado de
categoras distintas, codificadas como nmeros enteros. Las
variables independientes que sean nominales deben ser
recodificadas a variables dummy o de contraste.
Supuestos. Los casos deben ser independientes. Las variables
predictoras deben tener una distribucin normal multivariada y las
matrices de varianzas-covarianzas intra-grupos deben ser iguales en
todos los grupos. Se asume que la pertenencia al grupo es
mutuamente exclusiva (es decir, ningn caso pertenece a ms de un
grupo) y exhaustiva de modo colectivo (es decir, todos los casos son
miembros de un grupo). El procedimiento es ms efectivo cuando la
pertenencia al grupo es una variable verdaderamente categrica; si
la pertenencia al grupo se basa en los valores de una variable
continua (por ejemplo, un cociente de inteligencia alto respecto a
uno bajo), deber considerar el uso de la regresin lineal para
aprovechar la informacin ms rica ofrecida por la propia variable
255
continua.

Anlisis Factorial
Datos y supuestos
Tcnica del anlisis factorial
Fases del anlisis factorial
Matriz de correlaciones
Extraccin de factores
Mtodos de Rotacin
Puntuaciones factoriales

256

Anlisis Factorial
El anlisis factorial es una tcnica de reduccin de datos que
sirve para encontrar grupos homogneos de variables a partir
de un conjunto numeroso de variables.

v1, v2, v3,.vn

v1, v5,v7

v2,v8,v10.

V3,v4,v9..

Esos grupos homogneos se forman con las variables que


correlacionan mucho entre s y procurando, inicialmente, que
unos grupos sean independientes de otros.

257

Datos y supuestos
Objetivo
Buscar el nmero mnimo de dimensiones capaces de explicar el
mximo de informacin contenida en los datos.

Variables
En el anlisis factorial no existe variable dependiente. Todas las
variables del anlisis tienen el mismo rango: todas ellas son
independientes en el sentido de que no existe a priori una
dependencia conceptual de unas variables sobre otras.
Las variables deberan ser cuantitativas a nivel de intervalo o
de razn. Los datos categricos (como la religin o el pas de
origen) no son adecuados para el anlisis factorial.

258

Datos y supuestos
Supuestos
Los datos han de tener una distribucin normal bivariada para
cada pareja de variables, y las observaciones deben ser
independientes.

Ejemplo
Qu actitudes subyacentes hacen que las personas
respondan a las preguntas de una encuesta poltica de la
manera en que lo hacen? Con el anlisis factorial, se puede
investigar el nmero de factores subyacentes y, en muchos
casos, se puede identificar lo que los factores representan
conceptualmente. Adicionalmente, se pueden calcular las
puntuaciones factoriales para cada encuestado, que pueden
utilizarse en anlisis subsiguientes.
259

Tcnica del anlisis factoriaI.


Cada variable aparece como combinacin lineal de una serie
de factores

X i Ai1 F1 Ai 2 F2 Ai 3 F3 ..... Aik Fk U i


donde F son los factores comunes a todas las variables y U es el factor
nico referido a la parte de la variable i que no puede ser explicada por
los factores comunes. Las A, son los coeficientes de cada uno de los
factores. Los factores nicos se asume que estn incorrelacionados con
el resto de factores nicos y con los factores comunes.
Cada factor es una combinacin lineal de las variables originales

F j W j1 X 1 W j 2 X 2 W j 3 X 3 ..... Wip X p
Wj son los coeficientes de las puntuaciones factoriales
P es el nmero de variables

260

Fases del Anlisis factorial


El anlisis factorial consta de cuatro fases caractersticas:
El clculo de una matriz capaz de expresar la variabilidad conjunta de
todas las variable.
La extraccin del nmero ptimo de factores.
La rotacin de la solucin para facilitar su interpretacin.
La estimacin de las puntuaciones de los sujetos en las nuevas
dimensiones.
Para ejecutar correctamente un anlisis factorial es necesario tomar
algunas decisiones en cada una de estas fases.

261

Ejemplo
Analicemos, por ejemplo, la pregunta del cuestionario cuyos
datos recoge el archivo trabajo.sav y referida a la evaluacin
por parte de los encuestados de la importancia que segn su
opinin pueden tener cada una de las causas que se
enumeran, en el alto ndice de paro en un pas.
B13: La crisis econmica.
B14: La poltica de empleo del gobierno.
B15: La mala gestin de los empresarios.
B16: La comodidad de la gente, que slo quiere buenos trabajos.
B17: La falta de preparacin del trabajador.
B18: Las pocas ganas de trabajar de la gente.
B19: El no saber buscar trabajo.
B20: Que hay mucho pluriempleo.
B21: Que el trabajo que hay no se reparte bien socialmente.

262

El modelo matemtico que subyace a esta tcnica es similar


al de la regresin simple y en l cada variable aparece como
combinacin lineal de una serie de factores que no son en
este momento observables. Por ejemplo, B13 (la crisis
econmica) puede aparecer expresada como:
B13 = a(sujeto) + b(externos al sujeto) + c(entorno) + UB13
donde sujeto, externos al sujeto y entorno no son variables
independientes sino grupos de variables desconocidas por
nosotros a priori, que pueden ser los factores subyacentes y
que hemos denominado sujeto como factor que puede
englobar las variables referidas a causas del paro inherentes
al propio sujeto, externas al sujeto, en donde estaran como
causantes del paro el gobierno y los empresarios, por ejemplo,
y el entorno en donde bien podran estar la crisis econmica
y el reparto del trabajo.
263

Descriptivos
Estadsticos descriptivos

Crisis
Poltica de empleo
Empresarios
Comodidad
Preparacin
Ganas de trabajar
Bsqueda
Pluriempleo
Reparto

Media
3,93
3,91
3,53
3,02
2,92
2,85
2,77
3,57
3,87

Desviacin
tpica
,882
,933
1,005
1,133
1,086
1,203
1,099
1,005
,877

N del anlisis
1009
1009
1009
1009
1009
1009
1009
1009
1009

Figura 1

264

Matriz de correlaciones
Matriz de correlacionesa

Correlacin

Sig. (Unilateral)

Crisis
Poltica de empleo
Empresarios
Comodidad
Preparacin
Ganas de trabajar
Bsqueda
Pluriempleo
Reparto
Crisis
Poltica de empleo
Empresarios
Comodidad
Preparacin
Ganas de trabajar
Bsqueda
Pluriempleo
Reparto

Crisis
1,000
,397
,185
-,120
-,003
-,157
-,101
,019
,084
,000
,000
,000
,457
,000
,001
,273
,004

Poltica de
empleo
,397
1,000
,202
-,077
-,050
-,104
-,078
,054
,103
,000
,000
,007
,057
,000
,006
,044
,001

Empresarios
,185
,202
1,000
,028
-,010
-,024
,044
,101
,161
,000
,000
,185
,373
,221
,082
,001
,000

Comodidad
-,120
-,077
,028
1,000
,336
,559
,387
,214
,043
,000
,007
,185
,000
,000
,000
,000
,087

Preparacin
-,003
-,050
-,010
,336
1,000
,425
,345
,115
,045
,457
,057
,373
,000
,000
,000
,000
,077

Ganas de
trabajar
-,157
-,104
-,024
,559
,425
1,000
,451
,195
,071
,000
,000
,221
,000
,000
,000
,000
,012

Bsqueda
-,101
-,078
,044
,387
,345
,451
1,000
,231
,134
,001
,006
,082
,000
,000
,000
,000
,000

Pluriempleo
,019
,054
,101
,214
,115
,195
,231
1,000
,376
,273
,044
,001
,000
,000
,000
,000

Reparto
,084
,103
,161
,043
,045
,071
,134
,376
1,000
,004
,001
,000
,087
,077
,012
,000
,000

,000

a. Determinante = ,240

Figura 2
Es importante que todas las variables tengan al menos un coeficiente de
correlacin significativo en la matriz.
265

El ndice KMO
Inversa de la matriz de correlaciones

Crisis
Poltica de empleo
Empresarios
Comodidad
Preparacin
Ganas de trabajar
Bsqueda
Pluriempleo
Reparto

Figura 3

Crisis
1,239
-,441
-,134
,061
-,115
,138
,059
-,008
-,049

Poltica de
empleo
-,441
1,223
-,153
,014
,034
,024
,048
-,043
-,059

Empresarios
-,134
-,153
1,086
-,063
,032
,054
-,058
-,038
-,128

Comodidad
,061
,014
-,063
1,548
-,148
-,674
-,207
-,160
,080

Preparacin
-,115
,034
,032
-,148
1,290
-,376
-,231
,005
,005

Ganas de
trabajar
,138
,024
,054
-,674
-,376
1,740
-,361
-,067
-,027

Bsqueda
,059
,048
-,058
-,207
-,231
-,361
1,380
-,144
-,086

Pluriempleo
-,008
-,043
-,038
-,160
,005
-,067
-,144
1,247
-,427

Reparto
-,049
-,059
-,128
,080
,005
-,027
-,086
-,427
1,201

KMO y prueba de Bartlett


Medida de adecuacin muestral de
Kaiser-Meyer-Olkin.
Prueba de esfericidad
de Bartlett

Chi-cuadrado
aproximado
gl
Sig.

,712
1434,418
36
,000

Figura 4
En la tabla tenemos la inversa de la matriz de correlaciones, los KMO
(Kaiser-Meyer-Olkin) y el test de Bartlett. Este ltimo, es decir, el test de
Bartlett, se utiliza para verificar si la matriz de correlaciones es una matriz de
identidad, es decir, si todos los coeficientes de la diagonal son iguales a la
unidad y los externos a la diagonal iguales a O.
266

El ndice KMO
Este estadstico se obtiene a partir de la transformacin X2 del
determinante de la matriz de correlaciones y cuanto mayor sea y
por
tanto menor el grado de significacin, ms improbable que la
matriz sea una matriz de identidad. En el ejemplo, con un valor
1434,418 y un grado de significacin p = 0,000 resulta evidente
que no se trata de una matriz de identidad.
En el supuesto de que no se pudiese rechazar esta
hiptesis, se desaconseja proceder a realizar un anlisis
factorial con los datos.

267

El ndice KMO
El ndice KMO nos compara los coeficientes de correlacin de
Pearson obtenidos en la Figura 2 con los coeficientes de
correlacin parcial entre variables. Se obtiene

KMO

2
r
ij
i j
2
ij

r a
i j

i j

2
ij

rij el coeficiente de correlacin de Pearson entre las variables i y j y


aij es el coeficiente de correlacin parcial entre las variables i y j.

268

El ndice KMO
Si la suma de los coeficientes de correlacin parcial al cuadrado es
muy pequea, KMO ser un ndice muy prximo a la unidad y por
tanto el anlisis factorial un procedimiento adecuado. En cambio,
valores pequeos en este ndice nos dan a entender todo lo
contrario. De hecho para Kaiser :
1 KMO > 0,90 son considerados excelentes.
0,90 KMO > 0,80 son considerados buenos.
0,80 KMO > 0,70 son considerados aceptables.
0,70 KMO > 0,60 son considerados mediocres o regulares.
0,60 KMO > 0,50 son considerados malos.
KMO < 0,50 son considerados inaceptables o muy malos.
En el ejemplo este valor es de 0,712 y por tanto se puede
considerar como aceptable y continuar con el anlisis
factorial.
269

Matrices anti-imagen
Poltica de
empleo

Empresarios

Comodidad

Preparacin

Ganas de
trabajar

Bsqueda

Pluriempleo

Reparto

Crisis
Poltica de empleo
Empresarios
Comodidad
Preparacin
Ganas de trabajar
Bsqueda
Pluriempleo
Reparto
Crisis
Poltica de empleo
Empresarios
Comodidad
Preparacin
Ganas de trabajar
Bsqueda
Pluriempleo
Reparto

Crisis
Correlacin anti-imagen

Covarianza anti-imagen

Matrices anti-imagen

,807
-,291
-,100
,032
-,072
,064
,034
-,005
-,033
,601a
-,358
-,116
,044
-,091
,094
,045
-,006
-,040

-,291
,818
-,115
,007
,022
,011
,028
-,028
-,040
-,358
,609a
-,132
,010
,027
,016
,037
-,034
-,048

-,100
-,115
,921
-,038
,023
,029
-,039
-,028
-,098
-,116
-,132
,690a
-,049
,027
,039
-,047
-,033
-,112

,032
,007
-,038
,646
-,074
-,250
-,097
-,083
,043
,044
,010
-,049
,744a
-,104
-,411
-,142
-,115
,058

-,072
,022
,023
-,074
,775
-,168
-,130
,003
,003
-,091
,027
,027
-,104
,791a
-,251
-,173
,004
,004

,064
,011
,029
-,250
-,168
,575
-,151
-,031
-,013
,094
,016
,039
-,411
-,251
,721a
-,233
-,046
-,019

,034
,028
-,039
-,097
-,130
-,151
,725
-,083
-,052
,045
,037
-,047
-,142
-,173
-,233
,816a
-,109
-,067

-,005
-,028
-,028
-,083
,003
-,031
-,083
,802
-,285
-,006
-,034
-,033
-,115
,004
-,046
-,109
,669a
-,349

-,033
-,040
-,098
,043
,003
-,013
-,052
-,285
,833
-,040
-,048
-,112
,058
,004
-,019
-,067
-,349
,591a

Figura 5

a. Medida de adecuacin muestral

En la Figura 5 tenemos las matrices anti-imagen de covariancias y


correlaciones entre todas las variables del ejemplo. Sern los negativos
de los coeficientes de correlacin parcial entre cada par de variables,
neutralizando el efecto de todas las restantes. Interesan por tanto
coeficientes cuanto ms pequeos, mejor.

270

En la diagonal de esta ltima tenemos los coeficientes MSA


(Measures of Sampling Adequacy) que vienen a ser los KMO
pero en este caso para cada variable por separado. La
interpretacin de sus valores es idntica a la realizada para los
KMO.
En resumen, tenemos:

Coeficientes de correlacin de Pearson que en la mayora de los casos son


altamente significativos.
El determinante de la matriz de correlaciones (0,240) relativamente bajo.
El ndice KMO = 0,712 bastante aceptable.
El resultado del test de Bartlett con un 2 = 1434,418 Y p = 0,000.
Valores muy bajos en la matrices anti-imagen,
MSA bastante altos en la diagonal de la matriz de correlaciones anti-imagen.
Todo ello nos lleva a concluir que el anlisis factorial que sigue a continuacin
resulta a priori pertinente y puede proporcionamos conclusiones satisfactorias.
271

Extraccin de factores
Mtodo. Permite especificar el mtodo de extraccin factorial. Los
mtodos disponibles son: Componentes principales, Mnimos
cuadrados no ponderados, Mnimos cuadrados generalizados,
Mxima verosimilitud, factorizacin de Ejes principales, factorizacin
Alfa y factorizacin Imagen.
En SPSS el sistema coge por defecto el mtodo de componentes
principales que es el que hemos utilizado en esta primera parte del
ejemplo.

272

Componentes principales (PC)


Consiste bsicamente en llevar a cabo una combinacin
lineal de todas las variables de modo que el primer
componente principal sea una combinacin que explique
la mayor proporcin de variancia de la muestra, el
segundo la segunda mayor y que a su vez est
incorrelacionado con el primero, y as sucesivamente
hasta tantos componentes como variables.
El mtodo de extraccin de componentes principales,
es el que acta por defecto, asume que es posible
explicar el 100% de la varianza observada y, por ello,
todas las comunalidades iniciales son iguales a la
unidad (que es justamente la varianza de una variable
en puntuaciones tpicas).
273

Comunalidades
Comunalidades
Crisis
Poltica de empleo
Empresarios
Comodidad
Preparacin
Ganas de trabajar
Bsqueda
Pluriempleo
Reparto

Inicial
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000

Extraccin
,644
,620
,329
,592
,523
,684
,519
,646
,693

La comunalidad de una variable es


la proporcin de su varianza que
puede ser explicada por el modelo
factorial obtenido.

Mtodo de extraccin: Anlisis de Componentes principales.

Figura 6

En la Figura 6 tenemos las comunalidades iniciales de la solucin


de componentes principales. Estos resultados se obtienen si en el
subcuadro de dilogo Descriptives de la Figura 2 y dentro de
Statistics seleccionamos Initial Solution. Si utilizamos tantos
componentes principales como variables, cada variable puede ser
explicada por ella misma y por tanto toda la variabilidad de cada
variable, que expresada en unidades de desviacin estandarizadas
es igual a la unidad, explicada a su vez por los factores comunes.
Esta es la razn por la que en la Figura 6 la comunalidad inicial es
274
igual a la unidad para todas las variables.

Valores propios
La decisin respecto al nmero de factores que deseamos para
representar los datos puede adoptarse desde una doble va que
es la que aparece en el subcuadro de dilogo Extraction. Por
defecto el sistema extraer tantos factores como haya en la
solucin inicial con valores propios (eigenvalues) superiores a la
unidad. En la Figura 7 vemos que hay tres factores con valores
propios superiores a 1 y que en definitiva ser el nmero que
extraer el sistema. Evidentemente, podemos cambiar el valor
por defecto correspondiente al eigenvalue. La segunda
posibilidad corresponde al botn de radio Number of factors y
consiste sencillamente en fijar un nmero entero determinado de
factores, siempre inferior, lgicamente, al nmero de variables.
Los autovalores (o valores propios) expresan la cantidad de
la varianza total que est explicada por cada factor; y los
porcentajes de varianza explicada asociados a cada factor se
obtienen dividiendo su correspondiente autovalor por la
suma de los autovalores (la cual coincide con el nmero de
variables
275

Matriz Varianza total explicada


Varianza total explicada

Componente
1
2
3
4
5
6
7
8
9

Autovalores iniciales
% de la
Total
varianza
% acumulado
2,449
27,211
27,211
1,684
18,714
45,925
1,116
12,395
58,320
,848
9,426
67,747
,705
7,834
75,580
,616
6,842
82,422
,597
6,629
89,051
,568
6,314
95,365
,417
4,635
100,000

Sumas de las saturaciones al cuadrado


de la extraccin
% de la
Total
varianza
% acumulado
2,449
27,211
27,211
1,684
18,714
45,925
1,116
12,395
58,320

Suma de las saturaciones al cuadrado


de la rotacin
% de la
Total
varianza
% acumulado
2,274
25,265
25,265
1,553
17,252
42,518
1,422
15,802
58,320

Mtodo de extraccin: Anlisis de Componentes principales.

Figura 7

La Figura 7 recoge, en porcentajes individuales y acumulados, la


proporcin de variancia total explicada por cada factor, tanto para la
solucin no rotada como para la rotada. En concreto, qu porcentaje
supone 2,449 sobre el total de variabilidad (nueve en el ejemplo) de
toda la muestra. Los tres factores incluidos en el modelo son capaces
de explicar exactamente un 58,32 por 100 de la variabilidad total, lo
que puede interpretarse como un porcentaje aceptable.

276

Grfico de sedimentacin
El grfico de sedimentacin
sirve para determinar el
nmero ptimo de factores.
Consiste simplemente en una
representacin grfica del
tamao de los autovalores.
Segn se ha sealado ya, los
autovalores indican la
cantidad de varianza que est
explicada por cada
componente principal

Figura 8
Tanto la tabla de porcentajes de varianza explicada como el grfico de
sedimentacin muestran los autovalores ordenados de mayor a menor: el
primer autovalor es el mayor de los posibles, el segundo autovalor es el mayor
de los restantes, y as sucesivamente. Si un autovalor se aproxima a cero, esto
significa que el factor correspondiente a ese autovalor es incapaz de explicar
una cantidad relevante de la varianza total. Por tanto, un factor al que
corresponde un autovalor prximo a cero se considera un factor residual y
277
carente de sentido en el anlisis.

Matriz de componentes
Matriz de componentesa

Crisis
Poltica de empleo
Empresarios
Comodidad
Preparacin
Ganas de trabajar
Bsqueda
Pluriempleo
Reparto

1
-,229
-,185
,020
,748
,629
,804
,718
,436
,236

Componente
2
,640
,668
,569
-,036
,002
-,085
,045
,437
,551

3
,426
,373
,070
,177
,357
,174
,040
-,515
-,577

Mtodo de extraccin: Anlisis de componentes principales.


a. 3 componentes extrados

En la Figura 9 tenemos
los coeficientes
utilizados para expresar
cada variable
estandarizada en
trminos de los tres
factores del modelo.

Figura 9
Estos coeficientes se conocen tambin con el nombre de pesos factoriales,
cargas, ponderaciones factoriales o saturaciones factoriales ya que nos indican
la carga de cada variable en cada factor, de modo que los factores con unos
pesos factoriales ms elevados en trminos absolutos nos indican una relacin
estrecha con las variables.

278

Matriz de componentes
El ideal desde el punto de vista del anlisis factorial es encontrar un
modelo en el que todas las variables saturen en algn factor, es
decir, pesos factoriales altos en uno y bajos en el resto. Por ejemplo
la variable B18 (Ganas de trabajar como posible explicacin del alto
ndice de desempleo en el pas) es una variable con una elevada
carga factorial en el primero de los factores y mucho ms pequea
en los dos restantes. Podramos expresar la variable B18 como:
B18 = 0,80408 F1 - 0,08519 F2 + 0,17407 F3
donde F1, F2 y F3 son los tres factores del modelo.

279

Matriz de componentes
Matriz de componentesa

1
Ganas de trabajar
Comodidad
Bsqueda
Preparacin
Poltica de empleo
Crisis
Empresarios
Reparto
Pluriempleo

,804
,748
,718
,629
-,185
-,229
,020
,236
,436

Componente
2
-,085
-,036
,045
,002
,668
,640
,569
,551
,437

Matriz de componentesa
3
,174
,177
,040
,357
,373
,426
,070
-,577
-,515

Mtodo de extraccin: Anlisis de componentes principales.


a. 3 componentes extrados

Componente
2

1
Ganas de trabajar
Comodidad
Bsqueda
Preparacin
Poltica de empleo
Crisis
Empresarios
Reparto
Pluriempleo

,804
,748
,718
,629
-,185
-,229
,236
,436

3
,174
,177

,668
,640
,569
,551
,437

,357
,373
,426
-,577
-,515

Mtodo de extraccin: Anlisis de componentes principales.


a. 3 componentes extrados

En la Figura 9 aparecen ordenadas las variables tal y como estn en la base


de datos. La segunda tabla de esta figura es la que corresponde a la opcin
que hemos seleccionado en el subcuadro de dilogo Options al seleccionar
Sorted by size el sistema ordena las variables en la matriz de mayor a
menor peso o carga factorial y siempre comenzando por el primer factor,
posteriormente el segundo, y as sucesivamente. Finalmente la opcin del
mismo subcuadro de dilogo Suppress absolute values less than nos
permite una lectura todava ms clara de la matriz puesto que permite
eliminar de la misma aquellos coeficientes con valores inferiores a uno dado
(0,10 por defecto).
280

Matriz de componentes
Para determinar en qu medida los tres factores son capaces de
explicar las variables originales, podemos sumar la proporcin de
variancia de la variable explicada por cada uno de ellos (es decir, los
coeficientes al cuadrado) y de este modo obtener las comunalidades
que aparecen en la diagonal de la Figura 10. Cojamos de nuevo la
variable B18 (Ganas de trabajar) y calculemos este sumatoria:
B 18 = 0,804082 + 0,085192 + 0,174072 = 0,68410
Casi el 70 por 100 de la variabilidad de B18 es explicada por los tres
factores
del modelo, en tanto que por ejemplo en la variable BI5 (Empresarios)
los mismos nicamente explican en torno al 33 por 100. Reiteramos
que esta proporcin de la variabilidad de cada variable explicada por
los factores del modelo es lo que se conoce con el nombre de
comunalidad de la variable. Obviamente su valor oscila entre 0 y 1 y
la parte de variancia no explicada por el modelo factorial, es decir, 1comunalidad, es lo que se conoce con el nombre de factor nico o
281
unicidad.

Rotacin
La finalidad de la rotacin es la de ayudamos a interpretar.
En el subcuadro de dilogo Rotacin existen varios
procedimientos.
VARIMAX, EQUAMAX y QUARTlMAX son procedimientos
ortogonales es decir que los factores se mantienen
incorrelacionados y los ejes forman ngulos rectos.
El PROMAX y el DlRECT OBLlMIN pertenecen al grupo de
los denominados oblicuos o no ortogonales.
La rotacin no afecta a la comunalidad y al porcentaje de
variancia explicada por el modelo, aunque s puede
cambiar la de cada factor.
282

Mtodos de Rotacin
Varimax. Mtodo de rotacin ortogonal que minimiza el
nmero de variables que tienen saturaciones altas en cada
factor. Simplifica la interpretacin de los factores opti
mizando la solucin por columna.
Quartimax. Mtodo de rotacin ortogonal que minimiza el
nmero de factores necesarios para explicar cada variable.
Simplifica la interpretacin de las variables observadas
optimizando la interpretacin por filas.
Equamax. Mtodo de rotacin que es combinacin del
mtodo Varimax, que simplifica los factores, y del mtodo
Quartimax, que simplifica las variables. Se minimiza tanto el
nmero de variables que saturan alto en un factor como el
nmero de factores necesarios para explicar una variable.
283

Mtodos de Rotacin
Oblimin directo. Mtodo para la rotacin oblicua (no
ortogonal). Cuando delta es igual a cero (el valor por
defecto), las soluciones son las ms oblicuas. A medida que
delta se va haciendo ms negativo, los factores son menos
oblicuos. Para anular el valor por defecto de delta, puede
introducirse un nmero menor o igual que 0,8.
Delta. El valor de delta permite controlar el grado de
oblicuidad que pueden llegar a alcanzar los factores de la
solucin.
Promax. Rotacin oblicua que permite que los factores
estn correlacionados. Puede calcularse ms rpidamente
que una rotacin oblimin directa, por lo que es til para
grandes conjuntos de datos.
Kappa. Parmetro que controla el clculo de la rotacin
Promax. El valor por defecto es 4. Este valor es adecuado
284
para la mayora de los anlisis.

Matriz factorial
En resumen, todos los mtodos tratan de obtener una matriz
factorial que se aproxime al principio de estructura simple.
Segn este principio, la matriz factorial debe reunir las
siguientes caractersticas:

Cada factor debe tener unos pocos pesos altos y el resto


prximos a 0.
Cada variable no debe estar saturada mas que en un solo
factor.
No deben existir factores con la misma distribucin.
El mtodo utilizado en todos los casos ha sido el de
componentes principales. Todos ellos coinciden a grandes
rasgos en la siguiente asignacin:
285

Matriz factorial
Factor 1 Variables:
B18: Pocas ganas de trabajar de la gente.
B16: La comodidad de la gente, que slo quiere buenos trabajos.
B19: El no saber buscar trabajo.
B17: La falta de preparacin del trabajador.
Factor 2 Variables:
B 14: La poltica de empleo del gobierno.
B 13: La crisis econmica.
B15: La mala gestin de los empresarios.
Factor 3 Variables:
B21: Que el trabajo que hay no se reparte bien socialmente.
B22: Que hay mucho pluriempleo.
286

Matriz de pesos factoriales


Matriz de componentes rotadosa

1
Ganas de trabajar
Comodidad
Preparacin
Bsqueda
Crisis
Poltica de empleo
Empresarios
Reparto
Pluriempleo

,818
,765
,712
,688
-,090
-,067
,027
,014
,226

Matriz de componentes rotadosa

Componente
2
-,111
-,058
,085
-,056
,795
,784
,512
,129
,033

3
,055
,062
-,095
,205
-,059
,010
,257
,822
,771

1
Ganas de trabajar
Comodidad
Preparacin
Bsqueda
Crisis
Poltica de empleo
Empresarios
Reparto
Pluriempleo

,813
,761
,716
,678
-,077
-,057
,023
-,019
,194

Componente
2
-,122
-,069
,077
-,068
,797
,785
,508
,117
,019

3
,088
,094
-,063
,233
-,051
,019
,265
,824
,780

Mtodo de extraccin: Anlisis de componentes principales.

Mtodo de extraccin: Anlisis de componentes principales.

Mtodo de rotacin: Normalizacin Quartimax con Kaiser.


a. La rotacin ha convergido en 5 iteraciones.

Mtodo de rotacin: Normalizacin Equamax con Kaiser.


a. La rotacin ha convergido en 5 iteraciones.

Matriz de componentes rotadosa

Matriz de configuracin.a

1
Ganas de trabajar
Comodidad
Preparacin
Bsqueda
Crisis
Poltica de empleo
Empresarios
Reparto
Pluriempleo

,815
,762
,715
,682
-,081
-,061
,024
-,008
,205

Componente
2
-,118
-,065
,080
-,064
,796
,785
,509
,120
,023

3
,076
,083
-,074
,224
-,053
,017
,263
,823
,777

Mtodo de extraccin: Anlisis de componentes principales.


Mtodo de rotacin: Normalizacin Varimax con Kaiser.
a. La rotacin ha convergido en 5 iteraciones.

1
Ganas de trabajar
Comodidad
Preparacin
Bsqueda
Crisis
Poltica de empleo
Empresarios
Reparto
Pluriempleo

,813
,762
,740
,664
-,026
-,013
,028
-,091
,124

Componente
2
-,085
-,035
,122
-,048
,806
,790
,496
,056
-,028

3
-,014
-,021
,146
-,172
,106
,036
-,229
-,834
-,775

Mtodo de extraccin: Anlisis de componentes principales.


Metodo de rotacin: Normalizacin Oblimin con Kaiser.
a. La rotacin ha convergido en 5 iteraciones.

287

Matriz de pesos factoriales


Matriz de configuracin.a

1
Ganas de trabajar
Comodidad
Preparacin
Bsqueda
Crisis
Poltica de empleo
Empresarios
Reparto
Pluriempleo

,815
,765
,751
,663
-,006
,005
,034
-,111
,105

Componente
2
-,068
-,019
,136
-,034
,804
,789
,497
,057
-,022

3
-,002
,009
-,154
,161
-,080
-,010
,246
,841
,776

Mtodo de extraccin: Anlisis de componentes principales.


Mtodo de rotacin: Normalizacin Promax con Kaiser.
a. La rotacin ha convergido en 5 iteraciones.

Analizando someramente estos resultados, bien podra tratarse


de tres factores claramente diferenciados y referidos:
1) Al trabajador
2) Gobierno y empresarios
3) Reparto o redistribucin del trabajo

288

Grfico de componentes en espacio rotado


Grficamente podemos ver estos mismos resultados en la
Figura que corresponde al grfico tridimensional de la
solucin rotada VARIMAX y componentes principales.

289

Grfico de componentes en espacio rotado

290

Grfico de componentes en espacio rotado


Los valores de cada variable en las coordenadas
corresponden a los pesos factoriales de las mismas en
los ejes de cada factor. Pueden ser valores
comprendidos entre -1 y 1,(cuanto mayor sea esta
coordenada, ms contribuye a la formacin del eje, a la
inercia del mismo).
En realidad los planos factoriales estn situados en el
interior de un crculo de radio la unidad, y en ese
sentido lo ideal es que los puntos variables del
estudio no estn concentrados en torno al origen del
espacio bidimensional en este caso (0,0) sino prximos
al borde del crculo o de los ejes factoriales.
291

Grfico de componentes en espacio rotado


En concreto y referido a los resultados del ejemplo en el grfico de las dos
primeras dimensiones:
Las variables:
B17: La falta de preparacin del trabajador.
B16: La comodidad de la gente, que slo quiere buenos trabajos.
B18: Las pocas ganas de trabajar de la gente.
B 19: El no saber buscar trabajo.
BI3: La crisis econmica.
B14: La poltica de empleo del gobierno
Son las variables que estn mejor representadas sobre el plano.
En peor posicin estn las variables:
B13: La mala gestin de los empresarios.
B20: Que hay mucho pluriempleo.
B21: Que el trabajo que hay no se reparte bien socialmente.
B 16, B 17, B 18 y B19 estn altamente correlacionadas entre si y a su vez
correlacionadas positivamente con el factor1 (estn situadas
B 13 y B14 lo mismo pero para el factor 2. Es negativa en cambio la relacin
con el primer factor.
292

Matriz de componentes rotados


El primer factor contrapone variables inherentes al propio
trabajador con variables referidas a la redistribucin del trabajo.
En el factor 2 son polticas de empleo y crisis econmica versus
reparto.

Matriz de componentes rotadosa

1
Ganas de trabajar
Comodidad
Preparacin
Bsqueda
Crisis
Poltica de empleo
Empresarios
Reparto
Pluriempleo

Componente
2
,815
-,118
,762
,715
,682
,796
,785
,509
,120
,205

,224

,263
,823
,777

Mtodo de extraccin: Anlisis de componentes principales.


Mtodo de rotacin: Normalizacin Varimax con Kaiser.
a. La rotacin ha convergido en 5 iteraciones.

Siguiendo con la idea de identificar


del mejor modo posible las
variables que en cualquier caso
tienen pesos factoriales ms
elevados o saturan ms en cada
uno de los factores , el sistema nos
posibilita eliminar de la matriz de
pesos factoriales y en las columnas
de los diversos factores, los pesos
de aquellas variables con un valor
inferior a uno determinado y que
por defecto es 0,10.

293

Puntuaciones factoriales
Puesto que la finalidad ltima del anlisis factorial es
reducir un gran nmero de variables a un pequeo
nmero de factores, es a veces aconsejable estimar
las puntuaciones factoriales de cada sujeto.
Matriz de coeficientes para el clculo de las
puntuaciones en las componentes

Crisis
Poltica de empleo
Empresarios
Comodidad
Preparacin
Ganas de trabajar
Bsqueda
Pluriempleo
Reparto

1
-,093
-,076
,008
,305
,257
,328
,293
,178
,096

Componente
2
,380
,397
,338
-,021
,001
-,051
,027
,259
,327

3
,382
,335
,063
,159
,320
,156
,036
-,462
-,518

Mtodo de extraccin: Anlisis de componentes principales.


Puntuaciones de componentes.

294

Nota: Aunque en la prctica el anlisis factorial


(AF) y el mtodo de componentes principales
(PC) se utilizan indistintamente y dan resultados
similares, conviene sealar que as como en el
anlisis de componentes principales el objetivo
consiste en encontrar una serie de
componentes que expliquen el mximo de
variancia total de las variables originales, el
objetivo del anlisis factorial es encontrar una
serie de factores que expliquen el mximo de
variancia comn de las variables originales.

295