You are on page 1of 71

UNIVERSIDAD DE CHILE

MAGISTER EN GESTION Y DIRECCION DE EMPRESAS

Métodos Cuantitativos para


el Análisis de los Mercados de Commodities
ESTUDIOS DE CASOS

APLICACIONES DE

Profesora: Sara Arancibia C.

MBA Minería 2013

1
FORMULAS PARA TRIUNFAR

LA FORMULA BÁSICA. Los investigadores se han dedicado a averiguar cuál ha sido la idea, el secreto que ha
llevado al triunfo a los grandes personajes de la historia. Y han encontrado una fórmula que todos los
triunfadores practicaron, y sin la cual no habrían llegado a ser grandes ni famosos. Esta fórmula consiste
en los siguientes cinco puntos:

a) Dirigir el pensamiento hacia una meta fija que se desea conseguir. Saber bien cuál es esa
meta que se desea alcanzar y no desviar la atención de ella.

b) Elaborar un plan para lograr conseguir esa meta, un plan cuidadoso y detallado que se va
siguiendo día por día, y que hace que nuestra actividad sea organizada y llena de entusiasmo.

c) Desarrollar un sincero deseo de realizar aquello que se desea conseguir. El deseo ardiente
es el más importante motivador de las acciones. El deseo de lograr éxitos consigue la costumbre de
conseguir éxitos.

d) Adquirir una confianza grande en sí mismo; confianza en las propias capacidades y


habilidades para lograr el éxito, concediéndole muchísima mayor importancia a las cualidades positivas que
se tiene que a las debilidades o a las posibilidades de derrota.

e) Dedicarse a una acción tenaz e incansable para lograr obtener la meta que se busca
conseguir, sin desanimarse por los obstáculos, las críticas, las circunstancias adversas, o lo negativo que los
demás piensen, hagan o digan. Esa energía concentrada hacia la consecución de una meta, trae
enormemente las oportunidades, las cuales no se dejan atrapar por los que están sin hacer nada, pero se
acercan generosamente a quienes se atreven a atacar, a trabajar fuertemente por conseguir el éxito.
Esta fórmula básica Meyer la llamó “El plan del éxito personal a base de automotivación”, para desarrollar
al máximo el potencial de cada uno.
Meyer resume la fórmula básica en la siguiente frase:
“Todo lo bueno que: vivamente imaginamos, ardientemente deseamos, sinceramente creamos, y
entusiastamente emprendamos, de una manera impresionantemente favorable se transformará en algo
placentero y beneficioso para nosotros”
(Eliécer Salesman. “100 Fórmulas para llegar al éxito”)
Si una de tus metas es APRENDER aplica esta fórmula y “comienza con la mente abierta”. La cualidad más
importante que afectará tu éxito en el curso es tu ACTITUD. Ésta determinará lo que estés dispuesto a
hacer en el curso, y la calidad de ese esfuerzo contribuirá de la manera más significativa a tu éxito.

2
Contenido

I Documento introducción

Análisis Inicial de los datos

II Estudio de Caso.

Caracterización del Mundo: Mundo 95 (Tablas, gráficos y estadísticos descriptivos)

III Estudio de Caso.

Seguridad Minera. (Creación de variables y uso de funciones)

IV Estudio de caso

Producción minera (Importación de datos en Excel y Agregación)

V Estudio de caso

Estimación de parámetros poblacionales (Muestreo e intervalos de confianza, distribución de


probabilidad)

VI Estudio de caso

Test Market ( Agregación y pruebas de hipótesis)

VII Estudio de caso

Estudio Morfología (Análisis de correlación y regresión simple)

VIII Estudio de caso

Consumo producto (Análisis de regresión lineal y modelos log-log)

IX Estudio de caso

Desempleados (Regresión lineal con damis)

X Estudio de caso

Consumo de agua potable (Análisis de correlación y regresión lineal)

3
I. Documento introducción :Análisis Inicial de los datos1

Cuando nos enfrentamos por primera vez a la realización de un análisis estadístico la máxima preocupación
es profundizar en la técnica estadística seleccionada, sin .embargo, existe una etapa previa incluso más
compleja y esencial que consiste en realizar un examen exhaustivo de los datos recabados.
La depuración de los datos o detección de problemas ocultos en los datos supondrá un gran avance en la
consecución de resultados lógicos consistentes. Dichos problemas se pueden subsanar comenzando por una
inspección visual de las representaciones gráficas de los datos, completándose con un análisis de datos
ausentes o perdidos y de los casos atípicos (conocidos bajo la denominación de outliers).

Representaciones gráficas para el análisis de datos

La difusión experimentada en los últimos años por los programas estadísticos ha facilitando la
incorporación de módulos específicamente diseñados para la inspección gráfica de los datos.

El estudio de cada variable es fundamental para conocer sus características y comprobar si es oportuna y
relevante su inclusión en el análisis. Para ello se aconseja observar la forma de su distribución. Esto se
consigue mediante el histograma, que representa gráficamente los datos mostrando en barras la frecuencia
de los casos en cada variable. Si a su vez se pretende evaluar la normalidad de la variable, se efectuará
superponiendo la curva normal sobre la distribución o realizando gráficos P-P o Q-Q.

Mediante el gráfico de dispersión se podrá examinar la relación entre dos o más variables. Se trata de un
gráfico de puntos de datos basados en dos variables, representadas una en el eje horizontal y la otra en el
vertical. El posicionamiento de los puntos a lo largo de una línea recta se debe a la existencia de correlación
lineal. Si los puntos siguen distintas formas la relación no podrá calificarse de lineal. La inexistencia de
relación se podrá constatar si la nube de puntos es aleatoria y dispersa. ( Mediante correlaciones
bivariadas Pearson se podrá determinar mediante una prueba de hipótesis si la correlación entre dos
variables de escala es significativa).

Mediante el gráfico de cajas o boxplot se puede llevar a cabo un análisis de las diferencias entre grupos, si
lo que se pretende es apreciar la existencia de dos o más grupos en una variable métrica, como ocurre en el
análisis discriminante o en el análisis de la varianza. Este gráfico distribuye los datos de tal forma que los
límites superior e inferior de la caja marcan los cuartiles superior e inferior. La longitud de la caja es la
distancia entre el primer y tercer cuartil; así, la caja contiene el 50 por ciento de los datos centrales de la
distribución. La mediana se representa mediante una línea dentro de la caja. Existirá asimetría si la
mediana se aproxima al final de la caja. El tamaño de la caja dependerá de la distancia entre las
observaciones. También se representa la distancia entre la mayor y la menor de las observaciones mediante
unas líneas que salen de la caja denominadas bigotes. En este tipo de gráfico los casos atípicos se pueden
detectar por estar situados entre 1,0 Y 1,5 cuartiles fuera de la caja.

Diagrama de caja simple: Contiene un único diagrama de caja para cada categoría o variable del eje de
categorías. Los diagramas de caja muestran la mediana, los cuartiles y los valores extremos para la
categoría o variable.
Diagrama de caja agrupado: Tipo de gráfico en el que un grupo de diagramas de caja representa cada
categoría o variable del eje de categorías. Los diagramas de caja dentro de cada agrupación vienen
definidos por una variable de definición distinta.

1
TP PT Análisis Estadístico Multivariable de Manuel Vivanco

4
Años de escolarización por raza

899 634
20

718

Número de años de escolarización


15

10

691
1.366 702
244 693
5
620 688
596 765 1.476

735
0

Blanca Negra Otra

Raza del encuestado

Años de escolarización por raza agrupados por sexo

634 Sexo del encuestado


20
960 Hombre
961 718 Mujer
Número de años de escolarización

15

10

1.404

804
244 621 1.448 693
5
620 695 688
596 821 765

735
0

Blanca Negra Otra

Raza del encuestado

5
Detección de variables con categorías mal codificadas

En muchos archivos de datos se detectan problemas en variables nominales con categorías en formato
cadena sin un código asociado. Para detectar este problema es aconsejable realizar tablas de frecuencia de
las variables y observar si las categorías presentan errores de digitación, como por ejemplo la variable
sexo podría presentar problemas si las categorías están mal digitadas; Hombre, HOMBRE, hombre
representan a la misma categoría, sin embargo en una tabla de frecuencia aparecerán como categorías
diferentes. Para solucionar este problema se recomienda recodificar automáticamente asignándole a las
categorías de la variable un código numérico y luego con recodificar en distinta variable asignar
correctamente los códigos.

Análisis de datos ausentes


En este proceso de depuración de datos (anterior a la utilización de los métodos multivariables) el analista
debe ser consciente de que se enfrenta a una información que puede no existir en determinadas
observaciones y variables. Esto es lo que conocemos por datos ausentes o missing values. El porqué de la
existencia de datos ausentes puede deberse a distintas razones como errores al codificar los datos e
introducirlos en el computador, fallas del encuestador al completar el cuestionario, negación del
encuestado a responder ciertas preguntas calificadas de controvertidas… Razones comunes y muy
habituales en todo proceso investigador.

El problema de estos errores es el gran perjuicio que la inexistencia de datos ocasiona en los resultados y
sus efectos en el tamaño de la muestra disponible para el análisis, dado que esta ausencia puede convertir
lo que era una muestra adecuada en inadecuada. Por ello es necesario depurar esos casos y buscar
soluciones. Si se puede suponer que los fundamentos teóricos de la investigación no se alteran
sustancialmente, una opción sería suprimir aquellas variables y/o casos que peor se comportan respecto a
los datos ausentes. En este caso el investigador deberá sopesar lo que gana con la exclusión de esta
información y lo que pierde al no contar posteriormente en el análisis multivariante con la misma. Mediante
este proceder se asegura de que su matriz de datos está completa y posee observaciones válidas.

Otra posibilidad sería la estimación de valores ausentes empleando relaciones conocidas entre valores
válidos de otras variables y/o casos de la muestra. Por tanto, se trataría de imputar o sustituir los datos
ausentes por valores estimados (bien sea la media o un valor constante) en base a otra información
existente en la muestra.
Un porcentaje bajo de valores missing no es un problema que influya decisivamente en los resultados. Por
el contrario, la falta reiterada de respuesta puede alterar seriamente el análisis. No existe una estimación
respecto al porcentaje de missing que produce dificultades en una muestra determinada.
Según Tabachnik y Fidell (1983) más importante que el número de valores missing es la existencia de un
patrón de comportamiento en éstos. En efecto, la presencia de missing que se distribuyen aleatoriamente
no produce sesgos, sin embargo, la falta de respuesta sistemática asociada a ciertas variables puede
generar distorsión en los resultados.

La existencia de datos ausentes nunca debe impedir la aplicación del análisis multivariable o limitar la
posibilidad de generalizar los resultados de una investigación. La principal tarea del analista consistirá en
identificar su presencia, y desempeñar las acciones necesarias para minimizar sus efectos.
En datos correspondientes a encuestas es habitual encontrar códigos como los siguientes.
7= No procede, 8= No sabe , 9= No contesta
97= No procede, 98= No sabe, 99= No contesta
997= No procede, 998= No sabe, 999= No contesta

6
Se utilizan estos códigos cuando no son parte de los posibles datos de la variable.
El SPSS tiene un menú especial para tratar los valores perdidos.
El SPSS hace diferencia para los valores perdidos por el usuario y valores perdidos por el sistema.

Detección de outliers
Al examinar los datos recabados después de un proceso muestral el investigador puede detectar la
existencia de ciertas observaciones que no siguen el mismo comportamiento del resto, enfrentándose de
este modo a ciertos casos que, por ser claramente diferentes de otras observaciones de la muestra, son
calificados como outliers o atípicos.

El objetivo ante esta situación es identificar esa diferencia sustancial entre el valor real de la variable
criterio y su valor previsto, puesto que da lugar a observaciones que no son representaciones apropiadas de
la población de la cual se extrae la muestra.
Los casos atípicos se deben a errores en el procedimiento, o lo que es lo mismo, a falta al introducir los
datos o al codificar. Pero también pueden ser consecuencia de un evento extraordinario que hace destacar
esa observación. Este acontecimiento anormal puede tener o no una explicación. En cualquiera de estas
situaciones, una vez que: los outliers el analista debe juzgar qué es lo más apropiado: si evaluar toda la
incluyendo estas perturbaciones o eliminadas del análisis.

Estas decisiones han de justificarse, dado que determinados casos atípicos: aunque diferentes a la mayor
parte de la muestra, pueden contener información representativa de un segmento dominante. No obstante,
habrá situaciones donde lo más acertado sea su supresión porque pueden distorsionar seriamente los tests
estadísticos dados los problemas que presentan.

La detección de los casos atípicos desde una perspectiva univariable pasa por la observación de aquellos
casos que caigan fuera de los rangos de la distribución. Si lo que se pretende es evaluar conjuntamente
pares de variables se utilizará el gráfico de dispersión. Este método bivariable permite identificar los
casos atípicos al venir representado como puntos aislados. Por su parte, la detección multivariable supone
evaluar cada observación a lo largo de un conjunto de variables. Esto se consigue mediante el uso de la
Mahalanobis, puesto que es una medida de la distancia de cada observación en un espacio multidimensional
respecto del centro medio de las observaciones.

7
II. Estudio de Caso: Caracterización del Mundo2

Considere el archivo Mundo 95, que contiene las siguientes variables de los países del Mundo en el
año 1995:
Variable Etiqueta Etiqueta de Valor
país País
poblac Población x 1000
densidad Habitantes x Km2
urbana Habitantes en ciudades (%)
relig Religión mayoritaria
espvidaf Esperanza de vida Femenina
espvidam Esperanza de vida Masculina
alfabet Alfabetización (%)
inc_pob Aumento de población (% anual)
mortinf Mortalidad infantil (Muertes por 1000 nacimientos
vivos)
pib_cap Producto interno bruto per cápita
región Región Económica 1 = OCDE
2 = Europa Oriental
3 = Asia / Pacífico
4 = Africa
5 = Oriente Medio
6 = América Latina
calorías Ingesta diaria de calorías
sida Casos de SIDA
tasa_nat Tasa de natalidad (por 1.000 habitantes)
tasa_mor Tasa de mortalidad (por 1.000 habitantes)
tasasida Casos de SIDA por 100.000 habitantes
log_pib Log(10) de PIB_CAP
logtsida Log(10) de TASASIDA
nac_def Tasa nacimentos/defunciones
fertilid Número promedio de hijos
log_pob Log(10) de POBLAC
cregrano --
alfabmas Hombres alfabetizados (%)
alfabfem Mujeres alfabetizadas (%)
clima Clima predominante 1 = Desierto
2 = Arido / Desierto
3 = Arido
5 = Tropical
6 = Mediterráneo
7 = Marítimo
8 = Templado

2
TP Caso desarrollado por Sara Arancibia

8
9 = Artico /
Templado
10 = Artico

Usted debe realizar un informe donde compare los países en al menos los siguientes aspectos: Población,
densidad, % de habitantes en ciudades, esperanza de vida, alfabetización (%), tasas de natalidad y
mortalidad, número promedio de hijos por familia, tasa sida, considerando las variables nominales Región,
Religión mayoritaria y clima predominante.
Para su informe debe considerar al menos los siguientes puntos:
(i) Tres gráficos distintos con su interpretación.
(ii) Tablas de frecuencia
(iii) Tablas de contingencia
(iv) Outliers (Valores extremos)
(v) Medidas de tendencia central
(vi) Medidas de dispersión
(vii) Cubos OLAP
(viii) Puntuaciones z

Solución:
Comenzaremos el estudio determinando la frecuencia de las variables nominales; Región Económica, Religión
Predominante y Clima Predominante de los países

Region or economic group

Frequency Percent Valid Percent


Valid OECD 21 19,3 19,3
East Europe 14 12,8 12,8
Pacific/Asia 17 15,6 15,6
Africa 19 17,4 17,4
Middle East 17 15,6 15,6
Latn America 21 19,3 19,3
Total 109 100,0 100,0

La tabla de frecuencia muestra el número de países por Región económica. Se observan dos regiones con la
mayor frecuencia, (21 países) las que corresponden a la Región OECD (Organización para la Cooperación y el
Desarrollo Económico) y a la Región de Latino América, correspondiendo al 19,3% del total de países. La
menor frecuencia se observa en Europa del Este con 14 países de un total de 109 países.
El gráfico siguiente muestra la frecuencia y porcentaje de países por Religión predominante.

9
Frecuencia y porcentaje de países

por Religión Predominante

Other Buddhist

10,00 / 9,2% 7,00 / 6,4%

Protstnt

16,00 / 14,7%

Catholic
Orthodox
41,00 / 37,6%
8,00 / 7,3%

Muslim

27,00 / 24,8%

Se observa que 41 países que representan el 37,6% del total de países considerados tienen como religión
predominante a la religión Católica y 27 países a la religión Musulmana representando el 24,8% del total de
países considerados.
Para generar el gráfico: Graficar/Sectores/Resumen para grupos de casos/Nº de casos/Religión
Predominante. En el editor de gráficos se pide texto, valor y porcentaje y se colapsa los sectores a
mayores del 5%.
La tabla de frecuencia para religión predominante muestra complementariamente al gráfico anterior que
las religiones con menor frecuencia son las religiones Hindú, Judía, Taoísta y Tribal

Predominant religion

Frequency Percent Valid Percent


Valid Animist 4 3,7 3,7
Buddhist 7 6,4 6,5
Catholic 41 37,6 38,0
Hindu 1 ,9 ,9
Jewish 1 ,9 ,9
Muslim 27 24,8 25,0
Orthodox 8 7,3 7,4
Protstnt 16 14,7 14,8
Taoist 2 1,8 1,9
Tribal 1 ,9 ,9
Total 108 99,1 100,0
Missing 1 ,9
Total 109 100,0

Al cruzar las variables región y religión podemos observar en la tabla de contingencia que la Religión
Predominante Animista pertenece a países de África. La religión predominante Católica se encuentra en
todas las regiones excepto en la Región de Oriente donde la religión predominante es la Musulmana con 15
países de un total de 17 países de la región

10
Predominant religion * Region or economic group Crosstabulation

Count
Region or economic group
East Pacific/ Middle Latn
OECD Europe Asia Africa East America Total
Predominant Animist 4 4
religion Buddhist 7 7
Catholic 10 5 1 5 20 41
Hindu 1 1
Jewish 1 1
Muslim 1 5 6 15 27
Orthodox 1 6 1 8
Protstnt 10 2 1 2 1 16
Taoist 2 2
Tribal 1 1
Total 21 14 17 18 17 21 108

En relación al Clima Predominante se observa que las mayores frecuencias corresponden a los climas
Temperado y Tropical los que representan un 31,8% y 29,9% respectivamente, respecto al total de datos
válidos.

Predominant climate

Frequency Percent Valid Percent


Valid desert 7 6,4 6,5
arid / desert 5 4,6 4,7
arid 6 5,5 5,6
otro 5 4,6 4,7
tropical 32 29,4 29,9
mediterranean 10 9,2 9,3
maritime 4 3,7 3,7
temperate 34 31,2 31,8
arctic / temp 4 3,7 3,7
Total 107 98,2 100,0
Missing System 2 1,8
Total 109 100,0

Ahora consideremos la población, densidad y habitantes que viven en ciudades. Podemos observar del
gráfico correspondiente a la mediana de población por región económica que el 50% de los países del
Asia/Pacífico tienen una población mayor o igual a 59.400.000 habitantes, valor notablemente alto en
relación a las medianas del resto de las regiones las que oscilan entre 10.400.000 y 5.500.000 habitantes.

11
Mediana de Población por Región Económica
70000

60000
59400

50000

Med Population in thousands 40000

30000

20000

10000
10400 9600 9100 7900
0 5500
OECD Pacific/Asia Middle East
East Europe Africa Latn America

Region or economic group

Coherente con lo anterior se observa que la mayor densidad por región económica corresponde a la región
Asia/Pacífico con un valor promedio de 802 habitantes por kmP2P, la que es considerablemente superior a la
densidad promedio del resto de regiones, las que oscilan entre 127 y 62 habitantes por kmP2P
correspondiendo esta última a la región de África

Media de densidad por Región Económica


1000
Mean Number of people / sq. kilometer

800
802

600

400

200

108 127
77 62 88
0
OECD Pacific/Asia Middle East
East Europe Africa Latn America

Region or economic group

Para generar el gráfico: Graficar/Barras/Simples/Resumen para grupos de casos/N de casos/ Región


Económica.

12
Media de porcentaje de población

que vive en ciudades

OECD 75

East Europe 62
Region or economic group
Pacific/Asia 45

Africa 29

Middle East 66

Latn America 61

20 30 40 50 60 70 80

Mean People living in cities (%)

En relación al porcentaje de personas que viven en ciudades, se observa del gráfico que el mayor
porcentaje promedio corresponde a la Región OECD, con un 75% en promedio. Es considerable la diferencia
con la región de África donde el promedio de población urbana es del 29%, seguido de Asia/Pacífico con un
promedio del 45%.
Podemos complementar la información anterior con Cubos OLAP, los que muestran por grupos, los
estadísticos que se necesiten conocer. Específicamente los Cubos siguientes muestran para las regiones
OECD y África, el número de países el que corresponde a 21 y 18 países respectivamente. Se observa la
media para cada una de las variables consideradas y la desviación estándar que muestra cuánto se desvían
los datos, en promedio respecto a la media.
Al considerar el cubo correspondiente a la región OECD se observan los valores mínimo y máximo, es
sorprendente observar que existen países con una densidad de 2,3 habitantes por kmP2P y de 366 personas
por kmP2P. Al considerar la población, dentro de los países del OECD se puede apreciar un valor mínimo de
263.000 habitantes en oposición al valor máximo de 260.800.000 habitantes. El mayor porcentaje de
población urbana corresponde al 96% y el menor corresponde al 34%.

OLAP Cubes

Region or economic group: OECD


Predominant climate: Total
Predominant religion: Total
Number of people
Population in thousands / sq. kilometer People living in cities (%)
N 21 21 21
Mean 33085,10 107,981 74,71
Std. Deviation 57148,25 107,936 14,89
Minimum 263 2,3 34
Maximum 260800 366,0 96
Median 10400,00 80,000 77,00

13
OLAP Cubes

Region or economic group: Africa


Predominant climate: Total
Predominant religion: Total
Number of people
Population in thousands / sq. kilometer People living in cities (%)
N 18 18 18
Mean 18415,83 63,700 28,17
Std. Deviation 24331,33 79,823 14,70
Minimum 959 2,4 5
Maximum 98100 311,0 47
Median 8900,00 39,500 24,50

Al considerar el cubo correspondiente a la región de África se observa una media de población


considerablemente más baja que la media de la Región OECD y que la variabilidad en la variable población
del 132% es más baja que si se compara con la región del OECD cuyo coeficiente de variabilidad es del
172,7%. Por otra parte se observa para la población urbana un mínimo de 5% siendo el porcentaje máximo
del 47%, valores muy bajos si se compara con la región del OECD. Al igual que la región OECD se observa un
valor mínimo de densidad de 2,4 habitantes por km2, en oposición al máximo cuya densidad es de 311
habitantes por km2.
Para identificar a qué países corresponden estos valores máximos y mínimos se puede solicitar los valores
extremos (outliers) que muestra los cinco valores mayores y menores.

Extreme Values Extreme Values

Region or economic group: OECD Region or economic group: Africa


Number of people / sq. kilometer Number of people / sq. kilometer
Case Number COUNTRY Value Case
Highest 1 Netherlan Number COUNTRY Value
70 366,0
ds Highest 1 85 Rwanda 311,0
2 11 Belgium 329,0 2 18 Burundi 216,0
3 101 UK 237,0 3 73 Nigeria 102,0
4 42 Germany 227,0 4 40 Gambia 86,0
5 56 Italy 188,0 5 103 Uganda 76,0
Lowest 1 4 Australia 2,3 Lowest 1 14 Botswana 2,4
2 49 Iceland 2,5 2 39 Gabon 4,2
3 21 Canada 2,8 3 Cent.
22 5,0
4 74 Norway 11,0 Afri.R
5 New 4 90 Somalia 10,0
71 13,0
Zealand 5 109 Zambia 11,0

Para generar las tablas: Analizar/Estadísticos Descriptivos/Explorar. En Factor colocar Región económica
y etiquetar por país. En Estadísticos seleccionar Valores Atípicos.
Ahora consideraremos las variables; Esperanza de vida femenina, esperanza de vida masculina, tasa de
natalidad, tasa de mortalidad, tasa sida, fertilidad y alfabetización
El gráfico siguiente muestra la media de esperanza de vida femenina y masculina por Región Económica. Se
observa que en todas las regiones es mayor la media de esperanza de vida femenina que masculina siendo la
región del OECD, la de mayor esperanza de vida, con un promedio de 80 y 74 años para mujeres y hombres
respectivamente. Es notable la diferencia con África donde se observa que el promedio de esperanza de
vida es muy baja siendo la media de 54 y 51 años para mujeres y hombres respectivamente.

14
Media de las variables Esperanza de Vida

Femenina y Masculina por Región Económica


90

80
80
76
74
70 72 72
68 67 67 66
60 63

Media esper de Vida


54
50
51 Femenina
Media

40 Masculina
OECD Pacific/Asia Middle East
East Europe Africa Latn America

Región Económica

Para generar el gráfico: Graficar/Barras/Agrupados. Resumen para variables individuales/Media de las


variables Esperanza de vida fem y masculina/eje de categorías Región Económica.
La tabla siguiente identifica los países con mayor y menor esperanza de vida

Valores Extremos ( Outliers considerando todos los países)

Case Number COUNTRY Value


Average female Highest 1 94 Switzerland 82
life expectancy 2 57 Japan 82
3 38 France 82
4 21 Canada 81
5 56 Italy ,a
Lowest 1 103 Uganda 43
2 1 Afghanistan 44
3 22 Cent. Afri.R 44
4 109 Zambia 45
5 97 Tanzania 45
Average male Highest 1 55 Israel 76
life expectancy 2 57 Japan 76
3 26 Costa Rica 76
4 49 Iceland 76
5 47 Hong Kong ,b
Lowest 1 103 Uganda 41
2 97 Tanzania 41
3 22 Cent. Afri.R 41
4 85 Rwanda 43
5 45 Haiti 43
a. Only a partial list of cases with the value 81 are shown in the table of upper
extremes.
b. Only a partial list of cases with the value 75 are shown in the table of upper
extremes.

El siguiente gráfico apilado compara la tasa de natalidad y mortalidad por región económica, mostrando que
las mayores tasas corresponden a la región de África, las que indican que en promedio nacen 42 por cada

15
1.000 habitantes y mueren en promedio 15 por cada 1.000 habitantes. La menor tasa de natalidad en
promedio corresponde a la región del OECD

Tasa de natalidad y mortalidad


por región económica
60

15
50

40 42
6
9 7
30 33
27 27
20 11 Death rate per 1000
10
people
10 13 13
Mean

Birth rate per 1000

0 people
OECD Pacific/Asia Middle East
East Europe Africa Latn America

Region or economic group

Esta información está muy de acuerdo con la variable fertilidad, la que indica el promedio de hijos por
familia.
El diagrama de caja muestra por región económica que las mayores tasas de fertilidad se concentran en la
Región de África mostrando que la mediana representada por la línea horizontal en las cajas se aproxima al
valor 6 hijos por familia en promedio. El 50% de los datos de fertilidad de los países se encuentra en la
caja la que va desde el primer cuartil al tercer cuartil. La tabla de descriptivos para fertilidad por región
confirma la información entregada por el diagrama de caja.

Diagrama de caja

Fertilidad por región económica


10
Fertility: average number of kids

0
N= 21 13 16 19 17 21

OECD Pacific/Asia Middle East


East Europe Africa Latn America

Region or economic group

16
Descriptives

Fertility: average number of kids


Region or economic group
OECD East Pacific/As Africa Middle Latn

Statistic Statistic Statistic Statistic Statistic Statistic


Mean 1,746 1,889 3,383 6,081 4,724 3,336
5% Trimmed Mean 1,751 1,886 3,298 6,088 4,721 3,280
Median 1,800 1,840 3,065 6,290 4,000 3,080
Variance 6,150E-02 1,772E-02 3,226 1,285 2,356 1,115
Std. Deviation ,248 ,133 1,796 1,134 1,535 1,056
Minimum 1,3 1,7 1,4 3,8 2,8 1,8
Maximum 2,1 2,2 6,9 8,2 6,7 5,9
Range ,8 ,5 5,5 4,4 3,9 4,2
Interquartile Range ,495 ,190 2,795 1,380 3,165 1,655
Skewness -,081 ,530 ,791 -,586 ,231 ,827
Kurtosis -1,192 ,932 -,563 ,119 -1,812 ,332

Como complemento de la información vemos que la tabla siguiente muestra las medidas de tendencia central
y de dispersión para todas las variables consideradas en este apartado.

Descriptives

Average Average Birth Death Numbe Fertility: People


female male rate per rate per r of aids average who
life life 1000 1000 cases / number read
Statistic Statistic Statistic Statistic Statistic Statistic Statistic
Mean 69,89 64,71 26,154 9,64 24,8271 3,558 77,95
5% Trimmed Mean 70,67 65,37 25,754 9,31 16,8072 3,475 79,74
Median 74,00 67,00 25,500 9,00 5,5512 3,065 87,50
Variance 115,241 88,926 154,112 18,400 2482,6 3,605 532,862
Std. Deviation 10,74 9,43 12,414 4,29 49,8252 1,899 23,08
Minimum 43 41 10,0 2 ,00 1,3 18
Maximum 82 76 53,0 24 326,75 8,2 100
Range 39 35 43,0 22 326,75 6,9 82
Interquartile Range 12,75 12,75 21,000 4,00 23,2434 3,170 36,75
Skewness -1,048 -1,020 ,416 1,283 3,498 ,665 -,955
Kurtosis ,054 ,171 -1,163 1,754 15,008 -,933 -,250

Si consideramos sólo los países de las regiones OECD y África, observamos cómo cambian las medidas de
tendencia central y dispersión ya que en todas las variables, los países de la región de África están con
índice muy por debajo de los de la región OECD. Si queremos reconocer qué países en esas regiones tienen
los cinco valores máximos y mínimos los podemos apreciar de la tabla de valores extremos.

17
Descriptives

Region or economic group: OECD


Average Average Birth rate Death Number Fertility: People
female male life per 1000 rate per of aids average who read
Statistic Statistic Statistic Statistic Statistic Statistic Statistic
Mean 80,10 73,71 12,952 9,63 29,1052 1,746 97,67
5% Trimmed Mean 80,11 73,74 12,944 9,65 23,6322 1,751 98,22
Median 80,00 74,00 13,000 10,00 15,8713 1,800 99,00
Variance 1,390 1,314 2,748 1,633 1131,049 6,150E-02 11,333
Std. Deviation 1,18 1,15 1,658 1,28 33,6311 ,248 3,37
Minimum 78 71 10,0 7 3,10 1,3 85
Maximum 82 76 16,0 12 157,94 2,1 100
Range 4 5 6,0 5 154,84 ,8 15
Interquartile Range 2,00 1,50 2,000 2,00 24,2397 ,495 2,00
Skewness -,201 -,256 ,302 -,169 3,090 -,081 -3,027
Kurtosis -,827 ,519 -,512 -,492 11,201 -1,192 10,370

Descriptives

Region or economic group: Africa


Average Average Birth rate Death Number Fertility: People
female male life per 1000 rate per of aids average who read
Statistic Statistic Statistic Statistic Statistic Statistic Statistic
Mean 54,26 50,79 42,000 14,74 75,7491 6,081 47,26
5% Trimmed Mean 54,01 50,49 42,389 14,71 66,0056 6,088 47,29
Median 55,00 51,00 44,000 14,00 36,3077 6,290 50,00
Variance 63,649 52,731 41,111 25,538 7641,570 1,285 319,094
Std. Deviation 7,98 7,26 6,412 5,05 87,4161 1,134 17,86
Minimum 43 41 28,0 6 ,13 3,8 18
Maximum 70 66 49,0 24 326,75 8,2 76
Range 27 25 21,0 18 326,61 4,4 58
Interquartile Range 12,00 11,00 5,000 7,00 112,6254 1,380 34,00
Skewness ,425 ,352 -1,256 ,126 1,562 -,586 ,012
Kurtosis -,434 -,458 ,452 -,847 2,587 ,119 -,964

Para generar la tabla: Analizar/Estadísticos Descriptivos/Explorar: esperanza de vida femenina y


masculina, tasa de natalidad y mortalidad, promedio de hijos por familia etc. Factor: Región. Etiquetar por:
país. Estadísticos: Valores Atípicos. Al editar la gráfica se borra lo que no se quiere mostrar.
Si queremos comparar Chile en esperanza de vida femenina y masculina, tasa de natalidad, tasa de
mortalidad, fertilidad, tasa sida y alfabetización respecto al resto de países de la base de datos
consideramos las puntuaciones z de cada una de ellas, las que nos muestran que:
 esperanza de vida femenina en Chile está sobre la media en 0,74 desviaciones estándares.
 esperanza de vida masculina en Chile está sobre la media en 0,65 desviaciones estándares.
 tasa de natalidad en Chile está bajo la media en 0,23 desviaciones estándares.
 tasa de mortalidad en Chile está bajo la media en 0,83 desviaciones estándares.
 fertilidad (promedio de hijos por familia) en Chile está bajo la media en 0,55 desviaciones
estándares.
 tasa sida en Chile está bajo la media en 0,37 desviaciones estándares
 alfabetización (% de personas que saben leer) en Chile está sobre la media en 0,64 desviaciones
estándares.

18
EJERCICIOS:

1) Seleccione la Región de América Latina y realice un gráfico que muestre la población de los países
de esa región.

2) Segmente por región económica y calcule los cuartiles de esperanza de vida femenina y masculina

3) Crear rangos de “fertilidad” según los valores quintiles ( variable: Número promedio de hijos por
familia)

19
III. Estudio de Caso: Seguridad Minera3

Caso: Seguridad Minera

El año 1980, el Servicio Nacional de Geología y Minería SERNAGEOMIN fue creado a partir de la unión del
Instituto de Investigaciones Geológicas y el Servicio de Minas del Estado, con el objetivo de ser el asesor técnico
especializado del Ministerio de Minería en materias geológicas y mineras. Su misión es producir y proveer
información y productos geológicos, ejercer la función pública de fiscalización de las condiciones de seguridad
minera y medioambiente en la minería y entregar asistencia técnica en materias de constitución de la propiedad
minera, con el fin de satisfacer las demandas de las instituciones del Estado, de las empresas públicas y
privadas, y de las personas que participan en el sector minero y en el quehacer geológico, contribuyendo al
desarrollo del país en un entorno social, económico y ambientalmente sustentable.

Una de las principales actividades del SERNAGEOMIN es la fiscalización, en materias de control de riesgos de
accidentes, a las empresas y los trabajadores que desarrollan actividades en el sector minero. Esta actividad
tiene su base legal en la Ley Orgánica del Servicio D.L. Nº 3.525 y se encuentra enmarcada dentro del
Reglamento de Seguridad Minera (D.S. Nº 72 del Ministerio de Minería, año 1985

Suponga que usted debe analizar la información entregada por SERNAGEOMIN relativa a accidentes en minería.
Considere el archivo de datos “Estadísticas seguridad minera (Archivo tarea 2).xls”

1- Desde SPSS importar el archivo “Estadísticas seguridad minera (Archivo tarea 2).xls” desde Excel. Calcular
una variable que represente el total de accidentes (considerando accidentes fatales más los accidentes C.T.P.).
Además considerando las regiones genere la variable zona; Norte, Centro y Sur. Muestre la sintaxis completa del
cálculo de ambas variables.
Luego considerando la totalidad de datos en el archivo de datos, genere una tabla donde muestre por zona la suma total
de accidentes; fatales, CTP y total de accidentes. Muestre la sintaxis.
¿Qué zona presenta la menor cantidad de accidentes C.T.P? ¿Qué zona presenta la mayor cantidad total de accidentes?
¿Qué zona presenta mayor cantidad de accidentes fatales y qué porcentaje representan respecto al total de accidentes
fatales?

2.- Crear un nuevo archivo que considere por año y tipo de empresa ( Mandantes y Contratistas): la media de
accidentes fatales, la suma de accidentes fatales, la media del total de accidentes, la suma del total de
accidentes, la media del total de accidentes, la suma de días perdidos, la suma de horas hombre. Pegar la
sintaxis.

3.- Considere el archivo creado en el punto anterior y calcule la tasa de frecuencia, la tasa de gravedad y la tasa
de fatalidad de acuerdo a las siguientes definiciones. (Fuente: Art.12° del D.S N° 40 de la Ley 16.744)

Tasa de Frecuencia: Número de lesionados por millón de horas trabajadas por todo el personal en el período
considerado.

Tasa de frecuencia= (Total de accidentes *1000000)/ Total horas Hombre

3
TP Caso desarrollado por Sara Arancibia

20
Tasa de Gravedad: Número de días de ausencia al trabajo de los lesionados por millón de horas trabajadas por
todo el personal en el período considerado.

Tasa de gravedad= (Total de días perdidos *1000000)/ Total horas Hombre

Tasa de Fatalidad: Numero de fatales por millón de horas trabajadas por todo el personal en el período
considerado

Tasa de gravedad= (Total accidentes fatales *1000000)/ Total horas Hombre

Pegar la sintaxis de los cálculos y mostrar un gráfico que permita visualizar en qué años la tasa de fatalidad toma
un valor extremo o atípico por tipo de empresa (Mandantes, Contratistas). ¿En qué tipo de empresa la mediana
es mayor? ¿En qué tipo de empresa se presentan las tasas de fatalidad más altas y dónde se observa más
variabilidad? Argumente su respuesta.

4.- Crear un nuevo archivo que considere por región y empresas; la media de accidentes fatales, la suma de
accidentes fatales, la suma del total de accidentes, el mínimo del total de accidentes, el máximo del total de
accidentes. Pegar la sintaxis. Muestre una tabla identificando la región donde se presentan los cinco valores
mayores para las variables; suma total de accidentes y suma de accidentes fatales, por tipo de empresa
(Mandantes y contratistas). Comente la tabla.

SOLUCION

Pregunta 1.
SINTAXIS
DATASET ACTIVATE Conjunto_de_datos3.
COMPUTE totalacc=AccidentesFatales + AccidentesC.T.P.
VARIABLE LABELS totalacc 'total de accidentes'.
EXECUTE.

SE recodifica automáticamente la variable región


AUTORECODE VARIABLES=Región
/INTO regionrec
/PRINT.

Región into regionrec


Old Value New Value Value Label

Antofagasta 1 Antofagasta
Arica-Parinacota 2 Arica-Parinacota
Atacama 3 Atacama
Coquimbo 4 Coquimbo
De Aysén 5 De Aysén
De Los lagos 6 De Los lagos
Del Bío Bio 7 Del Bío Bio

21
Del Libertador Bernardo 8 Del Libertador Bernardo
O´Higgins 8 O´Higgins
Del Maule 9 Del Maule
Magallanes 10 Magallanes
Metropolitana 11 Metropolitana
Tarapacá 12 Tarapacá
Valparaíso 13 Valparaíso

Para crear zona se recodifica en distinta variable

RECODE regionrec (12=1) (11=2) (13=2) (10=3) (1 thru 4=1) (8 thru 9=2) (5 thru 7=3) INTO zona.
EXECUTE.

En definición de la variable
1 Norte
2 Centro
3 Sur

OLAP CUBES AccidentesFatales Accidentes C.T.P totalacc BY zona


/CELLS=COUNT SUM SPCT
/TITLE='Cubos OLAP'.

¿Qué zona presenta la menor cantidad de accidentes C.T.P?


La zona Sur con 2646 accidentes.

¿Qué zona presenta la mayor cantidad total de accidentes? La zona Norte con 21702

22
¿Qué zona presenta mayor cantidad de accidentes fatales y qué porcentaje representan respecto al total de accidentes
fatales?
La zona Norte con 390 accidentes fatales y representan el 70,7% del total de accidentes fatales

Pregunta 2:
SINTAXIS

AGGREGATE
/OUTFILE='G:\CURSOS 2011\MBA MINERIA\TAREA 2- MBA Minería 2011\AGRaccidentes1.sav'
/BREAK=Años Empresas
/AccidentesFatales_mean=MEAN(AccidentesFatales)
/AccidentesFatales_sum=SUM(AccidentesFatales)
/AccidentesC.T.P_mean=MEAN(AccidentesC.T.P)
/AccidentesC.T.P_sum_1=SUM(AccidentesC.T.P)
/totalacc_sum=SUM(totalacc)
/HorasHombre_sum=SUM(HorasHombre)
/DíasPerdidos_sum=SUM(DíasPerdidos)
/N_BREAK=N.

Pregunta 3

SINTAXIS:

DATASET ACTIVATE Conjunto_de_datos7.


COMPUTE tfrecuencia=(totalacc_sum * 1000000) / HorasHombre_sum.
VARIABLE LABELS tfrecuencia 'tasa de frecuencia'.
EXECUTE.

COMPUTE gravedad=(DíasPerdidos_sum *1000000) / HorasHombre_sum.


VARIABLE LABELS gravedad 'tasa de gravedad'.
EXECUTE.

COMPUTE tfatalidad=(AccidentesFatales_sum * 1000000) / HorasHombre_sum.


VARIABLE LABELS tfatalidad 'tasa de fatalidad'.
EXECUTE.

23
Pregunta 4

SINTAXIS

DATASET ACTIVATE Conjunto_de_datos5.


AGGREGATE
/OUTFILE='G:\CURSOS 2011\MBA MINERIA\TAREA 2- MBA Minería 2011\AGRaccidentes2.sav'
/BREAK=Región Empresas
/AccidentesFatales_mean=MEAN(AccidentesFatales)
/AccidentesFatales_sum=SUM(AccidentesFatales)
/totalacc_sum=SUM(totalacc)
/totalacc_min=MIN(totalacc)
/totalacc_max=MAX(totalacc)
/N_BREAK=N.

24
25
IV Caso: Producción minera 2009-2010

Suponga que usted es un asesor de una empresa minera y debe entregar algunas estadísticas de producción
agregada. Considere el archivo en Excel llamado Producción minera 2009-2010.
El objetivo de este caso es importar un archivo desde Excel a SPSS, utilizar algunas funciones para
calcular variables y generar nuevos archivos con agregar.

1) Desde SPSS importar el archivo considerando la hoja prod minera 2009-2010 mensual.

2) Calcule una variable que muestre solo el año y otra que muestre solo el mes

3) Genere un archivo con estadísticas agregadas de producción para el año 2009 y 2010 considerando
la producción de cobre y oro. Para esto considere para cada año la producción total, la media de producción
mensual, la variabilidad, la mínima y máxima producción.

4) Transponer el archivo creado y guarde como Producc agregada 2009-2010 y realice una tabla con
los datos del archivo.

5) Genere un gráfico que muestre para cada año la producción promedio mensual de cobre

6) Genere un gráfico que muestre para cada año la producción media mensual de cobre, la mínima y
máxima producción mensual y la variabilidad de producción de cobre

7) Considerando los años 2009 y 2010 genere un archivo con estadísticas agregadas por mes para la
producción de oro. Para esto considere la media de producción mensual , la mínima y máxima producción, la
desviación estándar y el coeficiente de variabilidad de la producción de oro.

26
SOLUCION
1) Desde SPSS importar el archivo considerando la hoja prod minera 2009-2010 mensual.
Solución: Archivo /abrir/datos

Ajuste en vista de variables los decimales a 2 y guardar con el nombre producción minera 2009-2010
mensual

2) Calcule una variable que muestre solo el año y otra que muestre solo el mes.

27
Para calcular el mes
Transformar /calcular variable/ variable de destino: mes, tipo; cadena, anchura 10/expresión de cadena:
CHAR.SUBSTR(AñoyMes,6). Pegar/ ejecutar/Aceptar.

DATASET ACTIVATE Conjunto_de_datos1.


STRING mes (A10).
COMPUTE mes=CHAR.SUBSTR(AñoyMes,6).
VARIABLE LABELS mes 'mes'.
EXECUTE.
Para calcular el año
Transformar /calcular variable/ variable de destino: año, tipo; cadena, anchura 4/expresión de cadena:
CHAR.SUBSTR(AñoyMes,1,4). Pegar/ ejecutar/Aceptar
STRING año (A4).
COMPUTE año=CHAR.SUBSTR(AñoyMes,1,4).
VARIABLE LABELS año 'año'.
EXECUTE.
Para pasar a formato numérico ir a vista de variables y cambiar formato de cadena a numérico, cambiar
además en medida de nominal a escala

3) Genere un archivo con estadísticas agregadas de producción para el año 2009 y 2010 considerando
la producción de cobre y oro. Para esto considere para cada año la producción total, la media de producción
mensual , la variabilidad, la mínimo y máxima producción

Datos/ Agregar/variable de segmentación : año/Resúmenes de variables


/Cobretdefino_sum 'prod total de cobre'=SUM(Cobretdefino)
/Cobretdefino_mean 'prod media de cobre'=MEAN(Cobretdefino)
/Cobretdefino_min 'Mínima prod de cobre'=MIN(Cobretdefino)
/Cobretdefino_max 'Máxima prod de cobre'=MAX(Cobretdefino)
/Cobretdefino_sd 'variabilidad en la prod de cobre'=SD(Cobretdefino)
/Orokgdefino_sum 'prod total de oro'=SUM(Orokgdefino)
/Orokgdefino_mean_1 'prod media de oro'=MEAN(Orokgdefino)
/Orokgdefino_min 'minima prod de oro'=MIN(Orokgdefino)
/Orokgdefino_max 'maxima prod de oro'=MAX(Orokgdefino)
/Orokgdefino_sd 'variabilidad en la prod de oro'=SD(Orokgdefino)
Activar número de casos: casos
Crear un nuevo conjunto de datos : Nombre del conjunto de datos: AGRPROD

28
4) Transponer el archivo creado y guarde como Producc agregada 2009-2010 y realice una tabla con
los datos del archivo.

Datos/ transponer
DATASET ACTIVATE Conjunto_de_datos10.
FLIP VARIABLES=Cobretdefino_sum Cobretdefino_min Cobretdefino_max Cobretdefino_sd
Orokgdefino_sum
Orokgdefino_mean_1 Cobretdefino_mean Orokgdefino_min Orokgdefino_max Orokgdefino_sd
/NEWNAME=año.

Se genera un nuevo archivo sin título. Guardar como: Producc agregada 2009-2010, luego ir a Analizar/
informes Resúmenes de casos./limitar a los primeros 11 casos.

29
5) Genere un gráfico que muestre para cada año la producción mensual de cobre

Considere el archivo AGRPROD.sav /ir a gráficos /cuadros de diálogo antiguos/ barras/ simple/ valores
individuales de casos/ las barras representan: Cobretdefino_mean, varaible:año

Otra forma Considere el archivo prod minera 2009-2010. Ir a gráficos /cuadros de diálogo antiguos/
barras/ simple/ resúmenes para grupos de casos/ las barras representan: MEAN(Cobretdefino), eje de
categorías : año

30
6) Genere un gráfico que muestre para cada año la producción media mensual de cobre, la mínima y
máxima producción mensual y la variabilidad de producción de cobre
Ir a gráficos /cuadros de diálogo antiguos/ barras/ agrupados/ resúmenes para distintas variables/ las
barras representan: MEAN(Cobretdefino), MIN(Cobretdefino), MAX(Cobretdefino), STD(Cobretdefino),
eje de categorías : año. Aceptar

31
7) Considerando los años 2009 y 2010 genere un archivo con estadísticas agregadas por mes para la
producción de oro. Para esto considere la media de producción mensual, la mínima y máxima producción, la
desviación estándar y el coeficiente de variabilidad de la producción de oro.

Ir a Datos Agregar/ Considere las variables como en la imagen y escriba un nuevo archivo de datos con el
nombre AGRPRODMES.sav
Luego abrir el archivo creado y generar la variables CV (Coeficiente de variabilidad). Para esto ir a
Transformar/calcular/ (Orokgdefino_sd / Orokgdefino_mean_1)*100

El resultado se puede ver en el archivo agregado

32
33
V. Estimación por Intervalos de Parámetros Poblacionales4.
(Muestras, intervalos de confianza).

A continuación realizaremos algunos procesos relativos con la identificación de distribuciones de


probabilidad y con la estimación de parámetros poblacionales.

Abra el archivo Poblaciónestimacióndeparámetros.sav.

a) Usando algún gráfico, identifique cuál es la distribución de las personas respecto a sus ingresos en
esta población conformada por 1.000 trabajadores.

Gráfico Q-Q normal de ingreso

Histograma
3

100 2

Normal esperado
1

80
0

-1
Frecuencia

60

-2

40 -3

420 450 480 510 540 570

Valor observado

20

Media =500,4162
Desviación típica =24,
05464
0 N =1.000
420,00 450,00 480,00 510,00 540,00 570,00

ingreso

EXAMINE
VARIABLES=ingreso
/PLOT BOXPLOT STEMLEAF HISTOGRAM NPPLOT
/COMPARE GROUP
/STATISTICS DESCRIPTIVES
/CINTERVAL 95
/MISSING LISTWISE
/NOTOTAL.
Pruebas de normalidad
a
Kolmogorov-Smirnov Shapiro-Wilk
Estadístico gl Sig. Estadístico gl Sig.
ingreso ,014 1000 ,200* ,999 1000 ,743
*. Este es un límite inferior de la significación verdadera.
a. Corrección de la significación de Lilliefors

4
Caso elaborado por Jaime Pérez-Kallens

34
Dado que la significancia de la prueba K_S es mayor a 0,05 no hay evidencia para rechazar la hipótesis
nula de normalidad de la variable y por tanto la variable distribuye normal

b) Determine el ingreso promedio por trabajador y la dispersión de los ingresos en la población.

Descriptivos

Estadístico Error típ.


ingreso Media 500,4162 ,76067
Intervalo de confianza Límite inferior 498,9235
para la media al 95% Límite superior
501,9089

Media recortada al 5% 500,3376


Mediana 500,5701
Varianza 578,626
Desv. típ. 24,05464
Mínimo 423,42
Máximo 569,35
Rango 145,93
Amplitud intercuartil 33,01
Asimetría ,028 ,077
Curtosis -,035 ,155

c) Seleccione una muestra aleatoria correspondiente al 20% de la población, muestre la sintaxis.


Muestre una tabla de frecuencias para género

USE ALL.
COMPUTE filter_$=(uniform(1)<=.20).
VARIABLE LABEL filter_$ 'Aproximadamente 20 % de los casos (MUESTRA)'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE .

genero

Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos Femenino 78 37,1 37,1 37,1
Masculino 132 62,9 62,9 100,0
Total 210 100,0 100,0

35
Genera una muestra aleatoria con el porcentaje aproximado de casos indicado.

Selecciona una muestra aleatoria con el número de casos especificado a partir del número total de casos
especificado. Si el número total de casos especificado excede el número total de casos presentes en el
archivo de datos, la muestra contendrá un número menor de casos proporcional al número solicitado.

USE ALL.
do if $casenum = 1.
compute #s_$_1=200.
compute #s_$_2=1000.
end if.
do if #s_$_2 > 0.
compute filter_$ = uniform(1)* #s_$_2 < #s_$_1.
compute #s_$_1 = #s_$_1 - filter_$.
compute #s_$_2 = #s_$_2 - 1.
else.
compute filter_$ = 0.
end if.
VARIABLE LABEL filter_$ '200 de los primeros 1000 casos (MUESTRA)'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE .

36
genero

Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos Femenino 78 39,0 39,0 39,0
Masculino 122 61,0 61,0 100,0
Total 200 100,0 100,0

d) Con la muestra antes seleccionada estime el ingreso medio por trabajador con un nivel de confianza
del 90%. Interprete el intervalo resultante. Además, verifique si la media poblacional está contenida en el
intervalo construido. Por último, identifique los principales estadísticos para la construcción del intervalo
de confianza.

Descriptivos

Estadístico Error típ.


ingreso Media 500,2375 1,72747
Intervalo de confianza Límite inferior 497,3828
para la media al 90% Límite superior
503,0922

Media recortada al 5% 500,7133


Mediana 501,7956
Varianza 596,828
Desv. típ. 24,43005
Mínimo 424,63
Máximo 569,35
Rango 144,72
Amplitud intercuartil 35,96
Asimetría -,227 ,172
Curtosis -,020 ,342

A partir de la muestra (200 registros) obtenemos el intervalo de confianza del 90% para la media
(497,3828 ; 503,0922)
De 100 intervalos similarmente construidos, 90 contendrán el parámetro poblacional
(media poblacional)

Se verifica que la media poblacional 500,4162 pertenece al intervalo de confianza antes indicado

Intervalo de confianza:

Limite inferior X z = 500,2375-1,645*1,72747=-497,3958
n

Limite superior X  z =500,2375+1,645*1,72747=503,07918
n
 24,43005
  1,727465
n 200

37
e) Seleccione una nueva muestra aleatoria, del 20%, y construya otro intervalo de confianza para
estimar el ingreso promedio por persona, con un nivel de confianza del 90%; verifique si la media
poblacional está contenida dentro del intervalo. Además, compare este intervalo con el anterior y comente.
USE ALL.
do if $casenum = 1.
compute #s_$_1=200.
compute #s_$_2=1000.
end if.
do if #s_$_2 > 0.
compute filter_$ = uniform(1)* #s_$_2 < #s_$_1.
compute #s_$_1 = #s_$_1 - filter_$.
compute #s_$_2 = #s_$_2 - 1.
else.
compute filter_$ = 0.
end if.
VARIABLE LABEL filter_$ '200 de los primeros 1000 casos (MUESTRA)'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE .

Descriptivos

Estadístico Error típ.


ingreso Media 502,4214 1,67967
Intervalo de confianza Límite inferior 499,6457
para la media al 90% Límite superior
505,1972

Media recortada al 5% 502,3368


Mediana 502,6920
Varianza 564,258
Desv. típ. 23,75411
Mínimo 440,09
Máximo 564,09
Rango 124,00
Amplitud intercuartil 32,80
Asimetría ,010 ,172
Curtosis -,280 ,342

f) Seleccione una nueva muestra aleatoria, del 1% de la población y construya un intervalo de


confianza para estimar el ingreso promedio por trabajador con un nivel de confianza del 95%. Compare
este resultado con el del punto e) y comente respecto al estadístico que está usando y supuesto con
relación a la distribución de la población.

USE ALL.
do if $casenum = 1.
compute #s_$_1=10.
compute #s_$_2=1000.
end if.
do if #s_$_2 > 0.
compute filter_$ = uniform(1)* #s_$_2 < #s_$_1.

38
compute #s_$_1 = #s_$_1 - filter_$.
compute #s_$_2 = #s_$_2 - 1.
else.
compute filter_$ = 0.
end if.
VARIABLE LABEL filter_$ '10 de los primeros 1000 casos (MUESTRA)'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE .

EXAMINE
VARIABLES=ingreso
/PLOT BOXPLOT STEMLEAF HISTOGRAM NPPLOT
/COMPARE GROUP
/STATISTICS DESCRIPTIVES
/CINTERVAL 95
/MISSING LISTWISE
/NOTOTAL.

Descriptivos

Estadístico Error típ.


ingreso Media 503,4258 6,42251
Intervalo de confianza Límite inferior 488,8971
para la media al 95% Límite superior
517,9545

Media recortada al 5% 504,7263


Mediana 514,7942
Varianza 412,486
Desv. típ. 20,30975
Mínimo 463,21
Máximo 520,23
Rango 57,02
Amplitud intercuartil 33,61
Asimetría -1,226 ,687
Curtosis -,038 1,334

g) Calcule la proporción de hombres en la población.

genero

Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos Femenino 400 40,0 40,0 40,0
Masculino 600 60,0 60,0 100,0
Total 1000 100,0 100,0

La proporción de hombres en la población es del 0,6

39
h) Seleccione una muestra aleatoria, del 20% y estime la proporción de hombres que hay en la
población, con un nivel de confianza del 95%. Verifique si la proporción poblacional de hombre, está
contenida en el intervalo de confianza que construyó.

Resumen del procesamiento de los casos

Casos
Válidos Perdidos Total
N Porcentaje N Porcentaje N Porcentaje
genero 200 100,0% 0 ,0% 200 100,0%

USE ALL.
do if $casenum = 1.
compute #s_$_1=200.
compute #s_$_2=1000.
end if.
do if #s_$_2 > 0.
compute filter_$ = uniform(1)* #s_$_2 < #s_$_1.
compute #s_$_1 = #s_$_1 - filter_$.
compute #s_$_2 = #s_$_2 - 1.
else.
compute filter_$ = 0.
end if.
VARIABLE LABEL filter_$ '200 de los primeros 1000 casos (MUESTRA)'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE .
Descriptivos

Estadístico Error típ.


genero Media ,63 ,034
Intervalo de confianza Límite inferior ,56
para la media al 95% Límite superior
,69

Media recortada al 5% ,64


Mediana 1,00
Varianza ,236
Desv. típ. ,485
Mínimo 0
Máximo 1
Rango 1
Amplitud intercuartil 1
Asimetría -,520 ,172
Curtosis -1,747 ,342

El parámetro poblacional está contenido en el intervalo de confianza

40
VI. Estudio de Caso: Test market5

Objetivos: Aplicar pruebas de hipótesis y agregación

Una compañía produce computadores personales y está considerando la introducción de nuevos colores
para el hardware con la esperanza de aumentar las ventas. El mantenimiento de la producción de más de un
color de equipo es costoso.
Para la introducción de nuevos colores la empresa ha establecido que será rentable si llega a una meta de
ventas promedio de 260 unidades por semana.
El departamento de marketing introduce y publicita una presentación de los nuevos colores en un
experimento de prueba de marketing por 36 semanas
Las ventas semanales están dadas en el archivo testmarket.sav
Basada en las ventas en testmarket, ¿debería la compañía adoptar la opción de nuevos colores?

Los datos tabulados han sido entregados a usted en el archivo “testmarket colores” y se le solicita que
responda las siguientes preguntas:

Nota: Muestre todas las sintaxis necesarias para responder cada una de las preguntas.

1. Suponga que se quiere convencer a los ejecutivos que las ventas justifican la introducción de
nuevos colores. Es decir se quiere argumentar que el promedio semanal de ventas con la opción de
colores es mayor a 260 unidades.
Determine si existen diferencias significativas en la media de ventas semanales respecto a 260. Si
hay diferencias determine si la media poblacional es superior a 260 y estime un intervalo de
confianza para la media poblacional con un 95% de confianza. Interprete. (Debe verificar si se
cumplen las condiciones para aplicar test de hipótesis).

Solución

En primer lugar se debe agregar por semana, sumando la cantidad de ventas de computadores

AGGREGATE
/OUTFILE='F:\CURSOS 2012\AIE 2012-1\SOLEMNE 2- 2012\Archivos solemne2-2012-1\AGR
ventas.sav'
/BREAK=Semana
/cantidad_sum 'venta semanal'=SUM(cantidad)
/N_BREAK=N.

Luego se verifica si se cumple la condición de normalidad o asimetría de ventas semanales.

5
Caso elaborado por Sara Arancibia

41
DATASET ACTIVATE Conjunto_de_datos5.
EXAMINE VARIABLES=cantidad_sum
/PLOT BOXPLOT HISTOGRAM NPPLOT
/COMPARE GROUP
/STATISTICS DESCRIPTIVES
/CINTERVAL 95
/MISSING LISTWISE
/NOTOTAL.

Ho: La variable ventas distribuye normal


H1: La variable ventas no distribuye normal
Del test de normalidad Shapiro -Wilk se observa que no hay evidencia para rechazar la hipótesis nula y por
tanto la variable ventas distribuye normal (dado que la significancia es superior a 0,05).

Ahora aplicamos una prueba T para una muestra donde las hipótesis correspondientes son

Ho: La media de ventas ( µ ) no difiere significativamente de 260


H1: La media de ventas ( µ ) difiere significativamente de 260

T-TEST
/TESTVAL=260
/MISSING=ANALYSIS
/VARIABLES=cantidad_sum
/CRITERIA=CI(.99).

42
Dado que la sig es menor a 0,05 existe evidencia para rechazar la hipótesis nula y por tanto la media
poblacional de ventas difiere significativamente de 260.

Dado que la diferencia µ-260 está entre dos valores positivos entre 8,7355 y 44,0422 entonces se tiene
que
µ-260>0 es decir µ>260. Por tanto la media poblacional de las ventas semanales es superior a 260, lo que
implica que la compañía debería adoptar la opción de nuevos colores.

Además con un 95% de confianza la media poblacional µ está entre 260+8,7365 y 260+44,0422 es decir
entre 268,7355 y 304,0422.

Es decir de 100 intervalos construidos similarmente aprox en 95 de ellos se encontrará la media


poblacional de ventas semanales

NOTA: Otra forma para estimar el intervalo de confianza es pedir directamente el intervalo de confianza
en explorar para la media de ventas obteniendo

EXAMINE VARIABLES=cantidad_sum
/PLOT BOXPLOT HISTOGRAM NPPLOT
/COMPARE GROUP
/STATISTICS DESCRIPTIVES
/CINTERVAL 99
/MISSING LISTWISE
/NOTOTAL.

2. Los directivos han observado que el rojo es el que menos se vende y lo han descartado.
a) Se le solicita que determine si existen diferencias significativas entre la venta promedio
semanal de los computadores en color gris plateado y rosado con un 95% de confianza.
Argumente su respuesta.
(Debe verificar si se cumplen las condiciones para aplicar test de hipótesis).

43
b) Determine si existen diferencias significativas entre la venta promedio semanal de los
computadores en color gris plateado y blanco con un 95% de confianza. Argumente su
respuesta.

Solución

En primer lugar se verificará si la variable ventas distribuye normal en cada uno de los grupos de colores
que interesan (Gris plateado, rosado y blanco)

EXAMINE VARIABLES=cantidad BY COLOR


/PLOT BOXPLOT HISTOGRAM NPPLOT
/COMPARE GROUP
/STATISTICS DESCRIPTIVES
/CINTERVAL 99
/MISSING LISTWISE
/NOTOTAL.

Del test de normalidad Shapiro -Wilk se observa que no hay evidencia para rechazar la hipótesis nula y
por tanto la variable ventas distribuye normal en cada grupo (dado que la significancia es superior a 0,05).

a) Ahora aplicamos el test T para muestras independientes donde las hipótesis correspondientes son
Ho: No existen diferencias significativas en las medias de ventas entre los grupos de colores gris plateado
y rosado (Ho: µ1= µ2)
H1: Existen diferencias significativas en las medias de ventas entre los grupos de colores gris plateado y
rosado (Ho: µ1≠ µ2)

En primer lugar se ve el test de Levene de homogeneidad de varianzas donde las hipótesis son:
Ho: No existen diferencias significativas en las varianzas de ventas entre los grupos de colores gris
plateado y rosado (Ho: )
H1: Existen diferencias significativas en las varianzas de ventas entre los grupos de colores gris plateado y
rosado (H1: )

DATASET ACTIVATE Conjunto_de_datos2.

44
T-TEST GROUPS=COLOR(1 3)
/MISSING=ANALYSIS
/VARIABLES=cantidad
/CRITERIA=CI(.95).

Del test de Levene se tiene que no hay evidencia para rechazar la hipótesis nula y por lo tanto se asume
varianzas iguales.
En consecuencia se analiza la primera fila en el test de igualdad de medias

Del test se observa que hay evidencia para rechazar la hipótesis nula de igualdad de medias y por tanto
existen diferencias significativas en la media de ventas entre el gris plateado y rosado.

Del intervalo de confianza para la diferencia de medias al 95% de confianza, se observa que la diferencia
µ1- µ2 está entre dos valores positivos y por tanto µ1> µ2, es decir la media de ventas del color gris
plateado es mayor a la media de ventas del rosado.

b) En la pregunta b) también se aplica el test T para muestras independientes donde las hipótesis
correspondientes son
Ho: No existen diferencias significativas en las medias de ventas entre los grupos de colores gris plateado
y blanco (Ho: µ1= µ2)
H1: Existen diferencias significativas en las medias de ventas entre los grupos de colores gris plateado y
blanco (Ho: µ1≠ µ2)

En primer lugar se ve el test de Levene de homogeneidad de varianzas donde las hipótesis son:
Ho: No existen diferencias significativas en las varianzas de ventas entre los grupos de colores gris
plateado y blanco (Ho: )
H1: Existen diferencias significativas en las varianzas de ventas entre los grupos de colores gris plateado y
blanco (H1: )

DATASET ACTIVATE Conjunto_de_datos2.


T-TEST GROUPS=COLOR(1 4)
/MISSING=ANALYSIS

45
/VARIABLES=cantidad
/CRITERIA=CI(.95).

Del test de Levene se tiene que no hay evidencia para rechazar la hipótesis nula y por lo tanto se asume
varianzas iguales.
En consecuencia se analiza la primera fila en el test de igualdad de medias

Del test se observa que no hay evidencia para rechazar la hipótesis nula de igualdad de medias y por tanto
no existen diferencias significativas en la media de ventas entre el gris plateado y blanco.

46
VII. Estudio de Caso: Estudio Morfología6

Coeficiente de Correlación
Considere el archivo “Estudio Morfología.sav”.

i. Determine si las variables estatura, peso y coeficiente intelectual están


correlacionadas significativamente.
Para esto seleccione Analizar/Correlaciones/Bivariadas
Variables: ci, estatura y peso
Seleccionar [Correlación de Pearson], [Prueba de significación bilateral], [Marcar las correlaciones
significativas].

Correlaciones

Cociente
intelectual ESTATURA PESO
Cociente intelectual Correlación de Pearson 1 ,081 ,001
Sig. (bilateral) . ,325 ,988
N 149 149 148
ESTATURA Correlación de Pearson ,081 1 ,600**
Sig. (bilateral) ,325 . ,000
N 149 150 149
PESO Correlación de Pearson ,001 ,600** 1
Sig. (bilateral) ,988 ,000 .
N 148 149 149
**. La correlación es significativa al nivel 0,01 (bilateral).

ii. Interprete el coeficiente de correlación

b) Diagrama de Dispersión

La forma de una relación se puede estudiar visualmente a partir de la nube de puntos generada en el
Gráfico de Dispersión:

Seleccione Gráficos/Dispersión/Dispersión Simple


Eje Y: peso
Eje X: estatura
Establecer marcas por: sexo
Etiquetar mediante: iden
Edite la gráfica y ajuste la nube por una recta de regresión, muestre el R2 e interprete.

6
Caso elaborado por Sara Arancibia y Nelson Rodriguez

47
Gráfico de dispersión simple
110

27
100
93

90 31

80

70
SEXO
60 Mujer

Hombre
50
PESO

Total Population
40 R² = 0,3606
120 140 160 180 200 220 240 260 280

ESTATURA

Descubra qué puntos están alejados de la nube y fíltrelos para volver a hacer el gráfico de dispersión,
compare ahora el R2 e interprete.

USE ALL.
COMPUTE filter_$=(iden ~= 27 & iden ~= 93 & iden ~= 31).
VARIABLE LABEL filter_$ 'iden ~= 27 & iden ~= 93 & iden ~= 31 (FILTER)'.
VALUE LABELS filter_$ 0 'No seleccionado' 1 'Seleccionado'.
FILTER BY filter_$.
EXECUTE .

Gráfico de dispersión simple


110

100

90

80

70 SEXO

Mujer
60
Hombre
50
PESO

Total Population
40 R² = 0,7182
140 150 160 170 180 190 200

ESTATURA
Se han filtrado los casos 27, 31 y 93

i. Realice un gráfico de dispersión superpuesto.

48
Con el tipo Superpuesto se pueden representar varias relaciones en una sola nubes de puntos.
Seleccione el par estatura - peso y el par ci - peso

gráfico de dispersión superpuesto


300
31

200

31

100

Cociente intelectual
PESO

ESTATURA
0 PESO
40 50 60 70 80 90 100 110

ii. Realice un gráfico de dispersión matricial.


El tipo matricial halla nubes de puntos separadas para todas las parejas de variables que se pueden obtener
con las variables que se especifiquen.
Elegir el tipo matricial como tipo de gráfica de dispersión y seleccionar y transferir las variables a
relacionar a variables en la matriz. Por ejemplo seleccionar y transferir ci, estatura y peso. Pulsar aceptar.

Como hay tres variables habrá tres parejas de relaciones (con cuatro variables habrá seis parejas).

49
Utilizando el archivo “Estudio Morfología.sav”. responda las siguientes preguntas:

iii. Determine el modelo que relaciona la estatura (X) y el peso (Y) e interprete R, R2 y
Error típico de estimación
Resumen del modelo

R cuadrado Error típ. de la


Modelo R R cuadrado corregida estimación
1 ,847(a) ,718 ,716 6,4593
a Variables predictoras: (Constante), ESTATURA

El coeficiente R mide la fuerza de asociación lineal entre estatura y peso, la cual es considerable.
El R2 =0,718 indica que la variación en el peso se explica en un 71,8% por la variable estatura.
Una forma de estimar el error estándar del estimador es basándose en los residuos;

S Y ,X 
e 2

n2
El error estándar de la estimación es una medida de cuán inexacto podría ser la predicción y mide la
dispersión con respecto a una recta promedio, denominada recta de regresión.
ANOVAb

Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 15309,683 1 15309,683 366,941 ,000a
Residual 6008,032 144 41,722
Total 21317,715 145
a. Variables predictoras: (Constante), ESTATURA
b. Variable dependiente: PESO

Cuando se trata de una regresión simple la prueba ANOVA se reduce a la prueba individual Test T donde
H0: 1 = 0

iv. Estime la ecuación de regresión


Coeficientesa

Coeficientes
Coeficientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) -92,138 8,816 -10,451 ,000
ESTATURA ,999 ,052 ,847 19,156 ,000
a. Variable dependiente: PESO

Y = -92,13 + 0,999•X
donde Y = Peso
X = Estatura

v. Pruebe la hipótesis nula H0: 1 = 0 para la estatura y el peso. ¿Existe una relación
significativa entre el ingreso y el consumo?
En el SPSS ver la tabla “coeficientes“ que resultó en el ejercicio b) y observar el valor del estadígrafo t
(asociado a la pendiente de la regresión) y su nivel de significancia.

50
Dado que la sig < 0,01 se rechaza la hipótesis nula H0: 1 = 0. Concluimos entonces que existe una relación
significativa entre ingreso y consumo.

vi. Interprete la pendiente de la ecuación de regresión.


La pendiente de la recta b1 es el cambio que se produce en la variable dependiente (en promedio) por cada
unidad de cambio en la variable independiente, es decir, por cada unidad de aumento en la estatura, en
promedio el peso aumenta en 0,999 unidades.

Nota: Inferencias sobre la Pendiente.


A fin de poder utilizar una ecuación de regresión para efectos de estimación o predicción, primero
debemos determinar si en la población parece existir una relación entre las dos variables o si la
relación observada en la muestra pudo ocurrir por azar. En ausencia de toda relación en la población,
por definición la pendiente de la línea de regresión de la población sería de cero 1=0. En
consecuencia, la hipótesis nula que se prueba usualmente es H0: 1=0. La hipótesis nula también puede
formularse como una prueba de una cola, en cuyo caso la hipótesis alternativa no es simplemente que
existe relación entre las dos variables, sino además que esta relación es de un tipo específico (directa
o inversa).
Un valor hipotético de la pendiente se prueba calculando una estadística t y usando n-2 grados de
libertad. Es el proceso de inferencia se pierden dos grados de libertad porque en la ecuación de
regresión se incluyen dos estimaciones paramétricas, b0 y b1. La fórmula estándar es:

b1  ( 1 )o
t
sb1
donde s  SY , X
b1

X
2
2
 nX

Sin embargo, cuando, como ocurre por lo general, la hipótesis nula es que la pendiente es cero, la
fórmula se simplifica y enuncia como

b
t 1
sb1

El intervalo de confianza para la pendiente de la población 1, en el que los grados de libertad
asociados con t son n-2, se elabora de la siguiente manera:
b1  tsb1

Definición de grados de libertad: Los grados de libertad indican el número de valores “libres de
variar” en la muestra que sirve de base al intervalo de confianza.

vii. Determine el intervalo de confianza del 95% para 1. Para esto seleccione Regresión lineal/
Estadísticos/Intervalos de confianza.
En la tabla de resultados “coeficientes” del SPSS observe los límites inferior y superior del intervalo de
confianza para b1 al 95%.

51
Coeficientesa

Coeficientes
Coeficientes no estandarizad Intervalo de confianza para
estandarizados os B al 95%
Límite
Modelo B Error típ. Beta t Sig. Límite inferior superior
1 (Constante) -92,138 8,816 -10,451 ,000 -109,564 -74,712
ESTATURA ,999 ,052 ,847 19,156 ,000 ,896 1,102
a. Variable dependiente: PESO

Se tiene que el intervalo de confianza de 95% para 1 es 0,896 a 1,102


Así con cada unidad adicional de estatura, la cantidad de aumento promedio en el peso es de entre 0,896 y
1,102 con una confianza de 95%.
Coeficientesa

Coeficient
es
Coeficientes no estandari Intervalo de confianza para
estandarizados zados B al 95%
Límite
Modelo B Error típ. Beta t Sig. Límite inferior superior
1 (Constante) 2,129 7,164 ,297 ,772 -13,834 18,092
INGRESO ,861 ,049 ,984 17,596 ,000 ,752 ,970
a. Variable dependiente: CONSUMO

viii. Determine los valores pronosticados y los residuos usando la ecuación de regresión desarrollada.
Compare los residuos obtenidos del SPSS. Para esto seleccione “Guardar” en el cuadro de diálogo
“Regresión lineal” y en el cuadro de diálogo siguiente considere valores pronosticados no tipificados (es
decir el valor que predice el modelo para la variable dependiente) y valores tipificados (transformación de
cada valor pronosticado a su forma tipificada). Además considere residuos no tipificados (es decir, la
diferencia entre un valor observado y el valor pronosticado del modelo) y los residuos tipificados.

52
Observación:
Si en la regresión lineal queremos llevar a cabo inferencias y partimos de los estadísticos obtenidos
en la muestra, deberemos tener en cuenta una serie de requisitos:
 Normalidad e igualdad de las varianzas en la variable dependiente (Y) del modelo para
valores fijos de la independiente o independientes del mismo X.
 Independencia de las observaciones
 Linealidad en la relación entre las variables.

ix. Considere “Gráficos” del cuadro de diálogo ”Regresión lineal” para realizar los
siguientes gráficos:
1. Los residuos tipificados ZRESID frente a los valores pronosticados tipificados ZPRED para
contrastar la igualdad de las varianzas.

Nota: Si no hay ningún patrón sistemático claramente definido en los datos y los residuales fluctúan
aleatoriamente alrededor de la recta que corresponde a la media de los mismos y de valor cero, podemos
concluir que se cumple el requisito de linealidad en la relación entre las variables. Este gráfico puede
igualmente servirnos para contrastar hasta qué punto el principio de igualdad de varianzas puede o no ser
violado por los datos. Si la variabilidad de los residuales a lo largo de los valores predichos es más o menos
constante, podemos concluir que se cumple la igualdad de varianzas. No en caso contrario.

2. Los residuos tipificados-gráfico de prob. normal.

53
Nota: El gráfico de residuos tipificados de prob. normal se usa para comprobar la normalidad. Si la variable
se distribuye normalmente los puntos representados forman una línea recta diagonal

Gráfico P-P normal de regresión Residuo tipificado


Gráfico de dispersión
Variable dependiente: PESO
1,0 Variable dependiente: PESO
3

,8 2

Regresión Residuo tipificado


1

,5
Prob acum esperada

-1
,3

-2

0,0 -3
0,0 ,3 ,5 ,8 1,0 -3 -2 -1 0 1 2 3

Prob acum observada Regresión Valor pronosticado tipificado

Pruebas de normalidad
a
Kolmogorov-Smirnov Shapiro-Wilk
Estadístico gl Sig. Estadístico gl Sig.
Standardized Residual ,044 146 ,200* ,992 146 ,601
*. Este es un límite inferior de la significación verdadera.
a. Corrección de la significación de Lilliefors

54
VIII Estudio de Caso: Consumo producto7

El área de Marketing de una empresa necesita conocer un modelo que le permita pronosticar la cantidad
promedio consumida de un producto por una familia dependiendo de sus características. Para esto ha
recopilado una muestra aleatoria de 70 familias con la cantidad consumida de un producto en Kg, su ingreso
en miles de pesos y el tamaño de la familia (número de personas que componen la familia). Considere el
archivo “consumo producto.sav”

a) Determinar la matriz de correlaciones para todas las posibles variables involucradas en el modelo e
interprete.

b) Mostrar en un gráfico de dispersión simple para la variable que mas se correlaciona con el consumo
(mostrando la recta de ajuste y el R2). ¿Qué puede observar? Si existen atípicos fíltrelos. Mostrar la
sintaxis.

c) Determinar la ecuación del ajuste del modelo de regresión lineal simple que permita pronosticar la
cantidad consumida del producto. Interprete el coeficiente de determinación. Muestre las tablas de donde
se desprenden sus respuestas.

d) ¿Los coeficientes de la ecuación son estadísticamente significativas? Argumente e interprete la


pendiente.

e) Determinar, si se satisfacen las hipótesis de normalidad de los residuos y homocedasticidad.

f) Determine la elasticidad ingreso. Argumente su respuesta e interprete

SOLUCION
a) Determinar la matriz de correlaciones para todas las posibles variables involucradas en el modelo e
interprete.
Correlaciones

tamaño de
cantidad ingreso la familia
cantidad Correlación de Pearson 1 ,693** ,401**
Sig. (bilateral) ,000 ,001
N 70 70 70
ingreso Correlación de Pearson ,693** 1 ,265*
Sig. (bilateral) ,000 ,027
N 70 70 70
tamaño de la familia Correlación de Pearson ,401** ,265* 1
Sig. (bilateral) ,001 ,027
N 70 70 70
**. La correlación es significativa al nivel 0,01 (bilateral).
*. La correlación es significante al nivel 0,05 (bilateral).

7
Caso elaborado por Sara Arancibia

55
La matriz de correlaciones nos muestra que todas las variables se correlacionan. La correlación más alta se
da entre cantidad consumida e ingreso (0,693) siendo significativa la correlación al nivel del 0,01. Lo mismo
ocurre para cantidad y tamaño de la familia pero la correlación es más baja alcanzando una fuerza de
asociación de 0,401.

b) Mostrar en un gráfico de dispersión simple para la variable que mas se correlaciona con el consumo
(mostrando la recta de ajuste y el R2). ¿Qué puede observar? Si existen atípicos fíltrelos. Mostrar la
sintaxis.

Gráfico de dipersión entre cantidad consumida e ingreso

140

70

120

100
cantidad

69
2

80

60

R Sq Linear = 0,48

40

0,0 500,0 1000,0 1500,0 2000,0

ingreso

Se observa una fuerte asociación lineal positiva entre las variables cantidad consumida e ingreso.
Sin embargo se observa claramente tres valores atípicos.

USE ALL.
COMPUTE filter_$=(id ~= 2 & id ~= 69 & id ~= 70).
VARIABLE LABEL filter_$ 'id ~= 2 & id ~= 60 & id ~= 66 (FILTER)'.
VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE .

56
c) Determinar la ecuación del ajuste del modelo de regresión lineal simple que permita pronosticar la
cantidad consumida del producto. Interprete el coeficiente de determinación. Muestre las tablas de donde
se desprenden sus respuestas.

El coeficiente de determinación es R2 =0,849, es decir la variabilidad en la variable cantidad consumida es


explicada en un 84,9% por la variable ingreso.

Resumen del modelob

R cuadrado Error típ. de la


Modelo R R cuadrado corregida estimación
1 ,921a ,849 ,846 7,841
a. Variables predictoras: (Constante), ingreso
b. Variable dependiente: cantidad

Coeficientesa

Coeficientes
Coeficientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) 16,897 3,218 5,250 ,000
ingreso ,064 ,003 ,921 19,092 ,000
a. Variable dependiente: cantidad

La ecuación de ajuste del modelo es


Y= 16,897+0,064X
donde Y=cantidad consumida y X= ingreso

d) ¿Los coeficientes de la ecuación son estadísticamente significativas? Argumente e interprete la


pendiente. .

De la tabla anterior se desprende que ambos coeficientes son estadísticamente significativos pues su
significancia es menor a 0,05.
Ante el aumento de una unidad (mil pesos) en el ingreso, la cantidad consumida aumenta en promedio 0,064
Kg.

e) Determinar, si se satisfacen las hipótesis de normalidad de los residuos y homocedasticidad. .

57
Gráfico P-P normal de regresión Residuo tipificado

Variable dependiente: cantidad


1,0

0,8
Prob acum esperada

0,6

0,4

0,2

0,0
0,0 0,2 0,4 0,6 0,8 1,0

Prob acum observada

Del Grafico se observa que se cumple la hipótesis de normalidad de los residuos.

O puede ser por la prueba de K-S


Pruebas de normalidad
a
Kolmogorov-Smirnov Shapiro-Wilk
Estadístico gl Sig. Estadístico gl Sig.
Standardized Residual ,058 67 ,200* ,980 67 ,366
*. Este es un límite inferior de la significación verdadera.
a. Corrección de la significación de Lilliefors

Observando al prueba de K-S se observa que no se rechaza la hipótesis de normalidad de los residuos.

58
Gráfico de dispersión

Variable dependiente: cantidad

2
Regresión Residuo tipificado

-1

-2

-3

-2 -1 0 1 2 3

Regresión Valor pronosticado tipificado

Del gráfico de dispersión se observa que se cumple la hipótesis de homocedasticidad

a) Determine la elasticidad ingreso. Argumente su respuesta e interprete


Se crean dos nuevas variables con los logaritmos naturales de la cantidad y el ingreso . Luego se corre una
regresión lineal entre ln(cantidad) y ln( ingreso) La pendiente de la ecuación es la elasticidad buscada

59
IX Estudio de caso: Desempleados

Los despidos y el desempleo han afectado a muchos trabajadores en los últimos años. En un estudio
publicado en la Revista de Relaciones Laborales se muestran datos de variables que pueden tener relación
con la cantidad de semanas que un empleado está desempleado. La variable dependiente en el estudio es
“Semanas” y se define como la cantidad de semanas que ha estado desempleado un trabajador a causa de
su despido.

En el estudio se emplearon las siguientes variables independientes:

Variable Etiqueta
edad Edad del trabajador
antig Antigüedad en el último empleo (en
años)
profesional 1 = Sí
0 = No

El archivo “Desempleados2.sav” contiene los datos de 50 trabajadores despedidos.

Desde la pregunta a) hasta la d) no considere la variable dami profesional

a) Realice un diagrama de dispersión para cada variable independiente con la variable dependiente.
¿Qué puede observar del gráfico?

Diagrama de Dispersión entre Semanas Desempleado Diagrama de Dispersión entre Semanas Desempleado

y Edad de la persona y Antiguedad en último Empleo


90 90

80 80

70 70

60
60

50
50

40
40
SEMANAS

30
SEMANAS

30
20
20
10 Rsq = 0,7216
10 Rsq = 0,2164
10 20 30 40 50 60
0 10 20 30 40

edad
ANTIG

En los diagramas de dispersión se puede observar que existe una correlación lineal positiva entre las
variables. En el caso de la edad vs. semanas, la correlación es lineal positiva alta mientras que en el caso de
la antigüedad vs. semanas, no se observa tan claro la linealidad.

b) Determine la matriz de correlaciones. ¿Qué puede observar?

60
Correlations

SEMANAS edad ANTIG


SEMANAS Pearson Correlation 1,000 ,849** ,465**
Sig. (2-tailed) , ,000 ,001
N 50 50 50
edad Pearson Correlation ,849** 1,000 ,490**
Sig. (2-tailed) ,000 , ,000
N 50 50 50
ANTIG Pearson Correlation ,465** ,490** 1,000
Sig. (2-tailed) ,001 ,000 ,
N 50 50 50
**. Correlation is significant at the 0.01 level (2-tailed).

En la matriz de correlaciones se puede observar que tanto la correlación entre la edad y las semanas de
desempleo, como la correlación entre la antigüedad y las semanas de desempleo son significativas con un
nivel de significancia del 0.01 ( Se trata de correlaciones lineales positivas fuerte y moderada
respectivamente)

c) Ejecute la regresión lineal múltiple para obtener las tablas con las estimaciones del modelo e
interprete la tabla ANOVA. ¿Son estadísticamente significativas las variables independientes? Argumente.
ANOVAb

Sum of
Model Squares df Mean Square F Sig.
1 Regression 10999,684 2 5499,842 61,892 ,000a
Residual 4176,496 47 88,862
Total 15176,180 49
a. Predictors: (Constant), ANTIG, edad
b. Dependent Variable: SEMANAS

Coefficientsa

Standardi
zed
Unstandardized Coefficien
Coefficients ts
Model B Std. Error Beta t Sig.
1 (Constant) -17,428 5,983 -2,913 ,005
edad 1,794 ,192 ,818 9,318 ,000
ANTIG ,195 ,264 ,065 ,739 ,464
a. Dependent Variable: SEMANAS

El estadístico F contrasta la hipótesis nula de que el valor poblacional de R es cero y, por tanto, permite
decidir si existe relación lineal significativa entre la variable dependiente y el conjunto de variables
independientes tomadas juntas. El valor del nivel crítico (Sig. = 0,000), es menor que 0,05, por tanto
existe relación lineal significativa.

Puede afirmarse, por tanto, que el hiperplano definido por la ecuación de regresión ofrece un buen ajuste a
la nube de puntos.

Por otra parte, para la variable edad se obtiene una significancia menor a 0,05 lo que significa que el
coeficiente es estadísticamente significativo al nivel 0,05. Sin embargo, la significancia de la variable
antigüedad es mayor a 0,05 por lo que no se rechaza la hipótesis nula de que su valor es igual a cero.

61
d) Determine la ecuación de un modelo donde todas las variables sean significativas. Interprete el
coeficiente R y el R cuadrado.
Model Summary

Adjusted Std. Error of


Model R R Square R Square the Estimate
1 ,849a ,722 ,716 9,38
a. Predictors: (Constant), edad

ANOVAb

Sum of
Model Squares df Mean Square F Sig.
1 Regression 10951,194 1 10951,194 124,416 ,000a
Residual 4224,986 48 88,021
Total 15176,180 49
a. Predictors: (Constant), edad
b. Dependent Variable: SEMANAS

Coefficientsa

Standardi
zed
Unstandardized Coefficien
Coefficients ts
Model B Std. Error Beta t Sig.
1 (Constant) -18,179 5,868 -3,098 ,003
edad 1,863 ,167 ,849 11,154 ,000
a. Dependent Variable: SEMANAS

En la tabla de Resumen del Modelo se puede observar el valor R = 0,849. Esto significa que para los
desempleados existe una alta correlación lineal entre las variables SEMANAS y EDAD. Por otra parte, el
valor R2 = 0,722 indica que la variabilidad en las semanas de desempleo puede ser explicada en un 72,2%
por la variable EDAD.

e) ¿Qué ocurre si al último modelo le agrega la variable dami profesional? Interprete los coeficientes
de las variables independientes del último modelo.

Model Summary

Adjusted Std. Error of


Model R R Square R Square the Estimate
1 ,891a ,794 ,785 8,16
a. Predictors: (Constant), Es profesional ( 1=SI, 0=NO),
edad

ANOVAb

Sum of
Model Squares df Mean Square F Sig.
1 Regression 12048,898 2 6024,449 90,542 ,000a
Residual 3127,282 47 66,538
Total 15176,180 49
a. Predictors: (Constant), Es profesional ( 1=SI, 0=NO), edad
b. Dependent Variable: SEMANAS

62
Coefficientsa

Standardi
zed
Unstandardized Coefficien
Coefficients ts
Model B Std. Error Beta t Sig.
1 (Constant) -19,465 5,112 -3,808 ,000
edad 1,975 ,148 ,900 13,361 ,000
Es profesional
-11,512 2,834 -,274 -4,062 ,000
( 1=SI, 0=NO)
a. Dependent Variable: SEMANAS

Para este nuevo modelo se cumple que existe una relación lineal significativa entre la variable dependiente
y el conjunto de variables independientes tomadas juntas, lo que se observa en el valor del nivel crítico del
estadístico F, puesto que es menor que 0,05. Además, todas las variables independientes son significativas
pues la sig de las pruebas t son menores que 0,05 .

Ante el aumento de un año en la edad en promedio las semanas que un empleado permanece desempleado
aumentan en casi 1,98 semanas, manteniéndose el resto de variables constante. Por otra parte, el
coeficiente asociado a la variable dummy PROFESIONAL indica que para una misma edad, una persona
profesional, en promedio estará desempleada 11,512 semanas menos de lo que estaría si no fuera
profesional.

Las ecuaciones son:


 para los profesionales: SEMANAS = (-19,465-11,512) + 1,975 x EDAD
 para no profesionales: SEMANAS = -19,465 + 1,975 x EDAD

f) Para el último modelo seleccionado, determine si se satisfacen las hipótesis de normalidad de los
residuos y homocedasticidad.
Tests of Normality
a
Kolmogorov-Smirnov Shapiro-Wilk
Statistic df Sig. Statistic df Sig.
Standardized Residual ,088 50 ,200* ,970 50 ,407
*. This is a lower bound of the true significance.
a. Lilliefors Significance Correction

La prueba de normalidad de Shapiro-Wilk indica que se cumple la hipótesis de normalidad. (La prueba de
Shapiro-Wilk es usada cuando hay hasta 50 casos. Dado que son 50 los casos analizados, se usa el
estadístico Shapairo Wilk).

63
Scatterplot
Dependent Variable: SEMANAS
2

Regression Standardized Residual


1

-1

-2

-3
-2 -1 0 1 2 3

Regression Standardized Predicted Value

Este gráfico muestra que se cumple la hipótesis de homocedasticidad pues los puntos se encuentran
distribuidos en forma aleatoria sin seguir ningún patrón.

64
X. Estudio de caso: Consumo de agua potable8

Considere el archivo “consumo agua potable.sav” correspondiente a una muestra aleatoria de hogares de la
región Metropolitana que contiene el consumo de agua potable del mes de Enero del 2005. Considere
además el archivo Ingresos hogares correspondientes al ingreso familiar del hogar de los mismos hogares
de la muestra considerada para el consumo de agua potable.
Prepare un informe para un ejecutivo que necesita la siguiente información respecto al consumo de agua del
mes de Enero de los hogares de la base de datos con sus respectivos ingresos.
a) Crear una variable “gasto” que indique el gasto en agua potable de cada hogar, sabiendo que el gasto
depende del límite de sobreconsumo (LSC= 60 m3).
El valor del m3 de agua es $270 si el consumo es menor o igual al límite de sobreconsumo (LSC=60m3)
Para los metros cúbicos de agua que excede al LSC el valor por m3 es $560.
Mostrar la sintaxis correspondiente.
b) Mostrar una tabla que contenga el número de casos, la media, mediana, desv. estándar del gasto en agua
potable y de los ingresos de los hogares para las comunas de Cerrillos (1), El Bosque (4) y Providencia (22).
Muestre la sintaxis de todo el procedimiento.

c) Crear una variable “rangconsu” que considere los hogares con sobreconsumo (consumo>60), con consumo
normal (20<consumo<=60) y bajo consumo (consumo<=20). Mostrar la sintaxis correspondiente.

d) Crear un archivo que muestre por comuna y por rangos de consumo (sobreconsumo, normal y bajo) el
promedio de los gastos de agua potable y el promedio del ingreso de hogares. Muestre la sintaxis del
procedimiento e identifique las comunas con mayor promedio de gastos por rangos de consumo

Considere las variables habitant, gasto, ingreso


e) Muestre un gráfico de dispersión para las variables habitantes por hogar, gasto en consumo e ingreso.
Comente.

f) Seleccione la variable que tenga la mayor correlación lineal con el gasto de consumo de agua potable y
verifique si existe correlación significativa entre estas variables. Muestre tabla y comente los resultados,
interpretando el coeficiente R.

g) Grafique un diagrama de dispersión simple entre la variable seleccionada en b) mostrando la línea de


tendencia, el R cuadrado y mostrando aquellos valores atípicos más alejados de la línea de tendencia si es
que existen. De existir puntos muy alejados, fíltrelos y muestre la sintaxis.

h) Considerando el filtro seleccionado en c), determine una ecuación de regresión lineal simple para el
gasto de consumo de agua potable e interprete R, y el R cuadrado.

8
TP PT Caso elaborado por Sara Arancibia

65
i) Los coeficientes de la ecuación son estadísticamente significativos. Interprete la pendiente.
Argumente su respuesta.

j) Verifique si se cumple la hipótesis de normalidad de los residuos.

Solución
a)
IF (consumo <= 60) gasto = 270 * consumo .
VARIABLE LABELS gasto 'gasto consumo de agua potable' .
EXECUTE .
IF (consumo > 60) gasto = 270 * 60+560 * (consumo - 60) .
VARIABLE LABELS gasto 'gasto consumo de agua potable' .
EXECUTE .

b) Ordenar en forma ascendente la variable clave. Fundir archivos y luego


Seleccionar comparar media/ medias y hacer tabla seleccionando las tres comunas solicitadas.

Para archivo consumo de agua potable


SORT CASES BY Informe
id_hogar (A) . gasto en

Para archivo Ingresos hogares


Comuna donde se consumo de Ingreso
encuentra el hogar agua potable del hogar
SORT CASES BY CERRILLOS N
Media
31 31
47854,1806 494340,11
id_hogar (A) . Mediana 21240,0000 285355,32

A partir del archivo Consumo agua potable EL BOSQUE


Desv. típ.
N
49861,12054
33
420754,9
33
Media
MATCH FILES /FILE=*
48226,1576 498187,25
Mediana 28116,8000 328828,24
/FILE='D:\AIE 2005\Solemnes \Ingreso hogares.sav' Desv. típ. 48102,31021 393996,4
PROVIDENCIA N 16 16
/BY id_hogar. Media 72221,1750 709947,18
EXECUTE. Mediana 51771,2000 536311,29
Desv. típ. 61026,33408 516956,7
MEANS Total N 831 831

TABLES=gasto ingreso BY comu Media


Mediana
50438,9338 526677,52
32440,0000 387124,20
/CELLS COUNT MEAN MEDIAN STDDEV Desv. típ. 47495,05844 382120,2

Otra forma : Hacer un cubo OLAP


USE ALL.
COMPUTE filter_$=(comu = 1 | comu = 4 | comu = 22).
VARIABLE LABEL filter_$ 'comu = 1 | comu = 24 | comu = 22 (FILTER)'.
VALUE LABELS filter_$ 0 'No seleccionado' 1 'Seleccionado'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE .

OLAP CUBES
gasto ingreso BY comu
/CELLS=COUNT MEAN MEDIAN STDDEV

66
/TITLE='Cubos OLAP'.

Cubos OLAP

Comuna donde se gasto en consumo


encuentra el hogar de agua potable Ingreso del hogar
CERRILLOS N 31 31
Media 47854,1806 494340,11
Mediana 21240,0000 285355,32
Desv. típ. 49861,12054 420754,873
EL BOSQUE N 33 33
Media 48226,1576 498187,25
Mediana 28116,8000 328828,24
Desv. típ. 48102,31021 393996,449
PROVIDENCIA N 16 16
Media 72221,1750 709947,18
Mediana 51771,2000 536311,29
Desv. típ. 61026,33408 516956,682
Total N 80 80
Media 52881,0200 539048,47
Mediana 27198,4000 341093,04

d)
RECODE
consumo
(Lowest thru 20=1) (20.001 thru 60=2) (60.001 thru Highest=3) INTO rangcons .
VARIABLE LABELS rangcons 'rangos de consumo'.
EXECUTE .

En def de variables
1= bajo consumo
2= consumo normal
3=sobreconsumo

e) AGGREGATE
/OUTFILE='D:\AIE 2005\Solemnes 1 2005-1\AGR comu gastos ingresos.sav'
/BREAK=comu rangcons
/gasto_mean = MEAN(gasto) /ingreso_mean = MEAN(ingreso) .

EXAMINE
VARIABLES=gasto_mean BY rangcons /ID= comu
/PLOT BOXPLOT STEMLEAF
/COMPARE GROUP
/STATISTICS EXTREME
/MISSING LISTWISE
/NOTOTAL.

67
Valores extremos

gasto_mean
Mayores
Número Comuna donde se
rangos de consumo del caso encuentra el hogar Valor
Bajo consumo 1 42 MACUL 5313,60
2 28 LA REINA 5248,80
3 73 SAN MIGUEL 5227,20
4 76 SAN RAMON 5216,40
5 45 MAIPU 5184,00
Consumo normal 1 43 MACUL 15390,00
2 57 PROVIDENCIA 14382,00
3 32 LAS CONDES 14040,00
4 26 LA PINTANA 13543,20
5 71 SAN JOAQUIN 12957,69
Sobreconsumo 1 81 VITACURA 95301,87
2 58 PROVIDENCIA 92287,20
3 62 QUILICURA 88189,65
4 35 LO BARNECHEA 87406,61
5 16 HUECHURABA 82689,42

De la tabla se desprende que las comunas con mayor gasto promedio según rangos de consumo son:
Bajo consumo....Macul
Consumo normal....Macul
Sobreconsumo Vitacura

Considere las variables habitant, gasto, ingreso


g) Muestre un gráfico de dispersión para las variables habitantes por hogar, gasto en consumo e ingreso.
Comente.

El diagrama muestra
Diagrama de disperción Matricial
que parece existir una
para variables Ingreso, Gasto y Habitantes alta relación lineal
positiva entre el par de
variables Gasto e
N° de Habitantes del Ingreso, donde se
observan dos valores
atípicos.
Para el par de variables
GASTO
Gasto y Nº de
habitantes también
parece existir alguna
relación lineal positiva,
Ingreso del hogar pero mucho menos
marcada que para el par
anterior.

68
h) Seleccione la variable que tenga la mayor correlación lineal con el gasto de consumo de agua potable y
verifique si existe correlación significativa entre estas variables. Muestre tabla y comente los resultados,
interpretando el coeficiente R.

La tabla muestra que el grado


Correlaciones de asociación lineal entre las
GASTO
Ingreso
del hogar
variables gasto en AP e Ingreso
GASTO Correlación de Pearson 1 ,893** del hogar es de un 0,893, es
Sig. (bilateral) . ,000
N 831 831 considerable y positiva. (A
Ingreso de l hogar Correlación de Pearson
Sig. (bilateral)
,893**
,000
1
.
mayor ingreso mayor gasto).
N 831 831 Dado que el valor de la
significancia es menor que 0,01
**. La correlación es significativa al nivel 0,01 (bilateral).

podemos decir que la


correlación es significativa al
nivel 0,01.

i) Grafique un diagrama de dispersión simple entre la variable seleccionada en b) mostrando la


línea de tendencia, el R cuadrado y mostrando aquellos valores atípicos más alejados de la línea de
tendencia si es que existen. De existir puntos muy alejados, fíltrelos.

USE ALL.
COMPUTE filter_$=(id_hogar ~= 126 & id_hogar ~= 400).
VARIABLE LABEL filter_$ 'id_hogar ~= 126 & id_hogar ~= 400 (FILTER)'.
VALUE LABELS filter_$ 0 'No seleccionado' 1 'Seleccionado'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE .

69
j) Considerando el filtro seleccionado en c), determine una ecuación de regresión lineal simple
para el gasto de consumo de agua potable e interprete R, y el R cuadrado.

Resumen del modelo

R cuadrado Error típ. de la


Modelo R R cuadrado corregida estimación
1 ,976a ,953 ,953 9590,22037
a. Variables predictoras: (Constante), Ingreso del hogar

Coeficientesa

Coeficientes
Coeficientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) -10772,8 573,711 -18,777 ,000
Ingreso del hogar ,116 ,001 ,976 129,888 ,000
a. Variable dependiente: gasto en consumo de agua potable

La ecuación del modelo es Y= -10772,8 + 0,1160 X donde Y es el gasto de consumo, X es el ingreso.

En el caso de regresión simple R es el valor absoluto del r de Pearson, indica la fuerza de asociación lineal
entre las variables, en este caso R=0,976 valor considerable ( muy alto)
R cuadrado es el coeficiente de determinación, mide la bondad de ajuste del modelo.
La variabilidad en el gasto de consumo está siendo explicado en un 95,3% por la variable ingreso del hogar.

k) Los coeficientes de la ecuación son estadísticamente significativos. Interprete la pendiente. Argumente


su respuesta.

Ambos coeficientes presentan Sig<0,01 por tanto los coeficientes son estadísticamente significativos
(dado que se rechaza la Ho:i =0.
La pendiente 0,116 indica que por cada aumento de una unidad en el ingreso , en promedio el gasto aumenta
en 0,116 unidades.

70
l)Verifique si se cumple la hipótesis de normalidad de los residuos y homocedasticidad de las varianzas.

Pruebas de normalidad
a
Kolmogorov-Smirnov Shapiro-Wilk
Estadístico gl Sig. Estadístico gl Sig.
Standardized Residual ,114 829 ,000 ,797 829 ,000
a. Corrección de la significación de Lilliefors

De la prueba Kolmogorov-Smirnov se deduce que los residuos no siguen la distribución normal pues el nivel
de sig<0.01 y por tanto se rechaza la hipótesis de nula. H0: La distribución sigue una normal.
Otra forma es presentar un gráfico P_P para los residuos.

71