You are on page 1of 315

UNIVERSIDAD DE CHILE

MAGISTER EN GESTIÓN Y DIRECCIÓN DE EMPRESAS

Métodos Cuantitativos y Estadísticos


Aplicados a la Gestión

APLICACIONES CON SPSS

Profesora: Sara Arancibia C.

2022

1
2
ÍNDICE
I. Documento introducción: Análisis Inicial de los datos............................................................................................... 5
II. Análisis inicial de datos: Agua Potable ........................................................................................................................ 9
III. Estudio de Caso.Encuesta Social General de 1994 ..........................................................................................15
IV: Estudio de Caso: Qué opinan los jóvenes.................................................................................................................. 22
V. Estudio de Caso: Caracterización del Mundo ............................................................................................................. 38
VI. Estudio de Caso: Relaves .............................................................................................................................................. 50
VII. Caso de Estudio: Encuesta ELPS .............................................................................................................................. 68
VIII. Caso de Estudio: Caso Selección Profesionales .................................................................................................. 86
IX. Caso de Estudio: Evaluación de Proyectos de Riego_Transformación de indicadores ................................ 107
X. Caso de Estudio: Personas con Licencias Médicas ................................................................................................... 118
XI. Estudio de caso: SIMCE 2006 -Premio Colegios (Selección, segmentación, sintaxis condicionales) ....... 128
XII. Caso: Producción minera 2009-2010 ..................................................................................................................... 154
XIII. Estudio de Caso: Tasa de crecimiento promedio ..................................................................................... 162
XIV. Estudio de Caso: Exportaciones de cobre por continente y países de destino ...................................... 166
XV. Caso Congestión Rutas ......................................................................................................................................... 174
XVI. Índice de materialidad de la Vivienda (Casen2013-Módulo Vivienda) ...................................................... 183
XVII. Módulo Educación – CASEN 2015. ...............................................................................................................202
XVIII. Evolución Matriculas Universidades 2010-2014. ...................................................................................... 216
XIX. Estimación por Intervalos de Parámetros Poblacionales. ............................................................................228
XX. Estudio de caso: Encuesta laboral...........................................................................................................................238
XXI. Estudio de Caso: Test market ...............................................................................................................................242
XXII. Estudio de Caso: Caso Muestra Simce colegios ........................................................................................248
XXIII. Estudio de Caso: Estudio Morfología ..........................................................................................................258
XXIV. Estudio de Caso: Proyección de consumo....................................................................................................266
XXV. Estudio de Caso: Pruebas T- Clima organizacional y lealtad ........................................................................... 281
XXVI. Estudio de Caso: Consumo producto ..................................................................................................................287
XXVII. Estudio de caso: Desempleados ........................................................................................................................293
XXVIII. Estudio de Caso: Estudio Lealtad Regresión lineal .....................................................................................298
XXIX. Estudio de Caso: Percepción de Responsabilidad Social Empresarial ..................................................305

3
FORMULAS PARA TRIUNFAR

LA FORMULA BÁSICA. Los investigadores se han dedicado a averiguar cuál ha sido la idea, el secreto que ha
llevado al triunfo a los grandes personajes de la historia. Y han encontrado una fórmula que todos los
triunfadores practicaron, y sin la cual no habrían llegado a ser grandes ni famosos. Esta fórmula consiste
en los siguientes cinco puntos:

a) Dirigir el pensamiento hacia una meta fija que se desea conseguir. Saber bien cuál es esa meta
que se desea alcanzar y no desviar la atención de ella.

b) Elaborar un plan para lograr conseguir esa meta, un plan cuidadoso y detallado que se va
siguiendo día por día, y que hace que nuestra actividad sea organizada y llena de entusiasmo.

c) Desarrollar un sincero deseo de realizar aquello que se desea conseguir. El deseo ardiente
es el más importante motivador de las acciones. El deseo de lograr éxitos consigue la costumbre
de conseguir éxitos.

d) Adquirir una confianza grande en sí mismo; confianza en las propias capacidades y habilidades
para lograr el éxito, concediéndole muchísima mayor importancia a las cualidades positivas que
se tiene que a las debilidades o a las posibilidades de derrota.

e) Dedicarse a una acción tenaz e incansable para lograr obtener la meta que se busca
conseguir, sin desanimarse por los obstáculos, las críticas, las circunstancias adversas, o lo
negativo que los demás piensen, hagan o digan. Esa energía concentrada hacia la consecución de
una meta, trae enormemente las oportunidades, las cuales no se dejan atrapar por los que están
sin hacer nada, pero se acercan generosamente a quienes se atreven a atacar, a trabajar
fuertemente por conseguir el éxito.
Esta fórmula básica Meyer la llamó “El plan del éxito personal a base de automotivación”, para
desarrollar al máximo el potencial de cada uno.
Meyer resume la fórmula básica en la siguiente frase:
“Todo lo bueno que: vivamente imaginamos, ardientemente deseamos, sinceramente creamos, y
entusiastamente emprendamos, de una manera impresionantemente favorable se transformará en
algo placentero y beneficioso para nosotros”
(Eliécer Salesman. “100 Fórmulas para llegar al éxito”)
Si una de tus metas es APRENDER aplica esta fórmula y “comienza con la mente abierta”. La cualidad
más importante que afectará tu éxito en el curso es tu ACTITUD. Ésta determinará lo que estés
dispuesto a hacer en el curso, y la calidad de ese esfuerzo contribuirá de la manera más significativa a
tu éxito.

4
I. Documento introducción: Análisis Inicial de los datos

Cuando nos enfrentamos por primera vez a la realización de un análisis estadístico la máxima preocupación es
profundizar en la técnica estadística seleccionada, sin embargo, existe una etapa previa incluso más compleja
y esencial que consiste en realizar un examen exhaustivo de los datos recabados.
La depuración de los datos o detección de problemas ocultos en los datos supondrá un gran avance en la
consecución de resultados lógicos consistentes. Dichos problemas se pueden subsanar comenzando por una
inspección visual de las representaciones gráficas de los datos, completándose con un análisis de datos
ausentes o perdidos y de los casos atípicos (conocidos bajo la denominación de outliers).

Representaciones gráficas para el análisis de datos

La difusión experimentada en los últimos años por los programas estadísticos ha facilitando la incorporación
de módulos específicamente diseñados para la inspección gráfica de los datos.

El estudio de cada variable es fundamental para conocer sus características y comprobar si es oportuna y
relevante su inclusión en el análisis. Para ello se aconseja observar la forma de su distribución. Esto se consigue
mediante el histograma, que representa gráficamente los datos mostrando en barras la frecuencia de los
casos en cada variable. Si a su vez se pretende evaluar la normalidad de la variable, se efectuará superponiendo
la curva normal sobre la distribución o realizando gráficos P-P o Q-Q.

Mediante el gráfico de dispersión se podrá examinar la relación entre dos o más variables. Se trata de un
gráfico de puntos de datos basados en dos variables, representadas una en el eje horizontal y la otra en el
vertical. El posicionamiento de los puntos a lo largo de una línea recta se debe a la existencia de correlación
lineal. Si los puntos siguen distintas formas la relación no podrá calificarse de lineal. La inexistencia de relación
se podrá constatar si la nube de puntos es aleatoria y dispersa. (Mediante correlaciones bivariadas Pearson,
se podrá determinar mediante una prueba de hipótesis si la correlación entre dos variables de escala es
significativa).

Mediante el gráfico de cajas o boxplot se puede llevar a cabo un análisis de las diferencias entre grupos, si lo
que se pretende es apreciar la existencia de dos o más grupos en una variable métrica, Este gráfico distribuye
los datos de tal forma que los límites superior e inferior de la caja marcan los cuartiles superior e inferior.
La longitud de la caja es la distancia entre el primer y tercer cuartil; así, la caja contiene el 50 por ciento de
los datos centrales de la distribución. La mediana se representa mediante una línea dentro de la caja. Existirá
asimetría si la mediana se aproxima al final de la caja. El tamaño de la caja dependerá de la distancia entre
las observaciones. En este tipo de gráfico los casos atípicos se pueden detectar por estar situados a 1,5
veces el rango intercuartil.

Diagrama de caja simple:


Contiene un único diagrama de caja para cada categoría o variable del eje de categorías. Los diagramas
de caja muestran la mediana, los cuartiles y los valores extremos para la categoría o variable.

5
2
Análisis Estadístico Multivariable de Manuel Vivanco
TP

Diagrama de caja agrupado: Tipo de gráfico en el que un grupo de diagramas de caja representa cada
categoría o variable del eje de categorías. Los diagramas de caja dentro de cada agrupación vienen definidos
por una variable de definición distinta.

Años de escolarización por raza

899 634
20

718
Número de años de escolarización

15

10

691
1.366 702
244 693
5
620 688
596 765 1.476

735
0

Blanca Negra Otra

Raza del encuestado

Años de escolarización por raza agrupados por sexo

634 Sexo del encuestado


20
960 Hombre
961 718 Mujer
Número de años de escolarización

15

10

1.404

804
244 621 1.448 693
5
620 695 688
596 821 765

735
0

Blanca Negra Otra

Raza del encuestado

6
Detección de variables con categorías mal codificadas

En muchos archivos de datos se detectan problemas en variables nominales con categorías en formato cadena
sin un código asociado. Para detectar este problema es aconsejable realizar tablas de frecuencia de las
variables y observar si las categorías presentan errores de digitación, como por ejemplo la variable sexo
podría presentar problemas si las categorías están mal digitadas; Hombre, HOMBRE, hombre representan a
la misma categoría, sin embargo en una tabla de frecuencia aparecerán como categorías diferentes. Para
solucionar este problema se recomienda recodificar automáticamente asignándole a las categorías de la
variable un código numérico y luego con recodificar en distinta variable asignar correctamente los códigos.

Análisis de datos ausentes


En este proceso de depuración de datos (anterior a la utilización de los métodos multivariables) el analista
debe ser consciente de que se enfrenta a una información que puede no existir en determinadas observaciones
y variables. Esto es lo que conocemos por datos ausentes o missing values. El por qué de la existencia de datos
ausentes puede deberse a distintas razones, como errores al codificar los datos e introducirlos en el
computador, fallas del encuestador al completar el cuestionario, negación del encuestado a responder ciertas
preguntas calificadas de controvertidas. Razones comunes y muy habituales en todo proceso de investigación.

El problema de estos errores es el gran perjuicio que la inexistencia de datos ocasiona en los resultados y sus
efectos en el tamaño de la muestra disponible para el análisis, dado que esta ausencia puede convertir lo que
era una muestra adecuada en inadecuada. Por ello es necesario depurar esos casos y buscar soluciones. Si se
puede suponer que los fundamentos teóricos de la investigación no se alteran sustancialmente, una opción sería
suprimir aquellas variables y/o casos que peor se comportan respecto a los datos ausentes. En este caso el
investigador deberá sopesar lo que gana con la exclusión de esta información y lo que pierde al no contar
posteriormente en el análisis multivariante con la misma. Mediante este proceder se asegura de que su matriz
de datos está completa y posee observaciones válidas.

Otra posibilidad sería la estimación de valores ausentes empleando relaciones conocidas entre valores válidos
de otras variables y/o casos de la muestra. Por tanto, se trataría de imputar o sustituir los datos ausentes
por valores estimados (bien sea la media o un valor constante) en base a otra información existente en la
muestra).
Un porcentaje bajo de valores missing no es un problema que influya decisivamente en los resultados. Por el
contrario, la falta reiterada de respuesta puede alterar seriamente el análisis. No existe una estimación
respecto al porcentaje de missing que produce dificultades en una muestra determinada.
Según Tabachnik y Fidell (1983) más importante que el número de valores missing es la existencia de un
patrón de comportamiento en éstos. En efecto, la presencia de missing que se distribuyen aleatoriamente
no produce sesgos, sin embargo, la falta de respuesta sistemática asociada a ciertas variables puede generar
distorsión en los resultados.

La existencia de datos ausentes nunca debe impedir la aplicación del análisis multivariable o limitar la
posibilidad de generalizar los resultados de una investigación. La principal tarea del analista consistirá en
identificar su presencia, y desempeñar las acciones necesarias para minimizar sus efectos.
En datos correspondientes a encuestas es habitual encontrar códigos como los siguientes.
7= No procede, 8= No sabe , 9= No contesta
97= No procede, 98= No sabe, 99= No contesta
997= No procede, 998= No sabe, 999= No contesta

7
Se utilizan estos códigos cuando no son parte de los posibles datos de la variable.
El SPSS tiene un menú especial para tratar los valores perdidos.
El SPSS hace diferencia para los valores perdidos por el usuario y valores perdidos por el sistema.

Detección de outliers
Al examinar los datos recabados después de un proceso muestral el investigador puede detectar la existencia
de ciertas observaciones que no siguen el mismo comportamiento del resto, enfrentándose de este modo a
ciertos casos que, por ser claramente diferentes de otras observaciones de la muestra, son calificados como
outliers.

El objetivo ante esta situación es identificar esa diferencia sustancial entre el valor real de la variable criterio
y su valor previsto, puesto que da lugar a observaciones que no son representaciones apropiadas de la población
de la cual se extrae la muestra.
Los casos atípicos se deben a errores en el procedimiento, faltas al introducir los datos o al codificar. Pero
también pueden ser consecuencia de un evento extraordinario que hace destacar esa observación. Este
acontecimiento anormal puede tener o no una explicación. En cualquiera de estas situaciones, una vez que los
outliers se detectan el analista debe juzgar qué es lo más apropiado: si analizar todos los datos incluyendo
estas perturbaciones o eliminarlos del análisis.

Estas decisiones han de justificarse, dado que determinados casos atípicos, aunque diferentes a la mayor
parte de la muestra, pueden contener información representativa de un segmento dominante. No obstante,
habrá situaciones donde lo más acertado sea su supresión porque pueden distorsionar seriamente los tests
estadísticos dados los problemas que presentan.

La detección de los casos atípicos desde una perspectiva univariable, pasa por la observación de aquellos casos
que caigan fuera de los rangos de la distribución. Si lo que se pretende es evaluar conjuntamente pares de
variables se utilizará el gráfico de dispersión. Este método bivariable permite identificar los casos atípicos
al venir representado como puntos aislados. Por su parte, la detección multivariable supone evaluar cada
observación a lo largo de un conjunto de variables. Esto se consigue mediante el uso de la medida Mahalanobis,
puesto que es una medida de la distancia de cada observación en un espacio multidimensional respecto del
centro medio de las observaciones.
Referencia: 2Análisis Estadístico Multivariable de Manuel Vivanco
TP

8
II. Análisis inicial de datos: Agua Potable1

Objetivo: Introducir al estudiante en el análisis inicial de datos y depuración de los datos

Considere el archivo “archivo APotable (errores).sav” correspondiente a una muestra aleatoria de hogares de
la región Metropolitana que contiene el consumo de agua potable del mes de Enero del 2005. Explore el archivo
de datos y realice un análisis inicial de los datos.
Solución: Análisis inicial de datos
a) Realizar una tabla para verificar información ( para esto se debe tener la información original)
Analizar/Informes/resúmenes de casos. Limitar los casos a los primeros 15. Todas las variables.

Resúmenes de casosa

Identificador
de la Longitud
comuna Comuna m3 libres del
donde se Consumo Ingreso N° de donde se (no frente
Número Identificador encuentra el de Agua del Habitantes encuentra construido m3 del
de caso del Hogar hogar Potable Hogar del Hogar el hogar s) edificados terreno
1 1 10807 13101 233,80 618086 5 SANTIAGO 74,54 49,92 4,99
2 2 15565 13101 207,40 348340 5 SANTIAGO 63,41 54,22 5,42
3 3 11416 13101 183,00 335000 5 SANTIAGO 54,24 61,59 6,16
4 4 11358 13101 198,80 389295 5 SANTIAGO 63,79 67,67 6,77
5 5 4626 13101 233,00 182600 5 SANTIAGO 85,99 85,42 8,54
6 6 11492 13101 199,00 481151 5 SANTIAGO 70,91 88,74 8,87
7 INDEPEN
7 16134 13102 208,40 150750 5 58,93 39,36 3,94
DENCIA
8 INDEPEN
8 9456 13102 141,36 242961 3 57,00 68,08 6,81
DENCIA
9 INDEPEN
9 10964 13102 170,88 182970 4 61,58 70,28 7,03
DENCIA
10 INDEPEN
10 11461 13102 186,20 452108 5 62,11 80,61 8,06
DENCIA
11 INDEPEN
11 3352 13102 288,72 384921 6 105,82 95,94 9,59
DENCIA
12 INDEPEN
12 6357 13102 249,84 263990 9 60,97 108,81 10,88
DENCIA
13 CONCHAL
13 11788 13103 210,40 266167 5 62,02 45,79 4,58
I
14 CONCHAL
14 13035 13103 220,80 215000 5 71,26 58,64 5,86
I
15 CONCHAL
15 14675 13103 194,00 428000 5 60,92 65,89 6,59
I
Total N 15 15 15 15 15 15 15 15 15
a. Limitado a los primeros 15 casos.

ii) Realizar tablas de frecuencia para las variables nominales y ordinales que Ud desea analizar

1
Ejercicio elaborado por Sara Arancibia

9
Comuna donde se encuentra el hogar

Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos CERRILLOS 20 5,2 5,2 5,2
CERRO NAVIA 8 2,1 2,1 7,3
CONCHALI 6 1,6 1,6 8,8
EL BOSQUE 17 4,4 4,4 13,2
ESTACION CENTRAL 4 1,0 1,0 14,3
HUECHURABA 16 4,2 4,2 18,4
INDEPENDENCIA 6 1,6 1,6 20,0
LA CISTERNA 17 4,4 4,4 24,4
LA FLORIDA 9 2,3 2,3 26,8
LA GRANJA 6 1,6 1,6 28,3
LA PINTANA 3 ,8 ,8 29,1
LA REINA 10 2,6 2,6 31,7
Las CONDES 1 ,3 ,3 31,9
LAS CONDES 17 4,4 4,4 36,4
LO BARNECHEA 12 3,1 3,1 39,5
LO ESPEJO 13 3,4 3,4 42,9
LO PRADO 11 2,9 2,9 45,7
MACUL 6 1,6 1,6 47,3
Maipu 1 ,3 ,3 47,5
MAIPU 23 6,0 6,0 53,5
ÑUÑOA 5 1,3 1,3 54,8
PEDRO AGUIRRE
15 3,9 3,9 58,7
CERDA
PENALOLEN 1 ,3 ,3 59,0
PEÑALOLEN 16 4,2 4,2 63,1
PROVIDENCIA 8 2,1 2,1 65,2
PUDAHUEL 22 5,7 5,7 70,9
QUILICURA 15 3,9 3,9 74,8
QUINTA NORMAL 14 3,6 3,6 78,4
RECOLETA 12 3,1 3,1 81,6
RENCA 18 4,7 4,7 86,2
SAN JOAQUIN 13 3,4 3,4 89,6
SAN MIGUEL 7 1,8 1,8 91,4
SAN RAMON 8 2,1 2,1 93,5
SANTIAGO 6 1,6 1,6 95,1
VITACURA 19 4,9 4,9 100,0
Total 385 100,0 100,0

De la tabla se observan dos errores con las comunas Maipú y las Condes. Este error se debe a que no se
digitó con un código identificador. Es aconsejable asignar un código numérico. Para solucionar este
problema se debe recodificar automáticamente y luego recodificar en la misma variable.
Transformar/recodificación automática/
Variable: comuna
Variable nueva : comurec

10
Añadir nuevo nombre
Recodificar empezando por primer valor
Aceptar
Se crea una nueva variable comurec con código numérico.
En utilidades variables se identifican los códigos de cada etiqueta correspondiendo
13 Las Condes
14 LAS CONDES
19 Maipu
20 MAIPU
Transformar/recodificar /en la misma variable
Considere la variable comurec
Valores antiguos y nuevos
Valor antiguo:13 Valor nuevo: 14 Añadir
Valor antiguo:19 Valor nuevo: 20 Añadir
Continuar aceptar
Vuelva a realizar tablas de frecuencias de comurec

Comuna donde se encuentra el hogar

Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos CERRILLOS 20 5,2 5,2 5,2
CERRO NAVIA 8 2,1 2,1 7,3
CONCHALI 6 1,6 1,6 8,8
EL BOSQUE 17 4,4 4,4 13,2
ESTACION CENTRAL 4 1,0 1,0 14,3
HUECHURABA 16 4,2 4,2 18,4
INDEPENDENCIA 6 1,6 1,6 20,0
LA CISTERNA 17 4,4 4,4 24,4
LA FLORIDA 9 2,3 2,3 26,8
LA GRANJA 6 1,6 1,6 28,3
LA PINTANA 3 ,8 ,8 29,1
LA REINA 10 2,6 2,6 31,7
LAS CONDES 18 4,7 4,7 36,4
LO BARNECHEA 12 3,1 3,1 39,5
LO ESPEJO 13 3,4 3,4 42,9
LO PRADO 11 2,9 2,9 45,7
MACUL 6 1,6 1,6 47,3
MAIPU 24 6,2 6,2 53,5
ÑUÑOA 5 1,3 1,3 54,8
PEDRO AGUIRRE
15 3,9 3,9 58,7
CERDA
PENALOLEN 1 ,3 ,3 59,0
PEÑALOLEN 16 4,2 4,2 63,1
PROVIDENCIA 8 2,1 2,1 65,2
PUDAHUEL 22 5,7 5,7 70,9
QUILICURA 15 3,9 3,9 74,8
QUINTA NORMAL 14 3,6 3,6 78,4
RECOLETA 12 3,1 3,1 81,6
RENCA 18 4,7 4,7 86,2
SAN JOAQUIN 13 3,4 3,4 89,6
SAN MIGUEL
SAN RAMON
7 1,8
11 1,8 91,4
8 2,1 2,1 93,5
SANTIAGO 6 1,6 1,6 95,1
VITACURA 19 4,9 4,9 100,0
Total 385 100,0 100,0
iii) Realizar tablas con valores extremos y diagramas de caja. Esto nos permitirá verificar si los casos
los valores atípicos existen o han sido mal ingresados.

Va lores extre mos Va lores extre mos

Número Número
del caso Valor del caso Valor
Consumo de Mayores 1 378 901,60 Ingreso del Hogar Mayores 1 207 11141600
Agua Potable 2 2 40 1602365
370 571,68
3 146 1512608
3 385 560,64
4 342 1126072
4 46 513,48
5 372 1060366
5 375 505,60
Menores 1 72 18260
Menores 1 238 125,04
2 104 20000
2 205 129,48 3 210 22825
3 330 129,76 4 45 22825
4 314 129,84 5 341 33044
5 290 135,52

Va lores extre mos

Número
del caso Valor
N° de Habitantes Mayores 1 385 22
del Hogar 2 370 12
3 46 11
4 376 11
5 378 11
Menores 1 338 3
2 332 3
3 314 3
4 303 3
5 282 3a
a. En la tabla de valores ext remos menores sólo s e
muestra una lista parcial de los casos con el valor 3.

12
Menu Analizar /Explorar/
Variables: Consumo agua potable, Ingreso del hogar, y No habitantes del hogar
Estadísticos/ Valores atípicos
Gráficos Diagrama de caja para cada una de las variables mencionadas.
Para cada variable se debería verificar si la información de los valores atípicos está bien registrada.
Corregir en el caso que sea posible o filtrar los casos muy extremos para no sesgar los análisis.

iv) Cuando existen columnas (variables como identificador de otra variable) como el caso de la
variable identificador de comuna y comurec, se debe verificar si se corresponden. Para esto puede
ordenar id-comuna en forma ascendente y ver si se corresponde visualmente con la comurec.
Otra forma es crear una variable de cadena donde concatene los dos codigos (correspondiente a
id-comuna y comurec). Esto le permitirá ver en una tabla de frecuencia si las variables se
corresponden. En el ejemplo hay dos códigos que se corresponden con 13107 lo cual acusa error.
13107 y 23 13107 y 24 Se debe corregir.

Sintaxis del procedimiento


STRING concat (A13).
COMPUTE concat = CONCAT(STRING(id_comun,F11.0),STRING(comurec,F2.0)) .
EXECUTE .

13
concat

Porcentaje Porcentaje
Frecuenc ia Porcentaje válido acumulado
Válidos 1310134 6 1,6 1,6 1,6
13102 7 6 1,6 1,6 3,1
13103 3 6 1,6 1,6 4,7
13104 5 4 1,0 1,0 5,7
1310529 12 3,1 3,1 8,8
1310625 8 2,1 2,1 10, 9
1310723 1 ,3 ,3 11, 2
1310724 16 4,2 4,2 15, 3
1310815 12 3,1 3,1 18, 4
13109 2 8 2,1 2,1 20, 5
1311021 5 1,3 1,3 21, 8
1311112 10 2,6 2,6 24, 4
1311218 6 1,6 1,6 26, 0
13113 8 17 4,4 4,4 30, 4
13114 9 9 2,3 2,3 32, 7
1311531 14 3,6 3,6 36, 4
1311610 5 1,3 1,3 37, 7
1311711 3 ,8 ,8 38, 4
1311833 8 2,1 2,1 40, 5
1311932 7 1,8 1,8 42, 3
1312035 19 4,9 4,9 47, 3
13121 4 17 4,4 4,4 51, 7
1312222 15 3,9 3,9 55, 6
1312316 13 3,4 3,4 59, 0
13124 6 16 4,2 4,2 63, 1
13125 1 20 5,2 5,2 68, 3
1312620 24 6,2 6,2 74, 5
1312728 14 3,6 3,6 78, 2
1312817 11 2,9 2,9 81, 0
1312926 22 5,7 5,7 86, 8
1313014 18 4,7 4,7 91, 4
1313130 18 4,7 4,7 96, 1
1313227 15 3,9 3,9 100,0
Tot al 385 100,0 100,0

14
III. Estudio de Caso2.Encuesta Social General de 1994

Objetivo: Conocer como realizar un análisis inicial de los datos

Análisis Inicial de los datos (verificación): Encuesta Social General de 1994

El objetivo de este estudio de caso es revisar la importancia de verificar los datos antes de realizar
análisis formales y ver los métodos disponibles en SPSS.
Utilizar la ventana del Editor de Datos de SPSS y el procedimiento de Resúmenes de casos para ver
los datos; verificar los valores fuera de rango mediante los procedimientos descriptivos; aplicar
condicionales (Si) para evaluar la consistencia de las preguntas.

Archivo de trabajo: Encuesta Social General de 1994 (realizada por el National Opinion Research
Center de Chicago).

Cuando trabajamos con datos es importante verificar su validez antes de proceder con el análisis. Las
organizaciones de encuestas por correo aplican métodos como la verificación por teclas, una técnica
en la que dos personas independientes ingresan datos a una computadora, después de los cual los
resultados son comparados y las diferencias resueltas. Las organizaciones de encuestas telefónicas
suelen utilizar programas CATI (Computer Assisted Telephone Interview, en inglés) que comprueban
la validez de una respuesta de manera automática (por ejemplo si la respuesta está dentro de un rango
aceptable) y su consistencia con la información previa. Muchos investigadores no disponen de tales
recursos, pero pueden implementar verificaciones simples de la validez y consistencia mediante SPSS.
El tiempo que se invierte en examinar los datos de esta forma reducirá los falsos inicios y ahorrará
trabajo. Por esta razón la verificación de los datos es un preludio crítico del análisis estadístico.
Revisión de algunos casos
Por lo general, el primer paso, aún antes de verificar los datos, es revisar las primeras observaciones
y comparar sus valores con los originales de las hojas de datos o las formas de la encuesta. Esto sirve
para detectar algunos errores en la definición de los datos (columnas incorrectas especificadas en el
archivo ASCII de texto, lectura de caracteres alfa como campos numéricos). Ver los primeros datos
se puede hacer de forma muy sencilla mediante la ventana del Editor de Datos de SPSS, mediante el
procedimiento de Resúmenes de Casos, o el de Listar de las versiones anteriores (antes de SPSS 7).
A continuación vemos una parte de los datos de la Encuesta social general de 1994 en SPSS.

2
TP Documento de SPSS

15
Las primeras respuestas se pueden comparar con las hojas de datos originales o con las encuestas
como una prueba primaria de la captura de los datos. Si se encuentran errores, se pueden hacer las
correcciones de manera directa desde el Editor de Datos.

Note que limitamos el listado a los primeros 10 casos (la opción automática es de 100). El procedimiento
de Resumir Casos también puede mostrar resúmenes de grupos.

El programa mostrará, de manera automática, las etiquetas de valor de los casos en listados; esto se
puede modificar dentro del cuadro de diálogo de Opciones de SPSS (haga clic en Edición... Opciones,
luego muévase hacia el Navegador tab). Es importante señalar que en este caso la elevada incidencia
de "NAP" (no aplicable) en algunas variables (ver educación del padre) puede deberse al hecho de
que se hicieron pocas preguntas a todos los sujetos en la Encuesta de 1994. Generalmente, la gran
cantidad de datos perdidos (ver educación del padre) sería un elemento de preocupación.

16
Años de Años de Años de
Años de educación educación educación
completado
escolaridad completados completados
s
de la del
completados del esposo
madre padre
1
1 12 NAP 12
0
1
2 12 12 NAP
2
3 12 12 NS NAP
4 8 9 5 NAP
1
5 13 NAP NAP
2
2
6 15 NAP NAP
0
1
7 9 NAP NS
2
8 12 NAP O 8
1
9 12 NAP NAP
1
10 12 NAP 6 6
Total N 10 3 8 4

Mínimo, máximo y número de casos válidos

Una segunda verificación sencilla de los datos que se puede hacer con SPSS es mediante las
estadísticas descriptivas de todas las variables numéricas. El procedimiento Descriptivas reportará
la media, la desviación típica, el mínimo, máximo y el número de casos válidos para cada variable
numérica. La media y la desviación típica no son relevantes para las variables nominales, mientras que
el mínimo y el máximo señalarán cualesquiera datos fuera de rango. Además, si el número de
observaciones válidas es demasiado pequeño en una variable, se deberá explorar con mucho cuidado.
Dado que la opción Descriptivos sólo proporciona estadísticos de resumen, no indicará cuáles
observaciones contienen valores fuera de rango, pero éstas pueden ser fácilmente determinadas una
vez que se conozca el valor de los datos.

El comando de sintaxis para Descriptivos que se presenta enseguida le pedirá al programa resúmenes
para todas las variables (aunque éstos se registrarán sólo para las numéricas).

Sólo aparecerán variables numéricas en la lista del cuadro de diálogo. Para ejecutar el comando de
sintaxis para Descriptivas sólo haga clic en el botón Aceptar para que el programa le muestre estos
resúmenes.

17
Desv.
N Mínimo Máximo Media
tip.
Año de encuesta 2992 94 94 94.00 .000
Signo zodiacal del
2971 1 12 6.56 3.408
respondiente
Años de escolaridad
2985 O 20 13.16 2.971
completados
Estado civil 2991 1 5 2.32 1.596
Edad cuando se caso
por 1189 13 57 22.65 4.882
primera vez
Sexo del
2992 1 2 1.57 .495
respondiente
Edad del
2986 18 89 45.97 17.050
respondiente
Raza del
2992 1 3 121 .497
respondiente
Ingresos del
2075 1 22 12.91 5.518
respondiente

En este caso podemos ver el mínimo, máximo y el número de casos válidos para cada variable. Si
examinamos variables como EDUC (grado máximo de estudios) y EDAD (años cumplidos) podemos
determinar si existen valores fuera de rango. El máximo para HORASDETV parece elevado. Como
ejercicio vamos a examinar las etiquetas (haga clic en Utilidades... Variables) para descubrir los
rangos válidos de los valores de unas cuantas variables. Vamos a comparar éstos con los resultados
que se muestran en la figura.

Para cada variable se enlista el número de observaciones válidas (N válida). Éste indica cuántas
observaciones completaron los datos para todas las variables analizadas, la cual es una información
útil. En este caso es cero debido a que no todas las preguntas de la GSS se aplicaron a los sujetos, ni
todas fueron relevantes para ninguno. Si se descubren valores extraños en estos resúmenes, podemos
ubicar las observaciones con problemas mediante la selección de datos de la función Encontrar (en el

18
menú Edición) dentro del Editor de Datos de SPSS.

Identificación de respuestas inconsistentes

En la mayoría de las bases de datos, se deben mantener ciertas relaciones entre las variables, si es
que los datos se capturaron correctamente. Esto resulta particularmente verdadero con las
encuestas que contienen reactivos de filtro o de tamizaje. Algunos ejemplos de la GSS son: si un
sujeto nunca ha estado casado, entonces el registro de su edad al momento de casarse debería ser
un código perdido; en este caso el registro debiera ser el de la edad. Estas relaciones no se pueden
verificar así de fácil revisando los datos o en un simple resumen de variable, como las tablas de
frecuencias. Sin embargo, sí se pueden revisar mediante las instrucciones para transformar datos
que sirven para identificar los casos que violan los patrones establecidos.

Vamos a demostrar cómo probar estas relaciones entre las variables utilizando dos ejemplos
mencionados en el párrafo anterior. Primero, nunca casado (EDOCIVIL=5) y edad al momento de
casarse (EDADMAT) deben estar codificadas como valores perdidos. Segundo, EDADMAT debe ser
menor o igual a EDAD. El objetivo es crear una variable nueva en la que se establezca un valor
determinado (digamos 1) si la relación esperada no se presenta. Esto se realiza mediante las opciones
Transformar... Calcular y señalando la opción SI.

En el renglón de texto del cuadro de diálogo Calcular si indicamos la condición que queremos
identificar: nunca casado (EDOCIVIL=5) y tener una edad válida en el primer matrimonio
(-MISSING (EDADMAT) la tilde (-) significa "NO"). Si esta condición ocurre, se creará una variable
nueva (EREDOCIV) igual a uno.
Transformar /Calcular/ variable destino eredociv/expresión numérica=1

Vemos que si se mantiene la condición de error, entonces la nueva variable EREDOCIV será igual a 1.
Se puede ejecutar un análisis de frecuencias para determinar si algunos casos tienen esta variable
con valor 1. Se pueden seleccionar y enlistar los casos con problemas o localizarlos con la función
Encontrar en la ventana del Editor de Datos.

Se puede realizar la misma operación aplicando los comandos de sintaxis SI.

IF (EDOCIVIL=5 AND NOT (MISSING (EDADMAT)))

19
EREDOCIV=1.
IF (EDADMAT > EDAD) EREDAD=1).
FREQUENCIES NARIABLES EREDOCIV EREDAD.

El primer Si ejecuta la misma función que los cuadro de diálogo que acabamos de ver, dándole a
EREDOCIV el valor 1 si un sujeto que nunca estuvo casado reportó edad al momento del primer
matrimonio. El segundo Si le asigna el valor 1 a EREDAD si la edad al momento del primer matrimonio
del sujeto excede su edad actual. Luego se hace un análisis de frecuencias para ver si ocurrieron
estos errores.

Ya que los datos de la GSS están muy bien revisados, no es sorprendente que no se encuentren
discrepancias (valores de error iguales a 1).

Cuando se descubren errores

Si se encuentran errores, el primer paso es regresar a la hoja de registro de datos o a los


cuestionarios. Los errores sencillos se pueden corregir; en algunos casos se pueden corregir errores
de un sujeto con base en sus respuestas a otras preguntas. Si no se puede hacer esto, entonces se
pueden codificar esos reactivos como valores perdidos y se excluirán de los análisis. Es importante
mencionar que la función Valores Perdidos de SPSS puede realizar esta tarea.

Otras herramientas muy útiles para limpiar los datos

Recodificar automáticamente:

El cuadro de diálogo Recodificación automática le permite convertir los valores numéricos y de cadena
en valores enteros consecutivos. Si los códigos de la categoría no son secuenciales, las casillas vacías
resultantes reducen el rendimiento e incrementan los requisitos de memoria de muchos
procedimientos. Además, algunos procedimientos no pueden utilizar variables de cadena y otros
requieren valores enteros consecutivos para los niveles de los factores.

• La nueva variable, o variables, creadas por la recodificación automática conservan todas las
etiquetas de variable y de valor definidas de la variable antigua. Para los valores que no tienen
una etiqueta de valor ya definida se utiliza el valor original como etiqueta del valor
recodificado. Una tabla muestra los valores antiguos, los nuevos y las etiquetas de valor.
• Los valores de cadena se recodifican por orden alfabético, con las mayúsculas antes que las
minúsculas.
• Los valores perdidos se recodifican como valores perdidos mayores que cualquier valor no
perdido y conservando el orden. Por ejemplo, si la variable original posee 10 valores no
perdidos, el valor perdido mínimo se recodificará como 11, y el valor 11 será un valor perdido
para la nueva variable.

Recodificar en la misma variable /distinta variable

20
El cuadro de diálogo Recodificar en las mismas variables le permite reasignar los valores de las
variables existentes o agrupar rangos de valores existentes en nuevos valores. Por ejemplo, podría
agrupar los salarios en categorías que sean rangos de salarios.

El cuadro de diálogo Recodificar en distintas variables le permite reasignar los valores de las variables
existentes o agrupar rangos de valores existentes en nuevos valores para una variable nueva.

• Puede recodificar variables numéricas en variables de cadena y viceversa.


• Si selecciona múltiples variables, todas deben ser del mismo tipo. No se pueden recodificar
juntas las variables numéricas y de cadena.

Una vez que se han limpiado los datos podemos pasar a la parte más interesante del proceso, el análisis
de datos.

21
IV: Estudio de Caso: Qué opinan los jóvenes3

Objetivo: Aprender a realizar depuración de datos, realizar tablas y gráficos.

En septiembre del 2009 se realizó una encuesta telefónica de opinión pública a jóvenes entre 18 y 29 años de
las regiones V, VIII y RM con el fin de conocer la opinión sobre las cosas que hacen y piensan en la actualidad.
Fuente (Feedback y UDP). Se diseñó un cuestionario con 51 preguntas que se puede ver en detalle en el
anexo. El archivo de datos del que usted dispone se llama “caso Datos jóvenes 1.sav” que contiene 1000 filas
(casos) y 277 columnas (variables)
El objetivo del caso es explorar el archivo de datos y depurarlo, realizar distintos tipos de gráficos, aplicar
distintas tablas que permitan obtener porcentajes y estadísticos descriptivos e interpretar los resultados.

1.- Explore las variables que a continuación se mencionan y defina correctamente según corresponda.
Considere el archivo “caso Datos jóvenes 1.sav”

Nombre de la variable Etiqueta Valores


5=V
REGION REGION 8=VIII
13=RM

1=Hombre
SEXO SEXO
2=Mujer

Modificar 18="188"
EDAD EDAD 18="8"
29="299"

1= ESTÁ INSCRITO
ACTUALMENTE, ¿ESTÁS O NO ESTÁS INSCRITO EN
P02 2= NO ESTÁ INSCRITO
LOS REGISTROS ELECTORALES?
99=NS-NR

EN UN DÍA NORMAL ¿CUÁNTAS HORAS, EN


PROMEDIO, DEDICAS A LOS SIGUIENTES MEDIOS
P11_04 99,00 = "NS-NR"
DE COMUNICACIÓN? -PORTALES DE INTERNET
DISTINTOS A LOS DIARIOS

1 = "ABC1"
2 = "C2"
NSE GRUPOS SOCIOECONÓMICOS (BASE ESOMAR)
3 = "C3"
4 = "D"

2.- Considere el archivo “caso Datos jóvenes 2.sav” (ya corregido de acuerdo a lo anterior) y realice los
siguientes gráficos.

3
Caso elaborado por Sara Arancibia C

22
2-1) Realice un gráfico que muestre la frecuencia y porcentaje de encuestados por REGION

2-2) Realice un gráfico que muestre la frecuencia de jóvenes que están inscritos o no en los registros
electorales agrupados por SEXO

2-3) Realice un gráfico que muestre la media de edad por sexo.

2-4) Realice un gráfico que permita visualizar la forma de la distribución de la edad de los encuestados.

2-5) Realice un gráfico que permita visualizar para la variable “Edad” los descriptivos; cuartiles, Rango
intercuartil, valores atípicos y extremos.
Luego repita el gráfico pero para Edad por REGION agrupados por SEXO y compare.

3) Realice las siguientes tablas:


3-1) Una tabla con los siguientes descriptivos para Edad: N, Media, mediana, Mínimo, máximo, Desv
estándar, asimetría y curtosis.
3-2) Una tabla con los siguientes descriptivos tanto para hombres como para mujeres y por región: N,
Media, mediana, Mínimo, máximo, Desv estándar, asimetría y curtosis.
3-3) Dejar los resultados de la tabla anterior (Cubo OLAP) como un archivo de datos
3-4) Una tabla de frecuencia de SEXO segmentada por REGION
3-5) Una tabla que muestre número de observaciones por REGION y SEXO
3-6) Una tabla por región, identificando por folio los cinco valores mayores y cinco valores menores de la
variable P11_04: EN UN DÍA NORMAL ¿CUÁNTAS HORAS, EN PROMEDIO, DEDICAS A LOS
SIGUIENTES MEDIOS DE COMUNICACIÓN? -PORTALES DE INTERNET DISTINTOS A LOS DIARIOS
3-7) Exportar todas las tablas anteriores del visor de resultados a Excel

4) Cálculo de porcentajes
Nota Previa: Porcentajes: parecen inofensivos pero son peligrosos
Los porcentajes se pueden prestar a confusiones y malentendidos, por lo que no estará de más revisar algunos
ejemplos.
Siempre se debe tener en cuenta respecto a qué se calcula el porcentaje. Veamos un ejemplo: un gel suele
venderse en botellas de 750 cc y ahora, por el mismo precio, la botella es de 1000 cc. ¿Qué porcentaje de gel
están regalando? Depende de sobre qué valor se calcule el porcentaje: sobre el contenido inicial se regala el
33%, y sobre el final, el 25%.
También se debe distinguir entre porcentajes y puntos porcentuales. Así, si se dice que los beneficios de una
empresa han pasado de un 2 a un 4% han aumentado 2 puntos porcentuales
(pero no un 2%!)
Igualmente se debe distinguir entre porcentajes basados en niveles y porcentajes basados en cambios de
nivel. El siguiente ejemplo aclara esta cuestión. Un vendedor vendió el año pasado por valor de 10 millones de
euros. Su objetivo para este año era aumentar su facturación en un 6%. El vendedor ha logrado vender sólo
por valor de 10,3 millones. ¿Qué porcentaje de objetivo ha logrado? Si el objetivo es el incremento, sólo
consigue el 50 %, pero si se interpreta que el objetivo era vender 10,6 y ha vendido 10,3, ha logrado el 97,2%.
Por último, también hay que tener cuidado cuando se realizan operaciones con porcentajes:

23
1. Si el precio de un producto se aumenta el 20 % y después disminuye también el 20 %, ¿cómo queda el
precio final respecto al inicial? No se queda como estaba, disminuye un 4%. Si el precio inicial era X,
el final será (X+0,2X)-0,2(X+0,2X)=X-0,04X.
2. Un producto está formado por 10 componentes y cada componente aumenta su coste un 2%, ¿cuánto
aumenta el coste del producto? Aumenta un 2%. No importa que haya unos componentes muy caros y
otros muy baratos. Si no lo ve claro haga las cuentas y se convencerá.
3. Si Juan gana un 1000% más que Pedro, gana 11 veces más (no 10). Si gana un 100% más gana el doble,
si gana un 200% más, el triple, etc.

No es lo que parece: la paradoja de Simpson

Cuando se dan porcentajes globales comparando grupos que a su vez contienen varias partes, puede parecer
que ocurre una cosa cuando en realidad está ocurriendo otra. Este fenómeno se conoce con el nombre de
paradoja de Simpson.
Veamos un ejemplo. Una gran compañía abre una nueva fábrica creando 250 puestos de trabajo en los
departamentos de compras, montaje y almacén. En total se presentan 355 hombres y 325 mujeres, de los
cuales son admitidos 190 hombre (el 53,5%) y 60 mujeres (el 18,5%). Se comprueba que el nivel de preparación
de hombres y mujeres es similar entre los aspirantes a cada departamento. ¿Podemos asegurar que se ha
discriminado a las mujeres? La respuesta es no. Los datos son los siguientes:

Aspirantes Admitidos % Admitidos


Departamento Plazas Hombres Mujeres Hombres Mujeres Hombres Mujeres
Compras 30 25 100 5 25 20 25
Montaje 200 250 25 180 20 72 80
Almacén 20 80 200 5 15 6,25 7,5
Total 250 355 325 190 60 53,5 18,5

En realidad, en todos los departamentos la proporción de admitidos ha sido mayor en las mujeres. La clave
está en que al departamento que ofrece más plazas se han presentado muchos hombres y pocas mujeres,
mientras que en los que ofrecen menos plazas ocurre lo contrario.
Y una curiosidad para terminar este apartado de porcentajes: Analice la noticia obtenida desde un periódico
“el 65% de los jóvenes de 10 a 17 años admite que accede a videojuegos para mayores de edad”. El texto de
la noticia aclara de dónde sale el 65%: ¡ del 50% de los chicos y del 15% de las chicas! (¿qué porcentaje hubiera
dado si se tratara del 50 % de chicos y del 60% de las chicas?)
Referencia: La certeza absoluta y otras ficciones de Pere Grima. 2010 RBA Coleccionables.

Ejercicios
4-1) ¿Qué porcentaje respecto al total de la muestra representan los jóvenes que están inscritos en los
registros electorales?. ¿ Qué porcentaje de los inscritos en los registros electorales son hombres?. ¿Qué
porcentaje de las mujeres no están inscritas en los registros electorales? ¿Qué porcentaje respecto al total
de la muestra representan los jóvenes que no están inscritos en los registros electorales y son mujeres?.

4-2) ¿Respecto al total de hombres qué porcentaje está inscrito en los registros electorales y pertenece al
grupo socioeconómico ABC1?. ¿Respecto al total de hombres del grupo D, qué porcentaje no está inscrito en
los registros electorales?.

24
¿Respecto al total de mujeres qué porcentaje no está inscrito en los registros electorales y pertenece al
grupo socioeconómico C2?. ¿Respecto al total de mujeres que no están inscritas en los registros electorales ,
qué porcentaje pertenece al grupos C3?.

SOLUCION

En primer lugar para hacer más eficiente el análisis se recomienda crear un conjunto con sólo las variables
que interesa analizar. Para esto ir a Utilidades/definir conjuntos de variables/ Nombre del conjunto:
CONJUNTO 1/ variables FOLIO, REGION, SEXO, EDAD, P02, P11_04, NSE/Añadir conjunto/Cerrar.
Luego para utilizar el conjunto ir a Utilidades/ Utilizar conjuntos de variables/ activar NEWVARIABLES y
CONJUNTO 1/Aceptar.

Ahora para explorar y depurar el archivo de datos es recomendable explorar las variables en Datos /
Definir propiedades de variables /seleccionar las variables REGION, SEXO, EDAD, P02, P11_04, NSE/ se
observa para cada variable la frecuencia, valores, etiquetas y otras propiedades.

Se observa que se debe depurar cada variable excepto NSE

Para depurar la variable REGION que está definida como cadena ir a Transformar/
Recodificación automáticamente/seleccionar la variable REGION / nuevo nombre regionrec/ menor valor/
aceptar

GET
FILE='F:\Año 2011\AIE 2011\CASO JOVENES\caso Datos Jovenes 1.sav'.
AUTORECODE VARIABLES=REGION
/INTO regionrec
/PRINT.
REGION into regionrec (Región)
Old Value New Value Value Label

RM 1 RM
V 2 V
VIII 3 VIII

Ahora la variable es numérica y cada región tiene un código asignado. Para cambiar el código ir a
Transformar/ recodificar en la misma variable/valores antiguos y nuevos/
Valor antiguo: 1 asignar valor nuevo 13 Añadir
Valor antiguo: 2 asignar valor nuevo 5 Añadir
Valor antiguo: 3 asignar valor nuevo 8 Añadir

Ir a Datos/Definir propiedades de variables/regionrec/ poner etiquetas/ RM-V y VIII respectivamente/


Aceptar

25
Para depurar la variable SEXO que está definida como cadena ir a Transformar/
Recodificación automática/seleccionar la variable SEXO/ nuevo nombre sexor/ menor valor/ aceptar
Ir a Datos/Definir propiedades de variables/sexor/ cambiar etiquetas/ h por HOMBRE y m por
MUJER/Aceptar

GET
FILE='F:\Año 2011\AIE 2011\CASO JOVENES\caso Datos Jovenes 1.sav'.
AUTORECODE VARIABLES=SEXO
/INTO sexor
/PRINT.

SEXO into sexor (SEXO)


Old Value New Value Value Label

h 1 h
m 2 m

* Definir propiedades de variables.


*sexor.
VALUE LABELS sexor
1 'HOMBRE'
2 'MUJER'.
EXECUTE.

Para depurar la variable P02 que está definida como cadena y con etiquetas mal asignados ir a Transformar/
Recodificación automática/seleccionar la variable P02/ nuevo nombre P02r/ menor valor/ aceptar
Ir a Transformar/ Recodificar en la misma variable/seleccionar la variable P02r/ valor antiguo 1 asigne
valor nuevo 2 y al valor antiguo 3 asigne el valor nuevo 4. Esto depura los datos obteniendo una nueva tabla
de frecuencia como sigue.
Ir a Vista de variable y eliminar las etiquetas 1 y 3

AUTORECODE VARIABLES=P02
/INTO PO2r
/PRINT.
P02 into PO2r (ACTUALMENTE, ¿ESTÁS O NO ESTÁS INSCRITO EN LOS REGISTROS
ELECTORALES?)
Old Value New Value Value Label

26
Está Inscrito 1 Está Inscrito
ESTÁ INSCRITO 2 ESTÁ INSCRITO
No está inscrito 3 No está inscrito
NO ESTÄ INSCRITO 4 NO ESTÄ INSCRITO

RECODE PO2r (1=2) (3=4).


EXECUTE.
FREQUENCIES VARIABLES=PO2r
/ORDER=ANALYSIS.

Para depurar la variable P11_04


Se observa en Datos/Definir propiedades de variables/ que hay tres valores fuera de rango. Para
cambiarlos se debe ir a editor de datos y al odenar ascendentemente se selecciona el valor 8 y se cambia
por 18, luego se ordena descendentemente y los valores 188 por 18 y 299 por 29.

2) Gráficos
2-1)
Gráficos/Generador de gráficos/sectores/REGION

2-2) Gráficos /Generador de gráficos/Barras/ agrupados/P02/ SEXO

27
2-3) Gráficos/ Cuadros de diálogo antiguos/Barras / Simple/Resúmenes para grupos de casos/Definir/Las
barras representan Mean(EDAD)/ Eje de categorías : SEXO

2-4) Gráficos /Generador de gráficos/Histograma/ EDAD

28
2-5) Gráficos/ Generador de gráficos/ Diagrama de cajas/ Seleccionar Simple/ Eje Y: EDAD

Gráficos/ Generador de gráficos/ Diagrama de cajas/seleccionar Agrupados/ Eje Y: EDAD/EjeX: REGION/


Agrupados por SEXO

29
3) Tablas

3-1) Analizar/estadísticos descriptivos/ Frecuencias/ Edad / Estadisticos; Media, Mediana, Minimo,


máximo, DEsv Estándar, asimetría, curtosis

3-2) Analizar/Informes/Cubos OLAP/Variables de resumen: Edad/variables de agrupación SEXO y


REGION/Estadísticos: N, Media, mediana, Mínimo, máximo, Desv estándar, asimetría y curtosis.

30
Nota Si además se quieren calcular los cuartiles se puede segmentar el archivo por SEXO y REGION y luego
ir al menú de frecuencias y solicitar los descriptivos anteriores y los cuartiles. ( Ayuda Ir a
Datos/Segmentar archivos/ Comparar los grupos/ Seleccionar las variables SEXO y REGION

3-3) Dejar los resultados de la tabla anterior (Cubo OLAP) como un archivo de datos

Utilidades/Panel de control de SGR ( Sistema de gestión de resultados)

Seleccionar Tablas/ OLAP Cubles / Layered Reports/ Nuevo conjunto de datos/: ArchivoOLAP y luego
añadir/ Aceptar

31
Luego ir a Menú: Informes/Cubos OLAP/Variables de resumen: Edad/variables de agrupación SEXO y
REGION/Estadísticos: N, Media, mediana, Mínimo, máximo, Desv estándar, asimetría y curtosis. Aceptar

Volver a Utilidades Utilidades/Panel de control de SGR (Sistema de gestión de resultados) activar Terminar
todo. Aceptar. Aparecerá el archivo

32
3-4) Datos/ Segmentar archivo/ Comparar los grupos/ variable de segmentación REGION /Aceptar
Analizar/Estadísticos Descriptivos/frecuencias / SEXO/ activar la tabla de frecuencia

3-5) Sacar la segmentación: Datos/segmentar archivo/Restablecer


Analizar/Estadísticos Descriptivos/ tablas de contingencia/ Casillas: Recuentos Observado

33
3-6) Previamente se debe verificar si en la variable P11_04 el valor 99 está definido como perdido.
Analizar/ Explorar/ Lista de dependientes: P11_04/ Lista de Factores: Región/Etiquetar los casos mediante:
Folio/
Estadísticos: valores atípicos (nota: Muestra los cinco valores mayores y menores y parecen como valores
extremos pero en rigor no necesariamente son valores atípicos ni extremos)

34
3-7)
Primero se debe limpiar el visor de resultados dejando exclusivamente lo que se quiere exportar. Luego ir a
Archivo/ exportar resultados / seleccionar tipo Excel/ Examinar guardar en Escritorio / VISOR/ Aceptar.
Abrir desde Escritorio los resultados exportados

4) Tablas

4-1)
Analizar/ Estadísticos Descriptivos/ tablas de contingencia/ Filas: P02/ Columnas: Sexo/ Casillas:
Porcentajes Filas, columnas y Total.

El 20,7% de la muestra representan los jóvenes que están inscritos en los registros electorales.

El 53,6% de los inscritos en los registros electorales son hombres.

El 77,9% de las mujeres no están inscritas en los registros electorales

El 39,1% de la muestra representan los jóvenes que no están inscritos en los registros electorales y son
mujeres.

35
4-2)
Analizar/ Estadísticos Descriptivos/ tablas de contingencia/ Filas: P02/ Columnas: NSE/ Capa:
SEXO/Casillas: Porcentajes Filas, columnas y Total.

Respecto al total de hombres el 3,2 % está inscrito en los registros electorales y pertenece al grupo
socioeconómico ABC1.

Respecto al total de hombres del grupo D, el 88% no está inscrito en los registros electorales.

Respecto al total de mujeres el 12,4% no está inscrito en los registros electorales y pertenece al grupo
socioeconómico C2.

Respecto al total de mujeres que no están inscritas en los registros electorales, el 39,9% pertenece al
grupos C3.

36
37
V. Estudio de Caso: Caracterización del Mundo4

Objetivo: Realizar un análisis descriptivo de los datos ocupando medidas de tendencia central de
dispersión y de formas de la distribución

Considere el archivo Mundo 95, que contiene las siguientes variables de los países del Mundo en el año
1995:
Variable Etiqueta Etiqueta de Valor
país País
poblac Población x 1000
densidad Habitantes x Km2
urbana Habitantes en ciudades (%)
relig Religión mayoritaria
espvidaf Esperanza de vida Femenina
espvidam Esperanza de vida Masculina
alfabet Alfabetización (%)
inc_pob Aumento de población (% anual)
mortinf Mortalidad infantil (Muertes por 1000 nacimientos
vivos)
pib_cap Producto interno bruto per cápita
región Región Económica 1 = OCDE
2 = Europa Oriental
3 = Asia / Pacífico
4 = Africa
5 = Oriente Medio
6 = América Latina
calorías Ingesta diaria de calorías
sida Casos de SIDA
tasa_nat Tasa de natalidad (por 1.000 habitantes)
tasa_mor Tasa de mortalidad (por 1.000 habitantes)
tasasida Casos de SIDA por 100.000 habitantes
log_pib Log(10) de PIB_CAP
logtsida Log(10) de TASASIDA
nac_def Tasa nacimentos/defunciones
fertilid Número promedio de hijos
log_pob Log(10) de POBLAC
cregrano --
alfabmas Hombres alfabetizados (%)
alfabfem Mujeres alfabetizadas (%)
clima Clima predominante 1 = Desierto
2 = Arido / Desierto
3 = Arido

4
TP Caso desarrollado por Sara Arancibia

38
5 = Tropical
6 = Mediterráneo
7 = Marítimo
8 = Templado
9 = Artico /
Templado
10 = Artico

Usted debe realizar un informe donde compare los países en al menos los siguientes aspectos: Población,
densidad, % de habitantes en ciudades, esperanza de vida, alfabetización (%), tasas de natalidad y
mortalidad, número promedio de hijos por familia, tasa sida, considerando las variables nominales
Región, Religión mayoritaria y clima predominante.
Para su informe debe considerar al menos los siguientes puntos:
(i) Tres gráficos distintos con su interpretación.
(ii) Tablas de frecuencia
(iii) Tablas de contingencia
(iv) Outliers (Valores extremos)
(v) Medidas de tendencia central
(vi) Medidas de dispersión
(vii)Cubos OLAP
(viii) Puntuaciones z

Solución:
Analizar/Estadisticos Descriptivos/ Frecuencias
Comenzaremos el estudio determinando la frecuencia de las variables nominales; Región Económica,
Religión Predominante y Clima Predominante de los países

Re gion or econom ic group

Frequenc y Percent Valid Percent


Valid OE CD 21 19, 3 19, 3
East Europe 14 12, 8 12, 8
Pacific/A sia 17 15, 6 15, 6
Africa 19 17, 4 17, 4
Middle E ast 17 15, 6 15, 6
Lat n America 21 19, 3 19, 3
Tot al 109 100,0 100,0

La tabla de frecuencia muestra el número de países por Región económica. Se observan dos regiones
con la mayor frecuencia, (21 países) las que corresponden a la Región OECD (Organización para la
Cooperación y el Desarrollo Económico) y a la Región de Latino América, correspondiendo al 19,3% del
total de países. La menor frecuencia se observa en Europa del Este con 14 países de un total de 109
países.
El gráfico siguiente muestra la frecuencia y porcentaje de países por Religión predominante.

39
Frecuencia y porcentaje de países

por Religión Predominante

Other Buddhist

10,00 / 9,2% 7,00 / 6,4%

Protstnt

16,00 / 14,7%

Catholic
Orthodox
41,00 / 37,6%
8,00 / 7,3%

Muslim

27,00 / 24,8%

Se observa que 41 países que representan el 37,6% del total de países considerados tienen como religión
predominante la religión Católica y 27 países la religión Musulmana representando el 24,8% del total de
países considerados.
Para generar el gráfico: Graficar/Sectores/Resumen para grupos de casos/Nº de casos/Religión
Predominante. En el editor de gráficos se pide texto, valor y porcentaje y se colapsa los sectores a
mayores del 5%.
La tabla de frecuencia para religión predominante muestra complementariamente al gráfico anterior
que las religiones con menor frecuencia son las religiones Hindú, Judía, Taoísta y Tribal

Pre dom inant religion

Frequency Percent Valid Percent


Valid Animist 4 3,7 3,7
Buddhis t 7 6,4 6,5
Catholic 41 37,6 38,0
Hindu 1 ,9 ,9
Jewish 1 ,9 ,9
Muslim 27 24,8 25,0
Orthodox 8 7,3 7,4
Protstnt 16 14,7 14,8
Taoist 2 1,8 1,9
Tribal 1 ,9 ,9
Total 108 99,1 100,0
Mis sing 1 ,9
Total 109 100,0

Al cruzar las variables región y religión podemos observar en la tabla de contingencia que la Religión
Predominante Animista pertenece a países de África. La religión predominante Católica se encuentra en
todas las regiones excepto en la Región de Oriente donde la religión predominante es la Musulmana con
15 países de un total de 17 países de la región

40
Pre dom inant religion * Region or economi c group Crossta bula tion

Count
Region or economic group
East Pacific/ Middle Lat n
OE CD Europe As ia Africa East America Tot al
Predominant Animist 4 4
religion Buddhist 7 7
Catholic 10 5 1 5 20 41
Hindu 1 1
Jewish 1 1
Muslim 1 5 6 15 27
Ort hodox 1 6 1 8
Protstnt 10 2 1 2 1 16
Taoist 2 2
Tribal 1 1
Tot al 21 14 17 18 17 21 108

En relación al Clima Predominante se observa que las mayores frecuencias corresponden a los climas
Temperado y Tropical los que representan un 31,8% y 29,9% respectivamente, respecto al total de
datos válidos.

Pre dom inant clim ate

Frequency Percent Valid Percent


Valid des ert 7 6,4 6,5
arid / desert 5 4,6 4,7
arid 6 5,5 5,6
otro 5 4,6 4,7
tropical 32 29, 4 29, 9
mediterranean 10 9,2 9,3
maritime 4 3,7 3,7
temperate 34 31, 2 31, 8
arc tic / t emp 4 3,7 3,7
Tot al 107 98, 2 100,0
Mis sing Sy stem 2 1,8
Tot al 109 100,0

Gráficos/ Cuadros de diálogo antiguos/Barras


Ahora consideremos la población, densidad y habitantes que viven en ciudades. Podemos observar del
gráfico correspondiente a la mediana de población por región económica que al menos el 50% de los
países del Asia/Pacífico tienen una población mayor o igual a 59.400.000 habitantes, valor notablemente
alto en relación a las medianas del resto de las regiones las que oscilan entre 10.400.000 y 5.500.000
habitantes.

41
Mediana de Población por Región Económica
70000

60000
59400

50000
Med Population in thousands

40000

30000

20000

10000
10400 9600 9100 7900
0 5500
OECD Pacific/Asia Middle East
East Europe Africa Latn America

Region or economic group

Coherente con lo anterior se observa que la mayor densidad por región económica corresponde a la
región Asia/Pacífico con un valor promedio de 802 habitantes por kmP2P, la que es considerablemente
superior a la densidad promedio del resto de regiones, las que oscilan entre 127 y 62 habitantes por
kmP2P correspondiendo esta última a la región de África

Media de densidad por Región Económica


1000

800
802

600

400

200

108 127
77 62 88
0
OECD Pacific/Asia Middle East
East Europe Africa Latn America

Region or economic group

Para generar el gráfico: Graficar/Barras/Simples/Resumen para grupos de casos/N de casos/ Región


Económica.

42
Media de porcentaje de población

que vive en ciudades

OECD 75

East Europe 62
Region or economic group

Pacific/Asia 45

Africa 29

Middle East 66

Latn America 61

20 30 40 50 60 70 80

Mean People living in cities (%)

En relación al porcentaje de personas que viven en ciudades, se observa del gráfico que el mayor
porcentaje promedio corresponde a la Región OECD, con un 75% en promedio. Es considerable la
diferencia con la región de África donde el promedio de población urbana es del 29%, seguido de
Asia/Pacífico con un promedio del 45%.
Podemos complementar la información anterior con Cubos OLAP, los que muestran por grupos, los
estadísticos que se necesiten conocer. Específicamente los Cubos siguientes muestran para las regiones
OECD y África, el número de países el que corresponde a 21 y 18 países respectivamente. Se observa la
media para cada una de las variables consideradas y la desviación estándar que muestra cuánto se
desvían los datos, en promedio respecto a la media.
Al considerar el cubo correspondiente a la región OECD se observan los valores mínimo y máximo, es
sorprendente observar que existen países con una densidad de 2,3 habitantes por kmP2P y de 366
personas por kmP2P. Al considerar la población, dentro de los países del OECD se puede apreciar un valor
mínimo de 263.000 habitantes en oposición al valor máximo de 260.800.000 habitantes. El mayor
porcentaje de población urbana corresponde al 96% y el menor corresponde al 34%.
Analizar/ Informes(Report)/ Cubos OLAP

OLAP Cubes

Region or economic group: OE CD


Predominant c limat e: Tot al
Predominant religion: Tot al
Number of people
Population in thous ands / sq. kilometer People living in cities (%)
N 21 21 21
Mean 33085,10 107,981 74, 71
Std. Deviation 57148,25 107,936 14, 89
Minimum 263 2,3 34
Maximum 260800 366,0 96
Median 10400,00 80, 000 77, 00

43
OLAP Cubes

Region or economic group: Africa


Predominant c limat e: Tot al
Predominant religion: Tot al
Number of people
Population in thous ands / sq. kilometer People living in cities (%)
N 18 18 18
Mean 18415,83 63, 700 28, 17
Std. Deviation 24331,33 79, 823 14, 70
Minimum 959 2,4 5
Maximum 98100 311,0 47
Median 8900,00 39, 500 24, 50

Al considerar el cubo correspondiente a la región de África se observa una media de población


considerablemente más baja que la media de la Región OECD y que la variabilidad en la variable población
del 132% es más baja que si se compara con la región del OECD cuyo coeficiente de variabilidad es del
172,7%. Por otra parte se observa para la población urbana un mínimo de 5% siendo el porcentaje máximo
del 47%, valores muy bajos si se compara con la región del OECD. Al igual que la región OECD se observa
un valor mínimo de densidad de 2,4 habitantes por kmP2P, en oposición al máximo cuya densidad es de
311 habitantes por kmP2P.
Para identificar a qué países corresponden estos valores máximos y mínimos se puede solicitar los
valores extremos (outliers) que muestra los cinco valores mayores y menores.

Extreme Values Ex treme Values

Region or economic group: OECD Region or economic group: Africa


Number of people / s q. kilometer Number of people / sq. kilomet er
Cas e Number COUNTRY Value Case
Highest 1 Net herlan Number COUNTRY Value
70 366,0
ds Highest 1 85 Rwanda 311,0
2 11 Belgium 329,0 2 18 Burundi 216,0
3 101 UK 237,0 3 73 Nigeria 102,0
4 42 Germany 227,0 4 40 Gambia 86, 0
5 56 Italy 188,0 5 103 Uganda 76, 0
Lowest 1 4 Aus tralia 2,3 Lowest 1 14 Botswana 2,4
2 49 Iceland 2,5 2 39 Gabon 4,2
3 21 Canada 2,8 3 Cent.
22 5,0
4 74 Norway 11, 0 Afri.R
5 New 4 90 Somalia 10, 0
71 13, 0
Zealand 5 109 Zambia 11, 0

Para generar las tablas: Analizar/Estadísticos Descriptivos/Explorar. En Factor colocar Región


económica y etiquetar por país. En Estadísticos seleccionar Valores Atípicos.
Ahora consideraremos las variables; Esperanza de vida femenina, esperanza de vida masculina, tasa de
natalidad, tasa de mortalidad, tasa sida, fertilidad y alfabetización
El gráfico siguiente muestra la media de esperanza de vida femenina y masculina por Región Económica.
Se observa que en todas las regiones es mayor la media de esperanza de vida femenina que masculina
siendo la región del OECD, la de mayor esperanza de vida, con un promedio de 80 y 74 años para mujeres
y hombres respectivamente. Es notable la diferencia con África donde se observa que el promedio de
esperanza de vida es muy baja siendo la media de 54 y 51 años para mujeres y hombres respectivamente.

44
Media de las variables Esperanza de Vida

Femenina y Masculina por Región Económica


90

80
80
76
74
70 72 72
68 67 67 66
60 63

Media esper de Vida


54
50
51 Femenina
Media

40 Masculina
OECD Pacific/Asia Middle East
East Europe Africa Latn America

Región Económica

Para generar el gráfico: Graficar/Barras/Agrupados. Resumen para variables individuales/Media de las


variables Esperanza de vida fem y masculina/eje de categorías Región Económica.
La tabla siguiente identifica los países con mayor y menor esperanza de vida
Analizar/Estadisticos Descriptivos/Explorar
Estadisticos/ Outliers

Va lores Extre mos ( Outliers consi derando todos los pa íses)

Case Number COUNTRY Value


Average female Highest 1 94 Switzerland 82
life expectanc y 2 57 Japan 82
3 38 France 82
4 21 Canada 81
5 56 Italy ,a
Lowest 1 103 Uganda 43
2 1 Afghanis tan 44
3 22 Cent. Afri.R 44
4 109 Zambia 45
5 97 Tanzania 45
Average male Highest 1 55 Israel 76
life expectanc y 2 57 Japan 76
3 26 Costa Rica 76
4 49 Iceland 76
5 47 Hong Kong ,b
Lowest 1 103 Uganda 41
2 97 Tanzania 41
3 22 Cent. Afri.R 41
4 85 Rwanda 43
5 45 Haiti 43
a. Only a partial list of cases with the value 81 are shown in t he table of upper
ext remes .
b. Only a partial list of cases with the value 75 are shown in t he table of upper
ext remes .

45
El siguiente gráfico apilado compara las medias entre la tasa de natalidad y mortalidad por región
económica, mostrando que las mayores tasas promedio corresponden a la región de África, las que
indican que en promedio nacen 42 por cada 1.000 habitantes y mueren en promedio 15 por cada 1.000
habitantes. La menor tasa de natalidad en promedio corresponde a la región del OECD
Gráficos/ Cuadros de diálogo antiguos/Barras/Apilado

Tasa de natalidad y mortalidad

por región económica


60

15
50

40 42
6
9 7
30 33
27 27
20 11 Death rate per 1000
10
people
10 13 13
Mean

Birth rate per 1000

0 people
OECD Pacific/Asia Middle East
East Europe Africa Latn America

Region or economic group

Esta información está muy de acuerdo con la variable fertilidad, la que indica el promedio de hijos por
familia.
El diagrama de caja muestra por región económica que las mayores tasas de fertilidad se concentran en
la Región de África mostrando que la mediana representada por la línea horizontal en las cajas se
aproxima al valor 6 hijos por familia en promedio. El 50% de los datos de fertilidad de los países se
encuentra en la caja la que va desde el primer cuartil al tercer cuartil. La tabla de descriptivos para
fertilidad por región confirma la información entregada por el diagrama de caja.
Gráficos/ Cuadros de diálogo antiguos/Box plot (Diagrama de cajas) simple/ resúmenes para grupos
de casos
o ir a Analizar/ Esadisticos Descriptivos /Explorar /Plots/ Estadisticos

46
Diagrama de caja

Fertilidad por región económica


10

0
N= 21 13 16 19 17 21

OECD Pacific/Asia Middle East


East Europe Africa Latn America

Region or economic group

De scriptives

Fertility: average number of kids


Region or economic group
OE CD Eas t Pac ific/A s Africa Middle Lat n
Europe ia Eas t America
Statistic Statistic Statistic Statistic Statistic Statistic
Mean 1,746 1,889 3,383 6,081 4,724 3,336
5% Trimmed Mean 1,751 1,886 3,298 6,088 4,721 3,280
Median 1,800 1,840 3,065 6,290 4,000 3,080
Variance 6,150E-02 1,772E-02 3,226 1,285 2,356 1,115
Std. Deviation ,248 ,133 1,796 1,134 1,535 1,056
Minimum 1,3 1,7 1,4 3,8 2,8 1,8
Maximum 2,1 2,2 6,9 8,2 6,7 5,9
Range ,8 ,5 5,5 4,4 3,9 4,2
Interquartile Range ,495 ,190 2,795 1,380 3,165 1,655
Skewnes s -,081 ,530 ,791 -,586 ,231 ,827
Kurtosis -1,192 ,932 -,563 ,119 -1,812 ,332

Como complemento de la información vemos que la tabla siguiente muestra las medidas de tendencia
central y de dispersión para todas las variables consideradas en este apartado.

47
De scriptives

Average Average Birt h Death Numbe Fertility: People


female male rate per rate per r of aids average who
life life 1000 1000 cas es / number read
expecta
Statistic expecta
Statistic people
Statistic people
Statistic 100000
Statistic of k ids
Statistic (%)
Statistic
Mean ncy
69, 89 ncy
64, 71 26, 154 9,64 people
24, 8271 3,558 77, 95
5% Trimmed Mean 70, 67 65, 37 25, 754 9,31 16, 8072 3,475 79, 74
Median 74, 00 67, 00 25, 500 9,00 5,5512 3,065 87, 50
Variance 115,241 88, 926 154,112 18, 400 2482,6 3,605 532,862
Std. Deviation 10, 74 9,43 12, 414 4,29 49, 8252 1,899 23, 08
Minimum 43 41 10, 0 2 ,00 1,3 18
Maximum 82 76 53, 0 24 326,75 8,2 100
Range 39 35 43, 0 22 326,75 6,9 82
Interquartile Range 12, 75 12, 75 21, 000 4,00 23, 2434 3,170 36, 75
Skewnes s -1,048 -1,020 ,416 1,283 3,498 ,665 -,955
Kurtosis ,054 ,171 -1,163 1,754 15, 008 -,933 -,250

Si consideramos sólo los países de las regiones OECD y África, observamos cómo cambian las medidas
de tendencia central y dispersión ya que en todas las variables, los países de la región de África están
con índice muy por debajo de los de la región OECD. Si queremos reconocer qué países en esas regiones
tienen los cinco valores máximos y mínimos los podemos apreciar de la tabla de valores extremos.

De scriptives

Region or economic group: OE CD


Average Average Birth rate Death Number Fertility: People
female male life per 1000 rate per of aids average who read
life
Statistic expectanc
Statistic people
Statistic 1000
Statistic cas es /
Statistic number
Statistic (% )
Statistic
Mean expectanc
80, 10 y 71
73, 12, 952 people
9,63 100000
29, 1052 of k1,746
ids 97, 67
y people
5% Trimmed Mean 80, 11 73, 74 12, 944 9,65 23, 6322 1,751 98, 22
Median 80, 00 74, 00 13, 000 10, 00 15, 8713 1,800 99, 00
Variance 1,390 1,314 2,748 1,633 1131,049 6,150E-02 11, 333
Std. Deviation 1,18 1,15 1,658 1,28 33, 6311 ,248 3,37
Minimum 78 71 10, 0 7 3,10 1,3 85
Maximum 82 76 16, 0 12 157,94 2,1 100
Range 4 5 6,0 5 154,84 ,8 15
Interquartile Range 2,00 1,50 2,000 2,00 24, 2397 ,495 2,00
Sk ewnes s -,201 -,256 ,302 -,169 3,090 -,081 -3,027
Kurtosis -,827 ,519 -,512 -,492 11, 201 -1,192 10, 370

De scriptives

Region or economic group: Africa


Average Average Birth rate Death Number Fertility: People
female male life per 1000 rate per of aids average who read
life
Statistic expectanc
Statistic people
Statistic 1000
Statistic cas es /
Statistic number
Statistic (% )
Statistic
Mean expectanc
54, 26 y 79
50, 42, 000 people
14, 74 100000
75, 7491 of k6,081
ids 47, 26
y people
5% Trimmed Mean 54, 01 50, 49 42, 389 14, 71 66, 0056 6,088 47, 29
Median 55, 00 51, 00 44, 000 14, 00 36, 3077 6,290 50, 00
Variance 63, 649 52, 731 41, 111 25, 538 7641,570 1,285 319,094
Std. Deviation 7,98 7,26 6,412 5,05 87, 4161 1,134 17, 86
Minimum 43 41 28, 0 6 ,13 3,8 18
Maximum 70 66 49, 0 24 326,75 8,2 76
Range 27 25 21, 0 18 326,61 4,4 58
Interquartile Range 12, 00 11, 00 5,000 7,00 112,6254 1,380 34, 00
Sk ewnes s ,425 ,352 -1,256 ,126 1,562 -,586 ,012
Kurtosis -,434 -,458 ,452 -,847 2,587 ,119 -,964

48
Para generar la tabla: Analizar/Estadísticos Descriptivos/Explorar: esperanza de vida femenina y
masculina, tasa de natalidad y mortalidad, promedio de hijos por familia etc. Factor: Región. Etiquetar
por: país. Estadísticos: Valores Atípicos. Al editar la gráfica se borra lo que no se quiere mostrar.
Si queremos comparar Chile en esperanza de vida femenina y masculina, tasa de natalidad, tasa de
mortalidad, fertilidad, tasa sida y alfabetización respecto al resto de países de la base de datos
consideramos las puntuaciones z de cada una de ellas, las que nos muestran que:
• esperanza de vida femenina en Chile está sobre la media en 0,74 desviaciones estándares.
• esperanza de vida masculina en Chile está sobre la media en 0,65 desviaciones estándares.
• tasa de natalidad en Chile está bajo la media en 0,23 desviaciones estándares.
• tasa de mortalidad en Chile está bajo la media en 0,83 desviaciones estándares.
• fertilidad (promedio de hijos por familia) en Chile está bajo la media en 0,55 desviaciones
estándares.
• tasa sida en Chile está bajo la media en 0,37 desviaciones estándares
• alfabetización (% de personas que saben leer) en Chile está sobre la media en 0,64 desviaciones
estándares.
Analizar/ Estadisticos Descriptivos/Descriptivos/ activar Guardar las variables estandarizadas

49
VI. Estudio de Caso: Relaves5

Objetivo: Realizar un análisis descriptivo de los datos ocupando distintas herramientas de la


estadística descriptiva apoyados del programa SPSS.

El Sernageomin, a través del Departamento de Depósitos de Relaves de la Subdirección Nacional de


Minería genera y publica este estudio en el trasfondo del Programa de Caracterización Geoquímica
de Depósitos de Relaves de Chile. La información fuente se obtiene de muestras tomadas durante
dos años, correspondiente a superficie de cubetas, muros y sedimentos, aguas abajo de los
depósitos.
En Chile, la minería metálica generadora de relaves ha sido, principalmente, la minería de cobre y de
oro. En menor escala, se encuentra la minería del hierro y del zinc. En general, otros metales se han
extraído como productos secundarios (molibdeno, por ejemplo), de modo que se encuentran
depósitos de relaves cuyos orígenes son variados, según el metal beneficiado.

Existe un gran número de minas abandonadas que no han tenido un adecuado proceso de cierre,
siendo un riesgo significativo para la vida o salud de las personas y/o para el medio ambiente,
catalogadas a su vez como “Pasivos Ambientales Mineros” (“PAM”). Dentro de las faenas
abandonadas, aquellas que constituyen uno de los mayores riesgos para la población y para el medio
ambiente, y que han sido objeto de gran estudio y de proyectos de cooperación internacional, son
los depósitos de relaves.

Considere el archivo “Muestra Relaves con componentes químicos.sav”, que contiene información
relacionada a componentes presentes en ciertas muestras de depósitos mineros.

Usted debe realizar un informe que compare los distintos depósitos según sus características,
región a la que pertenecen y utilizando los distintos componentes químicos de los cuales se tiene
información.
Para el informe debe considerar al menos los siguientes puntos:
i. Tres gráficos distintos con su interpretación.
ii. Tablas de frecuencia.
iii. Tablas de contingencia.
iv. Outliers (valores extremos).
v. Medidas de tendencia central.
vi. Medidas de dispersión.
vii. Cubos OLAP.
viii. Puntuaciones Z.

5
TP Caso desarrollado por Paula Villar y Sara Arancibia

50
Solución:
Comenzaremos el estudio determinando la frecuencia de alguna de las variables nominales; Estado
del depósito, tipo de minería que origina el depósito y región.
Analizar/Estadísticos descriptivos/Frecuencias/ variable: Estado, Recurso

La tabla de frecuencia muestra el número de depósitos de relaves por estado del depósito. Se
observa que la mayor frecuencia de depósitos de relave poseen un estado de Inactivos (353
depósitos), los cuales corresponden a un 79% del total de la muestra. La menor frecuencia está en
los depósitos Abandonados, en donde hay 31 de un total de 447 depósitos, lo que representa un 6,9%
de la muestra.

Respecto al tipo de minería que origina el depósito, se observa que las mayores frecuencias
corresponden recursos de Cobre y Oro, los cuales corresponden a un 34,9% y un 28,6%
respectivamente, respecto al total de datos válidos.
El gráfico siguiente muestra la frecuencia y el porcentaje de depósitos por región. Para esto, se
debe ir a:

51
Gráficos/Cuadros de diálogo antiguos /Circular/Resúmenes para grupo de casos/N° de
casos/Definir porciones por: variable: Región.

Se observa que 243 depósitos están presentes en la región de Coquimbo, los cuales representan un
54,36% de la muestra. Seguida de esta región, está Atacama con 98 depósitos, los cuales
corresponden a un 21,92% de los datos considerados.

Al editar el gráfico se puede utilizar las herramientas de propiedades y mostrar el gráfico de varias
formas. Por ejemplo, en categorías se puede activar: Fundir (sumar) las categorías menores que el
5% y en etiquetas de valor se puede solicitar que muestre el número y el porcentaje

52
53
A modo de complementar la información anterior, se realiza la siguiente tabla de frecuencia, en la
cual se observa que las regiones con menores frecuencias de depósitos son la región del Maule y
Tarapacá, con solo 1 y 2 depósitos respectivamente.
Analizar/Estadísticos descriptivos/Frecuencias/ variable: Región

El paso siguiente será cruzar el Estado del depósito y Región de éste, de forma que se obtengan las
frecuencias de las categorías combinadas. Para esto hay que ir al menú:

Analizar/Estadísticos descriptivos/Tablas cruzadas (Crosstabs) /Columnas: Estado, Filas:


Región/Casillas: recuento observado
Variable de fila: Región, Variable de columna : Estado

54
Si que quiere mostrar los porcentajes :
Analizar/Estadísticos descriptivos/Tablas cruzadas (Crosstabs) /Columnas: Estado, Filas:
Región/Casillas: seleccionar porcentaje de filas, columnas y total.
Variable de fila: Región, Variable de columna : Estado

55
En base a esta información, es posible plantear las siguientes preguntas:
i. De los depósitos abandonados, ¿Qué cantidad y porcentaje pertenecen a la región de
Coquimbo?

De los 31 depósitos abandonados, 18 pertenecen a la región de Coquimbo, lo que se traduce


en un 58,1% de los depósitos en este estado.
ii. De los depósitos de la región de Valparaíso, ¿Qué cantidad y porcentaje están activos?

De los 54 depósitos presentes en la región de Valparaíso, 6 de éstos están activos,


correspondiendo a un 11,1% de los depósitos de esta región.
iii. Del total de depósitos, ¿Qué cantidad y porcentaje pertenecen a la región de Atacama y
están inactivos?

De los 447 depósitos presentes en la muestra, 71 de éstos están en Atacama y son inactivos,
lo que corresponde a un 15,9% del total de datos válidos.

En el caso de que se quiera hacer la tabla anterior con más de dos variables de grupo, es necesario
incorporarle capas. Para esto, se sigue el mismo camino anterior, solo se le añade capas:

Analizar/Estadísticos descriptivos/Tablas cruzadas/Columnas: Estado, Filas: Región,


Capa: Recurso/Casillas: seleccionar porcentaje de filas, columnas y total.

56
Ahora, considerando la concentración de cobre, se realizan gráficos de barra para evaluar la mediana
y la media de esta variable, para cada región. Para esto, se va a lo siguiente:

Gráficos/Cuadro de diálogo/Barras/Simple/Resúmenes para grupo de casos/Estadístico:


mediana de variable: Cugt, en eje de categorías: Región.

57
Se puede observar que al menos un 50% de los depósitos de la región de Atacama poseen una
concentración de Cobre (g/t) mayor o igual a 5577 (g/t), seguido cercanamente de la región de
Valparaíso, en donde el valor en esta región es de 5158 (g/t).
Para complementar lo anterior, se realiza el mismo gráfico, pero está vez pidiendo la media.

58
Observando este gráfico, se tiene que la región de Antofagasta posee la mayor media, indicando que
los depósitos de esta región en promedio poseen una concentración de Cobre de 8875 (g/t).
Considerando que esta región posee una media mucho mayor que la mediana, es indicio de que hay
depósitos que poseen valores muy altos de concentración de Cobre, lo que sesga el promedio
alrededor de estos valores. Por otro lado, la región del Maule no posee diferencias entre la media y
la mediana debido a que, tal como se observó en las tablas, en esta región solo existe un registro.
Se puede complementar la información anterior del Cobre y la de otros elementos, como el Mercurio
y Plomo mediante un cubo OLAP, el cual muestra información asociada a estadísticos a elección,
según los grupos que se definan. Para generar esta herramienta, se debe ir a:

Analizar/Informes/Cubos OLAP/Variable de resumen: Cugt (concentración de Cobre), Hggt


(Mercurio) y Pbgt (Plomo) ; Variable de agrupación: Estado.

Esta tabla muestra la información de depósitos con un estado Activo, teniendo 63 observaciones
para Cobre y Plomo; y 62 datos para Mercurio. Se observa la media y la mediana de cada
concentración, además de la desviación estándar que muestra cuánto se desvían en promedio los
datos respecto a la media.
En cuanto al resto de información, para las concentraciones de Cobre se observa que el depósito
activo con menos concentración de este elemento corresponde a 146 (g/t), mientras que para el
Mercurio los depósitos activos no superan la concentración de 44,6 (g/t). Por último, en el caso de
la concentración de Plomo, los depósitos tienen entre 0 y 19539 (g/t).
A continuación, se presenta la tabla para los depósitos Inactivos.

59
Al considerar solo este tipo de depósitos, se observa que la media es mayor en todas las
concentraciones respecto a los depósitos activos y la mediana es menor a la media indicando que al
al menos el 50% de los depósitos inactivos tiene una concentración de cobre menor o igual a 4637
gramos por tonelada de concentración de cobre. Una medida de dispersión para comparar la
variabilidad entre grupos es la dispersión relativa denominado coefiente de variación CV. El
coeficiente de variabilidad se calcula como CV=(Des estándar/ media )*100
Considerando particularmente la concentración de Cobre, se tiene una variabilidad de 131,2% para
los depósitos Activos, siendo mayor a la variabilidad de 105,3% presente en los depósitos Inactivos.

Por otra parte, en el caso de la concentración de Plomo se observa que el valor máximo es
considerablemente mayor en los depósitos Inactivos, alcanzando los 134247 (g/t). Además, los
valores de esta concentración en este grupo comienzan desde 19 (g/t), a diferencia de los depósitos
Activos que posee depósitos sin concentración de este elemento.

Para poder saber a qué depósitos corresponden estos valores mínimos y máximos en la concentración
de Plomo, se puede solicitar una tabla de valores extremos (outliers), la cual muestra los cinco
mayores y cinco menores valores de cierta variable para los grupos que se definan. Esta herramienta
se encuentra en:

Analizar/Estadísticos descriptivos/Explorar/Lista de dependientes: Pbgt (concentración de


plomo), Lista de factores: Estado, Etiquetar por: Depósito/Estadísticos: Seleccionar Valores
atípicos.

A continuación, se genera un gráfico que contenga para cada región, la media de la concentración de
Plomo y de Arsénico. Para esto, se debe ir a:
Gráficos/Cuadro de diálogo/Barras/Agrupadas/Resúmenes para grupo de casos/Estadístico:
media de Pbgt (concentración de plomo) y de Asgt (arsénico) , en eje de categorías: Región.

60
El siguiente gráfico muestra la media por cada región de la concentración de Plomo y de Arsénico.
Se puede observar que los depósitos de la región de Aysén en promedio poseen una mayor
concentración de ambos elementos respecto al resto de regiones, en donde en promedio poseen una
concentración de Plomo de 10619 (g/t) y una concentración de Arsénico de 10773 (g/t).
A continuación, se genera una tabla de valores extremos que ayuda a identificar los depósitos que
poseen las mayores y menores concentraciones de estos dos elementos utilizados en el gráfico. Para
esto, se debe ir a:
Analizar/Estadísticos descriptivos/Explorar/Lista de dependientes: Pbgt (concentración de
plomo) y Asgt (arsénico), Etiquetar por: Depósito/Estadísticos: Seleccionar Valores atípicos.

61
El diagrama de caja (Boxplot) muestra el comportamiento general que posee cierta variable, debido
a que entrega amplia información de la variable que se indique. Esta herramienta se encuentra en:
Gráficos/Cuadros de diálogo/Diagramas de cajas/Simples/Resúmenes para grupos de
casos/Variable: Fe2O3 concentración de hierro, Eje de categorías: Región, Etiquetar los casos
mediante: Depósito.

62
A modo de complementar la información vista hasta ahora en el apartado, se incluye una tabla que
muestra las medidas de tendencia central y de dispersión para todas las variables escalas que se
han utilizado.

Si se quiere evaluar cómo cambian los estadísticos dependiendo de la región en donde esté ubicado
el depósito, se puede ir a:
Analizar/Estadísticos descriptivos/Explorar/Lista de dependientes: variables escala, Lista de
factores: Región/Estadísticos: Descriptivos (por defecto está seleccionada esta opción).
A modo de ejemplo se muestran los estadísticos de los depósitos de Antofagasta y de Coquimbo.
Los mensajes al pie de las tablas indican que se omitió la región del Maule, debido a que hay solo una
observación y no tiene sentido calcular estadísticos para una sola variable.

63
64
Si se quiere comparar cierto depósito en alguna de las variables escala, respecto al resto de los
depósitos, se debe utilizar las puntuaciones Z. Para generarlas, se debe ir a:
Analizar/Estadísticos descriptivos/Descriptivos/Variables: Se añaden la(s) variable(s) escala
que se quiera(n)/Activar “Guardar valores estandarizados como variables” en la parte inferior
del menú. Variables: Cugt, Hggt, Pbgt, Asgt,Fe2O3

65
Al ejecutar esta herramienta, se añaden nuevas variables a la base de datos las cuales corresponden
a la puntuación Z.
Para el caso del depósito Rakito (destacado en la imagen) se tiene que su concentración de Cobre
está por debajo de la media en 0,88337 desviaciones estándares. Por otro lado, su concentración
de Mercurio está por sobre la media en 3,74219 desviaciones estándares. Al estar por sobre las 3
desviaciones estándares, indica que es un valor outlier.
Si se quiere utilizar la variable “Origen” (la cual define el origen de la muestra) o cualquier variable
nominal u ordinal que esté en formato texto y sin información de los valores, para poder identificar
cada grupo contenido en la variable, se debe realizar una recodificación automática en el siguiente
menú:
Transformar/Recodificación automática/Se añade Origen de la muestra/Nuevo nombre:
Origen_rec/Añadir nombre nuevo.
En la ventana de output es posible ver los valores que se le asignó a cada grupo encontrado:

66
Para poder categorizar los depósitos en según el tonelaje máximo de relave como se muestra en la
tabla a continuación, es posible crear rangos.

Tonelaje máximo Tamaño


Menor a 30000 toneladas Pequeño
Entre 3000 y 400000
Mediano
toneladas
Mayor a 400000 toneladas Grande

Para esto, se debe ir a:


Transformar/Calcular variable
Los valores por ingresar deben ser según cada rango.
Para el tamaño pequeño:
Variable objetivo: Tamaño, Expresión numérica: 1/Hacer clic en “Si” en la parte inferior del
menú/Incluir si el caso satisface la condición/añadir “masat < 30000”.
Para el tamaño mediano:
Variable objetivo: Tamaño, Expresión numérica: 2/Hacer clic en “Si” en la parte inferior del
menú/Incluir si el caso satisface la condición/añadir “masat >= 30000 & masat <= 400000”.
Para el tamaño grande:
Variable objetivo: Tamaño, Expresión numérica: 3/Hacer clic en “Si” en la parte inferior del
menú/Incluir si el caso satisface la condición/añadir “masat > 400000”.
O bien, se puede realizar la primera condición mediante el menú indicado y para los otros dos grupos
se puede trabajar directamente desde la pestaña de sintaxis, modificando los valores contenidos
en la condición y el valor que se le asigna a cada categoría.

67
VII. Caso de Estudio: Encuesta ELPS6

Suponga que usted es asesor del BID y debe realizar un análisis estadístico de la información sobre situación
laboral y seguridad social de El Salvador, con la finalidad de apoyar en la elaboración de nuevas propuestas de
reforma de seguridad social. Para esto usted cuenta con la base de datos armonizada correspondiente a la
Encuesta Longitudinal de Protección Social (ELPS) disponible en el Observatorio de Seguridad Social de
América Latina y el Caribe.
Según señala la información oficial, La Encuesta Longitudinal de Protección Social en el Salvador se desarrolló
entre los meses de marzo y diciembre de 2013, en el marco de un proyecto regional en el que participan otros
8 países de América Latina. La consolidación de la Encuesta Longitudinal de Protección Social (ELPS) busca
fortalecer la capacidad de formulación y ejecución de políticas públicas en el ámbito de seguridad social en
los países participantes y crear un observatorio regional de protección social que permita el uso e intercambio
de información entre los países.
El levantamiento en El Salvador estuvo a cargo de la dirección General de Estadísticas y Censos, Ministerio
de Economía, en coordinación con la Secretaria Técnica de la Presidencia de El Salvador.
El análisis que se han solicitado tiene por objetivo realizar un apoyo técnico para analizar los resultados de la
ELPS –SVD. Específicamente, debe realizar un análisis descriptivo de ellos con la finalidad de responder las
siguientes preguntas de investigación.
• ¿Cuál es la densidad de cotización en El Salvador?
• ¿Cómo se comporta la densidad de cotización según situación ocupacional, sexo, rangos de edad?
• ¿Cuál es la cobertura del sistema de Pensiones?

Considere las siguientes definiciones de los Indicadores de cobertura y densidad de cotizaciones:

• Cobertura del Sistema de Pensiones: (1) Porcentaje de cotizantes en relación a la fuerza de trabajo,
(2) Porcentaje de cotizantes en relación a afiliados sistema.

• Densidad de cotizaciones de toda la historia laboral: corresponde a la proporción de los meses de


aportación sobre los meses de trabajo asalariado desde el inicio de su vida laboral.

OBS: Caso elaborado por Sara Arancibia y Francisca Gallegos

Considere el archivo de datos ELPS_SLV_2013.sav


1. Determine ¿qué porcentaje de hombres y de mujeres fueron encuestados? ¿Cuántos y qué porcentaje de
encuestados tienen condición de Ocupados en dic 2012? (Ayuda Considere las variables; sexo_ci y
condocup_dic2012)

6
TP Caso elaborado por Sara Arancibia

68
EJECUTAR SINTAXIS
DATASET ACTIVATE Conjunto_de_datos1.
FREQUENCIES VARIABLES=sexo_ci condocup_dic2012
/ORDER=ANALYSIS.

69
2. a) ¿Qué porcentaje de las mujeres, están desocupadas o cesantes en dic 2012? ¿Qué porcentaje de los
ocupados son hombres? ¿Qué porcentaje del total de encuestados son hombres y desocupados o cesantes?

70
SINTAXIS
CROSSTABS
/TABLES=condocup_dic2012 BY sexo_ci
/FORMAT=AVALUE TABLES
/CELLS=COUNT ROW COLUMN TOTAL
/COUNT ROUND CELL.

El 2,7% de las mujeres, están desocupadas o cesantes en dic 2012


(243/8911)*100=2,7%
¿Qué porcentaje de los ocupados son hombres?
El 57,4% de los ocupados son hombres

¿Qué porcentaje del total de encuestados son hombres y desocupados o cesantes?


El 1% del total de encuestados son hombres y desocupados o cesantes

2.b) ¿Qué porcentaje de los ocupados tienen como categoría ocupacional principal “Empleado o asalariado”?
(Ayuda usar las variables condocup_dic2012 y categopri_ci)

71
2.b) ¿Qué porcentaje de los ocupados tienen como categoría ocupacional principal “Empleado o asalariado”?
(Ayuda usar las variables condocup_dic2012 y categopri_ci)

72
El 59,8% de los ocupados tienen como categoría ocupacional principal “Empleado o asalariado”

CROSSTABS
/TABLES=condocup_dic2012 BY categopri_ci
/FORMAT=AVALUE TABLES
/CELLS=COUNT ROW COLUMN TOTAL
/COUNT ROUND CELL.

2.c) ¿Qué porcentaje de los ocupados de dic 2011, están desocupados en dic 2012? ( Ayuda usar las variables
condocup_dic2012 y condocup_1a_dic2011)

CROSSTABS
/TABLES=condocup_1a_dic2011 BY condocup_dic2012
/FORMAT=AVALUE TABLES
/CELLS=COUNT ROW COLUMN TOTAL
/COUNT ROUND CELL.

3. a) Determine los estadísticos descriptivos; de tendencia central, dispersión, forma de la distribución y


valores cuartiles de la variable anios_trab_ci correspondiente a Años trabajados durante su vida.
En primer lugar en vista de variables declarar como perdido al valor -4.
Ver en valores : -4: No sabe/No responde

73
Luego ir al menú Frecuencias

Luego pegar y ejecutar la sintaxis


FREQUENCIES VARIABLES=anios_trab_ci
/NTILES=4
/STATISTICS=STDDEV MINIMUM MAXIMUM MEAN MEDIAN SKEWNESS SESKEW KURTOSIS
SEKURT
/ORDER=ANALYSIS.

74
Estadísticos
Años trabajados durante su vida
Válidos 12560
N
Perdidos 2491 Considerando 12560 encuestas válidas, se obtiene en
Media 20,2798 promedio para los encuestados, aprox 20 años
Mediana 17,0000 trabajados durante su vida, con un mínimo de 0 años y
Desv. típ. 16,24104 un máximo de 83 años. Al menos la mitad de los
Asimetría ,837 encuestados presenta 17 o más años trabajados durante
su vida. Y al menos un 25% de los encuestados presenta
Error típ. de asimetría ,022
30 o más años.
Curtosis -,011
Respecto a la dispersión de los datos los datos se
Error típ. de curtosis ,044 desvían en promedio respecto a la media en aprox 16
Mínimo ,00 años, con un coef de variabilidad del 80%, es decir se
Máximo 83,00 presenta una alta variabilidad entre los encuestados en
25 7,0000 la variable años trabajados durante su vida.

Percentiles 50 17,0000
75 30,0000

3b) Realice un histograma para la variable años trabajados durante la vida


Para realizar el gráfico. Ira al menú Gráficos/ Cuadros de diálogos antiguos/ Histograma

DATASET ACTIVATE Conjunto_de_datos1.


GRAPH
/HISTOGRAM=anios_trab_ci.

75
Se observa una mayor concentración de los datos al lado izquierdo de la distribución de los datos, bajo la
media ( 20 años aprx) y bajo la mediana ( 17 años).

4.a) Determine los estadísticos descriptivos de tendencia central, dispersión de la variable correspondiente
a Años de educación aprobados ( ayuda: aedu_ci), por categoría ocupacional principal.
Ir al menú Analizar/ Informes/ Cubos Olap

Declarar como perdido el valor -4 en la vista de variables

76
Luego Pegar
Sintaxis:
OLAP CUBES aedu_ci BY condocup_dic2012
/CELLS=COUNT MEAN MEDIAN STDDEV MIN MAX SKEW KURT NPCT
/TITLE='Cubos OLAP'.

77
4.b) Realice un diagrama de caja de la variable Años de educación aprobados ( ayuda: aedu_ci), por categoría
ocupacional principal.

EXAMINE VARIABLES=aedu_ci BY condocup_dic2012


/PLOT=BOXPLOT
/STATISTICS=NONE
/NOTOTAL
/ID=idh_ch.

78
5. Calcule el indicador de cobertura del sistema de pensiones:
Usar las variables afiliado_ci, cotiza_ci , condocup_dic2012
5.a Calcule sin factor de expansión
5.b Calcule con factor de expansión
Considere las definiciones.
• Cobertura del Sistema de Pensiones: (1) Porcentaje de cotizantes en relación a la fuerza de trabajo, (2)
Porcentaje de cotizantes en relación a afiliados sistema.

Solución:

Se requiere la cantidad total de afiliados, total de cotizantes y la fuerza de trabajo a dic del 2012

De la tabla de frecuencia se obtiene que la fuerza de trabajo considerando a los encuestados es


Fuerza de trabajo= Ocupado+ desocupado o cesante+ buscando trabajo por primera vez= 8317+398+164=8879
Además, el total de cotizantes es 2036 y el total de afiliados al sistema es 5439
• Luego el indicador de Cobertura del Sistema de Pensiones:
• (1) Porcentaje de cotizantes en relación a la fuerza de trabajo=2036/8879= 0,229
• (2) Porcentaje de cotizantes en relación a afiliados sistema=2036/5439=0,374.

79
FREQUENCIES VARIABLES=cotiza_ci condocup_dic2012 afiliado_ci
/ORDER=ANALYSIS.

5.b Usando factor de expansión


Con uso de factor de expansión
Nota: El factor de expansión se interpreta como la cantidad de personas en la población, que representa una
persona en la muestra. La estimación de un total dado para una variable se obtiene, primero, ponderando el
valor de la variable en cada persona por su factor de expansión y luego, sumando todas las personas de la
muestra.
Un factor de expansión le concede a la muestra el peso proporcional a la población investigada, mediante un
cálculo que considera las unidades primarias de muestreo y las probabilidades de selección de la muestra.

80
Con Spss ir a Datos/ Ponderar casos

Sintaxis
WEIGHT BY factor_ci.

Se requiere la cantidad total de afiliados, total de cotizantes y la fuerza de trabajo a dic del 2012

De la tabla de frecuencia ponderada se obtiene que la fuerza de trabajo considerando a los encuestados es
Fuerza de trabajo= Ocupado+ desocupado o cesante+ buscando trabajo por primera vez=
2258659+110795+48193=2417647

Además el total de cotizantes es 606957 y el total de afiliados al sistema es 1596099


• Luego el indicador de Cobertura del Sistema de Pensiones:
• (1) Porcentaje de cotizantes en relación a la fuerza de trabajo=606957/2417647= 0,25

(2) Porcentaje de cotizantes en relación a afiliados sistema=606957/1596099= 0,38

81
6. Calcule el indicador de Densidad de cotizaciones (sin factor de expansión)

Densidad de cotizaciones de toda la historia laboral: corresponde a la proporción de los periodos de


aportación sobre los periodos de trabajo asalariado desde el inicio de su vida laboral.
Es decir, la densidad se calcula como el número de años que ha cotizado a la seguridad social (anioscot_ci)
dividido para el número de años que ha trabajado (aniostrab_ci). Los años se reportan en fracción para
rescatar lo reportado en meses.

6.b Calcule los estadísticos descriptivos de tendencia central, dispersión y forma de la distribución para las
variables Densidad que usted ha calculado y la variable densidadcota que viene en el archivo de datos

Nota; La densidad de El Salvador 2013 es baja porque el 60 % de los entrevistados que han trabajado alguna
vez reportan no haber cotizado en su vida laboral hasta dic 2012.

Primero se selecciona años trabajados >0


Declarar como perdidos el valor -4 de la variable años cotizados
Datos/ Seleccionar casos

82
USE ALL.
COMPUTE filter_$=(anios_trab_ci>0).
VARIABLE LABELS filter_$ 'anios_trab_ci>0 (FILTER)'.
VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.
FORMATS filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE. Ir al menú transformar/ Calcular

Se obtiene en la vista del editor de datos la nueva columna “Densidad”


COMPUTE Densidad=anioscot_ci / anios_trab_ci.
EXECUTE.
Ahora calculemos los estadísticos descriptivos de tendencia central, dispersión y forma de la distribución
para las variables Densidad que usted ha calculado y la variable densidadcota que viene en el archivo de datos

83
FREQUENCIES VARIABLES=densidadcota_ci Densidad
/NTILES=4
/STATISTICS=STDDEV MINIMUM MAXIMUM MEAN MEDIAN SKEWNESS SESKEW KURTOSIS
SEKURT
/ORDER=ANALYSIS.

84
Ejercicios

Considere el archivo de datos ELPS_SLV_2013.sav

Ejercicio 1.
1.a Determine la rama de actividad de mayor frecuencia
1.b Qué porcentaje de mujeres trabaja en la rama de actividad industria manufacturera (rama_ci)

Ejercicio 2
2.a Determine ¿qué porcentaje de los trabajadores que trabajan permanente, han firmado contrato? (Ayuda:
usar las variables tipotrabajo_ci , firmocontrato_ci).
2.b Realice un gráfico de barras que muestre la media y mediana de edad por tipo de trabajo.

Ejercicio 3
3.a Determine los estadísticos descriptivos de tendencia central, dispersión de la variable correspondiente
edad (ayuda: aedu_ci), por las categorías de la variable Cotiza a la seguridad social dic 2012. Interprete.
3.b Determine el coeficiente de variabilidad de la edad para cada grupo.
3.c Realice un histograma de edad y un box plot , por categorías de la variable cotiza.

Ejercicio 4
4.a Determine qué porcentaje de mujeres saben a qué edad pensionarse (edadpensi_ci)
4.b Determine qué porcentaje de hombres “Conoce qué porcentaje del ingreso imponible le descuentan para
sistema de pensio” (conoce_descpen_ci)
4.c Determine por tramos de edad qué porcentaje de hombres Conoce cómo se calculan las pensiones
(conoce_calculopen_ci).

85
VIII. Caso de Estudio: Caso Selección Profesionales7

Objetivos del caso

• Plantear y aplicar funciones lineales en la conversión de escalas de medida.


• Aplicar lógica para crear nuevas variables.
• Calcular porcentajes
• Generar un índice agregado que permita obtener un ranking en la selección.
• Realizar la aplicación en SPSS

Suponga que usted está a cargo del área de Recursos Humanos de una empresa y debe seleccionar
profesionales para realizar un proyecto de gran relevancia en el ámbito social. Usted en conjunto con los
sicólogos del área de recursos humanos y el jefe del proyecto han decidido realizar cuatro etapas en la
selección de los profesionales.
Etapa 1: La evaluación curricular; Se orienta a identificar las trayectorias académicas y laborales que puedan
ser pertinentes al modelo de trabajo del proyecto.
Etapa 2: La evaluación psicolaboral; Se plantea como la segunda etapa de selección dentro del mecanismo
global de evaluación de los postulantes a ser Profesional.
Etapa 3: Evaluación técnico grupal; Se articula como un ejercicio grupal destinado a 10 (diez) postulantes,
en una dinámica dirigida por una dupla conformada por un sicólogo y un directivo del proyecto.
Etapa 4: Evaluación del test de personalidad; Es en este test donde se miden las habilidades y actitudes
del profesional necesarias para desempeñarse correctamente en un proyecto. Este test permite discriminar
a las personas que poseen algún desequilibrio de personalidad en los ámbitos de estabilidad emocional, la
apertura mental, la responsabilidad y el éxito en la vida profesional.
Si un postulante no pasa satisfactoriamente una etapa en el proceso de selección, entonces no realiza las
etapas siguientes y por tanto no tiene puntaje asignado en las otras etapas.
Para obtener un puntaje final de cada postulante en una escala común del 1 al 7 se deberá realizar
transformaciones de las etapas 1 y 4, las que están en una escala de medida diferente.
Se decidió obtener un índice final por postulante, como un promedio ponderado de las notas de cada etapa.
Para obtener los ponderadores, el equipo a cargo de la selección realizó un ejercicio de comparaciones a pares
mediante la metodología multicriterio AHP de Saaty (Analytic Hierarchy Process) de donde se obtuvieron las
siguientes prioridades.
Etapa 1: Evaluación curricular; 0,14
Etapa 2: Evaluación psicolaboral; 0,20
Etapa 3: Evaluación técnico grupal; 0,38
Etapa 4: Evaluación del test de personalidad; 0,28
Para cada postulante se cuenta con una nota por etapa. Para obtener el índice final de selección usted deberá
previamente realizar los siguientes problemas:

1. Aplicar una función de transformación de la escala de medida de la etapa 1.

7
TP Caso elaborado por Sara Arancibia

86
La evaluación curricular establece un puntaje que va de 1 hasta 11,5. Estableciéndose puntajes de corte
diferenciado por áreas profesionales, tal como se indica en el siguiente cuadro:
Categoría social Categoría Otras áreas
Puntaje original Puntaje Puntaje original Puntaje
(escala de 1 a 11,5) transformado (escala de 1 a 11,5) transformado
X Ptje (escala del 1 al 7) X Ptje (escala del 1 al 7)
Y Nota Y Nota
1 1 1 1
5,5 4 4 4
11,5 7 11,5 7

Categoría Área profesional


Arte y Cultura
Comunicación
Social Derecho
Educación
Social
Administración y Comercio
Arquitectura y Construcción
Ingeniería
Otras Áreas
Medio Ambiente
Piscisilvoagropecuario
Salud
1.a) Escriba las funciones lineales para cada categoría
1.b) Grafique las funciones lineales correspondientes a cada categoría
1.c) Calcule la nota etapa 1 transformada usando SPSS.

2.a) El test de personalidad está compuesto por cuatro dimensiones:

Estabilidad Emocional (EE):


El factor EE es una medida de la estructura del yo, es decir del modo en que se ve la persona a sí misma y
valora sus recursos para hacer frente a las situaciones lo que conforma un conjunto de rasgos concretos y
descriptivos de una estructura superior. Se incluyen también dentro de este factor el autoconcepto y la
tolerancia al estrés, variables que pueden modular o intervenir en las respuestas emocionales del sujeto.
Esta dimensión se conforma por las subdimensiones; Desajuste, Ansiedad, Depresión, Tolerancia al Estrés,
Autoconcepto.

Apertura Mental (AM):


En términos generales el factor AM reúne los rasgos que caracterizan la actitud en la relación del yo con los
demás y su entorno. De esta forma el polo alto de la dimensión estaría definido por la tolerancia y la apertura
a los modos diferentes mientras que en el bajo se situarían las personas irrespetuosas y poco flexibles con
las opiniones de los demás.

87
Esta dimensión se conforma por las subdimensiones; Tolerancia y Flexibilidad, Adaptación a los cambios,
Interés por otras culturas y Disponibilidad.

Responsabilidad (RP):
En términos generales el factor RP reúne una serie de características que pueden estar relacionadas con el
desempeño profesional. Así el polo alto de esta dimensión indicaría una buena disposición hacia el trabajo
desde los planos social, cognitivo y conductual, mientras que el polo bajo representa las dificultades de
adaptación laboral y la poca implicación en la tarea.
Esta dimensión se conforma por las subdimensiones; Inteligencia social, integración social y trabajo en equipo.

Éxito Profesional (EP):


La puntuación en esta variable viene a indicar la probabilidad que tiene la estructura del perfil del profesional
para rendir y tener buenos resultados en la vida laboral.
Esta dimensión se conforma por las subdimensiones; Autoexigencia profesional, Dinamismo y actividad, Tesón
y constancia y Sinceridad.

Si un profesional está en todas sus dimensiones con puntaje superior o igual a 30 se asume que por lo menos
cumple con estados mínimos aceptables para el cargo y se descartan los profesionales que pueden caer en el
polo bajo (menos de 30 puntos).
Generar una columna de filtro de “calificaciónE4” en SPSS que identifique los postulantes que califican y los
que no califican en la etapa 4 como se indica en el siguiente cuadro;

Tabla Profesionales
Puntaje de corte 30
Filtro ( califica) El puntaje de cada dimensión
debe ser mayor o igual a 30.
Rechazado (quedan fuera del Se rechaza si en alguna de las
proceso) no califica dimensiones tiene puntaje
menor a 30.

2.b) Para la asignación de las prioridades de cada dimensión de esta etapa se aplicó una metodología
multicriterio AHP obteniendo los siguientes ponderadores

Estabilidad Emocional: 0,21


Apertura Mental: 0,17
Responsabilidad: 0,29
Éxito Profesional; 0,33
Calcule el puntaje que obtiene cada postulante en la etapa 4 usando SPSS.

2.c) Transforme los puntajes de 1 a 99 a notas de 1 a 7 correspondiente a Ptjepersonalidad utilizando


funciones lineales, sabiendo que:

88
Puntaje original Puntaje transformado
(escala de 1 a 99) (escala del 1 al 7)
X Ptje Y Nota4
1 1
30 4
99 7

3. Calcule la nota final para los postulantes que lograron llegar a la etapa 4, (considerando sólo los que califican
en la etapa 4), utilizando los ponderadores de cada etapa de selección, con la cual se puede hacer un ranking
de selección.

SOLUCIÓN 1.a y 1.b

Conversión del puntaje

Para convertir los puntajes de 1 a 11,5 a notas de 1 a 7 se plantea lo siguiente:

Sean
Y= Nota1 (Nota de la etapa 1 en escala del 1 al 7)
X= Puntaje original (Puntaje etapa1 Curriculum, en escala del 1 a 11,5)

Para la categoría Social

Se obtiene la recta que pasa por los puntos A(1 , 1) y B(5.5 , 4) y la recta que pasa por los puntos
B(5.5 ,4) y C(11.5 ,7)

Para los puntos (1,1) y ( 5.5 ,4) se tiene Y = 1 + 2/3(X-1)


Y para los puntos (5.5 ,4) y (11.5 , 7) se tiene Y= 4 + 1/2(X-5.5)

Para la categoría Otras Áreas

Se obtiene la recta que pasa por los puntos A(1,1) y B(4,4) y la recta que pasa por los puntos
B(4 ,4) y C(11.5 ,7)

Para los puntos (1,1) y (4 ,4) se tiene Y = X


Para los puntos (4 ,4) y (11.5 , 7) se tiene Y= 4+2/5(X-4)

En base a lo anterior se plantea la siguiente función por partes:

Para la categoría Social

SI Categ=1 entonces:

89
Para la categoría Otras Áreas

SI Categ=2 entonces:

Solución 1.c
En SPSS

Archivo / abrir/ datos

90
Transformar/recodificación automática
(Asigna un código automáticamente)

Nuevo nombre; categ

91
Pegar
ejecutar la sintaxis

92
Ir a Transformar/ calcular

93
94
Volver a Transformar/calcular. Luego Entrar a la opción SI y cambiar la condición

95
Luego ejecutar la sintaxis
IF (categ = 1 & Puntajeetapa1Curriculum < 5.5)
Nota1=1 + 2 / 3 * (Puntajeetapa1Curriculum-1) .
VARIABLE LABELS Nota1 'Nota1 etapa 1'.
EXECUTE.

IF (categ=1 & Puntajeetapa1Curriculum >= 5.5)


Nota1=4+1/2 * (Puntajeetapa1Curriculum-5.5).
EXECUTE.

Pregunta 2
2.a) El test de personalidad está compuesto por cuatro dimensiones. Ver enunciado.
Si un profesional está en todas sus dimensiones con puntaje superior o igual a 30 se asume que por lo menos
cumple con estados mínimos aceptables para el cargo y se descartan los profesionales que pueden caer en el
polo bajo (menos de 30 puntos).
Generar una columna de filtro de “calificaciónE4” en SPSS que identifique los postulantes que califican y los
que no califican en la etapa 4 como se indica en el siguiente cuadro;

Tabla Profesionales
Puntaje de corte 30
Filtro ( califica) El puntaje de cada dimensión
debe ser mayor o igual a 30.
Rechazado (quedan fuera del Se rechaza si en alguna de las
proceso) no califica dimensiones tiene puntaje
menor a 30.

96
SOLUCIÓN 2.a:
Sean
EE=Estabilidad Emocional
AM=Apertura Mental
RP=Responsabilidad del profesional
EP=Éxito en la vida Profesional

SI (EE≥30  AM≥30  RP≥30  EP≥30) ENTONCES calificaciónE4=”Califica”


SI  (EE≥30  AM≥30  RP≥30  EP≥30 ) ENTONCES calificaciónE4=”No Califica”
Simbólicamente
(EE≥30  AM≥30  RP≥30  EP≥30) → Calif=”Califica”
(EE<30  AM<30  RP<30  EP<30) →Calif=”No Califica”
Califica=1 No califica=0

97
98
99
IF (PuntajeE4EEEstabilidadEmocional >= 30 & PuntajeE4AMAperturaMental >= 30 &
PuntajeE4RPResponsabilidadRP >= 30 & PuntajeE4EPÉxitoenlavidaProfesional >= 30) calificaciónE4=1.
EXECUTE.

IF ( ~ (PuntajeE4EEEstabilidadEmocional >= 30 & PuntajeE4AMAperturaMental >= 30 &


PuntajeE4RPResponsabilidadRP >= 30 & PuntajeE4EPÉxitoenlavidaProfesional >= 30)) calificaciónE4=0.
EXECUTE.
VALUE LABELS calificaciónE4
1 Califica
0 No Califica.

EJECUTAR

En EXCEL
Para generar la variable Califica en la celda P3 usar la función Si

P3=SI(O(L3<30;M3<30;N3<30;O3<30);"No Califica";"Califica")

2.b) Para la asignación de las prioridades de cada dimensión de esta etapa se aplicó una metodología
multicriterio AHP obteniendo los siguientes ponderadores

Estabilidad Emocional: 0,21


Apertura Mental: 0,17
Responsabilidad: 0,29
Éxito Profesional; 0,33
Calcule el puntaje que obtiene cada postulante en la etapa 4 usando SPSS.

Ir a Transformar/Calcular

100
COMPUTE Ptje4=0.21 * PuntajeE4EEEstabilidadEmocional + 0.17 * PuntajeE4AMAperturaMental + 0.29 *
PuntajeE4RPResponsabilidadRP + 0.33 * PuntajeE4EPÉxitoenlavidaProfesional.
VARIABLE LABELS Ptje4 'Nota etapa 4'.
EXECUTE.

Luego EJECUTAR

En Excel
Se calcula el promedio ponderado asignando la siguiente expresión en la celda Q3
Q3=0,21*L3+0,17*M3+0,29*N3+0,33*O3

2.c) Transforme los puntajes de 1 a 99 a notas de 1 a 7 correspondiente a Ptjepersonalidad utilizando


funciones lineales, sabiendo que:
Puntaje original Puntaje transformado
(escala de 1 a 99) (escala del 1 al 7)
X Ptje Y Nota4
1 1
30 4
99 7

101
Solución
Para convertir los puntajes de 1 a 99 a notas de 1 a 7 se plantea lo siguiente:
Sean
Y= Nota4 (Nota de la etapa 4 en escala del 1 al 7)
X= Ptje4 (Puntaje ponderado de la etapa 4 en escala del 1 a 99)
Se obtiene la recta que pasa por los puntos A(1,1) y B(30, 4) y la recta que pasa por los puntos
B(30,4) y C(99 ,7)

Para los puntos (1,1) y (30 ,4) se tiene Y = 1 + 3/29(X-1)


Y para los puntos (5.5 ,4) y (11.5 , 7) se tiene Y= 4 + 1/23(X-30)

SI Ptje4 <30 ENTONCES Nota4 = 1+3/29(Ptje4-1)


Si Ptje4 >= 30 ENTONCES Nota4= 4+1/23(Ptje4-30)

Ir a Transformar/Calcular/ SI

102
103
IF (Ptje4 < 30) Nota4=1 + (3/29)*(Ptje4-1).
EXECUTE.

IF (Ptje4 >= 30) Nota4=4 + (1/23)*(Ptje4-30).


EXECUTE.

Luego EJECUTAR

3. Calcule la nota final para los postulantes que lograron llegar a la etapa 4, (considerando sólo los que califican
en la etapa 4), utilizando los ponderadores de cada etapa de selección, con la cual se puede hacer un ranking
de selección.

Solución
Se genera la nota final sólo para los que califican en la etapa 4

Transformar/calcular

104
105
IF (calificaciónE4 = 1) Notafinal=0.14 * Nota1 + 0.20 * PuntajeEtapa2TestSicolaboralNota2 +
0.38 * PuntajeEtapa3TrabajogrupalNota3 + 0.28 * Nota4.
EXECUTE.

106
IX. Caso de Estudio: Evaluación de Proyectos de Riego_Transformación de indicadores
8

Las organizaciones, gubernamentales o privadas, se enfrentan fundamentalmente al problema clásico de


distribuir el presupuesto y seleccionar qué proyectos deben ser aceptados y financiados.

La Organización para la Cooperación y el Desarrollo Económico (OCDE) tiene dentro de sus preocupaciones,
cómo sus países asociados se preocupan del manejo del recurso del agua, así como también del desarrollo de
una agricultura sustentable. En ese contexto el Instituto de Desarrollo Agropecuario cuyo principal objetivo
es promover el desarrollo económico, social y tecnológico de la agricultura familiar campesina, realiza
concursos abiertos entregando apoyo financiero y social para desarrollar proyectos en apoyo a la agricultura.

Uno de los programas a los que se puede concursar es el Programa de Riego y Drenaje el cual entrega
beneficios para cofinanciar proyectos de riego de pequeños agricultores.
Suponga que el Instituto de Desarrollo Agropecuario le ha pedido a usted que lo asesore en la construcción
de indicadores que le permita seleccionar los proyectos que financiará.
Usted después de hacer una exhaustiva revisión del proceso actual y de haber trabajado semanalmente con
un equipo de 7 expertos durante 2 meses, logró identificar varios factores relevantes a considerar para
evaluar los mejores proyectos a seleccionar, entre los cuales se mencionan los siguientes: Focalización de la
demanda, Capacidad de Gestión, Eficiencia de la inversión y Gestión sustentable.
Suponga que la Eficiencia de la inversión se mide a través de dos indicadores: Costo por metro cuadrado y
superficie útil, definidos de la siguiente forma.
Costo por metro cuadrado (C1) mide el valor del costo (u.m: unidades monetarias) por unidad de área o
superficie implementada o recuperada gracias al riego. Este indicador beneficia al que posee menor costo por
superficie. Nota: Recuerde que 1 hectárea = 10000 m2.
Se calcula como:
𝐶𝑜𝑠𝑡𝑜 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑖𝑛𝑣𝑒𝑟𝑠𝑖ó𝑛 [𝑢. 𝑚]
𝐼𝑛𝑑𝑖𝑐𝑎𝑑𝑜𝑟 𝐶1 =
𝑆𝑢𝑝𝑒𝑟𝑓𝑖𝑐𝑖𝑒 𝑟𝑒𝑔𝑎𝑑𝑎[𝑚2 ]
Superficie útil (C2) mide la proporción de superficie regada en relación a la superficie total del predio. Este
indicador beneficia a quien introduce mayor superficie al riego, o que recupera mayor superficie para ser
regada.
𝑆𝑢𝑝𝑒𝑟𝑓𝑖𝑐𝑖𝑒 𝑟𝑒𝑔𝑎𝑑𝑎
𝐼𝑛𝑑𝑖𝑐𝑎𝑑𝑜𝑟 𝐶2 =
𝑆𝑢𝑝𝑒𝑟𝑓𝑖𝑐𝑖𝑒 𝑓í𝑠𝑖𝑐𝑎 𝑡𝑜𝑡𝑎𝑙

Suponga que se requiere obtener un puntaje final para cada proyecto que postula al beneficio, bajo una escala
de medida común, escala de proporciones de 0 a 1.
a) Crear las variables correspondientes a los indicadores C1 y C2. Muestre la sintaxis
b) Transforme los indicadores definidos anteriormente mediante una función de transformación generando
los indicadores TC1 y TC2 considerando lo siguiente:
i) Si el Indicador C1 es menor o igual a 1000 [u.m/m2] entonces TC1 será igual a 1.
Si el Indicador C1 es mayor o igual a 2000 y menor a 6500 [u.m/m2] entonces TC1 toma el valor de la función
lineal que une los puntos P(2000, 0.5) y Q(6500 , 0). Y si C1 es mayor o igual a 6500 [u.m/m2], TC1 tomará el
valor cero. Si el Indicador C1 está entre 1000 y 2000 [u.m/m2] entonces TC1 toma el valor de la función lineal
que une los puntos con abscisas 1000 y 2000.

8
TP Caso elaborado por Sara Arancibia, Paula Villar y Gastón Sepúlveda

107
Se debe considerar la siguiente transformación:

Grafique la función de transformación del indicador C1 que convierte la escala de medida original en una
escala de proporciones de 0 a 1.
ii) Si el Indicador C2 es menor o igual a 0.2 entonces el valor del indicador TC2 toma el valor de la función
lineal que une los puntos C(0,0) y D(0.2 , 0.5).
Si el Indicador C2 es mayor o igual a 0.6 entonces el valor del indicador TC2 será igual a 1.
Si el Indicador C2 está entre 0.2 y 0.6 entonces toma el valor correspondiente a la función lineal que une
los puntos cuyas abscisas son 0.2 y 0.6 respectivamente.
Escriba la función TC2 y genere la variable. Muestre la sintaxis.

Grafique la función de transformación del indicador C2 que convierte la escala de medida original en una
escala de proporciones de 0 a 1.
c) Suponga que se requiere saber cuál de los 18 proyectos que postulan al beneficio tiene mayor eficiencia en
la inversión, sabiendo que el puntaje final del Índice de Eficiencia de la inversión será el promedio ponderado
de los indicadores transformados. Asumiendo que se cuenta con los datos en el archivo Priorización proyectos
de riego.sav.

Índice de Eficiencia de la inversión = 0,5*TC1+0,5*TC2


Calcule el índice de eficiencia de la inversión. Muestre una tabla ordenada con los índices finales priorizados
de mayor a menor e interprete el índice para los cinco mejores proyectos.

d) i) Muestre un gráfico que permita ver el comportamiento general del índice de Eficiencia.
ii) Si se requiere elegir al menos 2 proyectos por zona, identifique qué proyectos seleccionaría. Justifique.
iii) Para las mujeres, calcule los cuartiles y los estadísticos descriptivos de tendencia central y dispersión
de la variable costo.
iv) Compare los indicadores transformados en escala 0 y 1 entre hombres y mujeres mediante una tabla
que muestre los estadísticos descriptivos básicos de la variable. ¿En qué grupo (hombres o mujeres) se
presenta mayor variabilidad en cada indicador?

SOLUCION:
a) Crear las variables correspondientes a los indicadores C1 y C2. Muestre la sintaxis
Pasos a seguir:
Transform / Compute (Transformar / Calcular)
Target Variable (Variable de destino): C1
Type & Label (Tipo y etiqueta)
Label (Etiqueta): Indicador 1: valor del costo por unidad de área regada.
Sintaxis:
COMPUTE C1=Costo/(Superf_regada*10000).
VARIABLE LABELS C1 'Indicador 1: valor del costo por unidad de área regada'.
EXECUTE.

COMPUTE C2=(Superf_regada/Superf_total).
VARIABLE LABELS C2 'Indicador 2: Proporción de superficie regada en relación con la superficie total'.
EXECUTE.

108
b) Transforme los indicadores definidos anteriormente mediante una función de transformación generando
los indicadores TC1 y TC2 considerando lo siguiente:

i) Si el Indicador C1 es menor o igual a 1000 [u.m/m2] entonces TC1 será igual a 1.


Si el Indicador C1 es mayor o igual a 2000 y menor a 6500 [u.m/m2] entonces TC1 toma el valor de la función
lineal que une los puntos P(2000, 0.5) y Q(6500 , 0). Y si C1 es mayor o igual a 6500 [u.m/m2], TC1 tomará el
valor cero. Si el Indicador C1 está entre 1000 y 2000 [u.m/m2] entonces TC1 toma el valor de la función lineal
que une los puntos con abscisas 1000 y 2000.

Se debe considerar la siguiente transformación:


1 𝑠𝑖 𝐶1 ≤ 1000
𝐹𝑢𝑛𝑐𝑖ó𝑛 𝑙𝑖𝑛𝑒𝑎𝑙 𝑠𝑖 1000 < 𝐶1 < 2000
𝑇𝐶1 = {
𝐹𝑢𝑛𝑐𝑖ó𝑛 𝑙𝑖𝑛𝑒𝑎𝑙 2000 ≤ 𝐶1 < 6500
0 𝐶1 ≥ 6500
Para poder calcular la transformación en SPSS, falta saber qué valores otorgar en la función lineal. Es por
esto, que se calcula la ecuación de la recta correspondiente.
Ecuación de la recta que pasa por dos puntos: 𝐴(𝑋1 , 𝑌1 ) , 𝐵(𝑋2 , 𝑌2 ), donde X sería el indicador 1 (𝐶1 ) e Y sería el
puntaje dado por la transformación del indicador C1 (Función lineal).
𝑋−𝑋1 𝑌−𝑌1 𝑦 𝑦
= 𝑙𝑜 𝑞𝑢𝑒 𝑒𝑞𝑢𝑖𝑣𝑎𝑙𝑒 𝑎 𝑦 − 𝑦1 = 𝑚(𝑥 − 𝑥1 ) 𝑑𝑜𝑛𝑑𝑒 𝑚 = 2− 1
𝑋2 −𝑋1 𝑌2 −𝑌1 𝑥2− 𝑥1
En este caso, se tiene los puntos 𝐴(1000,1) , 𝐵(2000 , 0.5). Entonces:
𝑌 = −0.0005(𝑋 − 1000) + 1
𝑌 = −0.0005𝑋 + 1.5
Para los puntos 𝐶(2000,0.5) , 𝐷(6500 , 0). Entonces:
1
𝑌 = −( )(𝑋 − 6500)
9000
1 13
𝑌 = −( )𝑋 + ( )
9000 18
Por lo tanto, la función de la transformación para el indicador 𝐶1 está dada por:
1 𝑠𝑖 𝐶1 ≤ 1000
−0.0005 ∗ 𝐶1 + 1.5 𝑠𝑖 1000 < 𝐶1 < 2000
𝑇𝐶1 = 1 13
−( ) ∗ 𝐶1 + ( ) 2000 ≤ 𝐶1 < 6500
9000 18
{ 0 𝐶1 ≥ 6500
Pasos a seguir:
Transform / Compute (Transformar / Calcular)
Target Variable (Variable de destino): TC1
Type & Label (Tipo y etiqueta)
Label (Etiqueta): Indicador C1 transformado.
Numeric Expression (Expresión numérica): 1
If… (Si, la opción)
Include if case satisfies condition (incluir si el caso satisface la condición): C1<=1000
Luego se trabaja en la sintaxis el resto de las condiciones.

Sintaxis:
IF (C1 <= 1000) TC1=1.
IF (1000<C1 & C1<2000) TC1= −0,0005 ∗ 𝐶1 + 1.5.
1 13
IF (2000≤C1 & C1<6500) TC1= − ( ) ∗ 𝐶1 + (18).
9000
IF (C1>=6500) TC1=0.

109
VARIABLE LABELS TC1 'Indicador C1 transformado'.
EXECUTE.

Grafique la función de transformación del indicador C1 que convierte la escala de medida original en una escala
de proporciones de 0 a 1.
Para poder graficar la transformación del indicador C1, se necesita utilizar datos de prueba que permitan
graficarlo mediante un Scatter/Dot (gráfico de dispersión simple).
Se crean variables en un nuevo archivo TC1 y C1 en donde se añaden los siguientes datos de prueba:
C1 TC1
,00 1,00
1000,00 1,00
2000,00 ,50
6500,00 ,00
7000,00 ,00
Luego, se realiza un gráfico Scatter/Dot (Gráfico de dispersión simple), en donde en el eje Y están los datos
TC1 y en el eje X los datos de C1. Añadir una línea de interpolación.
Pasos a seguir:
Graphs / Legacy Dialogs / “Scatter/Dot” (Gráficos / cuadro de diálogos / “Dispersión/puntos”)
Eje Y: TC1
Eje X: C1
Sintaxis

GRAPH
/SCATTERPLOT(BIVAR)=C1prueba WITH TC1prueba
/MISSING=LISTWISE.

Función de transformación de C1

ii) Si el Indicador C2 es menor o igual a 0.2 entonces el valor del indicador TC2 toma el valor de la función
lineal que une los puntos P(0,0) y Q(0.2 , 0.5).
Si el Indicador C2 es mayor o igual a 0.6 entonces el valor del indicador TC2 será igual a 1.

110
Si el Indicador C2 está entre 0.2 y 0.6 entonces toma el valor correspondiente a la función lineal que une
los puntos cuyas abscisas son 0.2 y 0.6 respectivamente.
Escriba la función TC2 y genere la variable. Muestre la sintaxis.

Para poder calcular la transformación en SPSS, falta saber qué valores otorgar a las funciones lineales.
Calculemos las ecuaciones correspondientes.
En este caso, se tiene los puntos 𝐶(0,0) , 𝐷(0.2,0.5). Entonces:
5
𝑌 = ∗𝑥
2
Ahora para los puntos 𝐷(0.2,0.5) , 𝐸(0.6,1). Entonces:
5 1
𝑌 = ∗𝑥+( )
4 4
Se debe considerar la siguiente transformación:
5
∗ 𝐶2 𝑠𝑖 𝐶2 ≤ 0.2
2
𝑇𝐶2 = 5 1
∗ 𝐶2 + ( ) 𝑠𝑖 0.2 < 𝐶2 < 0.6
4 4
{ 1 𝑠𝑖 𝐶2 ≥ 0.6
Pasos a seguir:
Transform / Compute (Transformar / Calcular)
Target Variable (Variable de destino): TC2
Type & Label (Tipo y etiqueta)
Label (Etiqueta): Indicador C2 transformado.
Numeric Expression (Expresión numérica): 1
If… (Si, la opción)
Include if case satisfies condition (incluir si el caso satisface la condición): C2>=0.3
Luego se trabaja en la sintaxis el resto de las condiciones.

Sintaxis:
5
IF (C2<=0.2) TC2= ∗ 𝐶2.
2
5 1
IF (0.2 < C2 & C2 < 0.6) TC2= ∗ 𝐶2 + ( ).
4 4
IF (C2≥ 0.6) TC2=1.
VARIABLE LABELS TC2 'Indicador C2 transformado'.
EXECUTE.

Grafique la función de transformación del indicador C2 que convierte la escala de medida original en una escala
de proporciones de 0 a 1.

Para poder graficar la transformación del indicador C2, se necesita utilizar datos de prueba que permitan
graficarlo mediante un Scatter/Dot (gráfico de dispersión simple).
Se crean en un nuevo archivo variables TC2prueba y C2prueba en donde se añaden los siguientes datos de
prueba:
C2 TC2
,00 ,00
,20 ,50
,60 1,00
1,00 1,00

111
Luego, se realiza un gráfico Scatter/Dot (Gráfico de dispersión simple), en donde en el eje Y están los datos
TC2 y en el eje X los valores de C2. Añadir una línea de interpolación.
Pasos a seguir:
Graphs / Legacy Dialogs / “Scatter/Dot” (Gráficos / cuadro de diálogos / “Dispersión/puntos”)
Eje Y: TC2
Eje X: C2

Sintaxis
GRAPH
/SCATTERPLOT(BIVAR)=C2prueba WITH TC2prueba
/MISSING=LISTWISE.

Función de transformación de C2

c) Suponga que se requiere saber cuál de los 18 proyectos que postulan al beneficio tiene mayor eficiencia en
la inversión, sabiendo que el puntaje final del Índice de Eficiencia de la inversión será el promedio ponderado
de los indicadores transformados. Asumiendo que se cuenta con los datos en el archivo Priorización proyectos
de riego.sav.

Índice de Eficiencia de la inversión= 0,5*TC1+0,5*TC2


Calcule el índice de eficiencia de la inversión. Muestre una tabla ordenada con los índices finales priorizados
de mayor a menor e interprete el índice para los cinco mejores proyectos.

Pasos a seguir:

Se calcula el índice de eficiencia de la inversión según la ecuación dada.


Transform / Compute (Transformar / Calcular)
Target Variable (Variable de destino): Ind_Eficiencia
Type & Label (Tipo y etiqueta)

112
Label (Etiqueta): Índice de eficiencia de la inversión.
Numeric Expression (Expresión numérica): TC1*0.5+TC2*0.5

Opción 1

Luego, se realiza un resumen de casos en donde se muestren todos los proyectos con sus índices de eficiencia.
En la columna de Ind_Eficiencia / click derecho / Sort Descending (Orden descendente)
Analyze / Reports / Case summaries… (Analizar / Infomes / Resúmenes de casos)
Variables: Id Nombre_proyecto TC1 TC2 Ind_Eficiencia

Opción 2

En ocasiones puede ser útil tener un ranking de orden. Para esto se debe ir a
Transform/Rank Cases… (Seleccionar la variable Ind_Eficiencia, activar Largest Values (Valor Mayor) y en
Ties (Empates) activar sequencial ranks to unique values. Rangos secuenciales para valores únicos)

En la columna de Ind_Eficiencia / click derecho / Sort Descending (Orden descendente)

Analyze / Reports / Case summaries… (Analizar / Infomes / Resúmenes de casos)


Variables: Id Nombre_proyecto TC1 TC2 Ind_Eficiencia

Sintaxis:

COMPUTE Ind_Eficiencia=TC1 * 0.5 + TC2 * 0.5.


VARIABLE LABELS Ind_Eficiencia 'Índice de eficiencia de la inversión'.
EXECUTE.

Sintaxis opción 1:

SORT CASES BY Ind_Eficiencia(D).

SUMMARIZE
/TABLES=Id Nombre_proyecto TC1 TC2 Ind_Eficiencia
/FORMAT=VALIDLIST NOCASENUM TOTAL LIMIT=100
/TITLE='Case Summaries'
/MISSING=VARIABLE
/CELLS=COUNT.

Sintaxis opción 2:

RANK VARIABLES=Superf_total (D)


/RANK
/PRINT=YES
/TIES=CONDENSE.

SORT CASES BY Ind_Eficiencia(D).

113
SUMMARIZE
/TABLES=Id Nombre_proyecto TC1 TC2 Ind_Eficiencia
/FORMAT=VALIDLIST NOCASENUM TOTAL LIMIT=100
/TITLE='Case Summaries'
/MISSING=VARIABLE
/CELLS=COUNT.

La tabla mostrará los proyectos ordenados según índice de la inversión, los cuales poseen un índice que
alcanza el máximo de 1, lo que se interpreta así: el proyecto posee el 100% de logro en lo que se espera en
eficiencia de la inversión. Un valor 0,2 indica que el proyecto tiene un logro de 20% en eficiencia de la
inversión. De la misma forma para cualquier valor entre 0 y 1.

d) i) Muestre un gráfico que permita ver el comportamiento general del índice de Eficiencia.

Para esto es necesario crear un boxplot de la variable Ind_Eficiencia

Pasos a seguir:

Graphs / Legacy Dialogs / Boxplot / Simple – Summaries of separate variables


Variable: Ind_Eficiencia
Label Cases by: Nombre_proyecto

Sintaxis:

EXAMINE VARIABLES=Ind_Eficiencia
/COMPARE VARIABLE
/PLOT=BOXPLOT
/STATISTICS=NONE
/NOTOTAL
/ID=Nombre_proyecto
/MISSING=LISTWISE.

ii) Si se requiere elegir al menos 2 proyectos por zona, identifique qué proyectos seleccionaría. Justifique.
Para elegir al menos dos proyectos, intuitivamente se buscan los que posean mayor índice de eficiencia. Por lo
tanto, se realiza un resumen de casos agrupado por zona.

Pasos a seguir:

Opción 1:
En la columna de Ind_Eficiencia / click derecho / Sort Descending (Orden descendente)
Analyze / Reports / Case summaries… (Analizar / Infomes / Resúmenes de casos)
Variables: Id Nombre_proyecto TC1 TC2 Ind_Eficiencia
Grouping Variable(s) (Variables de agrupación): Zona

114
Opción 2:
Se segmenta el archivo por zona
Data / Split File (Datos / Segmentar archivo)
Compare groups / Groups Based on (Comparar los grupos / Grupos basados en): Zona

En la columna de Ind_Eficiencia / click derecho / Sort Descending (Orden descendente)


Analyze / Reports / Case summaries… (Analizar / Infomes / Resúmenes de casos)
Variables: Id Nombre_proyecto TC1 TC2 Ind_Eficiencia

Sintaxis:

Opción 1:
SUMMARIZE
/TABLES=Id Nombre_proyecto TC1 TC2 Ind_Eficiencia BY zona
/FORMAT=VALIDLIST NOCASENUM TOTAL LIMIT=100
/TITLE='Case Summaries'
/MISSING=VARIABLE
/CELLS=COUNT.

Opción 2:
SORT CASES BY zona.
SPLIT FILE LAYERED BY zona.

SUMMARIZE
/TABLES=Id Nombre_proyecto TC1 TC2 Ind_Eficiencia
/FORMAT=VALIDLIST NOCASENUM TOTAL LIMIT=100
/TITLE='Case Summaries'
/MISSING=VARIABLE
/CELLS=COUNT.

SPLIT FILE OFF.

Con esta tabla, se ven los proyectos con sus respectivos índices de eficiencias, pero esta vez separados por
cada zona.

iii) Para las mujeres, calcule los cuartiles y los estadísticos descriptivos de tendencia central y dispersión de
la variable costo.

Pasos a seguir:

Se recodifica la variable sexo.


Transform / Automatic Recode (Transformar / Recodificación automática).
Variable: sexo
New Name (Nuevo nombre): Sexo_rec / Add New Name (Agregar nuevo nombre)

Se seleccionan las mujeres.

115
Data / Select cases (Datos / Seleccionar casos)
If condition is satisfied / if.. (Si se satisface la condición) / Si la op…): sexo_rec=2

Se pide la tabla con los estadísticos respectivos.


Analyze / Descriptive statistics / Frecuencies (Analizar / Estadísticos descriptivos / Frecuencias)
Variable(s): Costo
Statistics (Estadísticos): Quartiles, Mean, Median, Std. deviation, Minimum, Maximum (Cuartiles, Media,
Mediana, Desviación típica, Mínimo, Máximo)

Sintaxis:

AUTORECODE VARIABLES=sexo
/INTO sexo_rec
/PRINT.

USE ALL.
COMPUTE filter_$=(sexo_rec = 2).
VARIABLE LABEL filter_$ 'sexo_rec = 2 (FILTER)'.
VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE.

FREQUENCIES VARIABLES=Costo
/NTILES=4
/STATISTICS=STDDEV MINIMUM MAXIMUM MEAN MEDIAN
/ORDER=ANALYSIS.

FILTER OFF.
USE ALL.
EXECUTE.

El promedio de costo de la inversión para las mujeres es de $30.005.242, en donde el 50% de las mujeres
poseen un costo de al menos $32.045.000, los datos se desvían en promedio respecto de la media en

116
$7.081.781, los costos para las mujeres van de los $21.500.700 a los $40.300.000, el 25% de las mujeres
posee un costo de a lo más $23.405.000, y 75% de las mujeres posee un costo de a lo más $34.786.000.

iv) Compare los indicadores transformados en escala 0 y 1 entre hombres y mujeres mediante una tabla que
muestre los estadísticos descriptivos básicos de la variable. ¿En qué grupo (hombres o mujeres) se presenta
mayor variabilidad en cada indicador?
Pasos a seguir:

Analyze / Reports / OLAP cubes (Analizar / Informes / Cubos OLAP)


Summary Variables (Variables de resumen): TC1, TC2.
Grouping Variables (Variables de agrupación): Sexo.
Statistics (Estadísticos): Number of cases, Mean, Median, Standard Deviation, Minimum, Maximum,
Skewness, Kurtosis. (Número de casos, media, mediana, desviación típica, mínimo, máximo, asimetría, curtosis).
Se mueven los pivotes de la tabla, añadiendo la variable sexo en las filas.
Copiar la tabla en Excel y calcular el coeficiente de variabilidad (Desviación estándar dividido en la media y
multiplicado por 100).
Sintaxis:

OLAP CUBES TC1 TC2 BY sexo


/CELLS=COUNT MEAN MEDIAN STDDEV MIN MAX SKEW KURT
/TITLE='OLAP Cubes'.

117
X. Caso de Estudio: Personas con Licencias Médicas9

Objetivo: Aplicar en el análisis del caso, la fundición de archivos y el uso de funciones.

Suponga que Ud es Director de Recursos Humanos de una empresa y entre sus múltiples tareas debe realizar
un informe respecto a las licencias médicas otorgadas durante el año. En su documento debe contemplar por
lo menos la siguiente información. Considere los archivos de datos: Personas con licencia médica (arch1).sav
y Diagnóstico-licencia médica (arch2).sav que contienen una muestra de 653 personas que han tenido licencia
en el último año.

Primera Parte: Fundición de archivos


Nota previa. Consideraciones acerca de los archivos a Fundir

Fundición de variables
SPSS ofrece dos formas básicas de fundir archivos agregando variables, aunque se pueden realizar con
múltiples pasos una combinación de estas formas básicas. Las formas de fundir pueden ser “uno a uno” o a
través de un “archivo de claves” (también llamado “tabla de claves” o “uno a muchos”). Esta es una distinción
importante entre los dos tipos diferentes de archivos a fundir que producirá resultados distintos.
En “uno a uno” cada caso en un archivo solo puede ser vinculado con un solo caso en el otro archivo viceversa.
El fundir los archivos está determinado por los valores de una variable que los vincula. Se espera que cada
caso en cada archivo aparezca una única vez, si no es así, sólo el primer caso de los casos duplicados será
vinculado con un único caso del otro archivo.

Se muestra un diagrama para cada opción


Arch 1 Archivo fundido Arch2
Identificador var1 Identificador var1 var2 Identificador var2
w D s . L s L
x A t . F t F
y B w D . x H
z C x A H y J
y B J z K
z C K
Tabla1: Vincular archivos uno a uno…*Ambos archivos proporcionan casos*

Note que en cada aparición de la variable que vincula (aquí identificador) da como resultado un caso en el
archivo final. Si un país tiene un caso en un archivo y perdido en el otro archivo (s,t,w), el identificador se
retiene en el archivo combinado y se le asigna valores perdidos por el sistema a las variables numéricas que
no contienen información.

9
TP Caso elaborado por Sara Arancibia

118
Arch 1 Archivo fundido Arch2
Identificador var1 Identificador var1 var2 Identificador var2
w D w D . s L
x A x A H t F
y B y B J x H
z C z C K y J
z K

Tabla2. El que no es un conjunto de datos activo es una tabla de claves

El procedimiento a través de una tabla de claves (o uno a muchos, o archivo de claves) permite vincular un
único caso de un archivo de tabla de claves a más de un caso en el segundo archivo. Se muestra un diagrama
de este procedimiento en la tabla 2.

Arch 1 Archivo fundido Arch2


Identificador var1 Identificador var1 var2 Identificador var2
w D s . L s L
x A t . F t F
y B x A H x H
z C y B J y J
z C K z K

Tabla2. El conjunto de datos activo es una tabla de claves.

Importancia de ordenar
Para cualquier tipo de procedimiento para fundir los archivos deben estar ordenados por la variable clave. Si
los archivos no están ordenados la vinculación falla.

Importancia del tipo de archivo.


Para fundir los archivos agregando variables, ambos archivos deben estar definidos en SPSS. Esto significa
que cada archivo debe estar guardado como archivo de datos de SPSS en el Editor de Datos.

Advertencia acerca de los nombres de las variables


Es importante usar nombres únicos de nombres de variables para ambos archivos. Si se utiliza el mismo nombre
de variable en ambos archivos, SPSS retendrá sólo un conjunto de valores de datos. Aunque en el cuadro de
diálogo de Fundir archivo… Añadir variables se puede renombrar variables, es conveniente chequear antes que
los nombres de las variables no coincidan.

Antes de fundir los archivos Personas con licencia médica (arch1).sav y Diagnóstico-licencia médica
(arch2).sav debemos dejar la variable clave para la fundici[on en este caso rutpac definidas en el mismo
formato y forma.

1) Utilice la función CONCAT para concatenar (unir) el rut y el guión rut en una sola variable llamada
rutpac ( rut paciente)

119
CONCAT(expr_cadena,expr_cadena[,..]). Cadena. Devuelve una cadena que es la concatenación de todos los
argumentos, que deben ser cadenas. Esta función requiere dos o más argumentos. En modo de página de código,
si expr_cadena es una variable de cadena, utilice RTRIM si sólo desea el valor de cadena real sin el relleno
por la derecha de la anchura de la variable definida. Por ejemplo, CONCAT(RTRIM(var_cadena1),
RTRIM(var_cadena2)).

Solución:
Transformar/Calcular variable/ Variable de destino: rutpac/Tipo y etiqueta: Tipo cadena ,anchura 15,
etiqueta: rut paciente

Sintaxis
STRING rutpac (A15).
COMPUTE rutpac=CONCAT(RTRIM(rut),"-",RTRIM(guionrut)).
VARIABLE LABELS rutpac 'rut paciente'.
EXECUTE.

Fundición
DATOS&FUNDIR ARCHIVO A;ADIR VARIABLES SELECCIONAR OPCION Ambos archivos proporcionan
casos. Guardar como Archivo fundido Licencias medicas

Ejercicios

a) Determine el diagnóstico que con mayor frecuencia se presenta en hombres y en mujeres.

Analizar/ Estadísticos descriptivos/Tablas de contingencia: Fila Diagnostico, columna Sexo

120
b) Muestre un gráfico que permita visualizar número de licencias por ocupación agrupado por sexo.
Comente.
Gráficos generador de gráficos barras agrupadas

121
Se observa tanto para hombres como para mujeres una bajísima cantidad de licencias en la categoría
“Ejecutivos” Se puede apreciar un bajo número de licencias en la categorías en las categorías Ejecutivo,
Profesional como Oficinista presentándose en ambas categorías mayor número de licencias en mujeres. La
categoría de ocupación “operarios, artesanos” presenta mayor cantidad de licencias, observándose 43 licencias
en hombres y 26 licencias en mujeres. Con una gran diferencia se presenta la categoría “Otros” que agrupa
todo el resto de ocupaciones no mencionadas anteriormente mostrando mayor cantidad en mujeres que en
hombres.

c) Calcular una variable que muestre los días de licencia médica del empleado (Explique el procedimiento
o muestre la sintaxis). Calcule los estadísticos descriptivos básicos de la variable creada considerando los
cuartiles.
La variable “dias” Dias de licencia se calculó según la sintaxis

COMPUTE dias=CTIME.DAYS(fecha_t2 - fecha_i2)+1 .


VARIABLE LABELS dias 'dias de licencia medica'. EXECUTE.

122
d) Determine para hombres y mujeres los estadísticos; número de casos (N), media, mediana, desviación
estándar, mínimo, máximo de las variables edad. Grafique un histograma de edad para hombres y mujeres.
Comente los resultados
¿Qué puede decir de la variabilidad de las edades para el grupo de hombres en comparación con el grupo de
las mujeres?

i) Cálculo de la edad
Transformar/Asistente para fechas y horas/Realizar cálculos con fechas y horas/Calcular el número de
unidades de tiempo entre dos fechas/Fecha 1: $TIME Fecha 2: fechnac/ Unidad: años/ truncar a entero/
variable de resultado: edad , etiqueta de variable: edad del paciente/pegar la sintaxis en la ventana de sintaxis.

* Asistente de fecha y hora: edad.


COMPUTE edad=DATEDIF($TIME, fechnac, "years").
VARIABLE LABEL edad "edad del paciente".
VARIABLE LEVEL edad (SCALE).
FORMATS edad (F5.0).
VARIABLE WIDTH edad(5).
EXECUTE.

Nota: Otra forma es usar funciones


Primero cambiar el formato de fecha en la definición de la variable en formato dd.mm.yyyy
Para SPSS las fechas se contabilizan por una serie en la cual cada día esta valorado en 86400 (son los segundos
por día).
En menú transformar / Calcular:
Variable destino: edad2

123
Expresión numérica: (DATE.DMY(18,2,2011)-fechanac)/(365.25*86400)10
Use función DATE.DMY(DD,MM,YY)
Observe que se insertó una nueva columna con la variable “edad2”

Se debe truncar la variable edad2


Variable destino: edadent
Expresión numérica: TRUNC(edad2)

Sintaxis
COMPUTE edad2=(DATE.DMY(18,2,2011)-fechnac) / (365.25*86400).
EXECUTE.
COMPUTE edadent=TRUNC (edad2).
EXECUTE.
Observación: Otra forma de calcular la edad
Crear una nueva variable llamada TODAY (que guardará la fecha de hoy día). La variable
$TIME es una variable del sistema en SPSS que guarda el dato fecha de hoy como un valor.
La función XDATE.DATE convierte el valor de $TIME en un formato que SPSS puede
reconocer como una fecha.
Calcular TODAY=XDATE:DATE($TIME) (este valor representa el número de segundos desde
que comienza el calendario Gregoriano

Transformar Calcular Edad=(CTIME:DAYS(TODAY-fechanacimiento))/365.25

CTIME.DAYS(valortiempo) Numérico. Devuelve el número de días, incluyendo fracciones de


día, que hay en valortiempo, el cual debe ser un número o una expresión en formato de tiempo
de SPSS, tal como el resultado de las funciones TIME.xxx.

ii) Considerando la variable edad realizamos un cubo OLAP


ANALIZAR Informes Cubos Olap

Para Hombres:
La base considera 319 licencias de hombres cuya edad promedio es aprox 54 años con una desviación promedio
respecto a la media de casi 12 años. La edades oscilan entre 40 y 81 años correspondiendo el 50% de licencias
a hombres menores o iguales a 49 años.
Para Mujeres:
La base considera 333 licencias de mujeres cuya edad promedio es 54 años con una desviación promedio
respecto a la media de casi 12 años. La edades oscilan en un rango similar al de hombres entre 40 y 82 años

10
Pero tiene decimales

124
correspondiendo el 50% de licencias a mujeres menores o iguales a 48 años. En los histogramas se pueden
observar las formas de la distribución de edad.
Ambos histogramas muestran asimetría positiva.

Respecto la variabilidad de la edad consideraremos el coeficiente de variación .Para hombres:


 11,91
CV = *100 = = 21,97%
 54,2
Para mujeres:
 11,735
CV = *100 = = 21,69%
 54,08

Del cálculo anterior se aprecia mayor variación relativa ( pero leve) en la distribución de edades de los hombres
respecto al de las mujeres.

Segunda Parte: Trabajo con otras funciones

1) Utilice las siguientes funciones de CONVERSION para las variables rutpers y rut

NUMBER(expr_cadena, formato). Numérico. Devuelve el valor de la expresión de cadena expr_cadena como


un número. El segundo argumento, formato, es el formato numérico utilizado para leer expr_cadena. Por
ejemplo, NUMBER(cadena_Fecha, FECHA11) convierte las cadenas que contienen fechas del formato general
dd-mmm-aaaa a un valor numérico de segundos que representa esa fecha. (Para mostrar el valor como fecha,
utilice el comando FORMATS o PRINT FORMATS.) Si la cadena no se puede leer con el formato, esta función
devuelve los valores perdidos por el sistema.

STRING(expr_num, formato) Cadena. Devuelve la cadena que resulta de convertir expr_num en una cadena,
de acuerdo con el formato especificado. STRING(-1,5,F5.2) devuelve el valor de cadena "-1,5". El segundo
argumento debe ser un formato para la escritura de un valor numérico.

125
Solución: Transformar/Calcular variable/ Variable de destino: rtperscad/Tipo y etiqueta: Tipo Cadena,
etiqueta: rut persona en cadena; anchura 15

Sintaxis:
DATASET ACTIVATE Conjunto_de_datos1.
STRING rutperscad (A15).
COMPUTE rutperscad=STRING(rut_pers,F10.0).
VARIABLE LABELS rutperscad 'rut persona en cadena'.
EXECUTE.

Transformar/Calcular variable/ Variable de destino: rutnum/Tipo y etiqueta: Tipo Numéricos, etiqueta: rut
en formato numérico

Sintaxis
COMPUTE rutnum=NUMBER(rut,F10).
VARIABLE LABELS rutnum 'rut en formato numerico'.
EXECUTE.

2) Considere la variable rutpac y utilice las funciones LTRIM, CHAR.INDEX y CHAR.SUBSTR para
calcular la variable rutpac2 sin el guion rut

LTRIM(expr_cadena[, carácter]). Cadena. Devuelve expr_cadena de la que se elimina cualquier instancia inicial
de carácter. Si no se especifica char, se eliminan los blancos iniciales. El carácter debe evaluarse como un
único carácter.

CHAR.INDEX(cadena, subcadena[, divisor]). Numérico. Devuelve un número que indica la posición del carácter
de la primera ocurrencia de la subcadena dentro de la cadena. El tercer argumento opcional, divisor, es un
número de caracteres usado para dividir subcadena en cadenas distintas. Cada subcadena se usa para realizar
búsquedas y la función devuelve la primera aparición de cualquier subcadena. Por ejemplo, CHAR.INDEX(var1,
'abcd') devolverá el valor de la posición inicial de la cadena completa "abcd" en la variable de cadena var1;
CHAR.INDEX(var1, 'abcd', 1) devolverá el valor de la posición de la primera aparición de cualquier valor de la
cadena; y CHAR.INDEX(var1, 'abcd', 2) devolverá el valor de la primera aparición de "ab" o "cd". El divisor
debe ser un entero positivo y debe dividir exactamente la longitud de la subcadena. Devuelve 0 si la subcadena
no aparece dentro de la cadena.

CHAR.SUBSTR(expr_cadena,pos[,longitud]). Cadena. Devuelve una subcadena que empieza en la posición del


carácter pos de expr_cadena. El tercer argumento opcional representa el número de caracteres de la
subcadena. Si se omite el argumento opcional longitud, devuelve la subcadena que comienza en la posición del
carácter pos de expr_cadena hasta el final de expr_cadena. Por ejemplo CHAR.SUBSTR('abcd', 2) devuelve
'bcd' y CHAR.SUBSTR('abcd', 2, 2) devuelve 'bc'.

126
Solución
Transformar/Calcular variable/ Variable de destino: rutpacl/Tipo y etiqueta: Tipo cadena ,anchura 12,
etiqueta: rut paciente con LTRIM

STRING rutpacl (A12).


COMPUTE rutpacl=LTRIM(rutpac).
VARIABLE LABELS rutpacl “rut paciente con LTRIM”.
EXECUTE.
Transformar/Calcular variable/ Variable de destino: rut2/Tipo y etiqueta: Tipo numérico, etiqueta: numero
de caracteres de rut

Sintaxis
COMPUTE rut2=CHAR.INDEX(rutpacl,"-").
VARIABLE LABELS rut2 'numero de caracteres de rut'.
EXECUTE.

Transformar/Calcular variable/ Variable de destino: rutpac2/Tipo y etiqueta: Tipo cadena ,anchura 12,
etiqueta: rut paciente2

STRING rutpac2 (A10).


COMPUTE rutpac2=CHAR.SUBSTR(rutpacl,1,rut2-1).
VARIABLE LABELS rutpac2 'rut paciente 2'.
EXECUTE.

3) Considere la variable edad calculada en la sección anterior. Calcule la edad el año, mes y dia de la
semana.

XDATE.YEAR(valorfecha). Numérico. Devuelve el año (un entero de cuatro dígitos) a partir de un valor
numérico que represente una fecha. El argumento puede ser un número, una variable con formato de fecha o
una expresión evaluable a una fecha.
XDATE.MONTH(valorfecha). Numérico. Devuelve el mes (un entero entre 1 y 12) a partir de un valor numérico
que representa una fecha. El argumento puede ser un número, una variable con formato de fecha o una
expresión evaluable a una fecha.
XDATE.WKDAY(valorfecha). Numérico. Devuelve el número del día de la semana (un entero entre 1, domingo,
y 7, sábado) a partir de un valor numérico que represente una fecha. El argumento puede ser un número, una
variable con formato de fecha o una expresión evaluable a una fecha.

127
XI. Estudio de caso: SIMCE 2006 -Premio Colegios (Selección, segmentación, sintaxis
condicionales)11

Objetivo del caso:


Utilizar herramientas de análisis descriptivo e inferencial para conocer información útil de la unidad de
análisis, en este caso colegios y aplicar posibles criterios para asignar algún tipo de beneficio por segmentos
o grupos con perfiles similares.
Enunciado
Suponga que usted es un asesor del Ministerio de Educación y debe preparar un informe en relación a los
rendimientos de los estudiantes de enseñanza media del año 2006. Entre los diversos informes que debe
realizar se le ha pedido que sugiera qué colegios premiar con un estímulo por los resultados de la prueba
SIMCE de los segundos medios.
El SIMCE es el sistema nacional de medición de resultados de aprendizaje del Ministerio de Educación de
Chile. Su propósito principal es construir al mejoramiento de la calidad y equidad de la educación, informando
sobre el desempeño de los alumnos y alumnas en algunas áreas del curriculum nacional y relacionándolos con el
contexto escolar y social en el que ellos aprenden.
Las pruebas SIMCE evalúan el logro de los Objetivos Fundamentales y Contenidos Mínimos Obligatorios del
Marco Curricular en diferentes subsectores de aprendizaje, a través de una prueba común que se aplica a
nivel nacional, una vez al año, a los estudiantes que cursan un determinado nivel educacional. Hasta el 2005 la
aplicación de las pruebas se alternaron entre 4° Básico, 8° Básico y 2° Medio. Desde el 2006, las pruebas
evalúan todos los años el nivel del 4° Básico y se alternan los niveles de 8° Básico y 2° Medio. (Fuente:
Resultados nacionales SIMCE 2006. MINEDUC)
Se dispone de un archivo con los datos de los 2319 colegios evaluados en la prueba SIMCE 2° Medio del 2006.
Algunas de las variables de interés son:

VARIABLE ETIQUETA DE VARIABLE ETIQUETA DEVALOR


Idest Identificador del establecimiento
Región Nombre de la Región
Comuna Nombre de la comuna
ddca Dependencia CP: Corporación Privada
MC; Corporación Municipal
MD; DAEM (Departamento de
Administración de Educación
Municipal)
PP: Particular Pagado
PS: Particular Subvencionado

ruralida Caracterización del establecimiento 1= Rural


2=Urbano
prom_len Promedio puntaje de lenguaje
prom_mat Promedio puntaje de matemáticas

11
TP P Caso elaborado por Sara Arancibia

128
Después de múltiples reuniones con expertos en educación, usted ha llegado a definir junto con los expertos
un criterio para premiar a las escuelas; crear grupos homogéneos de escuelas y definir puntajes de corte para
cada grupo. De esta forma se estará distinguiendo a los colegios que se destacan entre colegios con similares
características. El premio se otorgará a los colegios con puntajes promedios mayores o iguales al percentil 75
(para cada grupo). Los grupos homogéneos se definieron en base a dos criterios: la dependencia del
establecimiento definido como Municipal, Privado y Subvencionado y la caracterización del establecimiento
Rural y Urbano
Los grupos homogéneos definidos por el grupo experto son,
1: Municipal y Rural
2: Municipal y Urbano
3: Privado y Rural
4: Privado y Urbano
5: Subvencionado y Rural
6: Subvencionado y Urbano

Usted como asesor del Ministerio de Educación debe aplicar los criterios definidos con los expertos para
crear los grupos de colegios homogéneos e identificar cuáles son los establecimientos premiados realizando
distintas comparaciones por dependencia, caracterización y zona (Norte, Central y Sur). Además debe
determinar si existen diferencias significativas para los puntajes promedios de la SIMCE por caracterización
y por dependencia
Para realizar su análisis deberá lograr los siguientes objetivos específicos desglosados en tareas elementales

1. Limpiar y ordenar la base de interés para el análisis


a) Crear la variable “Dependencia” considerando sólo tres categorías:
Municipalizado, Privado y Subvencionado
b) Crear la variable zona considerando Zona Norte, Centro y Sur
c) Crear la variable “puntprom” correspondiente al puntaje promedio entre matemática y lenguaje
d) Crear la variable “grupo” correspondiente a cada grupo homogéneo. Para esto deberá crear con sintaxis
(sintaxisgrupo) la variable solicitada asignando los códigos 1 al 6 según corresponda.
e) Determinar para cada grupo el percentil 75.
f) Con otra sintaxis (sintaxispremio) crear la variable “premio” donde según el criterio mencionado 1=SI
recibe premio y 0=NO recibe premio.

2. Realizar un análisis descriptivo de los datos


a) ¿Cuántos establecimientos rurales y urbanos existen en el archivo de datos y qué porcentaje
representan del total? ¿Qué tipo de dependencia se observa con mayor y menor frecuencia? ¿Qué grupo
homogéneo de establecimientos presenta mayor frecuencia?.

b) ¿Cuántos colegios obtuvieron puntajes promedio en Matemáticas inferior o igual a 250 puntos; entre
251 y 300 puntos y superior a 300 puntos?.
c) ¿Qué porcentaje de colegios obtuvieron puntajes promedio en Lenguaje superior a 300 puntos?
¿Cuántos de ellos son Municipalizados y Urbanos? ¿Qué puede decir de los Municipalizados y Rurales?
d) ¿Qué porcentaje representa el total de colegios premiados respecto al total de colegios? ¿Qué
porcentaje de los colegios Municipalizados resultaron premiados? ¿Qué porcentaje de los colegios premiados

129
son Subvencionados? ¿Qué porcentaje de los premiados son de la zona Norte,Centro y Sur? ¿Qué porcentaje
de la zona Centro son premiados? ¿Qué porcentaje del total son premiados y del Sur?.
e) ¿Qué porcentaje de los colegios premiados son urbanos? ¿Qué porcentaje de los colegios rurales son
premiados? ¿Qué porcentaje de colegios resultaron premiados por grupo?
f) ¿A qué zona pertenecen los cinco mayores puntajes promedios SIMCE por tipo rural y urbana?. Realice
un gráfico que permita observar la forma de la distribución de los puntajes promedio SIMCE para los colegios
rurales y los urbanos y muestre además un diagrama de caja (boxplot) por tipo para el puntaje promedio ¿Qué
puede observar?
g) Determine mediante una gráfica si hay diferencias entre las medias de los puntajes en lenguaje y en
matemáticas por dependencia para el grupo de colegios en estudio. ¿Existen diferencias en los puntajes de
lenguaje por dependencia, agrupados por tipo rural y urbano? Determine si el comportamiento de los
resultados de puntajes de lenguaje y matemáticas es similar si se compara los segmentos rural y urbano
h) Determine los estadísticos básicos de tendencia central, de dispersión y de forma de la distribución de
los puntajes promedios SIMCE para los distintos grupos homogéneos, y muestre gráficamente la media de los
puntajes promedios SIMCE por grupo homogéneo.
i) Realice un gráfico considerando a todos los colegios en estudio y otro gráfico considerando sólo el
segmento de premiados, que permitan observar la posición del grupo en relación al resto de los grupos en
cuanto a los descriptivos básicos. Interprete.
j) Compare la variabilidad entre los distintos grupos para el puntaje promedio SIMCE.

SOLUCION:

1. Limpiar y ordenar la base de interés para el análisis

a) Crear la variable “Dependencia” considerando sólo tres categorías:


Municipalizado, Privado y Subvencionado
En primer lugar observamos que la variable de dependencia “ddcia” de la base de datos viene con formato
cadena o string. Recodificaremos automáticamente y luego llevaremos las cinco categorías sólo a tres
categorías.
Para esto ir al menú Transformar/ recodificación automática/
AUTORECODE
VARIABLES=ddcia /INTO depend
/PRINT.

Old Value New Value Value Label

CP 1 Corporación Privada
MC 2 Corporación Municipal
MD 3 DAEM
PP 4 Particular Pagado
PS 5 Particular Subencionado

Para crear tres categorías juntaremos las categorías Corporación Municipal y DAEM en Municipalizado y las
categorías Corporación Privada y Particular pagado en Privado
Para esto ir al menú Transformar/Recodificar en distinta variable

130
RECODE
depend
(4=2) (5=3) (1=2) (2 thru 3=1) INTO dependencia .
VARIABLE LABELS dependencia 'Tipo de dependencia'.
EXECUTE .

En definición de la variable
Asignar etiquetas de valor a los códigos 1 al 3
1= Municipalizado
2=Privado
3=Subvencionado

b) Crear la variable zona considerando Zona; Norte, Centro y Sur


En primer lugar se observa que la variable Región viene en formato de cadena. Se recodificará
automáticamente.
AUTORECODE
VARIABLES=region /INTO reg
/PRINT
En el visor de resultados se puede observar los códigos de cada categoría

Old Value New Value Value Label

Región de Aisén del General 1 Región de Aisén del General


Carlos Ibañez del Campo 1 Carlos Ibañez del Campo
Región de Antofagasta 2 Región de Antofagasta
Región de Atacama 3 Región de Atacama
Región de Coquimbo 4 Región de Coquimbo
Región de la Araucanía 5 Región de la Araucanía
Región de Los Lagos 6 Región de Los Lagos
Región de Magallanes y de la 7 Región de Magallanes y de la
Antártica Chilena 7 Antártica Chilena
Región de Tarapacá 8 Región de Tarapacá
Región de Valparaíso 9 Región de Valparaíso
Región del Biobío 10 Región del Biobío
Región del Libertador General 11 Región del Libertador General
Bernardo O' Higgins 11 Bernardo O' Higgins
Región del Maule 12 Región del Maule
Región Metropolitana 13 Región Metropolitana
Para crear las categorías de zona se recodificará en distintas variables

RECODE
reg
(1=3) (8=1) (9=2) (10=3) (2 thru 4=1) (5 thru 7=3) (11 thru 13=2) INTO zona .
VARIABLE LABELS zona 'zona'.
EXECUTE .

131
En definición de variables
1= Norte
2= Centro
3= Sur
c) Crear la variable “puntprom” correspondiente al puntaje promedio entre matemática y lenguaje

Al ver el formato de las variables prom_len y prom_mat se observa que viene con tipo: String o cadena y
medida nominal. Lo primero que debemos hacer antes de sacar el promedio es cambiar en vista de variables
el tipo String a numérico.
Para crear la variable puntprom seleccione Transformar/Calcular
Variable destino: puntprom
Tipo: numérico
Etiqueta: Promedio de Matemáticas y Lenguaje
Expresión: MEAN(prom_len,prom_mat)
Sintaxis de puntprom

COMPUTE puntprom = MEAN(prom_len,prom_mat) .


VARIABLE LABELS puntprom 'puntaje promedio entre lenguaje y matemáticas’.
EXECUTE .

d) Crear la variable “grupo” correspondiente a cada grupo homogéneo. Para esto deberá crear con sintaxis
(sintaxisgrupo) la variable solicitada asignando los códigos 1 al 6 según corresponda.

Para crear la variable de grupo primero recodificaremos automáticamente la variables ruralida a código
numérico con nombre caract
Donde
caract=1 Rural
caract=2 Urbano

Sintaxis
AUTORECODE
VARIABLES=ruralida /INTO caract
/PRINT.
Ahora formamos los seis grupos según criterio dado

Creación de la variable grupo


*** Sintaxis Grupo ***.
IF (dependencia = 1 & caract = 1) grupo = 1 .
IF (dependencia = 1 & caract = 2) grupo = 2 .
IF (dependencia = 2 & caract = 1) grupo = 3 .
IF (dependencia = 2 & caract = 2) grupo = 4 .
IF (dependencia = 3 & caract = 1) grupo = 5 .
IF (dependencia = 3 & caract = 2) grupo = 6 .
EXECUTE .
Luego en la definición de variables en valores se define:
1: Municipal y Rural

132
2: Municipal y Urbano
3: Privado y Rural
4: Privado y Urbano
5: Subvencionado y Rural
6: Subvencionado y Urbano

e) Determinar para cada grupo el percentil 75.


Para el cálculo de los percentiles por grupo: Datos/Segmentar, variable: grupo. Luego Analizar/Frecuencias
[Estadísticos]: Percentil 75

Sintaxis
SORT CASES BY grupo .
SPLIT FILE
LAYERED BY grupo .
FREQUENCIES
VARIABLES=puntprom /FORMAT=NOTABLE
/PERCENTILES= 75
/ORDER= ANALYSIS .

No olvide volver a Datos/ Segmentar archivo/ Analizar todos los casos.

f) Con otra sintaxis (sintaxispremio) crear la variable “premio” donde según el criterio mencionado 1=SI
recibe premio y 0=NO recibe premio.
Se consideró el siguiente criterio para premiar a los colegios (donde 1=SI, 0=NO)
Estadísticos

puntaje promedio entre lenguaje y matemáticas


Municipalizado y Rural N Válidos 68
Perdidos 0
Percentiles 75 225,6250
Municipalizado y Urbano N Válidos 587
Perdidos 0
Percentiles 75 246,0000
Privado y Rural N Válidos 19
Perdidos 0
Percentiles 75 322,0000
Privado y Urbano N Válidos 388
Perdidos 0
Percentiles 75 324,0000
Subvencionado y Rural N Válidos 86
Perdidos 0
Percentiles 75 246,3750
Subvencionado y Urbano N Válidos 1171
Perdidos 0
Percentiles 75 286,0000

*** Sintaxis Premio ***.


IF (grupo = 1 & puntprom >= 225.625) premio = 1 .
IF (grupo = 1 & puntprom < 225.625) premio = 0 .
IF (grupo = 2 & puntprom >= 246) premio = 1 .
IF (grupo = 2 & puntprom < 246) premio = 0 .
IF (grupo = 3 & puntprom >= 322.5) premio = 1 .
IF (grupo = 3 & puntprom < 322.5) premio = 0 .
IF (grupo = 4 & puntprom >= 324) premio = 1 .
IF (grupo = 4 & puntprom < 324) premio = 0 .

133
IF (grupo = 5 & puntprom >= 246.375) premio = 1 .
IF (grupo = 5 & puntprom < 246.375) premio = 0 .
IF (grupo = 6 & puntprom >= 286) premio = 1 .
IF (grupo = 6 & puntprom < 286) premio = 0 .

VARIABLE LABELS premio 'premio (SI=1, NO=0)' .


EXECUTE .

En definición de variables se agrega la etiqueta de valor


1=SI
0=NO

2. Realizar un análisis descriptivo de los datos


a) ¿Cuántos establecimientos rurales y urbanos existen en el archivo de datos y qué porcentaje
representan del total? ¿Qué tipo de dependencia se observa con mayor y menor frecuencia? ¿Qué grupo
homogéneo de establecimientos presenta mayor frecuencia?

Se debe realizar una tabla de frecuencias de la variable caract, dependencia y grupo.


Analizar/ frecuencias.
Sintaxis del procedimiento:
FREQUENCIES
VARIABLES=dependencia tipo grupo
/ORDER= ANALYSIS .

Ca racterizaci ón de l esta bleci miento

Porcentaje Porcentaje
Frecuenc ia Porcentaje válido acumulado
Válidos Rural 173 7,5 7,5 7,5
Urbano 2146 92, 5 92, 5 100,0
Tot al 2319 100,0 100,0

Tipo de depe ndencia

Porcentaje Porcentaje
Frecuenc ia Porcentaje válido acumulado
Válidos Municipalizado 655 28, 2 28, 2 28, 2
Privado 407 17, 6 17, 6 45, 8
Subvenc ionado 1257 54, 2 54, 2 100,0
Tot al 2319 100,0 100,0

134
grupo

Porcentaje Porcentaje
Frecuenc ia Porcentaje válido acumulado
Válidos Municipalizado y Rural 68 2,9 2,9 2,9
Municipalizado y Urbano 587 25, 3 25, 3 28, 2
Privado y Rural 19 ,8 ,8 29, 1
Privado y Urbano 388 16, 7 16, 7 45, 8
Subvenc ionado y Rural 86 3,7 3,7 49, 5
Subvenc ionado y Urbano 1171 50, 5 50, 5 100,0
Tot al 2319 100,0 100,0

De la tabla de frecuencia, se observa que existen 2146 colegios de tipo urbano y 173 colegios de tipo Rural
representando el 92,5% y 7,5 % respectivamente sobre el total de colegios considerados en la base de datos.
Por otra parte de la tabla de frecuencia de dependencia se tiene que la mayor frecuencia se presenta en los
establecimientos subvencionados representando el 54,2% del total y la menor frecuencia en los
establecimientos Privados representando el 17,6% del total.
Respecto a los grupos homogéneos el de mayor frecuencia es el grupo de Subvencionado y Urbano
representando aproximadamente la mitad de los colegios considerados en estudio, le sigue el grupo de
Municipalizados y Urbanos representando un cuarto de los colegios en estudio.

b) ¿Cuántos colegios obtuvieron puntajes promedio en Matemáticas inferior o igual a 250 puntos; entre
251 y 300 puntos y superior a 300 puntos?

Para responder esta pregunta se debe crear rangos de puntajes en base al puntaje de Matemáticas.
Transformar/Recodificar/en distinta variable
Ingresar la variable prom_mat y definir variable nueva rangmat (notar que la variable prom_mat es una
variable de números enteros)

Sintaxis del procedimiento:


RECODE
prom_mat
(Lowest thru 250=1) (251 thru 300=2) (301 thru Highest=3) INTO rangmat.
VARIABLE LABELS rangmat 'rangos de puntajes en matematicas'.
EXECUTE .
.
En la ventana de definición de variables considerar la variable rangmat y en valores definir cada rango como:

1 =Hasta 250
2 = 251-300
3= superior a 300

Luego realizar una tabla de frecuencias de la variable rangmat

135
rangos de puntaje s en mate maticas

Porcentaje Porcentaje
Frecuenc ia Porcentaje válido acumulado
Válidos Hasta 250 1169 50, 4 50, 4 50, 4
251-300 658 28, 4 28, 4 78, 8
Superior a 300 492 21, 2 21, 2 100,0
Tot al 2319 100,0 100,0

En la tabla de frecuencia se puede apreciar la cantidad de colegios por rangos de puntajes en matemáticas Se
puede observar que aproximadamente la mitad de los colegios en estudio obtuvieron un puntaje promedio en
matemáticas menor o igual a 250 puntos. Un poco más de la quinta parte de los colegios obtiene un puntaje
superior a 300 puntos.

c) ¿Qué porcentaje de colegios obtuvieron puntajes promedio en Lenguaje superior a 300 puntos?
¿Cuántos de ellos son Municipalizados y Urbanos? ¿Qué puede decir de los Municipalizados y Rurales?

En primer lugar se debe crear dos rangos para la variable prom_len; Hasta 300 puntos y Superior a 300
puntos.
Transformar/Recodificar/en distinta variable
Ingresar la variable prom_len y definir variable nueva rangleng (notar que la variable prom_len es una variable
de números enteros)

Sintaxis del procedimiento


RECODE
prom_len
(Lowest thru 300=1) (301 thru Highest=2) INTO rangleng .
VARIABLE LABELS rangleng 'rangos de puntajes en lenguaje'.
EXECUTE .

En la ventana de definición de variables considerar la variable rangleng y en valores definir cada rango como:

1 =Hasta 300
2 = superior a 300
Luego realizar una tabla de frecuencias de la variable rangleng

De la tabla de frecuencias se puede observar que el 13,8% de los colegios obtuvieron un puntaje superior a

rangos de puntaje s en lenguaje

Porcentaje Porcentaje
Frecuenc ia Porcentaje válido acumulado
Válidos Hasta 300 1999 86, 2 86, 2 86, 2
Superior a 300 320 13, 8 13, 8 100,0
Tot al 2319 100,0 100,0
300 puntos.

136
Para responder cuántos de estos colegios son Municipalizados y Urbanos, se puede seleccionar a rangleng igual
a 2 que corresponde a los puntajes superiores a 300 puntos y luego pedir una tabla de contingencia para las
variables dependencia y tipo.
Datos/Seleccionar casos

Sintaxis del procedimiento

USE ALL.
COMPUTE filter_$=(rangleng = 2).
VARIABLE LABEL filter_$ 'rangleng = 2 (FILTER)'.
VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE .

CROSSTABS
/TABLES=dependencia BY caract
/FORMAT= AVALUE TABLES
/CELLS= COUNT
/COUNT ROUND CELL .

Tabla de continge ncia Tipo de de pendencia * Ca racte rización del


establecimie nto

Rec uento
Caracterización del
est ablec imient o
Rural Urbano Tot al
Tipo de Municipalizado 0 10 10
dependencia Privado 7 193 200
Subvenc ionado 2 108 110
Tot al 9 311 320
Se ha considerado los puntajes superiores a 300 puntos

De la tabla de contingencia se puede apreciar que de los colegios con puntajes superiores a 300 puntos, sólo
10 corresponden a Municipalizado y Urbano y ninguno a Municipalizado y Rural

Otra forma de responder a esta pregunta podría ser solicitando una tabla de contingencia para dependencia
y tipo con una capa dada por la variable rangleng (para esto seleccionar todos los casos)

Sintaxis del procedimiento


CROSSTABS
/TABLES=dependencia BY tipo BY rangleng
/FORMAT= AVALUE TABLES
/CELLS= COUNT
/COUNT ROUND CELL .

137
Tabla de continge ncia Tipo de de pendencia * Ca racte rización del establecimie nto * rangos
de punta jes e n lenguaj e

Rec uento
Caracterización del
rangos de puntajes est ablec imient o
en lenguaje Rural Urbano Tot al
Has ta 300 Tipo de Municipalizado 68 577 645
dependencia Privado 12 195 207
Subvenc ionado 84 1063 1147
Tot al 164 1835 1999
Superior a 300 Tipo de Municipalizado 0 10 10
dependencia Privado 7 193 200
Subvenc ionado 2 108 110
Tot al 9 311 320

De esta forma se obtiene el mismo resultado. Si se quiere mostrar una tabla focalizada a la respuesta, se
puede pivotar editando la tabla y moviendo al pivote de rangos de puntajes al extremo superior izquierdo. De
esta forma se puede obtener la siguiente tabla.

Tabla de continge ncia Tipo de de pendencia * Ca racte rización del


establecimie nto * rangos de punta jes e n lenguaj e

Rec uento
rangos de puntajes en lenguaje: Superior a 300
Caracterización del
est ablec imient o
Rural Urbano Tot al
Tipo de Municipalizado 0 10 10
dependencia Privado 7 193 200
Subvenc ionado 2 108 110
Tot al 9 311 320

d) ¿Qué porcentaje representa el total de colegios premiados respecto al total de colegios? ¿Qué
porcentaje de los colegios Municipalizados resultaron premiados? ¿Qué porcentaje de los colegios premiados
son Subvencionados? ¿Qué porcentaje de los premiados son de la zona Norte, Centro y Sur? ¿Qué porcentaje
de la zona Centro son premiados? ¿Qué porcentaje del total son premiados y del Sur?
Para responder a estas preguntas se puede considerar tablas de frecuencia y de contingencia.
En primer lugar solicitaremos una tabla de frecuencia de premio
premio (SI=1, NO=0)

Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos NO 1730 74,6 74,6 74,6
SI 589 25,4 25,4 100,0
Total 2319 100,0 100,0

De la tabla de frecuencias se obtiene que el 25,4% del total de colegios resulta premiado.
Para saber qué porcentaje de los colegios Municipalizados resultaron premiados, y qué porcentaje de los
colegios premiados son Subvencionados podemos realizar una tabla de contingencia de la variable
dependencia versus premio solicitando el porcentaje fila y columna.

138
CROSSTABS
/TABLES=dependencia BY premio
/FORMAT= AVALUE TABLES
/CELLS= COUNT ROW COLUMN TOTAL
/COUNT ROUND CELL .

De la tabla se observa que de los colegios Municipalizados el 25, 3% resultaron premiados y que del total de
premiados el 54% corresponde a Subvencionados

Tabla de continge ncia Tipo de de pendencia * pre mio (SI=1, NO= 0)

premio (S I=1, NO=0)


NO SI Tot al
Tipo de Municipalizado Rec uento 489 166 655
dependencia % de Tipo de
74, 7% 25, 3% 100,0%
dependencia
% de premio
28, 3% 28, 2% 28, 2%
(SI= 1, NO=0)
Privado Rec uento 302 105 407
% de Tipo de
74, 2% 25, 8% 100,0%
dependencia
% de premio
17, 5% 17, 8% 17, 6%
(SI= 1, NO=0)
Subvencionado Rec uento 939 318 1257
% de Tipo de
74, 7% 25, 3% 100,0%
dependencia
% de premio
54, 3% 54, 0% 54, 2%
(SI= 1, NO=0)
Tot al Rec uento 1730 589 2319
% de Tipo de
74, 6% 25, 4% 100,0%
dependencia
% de premio
100,0% 100,0% 100,0%
(SI= 1, NO=0)

De la misma forma para saber los porcentajes en relación a la zona podemos realizar una tabla de contingencia
de zona versus premio solicitando los porcentajes fila, columna y total

CROSSTABS
/TABLES=zona BY premio
/FORMAT= AVALUE TABLES
/CELLS= COUNT ROW COLUMN TOTAL
/COUNT ROUND CELL .

139
Tabla de continge ncia zona * pre mio (SI=1, NO=0)

premio (S I=1, NO=0)


NO SI Tot al
zona Norte Rec uento 209 72 281
% de zona 74, 4% 25, 6% 100,0%
% de premio
12, 1% 12, 2% 12, 1%
(SI= 1, NO=0)
% del tot al 9,0% 3,1% 12, 1%
Centro Rec uento 1076 341 1417
% de zona 75, 9% 24, 1% 100,0%
% de premio
62, 2% 57, 9% 61, 1%
(SI= 1, NO=0)
% del tot al 46, 4% 14, 7% 61, 1%
Sur Rec uento 445 176 621
% de zona 71, 7% 28, 3% 100,0%
% de premio
25, 7% 29, 9% 26, 8%
(SI= 1, NO=0)
% del tot al 19, 2% 7,6% 26, 8%
Tot al Rec uento 1730 589 2319
% de zona 74, 6% 25, 4% 100,0%
% de premio
100,0% 100,0% 100,0%
(SI= 1, NO=0)
% del tot al 74, 6% 25, 4% 100,0%

Se obtiene que de los colegios premiados el 12,2% corresponde a la zona Norte, el 57,9% corresponde a la
zona Centro y el 29,9% corresponde a la zona Sur. Ahora respecto a los colegios de la zona Centro el 24,1%
resulta premiado y respecto al total de colegios el 7,6% son premiados y de la zona Sur.

e) ¿Qué porcentaje de los colegios premiados son urbanos? ¿Qué porcentaje de los colegios rurales son
premiados? ¿Qué porcentaje de colegios resultaron premiados por grupo?

En forma análoga a la pregunta anterior se puede resolver con una tabla de contingencia de premio versus tipo
y premio versus grupo

Tabla de contingencia Caracterización del establecimiento * premio (SI=1, NO=0)


Sintaxis del procedimiento premio (SI=1, NO=0)
CROSSTABS Caracterización del Rural Recuento
NO SI Total
131 42 173
/TABLES=tipo grupo BY premio establecimiento % de Caracterización
75,7% 24,3% 100,0%
del establecimiento
/FORMAT= AVALUE TABLES % de premio (SI=1,
7,6% 7,1% 7,5%
NO=0)
/CELLS= COUNT ROW COLUMN TOTAL % del total 5,6% 1,8% 7,5%

/COUNT ROUND CELL .


Urbano Recuento 1599 547 2146
% de Caracterización
74,5% 25,5% 100,0%
del establecimiento
% de premio (SI=1,
92,4% 92,9% 92,5%
De la tabla se obtiene que de los colegios premiados, el 92,9% son urbanos y del total
69,0%
de23,6%
colegios
NO=0)
rurales el
% del total
92,5%
24,3 % son premiados Total 1730 Recuento
589 2319
% de Caracterización
De la tabla de contingencia de grupo versus premio se puede ver que el criterio utilizado
74,6%
para100,0%
25,4%
premiar a los
del establecimiento
% de premio (SI=1,
mejores colegios según su rendimiento SIMCE otorgó casi equitativamente el 25% de colegios premiados por
100,0% 100,0% 100,0%
NO=0)
% del total
grupo.
74,6% 25,4% 100,0%

140
Tabla de continge ncia grupo * pre mio (SI=1, NO= 0)

premio (S I=1, NO=0)


NO SI Tot al
grupo Municipalizado y Rural Rec uento 51 17 68
% de grupo 75, 0% 25, 0% 100,0%
% de premio
2,9% 2,9% 2,9%
(SI= 1, NO=0)
% del tot al 2,2% ,7% 2,9%
Municipalizado y Urbano Rec uento 438 149 587
% de grupo 74, 6% 25, 4% 100,0%
% de premio
25, 3% 25, 3% 25, 3%
(SI= 1, NO=0)
% del tot al 18, 9% 6,4% 25, 3%
Privado y Rural Rec uento 15 4 19
% de grupo 78, 9% 21, 1% 100,0%
% de premio
,9% ,7% ,8%
(SI= 1, NO=0)
% del tot al ,6% ,2% ,8%
Privado y Urbano Rec uento 287 101 388
% de grupo 74, 0% 26, 0% 100,0%
% de premio
16, 6% 17, 1% 16, 7%
(SI= 1, NO=0)
% del tot al 12, 4% 4,4% 16, 7%
Subvencionado y Rural Rec uento 65 21 86
% de grupo 75, 6% 24, 4% 100,0%
% de premio
3,8% 3,6% 3,7%
(SI= 1, NO=0)
% del tot al 2,8% ,9% 3,7%
Subvencionado y Urbano Rec uento 874 297 1171
% de grupo 74, 6% 25, 4% 100,0%
% de premio
50, 5% 50, 4% 50, 5%
(SI= 1, NO=0)
% del tot al 37, 7% 12, 8% 50, 5%
Tot al Rec uento 1730 589 2319
% de grupo 74, 6% 25, 4% 100,0%
% de premio
100,0% 100,0% 100,0%
(SI= 1, NO=0)
% del tot al 74, 6% 25, 4% 100,0%

f) ¿A qué zona pertenecen los cinco mayores puntajes promedios SIMCE por tipo rural y urbana? Realice
un gráfico que permita observar la forma de la distribución de los puntajes promedio SIMCE para los colegios
rurales y los urbanos y muestre además un diagrama de caja (boxplot) por tipo para el puntaje promedio ¿Qué
puede observar?

Para responder a la pregunta se puede solicitar en explorar una tabla de valores extremos de puntaje promedio
por tipo, identificando por zona, y en gráficos pedir el histograma y diagrama de cajas.

EXAMINE
VARIABLES=puntprom BY caract /ID= zona
/PLOT BOXPLOT HISTOGRAM
/COMPARE GROUP

141
/STATISTICS EXTREME
/MISSING LISTWISE
/NOTOTAL.

Va lores extre mos

Mayores
Caracterización del Número
est ablecimient o del caso zona Valor
puntaje promedio entre Rural 1 2011 Centro 351,50
lenguaje y mat emáticas 2 2016 Centro 334,50
3 2010 Centro 330,50
4 2015 Centro 324,50
5 2012 Sur 322,00a
Urbano 1 2090 Centro 357,50
2 2052 Centro 352,50
3 2170 Centro 352,50
4 2203 Centro 350,50
5 2093 Centro 348,50
a. En la tabla de valores extremos mayores s ólo se mues tra una list a parc ial de los c asos
con el valor 322,00.

De esta forma se obtiene que los colegios de mayor puntaje promedio tanto en los colegios de tipo rural como
de tipo urbano se encuentran en la zona Centro, excepto el colegio con el quinto mejor puntaje de tipo rural
que recae en la zona Sur (aunque existen otros puntajes con 322 puntos en promedio)
En los histogramas se puede observar la forma de la distribución de los puntajes promedios para los colegios
de tipo rural y los de tipo rrbano
En el histograma correspondiente a los colegios de tipo rural se puede apreciar una asimetría positiva con
puntajes mas sesgados hacia puntajes bajos y con varios colegios con puntajes en el extremo superior ( casos
extremos y atípicos). Claramente no es una distribución simétrica, y además algo levantada denotando que es
leptocurtica, por tanto no se asemeja a una distribución normal.

Histograma

para tipo= Rural

40

30
Frecuencia

20

10

Mean = 229,6272
Std. Dev. = 32,69127
0 N = 173
180,00 210,00 240,00 270,00 300,00 330,00 360,00

puntaje promedio entre lenguaje y matemáticas

En cambio la distribución de los puntajes de los colegios de tipo urbano se observa bastante simétrica sin
puntajes claramente extremos y/o atípicos, pero no es clara la forma de una curva normal.

142
Histograma

para tipo= Urbano

120

100

80

Frecuencia
60

40

20

Mean = 259,9103
Std. Dev. = 39,09525
0 N = 2.146
175,00 200,00 225,00 250,00 275,00 300,00 325,00 350,00

puntaje promedio entre lenguaje y matemáticas

Diagrama de caja para puntaje promedio por tipo de colegio Rural y Urbano
puntaje promedio entre lenguaje y matemáticas

Centro
350,00
Centro

Sur
Centro

Centro
300,00

250,00

200,00

Rural Urbano

Caracterización del establecimiento

El diagrama de cajas por tipo rural y urbano nos muestra claramente las diferencias en ambas distribuciones.
Se observa que la mediana de puntajes de los colegios rurales (línea horizontal negra) está cerca de los 220
puntos lo que indica que la mitad de este tipo de colegios tiene un puntaje promedio inferior o igual al valor de
la mediana que en este caso es 221 puntos. Se observan varios valores atípicos y un valor extremo en la parte
superior de puntajes. Los puntajes de los colegios rurales en general están más abajo que si comparamos con
los puntajes de colegios urbanos. Se observa que la mediana de los colegios urbanos está sobre los 250 puntos.

143
Específicamente la mediana es 255 puntos lo que indica que el 50% de los colegios urbanos tienen puntajes
inferiores o iguales a 255 puntos. No se observan valores extremos ni atípicos.

g) Determine mediante una gráfica si hay diferencias entre las medias de los puntajes en lenguaje y en
matemáticas por dependencia para el grupo de colegios en estudio. ¿Existen diferencias en los puntajes de
lenguaje por dependencia, agrupados por tipo rural y urbano? Determine si el comportamiento de los
resultados de puntajes de lenguaje y matemáticas es similar si se compara los segmentos rural y urbano

Para realizar esta gráfica se selecciona Grafico/barras/Para distintas variables/Agrupado


GRAPH
/BAR(GROUPED)=MEAN(prom_len) MEAN(prom_mat) BY dependencia
/MISSING=LISTWISE .

Media de puntajes de lenguaje y matemáticas por dependencia

prom_len
prom_mat

300

200
Media

306,1
291,3
259,5 256,9
235,5
226,6
100

0
Municipalizado Privado Subvencionado

Tipo de dependencia

Del gráfico se observa que tanto para lenguaje como para matemáticas los colegios privados tiene mejores
resultados observándose sin embargo diferencias en casi 15 puntos a favor del promedio de matemáticas. Los
colegios subvencionados presentan puntajes intermedios si comparamos los privados y los municipalizados con
puntajes en torno a 257 puntos en matemáticas y con una diferencia de solo 2 puntos a favor del puntaje
promedio en lenguaje. Los colegios municipalizados presentan los puntajes promedios mas bajos en ambas
pruebas con una diferencia de cerca de 9 puntos a favor de lenguaje.

Para responder a la pregunta si existen diferencias en los puntajes de lenguaje por dependencia, agrupados
por tipo rural y urbano hacemos un gráfico de barras agrupados seleccionando resúmenes para grupos de casos
GRAPH

144
/BAR(GROUPED)=MEAN(prom_len) BY dependencia BY caract

Media de puntajes promedios en lenguaje por dependencia agrupados por


caracterización Rural y Urbano

300
Caracterización del
establecimiento
Rural
Urbano

250

200
Media prom_len

150 292,2
272,9
261,4
237,1 234
221,3
100

50

0
Municipalizado Privado Subvencionado

Se observa una clara diferencia entreTipo


losde
grupos con caracterización rural y urbana, notándose en los tres
dependencia
grupos de dependencia un promedio en lenguaje bastante mas bajo en los colegios rurales en relación a los
colegios urbanos.
Para comparar el comportamiento en los resultados de ambas pruebas por dependencia entre la
caracterización de Rural y Urbano es conveniente hacer un gráfico en dos paneles. Para esto vamos a gráficos
de barras agrupados y seleccionar resumen para distintas variables
GRAPH
/BAR(GROUPED)=MEAN(prom_len) MEAN(prom_mat) BY dependencia
/PANEL ROWVAR=caract ROWOP=CROSS
/MISSING=LISTWISE .

145
Media de puntajes de lenguaje y matemáticas por dependencia para colegios
urbanos y rurales
prom_len
prom_mat
300

Urbano
Media

Caracterización del establecimiento


200

292,2 307
261,4 259,3
237,1 228,5
100

300
Media

Rural
200

272,9 286,8
221,3 234 224,7
100 210,6

0
Municipalizado Privado Subvencionado

Tipo de dependencia

El gráfico nos muestra un comportamiento muy similar por dependencia entre los urbanos y rurales en cuanto
a que los puntajes promedios más altos se observan en los colegios privados, los puntajes intermedios en los
subvencionados y los puntajes más bajos en los municipalizados.
En todos los casos los urbanos presentan mayor puntaje promedio si se compara con los puntajes de los colegios
rurales.

h) Determine los estadísticos básicos de tendencia central, de dispersión y de forma de la distribución


de los puntajes promedios SIMCE para los distintos grupos homogéneos, y muestre gráficamente la media de
los puntajes promedios SIMCE por grupo homogéneo. Interprete los estadísticos para el grupo de
municipalizados y rurales.

Para responder a esta pregunta hay varios posibles procedimientos.


Una forma posible es realizar un cubo OLAP para la variable puntprom con variable de agrupación grupo.

Analizar/ Reporte/ Cubo OLAP


Sintaxis del procedimiento

146
OLAP CUBES
puntprom BY grupo
/CELLS=COUNT MEAN MEDIAN MIN MAX STDDEV SKEW KURT NPCT
/TITLE='OLAP Cubes'.

Para dejar la forma de la tabla siguiente se puede editar el cubo, mover el pivote de grupo, al lado superior
derecho, el pivote de estadísticos, al lado inferior izquierdo y el pivote variable al lado superior izquierdo.
Estadísti cos descri ptivos para el punta je promedio entre m atem ática s y le ngua je de la prueba SIMCE por grupo

puntaje promedio entre lenguaje y matemáticas


% del
grupo N Media Mediana Mínimo Máximo Des v. típ. Asimetría Curtosis total de N
Municipalizado y Rural 68 215,9265 215,7500 181,00 257,00 15, 49103 ,216 -,111 2,9%
Municipalizado y Urbano 587 232,8169 228,0000 185,00 348,00 27, 32073 1,156 1,845 25, 3%
Privado y Rural 19 279,8947 277,5000 213,00 351,50 43, 41933 ,129 -1,616 ,8%
Privado y Urbano 388 299,6224 311,0000 187,50 357,50 34, 06601 -,892 ,017 16, 7%
Subvenc ionado y Rural 86 229,3547 225,2500 181,00 322,00 29, 31110 ,971 1,015 3,7%
Subvenc ionado y Urbano 1171 260,3335 260,0000 179,00 337,00 33, 95561 ,026 -,856 50, 5%
Tot al 2319 257,6511 252,0000 179,00 357,50 39, 45891 ,320 -,920 100,0%

• Una segunda forma de lograr esta tabla de forma inmediata es utilizando el menú Medias.
Analizar/ Comparar medias/ medias
Sintaxis del procedimiento
MEANS
TABLES=puntprom BY grupo
/CELLS COUNT MEAN MEDIAN MIN MAX STDDEV SKEW KURT NPCT

Para dejar la misma forma de la tabla anterior se puede transponer filas y columnas desde el menú Pivotar
una vez editada la tabla.

Informe

puntaje promedio entre lenguaje y matemáticas


% del
grupo N Media Mediana Mínimo Máximo Des v. típ. Asimetría Curtosis total de N
Municipalizado y Rural 68 215,9265 215,7500 181,00 257,00 15, 49103 ,216 -,111 2,9%
Municipalizado y Urbano 587 232,8169 228,0000 185,00 348,00 27, 32073 1,156 1,845 25, 3%
Privado y Rural 19 279,8947 277,5000 213,00 351,50 43, 41933 ,129 -1,616 ,8%
Privado y Urbano 388 299,6224 311,0000 187,50 357,50 34, 06601 -,892 ,017 16, 7%
Subvenc ionado y Rural 86 229,3547 225,2500 181,00 322,00 29, 31110 ,971 1,015 3,7%
Subvenc ionado y Urbano 1171 260,3335 260,0000 179,00 337,00 33, 95561 ,026 -,856 50, 5%
Tot al 2319 257,6511 252,0000 179,00 357,50 39, 45891 ,320 -,920 100,0%

Una tercera forma sería segmentar el archivo previamente por la variable grupo y luego pedir en el menú
frecuencias los estadísticos solicitados.
Sintaxis procedimiento 3
SORT CASES BY grupo .
SPLIT FILE
LAYERED BY grupo .

SPLIT FILE
LAYERED BY grupo .
FREQUENCIES

147
VARIABLES=puntprom
/STATISTICS=STDDEV MINIMUM MAXIMUM MEAN MEDIAN SKEW KURT
/ORDER= ANALYSIS .

De la tabla de estadísticos realizada en el punto anterior se puede observar que en promedio los puntajes de
los colegios del grupo de municipalizados y rurales alcanzan un valor de 215,92 puntos, con una variabilidad
relativamente baja de 15,49 puntos, es decir los puntajes se desvían en promedio respecto a la media en 15,49
puntos, calculado en base a 68 colegios, los que representan un 2,9% del total de colegios considerados en el
estudio. Se observa que la mediana está cercana a la media de los datos (característica de distribuciones
cercanas a distribuciones simétricas), e indica que el 50% de los colegios obtiene un puntaje menor o igual a
215,75 puntos, con puntajes que oscilan entre 181 puntos y 257 puntos, puntajes muy bajos si se compara con
los demás grupos de colegios. Se observa la curtosis negativa y muy cercana a cero, esto significa que la curva
es muy similar a la normal en cuanto a que se asemeja mucho a una curva mesocurtica (característica de la
curva normal). La asimetría es positiva muy cercana a cero por tanto se asemeja bastante a una curva
simétrica. En síntesis se puede apreciar una distribución con un buen ajuste a una normal. Esto se puede
apreciar en el histograma correspondiente. (Para verificar el ajuste a una normal se puede ver el estadístico
de Kolmogorov- Smirnov).

Histograma

para grupo= Municipalizado y Rural

25

20
Frecuencia

15

10

Mean = 215,9265
Std. Dev. = 15,49103
0 N = 68
180,00 200,00 220,00 240,00 260,00

puntaje promedio entre lenguaje y matemáticas

i) Realice un gráfico considerando a todos los colegios en estudio y otro gráfico considerando sólo el
segmento de premiados, que permitan observar la posición del grupo en relación al resto de los grupos en
cuanto a los descriptivos básicos. Interprete.

Para esto realizaremos un diagrama de cajas por grupo.

EXAMINE
VARIABLES=puntprom BY grupo

148
/PLOT BOXPLOT HISTOGRAM
/COMPARE GROUP
/STATISTICS NONE
/CINTERVAL 95
/MISSING LISTWISE
/NOTOTAL.

Diagramas de cajas para los puntajes promedios SIMCE por grupo de colegios
puntaje promedio entre lenguaje y matemáticas

2.008
350,00
2.004
2.006

2.009 2.211
2.007

514
300,00

19

250,00

711

200,00
776

Municipalizado Municipalizado Privado y Rural Privado y Subvencionado Subvencionado


y Rural y Urbano Urbano y Rural y Urbano

grupo

Del gráfico se puede apreciar que los mayores puntajes se concentran en los colegios privados, alcanzando la
mayor mediana los colegios privados urbanos, aunque se observa que existen algunos colegios con puntajes
extremos muy bajos. Por otra parte se puede ver que los puntajes más bajos se concentran en los colegios
municipalizados y rurales presentando la menor de las medianas y es el grupo que presenta la menor
variabilidad en los puntajes, es decir son bastante homogéneos en cuanto al resultado promedio SIMCE,
mostrando sólo un caso sobre los 250 puntos en promedio. Se observa que el grupo de municipalizados urbanos
a pesar de tener la mayoría de los colegios concentrados en puntajes bajos es el único grupo que presenta
varios colegios con puntajes atípicos y un extremo en la parte alta de puntajes. Respecto a los subvencionados
se ve clara diferencia entre los urbanos y rurales donde hay una marcada diferencia a puntajes más bajos en
los colegios rurales.
Para obtener el diagrama de cajas para los premiados, primero se selecciona a los colegios que obtuvieron
premio y una vez filtrada la base se procede a realizar la gráfica.
USE ALL.
COMPUTE filter_$=(premio = 1).
VARIABLE LABEL filter_$ 'premio = 1 (FILTER)'.
VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.
FORMAT filter_$ (f1.0).

149
FILTER BY filter_$.
EXECUTE .
Es claro que la posición de cada grupo en general se mantiene en relación a la gráfica analizada anteriormente.
Los puntajes de los premiados con mayor puntaje se concentran en los privados, observándose muy
concentrados, bastante homogéneos entre si. Sin embargo los puntajes de los premiados con menor puntaje
se concentran en los municipalizados rurales con un puntaje extremo pero que no pasa a la mediana del grupo
de municipalizados urbanos. El grupo de los municipalizados urbanos premiados es el que presenta mas
variabilidad en los puntajes, mostrando seis colegios con puntajes atípicos superiores en el rango de puntajes
del grupo de los privados. El 50% de los colegios que cae en la caja del rango intercuartil (entre el percentil
25 y el percentil 75) del grupo de municipalizados urbanos se comporta de una manera muy similar a los colegios
que se encuentran en la caja del rango intercuartil del grupo de subvencionados rurales. Se observa mas
notoriamente la diferencia en los puntajes de los colegios premiados que pertenecen al grupo de los
subvencionados rurales y los que pertenecen a los subvencionados urbanos.

Diagrama de cajas para los puntajes promedios de los colegios premiados por
grupo

360,00 2.090
2.011
2.008
puntaje promedio entre lenguaje y matemáticas

2.004
340,00
2.006
2.000
2.003 2.211
320,00

300,00

280,00

260,00 19

240,00

220,00

Municipalizado Municipalizado Privado y Rural Privado y Subvencionado Subvencionado


y Rural y Urbano Urbano y Rural y Urbano

grupo

Si consideramos la base de datos como si fuera la población de colegios que rinde la SIMCE, podríamos decir
que claramente se observa diferencias significativas entre las medias de puntajes entre los diferentes grupos
de colegios.

j) Compare la variabilidad entre los distintos grupos para el puntaje promedio SIMCE considerando
todos los colegios en estudio.

150
Para comparar dispersión o variabilidad entre distribuciones diferentes se calcula el coeficiente de variación
que se calcula en base a la desviación estándar y la media.
Indica la magnitud relativa de la desviación estándar en comparación con la media de la distribución, expresada
como porcentaje.

Se calcula como.

C.V = .100

Para esto se puede pedir una tabla con los estadísticos básicos media y desviación estándar y luego en otra
columna se puede calcular el coeficiente de variación en base a la fórmula anterior.

Informe

puntaje promedio entre lenguaje y matemáticas


Coeficiente
de
grupo N Media Desv. típ. Variación
Municipalizado y Rural 68 215,9265 15, 49103 7,17
Municipalizado y Urbano 587 232,8169 27, 32073 11, 73
Privado y Rural 19 279,8947 43, 41933 15, 51
Privado y Urbano 388 299,6224 34, 06601 11, 37
Subvenc ionado y Rural 86 229,3547 29, 31110 12, 78
Subvenc ionado y Urbano 1171 260,3335 33, 95561 13, 04
Tot al 2319 257,6511 39, 45891 15, 31

De la tabla podemos observar que el grupo de colegios municipalizados y rurales es el que tiene menor
variabilidad relativa, concepto que se pudo apreciar en los diagramas de caja. El grupo de los colegios que
presentan mayor variabilidad en puntajes son los grupos “Privado y Rural” y el grupo “Subvencionado y Urbano”.

Concluir
a) Realice resumidamente un análisis descriptivo básico para los colegios premiados usando medidas de
tendencia central y medidas de dispersión.
En primer lugar conviene seleccionar a los colegios premiados. Para esto
Datos/ seleccionar casos/ Si/Premio=1

USE ALL.
COMPUTE filter_$=(premio = 1).
VARIABLE LABEL filter_$ 'premio = 1 (FILTER)'.
VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE .

151
Se puede solicitar una tabla con los estadísticos básicos para el puntaje matemáticas, lenguaje y puntaje
promedio por dependencia.

MEANS
TABLES=prom_mat prom_len puntprom BY dependencia
/CELLS COUNT MEAN MEDIAN STDDEV MIN MAX NPCT .

Informe

puntaje
promedio
ent re lenguaje
y
Tipo de dependencia prom_mat prom_len matemát icas
Municipalizado N 23 23 23
Media 261,35 263,30 262,3261
Mediana 258,00 257,00 256,0000
Des v. típ. 22, 663 14, 683 17, 80361
Mínimo 236 251 246,50
Máximo 325 317 321,00
% del tot al de N 19, 8% 19, 8% 19, 8%
Privado N 21 21 21
Media 347,71 318,90 333,3095
Mediana 344,00 317,00 331,5000
Des v. típ. 13, 539 6,818 8,71848
Mínimo 327 306 322,00
Máximo 380 336 352,50
% del tot al de N 18, 1% 18, 1% 18, 1%
Subvencionado N 72 72 72
Media 312,14 295,61 303,8750
Mediana 313,00 297,50 305,2500
Des v. típ. 19, 149 13, 440 15, 08304
Mínimo 246 252 249,00
Máximo 352 319 331,00
% del tot al de N 62, 1% 62, 1% 62, 1%
Tot al N 116 116 116
Media 308,51 293,42 300,9655
Mediana 313,00 297,50 305,2500
Des v. típ. 33, 019 21, 537 26, 63168
Mínimo 236 251 246,50
Máximo 380 336 352,50
% del tot al de N 100,0% 100,0% 100,0%

Y para visualizar gráficamente los resultados podemos observar el diagrama de cajas para el puntaje promedio
SIMCE por grupo homogéneo
En primer lugar se puede observar que el total de colegios premiados alcanzó a 116 colegios de los cuales el
62,1% corresponde a colegios subvencionados.
Los mejores puntajes se concentran en los colegios privados con un puntaje promedio de 333 puntos, siendo
el promedio de matemáticas superior al promedio de lenguaje en casi 29 puntos. En segundo lugar se observan
los puntajes de los colegios subvencionados con una media de casi 304 puntos y una diferencia de
aproximadamente 17 puntos a favor del promedio de matemáticas. Sin embargo en los colegios municipalizados
se observa apenas una media de 262 puntos muy inferior a los privados y subvencionados con un puntaje
bastante parejo entre la media de matemáticas y lenguaje observándose sólo 2 puntos a favor de lenguaje.
Si observamos el diagrama de cajas de la pregunta h) , el grupo de colegios premiados que presenta menores
puntajes corresponde al grupo Municipalizados y Rurales alcanzando una mediana cerca de 235 puntos,
observándose un colegio con un valor atípico cerca de 257 puntos.

152
Se observa una gran diferencia en los puntajes de los premiados municipalizados urbanos que alcanzan una
mediana de casi 262 puntos con varios puntajes promedios atípicos altos, hasta 348 puntos, además se observa
bastante variabilidad entre los puntajes promedios de este grupo. Los colegios premiados privados, tanto rural
como urbano se presentan con puntajes altos bastante homogéneos y con por lo menos el 50% de los colegios
con puntajes promedios sobre 332 puntos. Respecto a los colegios subvencionados se observa una gran
diferencia entre rurales y urbanos siendo la mediana de los puntajes 265 y 303 puntos respectivamente.
La media de los puntajes del total de colegios premiados alcanzó un promedio de aproximadamente 301 puntos
con una mediana de 305 puntos indicando que el 50% de los colegios premiados alcanzaron un puntaje promedio
superior o igual a 305 puntos, obteniendo como valor mínimo 246, 5 puntos y un máximo de 352,5 puntos, lo
que da una amplitud bastante amplia de 116 puntos con una desviación estándar de aproximadamente 27 puntos,
es decir en promedio los puntajes se desvían de la media en 26 puntos.
En síntesis, si bien los colegios considerados son todos premiados existe mucha variabilidad entre ellos,
debiendo ser necesario focalizar estrategias para apoyar a los colegios rurales no privados, que están muy
por debajo de los urbanos y de los privados en general.

153
XII. Caso: Producción minera 2009-201012

Objetivos del caso:


Importar un archivo desde Excel a SPSS
Aplicar agregación para la solución de un problema.
Generar gráficos con datos agregados
Transponer archivos

Suponga que usted es un asesor de una empresa minera y debe entregar algunas estadísticas de producción
agregada. Considere el archivo en Excel llamado Producción minera 2009-2010.
El objetivo de este caso es importar un archivo desde Excel a SPSS, utilizar algunas funciones para calcular
variables y generar nuevos archivos con agregar.

1) Desde SPSS importar el archivo considerando la hoja prod minera 2009-2010 mensual.

2) Calcule una variable que muestre solo el año y otra que muestre solo el mes

3) Genere un archivo con estadísticas agregadas de producción para el año 2009 y 2010 considerando
la producción de cobre y oro. Para esto considere para cada año la producción total, la media de
producción mensual, la variabilidad, la mínima y máxima producción.

4) Transponer el archivo creado y guarde como Producc agregada 2009-2010 y realice una tabla con los
datos del archivo.

5) Genere un gráfico que muestre para cada año la producción promedio mensual de cobre

6) Genere un gráfico que muestre para cada año la producción media mensual de cobre, la mínima y máxima
producción mensual y la variabilidad de producción de cobre

7) Considerando los años 2009 y 2010 genere un archivo con estadísticas agregadas por mes para la
producción de oro. Para esto considere la media de producción mensual , la mínima y máxima producción,
la desviación estándar y el coeficiente de variabilidad de la producción de oro.

12
Caso elaborado por Sara Arancibia

154
SOLUCION
1) Desde SPSS importar el archivo considerando la hoja prod minera 2009-2010 mensual.
Solución: Archivo /abrir/datos

Ajuste en vista de variables los decimales a 2 y guardar con el nombre producción minera 2009-2010
mensual

155
2) Calcule una variable que muestre solo el año y otra que muestre solo el mes.

Para calcular el mes


Transformar /calcular variable/ variable de destino: mes, tipo; cadena, anchura 10/expresión de cadena:
CHAR.SUBSTR(AñoyMes,6). Pegar/ ejecutar/Aceptar.

DATASET ACTIVATE Conjunto_de_datos1.


STRING mes (A10).
COMPUTE mes=CHAR.SUBSTR(AñoyMes,6).
VARIABLE LABELS mes 'mes'.
EXECUTE.
Para calcular el año
Transformar /calcular variable/ variable de destino: año, tipo; cadena, anchura 4/expresión de cadena:
CHAR.SUBSTR(AñoyMes,1,4). Pegar/ ejecutar/Aceptar
STRING año (A4).
COMPUTE año=CHAR.SUBSTR(AñoyMes,1,4).
VARIABLE LABELS año 'año'.
EXECUTE.
Para pasar a formato numérico ir a vista de variables y cambiar formato de cadena a numérico, cambiar además
en medida de nominal a escala

3) Genere un archivo con estadísticas agregadas de producción para el año 2009 y 2010
considerando la producción de cobre y oro. Para esto considere para cada año la producción total,
la media de producción mensual , la variabilidad, la mínimo y máxima producción

Datos/ Agregar/variable de segmentación : año/Resúmenes de variables


/Cobretdefino_sum 'prod total de cobre'=SUM(Cobretdefino)
/Cobretdefino_mean 'prod media de cobre'=MEAN(Cobretdefino)
/Cobretdefino_min 'Mínima prod de cobre'=MIN(Cobretdefino)
/Cobretdefino_max 'Máxima prod de cobre'=MAX(Cobretdefino)
/Cobretdefino_sd 'variabilidad en la prod de cobre'=SD(Cobretdefino)
/Orokgdefino_sum 'prod total de oro'=SUM(Orokgdefino)
/Orokgdefino_mean_1 'prod media de oro'=MEAN(Orokgdefino)
/Orokgdefino_min 'minima prod de oro'=MIN(Orokgdefino)
/Orokgdefino_max 'maxima prod de oro'=MAX(Orokgdefino)
/Orokgdefino_sd 'variabilidad en la prod de oro'=SD(Orokgdefino)
Activar número de casos: casos
Crear un nuevo conjunto de datos : Nombre del conjunto de datos: AGRPROD

156
4) Transponer el archivo creado y guarde como Producc agregada 2009-2010 y realice una tabla con
los datos del archivo.

Datos/ transponer
DATASET ACTIVATE Conjunto_de_datos10.
FLIP VARIABLES=Cobretdefino_sum Cobretdefino_min Cobretdefino_max Cobretdefino_sd
Orokgdefino_sum
Orokgdefino_mean_1 Cobretdefino_mean Orokgdefino_min Orokgdefino_max Orokgdefino_sd
/NEWNAME=año.

Se genera un nuevo archivo sin título. Guardar como: Producc agregada 2009-2010, luego ir a Analizar/
informes Resúmenes de casos./limitar a los primeros 11 casos.

157
5) Genere un gráfico que muestre para cada año la producción mensual de cobre

Considere el archivo AGRPROD.sav /ir a gráficos /cuadros de diálogo antiguos/ barras/ simple/ valores
individuales de casos/ las barras representan: Cobretdefino_mean, varaible:año

158
Otra forma Considere el archivo prod minera 2009-2010. Ir a gráficos /cuadros de diálogo antiguos/ barras/
simple/ resúmenes para grupos de casos/ las barras representan: MEAN(Cobretdefino), eje de categorías :
año

6) Genere un gráfico que muestre para cada año la producción media mensual de cobre, la mínima y
máxima producción mensual y la variabilidad de producción de cobre
Ir a gráficos /cuadros de diálogo antiguos/ barras/ agrupados/ resúmenes para distintas
variables/ las barras representan: MEAN(Cobretdefino), MIN(Cobretdefino),
MAX(Cobretdefino), STD(Cobretdefino), eje de categorías : año. Aceptar

159
7) Considerando los años 2009 y 2010 genere un archivo con estadísticas agregadas por mes para la
producción de oro. Para esto considere la media de producción mensual, la mínima y máxima
producción, la desviación estándar y el coeficiente de variabilidad de la producción de oro.

Ir a Datos Agregar/ Considere las variables como en la imagen y escriba un nuevo archivo de datos
con el nombre AGRPRODMES.sav
Luego abrir el archivo creado y generar la variables CV (Coeficiente de variabilidad). Para esto ir a
Transformar/calcular/ (Orokgdefino_sd / Orokgdefino_mean_1)*100

El resultado se puede ver en el archivo agregado

160
161
13
XIII. Estudio de Caso: Tasa de crecimiento promedio

Cálculo de la tasa de crecimiento promedio de las exportaciones de cobre por formato de exportación
(Uso del agregar y media geométrica)

La importancia del sector minero, en particular la minería del cobre, en el desarrollo económico de los países
productores ha sido y seguirá siendo de vital importancia para mejorar las condiciones de vida y el bienestar
de las personas. A través del tiempo los países exportadores de este metal (principalmente Chile) han
demostrado que es posible crecer a partir de la explotación de sus riquezas mineras, tal es el caso de Perú,
Canadá, Australia, Estados Unidos, Suecia, Finlandia y Nueva Zelanda, entre otros. La importancia estratégica
de la industria del cobre, la gran magnitud de las inversiones realizadas y la cantidad creciente de proyectos
que giran en torno a esta actividad obliga a los principales agentes a la realización de estudios que permitan a
las empresas mejorar permanentemente sus sistemas productivos, comerciales y de financiación, de manera
de mantener un adecuado equilibrio entre los aspectos coyunturales y los estructurales de la actividad. En lo
específico, la exportación de cobre ha sido para algunos países, como el caso de Chile, un factor moderador
de la crisis financiera internacional. En Chile, la industria extractiva del cobre es la principal industria, las
exportaciones del metal lideran el sector exportador. (Referencia El mercado del cobre a nivel mundial:
evolución, riesgos, características y potencialidades futuras. Revista Chilena de Ingeniería)
Suponga que Usted es el encargado de revisar un proyecto del sector de la minería y requiere comprobar el
valor de la tasa de crecimiento promedio de las exportaciones de cobre entre los años 2012 y 2017 por formato
de exportación.
Usted consiguió una base de datos desde https://www.cochilco.cl de las exportaciones físicas de cobre
mensual en miles de TM cobre fino por formato

1) Crear un archivo por año, que considere el total de miles de TM de cobre fino por cada formato de
exportación. Muestre una tabla donde se observen los datos del archivo creado.
2) Transponer el archivo de datos agregado
3) Calcule la tasa de crecimiento promedio de las exportaciones de cobre, por formato de exportación.
4) Calcule la variación de la exportación de cobre del año 2017 respecto al 2016.

13
TP Caso elaborado por Sara Arancibia

162
Solución:

1)
Menú Datos/ Agregar

DATASET ACTIVATE DataSet4.


DATASET DECLARE AGRaño.
AGGREGATE
/OUTFILE='AGRaño'
/BREAK=año
/REFINADOS_1__sum 'Total Refinado anual'=SUM(REFINADOS_1_)
/BLISTER_sum 'Total Blister anual'=SUM(BLISTER)
/GRANELES_sum 'Total Graneles anual'=SUM(GRANELES).

Analizar/ Reportes / Resúmenes de casos

DATASET ACTIVATE AGRaño.


SUMMARIZE
/TABLES=año REFINADOS_1__sum BLISTER_sum GRANELES_sum
/FORMAT=VALIDLIST NOCASENUM TOTAL LIMIT=7
/TITLE='Case Summaries'
/MISSING=VARIABLE
/CELLS=COUNT.

2) Transponer el archivo de datos agregado


Datos/ Transponer

163
FLIP VARIABLES=REFINADOS_1__sum BLISTER_sum GRANELES_sum
/NEWNAMES=año.
DATASET NAME DataSet6 WINDOW=FRONT.
DATASET ACTIVATE DataSet6.
SUMMARIZE
/TABLES=CASE_LBL K_2012 K_2013 K_2014 K_2015 K_2016 K_2017 K_2018
/FORMAT=VALIDLIST NOCASENUM TOTAL LIMIT=3
/TITLE='Case Summaries'
/MISSING=VARIABLE
/CELLS=NONE.

3) Calcule la tasa de crecimiento promedio de las exportaciones de cobre, por formato de exportación

Transformar/ Calcular

COMPUTE TasacrecMG=((K_2017 / K_2012) ** (1/5))-1.


VARIABLE LABELS TasacrecMG 'Tasa de crecimiento promedio'.
EXECUTE.

164
4) Calcule la variación de la exportación de cobre del año 2017 respecto al 2016

COMPUTE variación=(K_2017 / K_2016) - 1.


VARIABLE LABELS variación 'variación 2017-2016'.
EXECUTE.

SUMMARIZE
/TABLES=CASE_LBL K_2016 K_2017 variación
/FORMAT=VALIDLIST NOCASENUM TOTAL LIMIT=3
/TITLE='Case Summaries'
/MISSING=VARIABLE
/CELLS=NONE.

165
XIV. Estudio de Caso: Exportaciones de cobre por continente y países de destino 14

Aplicación con media geométrica


Suponga que usted es asesor de una empresa minera y debe hacer un informe en relación a las estadísticas de
producción chilena de cobre por continente y por países de destino considerando las exportaciones desde el
año 2006 al 2011 (Miles de toneladas de cobre fino).
Fuente: SONAMI.
Considerando el archivo “Exportaciones de cobre.sav” realice un informe que contemple las siguientes
preguntas:

1) Calcule la variación porcentual anual de las exportaciones por país de destino, considerando las
variaciones porcentuales del 2007 al 2011.
2) Calcule la tasa de crecimiento promedio de exportación por país de destino, utilizando la media
aritmética y la media geométrica y muestre por continente una tabla que permita comparar los
resultados entre la media aritmética y la media geométrica y las tasas de crecimiento promedio.
3) Compare cuál de las dos medias representa una mejor tasa de crecimiento para las exportaciones por
países. ( Considere Colombia, Canadá y Brasil)
4) Realice el ejercicio con la media armónica. Compare los resultados.

Solución
1) Lo primero es calcular una variable para la diferencia de las exportaciones entre un año y el anterior
pero segmentado por país de destino ( para que sólo considere las exportaciones de cada país) desde
el 2006 al 2011

Segmentamos por país de destino


SORT CASES BY Paisdedestino.
SPLIT FILE LAYERED BY Paisdedestino.

Luego en el menú Transformar, Crear serie temporal, considerar la variable exportaciones, función
diferencia,1

14
TP Caso elaborado por Sara Arancibia

166
CREATE
/Export_1=DIFF(Exportación 1).

Para calcular la variación porcentual se requiere usar la función LAG(variable,n)


COMPUTE variacporc=(Export_1 / LAG(Exportación,1))*100.
VARIABLE LABELS variacporc 'variacion porcentual anual'.
EXECUTE.
OBS: LAG( variable, n)
Esta función considera el valor de la variable del caso anterior o n casos antes.

2) Para Calcular la tasa de crecimiento promedio de exportación por país de destino, utilizando la media
aritmética y la media geométrica, se procede a calcular el cuociente, proporción de las exportaciones
de un año respecto al año anterior

COMPUTE proporcion=Exportación /LAG(Exportación,1).


EXECUTE.

Ahora se saca la segmentación y se selecciona el año desde el 2007 al 2011


Donde año sebe ser variable con nivel de medida escala.

USE ALL.
COMPUTE filter_$=(Año >= 2007 & Año <= 2011).
VARIABLE LABEL filter_$ 'Año >= 2007 & Año <= 2011 (FILTER)'.

167
VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE.

OLAP CUBES proporcion BY Paisdedestino BY Continente


/CELLS=COUNT MEAN GEOMETRIC STDDEV NPCT
/TITLE='Cubos OLAP'.

Continente: América
Tasa de
crecimiento
promedio Tasa de crecimiento
Pais de Media GeometMedia (media promedio ( media
destino N Aritmética Geométrica aritmética) geométrica)
Argentina 5 ,9677 ,9564 -,03231 -,04365
Brasil 5 1,0024 ,9929 ,00243 -,00708
Canadá 5 ,6676 ,6137 -,33242 -,38633
Colombia 5 1,2849 1,0238 ,28486 ,02384
Estados 5 ,9361 ,9137 -,06388 -,08628
Unidos
México 5 ,9123 ,8806 -,08768 -,11938
Otros 4 2,4208 ,9306 1,42083 -,06940
Panamá 3 ,9255 ,9118 -,07449 -,08815
Perú 5 ,9385 ,9286 -,06150 -,07140
Venezuela 5 5,1019 1,8114 4,10187 ,81137
Total 47

168
3) Comparemos para los países Colombia, Canadá y Brasil
Colombia
Exportación MA MG
2006 4
2007 4,6 5,1 4,10
2008 2,3 6,6 4,19
2009 1,4 8,48 4,29
2010 4,4 10,89 4,40
2011 4,5 13,99 4,50

Tasa MA 0,285 1,285


Tasa MG 0,024 1,024

Canadá
Exportación MA MG
2006 114,9
2007 92,3 76,8 70,55
2008 96,1 51,3 43,32
2009 69,9 34,2 26,60
2010 31 22,9 16,33
2011 10 15,3 10,03

Tasa MA -0,332 0,67


Tasa MG -0,386 0,614

Brasil
Exportación MA MG
2006 275
2007 300,7 275,7 273,05
2008 346,3 276,3 271,11
2009 294,2 277,0 269,18
2010 320,5 277,6 267,27
2011 265,4 278,3 265,38

Tasa MA 0,0024 1,002


Tasa MG -0,0071 0,993

169
4)

Continente: América
Tasa de
Tasa de
crecimiento crecimiento
promedio Tasa de crecimiento promedio
Pais de Media GeometMedia Media (media promedio ( media (media
destino N Aritmética Geométrica Armónica aritmética) geométrica) armónica)
Argentina 5 ,9677 ,9564 ,9448 -,03231 -,04365 -0,0552
Brasil 5 1,0024 ,9929 ,9832 ,00243 -,00708 -0,0168
Canadá 5 ,6676 ,6137 ,5596 -,33242 -,38633 -0,4404
Colombia 5 1,2849 1,0238 ,8608 ,28486 ,02384 -0,1392
Estados 5 ,9361 ,9137 ,8955 -,06388 -,08628
Unidos -0,1045
México 5 ,9123 ,8806 ,8547 -,08768 -,11938 -0,1453
Otros 4 2,4208 ,9306 ,3274 1,42083 -,06940 -0,6726
Panamá 3 ,9255 ,9118 ,8977 -,07449 -,08815 -0,1023
Perú 5 ,9385 ,9286 ,9188 -,06150 -,07140 -0,0812
Venezuela 5 5,1019 1,8114 1,1707 4,10187 ,81137 0,1707
Total 47

Colombia
M
Exportación MA MG Armónica
2006 4
2007 4,6 5,1 4,10 3,44
2008 2,3 5,9 4,19 2,97
2009 1,4 3,0 4,29 2,55
2010 4,4 1,8 4,40 2,20
2011 4,5 5,7 4,50 1,89

170
Tasa MA 0,285 1,285
Tasa MG 0,024 1,024
Tasa M Armónica -0,139 ,8610

NOTA:
La Media Geométrica

En matemáticas y estadística, la media geométrica de una cantidad arbitraria de números (por


decir n números) es la raíz n-ésima del producto de todos los números, es recomendada para datos de
progresión geométrica, para promediar razones, interés compuesto y números índices.

• El logaritmo de la media geométrica es igual a la media aritmética de los logaritmos de los valores de la
variable.
• La media geométrica de un conjunto de números positivos es siempre menor o igual que la media artimética:

La igualdad sólo se alcanza si .

• Todos los valores de la distribución y


• Es menos sensible que la media aritmética a los valores extremos.

• Es de significado estadístico menos intuitivo que la media aritmética,


• Su cálculo es más difícil y
• En ocasiones no queda determinada; por ejemplo, si un valor entonces la media geométrica se
anula.
Solo es relevante la media geométrica si todos los números son positivos. Como hemos visto, si uno de ellos es
0, entonces el resultado es 0.
La media geométrica proporciona una medida precisa de un cambio porcentual promedio en una serie de
números.
- Se utiliza con más frecuencia para calcular la tasa de crecimiento porcentual promedio de series de datos,
a través del tiempo.
- Es una medida de tendencia central por lo general menor que la media aritmética salvo en el extraño caso en
que todos los incrementos porcentuales sean iguales, entonces las dos medias serán iguales.
- Se le define como la raíz enésima del producto de "n" valores. Cuando los datos son bastantes o cantidades
grandes, para facilitar el cálculo se lo debe simplificar pero sin alterar su naturaleza, para lo cual se puede
utilizar los logaritmos de base 10.

171
Para el cálculo;

Ejemplo
Supóngase que las utilidades obtenidas por una compañía constructora en cuatro proyectos fueron de 3, 2, 4
y 6%, respectivamente. ¿Cuál es la media geométrica de las ganancias?.
En este ejemplo la media geométrica es determinada por

y así la media geométrica de las utilidades es el 3.46%.


La media aritmética de los valores anteriores es 3.75%. Aunque el valor 6% no es muy grande, hace que la
media aritmética se incline hacia valores elevados. La media geométrica no se ve tan afectada por valores
extremos.
La media geométrica proporciona una medida precisa de un cambio porcentual promedio en una serie de
números.
- Se utiliza con más frecuencia para calcular la tasa de crecimiento porcentual promedio de series de datos,
a través del tiempo.
- Es una medida de tendencia central por lo general menor que la media aritmética salvo en el extraño caso en
que todos los incrementos porcentuales sean iguales, entonces las dos medias serán iguales.
- Se le define como la raíz enésima del producto de "n" valores. Cuando los datos son bastantes o cantidades
grandes, para facilitar el cálculo se lo debe simplificar pero sin alterar su naturaleza, para lo cual se puede
utilizar los logaritmos de base 10.

La Media Armónica

La media armónica, denominada H, de una cantidad finita de números es igual al recíproco, o inverso, de
la media aritmética de los recíprocos de dichos valores y es recomendada para promediar velocidades.

Así, dados n númerosx1, x2, ... , xn la media armónica será igual a:

172
La media armónica resulta poco influida por la existencia de determinados valores mucho más grandes que el
conjunto de los otros, siendo en cambio sensible a valores mucho más pequeños que el conjunto.

La media armónica no está definida en el caso de que exista algún valor nulo.

1. La inversa de la media armónica es la media aritmética de los inversos de los valores de la variable.
2. Siempre se puede pasar de una media armónica a una media aritmética transformando adecuadamente
los datos.
3. La media armónica siempre es menor o igual que la media aritmética, ya que para cualesquiera números
reales positivos :

• Considera todos los valores de la distribución y en ciertos casos, es más representativa que la media
aritmética.

• La influencia de los valores pequeños y el hecho que no se puede determinar en las distribuciones con
algunos valores iguales a cero; por eso no es aconsejable su empleo en distribuciones donde existan valores
muy pequeños.
Se suele utilizar para promediar velocidades, tiempos, rendimientos, etc.

Ejemplo:
Supóngase que una familia realiza un viaje en automóvil a un ciudad y cubre los primeros 100 km a 60 km/h,
los siguientes 100 km a 70 km/h y los últimos 100 km a 80 km/h. Calcular, en esas condiciones, la velocidad
media realizada.

Bibliografía: 'Introducción a la Estadística Económica y Empresarial. Teoría y Práctica.' de Fco. Javier


Martín-Pliego López, Editorial Thomson, 2007 (Madrid).

173
XV. Caso Congestión Rutas 15
Objetivo:
Usar funciones de fecha
Crear un gráfico de secuencia
Usar agregación

Suponga que Ud. como Ingeniero Civil es gerente de una consultora que realiza análisis de datos. El Ministerio
de Transporte y Telecomunicaciones está realizando un proyecto para mejorar el tránsito por las rutas. Le ha
pedido a Ud. como asesor que analice los datos respecto a los tipos de congestión que ocurren en las rutas.
Usted cuenta con los datos de eventos de congestión entre el año 2014 y 2015 ocurridos en diversas rutas
y una descripción del tipo de evento.
Considere el archivo Congestión Rutas.sav”

1. Crear la variable fecha y realizar un gráfico de secuencia que indique la cantidad de accidentes por
fecha.

2. Por año, determine los estadísticos descriptivos básicos de tendencia central, dispersión y forma de
la distribución de la cantidad diaria de vehiculos en panne y la cantidad diaria de accidentes Interprete
los resultados de los estadísticos para la cantidad diaria de accidentes comparando por año.
i) ¿ En qué año hubo mayor variabilidad en la cantidad diaria de vehiculos en panne?.
ii) ¿Cuál es el total de días en que se registran accidentes considerando los años 2014 y 2015? De ese
total ¿ qué porcentaje de días se registraron accidentes en el 2015?.
iii) Realice un gráfico que muestre, el comportamiento general de la cantidad diaria de vehiculos en
panne y la cantidad diaria de accidentes, por año. Interprete. Pegar la sintaxis de todo el
procedimiento.
3. ¿ En qué año hubo mayor variabilidad en la cantidad diaria de vehiculos en panne?.
4. ¿Cuál es el total de días en que se registran accidentes considerando los años 2014 y 2015? De ese
total ¿ qué porcentaje de días se registraron accidentes en el 2015?.
5. Realice un gráfico que muestre, el comportamiento general de la cantidad diaria de vehiculos en panne
y la cantidad diaria de accidentes, por año. Interprete. Pegar la sintaxis de todo el procedimiento.
6. Suponga que se creará un programa de mayor fiscalización en las rutas (ejes) donde se producen mas
eventos de congestión. Para esto se clasificará las rutas para aplicar un programa de mayor
fiscalización por etapas.

a) Calcule para cada ruta (eje) y año , el porcentaje de eventos por tipo y mes en relación al total
de eventos del año. Pegar la sintaxis
b) Identifique por año, qué tipos de eventos registran mas del 2% especificando la ruta ( eje) ,
mes y tipo y el porcentaje. Pegar la sintaxis.
c) Para el año 2015, determine en qué rutas se aplicaría mayor fiscalización, sabiendo que el
criterio de prioridad será el siguiente:Si en la ruta hubo mas de tres meses que registra eventos
de algún tipo de congestión y la suma de eventos de algun tipo es mayor a 600, entonces se
implementará el programa de mayor fiscalización. Identifique las rutas ( ejes) , que registran esas

15
TP Caso elaborado por Sara Arancibia

174
caraterísticas, detallando la suma de eventos por tipo, el tipo de evento y la cantidad de meses de
registro. Pegar la sintaxis

Solución Ejercicio 1

*** En transformar/ asistente para fecha y hora, elegir año, mes dia y crear fecha***.
***Elegir la opción “crear una variable de fecha/hora fusionando variables que contengan partes diferentes
de la fecha u hora”
Variable de resultado; fecha
Formato: dd.mm.yyyy
Etiqueta: fecha del evento

* Asistente de fecha y hora: fecha.


COMPUTE fecha=DATE.DMY(Dia, Mes, Año).
VARIABLE LABEL fecha "fecha".
VARIABLE LEVEL fecha (SCALE).
FORMATS fecha (EDATE10).
VARIABLE WIDTH fecha(10).
EXECUTE.

Agregar por fecha y tipo ( para luego seleccionar accidentes) y activar NBREAK para contabilizar la cantidad
de eventos por fecha y tipo

DATASET ACTIVATE Conjunto_de_datos1.


DATASET DECLARE AGRfrec.
AGGREGATE
/OUTFILE='AGRfrec'
/BREAK=fecha Tipo
/N_BREAK=N.

Se recodifica automáticamente la variable Tipo

DATASET ACTIVATE AGRfrec.


AUTORECODE VARIABLES=Tipo
/INTO tiporec
/PRINT.

*** Se filtra para accidentes***.


USE ALL.
COMPUTE filter_$=(tiporec = 1).
VARIABLE LABELS filter_$ 'tiporec = 1 (FILTER)'.
VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.
FORMATS filter_$ (f1.0).
FILTER BY filter_$.

175
EXECUTE.

*** Se ordena ascendentemente la variable fecha***.


SORT CASES BY fecha(A).

* **Luego ir a Analizar/ Predicciones/ gráficos de secuencia utilizando


en el eje Y la variable NBreak y en el eje x la variable fecha***..

* Gráficos de secuencia.
TSPLOT VARIABLES=N_BREAK
/ID=fecha
/NOLOG
/FORMAT NOFILL NOREFERENCE.
/FORMAT NOFILL NOREFERENCE.

Cambiar el nombre de NBREAK por Cantidad de accidentes

Solución ejercicio 2
En primer lugar se verifica si se deben declarar missing. En este caso no se declaran perdidos.

Se agrega por Fecha Año y Tiporec para tener la cantidad diaria de vehículos en panne y cantidad diaria de
accidentes

DATASET DECLARE AGRfecha.


AGGREGATE

176
/OUTFILE='AGRfecha'
/BREAK=Fecha Año Tiporec
/N_BREAK=N.

Se realiza un cubo Olap


DATASET ACTIVATE AGRfecha.
OLAP CUBES N_BREAK BY Tiporec BY Año
/CELLS=COUNT MEAN MEDIAN STDDEV MIN MAX SKEW KURT
/TITLE='Cubos OLAP'.
El cubo Olap se puede mostrar con todos los tipos de eventos por congestión o se puede mostrar sólo lo
solicitado borrando los que no se piden

Cubos OLAP
Variables:N_BREAK
Tipo año N Media Mediana Desv. típ. Mínimo Máximo Asimetría Curtosis % de N en año CV
Accidente 2014 60 6,28 6,00 3,195 1 15 ,401 -,295 30,3% 50,85
2015 138 5,62 5,00 2,936 1 16 ,757 ,378 69,7% 52,27
Total 198 5,82 5,50 3,024 1 16 ,642 ,072 100,0% 51,97
Congestión 2014 45 9,87 10,00 4,475 1 19 -,182 -,041 31,5% 45,36
2015 98 9,77 10,50 4,688 1 19 -,287 -,880 68,5% 48,00
Total 143 9,80 10,00 4,606 1 19 -,257 -,672 100,0% 47,02
Incidente 2014 45 2,07 2,00 1,053 1 5 ,717 -,118 30,2% 50,96
2015 104 1,91 2,00 1,200 1 6 1,718 2,964 69,8% 62,69
Total 149 1,96 2,00 1,156 1 6 1,463 2,177 100,0% 58,98
Meteorológic 2014 3 1,00 1,00 ,000 1 1 . . 25,0% 0,00
o 2015 9 1,00 1,00 ,000 1 1 . . 75,0% 0,00
Total 12 1,00 1,00 ,000 1 1 . . 100,0% 0,00
Objeto en la 2014 57 4,09 4,00 1,835 1 10 ,873 1,177 30,0% 44,89
vía 2015 133 3,62 3,00 1,909 1 9 ,506 -,107 70,0% 52,68
Total 190 3,76 4,00 1,894 1 10 ,577 ,235 100,0% 50,34
Otros 2014 61 15,82 15,00 7,051 5 34 ,562 -,210 30,5% 44,57
incidentes en 2015 139 10,58 10,00 4,922 2 22 ,469 -,451 69,5% 46,51
la ruta
Total 200 12,18 11,00 6,135 2 34 ,835 ,669 100,0% 50,37
Trabajos 2014 61 12,46 13,00 6,163 2 24 ,058 -1,007 30,3% 49,47
2015 140 12,17 13,00 6,074 1 29 ,071 -,560 69,7% 49,90
Total 201 12,26 13,00 6,087 1 29 ,067 -,707 100,0% 49,66
Vehículos en 2014 61 43,85 46,00 12,870 20 68 -,380 -,729 30,3% 29,35
panne 2015 140 37,40 39,00 11,461 4 61 -,501 -,503 69,7% 30,64
Total 201 39,36 41,00 12,240 4 68 -,328 -,494 100,0% 31,10
Total 2014 393 14,12 9,00 15,024 1 68 1,701 2,137 30,4% 106,38
2015 901 12,02 7,00 12,840 1 61 1,727 2,236 69,6% 106,80
Total 1294 12,66 8,00 13,569 1 68 1,748 2,385 100,0% 107,18

Cubos OLAP
Variables:N_BREAK
Tipo año N Media Mediana Desv. típ. Mínimo Máximo Asimetría Curtosis % de N en año CV
Accidente 2014 60 6,28 6,00 3,195 1 15 ,401 -,295 30,3% 50,85
2015 138 5,62 5,00 2,936 1 16 ,757 ,378 69,7% 52,27
Total 198 5,82 5,50 3,024 1 16 ,642 ,072 100,0% 51,97
Vehículos en 2014 61 43,85 46,00 12,870 20 68 -,380 -,729 30,3% 29,35
panne 2015 140 37,40 39,00 11,461 4 61 -,501 -,503 69,7% 30,64
Total 201 39,36 41,00 12,240 4 68 -,328 -,494 100,0% 31,10
Total 2014 393 14,12 9,00 15,024 1 68 1,701 2,137 30,4% 106,38
2015 901 12,02 7,00 12,840 1 61 1,727 2,236 69,6% 106,80
Total 1294 12,66 8,00 13,569 1 68 1,748 2,385 100,0% 107,18

Interpretación para la cantidad diaria de accidentes:

177
De acuerdo a la base entregada, se observa para el 2015 más días en que se registran accidentes (138) en
relación al 2014 (60). En promedio se registran aprox 6 accidentes diarios en las rutas, algo mayor que en el
2015 donde se registran en promedio 5 accidentes aprox. Las medianas están muy cercanas a sus respectivas
medias indicando que al menos la mitad de días registra 6 o más accidentes diarios en el 2014 y al menos la
mitad de días 5 o más accidentes diarios en el 2015.
Respecto a la dispersión de los datos en el 2014 se observa que en promedio la cantidad de accidentes se
alejan en relación a la media en aprox 3 accidentes diarios. Para el 2015 se observa que en promedio la
cantidad de accidentes se alejan en relación a la media en aprox 2 accidentes diarios.
La cantidad de accidentes diarios en ambos años varían entre 1 y 16 accidentes en ambos años. Respecto a la
forma de la distribución en ambos años la forma de la distribución de la cantidad de accidentes diarios se
asemeja a una curva normal.

Solución ejercicio 3

¿ En qué año hubo mayor variabilidad en la cantidad diaria de vehiculos en panne?.

Comparando los Coef de variabilidad vemos que en el año 2015 se presentó mayor dispersión
aunque muy cercana a la del 2014.
CV2014=29,35%
CV2015=30,64%

Solución ejercicio 4

¿Cuál es el total de días en que se registran accidentes considerando los años 2014 y 2015? De ese total ¿
qué porcentaje de días se registraron accidentes en el 2015?.

En la tabla se puede observar que la cantidad total de días que se registran accidentes
es 60+138=198 días considerando ambos años.
( 138/198)*100 = 69,7%
El 69,7% de días en que se registraron accidentes corresponden al año 2015.

Solución ejercicio 5

Realice un gráfico que muestre, el comportamiento general de la cantidad diaria de vehiculos en panne y la
cantidad diaria de accidentes, por año. Interprete. Pegar la sintaxis de todo el procedimiento.

USE ALL.
COMPUTE filter_$=(Tiporec = 1 | Tiporec = 8).
VARIABLE LABEL filter_$ 'Tiporec = 1 | Tiporec = 8 (FILTER)'.
VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE.

178
El gráfico muestra la cantidad diaria de accidentes y de vehículos en panne que se registraron en los años
2014 y 2015 según los datos entregados en el archivo de datos.
Se observa claramente que la cantidad diaria de vehículos en panne es muy superior a la de accidentes diarios,
alcanzando en el año 2014 una mediana mayor que en el 2015 con valores 46 y 39 respectivamente.
En general se observa mayor registro de la cantidad diaria de vehículos en panne en el 2014 si se compara
con el 2015 alcanzando un mínimo de 20 en el 2014 y en el 2015 un mínimo de 4 eventos. No se presentan
outliers en esta variable. Sin embargo en la cantidad de accidentes diarios se observan outliers pero que no
traspasan el valor 20. El comportamiento de la variable accidentes es muy similar entre los años 2014 y 2015
con medianas muy cercanas a 6 y 5 respectivamente. Claramente se presenta mayor variabilidad en la cantidad
diaria de eventos correspondiente a tipo Vehiculos en panne, en comparación a la cantidad de eventos diarios
por accidentes.

Solución ejercicio 6
Suponga que se creará un programa de mayor fiscalización en las rutas (ejes) donde se producen mas eventos
de congestión. Para esto se clasificará las rutas para aplicar un programa de mayor fiscalización por etapas.

a) Calcule para cada ruta (eje) y año , el porcentaje de eventos por tipo y mes en relación al total de
eventos del año. Pegar la sintaxis
b) Identifique por año, qué tipos de eventos registran mas del 2% especificando la ruta ( eje) , mes y
tipo y el porcentaje. Pegar la sintaxis.

c) Para el año 2015, determine en qué rutas se aplicaría mayor fiscalización, sabiendo que el criterio de
prioridad será el siguiente:Si en la ruta hubo mas de tres meses que registra eventos de algún tipo de

179
congestión y la suma de eventos de algun tipo es mayor a 600, entonces se implementará el programa de
mayor fiscalización. Identifique las rutas ( ejes) , que registran esas caraterísticas, detallando la suma de
eventos por tipo, el tipo de evento y la cantidad de meses de registro. Pegar la sintaxis.

Se agrega por eje, año, tipo y mes para obtener en el NBreak la cantidad de eventos de congestión

DATASET DECLARE AGRruta.


AGGREGATE
/OUTFILE='AGRruta'
/BREAK=Eje Año Tipo Mes
/N_BREAK=N.

De la base original podemos conocer mediante una tabla de frecuencia la cantidad total de eventos de
congestion registrados en la base de datos.

FREQUENCIES VARIABLES=Año
/ORDER=ANALYSIS.

Desde la base agregada calculamos los porcentajes solicitados por ruta, año, tipo y mes

DATASET ACTIVATE AGRruta.


IF (Año = 2014) Porcentaje=(N_BREAK / 5550)*100.
IF (Año = 2015) Porcentaje=(N_BREAK / 10833)*100.
EXECUTE.

• Se ordena la base agregada de manera descendente para la variable porcenatje.


En resúmenes de casos obtenemos para el 2014 y 2015 los ejes, mes y tipo de eventos correspondientes a los
porcentajes de eventos sobre el 2%

La tabla muestra que el tipo de evento correspondiente a vehiculos en panne , otros incidentes
en la ruta, trabajos y congestion identificados por año, eje y mes, son los que presentan
porcentajes superiors al 2%.

180
• Considerando la base anterior agregada, se vuelve agregar para considerar la suma de eventos y
rescatar en el nuevo NBreak la cantidad de meses considerados por año, eje y tipo.

DATASET DECLARE AGRfiscalizacion.

AGGREGATE
/OUTFILE='AGRfiscalizacion'
/BREAK=Año Eje Tipo
/N_BREAK_sum=SUM(N_BREAK)

181
/N_BREAKeventos=N.

USE ALL.
COMPUTE filter_$=(Año = 2015 & N_BREAKeventos > 3 & N_BREAK_sum > 600).
VARIABLE LABEL filter_$ 'Año = 2015 & N_BREAKeventos > 3 & N_BREAK_sum > 600 (FILTER)'.
VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE.

SUMMARIZE
/TABLES=Año Eje Tipo N_BREAK_sum N_BREAKeventos
/FORMAT=VALIDLIST NOCASENUM TOTAL LIMIT=6
/TITLE='Resúmenes de casos'
/MISSING=VARIABLE
/CELLS=COUNT.

Rutas prioritarias; Ruta 5 Sur, Ruta 5 Norte y GV Sur

182
XVI. Índice de materialidad de la Vivienda (Casen2013-Módulo Vivienda) 16

Objetivos
• Calcular el índice de materialidad de la vivienda y compararlo con los resultados oficiales entregados
por el Ministerio de Desarrollo Social.
• Crear una base de hogares y utilizar el factor de expansión regional para estimar las condiciones de
materialidad de la vivienda por región.
• Utilizar sintaxis condicionales, agregar y factor de expansión

Presentación de la Encuesta CASEN

La Encuesta de Caracterización Socioeconómica Nacional, Casen, es realizada por el Ministerio de Desarrollo


Social desde el año 1985 con el objetivo de disponer de información que permita:

• Conocer periódicamente la situación de los hogares y de la población, especialmente de aquella en


situación de pobreza y de aquellos grupos definidos como prioritarios por la política social, con relación
a aspectos demográficos, de educación, salud, vivienda, trabajo e ingresos. En particular, estimar la
magnitud de la pobreza y la distribución del ingreso; identificar carencias y demandas de la población
en las áreas señaladas; y evaluar las distintas brechas que separan a los diferentes segmentos sociales
y ámbitos territoriales.
• Evaluar el impacto de la política social: estimar la cobertura, la focalización y la distribución del gasto
fiscal de los principales programas sociales de alcance nacional entre los hogares, según su nivel de
ingreso, para evaluar el impacto de este gasto en el ingreso de los hogares y en la distribución del
mismo.

Su objeto de estudio son los hogares que habitan las viviendas particulares que se ubican en el territorio
nacional, exceptuando algunas zonas muy alejadas o de difícil acceso, así como las personas que forman parte
de esos hogares.

Además del contexto nacional, la Encuesta Casen considera como dominios de estudio las regiones, y sus
ámbitos urbano y rural.

La Encuesta Casen es realizada por Ministerio de Desarrollo Social desde el año 1985 con una periodicidad;
bianual o trianual. Hasta ahora, las encuestas aplicadas corresponden a los años 1985, 1987, 1990, 1992, 1994,
1996, 1998, 2000, 2003, 2006, 2009 y 2011.

Referencia: Texto extraído de : http://observatorio.ministeriodesarrollosocial.gob.cl/casen/casen_obj.php

16
TP Caso elaborado por Sara Arancibia y Francisca Gallegos

183
FICHA TÉCNICA ENCUESTA DE CARACTERIZACIÓN SOCIOECONOMICA 2013

Organismo responsable Ministerio de Desarrollo Social

Instituto Nacional de Estadísticas, INE (diseño muestral y


elaboración de factores de expansión). Centro de Microdatos,
Organismos ejecutores
Departamento de Economía, Universidad de Chile (trabajo de campo
y procesamiento de los datos)

Está constituida por los hogares que habitan las vivienda particulares
ocupadas y las personas que residen en forma permanente
Población objetivo
La cobertura geográfica del estudio es nacional. Sin embargo se
Cobertura
excluyen áreas de difícil acceso
Marco muestral de manzanas para el área urbana (2008) Marco
Marco muestral muestral de secciones para el área rural (2002)
Probabilístico, estratificado, por conglomerado y en múltiples
Diseño de la muestra
etapas. La unidad final de selección es la vivienda.
La variable de interés en la determinación del tamaño muestral es la
tasa de pobreza, para la cual se fijaron errores absolutos regionales
de 1 a 4 puntos porcentuales y un error absoluto de 0.6. 9 puntos
Error muestral porcentuales a nivel nacional
Período de trabajo de campo 11 de noviembre 2013 – 02 de febrero 2014.
Entrevista personal, aplicada por encuestador en cuestionario de
Modo de aplicación papel
Tiempo de entrevista Duración promedio de 41,8 minutos (hogar con 4 personas)
Informante Jefe de hogar o persona mayor de 18 años.
Unidades de análisis Personas y hogares
Número de comunas 324
10% supervisión interna Centro de Microdatos y 1% supervisión
Control de calidad
externa
La encuesta se compone de siete módulos mediante los cuales se
busca caracterizar los hogares que participan del estudio. Estos
Cobertura tematica
módulos son: Registro de Residentes, Educación, Empleo, Ingresos,
Salud, Residentes y Vivienda.

Tamaños de Unidades de Análisis Casen 2013


Número de viviendas 64.842 viviendas
Número de hogares 66.725 hogares
Número de personas 218.491 personas
Número de núcleos 79.063 núcleos
Número de SDPA* 143 personas

184
Uso de los factores de expansión en la base CASEN
Para que los análisis y estudios basados en encuestas a hogares con diseño muestral probabilístico tengan
validez sobre toda la población objetivo, se debe utilizar un ponderador en la estimación de cualquier variable
de interés, que da cuenta del número de personas de la población que representa un individuo que participa en
dicha encuesta. Este ponderador se conoce como factor de expansión. Para la encuesta CASEN 2013, tal como
sus versiones anteriores, se han desarrollado dos factores de expansión para cada persona entrevistada: un
factor que expande a la proyección de población regional (expr) y otro que expande a la población comunal
(expc).
• El factor regional (expr) corresponde a la suma de todos los individuos que representa la población,
incluyendo, las comunas en que no ha sido aplicada la encuesta.

El factor comunal (expc) corresponde a la suma de los individuos que representan a la población de las
comunas encuestadas. Por ello, éste último es levemente menor que el expr.

Para el cálculo de los factores de expansión se realiza una aplicación secuencial de cuatro ponderadores:
1. El Ponderador de Selección: corresponde a la cantidad de viviendas en la población que representa la vivienda
seleccionada en la muestra. En términos generales se calcula como el inverso de la probabilidad de selección
de la unidad j (vivienda), condicional a la selección del conglomerado i (sección o manzana) del estrato h (área
geográfica urbana o rural de una comuna) en la que se localiza.

2. El Ponderador Corregido por Elegibilidad: espera corregir las fallas que llevan a la inclusión en la muestra
de viviendas no elegibles y aquellas que terminan clasificadas como de elegibilidad desconocida. Por ejemplo,
viviendas que fueron seleccionadas pero no corresponden al uso particular residencial.

3. El Ponderador Corregido por No Respuesta: busca reducir el sesgo asociado a la falla en conseguir la
cooperación de los hogares residentes en las viviendas seleccionadas en la muestra.

4. Los Ponderadores de Calibración Regional y Comunal buscan cuadrar las estimaciones poblacionales
obtenidas a partir de la encuesta con las estimaciones poblacionales vigentes publicadas por el INE, mediante
la corrección de fallas en la cobertura de subpoblaciones de interés. Este ajuste se conoce también como
“corrección de población total”. El ajuste “comunal”, se obtiene como la razón entre el total de personas
residentes en viviendas particulares estimado para cada comuna a partir de la encuesta y el total de personas
en este grupo poblacional según las proyecciones demográficas del INE. Mientras que el ajuste “regional”, se
realiza a través de la razón entre el total de personas estimado a partir de la encuesta y el total de la población
residentes en viviendas particulares según las proyecciones de población del INE en cada región-área.
La encuesta Casen 2013 es representativa para el país a nivel de áreas geográficas urbana y rural, y a nivel
regional y no es representativa a nivel comunal. Sin embargo por apego a la política de transparencia de la
información generada en Casen 2013, y para fines de investigación es que se pone a disposición de los usuarios
el factor de expansión comunal. Si bien el ponderador se puede generar numéricamente, esto no significa que
tenga sentido estadísticamente en todas las comunas. Para poder ser utilizado a nivel de una comuna es
necesario, antes de realizar cualquier análisis, evaluar el error estándar asociado a cada estimación de interés,
ya que en algunas comunas el tamaño muestral no es suficiente para obtener estimaciones con suficiente
precisión.

185
Referencia:
http://observatorio.ministeriodesarrollosocial.gob.cl/documentos/Metodologia_Diseno_Muestral_Casen_
2013.pdf

1) Calcule el Índice de materialidad considerando las siguientes definiciones


Definiciones relevantes
Vivienda

Zona Urbana: Conjunto de viviendas concentradas con población mayor a 2.000 habitantes, o entre 1.001 y
2.000 habitantes, donde al menos el 50% de la población económicamente activa se dedica a actividades
secundarias o terciarias.

Zona Rural: Conjunto de viviendas concentradas o dispersas con población menor a 1.000 habitantes, o entre
1.001 y 2.000 habitantes donde menos del 50% de la población económicamente activa se dedica a actividades
secundarias o terciarias.

Índice de Materialidad de la Vivienda: Permite conocer las condiciones materiales de las viviendas en que
viven los hogares. Se construye a partir de los materiales predominantes en paredes exteriores, cubierta de
techo y pisos. Establece las categorías de Aceptable, Recuperable e Irrecuperable para los muros, techos y
piso.

Este indicador se construye a partir de los materiales predominantes en muros, techo y pisos de las viviendas,
los que se clasifican de aceptable, recuperable e irrecuperable de acuerdo a las siguientes categorías:

Definición de categorías según material predominante en:


Dimensión Indicador Categorías

Muros De acero u hormigón armado; Albañilería de ladrillo, bloques Aceptable


de cemento o piedra; Tabique forrado por ambas caras
(madera u otro)
Adobe; Tabique sin forro interior (madera u otro); Barro, Recuperable
quincha, pirca u otro artesanal tradicional
Material de desechos y/o reciclaje (cartón, lata, sacos, Irrecuperable
plásticos) y Otros materiales
Techo Tejas; Tejuela, Losa de hormigón con cielo interior; zinc o Aceptable
pizarreño con cielo interior; zinc, pizarreño, teja, tejuela o
madera sin cielo interior;
Fonolita; Paja, coirón, totora o caña. Recuperable

Material de desechos y/o reciclaje (plásticos, latas, etc.) Irrecuperable


Piso Radier revestido (parquet, cerámica, tabla, linóleo, flexit, Aceptable
baldosa, alfombra, etc.); tabla o parquet sobre soleras o
vigas;

186
Radier no revestido, madera, plásticos o pastelones Recuperable
directamente sobre tierra

Piso de tierra Irrecuperable

Con esta información clasifica las viviendas de acuerdo al Índice de Materialidad en las categorías de
Materialidad Aceptable, Recuperable e Irrecuperable, según se cumpla las siguientes condiciones:

Índice De Materialidad

Aceptable Materialidad en muros, piso y techo aceptable


Recuperable Muro recuperable, y un indicador aceptable, sea piso o techo
Más de un indicador recuperable y ningún indicador irrecuperable
Irrecuperable Al menos un indicador irrecuperable (muro, piso o techo)

SOLUCIÓN

a) Presentación de las variables del Módulo vivienda CASEN 2013

v1. Tipo de vivienda


v2. Material de los muros
v3. Estado de los muros
v4. Material del piso
v5. Estado del piso
v6. Material del techo
v7. Estado del techo
v8. ¿Cuántas viviendas hay en el sitio?
v9. Situación del sitio
v10. Dueño o responsable principal del sitio
v11. Metros cuadrados de la vivienda
v11m. Metros cuadrados de la vivienda (Estimación)
v12. Situación vivienda
v13. ¿Algún miembro de este hogar es dueño de esta vivienda?
v14. Miembro del hogar es el propietario de la vivienda
v15. ¿En qué año compró o recibió la vivienda o el subsidio?
v16. ¿Compró la vivienda con ayuda de algún programa habitacional o subsidio del Estado
v17. ¿Compró la vivienda con crédito hipotecario?
v18. ¿Está pagando su crédito hipotecario actualmente?
v19. ¿Cuánto paga (o debería pagar) de dividendo?
v20. ¿Cuántos años le faltan para terminar de pagar su crédito hipotecario?
v21. Su hogar, ¿cuánto paga de arriendo?
v22. ¿Cuánto se paga de arriendo en este sector por viviendas similares a la suya?
v23. Proviene el agua
v23esp. ¿Cuál es esa otra fuente del agua?
v24. Sistema de distribución del agua en la vivienda

187
v25. Sistema de eliminación de excretas
v26. Sistema de energía eléctrica
v26esp. ¿Cuál es esa otra fuente de energía eléctrica?
v27. Durante los últimos dos años (2011-2013), ¿ha realizado mejoras o transformaciones en la vivienda?
v28. ¿Cómo financió principalmente esa mejora o transformación?
v29a. La vivienda: Dormitorios (uso exclusivo para dormir)
v29b. La vivienda: Estar-comer
v29c. La vivienda: Cocina
v29d. La vivienda: Baño
v29e. La vivienda: Otras piezas de uso múltiple
v30. Número de hogares en la vivienda
v31. ¿Su hogar es el principal de la vivienda?
v32a. El hogar: Dormitorios (uso exclusivo para dormir)
v32b. El hogar: Estar-comer
v32c. El hogar: Cocina
v32d. El hogar: Baño
v32e. El hogar: Otras piezas de uso múltiple
v33. Razón para compartir la vivienda con otro hogar
v33esp. ¿Cuál es esa otra razón para compartir esta vivienda con otro hogar?
v34. ¿Está haciendo algo para vivir en una vivienda exclusiva para su hogar?
v35. ¿Algún miembro de este hogar es propietario de otra vivienda?

b) Desarrollo del índice de materialidad


1. Definiremos las variables
catparext como categorías de materialidad de paredes exteriores
catecho como categorías de materialidad del techo
catpiso como categorías de materialidad del piso
1) Dimensión muros

Las paredes exteriores se considera aceptable si es “De acero u hormigón armado; Albañilería de ladrillo,
bloques de cemento o piedra; Tabique forrado por ambas caras (madera u otro)”
Es decir:
Si (v2 =1 │ v2=2 │ v2=3) entonces catparext=1 (aceptable)
Las paredes exteriores es recuperable si
“Adobe; Tabique sin forro interior (madera u otro); Barro, quincha, pirca u otro artesanal tradicional”.
Es decir:
Si (v2=4 │ v2 =5) entonces catparext=2 (recuperable)
Las paredes exteriores es irrecuperable si
“Material de desechos y/o reciclaje (cartón, lata, sacos, plásticos) y Otros materiales”
Es decir:
Si (v2 =6) entonces catparext=3 (irrecuperable)
Si (v2 =9) entonces catparext=9 ( perdido NS/NR)
2) Dimensión Techo

El techo es aceptable si es “Tejas; Tejuela, Losa de hormigón con cielo interior; zinc o pizarreño con cielo
interior; zinc, pizarreño, teja, tejuela o madera sin cielo interior”.
Es decir:

188
Si (v6=1 │ v6=2 │ v6=3) entonces catecho=1 (aceptable)
El techo es recuperable si “Fonolita; Paja, coirón, totora o caña”.
Es decir:
Si (v6 =4 │ v6=5) entonces catecho=2 (recuperable)
El techo es irrecuperable si
“Material de desechos y/o reciclaje (plásticos, latas, etc.)”
Es decir:
Si (v6 =6 │v6=7) entonces catecho=3 (irrecuperable)
ES decir:
Si (v6 =9) entonces catecho=9 (perdido)
Nota: v6=7 sin cubierta

CASEN 2013
V6 Material del techo
1 Tejas o tejuela (arcilla, metálica, cemento, madera, asfáltica)
2 Losa hormigón
3 Planchas metálicas (zinc, cobre,etc.) o fibrocemento (pizarreño
4 Fonolita o plancha de fieltro embreado
5 Paja, coirón, totora, caña
6 Materiales precarios o de desecho
7 Sin cubierta en el techo
9 NS/NR

3) Dimensión piso

El piso es aceptable si es “Radier revestido (parquet, cerámica, tabla, linóleo, flexit, baldosa, alfombra, etc.);
tabla o parquet sobre soleras o vigas”.
Es decir:
Si (v4 =1 │ v4 =2 │ v4 =3) entonces catpiso=1 (aceptable)
El piso es recuperable si
“Radier no revestido, madera, plásticos o pastelones directamente sobre tierra”
Es decir:
Si (v4 =4 │v4 =5 │ v4 =6) entonces catpiso=2 ( recuperable)
El piso es irrecuperable si es piso de tierra
Es decir
Si (v4=7) entonces catpiso=3 ( irrecuperable)
Si (v4=9) entonces catpiso=9 ( perdido)
Casen 2013
V4: material del piso
*1 Parquet, madera, piso flotante o similar
*2 Cerámica, flexit o similar
*3 Alfombra o cubrepiso
*4 Baldosa de cemento
*5 Radier
6* Enchapado de cemento

189
7* Tierra
9* NS/NR

Resultados de los indicadores de materialidad muros, techos y pisos

A continuación veamos las distribuciones de frecuencia de los indicadores de materialidad de paredes


exteriores, materialidad techo y materialidad piso de las viviendas de las personas.

SINTAXIS
Con factor de expansión
WEIGHT BY expr.
FREQUENCIES VARIABLES=catparext catecho catpiso materialidad indmat /ORDER=ANALYSIS.

Indicador materialidad de paredes exteriores


Frecuencia Porcentaje Porcentaje Porcentaje
válido acumulado
Aceptable 16486094 95,4 95,4 95,4
Recuperable 768365 4,4 4,4 99,9
Irrecuperabl
Válidos 6177 ,0 ,0 99,9
e
Perdido 12481 ,1 ,1 100,0
Total 17273117 100,0 100,0

Indicador de materialidad del techo


Frecuencia Porcentaje Porcentaje Porcentaje
válido acumulado
Aceptable 17239362 99,8 99,8 99,8
Recuperable 4503 ,0 ,0 99,8
Irrecuperabl
Válidos 8090 ,0 ,0 99,9
e
Perdido 21162 ,1 ,1 100,0
Total 17273117 100,0 100,0

190
Indicador de materialidad piso
Frecuencia Porcentaje Porcentaje Porcentaje
válido acumulado
Aceptable 15618886 90,4 90,4 90,4
Recuperable 1630872 9,4 9,4 99,9
Irrecuperabl
Válidos 12800 ,1 ,1 99,9
e
Perdido 10559 ,1 ,1 100,0
Total 17273117 100,0 100,0

A nivel muestral (Sin factor de Expansión)


WEIGHT OFF.
FREQUENCIES VARIABLES=catparext catecho catpiso materialidad indmat
/ORDER=ANALYSIS.

Indicador materialidad de paredes exteriores


Frecuencia Porcentaje Porcentaje Porcentaje
válido acumulado
Aceptable 206834 94,7 94,7 94,7
Recuperable 11347 5,2 5,2 99,9
Irrecuperabl
Válidos 103 ,0 ,0 99,9
e
Perdido 207 ,1 ,1 100,0
Total 218491 100,0 100,0

Indicador de materialidad del techo


Frecuencia Porcentaje Porcentaje Porcentaje
válido acumulado
Aceptable 217983 99,8 99,8 99,8
Recuperable 99 ,0 ,0 99,8
Irrecuperabl
Válidos 74 ,0 ,0 99,8
e
Perdido 335 ,2 ,2 100,0
Total 218491 100,0 100,0

191
Indicador de materialidad piso
Frecuencia Porcentaje Porcentaje Porcentaje
válido acumulado
Aceptable 194632 89,1 89,1 89,1
Recuperable 23345 10,7 10,7 99,8
Irrecuperabl
Válidos 355 ,2 ,2 99,9
e
Perdido 159 ,1 ,1 100,0
Total 218491 100,0 100,0

Cálculo del índice de materialidad

Variable: materialidad

Etiqueta: Indice de materialidad


Aceptable Materialidad en muros, piso y techo aceptable
Muro recuperable, y un indicador aceptable, sea piso o techo
Recuperable
Más de un indicador recuperable y ningún indicador irrecuperable
Irrecuperable Al menos un indicador irrecuperable (muro, piso o techo)

Es decir:
Si (catparext=1 & catecho=1 & catpiso=1) entonces materialidad=1 ( aceptable)
Si (catparext=3 │ catecho=3 │ catpiso=3) entonces materialidad=3 ( irrecuperable)
Si no es aceptable y no irrecuperable es recuperable.
*** Indice de materialidad ***.
COMPUTE materialidad=2.
IF (catparext=1 & catecho=1 & catpiso=1) materialidad =1.
IF (catparext = 3 | catecho = 3 | catpiso =3) materialidad =3.
IF (catparext = 9 | catecho = 9 | catpiso =9) materialidad=9.
VARIABLE LABELS materialidad 'Indicador de materialidad'.
EXECUTE.
VALUE LABELS materialidad
1 Aceptable
2 Recuperable
3 Irrecuperable
9 Perdido.

Resultados del índice de materialidad

¿Cuál es la distribución regional del índice de materialidad a nivel de individuos? Calcule con y sin factores de
expansión regional.

192
¿Cuál es la distribución regional del índice de materialidad a nivel de hogares? Calcule con y sin factores de
expansión regional. [Recuerde generar la base de datos por hogar con el comando agregar y la variable clave
folio]
Sin factor de expansión regional

Indicador de materialidad
Frecuencia Porcentaje Porcentaje Porcentaje
válido acumulado
Aceptable 186396 85,3 85,3 85,3
Recuperable 31095 14,2 14,2 99,5
Irrecuperabl
Válidos 442 ,2 ,2 99,7
e
Perdido 558 ,3 ,3 100,0
Total 218491 100,0 100,0

Obtenido de la sintaxis realizada en este caso

Indicador de Materialidad
Frecuencia Porcentaje Porcentaje Porcentaje
válido acumulado
Vivienda Aceptable 186396 85,3 85,3 85,3
Vivienda Recuperable 31095 14,2 14,2 99,5
Vivienda
Válidos 442 ,2 ,2 99,7
Irrecuperable
SD/NR 558 ,3 ,3 100,0
Total 218491 100,0 100,0

Resultado del indicador Indmat de la Encuesta CASEN 2013

Con Factor de Expansión

Indicador de materialidad
Frecuencia Porcentaje Porcentaje Porcentaje
válido acumulado
Aceptable 15030014 87,0 87,0 87,0
Recuperable 2182609 12,6 12,6 99,6
Irrecuperabl
Válidos 24509 ,1 ,1 99,8
e
Perdido 35985 ,2 ,2 100,0
Total 17273117 100,0 100,0

193
Obtenido de la sintaxis realizada en este caso
Indicador de Materialidad
Frecuencia Porcentaje Porcentaje Porcentaje
válido acumulado
Vivienda Aceptable 15030014 87,0 87,0 87,0
Vivienda Recuperable 2182609 12,6 12,6 99,6
Vivienda
Válidos 24509 ,1 ,1 99,8
Irrecuperable
SD/NR 35985 ,2 ,2 100,0
Total 17273117 100,0 100,0

Resultado del indicador Indmat de la Encuesta CASEN 2013

Índice de materialidad de la vivienda a nivel de hogares


Las variables de segmentación o llave en la encuesta Casen son aquellas que identifican a las personas, los
hogares y los núcleos, y que se requieren para generar distintos archivos a partir de la encuesta. Estas son,
respectivamente

Unidad Clave
Personas folio o
Hogares folio
Núcleos Folio nucleo
Donde
O : Número de orden de la persona dentro del hogar
folio: Identificación del hogar

Para lograr un archivo de hogares se agrega por folio.

DATASET DECLARE AFRfoliohogares.


AGGREGATE
/OUTFILE='AFRfoliohogares'
/BREAK=folio region zona
/expr_first=FIRST(expr)
/pobreza_MN_first=FIRST(pobreza_MN)
/pobreza_multi_first=FIRST(pobreza_multi)
/numper_first=FIRST(numper)
/catparext_first=FIRST(catparext)
/catecho_first=FIRST(catecho)
/catpiso_first=FIRST(catpiso)
/materialidad_first=FIRST(materialidad)
/indmat_first=FIRST(indmat)
/N_BREAK=N.

194
Notar que NBreak entrega la variable numper que corresponde al número de personas del hogar. Del archivo
agregado se obtienen 53522 hogares de la zona urbana y 13203 hogares de la zona Rural
Zona
Frecuencia Porcentaje Porcentaje Porcentaje
válido acumulado
Urbano 53522 80,2 80,2 80,2
Válidos Rural 13203 19,8 19,8 100,0
Total 66725 100,0 100,0

A continuación se muestran las distribuciones de frecuencias de las variables de materialidad muros, techos
y pisos de las viviendas por hogar

Sin factor de expansión

DATASET ACTIVATE AFRfoliohogares.


FREQUENCIES VARIABLES=zona catparext_first catecho_first catpiso_first indmat_first
materialidad_first
/ORDER=ANALYSIS.

Indicador materialidad de paredes exteriores


Frecuencia Porcentaje Porcentaje Porcentaje
válido acumulado
Aceptable 62919 94,3 94,3 94,3
Recuperable 3698 5,5 5,5 99,8
Irrecuperabl
Válidos 43 ,1 ,1 99,9
e
Perdido 65 ,1 ,1 100,0
Total 66725 100,0 100,0

Indicador de materialidad del techo


Frecuencia Porcentaje Porcentaje Porcentaje
válido acumulado
Aceptable 66529 99,7 99,7 99,7
Recuperable 54 ,1 ,1 99,8
Irrecuperabl
Válidos 34 ,1 ,1 99,8
e
Perdido 108 ,2 ,2 100,0
Total 66725 100,0 100,0

195
Indicador de materialidad piso
Frecuencia Porcentaje Porcentaje Porcentaje
válido acumulado
Aceptable 59329 88,9 88,9 88,9
Recuperable 7178 10,8 10,8 99,7
Irrecuperabl
Válidos 169 ,3 ,3 99,9
e
Perdido 49 ,1 ,1 100,0
Total 66725 100,0 100,0

Indicador de Materialidad
Frecuencia Porcentaje Porcentaje Porcentaje
válido acumulado
Vivienda Aceptable 56694 85,0 85,0 85,0
Vivienda Recuperable 9647 14,5 14,5 99,4
Vivienda
Válidos 201 ,3 ,3 99,7
Irrecuperable
SD/NR 183 ,3 ,3 100,0
Total 66725 100,0 100,0

Indicador de la CASEN 2013

Indicador de materialidad
Frecuencia Porcentaje Porcentaje Porcentaje
válido acumulado
Aceptable 56694 85,0 85,0 85,0
Recuperable 9647 14,5 14,5 99,4
Irrecuperabl
Válidos 201 ,3 ,3 99,7
e
Perdido 183 ,3 ,3 100,0
Total 66725 100,0 100,0

Indicador calculado mediante sintaxis


Con factor de expansión regional
En Datos/Ponderar casos
WEIGHT BY expr_first.

196
Zona
Frecuencia Porcentaje Porcentaje Porcentaje
válido acumulado
Urbano 4593913 87,1 87,1 87,1
Válidos Rural 679915 12,9 12,9 100,0
Total 5273828 100,0 100,0

Indicador materialidad de paredes exteriores


Frecuencia Porcentaje Porcentaje Porcentaje
válido acumulado
Aceptable 5021866 95,2 95,2 95,2
Recuperable 245839 4,7 4,7 99,9
Irrecuperabl
Válidos 2416 ,0 ,0 99,9
e
Perdido 3707 ,1 ,1 100,0
Total 5273828 100,0 100,0

Indicador de materialidad del techo


Frecuencia Porcentaje Porcentaje Porcentaje
válido acumulado
Aceptable 5262160 99,8 99,8 99,8
Recuperable 2060 ,0 ,0 99,8
Irrecuperabl
Válidos 3047 ,1 ,1 99,9
e
Perdido 6561 ,1 ,1 100,0
Total 5273828 100,0 100,0
Indicador de materialidad piso
Frecuencia Porcentaje Porcentaje Porcentaje
válido acumulado
Aceptable 4775447 90,5 90,5 90,5
Recuperable 487997 9,3 9,3 99,8
Irrecuperabl
Válidos 6713 ,1 ,1 99,9
e
Perdido 3671 ,1 ,1 100,0
Total 5273828 100,0 100,0

197
Indicador de Materialidad
Frecuencia Porcentaje Porcentaje Porcentaje
válido acumulado
Vivienda Aceptable 4587805 87,0 87,0 87,0
Vivienda Recuperable 663823 12,6 12,6 99,6
Vivienda
Válidos 10721 ,2 ,2 99,8
Irrecuperable
SD/NR 11479 ,2 ,2 100,0
Total 5273828 100,0 100,0

Indicador de la CASEN 2013

Indicador de materialidad
Frecuenci Porcentaj Porcentaje Porcentaje
a e válido acumulado
Aceptable 4587805 87,0 87,0 87,0
Recuperable 663823 12,6 12,6 99,6
Irrecuperab
Válidos 10721 ,2 ,2 99,8
le
Perdido 11479 ,2 ,2 100,0
Total 5273828 100,0 100,0

Indicador calculado mediante sintaxis

GRAPH
/BAR(GROUPED)=PCT BY materialidad BY region.

198
199
ANEXO 1:
Ejercicio de aplicación del cálculo de factor de expansión
Usted realizó un diseño muestral probabilístico estratificado por regiones y conglomerado por comunas. En
su país existen 3 regiones y 13 comunas. En cada comuna seleccionó 2 manzanas para ser encuestadas y en
cada una de éstas 3 viviendas. Calcular el factor de expansión
Donde,
r=Región
c=Comuna
qc=Cantidad de comunas por región
m=Manzanas
qm=Cantidad de manzanas por comuna
qv=Cantidad de Viviendas por manzanas
pr_comuna= 1/qc
pr_manzanas) 2/qm
pr_vivienda= 3/qv
pr_seleccion= pr_comuna*pr_manzanas*pr_vivienda
factor= 1/pr_seleccion

ANEXO 2
SINTAXIS EN SPSS
DATASET ACTIVATE Conjunto_de_datos4.
IF (v2 =1 | v2=2 | v2=3) catparext=1.
IF (v2 =4 | v2=5) catparext=2.
IF (v2=6) catparext=3.
IF (v2 =9) catparext=9.
VARIABLE LABELS catparext 'Indicador materialidad de paredes exteriores'.
EXECUTE.
VALUE LABELS catparext
1 Aceptable
2 Recuperable
3 Irrecuperable
9 Perdido.

*** Categorías de materialidad de techo***.


IF (v6 =1 | v6=2 | v6=3) catecho=1.
IF (v6 =4 | v6=5) catecho=2.
IF (v6 =6| v6=7) catecho=3.
IF (v6 =9) catecho=9.
VARIABLE LABELS catecho 'Indicador de materialidad del techo'.
EXECUTE .
VALUE LABELS catecho
1 Aceptable
2 Recuperable
3 Irrecuperable

200
9 Perdido.

*** Categorías de materialidad de piso***.


IF (v4 = 1 | v4 = 2 | v4=3 ) catpiso = 1.
IF ( v4=4 | v4=5 | v4=6) catpiso = 2.
IF (v4 = 7) catpiso = 3.
IF (v4 = 9) catpiso = 9.
EXECUTE.
VARIABLE LABELS catpiso 'Indicador de materialidad piso' .
VALUE LABELS catpiso
1 Aceptable
2 Recuperable
3 Irrecuperable
9 Perdido.

*** Indice de materialidad ***.


COMPUTE materialidad=2.
IF (catparext=1 & catecho=1 & catpiso=1) materialidad =1.
IF (catparext = 3 | catecho = 3 | catpiso =3) materialidad =3.
IF (catparext = 9 | catecho = 9 | catpiso =9) materialidad=9.
VARIABLE LABELS materialidad 'Indicador de materialidad'.
EXECUTE.
VALUE LABELS materialidad
1 Aceptable
2 Recuperable
3 Irrecuperable
9 Perdido.

201
XVII.Módulo Educación – CASEN 201517.
(Agregar, sintaxis condicionales, segmentar).

Suponga que Ud. es asesor del Ministerio de Educación y que está realizando un estudio descriptivo sobre el
nivel educacional y los beneficios que poseen los miembros de los hogares chilenos, para contar con
estadísticas sobre el perfil educacional de las personas por hogar.
Usted cuenta con los datos de la Encuesta CASEN 2015, la que contiene una muestra de hogares de todas las
regiones. La encuesta original se compone de siete módulos mediante los cuales se busca caracterizar los
hogares que participan del estudio. Estos módulos son: Registro de Residentes, Educación, Empleo, Ingresos,
Salud, Residentes y Vivienda. La encuesta considera:
Número de viviendas 82.120 viviendas
Número de hogares 83.887 hogares
Número de personas 266.968 personas
Núcleos familiares 100271 núcleos

El módulo de educación incluye un conjunto de preguntas que permite estimar indicadores como la tasa de
analfabetismo, los niveles de escolaridad de la población, la cobertura de los diferentes niveles de enseñanza
por dependencia administrativa, la cobertura y focalización de diversos programas en este sector, tales como,
el Programa de Alimentación Escolar (PAE), la entrega de útiles y textos escolares, atención dental y médica,
entre otros; la incidencia de la población no incorporada al sistema educativo y las principales razones de no
incorporación. Asimismo, los indicadores de la dimensión Educación, de la metodología de medición de pobreza
multidimensional, se basan en información contenida en este módulo.
Esta encuesta de hogares, de carácter transversal y multipropósito, es actualmente el principal instrumento
de medición socioeconómica para el diseño y evaluación de la política social existente en el país.
Las variables de segmentación o llave en la encuesta Casen son aquellas que identifican a las personas, los
hogares y los núcleos, y que se requieren para generar distintos archivos a partir de la encuesta. Estas son,
respectivamente
Unidad Clave
Personas folio o
Hogares folio
Núcleos Folio nucleo
Donde
O: Número de orden de la persona dentro del hogar
folio: Identificación del hogar

Considere el archivo Módulo Educación –CASEN 2015.sav”

1.
Considerando la variable e5a, ¿Cuál es la principal razón por la cual no asiste actualmente a algún
establecimiento educacional?,
i) genere una variable, identificando tres categorías y pegar la sintaxis.

17
Caso elaborado por Sara Arancibia

202
1= Terminó estudiar
0= No terminó estudiar
9 Sin información
ii) Para las personas con edad entre 7 y 35 años inclusive, y que no han terminado de estudiar, responda:
¿Qué porcentaje de las mujeres, no asiste a un establecimiento educacional por motivo de embarazo,
maternidad?
Respecto a las personas que no asiste porque “no le interesa” , ¿qué porcentaje son hombres?
¿Qué porcentaje de personas, no asiste por dificultad económica?
¿Cuál es la razón con mayor frecuencia por la cual las personas no asisten actualmente a algún establecimiento
educacional?. Muestre una tabla solo con las frecuencias observadas y el porcentaje total. Pegar la sintaxis.

2. Para cada persona que asiste a “educación parvularia”, “educación básica” o “educación media h-c niños y
jóvenes” (considere la variable e7te. tipo de enseñanza) responda las siguientes preguntas:
i) Considere las variables e10a a e10d referidas a : “en el año escolar 2015, ¿recibe alimentación gratuita...?”,
y e10e. en el año escolar 2015, ¿ha recibido tarjeta junaeb para alimentación?. Determine cuántas personas
han recibido en el año escolar 2015 al menos una beca de alimentación y qué porcentaje representan respecto
al total. Pegar la sintaxis
¿Qué porcentaje de hogares tiene al menos un miembro del hogar con apoyo de alimentación gratuita?.
ii) Para las personas que pagan mensual por la educación ( considere la variable e13a. en el año escolar 2015,
¿paga colegiatura o financiamiento compartido?)
Determine por dependencia ( depen) , los estadísticos descriptivos; N, tendencia central y dispersión de la
variable e13b. ¿cuánto paga mensualmente?. Interprete para los colegios subvencionados los resultados de los
estadísticos.¿en qué grupo de dependencia hay mayor variabilidad en el pago mensual? . Pegar la sintaxis.

iii) Por zona , calcule el percentil 75 del pago total mensual que realiza el hogar en el año 2015 por los
miembros del hogar que asisten a educ parvularia, básica o media. Interprete el resultado. Pegar la sintaxis.

3.
a) Por hogar, determine, número de personas del hogar y porcentaje de personas del hogar, mayores de 7
años que no saben leer ni escribir, considerando la variable e1. ¿sabe leer y escribir?.
¿Cuántos hogares tiene algún miembro del hogar mayor a 7 años que no sabe leer ni escribir? Pegar la sintaxis.

b) Realice un gráfico que muestre por zona ( urbano y rural) la forma de la distribución del porcentaje de
personas del hogar, mayores de 7 años que no saben leer ni escribir. Considere el grafico sólo para porcentajes
mayores a cero. Pegar la sintaxis e interpretar el gráfico.

4.- En el marco de la medición de pobreza multidimensional, la dimensión de educación incorpora tres


indicadores:
“Asistencia Escolar”, “Escolaridad”, “Rezago Escolar”

203
a) Considere las tres variables de carencia en educación por hogar; hh_d_asis, hh_d_rez y hh_d_esc donde
hh_d_asis: hogar carente en asistencia
hh_d_rez: hogar carente en rezago escolar
hh_d_esc: hogar carente en escolaridad
donde 1= Hogar carente y 0= Hogar no carente
Realice un gráfico para los hogares del archivo de datos que muestre el total de hogares con carencia
considerando las tres variables de carencia en educación, agrupados por zona. ¿Qué se observa?. Pegar la
sintaxis. (8 puntos)
b) Genere una variable “totcarencia” que muestre la cantidad total de carencias en educación que tiene un
hogar. Pegar la sintaxis.
Suponga que un hogar es pobre en la dimensión de educación, si al menos presenta una de las tres variables
con carencia. Genere una variable que indique si el hogar es pobre o no en la dimensión de educación. Pegar la
sintaxis.
¿Qué porcentaje respecto al total de hogares de la zona urbana son pobres?
¿Cuántos hogares respecto a los hogares rurales tienen un total de dos carencias en educación y son pobres?
¿Qué porcentaje de hogares no son pobres?

Solución:
a) Primero generamos la variable termestudiar

DATASET ACTIVATE Conjunto_de_datos1.


RECODE e5a (7=1) (99=9) (1 thru 6=0) (8 thru 15=0) INTO termestudiar.
VARIABLE LABELS termestudiar '¿terminó estudiar?'.
EXECUTE.

b)seleccionamos las personas con edad entre 7 y 35 años inclusive, y que no han terminado de estudiar.

USE ALL.
COMPUTE filter_$=(edad >= 7 & edad <= 35 & termestudiar = 0).
VARIABLE LABELS filter_$ 'edad >= 7 & edad <= 35 & termestudiar = 0 (FILTER)'.
VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.
FORMATS filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE.

Se asigna en missing el valor 9= sin información y luego se realiza una tabla de contingencia

CROSSTABS
/TABLES=e5a BY sexo
/FORMAT=AVALUE TABLES
/CELLS=COUNT /COUNT ROUND CELL.

204
¿Qué porcentaje de las mujeres, no asiste a un establecimiento educacional por motivo de embarazo,
maternidad?

(2379/11455)*100= 20,76%

205
El 20,76% de mujeres, no asiste a un establecimiento educacional por motivo de embarazo, maternidad.

Respecto a las personas que no asiste porque “no le interesa” , ¿qué porcentaje son hombres?

(932/1439)*100= 64,76%
El 64,76% de las personas que no asiste porque “no le interesa”, son hombres.

¿Qué porcentaje de personas, no asiste por dificultad económica?

2797 personas que equivale al 11,8% no asiste por dificultad económica.

¿Cuál es la razón con mayor frecuencia por la cual las personas no asisten actualmente a algún establecimiento
educacional y que porcentaje represenbta respecta al total ?.

La razón con mayor frecuencia por la cual las personas no asisten actualmente a algún establecimiento
educacional es porque Trabaja o busca trabajo y reopresenta el 56,9% del total.

2. Para cada persona que asiste a “educación parvularia”, “educación básica” o “educación media h-c niños y
jóvenes” (considere la variable e7te. tipo de enseñanza) responda las siguientes preguntas:

i) Considere las variables e10a a e10d referidas a : “en el año escolar 2015, ¿recibe alimentación gratuita...?”,
y e10e. en el año escolar 2015, ¿ha recibido tarjeta junaeb para alimentación?. Determine cuántas personas
han recibido en el año escolar 2015 al menos una beca de alimentación y qué porcentaje representan respecto
al total.
¿Qué porcentaje de hogares tiene al menos un miembro del hogar con apoyo de alimentación gratuita?.

Primero se selecciona a las perssnas que asisten a educación parvularia”, “educación básica” o “educación
media h-c niños y jóvenes”

USE ALL.
COMPUTE filter_$=(e7te = 10 | e7te = 110 | e7te = 310).
VARIABLE LABELS filter_$ 'e7te = 10 | e7te = 110 | e7te = 310 (FILTER)'.
VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.
FORMATS filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE.

Se recodifica en la misma variable

RECODE e10a e10b e10c e10d e10e (2=0).


EXECUTE.

206
Se cambia en values 0=no

Se consideran como perdidos el valor 9 en missing

COMPUTE alimentgratuita=SUM(e10a,e10b,e10c,e10d,e10e).
VARIABLE LABELS alimentgratuita 'suma de becas de alimentación'.
EXECUTE.

Determine cuántas personas han recibido en el año escolar 2015 al menos una beca de alimentación y qué
porcentaje representan respecto al total.

FREQUENCIES VARIABLES=alimentgratuita
/ORDER=ANALYSIS.

En el año 2015 del total de personas que están en educación parvularia, básica y media h-c niños y jóvenes
(48892 en total), 2943 + 15876 + 9006 + 4318 = 32143 personas poseen al menos una beca de alimentación
y representan 6% + 32,5% + 18,4% + 8,8% = 65,7% del total de personas seleccionadas que cursan los
niveles de enseñanza descritos.

¿Qué porcentaje de hogares tiene al menos un miembro del hogar con apoyo de alimentación gratuita?.

Manteniendo el filtro, se agrega por hogar para conocer la cantidad de hogares que tienen al menos un miembro
de educación parvularia, básica y media h-c niños y jóvenes. La agregación se realiza por folio como break
variable y se pide alimentgratuita_sum, lo que nos dará la cantidad de beneficios de alimentación por hogar.
Finalmente se pide una tabla de frecuencia para responder la pregunta

207
DATASET DECLARE alimenthogar.
AGGREGATE
/OUTFILE=' alimenthogar'
/BREAK=folio
/alimentgratuita_sum=SUM(alimentgratuita)
/N_BREAK=N.

DATASET ACTIVATE alimenthogar.


FREQUENCIES VARIABLES=alimentgratuita_sum
/ORDER=ANALYSIS.

En el año 2015 del total de hogares que tienen miembros que están en educación parvularia, básica y media
h-c niños y jóvenes (32783 en total), 32783 – 38- 10805 = 21940 hogares que representan el
100% - 0,1% - 33% = 66,9% de total de hogares seleccionados, poseen al menos un miembro con apoyo en
alimentación.

ii) Para las personas que pagan mensual por la educación (considere la variable e13a. en el año escolar 2015,
¿paga colegiatura o financiamiento compartido?)
Determine por dependencia ( dependen) , los estadísticos descriptivos; N, tendencia central y dispersión de
la variable e13b. ¿cuánto paga mensualmente?. Interprete para los colegios subvencionados los resultados de
los estadísticos.¿en qué grupo de dependencia hay mayor variabilidad en el pago mensual? (7 puntos).

208
USE ALL.
COMPUTE filter_$=((e7te = 10 | e7te = 110 | e7te = 310) & e13a = 1).
VARIABLE LABELS filter_$ '(e7te = 10 | e7te = 110 | e7te = 310) & e13a = 1 (FILTER)'.
VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.
FORMATS filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE.

9 en missing de la variable cuanto paga mensualmente

OLAP CUBES e13b BY depen


/CELLS=COUNT MEAN MEDIAN STDDEV MIN MAX SPCT NPCT
/TITLE='Cubos OLAP'.

Cubos OLAP
e13b. ¿cuánto paga mensualmente?
% del total de
dependencia N Media Mediana Desv. típ. Mínimo Máximo CV N
municipal 386 22915.60 12000.00 36612.382 1000 300000 159.8% 3.2%
particular subvencionado 9417 43050.96 35000.00 36059.787 500 900000 83.8% 78.5%
particular pagado 2046 232640.79 230000.00 107214.427 1800 1200000 46.1% 17.1%
corporación de 69 32131.88 8000.00 56527.681 3500 380000 175.9% .6%
administración delegada
(dl 3166)
junji 48 54489.58 20000.00 69877.742 500 320000 128.2% .4%
integra 26 90615.38 58500.00 91520.960 3000 300000 101.0% .2%
Total 11992 74835.56 40000.00 90670.615 500 1200000 121.2% 100.0%

El total de personas que pagan mensualidad en colegio subvencionados si van a educación parvularia, básica o
media h-c son 9.417 representando un 78,5% del total (11.992). En promedio del pago mensual es de 43.050
pesos; y donde al menos la mitad de las personas pagan un valor mayor o igual a 35.000 pesos. Los pagos
mensuales en los colegios subvencionados en promedio se desvian respecto de la media en aproximadamente
36.069 pesos; observandose como mínimo un pago de 500 pesos y un máximo un pago de 900.000 pesos.

En el grupo de dependencia en que se observa una mayor variabilidad es en las corporaciónes de administración
delegada con un coeficiente de variabilidad de 175,9%.

iii) Por zona, calcule el percentil 75 del pago total mensual que realiza el hogar en el año 2015 por los miembros
del hogar que asisten a educ parvularia, básica o media. Interprete el resultado.

Manteniendo el filtro se debe agregar por folio para obtener los datos por hogar. Se pide e13b_sum para
obtener el valor total que pagan los hogares. Posteriormente se segmenta el nuevo archivo por zona.

209
DATASET DECLARE AGRhogarzona.
AGGREGATE
/OUTFILE='AGRhogarzona'
/BREAK=folio zona
/e13b_sum 'pago total mensual por hogar'=SUM(e13b)
/N_BREAK=N.

DATASET ACTIVATE AGRhogarzona.


SORT CASES BY zona.
SPLIT FILE LAYERED BY zona.

FREQUENCIES VARIABLES=e13b_sum
/FORMAT=NOTABLE
/PERCENTILES=75.0
/ORDER=ANALYSIS.

De la tabla, se puede observar que el percentil 75 para el pago total de los hogares por los miembros que
asisten a educ parvularia, básica o media para la zona urbana es de 96.750, es decir, que al menos el 75% de
los hogares pagan un valor menor o igual a 96.750 pesos. Así mismo para la zona rural se tiene un valor para el
percentil 75 es de 80.000, es decir, que al menos el 75% de los hogares pagan un valor menor o igual a 80.000
pesos. En la zona urbana el percentil 75 es mayor que en la zona rural.

3.
a) Por hogar, determine, número de personas del hogar y porcentaje de personas del hogar, mayores de 7
años que no saben leer ni escribir, considerando la variable e1. ¿sabe leer y escribir?.
¿Cuántos hogares tiene algún miembro del hogar mayor a 7 años que no sabe leer ni escribir? Pegar la sintaxis.

210
IF (edad > 7 & e1 = 4) analfabeta=1.
IF ( ~ (edad > 7 & e1 = 4)) analfabeta=0.
VARIABLE LABELS analfabeta 'Es la persona analfabeta '.
EXECUTE.
VALUE LABELS analfabeta
1 Si
0 No.

DATASET DECLARE AGRhogaranalafabeta.


AGGREGATE
/OUTFILE='AGRhogaranalafabeta'
/BREAK=folio zona
/analfabeta_sum 'total d epersonas del hogar que no sabe leer ni escribir'=SUM(analfabeta)
/N_BREAK=N.

DATASET ACTIVATE AGRhogaranalafabeta.


COMPUTE porcentanalfabeta=(analfabeta_sum / N_BREAK) * 100.
VARIABLE LABELS porcentanalfabeta '% de miembros del hogar que no saben leer ni escribir'.
EXECUTE.

De la tabla, el total de hogares que tienen al menos un miembro que no saben leer ni escribir es de
4838 + 701 + 69 + 16 = 5624 hogares que representan el 100% - 93,3% = 6,7% del total de hogares
(83.887).

b) Realice un gráfico que muestre por zona ( urbano y rural) la forma de la distribución del porcentaje de
personas del hogar, mayores de 7 años que no saben leer ni escribir. Considere el grafico sólo para porcentajes
mayores a cero. Pegar la sintaxis e interpretar el gráfico.

211
USE ALL.
COMPUTE filter_$=(porcentanalfabeta > 0).
VARIABLE LABELS filter_$ 'porcentanalfabeta > 0 (FILTER)'.
VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.
FORMATS filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE.

GRAPH
/HISTOGRAM=porcentanalfabeta
/PANEL ROWVAR=zona ROWOP=CROSS.

El histograma para ambas zonas es similar. Se presenta el porcentaje 50% (la mitad de los miembros del hogar
no sabe leer ni escribir) como el porcentaje que posee la mayor frecuencia; alrededor de 800 en zona urbana
y 700 en zona rural. Así mismo se observa que alrededor de 600 hogares en ambas zonas, el 100% de los
miembros no sabe leer ni escribir. No se observa forma conocida para alguno de los histogramas.

212
4.
En el marco de la medición de pobreza multidimensional, la dimensión de educación incorpora tres indicadores:

“Asistencia Escolar”, “Escolaridad”, “Rezago Escolar”

a) Considere las tres variables de carencia en educación por hogar; hh_d_asis, hh_d_rez y hh_d_esc donde
hh_d_asis: hogar carente en asistencia
hh_d_rez: hogar carente en rezago escolar
hh_d_esc: hogar carente en escolaridad
donde 1= Hogar carente y 0= Hogar no carente

Realice un gráfico para los hogares del archivo de datos que muestre el total de hogares con carencia
considerando las tres variables de carencia en educación, agrupados por zona. ¿Qué se observa?

DATASET ACTIVATE Conjunto_de_datos1.


DATASET DECLARE AGRcarencias.
AGGREGATE
/OUTFILE='AGRcarencias'
/BREAK=folio zona
/hh_d_asis_first 'hogar carente en asistencia'=FIRST(hh_d_asis)
/hh_d_rez_first 'hogar carente en rezago escolar'=FIRST(hh_d_rez)
/hh_d_esc_first 'Hogra carente en escolaridad'=FIRST(hh_d_esc)
/N_BREAK=N.

DATASET ACTIVATE AGRcarencias.


GRAPH
/BAR(GROUPED)=SUM(hh_d_asis_first) SUM(hh_d_rez_first) SUM(hh_d_esc_first) BY zona
/MISSING=LISTWISE.

213
El gráfico permite observar que en ambas zonas, la carencia en escolaridad es la que presenta un nivel mayor,
con 18959 hogares para la zona urbna y 10798 hogares para la zona rural. Esta carencia es la más relevante
en términos de cantidad. Las carencias de asistencia y rezago, se presentan para la zona urbana en 1439 y
1525 hogares respectivamente, así mismo para la zona rural se tiene 628 hogares carentes en asistencia y
463 hogares carentes en rezago.

b) Genere una variable “totcarencia” que muestre la cantidad total de carencias en educación que tiene un
hogar. Pegar la sintaxis.
Suponga que un hogar es pobre en la dimensión de educación, si al menos presenta una de las tres variables
con carencia. Genere una variable que indique si el hogar es pobre o no en la dimensión de educación.

COMPUTE totcarencias=SUM(hh_d_asis_first,hh_d_rez_first,hh_d_esc_first).
VARIABLE LABELS totcarencias 'suma o total de carencias en educación'.
EXECUTE.

IF (hh_d_asis_first = 1 | hh_d_rez_first = 1 | hh_d_esc_first = 1) Hogarpobeduc=1.


IF ( ~ (hh_d_asis_first = 1 | hh_d_rez_first = 1 | hh_d_esc_first = 1)) Hogarpobeduc=0.
VARIABLE LABELS Hogarpobeduc 'Hogar pobre en educación'.
EXECUTE.
VALUE LABELS Hogarpobeduc
1 Si
0 no.

¿Qué porcentaje respecto al total de hogares de la zona urbana son pobres?


De la zona urbana, el 31,1% de hogares son pobres.

¿Cuántos hogares respecto a los hogares rurales tienen un total de dos carencias en educación y son pobres?
715 hogares de la zona rural que representan el 3,8% de los hogares de esta zona, poseen dos carencias
y son considerados pobres.

¿Qué porcentaje de hogares no son pobres?


El 62,6% del total de hogares no presenta carencias en educación, por tanto no son pobres.

214
215
XVIII. Evolución Matriculas Universidades 2010-201418.
(Agregar, sintaxis condicionales, media geométrica).

Caso: Evolución de las Matriculas de las Universidades 2010-2014


Suponga que usted como asesor del Ministerio de Educación debe hacer un análisis por Universidad de la
evolución de las matriculas desde el año 2010 al 2014, e identificar cuáles son las áreas más demandadas y
características de los niveles de puntajes, oferta de carreras por área de conocimiento, niveles de
selectividad, entre otras.
Para eso se le ha entregado información de los programas o carreras ofrecidas por las Universidades chilenas
en el archivo Universidades 2010-2014.sav.
En su análisis debe responder por lo menos las siguientes preguntas.
1. Determine para el año 2014
a) ¿Qué porcentaje de programas (o carreras) del área de conocimiento “Ciencias”, ofrecen las
universidades del Consejo de rectores?
¿Qué porcentaje de los programas de las universidades del Consejo de Rectores, corresponden al
área de Conocimiento de Educación?
¿Qué área del conocimiento posee mayor cantidad de programas ofrecidos por las universidades
y qué porcentaje representan del total de programas del 2014?
¿Cuántos programas son ofrecidos por el sistema Privada Autónoma, y qué porcentaje representa
respecto al total de programas del 2014?
Pegar la sintaxis de todo el procedimiento y las tablas que justifiquen su respuesta.
b) Realice un gráfico que muestre el comportamiento general de la variable PSU promedio de los
alumnos que ingresan a las carreras, por tipo de sistema. Inteprete. ¿En qué sistema se presenta
mayor variabilidad en los puntajes?

2. En su análisis desea identificar la evolución de las matriculas durante los últimos 5 años y la cantidad
de programas ofrecidos.
a) Para el año 2014, muestre una tabla con las cinco universidades que obtuvieron más matriculados
(matricula total) y una tabla con las cinco universidades que ofrecieron menos programas (o
carreras). Pegar la sintaxis.
b) Grafique la cantidad de matriculados por año, agrupado por tipo de sistema.
c) Para cada Universidad determine la tasa de crecimiento promedio (en base a la media y a la media
geométrica) del total de matriculados considerando la información anual del 2010 al 2014 e
identificando el tipo de sistema.
Muestre una tabla para las universidades del Consejo de rectores y otra para las universidades
del sistema Privada Autónoma. Para cada tipo de sistema identifique la Universidad que posee la
mayor tasa de crecimiento promedio en los últimos cinco años.

18
Caso elaborado por Sara Arancibia

216
3. Suponga que necesita caracterizar las universidades en segmentos o grupos de universidades en
relación a ciertas características de selectividad en puntajes y oferta de programas en base a la
información del año 2014.
Genere grupos de universidades en relación a los siguientes criterios.

Grupo1: Selectivas y tradicionales: Universidades con 20% o más de programas con puntajes de corte del
último seleccionado superiores o iguales a 650 puntos y con el 65% o más de programas con antigüedad mayor
o igual a 10 años (Nota: considere año de inicio de actividades).
Grupo 2: Medianamente selectivas y con tradición: Universidades entre un 10% y menos del 20% de programas
con puntajes de corte del último seleccionado superiores o iguales a 650 y con el 65% o más de programas
con antigüedad mayor o igual a 10 años (Nota: considere año de inicio de actividades).
Grupo 3: En etapa de crecimiento: Todas las universidades que no están en el grupo 1 y 2
Para el año 2014 ¿Cuántas universidades hay en el grupo 1 y qué porcentaje representan del total de
universidades? ¿Qué porcentaje de universidades hay en el grupo 3?

217
Solución 1:

218
El 76,2% de programas (o carreras) del área de conocimiento “Ciencias”, ofrecen las universidades del Consejo
de rectores.

El 16,8% de los programas de las universidades del Consejo de Rectores, corresponden al área de
Conocimiento de Educación

El área de tecnología es el área del conocimiento que posee mayor cantidad de programas ofrecidos
por las universidades con un total de 1198 y representa el 27,2% del total de programas del 2014
2787 programas son ofrecidos por el sistema Privada Autónoma, y representa el 63,3% respecto
al total de programas del 2014

c) Se selecciona el año 2014


DATASET ACTIVATE DataSet2.
USE ALL.
COMPUTE filter_$=(Año = 2014).
VARIABLE LABEL filter_$ 'Año = 2014 (FILTER)'.
VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE.

Se debe declarar en perdidos los 999 sin información para la variables Promedio PSU

219
Promedio Puntaje PSU

Se observa que el grupo que presenta mayor variabilidad para la variable puntaje promedio PSU es el grupo
de carreras pertenecientes al consejo de rectores, en donde se observa una mediana de aproximadamente
570 puntos, es decir, al menos el 50% que ingresaron a las carreras de las universidades del consejo de
rectores obtuvieron un puntaje promedio PSU igual o superior a 570 puntos.
Para las instituciones que se encuentran en el sistema de categoría "en licenciamiento" los puntajes PSU
promedio poseen menor variabilidad, la que se encuentra entre unos 480 y 530 puntos, este tipo de sistema
es además el único donde no se presentan valores atípicos. Las universidades privadas presentan valores
atípicos tanto en los puntajes más bajos como los más altos, sin embargo en esta última hay valores atípicos
extremos.

Solución ejercicio 2
Primero se crea un archivo agregado por institución y año que considere las sumas de matrículas
de hombres y mujeres

DATASET ACTIVATE DataSet1.


DATASET DECLARE AGRUNIVERSIDAD.
AGGREGATE
/OUTFILE='AGRUNIVERSIDAD'

220
/BREAK=Cód.Institución NombreInstitución Tiposistema Año
/Matrículatotalhombres_sum=SUM(Matrículatotalhombres)
/Matrículatotalmujeres_sum=SUM(Matrículatotalmujeres)
/N_BREAK=N.

Se calcula la matricula total sumando la matricula total de hombres y mujeres

DATASET ACTIVATE AGRUNIVERSIDAD.


COMPUTE Totalmatricula=SUM(Matrículatotalhombres_sum,Matrículatotalmujeres_sum).
VARIABLE LABELS Totalmatricula 'Total de matriculados'.
EXECUTE.
Luego sobre el archivo agregado se pide para el año 2014 una tabla de valores extremos para el total
de matriculados y el total de programas usando la variable N break que contabiliza la totalidad de
programas que tiene cada universidad.
DATASET ACTIVATE AGR2.
EXAMINE VARIABLES=MatrículaTotal_sum N_BREAK BY Año
/ID=NombreInstitución
/PLOT BOXPLOT STEMLEAF
/COMPARE GROUP
/STATISTICS DESCRIPTIVES EXTREME
/CINTERVAL 95
/MISSING LISTWISE
/NOTOTAL.

La tabla anterior muestra los cinco valores con las matrículas totales más altas del año 2014, U Andrés
Bello, INACAP, U de las Américas Santo Tomás y la U de Chile

221
La tabla muestra las cinco universidades con menos programas o carreras ofrecidas: U La Araucana,
U Chileno Brit de cultura, Miguel Cervantes, Adventista y Adolfo Ibañez.

b) Grafique la cantidad total de matriculados por año, agrupado por tipo de sistema. Interprete.
Considerando el archivo agregado
GRAPH
/BAR(GROUPED)=SUM(Totalmatricula) BY Año BY Tiposistema.

Se observa que en las universidades del sistema privado la cantidad de alumnos matriculados ha
aumentado a través de los años, situación que se repite en las universidades del consejo de rectores,
pero el aumento es menor.

222
**Los establecimientos en licenciamiento poseen un mínimo de alumnos matriculados los cuales no se
observan en este gráfico.

c) Para la tercera pregunta en base al archivo agregado en el punto anterior se calcula la media
geométrica del Cuociente de matriculados respecto al año anterior.

COMPUTE Proporción=Totalmatricula / LAG(Totalmatricula).


VARIABLE LABELS Proporción 'Cuociente de matriculados respecto al año anterior'.
EXECUTE.

Se selecciona el año desde el 2011 para el cálculo de la media geométrica mediante el cubo OLAP

USE ALL.
COMPUTE filter_$=(Año > 2010).
VARIABLE LABEL filter_$ 'Año > 2010 (FILTER)'.
VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE.

Luego en el cubo OLAP se calcula la media geométrica de la variable proporción

OLAP CUBES Proporción BY NombreInstitución BY Tiposistema


/CELLS=COUNT MEAN GEOMETRIC
/TITLE='OLAP Cubes'.

Nota: Si no se realiza el filtro, hay un error de arrastre que modifica todos los resultados

223
Para el sistema del Consejo de rectores la Universidad de Atacama es la que posee el mayor
crecimiento promedio en los últimos 5 años con una tasa del 26,95%

224
Para el sistema Privada Autónoma la Universidad República es la que posee el mayor crecimiento
promedio en los últimos 5 años con una tasa del 178,28%.

4. Suponga que necesita caracterizar las universidades en segmentos o grupos de universidades en


relación a ciertas características de selectividad en puntajes y oferta de programas en base a la
información del año 2014.
Genere grupos de universidades en relación a los siguientes criterios.

Grupo1: Selectivas y tradicionales: Universidades con 20% o más de programas con puntajes de corte del
último seleccionado superiores o iguales a 650 puntos y con el 65% o más de programas con antigüedad mayor
o igual a 10 años (Nota: considere año de inicio de actividades).

225
Grupo 2: Medianamente selectivas y con tradición: Universidades entre un 10% y menos del 20% de programas
con puntajes de corte del último seleccionado superiores o iguales a 650 y con el 65% o más de programas
con antigüedad mayor o igual a 10 años (Nota: considere año de inicio de actividades).
Grupo 3: En etapa de crecimiento: Todas las universidades que no están en el grupo 1 y 2
Para el año 2014 ¿Cuántas universidades hay en el grupo 1 y qué porcentaje representan del total de
universidades? ¿Qué porcentaje de universidades hay en el grupo 3?
Solución ejercicio 3
Lo primero es asignar el valor 999 sin información a datos perdidos en missing en la vista de datos.
Ahora se creará una variable punt650 que posee 1 si el puntaje de corte del último seleccionado es superior
o igual a 650 y 0 en caso contrario.

DATASET ACTIVATE DataSet2.


IF (Puntajedecorteúltimoseleccionado1 >= 650) punt650=1.
IF (Puntajedecorteúltimoseleccionado1 < 650) punt650=0.
VARIABLE LABELS punt650 'puntajes de corte desde 650'.
EXECUTE.

También se creará una variable antigüedad que posee 1 si la antigüedad de la carrera o programa es
mayor o igual a 10 años y 0 en caso contrario.

IF (2015- AñoInicioActividades >= 10) antiguedad=1.


IF (2015- AñoInicioActividades < 10) antiguedad=0.
VARIABLE LABELS antiguedad 'antiguedad carrera'.
EXECUTE.
Ahora se agrega por año e institución

DATASET DECLARE AGRSELECTIVIDAD.


AGGREGATE
/OUTFILE='AGRSELECTIVIDAD'
/BREAK=Año Cód.Institución NombreInstitución
DescripciónTipoSistema
/punt650_sum=SUM(punt650)
/antiguedad_sum=SUM(antiguedad)
/N_BREAK=N.
Se calculan los porcentajes se selectividad y antigüedad de las carreras
DATASET ACTIVATE AGRSELECTIVIDAD.
COMPUTE Porcent650=(punt650_sum / N_BREAK) * 100.
VARIABLE LABELS Porcent650 'Porcentaje de programas con ptje de corte>=650´.
EXECUTE.
COMPUTE Porctantiguedad=(antiguedad_sum / N_BREAK) * 100.
VARIABLE LABELS Porctantiguedad 'Porcentaje antiguedad carreras >=10'.
EXECUTE.

226
IF (Porcent650 >= 20 & Porctantiguedad >= 65) Grupo=1.
IF ((Porcent650 >= 10 & Porcent650 < 20 ) & Porctantiguedad >= 65) Grupo=2.
IF ((Porcent650 < 10 ) | Porctantiguedad < 65) Grupo=3.
VARIABLE LABELS Grupo 'Segmentos de universidades'.
EXECUTE.
VALUE LABELS Grupo
1 Selectiva y tradicional
2 Medianamente selectiva y tradicional
3 En etapa de crecimiento.

USE ALL.
COMPUTE filter_$=(Año = 2014).
VARIABLE LABEL filter_$ 'Año = 2014 (FILTER)'.
VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE.

227
XIX. Estimación por Intervalos de Parámetros Poblacionales19.
(Muestras, intervalos de confianza).

Objetivos del caso


Seleccionar muestras aleatorias
Aplicar intervalos de confianza para la media poblacional

Antes de continuar con el repaso de Inferencia Estadística, realizaremos algunos procesos relativos a la
estimación de parámetros poblacionales.

Abra el archivo Poblaciónestimacióndeparámetros.sav.

a) Usando algún gráfico, identifique cuál es la distribución de las personas respecto a sus ingresos en
esta población conformada por 1.000 trabajadores.

Gráfico Q-Q normal de ingreso

Histograma
3

100 2

Normal esperado 1

80
0

-1
Frecuencia

60

-2

40 -3

420 450 480 510 540 570

Valor observado

20

Media =500,4162
Desviación típica =24,
05464
EXAMINE
0
420,00 450,00 480,00 510,00 540,00 570,00
N =1.000

VARIABLES=ingreso ingreso

/PLOT BOXPLOT STEMLEAF HISTOGRAM NPPLOT


/COMPARE GROUP
/STATISTICS DESCRIPTIVES
/CINTERVAL 95
/MISSING LISTWISE
/NOTOTAL.

19
Caso elaborado por Sara Arancibia y Jaime Pérez

228
Pruebas de norma lidad
a
Kolmogorov-Smirnov Shapiro-W ilk
Est adístico gl Sig. Est adístico gl Sig.
ingreso ,014 1000 ,200* ,999 1000 ,743
*. Est e es un límite inferior de la s ignific ación verdadera.
a. Corrección de la significac ión de Lilliefors

b) Determine el ingreso promedio por trabajador y la dispersión de los ingresos en la población.

Re sume n del procesam iento de los casos

Cas os
Válidos Perdidos Tot al
N Porcentaje N Porcentaje N Porcentaje
ingreso 1000 100,0% 0 ,0% 1000 100,0%

De scriptivos

Es tadíst ico Error típ.


ingreso Media 500,4162 ,76067
Intervalo de confianz a Límite inferior 498,9235
para la media al 95% Límite superior
501,9089

Media recortada al 5% 500,3376


Mediana 500,5701
Varianza 578,626
Desv. típ. 24, 05464
Mínimo 423,42
Máximo 569,35
Rango 145,93
Amplitud intercuartil 33, 01
As imetría ,028 ,077
Curtosis -,035 ,155

c) Seleccione una muestra aleatoria correspondiente al 20% de la población, muestre la sintaxis. Muestre
una tabla de frecuencias para género

USE ALL.
COMPUTE filter_$=(uniform(1)<=.20).
VARIABLE LABEL filter_$ 'Aproximadamente 20 % de los casos (MUESTRA)'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE .

229
ge nero

Porcentaje Porcentaje
Frecuenc ia Porcentaje válido acumulado
Válidos Femenino 78 37, 1 37, 1 37, 1
Masculino 132 62, 9 62, 9 100,0
Tot al 210 100,0 100,0

Genera una muestra aleatoria con el porcentaje aproximado de casos indicado.

Selecciona una muestra aleatoria con el número de casos especificado a partir del número total de casos
especificado. Si el número total de casos especificado excede el número total de casos presentes en el archivo
de datos, la muestra contendrá un número menor de casos proporcional al número solicitado.

USE ALL.
do if $casenum = 1.
compute #s_$_1=200.
compute #s_$_2=1000.
end if.
do if #s_$_2 > 0.
compute filter_$ = uniform(1)* #s_$_2 < #s_$_1.
compute #s_$_1 = #s_$_1 - filter_$.
compute #s_$_2 = #s_$_2 - 1.
else.
compute filter_$ = 0.
end if.

230
VARIABLE LABEL filter_$ '200 de los primeros 1000 casos (MUESTRA)'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE .

ge nero

Porcentaje Porcentaje
Frecuenc ia Porcentaje válido acumulado
Válidos Femenino 78 39, 0 39, 0 39, 0
Masculino 122 61, 0 61, 0 100,0
Tot al 200 100,0 100,0

d) Con la muestra antes seleccionada estime el ingreso medio por trabajador con un nivel de confianza
del 90%. Interprete el intervalo resultante. Además, verifique si la media poblacional está contenida
en el intervalo construido. Por último, identifique los principales estadísticos para la construcción del
intervalo de confianza.

De scriptivos

Es tadíst ico Error típ.


ingreso Media 500,2375 1,72747
Intervalo de confianz a Límite inferior 497,3828
para la media al 90% Límite superior
503,0922

Media recortada al 5% 500,7133


Mediana 501,7956
Varianza 596,828
Desv. típ. 24, 43005
Mínimo 424,63
Máximo 569,35
Rango 144,72
Amplitud intercuartil 35, 96
As imetría -,227 ,172
Curtosis -,020 ,342

A partir de la muestra (200 registros) obtenemos el intervalo de confianza del 90% para la media (497,3828
; 503,0922)
De 100 intervalos similarmente construidos, 90 contendrán el parámetro poblacional
(media poblacional)

Se verifica que la media poblacional 500,4162 pertenece al intervalo de confianza antes indicado

Intervalo de confianza:

231

Limite inferior X −z = 500,2375-1,645*1,72747=-497,3958
n

Limite superior X + z =500,2375+1,645*1,72747=503,07918
n
 24,43005
= = 1,727465
n 200

e) Seleccione una nueva muestra aleatoria, del 20%, cambiando previamente la semilla de aleatorización
y construya otro intervalo de confianza para estimar el ingreso promedio por persona, con un nivel de
confianza del 90%; verifique si la media poblacional está contenida dentro del intervalo. Además,
compare este intervalo con el anterior y comente.
USE ALL.
do if $casenum = 1.
compute #s_$_1=200.
compute #s_$_2=1000.
end if.
do if #s_$_2 > 0.
compute filter_$ = uniform(1)* #s_$_2 < #s_$_1.
compute #s_$_1 = #s_$_1 - filter_$.
compute #s_$_2 = #s_$_2 - 1.
else.
compute filter_$ = 0.
end if.
VARIABLE LABEL filter_$ '200 de los primeros 1000 casos (MUESTRA)'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE .

Re sume n del procesam iento de los casos

Cas os
Válidos Perdidos Tot al
N Porcentaje N Porcentaje N Porcentaje
ingreso 200 100,0% 0 ,0% 200 100,0%

232
De scriptivos

Es tadíst ico Error típ.


ingreso Media 502,4214 1,67967
Intervalo de confianz a Límite inferior 499,6457
para la media al 90% Límite superior
505,1972

Media recortada al 5% 502,3368


Mediana 502,6920
Varianza 564,258
Desv. típ. 23, 75411
Mínimo 440,09
Máximo 564,09
Rango 124,00
Amplitud intercuartil 32, 80
As imetría ,010 ,172
Curtosis -,280 ,342

f) Seleccione una nueva muestra aleatoria, del 1% de la población y construya un intervalo de confianza
para estimar el ingreso promedio por trabajador con un nivel de confianza del 95%. Compare este
resultado con el del punto e) y comente respecto al estadístico que está usando y supuesto con relación
a la distribución de la población.
USE ALL.
do if $casenum = 1.
compute #s_$_1=10.
compute #s_$_2=1000.
end if.
do if #s_$_2 > 0.
compute filter_$ = uniform(1)* #s_$_2 < #s_$_1.
compute #s_$_1 = #s_$_1 - filter_$.
compute #s_$_2 = #s_$_2 - 1.
else.
compute filter_$ = 0.
end if.
VARIABLE LABEL filter_$ '10 de los primeros 1000 casos (MUESTRA)'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE .

EXAMINE
VARIABLES=ingreso
/PLOT BOXPLOT STEMLEAF HISTOGRAM NPPLOT
/COMPARE GROUP
/STATISTICS DESCRIPTIVES
/CINTERVAL 95
/MISSING LISTWISE
/NOTOTAL.

233
Re sume n del procesam iento de los casos

Cas os
Válidos Perdidos Tot al
N Porcentaje N Porcentaje N Porcentaje
ingreso 10 100,0% 0 ,0% 10 100,0%

De scriptivos

Es tadíst ico Error típ.


ingreso Media 503,4258 6,42251
Intervalo de confianz a Límite inferior 488,8971
para la media al 95% Límite superior
517,9545

Media recortada al 5% 504,7263


Mediana 514,7942
Varianza 412,486
Desv. típ. 20, 30975
Mínimo 463,21
Máximo 520,23
Rango 57, 02
Amplitud intercuartil 33, 61
As imetría -1,226 ,687
Curtosis -,038 1,334

g) Calcule la proporción de hombres en la población.

ge nero

Porcentaje Porcentaje
Frecuenc ia Porcentaje válido acumulado
Válidos Femenino 400 40, 0 40, 0 40, 0
Masculino 600 60, 0 60, 0 100,0
Tot al 1000 100,0 100,0

La proporción de hombres en la población es del 0,6

h) Seleccione una muestra aleatoria, del 20% y estime la proporción de hombres que hay en la población,
con un nivel de confianza del 95%. Verifique si la proporción poblacional de hombre, está contenida en
el intervalo de confianza que construyó.

234
Re sume n del procesam iento de los casos

Cas os
Válidos Perdidos Tot al
N Porcentaje N Porcentaje N Porcentaje
genero 200 100,0% 0 ,0% 200 100,0%

USE ALL.
do if $casenum = 1.
compute #s_$_1=200.
compute #s_$_2=1000.
end if.
do if #s_$_2 > 0.
compute filter_$ = uniform(1)* #s_$_2 < #s_$_1.
compute #s_$_1 = #s_$_1 - filter_$.
compute #s_$_2 = #s_$_2 - 1.
else.
compute filter_$ = 0.
end if.
VARIABLE LABEL filter_$ '200 de los primeros 1000 casos (MUESTRA)'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE .

De scriptivos

Es tadíst ico Error típ.


genero Media ,63 ,034
Intervalo de confianz a Límite inferior ,56
para la media al 95% Límite superior
,69

Media recortada al 5% ,64


Mediana 1,00
Varianza ,236
Desv. típ. ,485
Mínimo 0
Máximo 1
Rango 1
Amplitud intercuartil 1
As imetría -,520 ,172
Curtosis -1,747 ,342

El parámetro poblacional está contenido en el intervalo de confianza

235
i) Agregue una nueva columna con el tamaño de la población y cree una variable total, multiplicando género
por tamaño de la población y luego, con la muestra aleatoria del 20% , construya un intervalo de
confianza para estimar el total de hombres en la población, con un nivel de confianza del 90% y
comente el resultado.

COMPUTE generpob = genero * tamaño .


VARIABLE LABELS generpob 'genero por poblacion total' .
EXECUTE .

EXAMINE
VARIABLES=generpob
/PLOT BOXPLOT STEMLEAF HISTOGRAM NPPLOT
/COMPARE GROUP
/STATISTICS DESCRIPTIVES
/CINTERVAL 90
/MISSING LISTWISE
/NOTOTAL.

De scriptivos

Est adístico Error típ.


genero por Media 625,0000 34, 31856
poblacion total Intervalo de confianz a Límite inferior 568,2870
para la media al 90% Límite superior
681,7130

Media recortada al 5% 638,8889


Mediana 1000,0000
Varianza 235552,764
Des v. típ. 485,33778
Mínimo ,00
Máximo 1000,00
Rango 1000,00
Amplitud interc uartil 1000,00
Asimetría -,520 ,172
Curtosis -1,747 ,342

j) Con la muestra del 20% de la población determine si la media de los ingresos de hombres difiere
significativamente de los ingresos de mujeres. Compare con los parámetros poblacionales ( Media de ingreso
para hombres y media de ingresos para mujeres)

T-TEST
GROUPS = genero(0 1)
/MISSING = ANALYSIS
/VARIABLES = ingreso
/CRITERIA = CI(.95) .

236
Estadísti cos de grupo

Des viación Error típ. de


genero N Media típ. la media
ingreso Femenino 75 500,1683 24, 21000 2,79553
Masculino 125 498,5596 24, 78819 2,21712

Prueba de m uestras indepe ndientes

Prueba de Levene
para la igualdad de
varianzas Prueba T para la igualdad de medias
95% Intervalo de
confianz a para la
Diferencia Error típ. de diferencia
F Sig. t gl Sig. (bilateral) de medias la diferencia Inferior Superior
ingreso Se han asumido
,191 ,662 ,448 198 ,654 1,60872 3,58922 -5,46928 8,68672
varianzas iguales
No se han asumido
,451 158,861 ,653 1,60872 3,56800 -5,43811 8,65555
varianzas iguales

Pruebas de norma lidad


a
Kolmogorov-S mirnov Shapiro-Wilk
genero Es tadíst ico gl Sig. Es tadíst ico gl Sig.
ingreso Femenino ,095 75 ,091 ,987 75 ,631
Masculino ,043 125 ,200* ,993 125 ,806
*. Es te es un límite inferior de la significación verdadera.
a. Corrección de la significación de Lilliefors

Estadísti cos descri ptivos

genero N Mínimo Máximo Media Des v. típ.


Femenino ingreso 400 424,63 569,35 500,4417 23, 97443
N válido (según lista) 400
Masculino ingreso 600 423,42 565,57 500,3993 24, 12793
N válido (según lista) 600

237
XX. Estudio de caso: Encuesta laboral20

(Aplicación IPC -Distribución de probabilidad normal)

Objetivos del caso:


Aplicar sintaxis condicionales para crear nuevas variables
Utilizar IPC para deflactar una serie de datos
Aplicar pruebas de hipótesis para la distribución normal

Se realizó una encuesta dirigida a personas activas en el ámbito laboral, con el objeto de conocer algunas
características de esta mano de obra y averiguar, por una parte, si se observan diferencias significativas
entre diferentes segmentos en el mercado del trabajo y por otra, qué ha sucedido con la evolución de los
sueldos. Para tal efecto, se tomo una muestra de 474 personas activas; los datos entregados por los
entrevistados se depositaron en el archivo trabajadores.sav.
Usando los antecedentes que residen en la base de datos antes señalada y los datos de IPC anual (base Dic
1998=100) responda las siguientes preguntas. Considere

Año IPC
1993 71,68
1994 78,09
1995 84,49
1996 90,10
1997 95,54
1998 100,00
1999 102,31
2000 106,94
2001 109,76
2002 112,86
2003 114,07
2004 116,84

a) Elaborar un cuadro que muestre los siguientes estadísticos descriptivos: Mínimo, Máximo, Media,
Mediana y desviación estándar, del sueldo promedio inicial, del sueldo promedio inicial expresado en
pesos del año 2004 y sueldo promedio actual por categoría laboral
***Sintaxis IPC***.
IF (contrato = 93) IPC = 71.68 .
IF (contrato = 94) IPC = 78.09 .
IF (contrato = 95) IPC = 84.49 .
IF (contrato = 96) IPC = 90.10 .
IF (contrato = 97) IPC = 95.54 .
IF (contrato = 98) IPC = 100 .

20
Caso elaborado por Sara Arancibia

238
IF (contrato = 99) IPC = 102.31 .
IF (contrato = 2000) IPC = 106.94 .
IF (contrato = 2001) IPC = 109.76 .
IF (contrato = 2002) IPC = 112.86 .
IF (contrato = 2003) IPC = 114.07 .
IF (contrato = 2004) IPC = 116.84 .
EXECUTE .

Sintaxis Utilizada para Actualización del sueldo Inicial en moneda de dic del 2004

COMPUTE suel2004 = (sueldini / IPC) * 116.84 .


EXECUTE .

MEANS
TABLES=sueldini sueld suel2004 BY catlab
/CELLS COUNT MIN MAX MEAN MEDIAN STDDEV .

B) Considere por separado cada categoría laboral. Realice un gráfico para la media de los sueldos iniciales
(moneda nominal) por año de contrato. Luego realice un gráfico para la media de los sueldos actuales .

IF (contrato < 2000) contrat = contrato + 1900 .


VARIABLE LABELS contrat 'año de contrato' .
EXECUTE .
IF (contrato >= 2000) contrat = contrato .
VARIABLE LABELS contrat 'año de contrato' .
EXECUTE .

Categoría laboral: Administrativo


500000

400000
Media Sueldo inicial

300000

474000

200000

323438 315750 303750


308566
284400 282825 285253
266417 263325 252450
236250
100000

0
1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004

año de contrato

239
Categoría laboral: Técnico
250000

200000

Media Sueldo inicial

150000

236200
219164 216750
210424 206321
100000 197932 201600 206074
195450 193145
186221
179208

50000

0
1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004

año de contrato

b) Realice un gráfico que permita observar la forma de la distribución de la variable sueldo inicial y
mediante un test de hipótesis determine si la variable distribuye normal. Realice además un gráfico
Q_Q para la variable. Interprete

Analizar/ explorar/Variable: Sueldo inicial/ gráficos solicitar las pruebas de normalidad

240
H0: La variable sueldo inicial distribuye normal

241
XXI. Estudio de Caso: Test market21

Objetivos: Aplicar pruebas de hipótesis y agregación

Una compañía produce computadores personales y está considerando la introducción de nuevos colores para
el hardware con la esperanza de aumentar las ventas. El mantenimiento de la producción de más de un color
de equipo es costoso.
Para la introducción de nuevos colores la empresa ha establecido que será rentable si llega a una meta de
ventas promedio de 260 unidades por semana.
El departamento de marketing introduce y publicita una presentación de los nuevos colores en un experimento
de prueba de marketing por 36 semanas
Las ventas semanales están dadas en el archivo testmarket.sav
Basada en las ventas en testmarket, ¿debería la compañía adoptar la opción de nuevos colores?

Los datos tabulados han sido entregados a usted en el archivo “testmarket colores” y se le solicita que
responda las siguientes preguntas:

Nota: Muestre todas las sintaxis necesarias para responder cada una de las preguntas.

1. Suponga que se quiere convencer a los ejecutivos que las ventas justifican la introducción de nuevos
colores. Es decir se quiere argumentar que el promedio semanal de ventas con la opción de colores es
mayor a 260 unidades.
Determine si existen diferencias significativas en la media de ventas semanales respecto a 260. Si
hay diferencias determine si la media poblacional es superior a 260 y estime un intervalo de confianza
para la media poblacional con un 95% de confianza. Interprete. (Debe verificar si se cumplen las
condiciones para aplicar test de hipótesis).

Solución

En primer lugar se debe agregar por semana, sumando la cantidad de ventas de computadores

AGGREGATE
/OUTFILE='F:\CURSOS 2012\AIE 2012-1\SOLEMNE 2- 2012\Archivos solemne2-2012-1\AGR
ventas.sav'
/BREAK=Semana
/cantidad_sum 'venta semanal'=SUM(cantidad)
/N_BREAK=N.

Luego se verifica si se cumple la condición de normalidad o asimetría de ventas semanales.

21
Caso elaborado por Sara Arancibia

242
DATASET ACTIVATE Conjunto_de_datos5.
EXAMINE VARIABLES=cantidad_sum
/PLOT BOXPLOT HISTOGRAM NPPLOT
/COMPARE GROUP
/STATISTICS DESCRIPTIVES
/CINTERVAL 95
/MISSING LISTWISE
/NOTOTAL.

Ho: La variable ventas distribuye normal


H1: La variable ventas no distribuye normal
Del test de normalidad Shapiro -Wilk se observa que no hay evidencia para rechazar la hipótesis nula y por
tanto la variable ventas distribuye normal (dado que la significancia es superior a 0,05).

Ahora aplicamos una prueba T para una muestra donde las hipótesis correspondientes son

Ho: La media de ventas ( µ ) no difiere significativamente de 260


H1: La media de ventas ( µ ) difiere significativamente de 260

T-TEST
/TESTVAL=260
/MISSING=ANALYSIS
/VARIABLES=cantidad_sum
/CRITERIA=CI(.99).

243
Dado que la sig es menor a 0,05 existe evidencia para rechazar la hipótesis nula y por tanto la media poblacional
de ventas difiere significativamente de 260.

Dado que la diferencia µ-260 está entre dos valores positivos entre 8,7355 y 44,0422 entonces se tiene que
µ-260>0 es decir µ>260. Por tanto la media poblacional de las ventas semanales es superior a 260, lo que
implica que la compañía debería adoptar la opción de nuevos colores.

Además con un 95% de confianza la media poblacional µ está entre 260+8,7365 y 260+44,0422 es decir entre
268,7355 y 304,0422.

Es decir de 100 intervalos construidos similarmente aprox en 95 de ellos se encontrará la media poblacional
de ventas semanales

NOTA: Otra forma para estimar el intervalo de confianza es pedir directamente el intervalo de confianza en
explorar para la media de ventas obteniendo

EXAMINE VARIABLES=cantidad_sum
/PLOT BOXPLOT HISTOGRAM NPPLOT
/COMPARE GROUP
/STATISTICS DESCRIPTIVES
/CINTERVAL 99
/MISSING LISTWISE
/NOTOTAL.

2. Los directivos han observado que el rojo es el que menos se vende y lo han descartado.
a) Se le solicita que determine si existen diferencias significativas entre la venta promedio semanal
de los computadores en color gris plateado y rosado con un 95% de confianza. Argumente su
respuesta.

244
(Debe verificar si se cumplen las condiciones para aplicar test de hipótesis).

b) Determine si existen diferencias significativas entre la venta promedio semanal de los


computadores en color gris plateado y blanco con un 95% de confianza. Argumente su respuesta.

Solución

En primer lugar se verificará si la variable ventas distribuye normal en cada uno de los grupos de colores que
interesan (Gris plateado, rosado y blanco)

EXAMINE VARIABLES=cantidad BY COLOR


/PLOT BOXPLOT HISTOGRAM NPPLOT
/COMPARE GROUP
/STATISTICS DESCRIPTIVES
/CINTERVAL 99
/MISSING LISTWISE
/NOTOTAL.

Del test de normalidad Shapiro -Wilk se observa que no hay evidencia para rechazar la hipótesis nula y por
tanto la variable ventas distribuye normal en cada grupo (dado que la significancia es superior a 0,05).

a) Ahora aplicamos el test T para muestras independientes donde las hipótesis correspondientes son
Ho: No existen diferencias significativas en las medias de ventas entre los grupos de colores gris plateado y
rosado (Ho: µ1= µ2)
H1: Existen diferencias significativas en las medias de ventas entre los grupos de colores gris plateado y
rosado (Ho: µ1≠ µ2)

En primer lugar se ve el test de Levene de homogeneidad de varianzas donde las hipótesis son:
Ho: No existen diferencias significativas en las varianzas de ventas entre los grupos de colores gris plateado
y rosado (Ho: 𝜎1=
2
𝜎22 )
H1: Existen diferencias significativas en las varianzas de ventas entre los grupos de colores gris plateado y
rosado (H1: 𝜎𝑖2 ≠ 𝜎𝑗2 )

245
DATASET ACTIVATE Conjunto_de_datos2.
T-TEST GROUPS=COLOR(1 3)
/MISSING=ANALYSIS
/VARIABLES=cantidad
/CRITERIA=CI(.95).

Del test de Levene se tiene que no hay evidencia para rechazar la hipótesis nula y por lo tanto se asume
varianzas iguales.
En consecuencia se analiza la primera fila en el test de igualdad de medias

Del test se observa que hay evidencia para rechazar la hipótesis nula de igualdad de medias y por tanto existen
diferencias significativas en la media de ventas entre el gris plateado y rosado.

Del intervalo de confianza para la diferencia de medias al 95% de confianza, se observa que la diferencia µ1-
µ2 está entre dos valores positivos y por tanto µ1> µ2, es decir la media de ventas del color gris plateado es
mayor a la media de ventas del rosado.

b) En la pregunta b) también se aplica el test T para muestras independientes donde las hipótesis
correspondientes son
Ho: No existen diferencias significativas en las medias de ventas entre los grupos de colores gris plateado y
blanco (Ho: µ1= µ2)
H1: Existen diferencias significativas en las medias de ventas entre los grupos de colores gris plateado y
blanco (Ho: µ1≠ µ2)

En primer lugar se ve el test de Levene de homogeneidad de varianzas donde las hipótesis son:
Ho: No existen diferencias significativas en las varianzas de ventas entre los grupos de colores gris plateado
y blanco (Ho: 𝜎1=
2
𝜎22 )
H1: Existen diferencias significativas en las varianzas de ventas entre los grupos de colores gris plateado y
blanco (H1: 𝜎𝑖2 ≠ 𝜎𝑗2 )

246
DATASET ACTIVATE Conjunto_de_datos2.
T-TEST GROUPS=COLOR(1 4)
/MISSING=ANALYSIS
/VARIABLES=cantidad
/CRITERIA=CI(.95).

Del test de Levene se tiene que no hay evidencia para rechazar la hipótesis nula y por lo tanto se asume
varianzas iguales.
En consecuencia se analiza la primera fila en el test de igualdad de medias

Del test se observa que no hay evidencia para rechazar la hipótesis nula de igualdad de medias y por tanto no
existen diferencias significativas en la media de ventas entre el gris plateado y blanco.
Pruebas de chi-cuadra do

Sig. asintótica
Valor gl (bilateral)
Chi-cuadrado de Pearson 368,714a 8 ,000
Razón de verosimilitud 331,315 8 ,000
N de cas os válidos 470
a. 0 c asillas (,0% ) tienen una frec uenc ia esperada inferior a 5.
La frecuencia mínima esperada es 9,94.

De la prueba chi cuadrado se desprende que las variables están relacionadas, no son independientes dado que
la significancia es menor a 0,05.
Para conocer el grado de la intensidad de la relación vemos el valor del coeficiente de contingencia. Se puede
apreciar que este coeficiente es significativo y alcanza un valor 0,663 moderado alto.
Me didas simé trica s

Sig.
Valor aproximada
Nominal por Coeficiente de
,663 ,000
nominal contingencia
N de cas os válidos 470
a. Asumiendo la hipótesis alternativa.
b. Empleando el error típico asintótico basado en la hipótesis
nula.

247
XXII. Estudio de Caso: Caso Muestra Simce colegios22

Realizar pruebas de hipótesis T y Chi cuadrado

Asuma que la base de datos corresponde a una muestra aleatoria de la población de todos los colegios que dieron
la SIMCE en el año 2006. Considere la muestra aleatoria del archivo muestra simce.sav y realice pruebas de
hipótesis que permita responder las siguientes preguntas.
a) ¿Existen diferencias significativas entre los puntajes promedios de la SIMCE entre los
colegios de tipo Rural y Urbano?
b) Para cada grupo de dependencia, ¿Existen diferencias significativas entre los promedios de lenguaje
y matemáticas?
c) ¿Existe relación entre el grupo socioeconómico del establecimiento y la dependencia? Si existe
relación determine si la relación es alta, moderada o débil.

Desarrollo
En primer lugar se debe seleccionar una muestra aleatoria. Para esto ir a Menú: Seleccionar/ Muestra
aleatoria de datos

Sintaxis
USE ALL.
COMPUTE filter_$=(uniform(1)<=.20).
VARIABLE LABEL filter_$ 'Approximately 20 % of cases (SAMPLE)'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE .

a) ¿Existen diferencias significativas entre los puntajes promedios de la prueba SIMCE entre los
colegios de tipo Rural y Urbano?
Esta pregunta corresponde a realizar una prueba T para muestras independientes. Dado que es una prueba
paramétrica veremos previamente si se verifica la normalidad de la variable “puntprom” en ambos grupos
Rural y Urbano.
Menú: Analizar/ Explorar/ Gráficos con prueba de normalidad

EXAMINE
VARIABLES=puntprom BY caract /ID= Idest
/PLOT BOXPLOT HISTOGRAM NPPLOT
/COMPARE GROUP
/STATISTICS DESCRIPTIVES EXTREME
/CINTERVAL 95
/MISSING LISTWISE
/NOTOTAL.

22
Caso elaborado por Sara Arancibia y Nelson Rodriguez

248
Pruebas de norma lidad
a
Caracterización del Kolmogorov-Smirnov Shapiro-W ilk
est ablec imient o Est adístico gl Sig. Est adístico gl Sig.
puntaje promedio entre Rural ,201 45 ,000 ,797 45 ,000
lenguaje y mat emáticas Urbano ,078 425 ,000 ,964 425 ,000
a. Corrección de la significac ión de Lilliefors

Dado que la significancia en la prueba K-S es menor a 0,05, tanto para el grupo de colegios rurales como
urbanos se rechaza la hipótesis nula de normalidad, donde H0: La variable puntaje promedio distribuye
normal
Sin embargo, la prueba T es robusta a desviaciones de la normalidad, por tanto veremos si existen valores
extremos o atípicos y los filtraremos según sea la cantidad23, para luego solicitar el coeficiente de
asimetría. Si éste está cerca de cero se considerará que la distribución es cercana a una distribución
simétrica y en consecuencia se podrá aplicar la prueba T.
Para lo anterior consideremos el diagrama de cajas que se seleccionó en el menú explorar en la sintaxis
anterior.

Media de puntajes promedios SIMCE por caracterización Rural y Urbano


puntaje promedio entre lenguaje y matemáticas

350,00

760,00

300,00

1190,00
1195,00

250,00

200,00

En la gráfica se puede apreciar que


Rural hay valores atípicos y extremos
Urbano en el grupo de colegios rurales. Al
editar la gráfica se puede ver que dentro dedellos
Caracterización extremos aparecen tres promedios extremos con
establecimiento
identificación 1171, 754 y 760

Si son muchos los casos extremos y atípicos seguramente la distribución no será simétrica y no podríamos aplicar
23
la prueba T

249
Además se puede apreciar dos atípicos con identificación, 1190, 1195
Filtremos estos cinco valores y verifiquemos si se cumple la asimetría
Menú: Datos/Seleccionar casos
USE ALL.
COMPUTE filter_$=(Idest ~= 1171 & Idest ~= 754 & Idest ~= 760 & Idest ~= 1190 & Idest ~=
1195).
VARIABLE LABEL filter_$ 'Idest ~= 1171 & Idest ~= 754 & Idest ~= 760 & Idest ~= 1190 &
Idest ~= 1195 (FILTER)'.
VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE .
Una vez filtrados los valores extremos y atípicos solicitemos el coeficiente de asimetría para cada grupo de
caracterización; Rural y Urbano
Par esto conviene segmentar por “caract” y luego en Frecuencias/ Estadísticos solicitar el coeficiente de
asimetría. Menú: Datos/ Segmentar archivo

SPLIT FILE
LAYERED BY caract .
FREQUENCIES
VARIABLES=puntprom /FORMAT=NOTABLE
/STATISTICS=SKEWNESS SESKEW
/ORDER= ANALYSIS .

SORT CASES BY caract .


SPLIT FILE
LAYERED BY caract .
FREQUENCIES
VARIABLES=puntprom /FORMAT=NOTABLE
/STATISTICS=SKEWNESS SESKEW
/ORDER= ANALYSIS .

250
Coeficie nte de asi metrí a para la variable puntaje prom edio

puntaje promedio entre lenguaje y matemáticas


Rural N Válidos 40
Perdidos 0
Asimetría ,553
Urbano N Válidos 425
Perdidos 0
Asimetría ,258

Dado que el coeficiente de asimetría está cerca de cero podemos considerar la variable “puntprom”
simétrica en ambos grupos Rural y Urbano y por tanto podemos aplicar la prueba T para muestras
independientes: Previamente debemos sacar la segmentación y tomar todos los casos, dejando el filtro
realizado anteriormente para los extremos y atípicos.
Para realizar la prueba T:
Menú: Analizar/Comparar medias/Prueba T para muestras independientes

***Sintaxis***

T-TEST
GROUPS = caract(1 2)
/MISSING = ANALYSIS
/VARIABLES = puntprom
/CRITERIA = CI(.95) .

Estadísti cos de grupo

Caracterización del Des viación Error típ. de


est ablec imient o N Media típ. la media
puntaje promedio entre Rural 40 216,2125 16, 63827 2,63074
lenguaje y matemát icas Urbano 425 260,4612 39, 08043 1,89568

Prueba de m uestras indepe ndientes

Prueba de Levene
para la igualdad de
varianzas Prueba T para la igualdad de medias
95% Intervalo de
confianz a para la
Diferencia Error típ. de diferencia
F Sig. t gl Sig. (bilateral) de medias la diferencia Inferior Superior
puntaje promedio entre Se han asumido
42, 153 ,000 -7,095 463 ,000 -44,24868 6,23655 -56,50412 -31,99323
lenguaje y matemát icas varianzas iguales
No se han asumido
-13,646 87, 838 ,000 -44,24868 3,24259 -50,69281 -37,80454
varianzas iguales

En la tabla de estadísticos de grupo se observa el número de casos por cada grupo en la muestra y la media
y dispersión del puntaje promedio para los datos de la muestra de colegios.
La tabla de la prueba T para muestras independientes entrega en primer lugar el resultado de la prueba
de Levene para la igualdad de varianzas. En este caso dado que la significancia es menor a 0,05 se rechaza
la hipótesis nula.
H 0 :  12 =  22 que indica que la varianza del puntaje promedio para el grupo Rural no difiere de la varianza
del puntaje promedio para el grupo Urbano.

251
Por tanto no se asume varianzas iguales y en este caso se lee la prueba T de la segunda fila de la tabla.
Dado que la significancia es menor a 0,05 se rechaza la hipótesis nula de igualdad de medias H 0 : 1 = 2
que indica que no hay diferencias significativas en las medias del promedio de puntajes SIMCE para el
grupo Rural y Urbano.
Por tanto, existe evidencia para afirmar que existen diferencias significativas en la media de los
promedios de puntajes entre el grupo de colegios rurales y los colegios urbanos con un nivel de significancia
del 5%.Por otra parte la tabla entrega un intervalo de confianza del 95% para la diferencia de medias. En
este caso la diferencia de medias para los promedios de puntajes entre los colegios urbanos y rurales
está entre 38 puntos y 51 puntos aproximadamente con un 95 % de confianza.

b) Para cada grupo de dependencia, ¿Existen diferencias significativas entre los promedios de
lenguaje y matemáticas?.
Esta prueba corresponde para cada grupo de dependencia a una prueba T para muestras relacionadas,
donde la hipótesis nula corresponde a H 0 : 1 −  2 = 0 es decir la diferencia de las medias poblacionales
del puntaje promedio de matemáticas y de lenguaje es cero.
Previamente segmentaremos por dependencia.
SORT CASES BY dependencia .
SPLIT FILE
SEPARATE BY dependencia .

Calcularemos la variable diferencia entre ambos puntajes “difpunt”. Luego veremos si la diferencia entre
las dos variables consideradas distribuye normal. Al igual que la prueba T para muestras independientes
es robusta a desviaciones de la normalidad, por tanto bastaría filtrar los casos extremos o atípicos si es
que la cantidad es marginal y luego probar que es simétrica.
Menú; Transformar/Calcular
Luego de calcular la diferencia se procede a verificar si distribuye normal
Menú; Analizar/ Explorar/ gráficos

COMPUTE difpunt = prom_mat - prom_len .


EXECUTE .

EXAMINE
VARIABLES=difpunt /ID= Idest
/PLOT BOXPLOT HISTOGRAM NPPLOT
/COMPARE GROUP
/STATISTICS DESCRIPTIVES
/CINTERVAL 95
/MISSING LISTWISE
/NOTOTAL.

Para cada grupo de dependencia se observa de la prueba K-S que no se rechaza la normalidad de la variable
diferencia entre los puntajes, en consecuencia se verifica la hipótesis de la prueba T para muestras
relacionadas.
Es interesante observar el histograma, donde se puede ver que la forma se asemeja bastante a una
distribución normal.

252
b
Pruebas de norma lidad
a
Kolmogorov-Smirnov Shapiro-W ilk
Est adístico gl Sig. Est adístico gl Sig.
difpunt ,053 128 ,200* ,995 128 ,942
*. Est e es un límite inferior de la s ignific ación verdadera.
a. Corrección de la significac ión de Lilliefors
b. Tipo de dependencia = Municipalizado

Es interesante observar el histograma, donde se puede ver que la forma se asemeja bastante a una
distribución normal .

Histograma

Tipo de dependencia= Municipalizado

25

20
Frecuencia

15

10

Mean = -9,8125
Std. Dev. = 12,76792
0 N = 128
-50,00 -40,00 -30,00 -20,00 -10,00 0,00 10,00 20,00

difpunt

b
Pruebas de norma lidad
a
Kolmogorov-Smirnov Shapiro-W ilk
Est adístico gl Sig. Est adístico gl Sig.
difpunt ,097 82 ,054 ,978 82 ,173
a. Corrección de la significac ión de Lilliefors
b. Tipo de dependencia = Privado

253
Histograma

Tipo de dependencia= Privado

20

15
Frecuencia

10

Mean = 16,6585
Std. Dev. = 17,67276
0 N = 82
-40,00 -20,00 0,00 20,00 40,00 60,00

difpunt

Para los colegios privados se puede apreciar en el histograma de la variable que existe un colegio con una
diferencia entre los puntajes matemáticos y lenguaje bastante amplio, siendo el caso atípico con el valor
negativo mayor. Sin embargo la prueba Kolmogorov- Smirnov nos permite no rechazar la normalidad de la
variable diferencia, dado que la significancia es mayor a 0,05.
b
Pruebas de norma lidad
a
Kolmogorov-Smirnov Shapiro-W ilk
Est adístico gl Sig. Est adístico gl Sig.
difpunt ,046 260 ,200* ,990 260 ,082
*. Est e es un límite inferior de la s ignific ación verdadera.
a. Corrección de la significac ión de Lilliefors
b. Tipo de dependencia = Subvenc ionado

254
Histograma

Tipo de dependencia= Subvencionado

40

30
Frecuencia

20

10

Mean = -2,6654
Std. Dev. = 18,13696
0 N = 260
-40,00 -20,00 0,00 20,00 40,00 60,00

difpunt

En el caso de los subvencionados se observa un puntaje muy alto en el histograma, correspondiendo a un colegio
con una diferencia promedio entre matemáticas y lenguaje cercano a 60 puntos. Sin embargo se comporta con
un buen ajuste a la distribución normal pues la significancia es 0,200 mayor a 0,05.
Ahora para cada grupo de dependencia aplicaremos la prueba T para muestras relacionadas.
T-TEST
PAIRS = prom_mat WITH prom_len (PAIRED)
/CRITERIA = CI(.95)
/MISSING = ANALYSIS. a
Estadísti cos de muestra s rela cionadas

Des viación Error típ. de


Media N típ. la media
Par 1 prom_mat 223,27 128 25, 380 2,243
prom_len 233,09 128 19, 010 1,680
a. Tipo de dependencia = Municipalizado

En primer lugar se aprecia la tabla con estadísticos básicos de la muestra para colegios con dependencia
municipalizado, mostrando que las medias muestrales tienen una diferencia de aproximadamente 10 puntos
entre los puntajes promedios a favor de lenguaje.

Correlacione s de m uestras re lacionadaas

N Correlación Sig.
Par 1 prom_mat y prom_len 128 ,873 ,000
a. Tipo de dependencia = Municipalizado

255
La tabla de correlaciones indica que para los colegios municipalizados el puntaje de matemáticas y de
lenguaje se correlacionan linealmente, con una fuerza de asociación positiva alta
a
Prueba de m uestra s rel acionadas

Diferencias relacionadas
95% Intervalo de
confianza para la
Des viación Error típ. de diferencia
Media típ. la media Inferior Superior t gl Sig. (bilateral)
Par 1 prom_mat - prom_len -9,813 12, 768 1,129 -12,046 -7,579 -8,695 127 ,000
a. Tipo de dependencia = Municipalizado

De la prueba T para muestras relacionadas, se rechaza la hipótesis nula de igualdad de medias (diferencia
igual a cero), dado que la significancia es menor a 0.05, por tanto existen diferencias significativas entre el
promedio de matemáticas y el promedio de lenguaje para los colegios municipalizados. Del intervalo de
confianza para la diferencia se puede deducir que con un 95% de confianza la media poblacional del puntaje
promedio de lenguaje es superior al de matemáticas y la diferencia está entre aproximadamente 7,5 puntos y
12 puntos.
De manera equivalente se realiza una prueba T para muestras relacionadas para los colegios con dependencia
privado y subvencionado, obteniéndose en ambos casos diferencias significativas entre los promedios de
matemáticas y lenguaje.
c) ¿Existe relación entre el grupo socioeconómico del establecimiento y la dependencia? Si existe relación
determine si la relación es alta, moderada o débil.
Ambas variables pueden ser consideradas como nominales. En este caso la hipótesis nula a probar es
H0: Las variables grupo socioeconómico del establecimiento es independiente de la dependencia del colegio.
En primer lugar solicitemos la tabla de contingencia para ambas variables, considerando tanto la frecuencia
observada y la frecuencia esperada.
Tabla de continge ncia Grupo Socioeconóm ico del establecimie nto * Tipo de de pendenci a

Tipo de dependencia
Municipali Subvenc i
zado Privado onado Tot al
Grupo Socioec onómico Bajo Rec uento 56 2 40 98
del establecimiento Frecuenc ia es perada 26, 7 17, 1 54, 2 98, 0
Medio Bajo Rec uento 57 9 53 119
Frecuenc ia es perada 32, 4 20, 8 65, 8 119,0
Medio Rec uento 13 1 101 115
Frecuenc ia es perada 31, 3 20, 1 63, 6 115,0
Medio Alto Rec uento 2 18 61 81
Frecuenc ia es perada 22, 1 14, 1 44, 8 81, 0
Alto Rec uento 0 52 5 57
Frecuenc ia es perada 15, 5 9,9 31, 5 57, 0
Tot al Rec uento 128 82 260 470
Frecuenc ia es perada 128,0 82, 0 260,0 470,0

Se puede observar que las frecuencias esperadas son muy diferentes de las frecuencias observadas,
característica de variables no independientes.
Apliquemos la prueba chi-cuadrado de independencia.
CROSSTABS
/TABLES=socioeconomico BY dependencia
/FORMAT= AVALUE TABLES
/STATISTIC=CHISQ CC
/CELLS= COUNT EXPECTED
/COUNT ROUND CELL .
256
Pruebas de chi-cuadra do

Sig. asintótica
Valor gl (bilateral)
Chi-cuadrado de Pearson 368,714a 8 ,000
Razón de verosimilitud 331,315 8 ,000
N de cas os válidos 470
a. 0 c asillas (,0% ) tienen una frec uenc ia esperada inferior a 5.
La frecuencia mínima esperada es 9,94.

De la prueba chi cuadrado se desprende que las variables están relacionadas, no son independientes dado que
la significancia es menor a 0,05.
Para conocer el grado de la intensidad de la relación vemos el valor del coeficiente de contingencia. Se puede
apreciar que este coeficiente es significativo y alcanza un valor 0,663 moderado alto.

Me didas simé trica s

Sig.
Valor aproximada
Nominal por Coeficiente de
,663 ,000
nominal contingencia
N de cas os válidos 470
a. Asumiendo la hipótesis alternativa.
b. Empleando el error típico asintótico basado en la hipótesis
nula.

257
XXIII. Estudio de Caso: Estudio Morfología24

(Análisis de correlación y regresión simple)

Coeficiente de Correlación
Considere el archivo “Estudio Morfología.sav”.

c) Determine si las variables estatura, peso y coeficiente intelectual están correlacionadas


significativamente.
Para esto seleccione Analizar/Correlaciones/Bivariadas
Variables: ci, estatura y peso
Seleccionar [Correlación de Pearson], [Prueba de significación bilateral], [Marcar las correlaciones
significativas].

Correlacione s

Coc iente
intelectual ES TATURA PE SO
Coc iente intelectual Correlación de Pears on 1 ,081 ,001
Sig. (bilateral) . ,325 ,988
N 149 149 148
ES TATURA Correlación de Pears on ,081 1 ,600**
Sig. (bilateral) ,325 . ,000
N 149 150 149
PE SO Correlación de Pears on ,001 ,600** 1
Sig. (bilateral) ,988 ,000 .
N 148 149 149
**. La correlación es significativa al nivel 0,01 (bilateral).

i. Interprete el coeficiente de correlación

d) Realice diagramas de dispersión

La forma de una relación se puede estudiar visualmente a partir de la nube de puntos generada en el
Gráfico de Dispersión:

b-1) Seleccione Gráficos/Dispersión/Dispersión Simple


Eje Y: peso
Eje X: estatura
Establecer marcas por: sexo
Etiquetar mediante: iden
Edite la gráfica y ajuste la nube por una recta de regresión, muestre el R2 e interprete.

24
Caso elaborado por Sara Arancibia y Nelson Rodriguez

258
Gráfico de dispersión simple
110

27
100
93

90 31

80

70
SEXO

60 Mujer

Hombre
50
PESO

Total Population
40 R² = 0,3606
120 140 160 180 200 220 240 260 280

ESTATURA

Descubra qué puntos están alejados de la nube y fíltrelos para volver a hacer el gráfico de dispersión,
compare ahora el R2 e interprete.

USE ALL.
COMPUTE filter_$=(iden ~= 27 & iden ~= 93 & iden ~= 31).
VARIABLE LABEL filter_$ 'iden ~= 27 & iden ~= 93 & iden ~= 31 (FILTER)'.
VALUE LABELS filter_$ 0 'No seleccionado' 1 'Seleccionado'.
FILTER BY filter_$.
EXECUTE .

Gráfico de dispersión simple


110

100

90

80

70 SEXO

Mujer
60
Hombre
PESO

50
Total Population
40 R² = 0,7182
140 150 160 170 180 190 200

ESTATURA

Se han filtrado los casos 27, 31 y 93

259
b-2) Realice un gráfico de dispersión superpuesto.
Con el tipo Superpuesto se pueden representar varias relaciones en una sola nubes de puntos.
Seleccione el par estatura - peso y el par ci - peso

gráfico de dispersión superpuesto


300
31

200

31

100

Cociente intelectual
PESO

ESTATURA
0 PESO
40 50 60 70 80 90 100 110

b-3) Realice un gráfico de dispersión matricial.

El tipo matricial halla nubes de puntos separadas para todas las parejas de variables que se pueden
obtener con las variables que se especifiquen.
Elegir el tipo matricial como tipo de gráfica de dispersión y seleccionar y transferir las variables a
relacionar a variables en la matriz. Por ejemplo seleccionar y transferir ci, estatura y peso. Pulsar
aceptar.

Como hay tres variables habrá tres parejas de relaciones (con cuatro variables habrá seis parejas).

e) Utilizando el archivo “Estudio Morfología.sav”. responda las siguientes preguntas:

i. Determine el modelo que relaciona la estatura (X) y el peso (Y) e interprete R, R2 y Error típico
de estimación
Resumen del modelo

R cuadrado Error típ. de la


Modelo R R cuadrado corregida estimación
1 ,847(a) ,718 ,716 6,4593
a Variables predictoras: (Constante), ESTATURA

260
El coeficiente R mide la fuerza de asociación lineal entre estatura y peso, la cual es considerable.
El R2 =0,718 indica que la variación en el peso se explica en un 71,8% por la variable estatura.
Una forma de estimar el error estándar del estimador es basándose en los residuos;

S Y ,X =
e 2

n−2
El error estándar de la estimación es una medida de cuán inexacto podría ser la predicción y mide la
dispersión con respecto a una recta promedio, denominada recta de regresión.
ANOVAb

Suma de Media
Modelo cuadrados gl cuadrátic a F Sig.
1 Regresión 15309,683 1 15309,683 366,941 ,000a
Res idual 6008,032 144 41, 722
Tot al 21317,715 145
a. Variables predictoras : (Constante), ESTATURA
b. Variable dependiente: PESO

Cuando se trata de una regresión simple la prueba ANOVA se reduce a la prueba individual Test T
donde H0: 1 = 0

ii. Estime la ecuación de regresión


Coeficie ntesa

Coeficientes
Coeficientes no est andarizad
est andarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) -92,138 8,816 -10,451 ,000
ES TATURA ,999 ,052 ,847 19, 156 ,000
a. Variable dependient e: PE SO

Y = -92,13 + 0,999•X
donde Y = Peso
X = Estatura

iii. Pruebe la hipótesis nula H0: 1 = 0 para la estatura y el peso. ¿Existe una relación significativa
entre el ingreso y el consumo?

En el SPSS ver la tabla “coeficientes“ que resultó en el ejercicio b) y observar el valor del
estadígrafo t (asociado a la pendiente de la regresión) y su nivel de significancia.
Dado que la sig < 0,01 se rechaza la hipótesis nula H0: 1 = 0. Concluimos entonces que existe una
relación significativa entre ingreso y consumo.

iv.Interprete la pendiente de la ecuación de regresión.

261
La pendiente de la recta b1 es el cambio que se produce en la variable dependiente (en promedio) por
cada unidad de cambio en la variable independiente, es decir, por cada unidad de aumento en la
estatura, en promedio el peso aumenta en 0,999 unidades.

Nota: Inferencias sobre la Pendiente.


A fin de poder utilizar una ecuación de regresión para efectos de estimación o predicción,
primero debemos determinar si en la población parece existir una relación entre las dos
variables o si la relación observada en la muestra pudo ocurrir por azar. En ausencia de toda
relación en la población, por definición la pendiente de la línea de regresión de la población
sería de cero 1=0. En consecuencia, la hipótesis nula que se prueba usualmente es H0: 1=0. La
hipótesis nula también puede formularse como una prueba de una cola, en cuyo caso la hipótesis
alternativa no es simplemente que existe relación entre las dos variables, sino además que
esta relación es de un tipo específico (directa o inversa).
Un valor hipotético de la pendiente se prueba calculando una estadística t y usando n-2 grados
de libertad. Es el proceso de inferencia se pierden dos grados de libertad porque en la
ecuación de regresión se incluyen dos estimaciones paramétricas, b0 y b1. La fórmula estándar
es:

b1 − ( 1 )o
t=
sb1
donde s = SY , X
b1

X
2
2
− nX

Sin embargo, cuando, como ocurre por lo general, la hipótesis nula es que la pendiente es cero,
la fórmula se simplifica y enuncia como

b
t= 1
sb1

El intervalo de confianza para la pendiente de la población 1, en el que los grados de libertad
asociados con t son n-2, se elabora de la siguiente manera:
b1 −+ tsb1

Definición de grados de libertad: Los grados de libertad indican el número de valores “libres
de variar” en la muestra que sirve de base al intervalo de confianza.

v. Determine el intervalo de confianza del 95% para 1.

Para esto seleccione Regresión lineal/ Estadísticos/Intervalos de confianza.


En la tabla de resultados “coeficientes” del SPSS observe los límites inferior y superior del intervalo
de confianza para b1 al 95%.

262
Coeficie ntesa

Coeficientes
Coeficientes no est andarizad Intervalo de confianz a para
est andarizados os B al 95%
Límite
Modelo B Error típ. Bet a t Sig. Límite inferior superior
1 (Constante) -92,138 8,816 -10,451 ,000 -109,564 -74,712
ES TATURA ,999 ,052 ,847 19, 156 ,000 ,896 1,102
a. Variable dependient e: PE SO

Se tiene que el intervalo de confianza de 95% para 1 es 0,896 a 1,102


Así con cada unidad adicional de estatura, la cantidad de aumento promedio en el peso es de entre
0,896 y 1,102 con una confianza de 95%.
a
c i

f i c
e s
ae
cn no
aa
ld 9
ro
m
S
e
o
pB
e M
r
i
teg
i
t
9
47
2
4
2 1
( C
1
94
6
0
2
0 I N
a
V

vi.Determine los valores pronosticados y los residuos usando la ecuación de regresión desarrollada.
Compare los residuos obtenidos del SPSS. Para esto seleccione “Guardar” en el cuadro de diálogo
“Regresión lineal” y en el cuadro de diálogo siguiente considere valores pronosticados no
tipificados (es decir el valor que predice el modelo para la variable dependiente) y valores
tipificados (transformación de cada valor pronosticado a su forma tipificada). Además considere
residuos no tipificados (es decir, la diferencia entre un valor observado y el valor pronosticado
del modelo) y los residuos tipificados.

263
Observación:
Si en la regresión lineal queremos llevar a cabo inferencias y partimos de los estadísticos
obtenidos en la muestra, deberemos tener en cuenta una serie de requisitos:
• Normalidad e igualdad de las varianzas en la variable dependiente (Y) del modelo para
valores fijos de la independiente o independientes del mismo X.
• Independencia de las observaciones
• Linealidad en la relación entre las variables.

vii. Considere “Gráficos” del cuadro de diálogo ”Regresión lineal” para realizar los siguientes gráficos:
1.Los residuos tipificados ZRESID frente a los valores pronosticados tipificados ZPRED para
contrastar la igualdad de las varianzas.

Nota: Si no hay ningún patrón sistemático claramente definido en los datos y los residuales
fluctúan aleatoriamente alrededor de la recta que corresponde a la media de los mismos y de
valor cero, podemos concluir que se cumple el requisito de linealidad en la relación entre las
variables. Este gráfico puede igualmente servirnos para contrastar hasta qué punto el principio
de igualdad de varianzas puede o no ser violado por los datos. Si la variabilidad de los residuales
a lo largo de los valores predichos es más o menos constante, podemos concluir que se cumple la
igualdad de varianzas. No en caso contrario.

2. Los residuos tipificados-gráfico de prob. normal.

264
Nota: El gráfico de residuos tipificados de prob. normal se usa para comprobar la normalidad.
Si la variable se distribuye normalmente los puntos representados forman una línea recta
diagonal

Gráfico P-P normal de regresión Residuo tipificado


Gráfico de dispersión
Variable dependiente: PESO
1,0 Variable dependiente: PESO
3

,8 2
Regresión Residuo tipificado

,5
Prob acum esperada

-1
,3

-2

0,0 -3
0,0 ,3 ,5 ,8 1,0 -3 -2 -1 0 1 2 3

Prob acum observada Regresión Valor pronosticado tipificado

Pruebas de norma lidad


a
Kolmogorov-Smirnov Shapiro-W ilk
Est adístico gl Sig. Est adístico gl Sig.
Standardized Residual ,044 146 ,200* ,992 146 ,601
*. Est e es un límite inferior de la s ignificación verdadera.
a. Corrección de la significación de Lilliefors

265
XXIV. Estudio de Caso: Proyección de consumo25

Objetivo: Realizar un caso utilizando modelo de regresión lineal simple, múltiple, log-log.
El área de estudios de una empresa necesita conocer un modelo que le permita pronosticar la cantidad
promedio consumida de un producto por una familia dependiendo de sus características. Para esto ha
recopilado una muestra aleatoria de 70 familias con la cantidad consumida de un producto en Kg, su ingreso
en miles de pesos y el tamaño de la familia (número de personas que componen la familia).
Considere el archivo “consumo familia_.sav”

a) Determinar la matriz de correlaciones para todas las posibles variables involucradas en el modelo e
interprete.

b) Mostrar en un gráfico de dispersión simple para la variable que más se correlaciona con el consumo
(mostrando la recta de ajuste y el R2). ¿Qué puede observar? Si existen atípicos fíltrelos. Mostrar la sintaxis.

c) Determinar la ecuación del ajuste del modelo de regresión lineal simple que permita pronosticar la cantidad
consumida del producto. Interprete el coeficiente de determinación. Muestre las tablas de donde se
desprenden sus respuestas.

d) ¿Los coeficientes de la ecuación son estadísticamente significativas? Argumente e interprete la pendiente.

e) Determinar, si se satisfacen las hipótesis de normalidad de los residuos y homocedasticidad.

f) Determinar un modelo de regresión lineal múltiple. Escriba la ecuación e interprete R, R2 y los coeficientes
del modelo.

g) Calcule las variables logaritmo natural del consumo y logaritmo natural del ingreso. Determine la elasticidad
ingreso. Argumente su respuesta e interprete los coeficientes del modelo.

25
Caso elaborado por Sara Arancibia y Paula Villar

266
a) Determinar la matriz de correlaciones para todas las posibles variables involucradas en el modelo e
interprete.

Para obtener la matriz de correlaciones, hay que ingresar a Analizar/correlación/bivariada.

Se ingresan las variables a considerar, poniendo en primer lugar la variable que se quiere explicar en el
modelo y luego las que explicarán dicha variable. Luego, se pega y ejecuta.

267
La matriz de correlaciones bivariadas nos muestra que todas las variables se correlacionan. La correlación
más alta se da entre cantidad consumida e ingreso (0,693) siendo significativa la correlación al nivel del
0,01 (sig<0,01). Lo mismo ocurre para cantidad y tamaño de la familia, pero la correlación es más baja
alcanzando una fuerza de asociación de 0,401.

b) Mostrar en un gráfico de dispersión simple para la variable que más se correlaciona con el consumo
(mostrando la recta de ajuste y el R2). ¿Qué puede observar? Si existen atípicos fíltrelos. Mostrar la sintaxis.

Se debe ingresar en Gráficos/Cuadros de diálogos/Dispersión-Puntos.

Se selecciona el gráfico de Dispersión Simple.

268
Se añade en el eje Y la variable a estudiar, en el X la variable explicativa, se etiqueta por el Id de la
familia y se le añade título en la casilla Título. Luego se pega y se ejecuta.

Se hace doble click en el gráfico para abrir el editor de gráficos. Se selecciona el ícono para ajustar la
recta (1) y para etiquetar manualmente los puntos (2), para luego hacer click en los puntos que están más
alejados de la curva de ajuste.

269
Se observa una fuerte asociación lineal positiva entre las variables cantidad consumida e ingreso.
Sin embargo, se observa claramente tres valores atípicos muy alejados de la nube de puntos, que serán
filtrados.
Hay que ir a Datos/Seleccionar casos/Si se satisface la condición.
Se ingresa la condición para poder descartar los valores atípicos que se ven en el gráfico de dispersión,
correspondiente a los Id 2, 69 y 70. Se pega y se ejecuta.

270
c) Determinar la ecuación del ajuste del modelo de regresión lineal simple que permita pronosticar la cantidad
consumida del producto. Interprete el coeficiente de determinación. Muestre las tablas de donde se
desprenden sus respuestas.

Hay que ingresar a Analizar/Regresión/Lineal. Se ingresa la variable a explicar en Dependiente, y la


variable explicativa en Independiente. Se pega y se ejecuta.

271
El coeficiente de determinación es R2 = 0,849, es decir la variabilidad en la variable cantidad consumida
es explicada en un 84,9% por la variable ingreso.

La ecuación de ajuste del modelo es:


Y= 16,897+0,064X
donde Y=cantidad consumida y X= ingreso

d) ¿Los coeficientes de la ecuación son estadísticamente significativas? Argumente e interprete la pendiente.

De la tabla anterior se desprende que ambos coeficientes son estadísticamente significativos pues su
significancia es menor a 0,05. Ante el aumento de una unidad (mil pesos) en el ingreso, la cantidad
consumida aumenta en promedio 0,064 Kg.

e) Determinar, si se satisfacen las hipótesis de normalidad de los residuos y homocedasticidad.

Volver a ingresar en la regresión lineal y hacer click en Guardar.

272
Se deben guardar los valores estandarizados y sin estandarizar para los valores predictivos y los residuales.
El resto de opciones queda tal cual.

Luego hay que ingresar a la casilla Gráficos.

273
Añadir ZRESID en el eje Y, y ZPRED en el eje X. Hacer click en gráfico de probabilidad normal.

274
Del Gráfico se observa que se cumple la hipótesis de normalidad de los residuos, debido a que los puntos
son cercanos a la recta.
O puede ser por la prueba de K-S.
Ir a Analizar/Estadísticos Descriptivos/Explorar.

Añadir en variable dependiente los Residuos Estandarizados. En la casilla Gráficos, pedir Gráficos con
prueba de normalidad.

275
Observando la prueba de K-S se observa que no se rechaza la hipótesis de normalidad de los residuos
(sig>0,05).

Del gráfico de dispersión se observa que se cumple la hipótesis de homocedasticidad.

f) Determinar un modelo de regresión lineal múltiple. Escriba la ecuación e interprete R, R2 y los coeficientes
del modelo.

Volver a ingresar a Analizar/Regresión/Lineal. En las variables Independientes se le añade tamaño de


familia.

276
El coeficiente R mide la fuerza de asociación lineal entre las variables del modelo. En este caso la fuerza
de asociación lineal es muy alta (0,929). El coeficiente de determinación mide la proporción de varianza
de la variable cantidad consumida explicada por el modelo de regresión.
De la tabla ANOVA se rechaza la hipótesis nula Ho donde 𝐻𝑜: 𝛽1 = 𝛽2 = ⋯ = 𝛽𝑛 = 0, por lo tanto, al menos
existe 𝛽𝑖 ≠ 0

Todos los coeficientes son estadísticamente significativos pues la sig es menor a 0,05 La ecuación del
modelo es 𝑌́ = 13,514 + 0,061X1 + 1,893X2 donde X1= ingreso, X2= tamaño de la familia. Al aumentar una
unidad en ingresos (mil pesos) en promedio la cantidad consumida aumenta en 0,061 kgs, manteniendo
constante el tamaño de la familia. Al aumentar en un integrante el tamaño de la familia, en promedio la
cantidad consumida aumenta en 1,893 kgs, manteniendo constante el ingreso.
g) Calcule las variables logaritmo natural del consumo y logaritmo natural del ingreso. Determine la elasticidad
ingreso. Argumente su respuesta e interprete los coeficientes del modelo.

Se calculan primero las variables. Ir a Transformar/Calcular.

277
Se le ingresa el nombre a la variable, en la expresión numérica se busca la función de logaritmo natural y
se añade la variable a considerar. Recordar añadirle etiqueta a la variable.

Se repite el proceso para la otra variable.

278
Teniendo ambas variables con el logaritmo natural, se procede a crear la nueva regresión.
Ir a Analizar/Regresión/Lineal. Primero que todo, hacer click en Resetear para empezar desde cero.

Ingresar el logaritmo natural de la cantidad como variable Dependiente (es lo que se quiere explicar) y el
logaritmo natural del ingreso como variable independiente (es lo que explica). Esta vez no se configuran
las casillas de la derecha (Gráficos y Guardar). Se pega y se ejecuta.

279
Tanto la constante como la pendiente son estadísticamente significativos pues sig<0,05. Si aumenta en un
1% el ingreso en promedio la cantidad consumida aumenta en 0,724%

280
XXV. Estudio de Caso: Pruebas T- Clima organizacional y lealtad26

Una importante empresa minera ha elaborado estudios sobre el clima organizacional para así evitar
futuros conflictos laborales con sus empleados. Para ello ha realizado una encuesta a una muestra
representativa de los operarios, sobre varios factores que influyen en el clima organizacional, el
compromiso y lealtad de los operarios. El gerente de recursos humanos lo ha contactado a UD, como
Magíster en Gestión y Dirección de Empresas de la Universidad de Chile versión Industria Minera,
para que realice el análisis de los resultados de la encuesta:
Considere el archivo de datos “Operarios.sav” y responda las siguientes preguntas:

1. a) Determine si la media del índice de clima organizacional percibido por los operarios, difiere
significativamente de 5,5 puntos (con un 95% de confianza). Si difiere determine si la media
es mayor o menor a 5,5. Debe verificar los supuestos y formular las hipótesis
correspondientes. Argumente.
b) Determine un intervalo de confianza para la media, con un nivel de significancia del 0,05.
Interprete.

SOLUCION:
1.
a) Determine si la media del índice de clima organizacional percibido por los operarios,
difiere significativamente de 5,5 puntos (con un 95% de confianza). Si difiere
determine si la media es mayor o menor a 5,5. Debe verificar los supuestos y formular
las hipótesis correspondientes. Argumente.

Respuesta
Se trata de una prueba T para una muestra.

En una prueba T para una muestra se requiere de una variable escala (Índice de clima
organizacional) y un valor de contraste (5,5).

Hipótesis de Test de Normalidad:

Ho: La variable Índice de Clima Organizacional sigue una distribución normal.


H1: La variable Índice de Clima Organizacional NO sigue una distribución normal.

EXAMINE VARIABLES=Clima
/PLOT BOXPLOT STEMLEAF NPPLOT

26
Caso elaborado por Sara Arancibia y Gonzalo Moya

281
/COMPARE GROUP
/STATISTICS DESCRIPTIVES
/CINTERVAL 95
/MISSING LISTWISE
/NOTOTAL.

La variable Índice de Clima Organizacional presenta más de 50 datos (255 datos), por lo tanto se
utiliza Kolmogorov-Smirnov. De esta manera obtenemos que existe evidencia estadística para
rechazar la hipótesis nula, pues el nivel de significancia es menor a 0,05 (0,003). La variable “Índice
de Clima Organizacional” no sigue una distribución normal.

Como no se cumple la normalidad de la variable, se debe observar el coeficiente de asimetría:

A pesar que la variable no distribuya normal, al observar la asimetría vemos que ésta se encuentra
dentro del rango -1 y 1 (0,540), por lo tanto procedemos a realizar la prueba T para una muestra:

T-TEST
/TESTVAL=5.5
/MISSING=ANALYSIS
/VARIABLES=Clima
/CRITERIA=CI(.95).

Hipótesis Prueba T:
Ho: La media de la variable Índice de Clima Organizacional no difiere de 5,5.
H1: La media de la variable Índice de Clima Organizacional difiere de 5,5.

282
Al analizar la tabla se aprecia que el nivel de significancia es menor que 0,05 (Nivel de significancia
que pide el enunciado), por lo tanto, existe evidencia estadística para rechazar la hipótesis nula.
Esto quiere decir que la media de los puntajes del índice de clima organizacional difiere de 5,5.

La media del Índice de clima Organizacional fluctúa entre los siguientes valores:

−1,5875 ≤ 𝜇 − 𝑋 ≤ −1,2256
−1,5875 ≤ 𝜇 − 5,5 ≤ −1,2256
−1,5875 + 5,5 ≤ 𝜇 ≤ −1,2256 + 5,5
3,9125 ≤ 𝜇 ≤ 4,2744

Luego 𝜇 − 5,5 <0 de donde.


Luego 𝜇 < 5,5

b) Determine un intervalo de confianza para la media, con un nivel de significancia del 0,05.
Interprete.

EXAMINE VARIABLES=Clima
/PLOT BOXPLOT STEMLEAF NPPLOT
/COMPARE GROUP
/STATISTICS DESCRIPTIVES
/CINTERVAL 95
/MISSING LISTWISE
/NOTOTAL.

Como se muestra en la tabla anterior, se puede ver que el intervalo de confianza para la media de la
variable Índice de Clima Organizacional a un nivel de significancia de 0,05 es [3,9125 ; 4,0934]. Esto

283
quiere decir que, de 100 intervalos similarmente construidos, aproximadamente en 95 contendrán
la media poblacional.

3) a) Determine con un 95% de confianza, si la media del índice de lealtad con la empresa difiere
significativamente entre los operarios más jóvenes y los más adultos. Considere los más jóvenes
entre 18 y 30 años y los más adultos con edad superior a 50 años.
Debe verificar los supuestos y formular las hipótesis correspondientes. Argumente.
b) Si hay diferencias determine en qué grupo es mayor la lealtad, con un 95% de confianza.
Argumente.

En primer lugar se verificará si la variable lealtad distribuye normal en cada uno de los grupos de
edad que interesan (Jóvenes y adultos)

Ho: La variable lealtad distribuye normal en el grupo i ( donde i; jóvenes , adultos)

EXAMINE VARIABLES=Lealtad BY Edad


/ID=Id
/PLOT BOXPLOT HISTOGRAM NPPLOT
/COMPARE GROUPS
/STATISTICS DESCRIPTIVES
/CINTERVAL 95
/MISSING LISTWISE
/NOTOTAL.

Del test de normalidad Kolmogorov-Smirnov se observa que no hay evidencia para rechazar la
hipótesis nula y por tanto la variable lealtad distribuye normal en el grupo de jóvenes (pues la
significancia es superior a 0,05).

284
Del test de normalidad Shapiro -Wilk se observa que no hay evidencia para rechazar la hipótesis
nula y por tanto la variable lealtad distribuye normal en el grupo de adultos superior a 50 años (dado
que la significancia es superior a 0,05).
Observar que si hubiéramos observado el grupo entre 31 y 50 años , no se verifica la normalidad
de la variable leatad sin embargo su coef de asimetría está acotado entre -1 y 1 luego la distribución
se considera adecuada para aplicar la prueba t para muestras independientes.

Ahora aplicamos el test T para muestras independientes donde las hipótesis correspondientes son
Ho: No existen diferencias significativas en las medias de la variable “lealtad” entre los grupos de
jóvenes y adultos superiores a 50 años. (Ho: µ1= µ2)
H1: Existen diferencias significativas en las medias de la variable “lealtad” entre los grupos de
jóvenes y adultos superiores a 50 años. (Ho: µ1≠ µ2)

En primer lugar se ve el test de Levene de homogeneidad de varianzas donde las hipótesis son:
Ho: No existen diferencias significativas en las varianzas de variable “lealtad” entre los grupos de
jóvenes y adultos superiores a 50 años. (Ho: 𝜎1=
2
𝜎22 )
H1: Existen diferencias significativas en las varianzas de variable “lealtad” entre los grupos de
jóvenes y adultos superiores a 50 años. (H1: 𝜎𝑖2 ≠ 𝜎𝑗2 )

T-TEST GROUPS=Edad(1 3)

285
/MISSING=ANALYSIS
/VARIABLES=Lealtad
/CRITERIA=CI(.95).

Del test de Levene se tiene que no hay evidencia para rechazar la hipótesis nula y por lo tanto se
asume varianzas iguales.
En consecuencia se analiza la primera fila en el test de igualdad de medias

Del test se observa que hay evidencia para rechazar la hipótesis nula de igualdad de medias y por
tanto existen diferencias significativas en la media de lealtad entre los grupos de jóvenes y adultos
superiores a 50 años.

Del intervalo de confianza para la diferencia de medias al 95% de confianza, se observa que la
diferencia µ1- µ2 está entre dos valores negativos y por tanto µ1< µ2, es decir la media de lealtad
los grupos de jóvenes es menor a la de los adultos superiores a 50 años.

286
XXVI. Estudio de Caso: Consumo producto27

El área de Marketing de una empresa necesita conocer un modelo que le permita pronosticar la
cantidad promedio consumida de un producto por una familia dependiendo de sus características.
Para esto ha recopilado una muestra aleatoria de 70 familias con la cantidad consumida de un
producto en Kg, su ingreso en miles de pesos y el tamaño de la familia (número de personas que
componen la familia). Considere el archivo “consumo producto.sav”

a) Determinar la matriz de correlaciones para todas las posibles variables involucradas en el


modelo e interprete.

b) Mostrar en un gráfico de dispersión simple para la variable que mas se correlaciona con el
consumo (mostrando la recta de ajuste y el R2). ¿Qué puede observar? Si existen atípicos fíltrelos.
Mostrar la sintaxis.

c) Determinar la ecuación del ajuste del modelo de regresión lineal simple que permita
pronosticar la cantidad consumida del producto. Interprete el coeficiente de determinación.
Muestre las tablas de donde se desprenden sus respuestas.

d) ¿Los coeficientes de la ecuación son estadísticamente significativas? Argumente e interprete


la pendiente.

e) Determinar, si se satisfacen las hipótesis de normalidad de los residuos y homocedasticidad.

f) Determine la elasticidad ingreso. Argumente su respuesta e interprete

SOLUCION
a) Determinar la matriz de correlaciones para todas las posibles variables involucradas en el
modelo e interprete.

27
Caso elaborado por Sara Arancibia

287
Correlacione s

tamaño de
cantidad ingreso la familia
cantidad Correlación de Pearson 1 ,693** ,401**
Sig. (bilateral) ,000 ,001
N 70 70 70
ingreso Correlación de Pearson ,693** 1 ,265*
Sig. (bilateral) ,000 ,027
N 70 70 70
tamaño de la familia Correlación de Pearson ,401** ,265* 1
Sig. (bilateral) ,001 ,027
N 70 70 70
**. La correlación es significativa al nivel 0,01 (bilateral).
*. La correlación es significante al nivel 0,05 (bilateral).

La matriz de correlaciones nos muestra que todas las variables se correlacionan. La correlación más
alta se da entre cantidad consumida e ingreso (0,693) siendo significativa la correlación al nivel del
0,01. Lo mismo ocurre para cantidad y tamaño de la familia pero la correlación es más baja
alcanzando una fuerza de asociación de 0,401.

b) Mostrar en un gráfico de dispersión simple para la variable que más se correlaciona con el
consumo (mostrando la recta de ajuste y el R2). ¿Qué puede observar? Si existen atípicos fíltrelos.
Mostrar la sintaxis.

288
Gráfico de dipersión entre cantidad consumida e ingreso

140

70

120

100
cantidad

69
2

80

60

R Sq Linear = 0,48

40

0,0 500,0 1000,0 1500,0 2000,0

ingreso

Se observa una fuerte asociación lineal positiva entre las variables cantidad consumida e ingreso.
Sin embargo se observa claramente tres valores atípicos.

USE ALL.
COMPUTE filter_$=(id ~= 2 & id ~= 69 & id ~= 70).
VARIABLE LABEL filter_$ 'id ~= 2 & id ~= 60 & id ~= 66 (FILTER)'.
VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE .

c) Determinar la ecuación del ajuste del modelo de regresión lineal simple que permita
pronosticar la cantidad consumida del producto. Interprete el coeficiente de determinación.
Muestre las tablas de donde se desprenden sus respuestas.

289
El coeficiente de determinación es R2 =0,849, es decir la variabilidad en la variable cantidad
consumida es explicada en un 84,9% por la variable ingreso.

b
Re sume n de l modelo

R c uadrado Error típ. de la


Modelo R R c uadrado corregida est imación
1 ,921a ,849 ,846 7,841
a. Variables predictoras: (Constante), ingreso
b. Variable dependiente: cantidad

Coeficie ntesa

Coeficientes
Coeficientes no est andarizad
est andarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) 16, 897 3,218 5,250 ,000
ingreso ,064 ,003 ,921 19, 092 ,000
a. Variable dependient e: cantidad

La ecuación de ajuste del modelo es


Y= 16,897+0,064X
donde Y=cantidad consumida y X= ingreso

d) ¿Los coeficientes de la ecuación son estadísticamente significativas? Argumente e interprete


la pendiente. .

De la tabla anterior se desprende que ambos coeficientes son estadísticamente significativos pues
su significancia es menor a 0,05.
Ante el aumento de una unidad (mil pesos) en el ingreso, la cantidad consumida aumenta en promedio
0,064 Kg.

e) Determinar, si se satisfacen las hipótesis de normalidad de los residuos y homocedasticidad.


.

290
Gráfico P-P normal de regresión Residuo tipificado

Variable dependiente: cantidad


1,0

0,8
Prob acum esperada

0,6

0,4

0,2

0,0
0,0 0,2 0,4 0,6 0,8 1,0

Prob acum observada

Del Grafico se observa que se cumple la hipótesis de normalidad de los residuos.

O puede ser por la prueba de K-S


Pruebas de norma lidad
a
Kolmogorov-Smirnov Shapiro-W ilk
Est adístico gl Sig. Est adístico gl Sig.
Standardized Residual ,058 67 ,200* ,980 67 ,366
*. Est e es un límite inferior de la s ignificación verdadera.
a. Corrección de la significación de Lilliefors

Observando al prueba de K-S se observa que no se rechaza la hipótesis de normalidad de los


residuos.

291
Gráfico de dispersión

Variable dependiente: cantidad

2
Regresión Residuo tipificado

-1

-2

-3

-2 -1 0 1 2 3

Regresión Valor pronosticado tipificado

Del gráfico de dispersión se observa que se cumple la hipótesis de homocedasticidad

a) Determine la elasticidad ingreso. Argumente su respuesta e interprete


Se crean dos nuevas variables con los logaritmos naturales de la cantidad y el ingreso . Luego se
corre una regresión lineal entre ln(cantidad) y ln( ingreso) La pendiente de la ecuación es la
elasticidad buscada

292
XXVII. Estudio de caso: Desempleados

Los despidos y el desempleo han afectado a muchos trabajadores en los últimos años. En un estudio
publicado en la Revista de Relaciones Laborales se muestran datos de variables que pueden tener
relación con la cantidad de semanas que un empleado está desempleado. La variable dependiente en
el estudio es “Semanas” y se define como la cantidad de semanas que ha estado desempleado un
trabajador a causa de su despido.

En el estudio se emplearon las siguientes variables independientes:

Variable Etiqueta
edad Edad del trabajador
antig Antigüedad en el último empleo (en
años)
profesional 1 = Sí
0 = No

El archivo “Desempleados2.sav” contiene los datos de 50 trabajadores despedidos.

Desde la pregunta a) hasta la d) no considere la variable dami profesional

a) Realice un diagrama de dispersión para cada variable independiente con la variable


dependiente. ¿Qué puede observar del gráfico?

Diagrama de Dispersión entre Semanas Desempleado Diagrama de Dispersión entre Semanas Desempleado

y Edad de la persona y Antiguedad en último Empleo


90 90

80 80

70 70

60
60

50
50

40
40

30
SEMANAS

30
SEMANAS

20
20
10 Rsq = 0,7216
10 Rsq = 0,2164
10 20 30 40 50 60
0 10 20 30 40

edad
ANTIG

293
En los diagramas de dispersión se puede observar que existe una correlación lineal positiva entre
las variables. En el caso de la edad vs. semanas, la correlación es lineal positiva alta mientras que
en el caso de la antigüedad vs. semanas, no se observa tan claro la linealidad.

b) Determine la matriz de correlaciones. ¿Qué puede observar?


Correlations

SEMANAS edad ANTIG


SEMANAS Pearson Correlation 1,000 ,849** ,465**
Sig. (2-tailed) , ,000 ,001
N 50 50 50
edad Pearson Correlation ,849** 1,000 ,490**
Sig. (2-tailed) ,000 , ,000
N 50 50 50
ANTIG Pearson Correlation ,465** ,490** 1,000
Sig. (2-tailed) ,001 ,000 ,
N 50 50 50
**. Correlation is significant at the 0.01 level (2-tailed).

En la matriz de correlaciones se puede observar que tanto la correlación entre la edad y las semanas
de desempleo, como la correlación entre la antigüedad y las semanas de desempleo son significativas
con un nivel de significancia del 0.01 ( Se trata de correlaciones lineales positivas fuerte y moderada
respectivamente)

c) Ejecute la regresión lineal múltiple para obtener las tablas con las estimaciones del modelo
e interprete la tabla ANOVA. ¿Son estadísticamente significativas las variables independientes?
Argumente.
ANOVAb

Sum of
Model Squares df Mean Square F Sig.
1 Regression 10999,684 2 5499,842 61,892 ,000a
Residual 4176,496 47 88,862
Total 15176,180 49
a. Predictors: (Constant), ANTIG, edad
b. Dependent Variable: SEMANAS

Coefficientsa

Standardi
zed
Unstandardized Coefficien
Coefficients ts
Model B Std. Error Beta t Sig.
1 (Constant) -17,428 5,983 -2,913 ,005
edad 1,794 ,192 ,818 9,318 ,000
ANTIG ,195 ,264 ,065 ,739 ,464
a. Dependent Variable: SEMANAS

El estadístico F contrasta la hipótesis nula de que el valor poblacional de R es cero y, por tanto,
permite decidir si existe relación lineal significativa entre la variable dependiente y el conjunto de

294
variables independientes tomadas juntas. El valor del nivel crítico (Sig. = 0,000), es menor que 0,05,
por tanto existe relación lineal significativa.

Puede afirmarse, por tanto, que el hiperplano definido por la ecuación de regresión ofrece un buen
ajuste a la nube de puntos.

Por otra parte, para la variable edad se obtiene una significancia menor a 0,05 lo que significa que
el coeficiente es estadísticamente significativo al nivel 0,05. Sin embargo, la significancia de la
variable antigüedad es mayor a 0,05 por lo que no se rechaza la hipótesis nula de que su valor es
igual a cero.

d) Determine la ecuación de un modelo donde todas las variables sean significativas. Interprete
el coeficiente R y el R cuadrado.
Model Summary

Adjusted Std. Error of


Model R R Square R Square the Estimate
1 ,849a ,722 ,716 9,38
a. Predictors: (Constant), edad

ANOVAb

Sum of
Model Squares df Mean Square F Sig.
1 Regression 10951,194 1 10951,194 124,416 ,000a
Residual 4224,986 48 88,021
Total 15176,180 49
a. Predictors: (Constant), edad
b. Dependent Variable: SEMANAS

Coefficientsa

Standardi
zed
Unstandardized Coefficien
Coefficients ts
Model B Std. Error Beta t Sig.
1 (Constant) -18,179 5,868 -3,098 ,003
edad 1,863 ,167 ,849 11,154 ,000
a. Dependent Variable: SEMANAS

En la tabla de Resumen del Modelo se puede observar el valor R = 0,849. Esto significa que para los
desempleados existe una alta correlación lineal entre las variables SEMANAS y EDAD. Por otra
parte, el valor R2 = 0,722 indica que la variabilidad en las semanas de desempleo puede ser explicada
en un 72,2% por la variable EDAD.

e) ¿Qué ocurre si al último modelo le agrega la variable dami profesional? Interprete los
coeficientes de las variables independientes del último modelo.

295
Model Summary

Adjusted Std. Error of


Model R R Square R Square the Estimate
1 ,891a ,794 ,785 8,16
a. Predictors: (Constant), Es profesional ( 1=SI, 0=NO),
edad

ANOVAb

Sum of
Model Squares df Mean Square F Sig.
1 Regression 12048,898 2 6024,449 90,542 ,000a
Residual 3127,282 47 66,538
Total 15176,180 49
a. Predictors: (Constant), Es profesional ( 1=SI, 0=NO), edad
b. Dependent Variable: SEMANAS

Coefficientsa

Standardi
zed
Unstandardized Coefficien
Coefficients ts
Model B Std. Error Beta t Sig.
1 (Constant) -19,465 5,112 -3,808 ,000
edad 1,975 ,148 ,900 13,361 ,000
Es profesional
-11,512 2,834 -,274 -4,062 ,000
( 1=SI, 0=NO)
a. Dependent Variable: SEMANAS

Para este nuevo modelo se cumple que existe una relación lineal significativa entre la variable
dependiente y el conjunto de variables independientes tomadas juntas, lo que se observa en el valor
del nivel crítico del estadístico F, puesto que es menor que 0,05. Además, todas las variables
independientes son significativas pues la sig de las pruebas t son menores que 0,05 .

Ante el aumento de un año en la edad en promedio las semanas que un empleado permanece
desempleado aumentan en casi 1,98 semanas, manteniéndose el resto de variables constante. Por
otra parte, el coeficiente asociado a la variable dummy PROFESIONAL indica que para una misma
edad, una persona profesional, en promedio estará desempleada 11,512 semanas menos de lo que
estaría si no fuera profesional.

Las ecuaciones son:


• para los profesionales: SEMANAS = (-19,465-11,512) + 1,975 x EDAD
• para no profesionales: SEMANAS = -19,465 + 1,975 x EDAD

f) Para el último modelo seleccionado, determine si se satisfacen las hipótesis de normalidad


de los residuos y homocedasticidad.

296
Tests of Normality
a
Kolmogorov-Smirnov Shapiro-Wilk
Statistic df Sig. Statistic df Sig.
Standardized Residual ,088 50 ,200* ,970 50 ,407
*. This is a lower bound of the true significance.
a. Lilliefors Significance Correction

La prueba de normalidad de Shapiro-Wilk indica que se cumple la hipótesis de normalidad. (La prueba
de Shapiro-Wilk es usada cuando hay hasta 50 casos. Dado que son 50 los casos analizados, se usa
el estadístico Shapairo Wilk).
Scatterplot
Dependent Variable: SEMANAS
2

-1

-2

-3
-2 -1 0 1 2 3

Regression Standardized Predicted Value

Este gráfico muestra que se cumple la hipótesis de homocedasticidad pues los puntos se encuentran
distribuidos en forma aleatoria sin seguir ningún patrón.

297
XXVIII. Estudio de Caso: Estudio Lealtad28 Regresión lineal

Una importante empresa minera ha elaborado estudios sobre el clima organizacional para así evitar
futuros conflictos laborales con sus empleados. Para ello ha realizado una encuesta a una muestra
representativa de los operarios, sobre varios factores que influyen en clima organizacional y la
lealtad de los operarios.
La empresa necesita aplicar políticas de retención en los operarios debido al alto costo que genera
la rotación en ellos. Se le ha pedido que asesore al gerente de recursos humanos realizando un
modelo de regresión lineal
Considere el archivo de datos “Operarios empresa minera.sav” y responda las siguientes preguntas:

a) Determine una matriz de correlaciones bivariadas con todas las variables que usted considere
convenientes para realizar un modelo de regresión lineal simple para explicar el Índice de Lealtad.
Comente los resultados.

Para verificar la correlación entre variables se deben contrastar las siguientes hipótesis:

H0: No hay correlación entre la variable i e Índice de Lealtad.


H1: Hay correlación entre la variable i e Índice de Lealtad.

CORRELATIONS
/VARIABLES=Lealtad Clima Compromiso Imagen Motivación Reconocimiento Beneficios
/PRINT=TWOTAIL NOSIG
/MISSING=PAIRWISE.

28
Caso elaborado por Sara Arancibia y Gonzalo Moya

298
De la tabla se bserva que con un nivel de significancia de 0,05 se rechazan las hipótesis nulas para
las i variables (i =6 variables), por lo tanto existe correlación estadísticamente significativa entre
el índice de Lealtad y los índices de Clima organizacional, Compromiso, Imagen, Motivación,
Reconocimiento y Beneficios, siendo relación directa (correlación con pendiente positiva) y de
intensidades que fluctúan entre 0,436 y 0,641.

La mayor correlación, se observa entre índice de lealtad e índice de beneficios con una intensidad
de 0,641 considerada media-alta.

b) Realice un gráfico de dispersión simple con la variable Índice de Lealtad como variable
dependiente y la variable que Ud estime conveniente según el punto a) como variable independiente
para determinar un modelo de regresión lineal simple, con línea de tendencia y mostrando el R².
¿Qué puede observar? Muestre la sintaxis.

GRAPH
/SCATTERPLOT(BIVAR)=Beneficios WITH Lealtad
/MISSING=LISTWISE
/TITLE='Gráfico de dispersión'.

299
Se observa claramente una tendencia lineal positiva y una bondad de ajuste R² de 0,411, es decir la
variable Índice de Lealtad está siendo explicada en un 41,1% por la variable Índice de Beneficios.

c) Ajuste el modelo de regresión lineal simple (escriba la ecuación). Interprete la pendiente de la


ecuación, el coeficiente R y el coeficiente de determinación. ¿Los coeficientes son estadísticamente
significativos? Argumente sus respuestas.

Al considerar la mayor correlación lineal de la matriz de correlaciones, es decir el índice de lealtad


con el índice de beneficios se obtiene:

REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT Lealtad
/METHOD=ENTER Beneficios
/SCATTERPLOT=(*ZRESID ,*ZPRED)
/RESIDUALS HIST(ZRESID) NORM(ZRESID)
/SAVE PRED ZPRED RESID ZRESID.

300
R=0,641 indica que la fuerza de asociación lineal entre el índice de lealtad y beneficios es media-
fuerte.

El coeficiente de determinación R² indica que la variabilidad en el índice de lealtad está siendo


explicada en un 41,1% por la variable índice de beneficios. El porcentaje restante lo explican otras
variables.

Significancia de los coeficientes:


H0: βi = 0
H1: βi ≠ 0
Ambos coeficientes son estadísticamente significativos pues la sig<0,05.

De la tabla de coeficientes se obtiene la ecuación simple:

Y= 2,581+0,626X
Donde:
Y = Índice de Lealtad
X = Índice de Beneficios

La pendiente de la ecuación indica que ante el aumento de una unidad en el puntaje del índice de
beneficios el índice de lealtad aumenta, en promedio, en 0,626 puntos.

301
d) Verificar las hipótesis de homocedasticidad y normalidad de los residuos para el modelo de
regresión lineal simple.

Homocedasticidad
En el gráfico se observa que los residuos se distribuyen aleatoriamente entre -3 y 3 sin formar
patrones sistemáticos. Por tanto se cumple la hipótesis de homocedasticidad

Normalidad de los residuos

302
H0: Los residuos distribuyen normal.
H1: Los residuos no distribuyen normal.

Al ser una muestra mayor a 50 datos se observa la prueba Kolmogorov-Smirnov, esta presenta una
significancia mayor a 0,05 (0,200), por ende no existe evidencia estadística para rechazar la
hipótesis nula de normalidad de los residuos. Esto quiere decir que los residuos presentan una
distribución normal.

NOTA También se puede mostrar el gráfico P-P en lugar del test K-S

303
304
XXIX. Estudio de Caso: Percepción de Responsabilidad Social Empresarial29

(Un caso que integra los contenidos)

Una importante empresa de servicios SERVGLOBAL ha realizado un estudio sobre la percepción que tienen
sus trabajadores respecto a los factores que inciden en la Responsabilidad Social Empresarial y la Imagen de
la Empresa (con notas que fluctúan entre 1 y 7). El gerente general le ha solicitado a usted como asesor que
responda las siguientes preguntas en relación a dicho estudio. Para ello cuenta con una base de datos llamada
‘Percepción de la RSE.sav’ que considera una muestra representativa de la población de trabajadores.
Parte I:

1) i) Determine por rangos de edad y sexo, los estadísticos descriptivos de tendencia central, dispersión
y forma de la distribución, para la variable de responsabilidad social empresarial (RSE). Pegar sintaxis.
Muestre en una tabla los resultados para el grupo de 30 a 50 años y compare la media y mediana entre
hombres y mujeres ¿Cuál de estos dos grupos presenta mayor variabilidad?. Pegar la sintaxis.
Argumente su respuesta.

OLAP Cubes
Edad:De 30 a 50 años Variables:Percepción de Responsabilidad Social Empresarial

sexo N Mean Median Std. Deviation Minimum Maximum Skewness Kurtosis CV


mujer 19 5,0849 5,3100 1,21818 2,31 7,00 -,731 ,597 23,96
hombre 35 4,8846 5,3366 1,24019 1,95 7,00 -,442 -,542 25,39
Total 54 4,9551 5,3233 1,22474 1,95 7,00 -,522 -,322 24,72

DATASET ACTIVATE DataSet1.


OLAP CUBES RSE BY Edad BY sexo
/CELLS=COUNT MEAN MEDIAN STDDEV MIN MAX SKEW KURT
/TITLE='OLAP Cubes'.

La percepción de la responsabilidad social empresarial es superior en promedio en las mujeres, con un


50% mayor o igual a 5,31, valor muy cercano a la percepción de los hombres donde la mitad tiene una
percepción superior o igual a 5,33 con un promedio cercano a 4,88.
De acuerdo al CV se observa mayor variabilidad en la percepción de la RSE en los hombres.

ii) Qué porcentaje de trabajadores de la edad 30 a 50 años son hombres? ¿Qué porcentaje de
hombres tienen una edad entre 18 a 29 años?

29
Caso elaborado por Sara Arancibia y Gonzalo Moya

305
Edad * sexo Crosstabulation

sexo

mujer hombre Total

Edad De 18 a 29 años Count 6 5 11

% within Edad 54,5% 45,5% 100,0%

% within sexo 16,7% 6,8% 10,0%

% of Total 5,5% 4,5% 10,0%

De 30 a 50 años Count 19 35 54

% within Edad 35,2% 64,8% 100,0%

% within sexo 52,8% 47,3% 49,1%

% of Total 17,3% 31,8% 49,1%

Sobre 50 años Count 11 34 45

% within Edad 24,4% 75,6% 100,0%

% within sexo 30,6% 45,9% 40,9%

% of Total 10,0% 30,9% 40,9%


Total Count 36 74 110
% within Edad 32,7% 67,3% 100,0%

% within sexo 100,0% 100,0% 100,0%


% of Total 32,7% 67,3% 100,0%

El 64,8% de trabajadores de la edad 30 a 50 años son hombres.


El 6,8% de hombres tienen una edad entre 18 a 29 años.

306
1) Muestre gráficamente, por sexo, el comportamiento general de las variables responsabilidad
ambiental, responsabilidad económica, responsabilidad social, salud y seguridad, imagen y
responsabilidad social empresarial. Pegar la sintaxis e Interpretar.

Se observa que tanto para hombres como para mujeres la percepción de responsabilidad ambiental y
responsabilidad social son los peores evaluados, con medianas entre 4 y 5. Los aspectos mejores
evaluados de acuerdo a la percepción de hombres y mujeres son la Responsabilidad económica y la
imagen de la empresa aunque levemente superior en hombres. La percepción de salud y seguridad se
ve muy similar entre hombres y mujeres aunque levemente superiores en mujeres. La variabilidad
según rangos intercuartiles es muy similar entre Responsabilidad ambiental y responsabilidad social
empresarial. Se observan outliers en las mujeres en responsabilidad económica y salud -seguridad, en
cambio en los hombres existen outliers en Responsabilidad económica, imagen y salud- seguridad

2) Calcule una variable de rangos de la percepción de RSE considerando:


Menor a 4: Baja
Entre 4 y menor a 5; Regular
Entre 5 y menor a 6; Buena
Desde 6: Excelente
Crear un archivo por rangos de percepción de RSE y sexo, la media, mediana, mínimo, máximo y
variabilidad de la percepción de la Imagen. ¿En qué segmentos ( por rangos de RSE y sexo) se
presentan las mayores variabilidades en la percepción de la imagen?. Muestre una tabla con los cinco
valores mayores. Pegar la sintaxis.

307
IF (RSE < 4) rangos=1.
IF (RSE >= 4 & RSE < 5) rangos=2.
IF (RSE >= 5 & RSE < 6) rangos=3.
IF (RSE >= 6) rangos=4.
EXECUTE.
VALUE LABELS rangos
1 Baja
2 Regular
3 Buena
4 Excelente.

DATASET ACTIVATE DataSet2.


DATASET DECLARE AGRIMAGEN.
AGGREGATE
/OUTFILE='AGRIMAGEN'
/BREAK=rangos sexo
/Imagen_mean 'media de perc de imagen'=MEAN(Imagen)
/Imagen_median 'mediana percep imagen'=MEDIAN(Imagen)
/Imagen_min 'minima percep imagen'=MIN(Imagen)
/Imagen_max 'max percep imagen'=MAX(Imagen)
/Imagen_sd 'desv estándar imagen'=SD(Imagen)
/N_BREAK=N.

DATASET ACTIVATE AGRIMAGEN.


COMPUTE CV=(Imagen_sd / Imagen_mean) * 100.
EXECUTE.

SUMMARIZE
/TABLES=rangos sexo CV
/FORMAT=VALIDLIST NOCASENUM TOTAL LIMIT=5
/TITLE='Case Summaries'
/MISSING=VARIABLE
/CELLS=COUNT.

308
Case Summariesa

rangos sexo CV

1 Regular hombre 16,04


2 Baja hombre 14,92
3 Baja mujer 14,02
4 Buena hombre 10,42
5 Regular mujer 10,32
Total N 5 5 5
a. Limited to first 5 cases.

Los mayores coef de variación están en los segmentos


Regular –hombres
Baja-hombre
Baja-mujer

Parte II
a) Determine si la media del índice de Responsabilidad ambiental percibido por los trabajadores, difiere
significativamente de 5 (con un 95% de confianza). Si difiere determine si la media es mayor o menor a 5.
Debe verificar los supuestos y formular las hipótesis correspondientes. Argumente. Determine un intervalo
de confianza para la media, con un nivel de significancia del 0,05. Interprete.

Se trata de una prueba T para una muestra.


Variable escala: Responsabilidad ambiental
Valor de contraste: 5

Hipótesis de Test de Normalidad:

Ho: La variable Responsabilidad ambiental sigue una distribución normal.


H1: La variable Responsabilidad ambiental no sigue una distribución normal.

EXAMINE VARIABLES=RAmbiental
/PLOT BOXPLOT NPPLOT
/COMPARE GROUP
/STATISTICS DESCRIPTIVES
/CINTERVAL 95
/MISSING LISTWISE
/NOTOTAL.

309
La variable presenta más de 50 datos, por lo tanto se utiliza Kolmogorov-Smirnov. Obtenemos que no existe
evidencia estadística para rechazar la hipótesis nula, pues el nivel de significancia es mayor a 0,05.
La variable “Responsabilidad ambiental” sigue una distribución normal.

Como se cumple la normalidad de la variable pasamos a utilizar el test T para una muestra

Hipótesis Prueba T:
Ho: La media de la variable Responsabilidad ambiental no difiere de 5.
H1: La media de la variable Responsabilidad ambiental difiere de 5.

Al analizar la tabla se aprecia que el nivel de significancia es menor que 0,05, por lo tanto, existe evidencia
estadística para rechazar la hipótesis nula. Esto quiere decir que la media de los puntajes de Responsabilidad
ambiental difiere de 5.
Dado que 𝑙𝑎 𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑐𝑖𝑎 𝑒𝑠𝑡𝑎 𝑒𝑛𝑡𝑟𝑒 𝑑𝑜𝑠 𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑜𝑠 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝜇≤5

−0,6867 ≤ 𝜇 − 𝑋 ≤ −0,2194
Con un 95% de confianza la media Responsabilidad ambiental está entre los siguientes valores:

−0,6867 ≤ 𝜇 − 𝑋 ≤ −0,2194
−0,6867 ≤ 𝜇 − 5 ≤ −0,2194
Intervalo de confianza al 95%
4,3133 ≤ 𝜇 ≤ 4,7806
De 100 intervalos construidos similarmente aproximadamente en 95 se encuentra la media poblacional

310
1. La empresa necesita aplicar políticas que ayuden a focalizar la gestión y recursos sobre las variables
que impactan en la percepción de los trabajadores acerca de la responsabilidad social empresarial. Se
le ha pedido que asesore al gerente de desarrollo sustentable realizando un modelo de regresión lineal
para determinar qué variable explican la percepción de los trabajadores sobre la Responsabilidad
Social Empresarial.
a) Determine una matriz de correlaciones bivariadas con todas las variables que usted
considere convenientes para realizar un modelo de regresión lineal simple. Comente los
resultados.

Para verificar la correlación entre variables se deben contrastar las siguientes hipótesis:

H0: No hay correlación entre la variable i y Responsabilidad Social Empresarial.


H1: Hay correlación entre la variable i e y Responsabilidad Social Empresarial.

CORRELATIONS
/VARIABLES=RSE R.AmbientalR.Económica Imagen Salud.SeguridadR.Social
/PRINT=TWOTAIL NOSIG
/MISSING=PAIRWISE.

De la tabla se observa que con un nivel de significancia de 0,05 se rechazan las hipótesis nulas para las i
variables (i =5 variables), por lo tanto existe correlación estadísticamente significativa entre el
Responsabilidad Social Empresarial y Responsabilidad Ambiental, Responsabilidad Económica, Imagen, Salud
y Seguridad y Responsabilidad Social, siendo relación directa (correlación con pendiente positiva) y de
intensidades que fluctúan entre 0,649 y 0,723.
La mayor correlación, se observa entre Responsabilidad Social Empresarial con Responsabilidad Ambiental con
una intensidad de 0,723 considerada media-alta.

311
b) Realice un gráfico de dispersión simple con la variable Ud estime conveniente según el punto a)
para determinar un modelo de regresión lineal simple que explique la percepción en
Responsabilidad Social Empresarial, con línea de tendencia y mostrando el R². ¿Qué puede
observar?, si es necesario filtre y vuelva a mostrar el gráfico. Muestre la sintaxis.

GRAPH
/SCATTERPLOT(BIVAR)=RAmbiental WITH RSE BY genero BY ID (IDENTIFY)
/MISSING=LISTWISE.

Se observa claramente una tendencia lineal positiva y una bondad de ajuste R² de 0,522 . Sin embargo hay un
punto outliers que se aleja mucho de la tendencia con id=81, por lo que se procede a filtrarlo.
USE ALL.
COMPUTE filter_$=(ID ~= 81).
VARIABLE LABEL filter_$ 'ID ~= 81 (FILTER)'.
VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.

312
c) Ajuste el modelo de regresión lineal simple (escriba la ecuación). Interprete la pendiente de la
ecuación, el coeficiente R y el coeficiente de determinación. ¿Los coeficientes son
estadísticamente significativos? Argumente sus respuestas.

R=0,807 indica que la fuerza de asociación lineal entre Responsabilidad Social Empresarial y Responsabilidad
Ambiental es fuerte.

313
El coeficiente de determinación R² indica que la variabilidad en Responsabilidad Social Empresarial está
siendo explicada en un 65,1% por la variable Responsabilidad Ambiental.
Significancia de los coeficientes:
H0: βi = 0
H1: βi ≠ 0
Ambos coeficientes son estadísticamente significativos pues la sig<0,05.
De la tabla de coeficientes se obtiene la ecuación simple:
Y= 1,568+0,771X
Donde:
Y = Responsabilidad Social Empresarial
X = Responsabilidad Ambiental

La pendiente de la ecuación indica que ante el aumento de una unidad en el puntaje de Responsabilidad
Ambiental el puntaje del índice de Responsabilidad Social Empresarial índice aumenta, en promedio, en 0,771
puntos.

Verificar las hipótesis de homocedasticidad y normalidad de los residuos para el modelo de regresión lineal
simple.

H0: Los residuos distribuyen normal.


H1: Los residuos no distribuyen normal.
Al ser una muestra mayor a 50 datos se observa la prueba Kolmogorov-Smirnov, esta presenta una significancia
mayor a 0,05 (0,200), por ende no existe evidencia estadística para rechazar la hipótesis nula de normalidad
de los residuos. Esto quiere decir que los residuos presentan una distribución normal.
NOTA También se puede mostrar el gráfico P-P en lugar del test K-S

314
315

You might also like