Estadistica Con SPSS

DANIEL HERRERA ARÁUZ
ESTADÍSTICA CON SPSS
Contiene:
 Nociones básicas de Estadística.

 Manual de usuario de SPSS.
PRESENTACIÓN:
Al igual que las publicaciones anteriores: Matemática Financiera y Probabilidad, Combinatoria y

Distribuciones de Probabilidad, Estadística con SPSS es el resultado del material académico
preparado por el autor para los cursos regulares de Estadística desarrollados en la Facultad de
Ciencias Administrativas de la Universidad Central del Ecuador, a nivel de pregrado y posgrado, como
también en calidad de instructor en eventos de capacitación profesional en varios Centros de
Actualización de Conocimientos como también en Educación Continua.
El programa SPSS (Stadistical Package for the Social Science) es quizá en la actualidad, el paquete de
software más difundido a nivel mundial para el análisis estadístico de datos, La versión actual (V24)
sigue siendo de propiedad de la firma IBM.
El libro de texto Estadística con SPSS está compuesto por tres secciones:
 La primera sección contiene las nociones básicas de Estadística; en esta parte el autor presenta
un resumen de los conceptos, definiciones y procesos de cálculo para la obtención de los
estadísticos que describen a un grupo de datos, su representación gráfica, como también los
diferentes métodos de muestreo, y herramientas de estadística inferencial para una población
como también para dos poblaciones.
 La segunda sección contiene una detallada descripción, a manera de manual de usuario, de las
distintas opciones y herramientas que dispone el programa SPSS para la organización de datos,
el cálculo de los diferentes estadísticos que describen a un muestra, diversas opciones de
elaboración de gráficos estadísticos, técnicas de muestreo, estadística inferencial en una
población, dos poblaciones y varias poblaciones a través del ANOVA y el modelo de regresión y
correlación bivariable y multivariable.
 La tercera sección (en edición separada) contiene 13 prácticas de laboratorio de estadística con
SPSS; el desarrollo académico de estas actividades permitirá al estudiante aplicar los conceptos,
definiciones y procesos de la Estadística Descriptiva e Inferencial, como también adquirir
destrezas y habilidades en el manejo del paquete estadístico.
El material desarrollado en las tres secciones es acorde con la malla curricular y el syllabus académico
de la asignatura de Estadística en los niveles I y II de las carreras de Contabilidad y Auditoría,
Administración de Empresas, Administración Pública, Economía, Marketing, Sicología y otras. Al igual
que constituye un importante material en los estudios de posgrado para las maestrías en Empresas,
Finanzas, Educación, etc.
A criterio del autor, en la actualidad, la enseñanza de la Estadística no puede desarrollarse sin la

utilización de algún software que resuelva las operaciones aritméticas en forma rápida y precisa; de
manera que el tiempo que se ahorra al evitar realizar los cálculos en forma manual se podría
dedicarlo al análisis de resultados y a la creación de escenarios virtuales con la variación de las
condiciones iniciales del problema.
El autor anticipa su agradecimiento a docentes y estudiantes que hagan uso de este material,
solicitando además remitir sus comentarios y sugerencias para futuras ediciones a
danielherrera_1960@hotmail.com
Daniel Herrera Aráuz

BREVE HISTORIA DE LA ESTADÍSTICA1.-
La historia de la Estadística es la historia de la humanidad, desde comienzos de la civilización, el

hombre buscó la manera de llevar registros mediante representaciones gráficas y otros símbolos en
pieles, rocas, palos de madera y paredes de cuevas, para determinar número de personas, animales o
ciertas cosas.
Hacia el año 3000 A.C. los babilonios usaban ya pequeñas tablillas de arcilla para recopilar datos
sobre la producción agrícola y de los géneros vendidos o cambiados mediante trueque.
Los egipcios fueron los primeros en analizar los datos de la población y renta del país, mucho antes
de construir las pirámides en el siglo XXXI A.C.
Los libros de “Números” y “Crónicas” incluyen, en algunas partes, cierta información que puede
considerarse como Estadística:
 El primero contiene dos Censos de la población de Israel.

 El segundo describe el bienestar material de las diversas tribus judías.
En China existían registros numéricos similares con anterioridad al año 2000, anterior a la Era
cristiana.
Los griegos clásicos realizaban censos, cuya información se utilizaba hacia el año 594 A.C. para cobrar
impuestos.
El Imperio romano fue el primer gobierno que recopiló una gran cantidad de datos sobre la población,
superficie y renta de todos los territorios bajo su control, para esto basta recordar lo que dicen las
Escrituras sobre el censo a realizarse previo al nacimiento de Jesús.
Durante la edad media sólo se realizaron algunos censos exhaustivos en Europa. Los reyes
carolingios, Pipino el Breve y Carlomagno ordenaron hacer estudios minuciosos de las propiedades de
la Iglesia en los años 758 y 762, respectivamente.
John Graunt.-
Hijo de un tapicero, nació en Londres de 1620, fue desde muy joven aprendiz de un comerciante de
mercancía y, en esta actividad se mantuvo toda su vida. De formación autodidacta, y en base a
esfuerzos propios, adquirió algunos conocimientos sobre todo de latín y francés. No tuvo una
formación académica ni tampoco autodidacta en lo que a matemática se refiere, situación que de
haberse dado habría sido de gran ayuda en la publicación de su obra sobre los registros de
mortalidad; sin embargo el análisis de Estadísticas nació en Londres, en el año de 1662. John Graunt
publicó “Observaciones Naturales y políticas sobre los registros de Mortalidad”.
Para ese entonces, Inglaterra contaba ya con una población de cien mil habitantes. Esta ciudad tenía
ya problemas propios de una superpoblación, dificultades en los servicios de salud, educación etc.,
que fueron la causa que originó el registro de nacimientos y muertes, registros que después de la
epidemia de 1603, fueron realizados semanalmente. Llegaron a formar con el tiempo, material de
gran utilidad para la previsión de eventos futuros.
1
Con la colaboración académica de Nelson Herrera Aráuz
El Análisis de Graunt se basó en comparaciones porcentuales año tras año, en lo referente a
nacimientos, muertes por accidentes, muertes por enfermedades, suicidios etc. observando que
eventos mortales mantenían valores constantes y que se presentaban con sorprendente regularidad.
También llegó a concluir, que el número de nacimiento de los varones era superior al de mujeres, sin
embargo, en ese entonces las labores destinadas a los hombres, entre estas la guerra, tendrían un
mayor riesgo, por lo que, a la edad de casarse, el número de varones y mujeres se igualaba por lo que
la monogamia debía ser la forma de vida que la misma naturaleza señalaba.
William Petty.-
La publicación de John Graunt fue avalada académicamente por Sir William Petty (1623-1687),
profesor de la Universidad de Oxford, y, más tarde médico del Ejercito inglés, calificó a la Estadística,
como la “Aritmética Política” y la definió como:
El arte de razonar por medio de cifras y gráficas, acerca de aspectos relacionados con el gobierno.
De ahí que la palabra Estadística se relacione con la palabra Estado.
Sin embargo, el verdadero aporte de Petty al desarrollo de la Estadística, fue tratar de cuantificar las
variables que conforman las ciencias sociales y, evitar así el uso de valores cualitativos y palabras
comparativas en la descripción de estas variables.
Edmund Halley.-
Un estudio similar sobre la tasa de mortalidad en la ciudad de Breslau, en Alemania, realizado en

1691, fue utilizado por el astrónomo inglés Edmund Halley, como base para la primera tabla de
mortalidad.
Halley, como astrónomo, dedujo que un cometa visto algunas décadas anteriormente, obedecía a un
fenómeno cíclico y predictible. Dedicó toda su vida a estudiarlo y, con la ayuda del gran matemático
inglés Isaac Newton, pudo calcular el año que retornaría. Desgraciadamente, murió algunos años
antes de que el cometa reaparezca, exactamente en el lugar del cielo y la fecha previstos.
Halley era un hombre muy versátil y no solo se preocupó de la astronomía, fue el creador de las tablas
de esperanzas matemáticas, empleadas para el cálculo de las pólizas del seguro de Vida, incluso
investigó el lugar exacto del desembarco de Julio César en Gran Bretaña.
Jean Baptiste Colbert.-
En Francia, el rey Luis XIV, por esos mismos años, consiguió que la patria de los galos marque un siglo
de hegemonía. El gran asesor del Rey Sol Jean Baptiste Colbert que fue aprendiz de pañero, se
preocupó de que la economía de Francia se controle mediante los números; incluso, formó una
escuela económica llamada Colbertismo, que significa la protección del Estado a la producción
industrial.
Colbert, como asesor de Luis XIV se dio cuenta de la importancia de los registros numéricos
almacenados para manejar las importaciones y exportaciones del reino, es más, con los matemáticos
Huygens, holandés, y Leibniz, alemán sostuvo importantes diálogos científicos y fue convencido por
estos, en la necesidad de crear para la gloria de Francia el Observatorio Real y la Academia de
Ciencias de París.
No se puede separar el desarrollo de la Estadística de la historia del Cálculo de la Probabilidad. En

este punto es necesario renombrar los aportes de brillantes matemáticos tales como: Bernoulli,
Gauss, Poisson, etc. Aportes que permitieron desarrollar modelos probabilísticos que al ser adaptados
al análisis estadístico, lograron hacer de esta ciencia la herramienta de la planificación por
excelencia.
En el siglo XX, es donde la Estadística toma el carácter formal de una ciencia de la matemática
aplicada, gracias a los aportes de:
L. T. Grosset.-
Fue el creador de la Distribución t, siendo empleado de una cervecería irlandesa a principios de 1900.
Desaprobaba el hecho de que las personas publicaran sus trabajos usando sus nombres verdaderos,
por lo que escribió acerca de las propiedades matemáticas de las distribuciones para pequeñas
muestras, y publicó bajo el seudónimo de student.
Ronald Fisher.-
Sir Ronald Fisher nació en Londres en el año de 1890 y murió en la misma ciudad en el año de 1962,
fue un científico eminente en dos campos: La Genética y la Estadística. Alrededor de los años veinte
de ese siglo, se dedicó al diseño de experimentos en agricultura. De estos trabajos nació una de las
herramientas más importantes en la toma de decisiones, el Análisis de Varianza, mediante la
comparación de varianzas entre muestras y en el interior de las mismas con valores críticos de una
distribución probabilística creada por el mismo.
Abraham Wald.-
Matemático alemán nacido en 1902, comenzó sus trabajos de investigación estadística motivado por
las acuciantes necesidades de estudios matemáticos que trajo consigo la Segunda Guerra Mundial,
murió en un accidente aéreo en el año de 1950, entre sus estudios y aportes importantes para la
Estadística, se tiene el Análisis Secuencial y la teoría de toma de decisiones.
La Estadística y el Desarrollo Industrial.-
A principios del siglo XX el escritor e historiador inglés HG Wells, comentó cierto día que el
aprendizaje y conocimiento de la estadística será tan necesario, como la aptitud y el gusto por la
lectura. Tómese en cuenta que en la época de este comentario aún no había florecido el desarrollo
industrial en el mundo entero; sin embargo se intuía ya la necesidad de establecer mecanismos de
control y herramientas para tomar decisiones dentro del mundo industrial.
Uno de los aportes más importantes en la Estadística, son las contribuciones realizadas por W.
Eduard Deming, a mediados del siglo anterior (1950). Este brillante estadístico, desarrolló modelos
para el Control de Calidad de los procesos productivos, basándose en la teoría de las desviaciones
alrededor de una medida de centralización.
En resumen:
En el desarrollo de la humanidad, la Estadística se ha constituido en uno de los soportes más

importantes para este progreso, la investigación científica, la toma de decisiones, la planificación
industrial y muchos otros campos del quehacer profesional, recurren a los métodos estadísticos en
forma cada vez más confiable y concurrente, razones suficientes para que el estudiante universitario y
el profesional, se interesen en el conocimiento de los diferentes métodos que esta herramienta
dispone.
NOCIONES
BÁSICAS DE
ESTADÍSTICA
PRIMERA SECCIÓN
ESTADÍSTICA CON SPSS.- NOCIONES BÁSICAS DE ESTADÍSTICA
NOCIONES BÁSICAS DE ESTADÍSTICA

1. DEFINCICIONES BÁSICAS ....................................................................................................... 4
1.1. DEFINICIÓN DE ESTADÍSTICA ................................................................................................... 4
1.2. CLASIFICACIÓN DE LA ESTADÍSTICA......................................................................................... 4
1.3. POBLACIÓN.............................................................................................................................. 4
1.4. MUESTRA ................................................................................................................................. 4
1.5. MUESTRA VS POBLACIÓN........................................................................................................ 5
1.6. VARIABLES O DATOS ESTADÍSTICOS ........................................................................................ 5
1.7. ESTADÍSTICOS Y PARÁMETROS ............................................................................................... 6
2. ORGANIZACIÓN Y PRESENTACIÓN DE LOS DATOS .................................................................. 7

2.1. ORDENAMIENTO DE LOS DATOS ............................................................................................. 7
2.2. DISTRIBUCIÓN DE FRECUENCIAS SIMPLE.- VARIABLE CUALITATIVA ....................................... 7
2.3. DISTRIBUCIÓN DE FRECUENCIAS SIMPLE.- VARIABLE CUANTITATIVA .................................... 9
2.4. HISTOGRAMA DE FRECUENCIAS .............................................................................................. 9
2.5. DISTRIBUCIONES DE FRECUENCIA POR INTERVALOS O CLASE.............................................. 10
3. ESTADÍSTICA DESCRIPTIVA .................................................................................................. 14

3.1. MEDIDAS DE TENDENCIA CENTRAL ....................................................................................... 14
3.1.1. DATOS NO AGRUPADOS ................................................................................................ 14

3.1.2. EN DATOS AGRUPADOS EN FRECUENCIA SIMPLE ......................................................... 15
3.1.3. EN DATOS AGRUPADOS EN INTERVALOS DE FRECUENCIA ........................................... 15
3.2. MEDIDAS DE POSICIÓN EN UNA DISTRIBUCIÓN DE FRECUENCIA ........................................ 17
3.2.1. PRINCIPIO FUNDAMENTAL ............................................................................................ 18

3.2.2. CUANTILES EN DATOS NO AGRUPADOS Y AGRUPADOS EN FRECUENCIA SIMPLE ....... 18
3.2.3. CUANTILES EN DATOS AGRUPADOS EN INTERVALOS DE FRECUENCIA. ....................... 19
3.3. MEDIDAS DE DISPERSIÓN ...................................................................................................... 19
3.3.1. RANGO ........................................................................................................................... 19

3.3.2. DESVIACIÓN ESTÁNDAR ................................................................................................ 19
3.3.3. VARIANZA ...................................................................................................................... 20
3.3.4. COEFICIENTE DE VARIACIÓN ......................................................................................... 20
3.3.5. RANGO INTERCUARTIL .................................................................................................. 20
3.3.6. DIAGRAMA DE CAJA ...................................................................................................... 20
3.4. MEDIDAS DE ASIMETRÍA ....................................................................................................... 21

3.4.1. SIMETRÍA DE UNA MUESTRA......................................................................................... 21
3.4.2. SESGO DE UNA DISTRIBUCIÓN DE FRRECUENCIAS ....................................................... 22
pág. 1
4. DISTRIBUCIONES DE PROBABILIDAD .................................................................................... 23

4.1. EXPERIMENTO ALEATORIO.................................................................................................... 23
4.2. EVENTO ALEATORIO .............................................................................................................. 23
4.3. ESPACIO MUESTRAL .............................................................................................................. 23
4.4. PROBABILIDAD DE UN EVENTO ............................................................................................. 23
4.5. ALGEBRA DE PROBABILIDAD ................................................................................................. 24
4.6. DISTRIBUCIÓN DE PROBABILIDAD ......................................................................................... 24
4.7. DISTRIBUCIÓN BINOMIAL ...................................................................................................... 25
4.8. DISTRIBUCIÓN NORMAL ........................................................................................................ 26
5. MÉTODOS DE MUESTREO .................................................................................................... 28

5.1. MUESTRA ............................................................................................................................... 28
5.2. POBLACIÓN FINITA O INFINITA ............................................................................................. 28
5.3. EL MUESTREO ALEATORIO .................................................................................................... 28
5.4. MÉTODOS DE MUESTREO ALEATORIO .................................................................................. 28
6. DISTRIBUCIÓN DE MUESTREO ............................................................................................. 29

6.1. CLASIFICACIÓN DE LAS MUESTRAS POR SU TAMAÑO .......................................................... 29
6.2. TEOREMA DEL LÍMITE CENTRAL ............................................................................................ 29
6.3. ERROR DE MUESTREO ........................................................................................................... 29
7. TEORÍA DE ESTIMACIÓN ESTADÍSTICA.................................................................................. 31

7.1. INTRODUCCIÓN ..................................................................................................................... 31
7.2. ESTIMADOR POR INTERVALOS .............................................................................................. 31
7.3. CONSIDERACIONES ADICIONALES PARA LA ESTIMACIÓN ESTADÍSTICA ............................... 31
7.4. INTERVALO PARA ESTIMACIÓN DE LA MEDIA POBLACIONAL ............................................... 31
7.5. ESTIMACIÓN DE LA PROPORCIÓN POBLACIONAL ................................................................. 32
8. TAMAÑO DE LA MUESTRA................................................................................................... 33
8.1. FACTORES QUE INFLUYEN EN EL TAMAÑO DE LA MUESTRA ................................................ 33
8.2. TAMAÑO DE LA MUESTRA PARA ESTIMAR LA MEDIA POBLACIONAL ................................. 33
8.3. TAMAÑO DE LA MUESTRA PARA ESTIMAR LA PROPORCIÓN POBLACIONAL ....................... 34
9. PRUEBAS DE HIPÓTESIS PARA LA MEDIA Y PROPORCIÓN POBLACIONAL............................... 36

9.1. INTRODUCCIÓN ..................................................................................................................... 36
9.2. PROCESO ............................................................................................................................... 36
10. INFERENCIAS EN DOS POBLACIONES .................................................................................... 38

10.1. INTRODUCCIÓN ..................................................................................................................... 38
10.2. ESTIMACIONES DE DIFERENCIAS DE PARÁMETROS POBLACIONALES .................................. 38
10.3. ESTIMACIÓN DE DIFERENCIA DE LA MEDIA POBLACIONAL EN MUESTRAS GRANDES: ........ 38
10.4. ESTIMACIÓN DE LA DIFERENCIA DE LA MEDIA POBLACIONAL EN MUESTRAS PEQUEÑAS .. 39
10.5. ESTIMACIÓN DE LA DIFERENCIA DE LA PROPORCIÓN POBLACIONAL .................................. 40
10.6. PRUEBAS DE HIPÓTESIS PARA COMPARACIÓN ENTRE DOS POBLACIONES .......................... 40
pág. 2
11. ANÁLISIS DE VARIANZA ....................................................................................................... 42

11.1. INTRODUCCIÓN ..................................................................................................................... 42
11.2. FUNDAMENTOS DEL ANOVA ................................................................................................. 42
11.3. PROCESO DE CÁLCULO PARA UNA SOLA VÍA ........................................................................ 43
11.4. PRESENTACIÓN DE RESULTADOS .......................................................................................... 45
11.5. PRUEBA DE HIPÓTESIS PARA IGUALDAD DE MEDIAS EN VARIAS POBLACIONES.................. 45
11.6. PRUEBA DE TUKEY Y PRUEBA DMS ....................................................................................... 45
12. PRUEBAS NO PARAMÉTRICAS.............................................................................................. 48

12.1. INTRODUCCIÓN ..................................................................................................................... 48
12.2. PRUEBA CHI CUADRADO PARA LA INDPENDENCIA DE VARIABLES ....................................... 48
13. MODELO DE REGRESIÓN Y COEFICIENTE DE CORRRELACIÓN LINEAL ..................................... 50

13.1. INTRODUCCIÓN ..................................................................................................................... 50
13.2. EL ANÁLISIS DE REGRESIÓN ................................................................................................... 50
13.3. MODELO LINEAL BIVARIABLE ............................................................................................... 51
13.4. MODELO LINEAL MULTIVARIABLE ......................................................................................... 51
13.5. COEFICIENTE DE CORRELACIÓN ............................................................................................ 52
13.6. EL COEFICIENTE DE DETERMINACIÓN ................................................................................... 52
13.7. VERIFICACIÓN DE LAS VARIABLES EN EL MODELO ................................................................ 53
14. MODELO NO LINEAL Y EXPONENCIAL................................................................................... 54

14.1. MODELO NO LINEAL .............................................................................................................. 54
14.2. MODELO EXPONENCIAL O DE POISSON. ............................................................................... 54
14.3. FORMULACIÓN DEL MODELO ............................................................................................... 55
14.4. COEFICIENTES DEL MODELO ................................................................................................. 55
14.5. MODELO DE REGRESIÓN LOGÍSTICA ..................................................................................... 55
14.5.1. ECUACIÓN DEL MODELO LOGÍSTICO ............................................................................. 55

14.5.2. OBTENCIÓN DE LOS COEFICIENTES ............................................................................... 56
14.5.3. EVALUACIÓN DEL MODELO ........................................................................................... 56
14.5.4. ESTIMACIÓN DE PROBABILIDAD.................................................................................... 56
pág. 3
1. DEFINCICIONES BÁSICAS
1.1. DEFINICIÓN DE ESTADÍSTICA
Es la ciencia que trata de los métodos de recolección, organización y resumen de la información

registrada sobre la variación de eventos; como también los métodos que permiten tomar decisiones
sobre determinadas características de dichos eventos.
1.2. CLASIFICACIÓN DE LA ESTADÍSTICA
Para su estudio, es conveniente clasificar a la estadística de la siguiente manera:
Estadística Descriptiva: Estudia los métodos de recolección, organización y resumen de la

información.
Estadística Inferencial: Estudia los métodos y herramientas utilizadas para definir características y
propiedades de una población, basándose en el análisis de una muestra tomada de dicha población.
De la definición de Estadística Inferencial, es conveniente tomar en cuenta las palabras: Población y

Muestra.
1.3. POBLACIÓN
Comúnmente, se conoce como población, a un grupo humano que ha nacido o se ha asentado en

algún lugar del mundo, ejemplo: la población del Ecuador es un grupo de seres humanos que han
nacido o que viven en nuestro país; dentro de la Estadística la población es un grupo formado por
todos las personas u objetos que guardan alguna característica en común; a continuación se
exponen algunos ejemplos de poblaciones estadísticas son los siguientes:
1. Electores inscritos en el padrón electoral del Cantón Quito.
2. Datos mensuales relacionados con el número de niños nacidos vivos en la maternidad de la

ciudad, durante el año 2016.
3. Reporte de las utilidades mensuales de una empresa de transporte pesado.
En resumen, la población estadística es un conjunto universal, puesto que contiene a todos los
elementos de su especie.
1.4. MUESTRA
Dentro de la Estadística, la muestra es un subconjunto de la población; es decir, un conjunto formado

por algunos elementos tomados de un conjunto mayor que es la población; como ejemplos de
muestra podemos mencionar a los siguientes:
1. Un grupo de 100 electores, 5 de cada uno de los 20 recintos electorales del cantón; escogidos
aleatoriamente.
2. Número de barriles de petróleo exportados por el Ecuador que fueron explotados en la

Península de Santa Elena.
pág. 4
3. Un grupo de niños nacidos en la maternidad de la ciudad, que vinieron al mundo el mes de

diciembre.
En conclusión, la muestra, es un subconjunto representativo tomado de una población.
1.5. MUESTRA VS POBLACIÓN
Como se indicó en la definición de Estadística Inferencial, los métodos estadísticos inferenciales

analizan las muestras para hacer deducciones o inferencias sobre la población; es decir: los que
hacen estadísticas trabajan con datos de las muestras para llegar a determinar características de una
población; las razones, entre otras, se deben a:
Resulta imposible analizar todos elementos (población) debido al tiempo de análisis, costos, etc.
Veamos un ejemplo:
Si se trata de establecer las causas por las que los niños de un cantón de la Sierra
Ecuatoriana presentan signos de desnutrición; sería imposible reunir a todos los niños de
este lugar, medir su estatura, su peso, averiguar la forma de alimentación, los ingresos
familiares de todos ellos, etc. Es mucho más sencillo, tomar una muestra de esta población y
sobre esa muestra realizar el análisis estadístico correspondiente que permitirá a su vez
deducir las causas de desnutrición de dicha población.
En algunas ocasiones, el análisis de los elementos de una muestra, requiere de la destrucción o

inutilización de estos elementos, ejemplo:
Se trata de determinar la resistencia de una bombilla eléctrica: para esto, se debe someter a
este elemento a una serie de sobrecargas eléctricas. Esta sobrecarga, obviamente va a
destruir o inutilizar dicho elemento; por esta razón, no será conveniente ensayar a todos los
elementos (población), sino solamente a algunos de ellos, es decir a una muestra.
La muestra estadística debe ser tomada con un criterio apropiado, de manera que las inferencias
que sobre la población de dicha muestra se hagan, sean confiables e idóneas.
1.6. VARIABLES O DATOS ESTADÍSTICOS
Los datos estadísticos se presentan de dos maneras:
 Datos cualitativos.- Tal como: el género, la religión, el estado civil, el lugar de nacimiento, etc.
Es decir: la variación de estas variables se expresa con palabras y no con números.
Para el trabajo estadístico es necesario expresar la variación de estas variables mediante conteo,
razón proporcional o porcentaje. Veamos algunos ejemplos:
1. El número de mujeres que participaron en la encuesta realizada en el cantón Atacames es de

500, mientras el número de varones encuestados en el mismo cantón llega a 425.
2. Dentro de esta población se estima que el 75% es de religión católica; mientras que el 25%
restante pertenece a otras religiones.
3. Datos proporcionados por el registro civil del cantón indican que el 35% de la población es
soltera, 45% de la población está casada y el 20% restante, corresponde a viudos, divorciados
y en unión libre.
pág. 5
 Datos cuantitativos.- Son aquellos, cuya variación puede presentarse mediante números;
ejemplo: la estatura de un grupo de niños, el saldo promedio de cuentas corrientes de un banco,
la duración o vida útil de un repuesto eléctrico, etc.
Los datos cuantitativos se presentan de dos maneras:
Variable Discreta
Son aquellos cuya variación numérica se representa por números enteros; ejemplo: el número
de autos vendidos el año anterior, el número de personas que migraron hacia otros países, el
número de matrículas que emitió la Universidad Tecnológica Equinoccial el semestre pasado,
etc.
Variable Continua
Los datos de variable continua pueden asumir cualquier valor: entero o decimal, dentro de un
rango o intervalo específico; ejemplo de estas variables tenemos: la estatura y el peso de un
grupo de estudiantes de la costa ecuatoriana, el diámetro de un grupo de tornillos fabricados en
determinado tiempo, el peso de 20 enlatados de atún, etc.
Esta clasificación de datos de variable cuantitativa en discreta y continua, permitirá más

adelante clasificar a las distribuciones probabilísticas en Distribuciones de variable discreta y
Distribuciones de variable continua.
1.7. ESTADÍSTICOS Y PARÁMETROS
Los estadísticos son valores numéricos obtenidos mediante técnicas y métodos apropiados que
indican las características de la muestra; ejemplo: la media aritmética, la mediana, la desviación
estándar, etc.
Mediante los estadísticos de muestra y con los métodos de la estadística inferencial se deducen los
parámetros de la población; es decir hablar de estadísticos y parámetros es referirse a valores
propios y característicos que representan a la muestra y población, respectivamente.
Los estadísticos y los parámetros, se representan con letras latinas y griegas respectivamente; el
cuadro que se indica a continuación describe la simbología utilizada para los estadísticos y
parámetros más utilizados en nuestro estudio:
Medida estadística Estadístico Parámetro

Media aritmética x 
Desviación estándar s 
Varianza s2 2
Tamaño n N
Proporción p
pág. 6
2. ORGANIZACIÓN Y PRESENTACIÓN DE LOS DATOS
Una vez que los datos de una muestra estadística han sido recolectados es conveniente organizarlos
de alguna manera; existen diversos métodos para la organización de los datos, entre ellos se
encuentran los siguientes:
2.1. ORDENAMIENTO DE LOS DATOS
Cuando la muestra no es muy numerosa, es posible ordenar los datos en orden creciente o
decreciente; ese ordenamiento permitirá visualizar los valores extremos y determinar en forma
inmediata el rango, es decir la diferencia entre el mayor y el menor de los valores de la muestra.
2.2. DISTRIBUCIÓN DE FRECUENCIAS SIMPLE.- VARIABLE CUALITATIVA
Cuando la variable se presenta en forma cualitativa, por ejemplo el sexo de una persona, los datos
podrán organizarse en una tabla en la que se indique los casos registrados para cada uno de los
valores de la variable cualitativa; se podrá también establecer el porcentaje de frecuencia en cada
una de estas variables, como también el porcentaje acumulado. El programa SPSS entrega como
resultado una tabla como la que se indica a continuación:
Sexo del empleado

Porcentaje Porcentaje
Frecuencia Porcentaje
válido acumulado
Válidos Femenino 25 41,7 41,7 41,7
Masculino 35 58,3 58,3 100,0
Total 60 100,0 100,0
Es conveniente que estas tablas presenten además, a manera de resumen, un gráfico estadístico
representativo; para variable cualitativa existen dos tipos de gráficos muy comunes:
a. Gráfico de barras verticales u horizontales,

b. Gráfico de sector circular.
El gráfico de barras verticales es una representación cartesiana de la variable de estudio, en el eje

horizontal se ubicará la variable cualitativa y en cada una de ellas se dibujará un rectángulo cuya
altura representa la frecuencia de la variable.
El gráfico circular, en cambio toma un círculo y distribuye su área (360º) en forma proporcional a la
frecuencia de la variable cualitativa; resulta muy conveniente cuando la variable es binomial, es decir
presenta dos resultados (Sexo: masculino, femenino); (Existencia: Vivo, muerto), etc.
A continuación se presenta el gráfico estadístico de barras verticales y de sector circular para los
datos de la tabla:
pág. 7
Tablas cruzadas
Una tabla cruzada, tabla de contingencia o tabla bivariable es una estructura tabular que permite
registrar los casos que ocurren en dos variables; a continuación se expone algunos ejemplos de
tablas cruzadas:
Tabla de contingencia Sexo del empleado * Nivel Académico
Recuento
Nivel Académico
Total
Posgrado Secundaria Superior
Sexo del empleado Femenino 7 10 8 25
Masculino 10 7 18 35
Total 17 17 26 60
pág. 8
Esta estructura tabular, comparable con la de una matriz, registra las variables en sentido horizontal
y vertical; no existe restricción en cuanto a la ubicación de las variables, inclusive, el programa SPSS
podrá pivotar la tabla, es decir presentarla en sentido contrario al original, tal como sucedería con la
transpuesta de una matriz.
2.3. DISTRIBUCIÓN DE FRECUENCIAS SIMPLE.- VARIABLE CUANTITATIVA
Cuando la variable estadística se presenta de manera cuantitativa, sea esta discreta o continua,
se puede organizar la información mediante tablas de frecuencia, tablas cruzadas y tablas de
frecuencia por intervalos.
Veamos un ejemplo de cómo organizar los datos que se indican la antigüedad (en años) de
los empleados y funcionarios de la Agencia Nacional de Investigaciones:
ANTIGÜEDAD FRECUENCIA PORCENTAJE

1 14 9.33%
2 13 8.67%
3 16 10.67%
4 13 8.67%
5 19 12.67%
6 15 10.00%
7 20 13.33%
8 18 12.00%
9 13 8.67%
10 9 6.00%
Total general 150 100,00%
2.4. HISTOGRAMA DE FRECUENCIAS
El histograma de frecuencias es el resumen gráfico de la Distribución de frecuencias; en el

histograma de frecuencias, se utiliza a la marca de clase como variable independiente (eje horizontal)
y a los valores de: frecuencias, relativa o absoluta, como variable dependiente (eje vertical).
pág. 9
Junto con el histograma se puede graficar el polígono de frecuencias, para lo cual es necesario
agregar en los extremos de la distribución dos intervalos de frecuencia cero, llamados intervalos
ficticios; el polígono de frecuencias se obtiene mediante un trazo continuo desde el intervalo ficticio
inferior y por los puntos medios superiores de cada una de las barras que conforman el histograma,
finalizando en el intervalo ficticio superior de la distribución de frecuencia.
Los valores que registra la variable cuantitativa continua presentan muchos casos, lo que conlleva a
elaborar tablas de frecuencia que no resultan ser muy prácticas en su manejo; en estos casos es
conveniente agrupar a los valores en intervalos. De esta manera, se obtendrán tablas de frecuencia
agrupadas en una escala de valores.
A manera de ejemplo en la siguiente tabla se presenta la organización de datos de la variable Edad

en 5 intervalos de clase: menos de 30 años; entre 30 y 40 años; entre 40 y 50 años, entre 50 y 60
años y más de 60 años.
INTERVALO EDAD Total

< 30 22
30 - 40 36
40 - 50 28
50 - 60 40
> 60 24
Total general 150
Por otro lado, se podrá también elaborar tablas cruzadas tomando en cuenta a variables
cuantitativas continuas entre sí; o una variable cuantitativa continua y una variable discreta o una
variable cualitativa.
INTERVALO INGRESOS
INTERVALO EDAD TOTAL GENERAL
< 1000 1000 - 2000 2000 - 3000
< 30 5 7 10 22
30 - 40 4 19 13 36
40 - 50 6 16 6 28
50 - 60 9 18 13 40
> 60 2 13 9 24
TOTAL 26 73 51 150
GENERAL
2.5. DISTRIBUCIONES DE FRECUENCIA POR INTERVALOS O CLASE
Cuando los datos son numerosos es conveniente organizarlos en una tabla de distribución de
frecuencias; esta tabla agrupa los datos en diversas clases, intervalos o categorías y permite obtener
la frecuencia absoluta, la frecuencia relativa y la frecuencia acumulada; la tabla adjunta es el modelo
estándar de esta organización de datos.
INTERVALOS Frecuencia Frecuencia Frecuencia Marca de

absoluta relativa Acumulada clase
L. Inferior L Superior
∑=
pág. 10
Para la construcción de una distribución de frecuencias es conveniente tomar en cuenta las

siguientes definiciones:
Rango
El rango de una muestra es la diferencia que existe entre el valor máximo y el valor mínimo del grupo
de datos a organizar.
Intervalos o Clases
Los datos recogidos se agrupan en intervalos o categorías, a estos grupos se los llama comúnmente
intervalos o clases; se recomienda que la muestra se la divida entre cinco (mínimo) y quince
intervalos (máximo).
Ancho de Clase
El ancho de clase ( ) es un valor que se obtiene al dividir el rango de la muestra para el número de
intervalos escogidos para la formar la distribución de frecuencias.
Límites del Intervalo
Como su nombre lo indica, son valores que limitan el intervalo, habrá entonces un límite inferior y
un límite superior, los límites de cada uno de los intervalos que forman la distribución de frecuencia
se calculan de la siguiente manera:
1. Se toma el valor mínimo, este valor será el límite inferior del primer intervalo, a este valor, se
suma el ancho de clase previamente calculado y se obtendrá el límite superior del primer
intervalo.
2. Para el cálculo de los límites de los demás intervalos, se asume como intervalo inferior el valor
del intervalo superior del intervalo anterior; a este valor, se suma el ancho de clase para obtener
el límite superior de este intervalo. El límite superior del último intervalo, será el valor máximo
de la muestra.
Frecuencia
La frecuencia ( ) de cada uno de los intervalos, es el número de observaciones de la muestra cuyos

valores son iguales o mayores que el límite inferior y menores que el límite superior. La suma de las
frecuencias de todos los intervalos, debe ser igual al tamaño de la muestra o población en análisis.
Frecuencia Relativa
La frecuencia relativa ( ) de cada uno de los intervalos, es el cociente que se obtiene al dividir la
frecuencia de cada intervalo para el total de la muestra. La suma de las frecuencias relativas de todos
los intervalos, es igual a la unidad. Si a cada uno de los valores de la frecuencia relativa se multiplica
por 100 se tendrá el porcentaje de observaciones que se encuentran contenidas en cada uno de los
intervalos, obviamente la suma de estas frecuencias porcentuales, será igual a 1 o 100.
pág. 11
Frecuencia Acumulada
La frecuencia acumulada ( ) de cada uno de los intervalos de la distribución de frecuencias, recoge

todas las observaciones de los intervalos anteriores y de su propio intervalo; la forma de calcular es
la siguiente:
La frecuencia acumulada del primer intervalo será igual a la frecuencia del intervalo, la frecuencia
acumulada de los demás intervalos, será igual a la frecuencia acumulada del intervalo anterior más la
frecuencia del intervalo; la frecuencia acumulada del último intervalo, será igual al tamaño de la
muestra.
Marca de Clase
La marca de clase ( ), es el valor representativo de cada uno de los intervalos, este valor es igual al
promedio de los límites de cada uno de los intervalos.
Para mejor entendimiento de esta parte, se incluye a continuación el histograma de frecuencia

absoluta correspondiente a la siguiente distribución de frecuencias:
12 10 9 11 15 16 9 10 10 11
12 13 14 15 11 11 12 16 17 17
16 16 15 14 12 11 11 12 12 11
12 15 13 14 16 15 18 19 18 10
11 12 12 11 13 13 15 13 11 12
Valor máximo de la muestra 19,00

Valor mínimo de la muestra 9,00
Rango de la muestra 10,00
Número de intervalos 7,00
Cálculo del ancho de clase 1,43
Límites del Intervalo Marca de Frecuencia Frecuencia

Frecuencia
Clase Li <x <Ls Clase (x) Relativa Acumulada
Li Ls (x) f fr FA
0 7,57 9,00 8,29 0 0,00 0,00
1 9,00 10,43 9,71 6 0,12 6,00
2 10,43 11,86 11,14 10 0,20 16,00
3 11,86 13,29 12,57 15 0,30 31,00
4 13,29 14,71 14,00 3 0,06 34,00
5 14,71 16,14 15,43 11 0,22 45,00
6 16,14 17,57 16,86 2 0,04 47,00
7 17,57 19,00 18,29 3 0,06 50,00
8 19,00 20,43 19,71 0 0,00 50,00
Observe que se han agregado dos intervalos ficticios, al inicio y al final de la tabla; estos intervalos
ficticios de frecuencia cero permitirán construir el polígono de frecuencia.
pág. 12
pág. 13
3. ESTADÍSTICA DESCRIPTIVA
3.1. MEDIDAS DE TENDENCIA CENTRAL
Una vez que los datos han sido organizados en una tabla de distribución de frecuencia y
representados gráficamente, corresponde ahora buscar ciertos valores que representen a la
muestra. A estos valores representativos se conoce como Medidas de Centralización, ya que estos
valores se ubican alrededor de la parte central de la misma.
Se estudiarán las siguientes Medidas de Centralización: Media Aritmética, Mediana, Moda, para
datos no agrupados y para datos agrupados en distribuciones de frecuencia simple y por intervalos;
por otro lado se llaman Cuantiles a las medidas de posición o ubicación de los datos de la muestra
previamente ordenada.
3.1.1. DATOS NO AGRUPADOS
MEDIA ARITMÉTICA
Sean:
Los valores de una muestra de tamaño , la media aritmética (̅) de esta muestra es:
̅
MEDIANA
La mediana (̃), es el valor central de una muestra de datos previamente ordenados, es decir:
Si la muestra siguiente:
Está ordenada, la mediana será ; dado que dicha muestra es impar.
Si la muestra:
Está ordenada, la mediana será la media aritmética entre y , dado que la muestra es par.
MODA
La moda ( ̂) es el valor que se presenta con mayor frecuencia; en una distribución de frecuencia
puede haber más de una moda o simplemente no tiene moda; si la distribución tiene una sola moda
se denomina unimodal, bimodal, etc.
Las definiciones descritas hasta aquí permiten la determinación de los estadísticos de tendencia
central cuando el número de datos es pequeño; cuando los datos se encuentran organizados en
distribuciones de frecuencia simple o en distribuciones de frecuencia por intervalos, se deben aplicar
otras expresiones de cálculo.
pág. 14
3.1.2. EN DATOS AGRUPADOS EN FRECUENCIA SIMPLE
Al organizar los datos en una distribución de frecuencias simple, se debe tomar en cuenta:
Valor ( ) Frecuencia ( ) Frecuencia Acumulada
… … … …
Una vez organizada la tabla de distribución de frecuencia simple, se determina los estadísticos de
tendencia central de la siguiente manera:
MEDIA ARITMÉTICA
∑
̅
∑
MEDIANA
La mediana es el valor ubicado en el centro de la distribución de frecuencias; entonces, el intervalo

donde está la mediana es aquel cuya Frecuencia acumulada contiene por lo menos a:
( )
MODA
La moda es el valor que corresponde al intervalo que presenta la mayor frecuencia; pude darse el
caso de que existan dos o más intervalos que contengan la máxima frecuencia entonces la
distribución de frecuencias será multimodal.
3.1.3. EN DATOS AGRUPADOS EN INTERVALOS DE FRECUENCIA
Al organizar los datos en una distribución de frecuencia por intervalos s debe tomar en cuenta:
MARCA DE Frecuencia
INTERVALO Frecuencia ( )
CLASE ( ) Acumulada
… … … … …
pág. 15
Una vez organizada la tabla de distribución de frecuencia simple, se determina los estadísticos de
tendencia central de la siguiente manera:
 MEDIA ARITMÉTICA
∑
̅
∑
 MEDIANA
( ∑ )
̂
: Límite inferior del intervalo que contiene a la mediana.

: Frecuencia acumulada del intervalo anterior al intervalo que contiene a la mediana.
: Frecuencia absoluta del intervalo que contiene a la mediana.
: Ancho de clase del intervalo que contiene a la mediana
El intervalo que contiene a la mediana es aquel que acumula por lo menos a la mitad de los
datos.
 MODA
̂ ( )
: Límite inferior del intervalo que contiene a la moda.

: Diferencia entre la frecuencia del intervalo que contiene a la moda con la frecuencia
del intervalo anterior.
: Diferencia entre la frecuencia del intervalo que contiene a la moda con la frecuencia
del intervalo posterior.
: Ancho de clase del intervalo que contiene a la mediana
El intervalo que contiene a la moda es aquel que presenta la mayor frecuencia absoluta.
pág. 16
3.2. MEDIDAS DE POSICIÓN EN UNA DISTRIBUCIÓN DE FRECUENCIA
Las medidas de posición son observaciones de la muestra que ocupan posiciones específicas una vez
que esta se ha ordenado; estas medidas se conocen en general como Cuantiles.
Sea la siguiente muestra, previamente ordenada, representada por puntos,
Muestra ordenada dividida en dos partes, al valor central se denomina Mediana
.............................
̃
Muestra ordenada dividida en 4 partes, cada una de esta partes se denomina Cuartil
.............................
Muestra ordenada dividida en 5 partes, cada una de esta partes se denomina Quintil
..............................
Entonces:
 La Mediana es la medida de posición que divide a la muestra en dos partes, cada una de las
partes representa el 50%; de manera que la mediana está ubicada sobre el 50% más bajo de la
muestra.
 Los Cuartiles son medidas de posición que dividen a la muestra en cuatro partes, cada una de las
partes representa el 25%; de manera que:
 El primer cuartil ( ) está ubicado sobre el 25% más bajo de la muestra.

 El segundo cuartil ( ) está ubicado sobre el 50% más bajo de la muestra.
 El tercer cuartil ( ) está ubicado sobre el 75% más bajo de la muestra.
 Los Quintiles son medidas de posición que dividen a la muestra en cinco partes, cada una de las
 El primer quintil ( ) está ubicado sobre el 20% más bajo de la muestra.

 El segundo quintil ( ) está ubicado sobre el 40% más bajo de la muestra.
 El tercer quintil ( ) está ubicado sobre el 60% más bajo de la muestra.
 El cuarto quintil ( ) está ubicado sobre el 80% más bajo de la muestra.
pág. 17
 Los Deciles son medidas de posición que dividen a la muestra en diez partes, cada una de las
 El primer decil ( ) está ubicado sobre el 10% más bajo de la muestra.

 El segundo decil ( ) está ubicado sobre el 20% más bajo de la muestra.
….
 El quinto decil ( ) está ubicado sobre el 50% más bajo de la muestra.
 Los Percentiles o simplemente Centiles son medidas de posición que dividen a la muestra en cien
partes, cada una de las partes representa el 1%; de manera que:
 El percentil 23 ( ) está ubicado sobre el 23% más bajo de la muestra.

….
…..
3.2.1. PRINCIPIO FUNDAMENTAL
“Todo cuantil equivale al percentil correspondiente”, ejemplo:
 El primer cuartil ( ), que se ubica sobre el 25% más bajo de la muestra, equivale entonces al
percentil 25 ( ).
 El segundo quintil ( ), que se ubica sobre el 40% más bajo de la muestra, equivale entonces al
percentil 40 ( ).
 El sexto decil ( ), que se ubica sobre el 60% más bajo de la muestra, equivale entonces al
percentil 60 ( ).
Entonces, de lo anterior se concluye:
3.2.2. EN DATOS NO AGRUPADOS Y AGRUPADOS EN FRECUENCIA SIMPLE
Una vez que se han ordenado los datos, los Cuantiles se los encuentra en la ubicación específica,
tomando en cuenta que un cuantil se ubica en la posición que resulta de aplicar la siguiente
expresión:
( ) ( )
Dónde:
Cuantil a ser ubicado
Tamaño de la muestra (número de datos o casos)
pág. 18
 Si ( ) es entero, entonces el cuantil buscado será el dato correspondiente a esa ubicación;

 Si ( ) no es entero entonces el cuantil buscado es el resultado de la interpolación de la parte
decimal con la diferencia entre los Cuantiles que lo contienen.
3.2.3. CUANTILES EN DATOS AGRUPADOS EN INTERVALOS DE FRECUENCIA.
Cuando los datos se encuentran agrupados en una distribución de frecuencias por intervalos, los
Cuantiles se determinan aplicando la siguiente expresión:
( ∑ )
Donde y conforman la fracción generatriz del cuantil; a manera de ejemplo se describen a

continuación las fórmulas de cálculo de los cuartiles:
Primer cuartil Segundo cuartil Tercer cuartil
( ∑ ) ( ∑ ) ( ∑ )
3.3. MEDIDAS DE DISPERSIÓN
En clases anteriores se definieron algunas medidas de centralización, entre ellas, la más utilizada: la
media aritmética; sin embargo, el análisis estadístico requiere de una medida que exprese la
variabilidad de los datos con respecto a alguna medida de centralización; usualmente la media; en
otras palabras: es necesario determinar un valor estadístico que represente la variación de los datos,
tomando como punto de referencia de la variación la media aritmética.
Entre las medidas de dispersión más usuales se tiene:
3.3.1. RANGO
A pesar de que no involucra a la media aritmética, la primera medida de la dispersión de un grupo de

datos, agrupados o no, es el rango, definiéndose al rango como la diferencia entre el valor máximo y
valor mínimo de los datos, es decir:
Como se recordará, el Rango permite, junto con el número de intervalos, determinar el ancho de
clase.
3.3.2. DESVIACIÓN ESTÁNDAR
Sea:
Un grupo de datos de tamaño , se define a la desviación estándar, también conocida como

desviación típica, a la raíz cuadrada del cociente entre la sumatoria de los cuadrados de
pág. 19
las diferencias, de cada uno de los valores y la media aritmética, dividida para el número de términos
de la serie de datos, es decir:
∑( ̅)
√
Si los datos constituyen una muestra, es decir es un subconjunto de la población, la desviación

estándar está dado por:
∑( ̅)
√
Si los datos se encuentran agrupados en una distribución de frecuencias, entonces la desviación

estándar será:
∑ ( ̅)
√
∑
Las medidas de dispersión son proporcionales con su magnitud; un valor pequeño indica una
pequeña desviación, mientras que un valor grande indica que existe una gran variabilidad o
dispersión.
3.3.3. VARIANZA
Se define a la varianza como el cuadrado de la desviación típica; es decir:
La varianza mide la variabilidad de los datos, esta medida estadística es de gran utilidad para el
análisis comparativo entre dos o más poblaciones.
3.3.4. COEFICIENTE DE VARIACIÓN
Una medida de la dispersión o variación de un grupo de datos es el coeficiente de variación de

Pearson, el mismo que relaciona por cociente a la desviación estándar con la media aritmética, es
decir:
3.3.5. RANGO INTERCUARTIL
Se define al rango intercuartil como la diferencia numérica entre el tercer cuartil y el primer cuartil,
es decir:
3.3.6. DIAGRAMA DE CAJA
El diagrama de caja es una herramienta de representación gráfica que resume la variabilidad de un

grupo de datos; en este gráfico se puede apreciar el rango y el rango intercuartilítico.
pág. 20
Para elaborar el diagrama de caja es necesario: el valor máximo, el valor mínimo, la mediana el
primer cuartil y el tercer cuartil; estos valores se colocan en una recta horizontal, tal como se indica
en la siguiente figura:
3.4. MEDIDAS DE ASIMETRÍA
Una vez que se dispone de las medidas de tendencia central y las medidas de dispersión que
describen a un grupo de datos, sobre todo, la media aritmética y la desviación estándar, es
conveniente determinar además, una medida que exprese la simetría o asimetría de los datos.
3.4.1. SIMETRÍA DE UNA MUESTRA
En Estadística se conoce como distribución simétrica a aquella distribución de frecuencia en los

cuales los datos se reparten en tal forma que el vértice del polígono de frecuencia se encuentra en la
mitad del mismo; tal como se indica en el siguiente histograma:
En toda distribución de frecuencias simétrica se cumple que: ̅ ̃ ̂
Es decir: la media aritmética, la mediana y la moda son iguales, y se ubican en la parte central del
histograma de frecuencias.
A las muestras simétricas se las conoce también como muestras asesgadas; es decir, que no tienen
sesgo.
Si la distribución de frecuencias no es simétrica, entonces se trata de una distribución asimétrica o

sesgada.
pág. 21
3.4.2. SESGO DE UNA DISTRIBUCIÓN DE FRRECUENCIAS
El sesgo es una forma cuantitativa de expresar la asimetría de una curva, este estadístico se
determina con las siguientes expresiones:
̅ ̂ ( ̅ ̃)
Que se conocen como Primer y segundo coeficiente de Pearson; se puede observar que el primer
coeficiente toma en cuenta la moda y el segundo coeficiente toma en cuenta a la mediana de la
distribución de frecuencias.
Sesgo a la derecha.-
Los datos se concentran en la parte derecha de la distribución, se cumple además que: ̂ ̃ ̅
Cuando la distribución de frecuencias presenta sesgo a la derecha los coeficientes de asimetría de

Pearson son positivos.
Sesgo a la izquierda.-
Los datos se concentran en la parte izquierda de la distribución, se cumple además que: ̅ ̃ ̂
Cuando la distribución de frecuencias presenta sesgo a la izquierda los coeficientes de asimetría de

Pearson son negativos.
pág. 22
4. DISTRIBUCIONES DE PROBABILIDAD
4.1. EXPERIMENTO ALEATORIO
Se dice que un experimento es aleatorio, cuando no se conoce con certeza el resultado de dicho
experimento; sin embargo se conocen todos los resultados posibles de dicho experimento.
Como ejemplos de experimentos aleatorios podemos citar los siguientes:
1. Lanzar al aire una moneda.

2. Extraer una carta de un mazo de naipes.
3. Lanzar un dado.
A pesar que estos ejemplos giran en torno a los juegos de azar, esto sirvió como material de trabajo
para la elaboración de un marco teórico matemático muy importante como es el cálculo de
probabilidades; dentro de la administración podemos citar los siguientes ejemplos como
experimentos aleatorios:
1. El volumen de ventas de un almacén para el año próximo.

2. La aceptación del consumidor de un nuevo producto.
3. La tasa de interés para el siguiente semestre.
4.2. EVENTO ALEATORIO
Dentro del estudio de la probabilidad, se denomina Evento al resultado de un experimento

aleatorio.
4.3. ESPACIO MUESTRAL
Se llama Espacio Muestral al conjunto finito formado por todos los resultados posibles (eventos) de
un experimento aleatorio.
4.4. PROBABILIDAD DE UN EVENTO
La probabilidad de un evento aleatorio es la cuantificación de la ocurrencia de dicho evento, es

decir, si podemos expresar mediante un número la ocurrencia de un suceso de carácter aleatorio,
entonces hemos encontrado la probabilidad de ocurrencia de dicho evento.
Sea un evento aleatorio, entonces ( ) representa la probabilidad de ocurrencia del evento ,

este valor se puede encontrar mediante la expresión:
( )
Ahora, la probabilidad de no-ocurrencia del suceso aleatorio será:
( )
La probabilidad de un evento A es un número positivo entre cero y uno, es decir:
( )
pág. 23
Si la probabilidad del evento es: ( ) entonces el evento se denomina éxito; Ahora, si la

probabilidad del evento A es ( ) , entonces al evento a se lo denomina fracaso.
La probabilidad de ocurrencia de un evento junto con la probabilidad de no ocurrencia del mismo

reúne todo el todo el espacio Muestral, por lo que:
( ) ( )
Con lo que se puede expresar que:
( ) ( )
Cuando el número de casos favorables de la ocurrencia de un evento o el total de casos resulta difícil
de determinar, es conveniente recurrir a las técnicas de conteo establecidas en el Análisis
Combinatorio.
4.5. ALGEBRA DE PROBABILIDAD
Sean A y B dos eventos, la probabilidad de ocurrencia de los dos eventos está dada por:
( ) ( ) ( ) ( )
Si A y B son independientes:
( ) ( ) ( )
Evento condicional:
( )
( )
( )
4.6. DISTRIBUCIÓN DE PROBABILIDAD
Recordemos que el Espacio muestral es el conjunto de todos y cada uno de los valores que puede tomar
una variable aleatoria; dicho en otras palabras, el Espacio muestral reúne a todos los resultados posibles
de un experimento aleatorio.
Si a cada uno de los valores del Espacio muestral, le hacemos corresponder su respectiva probabilidad de
ocurrencia, a esta correspondencia le llamaremos Distribución de probabilidad o Función de Probabilidad
o simplemente o Distribución Probabilística, es decir:
pág. 24
Una Distribución de Probabilidad, se puede representar de dos maneras: mediante una tabla de datos o
mediante un gráfico denominado histograma.
0,35
( ) 0,3
1 0.10
2 0.15 0,25
3 0.30 0,2
4 0.18
5 0.12 0,15
6 0.15
0,1
0,05
0
1 2 3 4 5 6
La Distribución de Probabilidad permite calcular probabilidades; siempre y cuando, se cumplan los

requisitos que cada una de ellas exigen.
De acuerdo con la clasificación de la variable aleatoria se ha tomado en cuenta la siguiente clasificación

de distribución de probabilidades:
 Distribución Binomial (Bernoulli), para variable aleatoria discreta.

 Distribución Normal (Gauss), para variable aleatoria continua.
4.7. DISTRIBUCIÓN BINOMIAL
Un evento está bajo Distribución Binomial, si cumple con las siguientes condiciones:
 Existen n observaciones o ensayos idénticos.

 Cada ensayo tiene dos posibles resultados, uno llamado “éxito” y el otro denominado “fracaso”.
 Las probabilidades de éxito y de fracaso se mantienen constantes para todos los
ensayos.
 Los resultados de los ensayos son independientes entre sí.
La distribución Binomial se expresa con la siguiente función:
( ) ( )
Dónde:
( ) Número de combinaciones o grupos de elementos que se pueden hacer con elementos.

: El valor de la variable cuya probabilidad queremos calcular.
: Total de la muestra.
: Probabilidad de la ocurrencia de un evento.
: Probabilidad de la no ocurrencia del evento.
pág. 25
En el cálculo de probabilidades, bajo la distribución Binomial se presentan los siguientes casos:
 Probabilidad de un elemento puntual.

 Probabilidad de un evento mayor que.
 Probabilidad de un evento menor que.
4.8. DISTRIBUCIÓN NORMAL
La distribución de probabilidad de Gauss o distribución Normal, está dada por la siguiente ecuación:
( )
Para mejor manejo de la ecuación de Gauss, se procede a tipificar la variable, haciendo el siguiente
cambio de variable:
La ecuación de Gauss se transforma en:
Que presenta ahora el siguiente gráfico:
Características de la Curva Normal
 La gráfica de una distribución normal, se asemeja a una campana, por eso se la conoce como la
campana de Gauss.
 La curva es suave, unimodal y simétrica, entonces: la media, la mediana y, la moda coinciden en el eje
de simetría.
 En sentido horizontal, la curva se extiende hacia el infinito, en los dos sentidos; sin embargo, con la
tipificación de la variable z, la distribución normal tiene dominio entre ]-4,4[
pág. 26
 La curva de distribución normal queda totalmente identificada, mediante dos parámetros: la media
aritmética y la desviación estándar.
 El área total de la curva normal, representa el 100% de probabilidad de dicha variable; dada la
simetría, el eje divide a la curva en dos áreas, representa cada una por el 50% del área total.
( )
Con estas características se tiene que:
La probabilidad de que una variable aleatoria que está distribuida normalmente asuma un valor entre
dos puntos cualesquiera, es igual al área bajo la curva normal entre estos dos puntos.
Mediante la distribución normal, se pueden calcular probabilidades para eventos de variable continua,
para este cálculo se deberá contar con:
 Media aritmética:
 Desviación estándar:
Con estos valores procedemos a calcular el valor (variable tipificada):
Proceso para el cálculo de una probabilidad con distribución normal
1. Cálculo del valor para la probabilidad ,

2. Gráfico de la campana y ubicación del valor ,
3. Ubicación de las áreas en el gráfico,
4. Definir el área (sombrear) que corresponde a la probabilidad a calcular,
5. Cálculo del área sombreada (es el valor de la probabilidad).
pág. 27
5. MÉTODOS DE MUESTREO
5.1. MUESTRA
Dentro de la Estadística, la muestra es un subconjunto de la población; es decir, un conjunto formado

por algunos elementos tomados de un conjunto mayor que es la población. En conclusión: la muestra
es un subconjunto representativo tomado de una población.
5.2. POBLACIÓN FINITA O INFINITA
En términos estadísticos una población es finita si se conoce el tamaño de la misma, si no se conoce

el tamaño se dice entonces que se trata de una población infinita.
Cuando la población es finita, el cálculo numérico se ve afectado del denominado factor de

corrección de población finita, este factor se determina con la siguiente expresión:
Este factor de corrección siempre será menor que la unidad ( ) y depende del tamaño de la
población y del tamaño de a muestra.
5.3. EL MUESTREO ALEATORIO
La muestra estadística debe ser tomada con un criterio apropiado de manera que las inferencias que
sobre la población de dicha muestra se hagan sean confiables e idóneas.
Este criterio se resume en que todos los elementos de la población deben tener la misma
probabilidad de ser incluidos en la muestra; este criterio se cumple cuando los elementos de la
población que van a ser parte de la muestra son tomados al azar, el muestreo al azar se conoce
también como muestreo aleatorio.
5.4. MÉTODOS DE MUESTREO ALEATORIO
Dentro del muestreo aleatorio existen varios métodos de muestreo, en forma resumida se tiene:
Muestreo Aleatorio simple.- Es el método de muestreo más común, consiste en seleccionar al azar,
uno a uno, los elementos de la población que van a formar parte de la muestra; el criterio del azar se
establece el momento en que todos los miembros de la población tienen la misma probabilidad de
ser elegidos como parte de la muestra. Una forma de realizar un muestreo aleatorio simple es
numerar previamente a los elementos de la población y luego, con la ayuda de una tabla de números
aleatorios escoger al azar los elementos de la muestra.
Muestreo aleatorio estratificado.- Se toma aleatoriamente y en tamaño proporcional al del estrato,

los diferentes elementos que formarán la muestra; de esta manera se obtendrá una representativa
de cada uno de los estratos o categoría que conforman la población.
Muestreo aleatorio sistemático.- Se divide a la población en tantos grupos como el tamaño de la

muestra; luego del primer grupo se elige aleatoriamente el elemento de partida y finalmente se va
tomando los elementos que coincidan con el módulo del elemento de partida.
pág. 28
6. DISTRIBUCIÓN DE MUESTREO
Con la media aritmética y la proporción de muestras de diferente tamaño se pueden formar las
denominadas distribuciones muestrales, entonces podrán existir:
 Distribución muestral de medias.

 Distribución muestral de proporciones.
6.1. CLASIFICACIÓN DE LAS MUESTRAS POR SU TAMAÑO
De acuerdo con su tamaño, las muestras estadísticas se clasifican en:
 Muestras grandes.
 Muestras pequeñas.
Esta clasificación se debe a la experiencia estadística que señala que se considera como muestra
grande cuando esta contiene al menos 30 elementos, si el tamaño de la muestra es menor a 30, se
considera como muestra pequeña.
6.2. TEOREMA DEL LÍMITE CENTRAL
Este es uno de los temas más importantes en la estadística inferencial, este teorema se enuncia de la
siguiente manera:
“A medida que el tamaño de la muestra aumenta, la distribución de medias muestrales se

aproxima a la distribución Normal”.
El teorema permite entonces asumir a una muestra grande ( ) como aproximada a la

distribución normal.
6.3. ERROR DE MUESTREO
Se define al error de muestreo como la diferencia entre los valores de los parámetros poblacionales y
los estadísticos de una muestra; este error es inversamente proporcional al tamaño de la muestra, es
decir mientras mayor sea el tamaño de la muestra menor será el error que se presenta en el
muestreo.
A continuación se presentan algunas fórmulas que permiten determinar el error de muestreo para
las siguientes distribuciones muestrales.
Para la distribución muestral de medias:
√
Donde:
: Error de la distribución muestral de medias.

: Desviación estándar de la población.
: Tamaño de la muestra.
Para la distribución de las proporciones:
pág. 29
( )
√
Donde:
: Error de la distribución muestral de proporciones.

: Proporción o probabilidad de cumplimiento del evento
: Tamaño de la muestra.
El caso de pequeñas muestras deberá tomarse en cuenta que los datos ya no tienen el
comportamiento de una distribución normal; deberá entonces utilizar la distribución , de Student,
tal como se estudiará más adelante.
pág. 30
7. TEORÍA DE ESTIMACIÓN ESTADÍSTICA
7.1. INTRODUCCIÓN
La Estimación es una herramienta estadística que permite: partiendo del análisis de los estadísticos
de una muestra deducir los parámetros de una población; siendo las estimaciones más usuales: la
media poblacional y la proporción poblacional.
7.2. ESTIMADOR POR INTERVALOS
Una estimación por intervalos especifica un rango dentro del cual está el parámetro desconocido;
este intervalo con frecuencia va acompañado de una afirmación sobre el nivel de confianza que se
da sobre su probabilidad de ocurrencia, por esta razón a este intervalo se lo conoce también como
intervalo de confianza (IC)
En la práctica, es común tomar como nivel de confianza valores tales como el 99%, el 95% y el 90%;
en realidad no hay nada de especial en estos valores, por lo que el nivel de confianza puede ser
cualquier valor.
7.3. CONSIDERACIONES ADICIONALES PARA LA ESTIMACIÓN ESTADÍSTICA
Antes de proceder a determinar el intervalo de estimación estadística, es muy importante tomar en

cuenta las siguientes consideraciones:
1. Se requiere conocer si la población se encuentra bajo una Distribución Normal; sin embargo,
esta información no siempre está disponible.
2. En términos estadísticos, se considera que una muestra es grande cuando su tamaño es mayor o
por lo menos igual a 30, entonces de acuerdo con el Teorema del Límite Central que dice: “Si
una muestra es grande, entonces está bajo la Distribución Normal”.
3. El intervalo de estimación está en función de la desviación estándar de la población, sin

embargo, en la mayoría de las veces este parámetro es desconocido; en esta situación se
requerirá remplazar este parámetro por la desviación estándar de la muestra .
7.4. INTERVALO PARA ESTIMACIÓN DE LA MEDIA POBLACIONAL
Muestras grandes.-
Cuando la muestra proviene de una Distribución Normal, o si el tamaño de la muestra es grande

( ), de acuerdo al Teorema del límite central, se la puede considerar como proveniente de
una Distribución Normal, entonces la media poblacional se estima como:
̅ ̅
Donde:
: Media poblacional, a estimar.

̅ : Media aritmética de la muestra.
: Valor de la distribución normal en función del nivel de confiabilidad.
̅: Error de la distribución de medias.
pág. 31
̅ (Cuando se conoce la desviación estándar de la población).

√
̅ (Cuando no se conoce la desviación estándar de la población).

√
Cuando el tamaño de la población es conocida se debe multiplicar al error estándar de la media por
el factor de corrección de población finita, este factor es igual a:
Muestras pequeñas.-
Cuando los datos provienen de una Distribución Normal, la desviación estándar de la población es
desconocida y si el tamaño de la muestra es pequeño ( ), entonces se debe trabajar con la
distribución t, conocida también como la Distribución de Student; en estos casos, la media
poblacional se estima como:
̅ ̅
Donde:
: Media poblacional, a estimar.

̅: Media aritmética de la muestra.
: Valor de la distribución t, en función del nivel de confiabilidad y de los grados de libertad;
los grados de libertad .
7.5. ESTIMACIÓN DE LA PROPORCIÓN POBLACIONAL
Para determinar el intervalo de estimación de la proporción poblacional, se asume que la

distribución de la que provienen los datos es normal, entonces el intervalo de estimación está dado
por:
Donde:
: Proporción poblacional a estimar

: Proporción de la muestra.
: Valor de la distribución normal en función del nivel de confiabilidad.
: Error de la distribución de la proporción.
Donde:
( )
√
pág. 32
8. TAMAÑO DE LA MUESTRA
El tamaño de la muestra es una de las inquietudes de mayor frecuencia y preocupación que se

presenta en una investigación; si bien el cálculo del tamaño de la muestra es una operación sencilla
puesto, que se han establecido las fórmulas de cálculo correspondientes, es necesario que el
investigador tome en cuenta los diversos factores que influyen en su determinación.
8.1. FACTORES QUE INFLUYEN EN EL TAMAÑO DE LA MUESTRA
Los factores generales que influyen en el tamaño de la muestra son:
a. Conocimiento del tamaño de la población.

b. Nivel de confiabilidad o probabilidad de ocurrencia del evento a investigar.
c. Tamaño del error de estimación, siendo este la diferencia entre el parámetro poblacional y el
estadístico de la muestra.
Por otro lado, el tamaño de la muestra depende además de la estimación del parámetro que se va a
realizar, entonces se tiene como factores particulares:
d. Cuando se trata de estimar la media poblacional, el tamaño de la muestra depende de la

desviación estándar de la población, en ausencia de esta, se recomienda tomar la desviación
estándar de una muestra piloto de por lo menos 30 unidades ( ).
e. Cuando se trata de estimar la proporción poblacional, el tamaño de la muestra depende de la

probabilidad de ocurrencia del evento en estudio en ausencia de esta, se recomienda tomar la
como probabilidad de ocurrencia el 50%, es decir el criterio de equiprobabilidad - puede o no
puede ocurrir- ( ).
8.2. TAMAÑO DE LA MUESTRA PARA ESTIMAR LA MEDIA POBLACIONAL
a. Si el tamaño de la población no está definida, la media poblacional se estima con:
̅ ̅
Dónde:
̅ Es el error típico de muestreo para la media poblacional y está dado por:
̅
√
Por otro lado, el error de estimación de la media poblacional , es la diferencia entre la media
poblacional y la media de la muestra entonces:
̅
√
Despejando se tiene:
( )
pág. 33
b. Si el tamaño de la población está definido, el error de muestreo para la media poblacional se ve

afectado por el Factor de corrección de la población finita, entonces:
̅ ̅
Dónde:
Es el Factor de corrección de población finita y está dado por:
̅ ̅
√
√
( )
8.3. TAMAÑO DE LA MUESTRA PARA ESTIMAR LA PROPORCIÓN POBLACIONAL
a. Si el tamaño de la población no está definido, la proporción poblacional se estima con:
Dónde:
Es el error típico de muestreo para la proporción poblacional y está dado por:
( )
√
Por otro lado, el error de estimación de la proporción poblacional , es la diferencia entre la

proporción poblacional y la proporción de la muestra entonces:
( )
√
( )
√
pág. 34
( )
b. Si el tamaño de la población está definido, el error de muestreo para la proporción poblacional

se ve afectado por el Factor de corrección de la población finita, entonces:
Dónde:
Es el Factor de corrección de población finita y está dado por:
( )
√ √
( )
√ √
( )
[ ( ) ( )]
pág. 35
9. PRUEBAS DE HIPÓTESIS PARA LA MEDIA Y PROPORCIÓN POBLACIONAL
9.1. INTRODUCCIÓN
El segundo método de inferencia sobre una característica de la población, basándose en el análisis de

la muestra, se denomina Prueba de Hipótesis. Una hipótesis es un enunciado o afirmación que se
hace sobre alguna característica estadística de la población, y mediante el análisis estadístico de la
muestra, se llega a aceptar o rechazar dicha enunciado o hipótesis.
Al igual que en la estimación de los parámetros poblacionales, en este tema se realizarán las
siguientes pruebas de hipótesis:
 Pruebas de hipótesis sobre la media poblacional para muestras grandes.

 Pruebas de hipótesis sobre la media poblacional para muestras pequeñas.
 Pruebas de hipótesis sobre la proporción o fracción poblacional.
9.2. PROCESO
Básicamente el método de pruebas de hipótesis es el mismo para este tipo de pruebas, la diferencia
entre una y otra prueba está en la determinación del estadístico de prueba y la distribución
estadística (Normal o t) que respalden dicha prueba.
En general, el proceso es el siguiente:
1. Planteamiento de la hipótesis
Se deben plantear dos hipótesis: la Hipótesis Nula (Ho) que es un enunciado o afirmación que se hace
sobre alguna característica de la población, y la Hipótesis Alternativa (H1) que se plantea como la
negación de la hipótesis nula.
En ocasiones las hipótesis nula y alternativa vienen como parte del enunciado del problema.
2. Nivel de significancia y tipo de prueba
El nivel de significancia es el porcentaje de error que estamos resignados a cometer, es el

complemento de nivel de confiabilidad, si el nivel de confiabilidad es el 95%, entonces el nivel de
significancia será el 5%.
Los tipos de prueba para este modelo estadístico son:
 Prueba de dos extremos.

 Prueba de extremo derecho.
 Prueba de extremo izquierdo.
La selección del tipo de prueba depende del sentido de la desigualdad expresada en la hipótesis
alternativa.
3. Selección del estadístico de prueba
Para pruebas de hipótesis de medias, con poblaciones bajo la Distribución Normal, o de tamaño
grande o con desviación poblacional conocida, el estadístico de prueba es:
pág. 36
̅
̅
Para pruebas de hipótesis de medias, con poblaciones bajo Distribución Normal, de tamaño pequeño
y con la desviación estándar de la población desconocida, el estadístico de prueba es:
̅
̅
Para pruebas de hipótesis sobre la proporción o fracción poblacional, se asume que bajo la
Distribución Normal, entonces el estadístico de prueba es:
4. Valores críticos de la prueba
Dependiendo del nivel de significancia escogido, como también del tipo de prueba se determina el
valor crítico de la prueba ( );
 ( )
 ( )
5. Toma de decisión
 En prueba de dos extremos: –

 En prueba de extremo izquierdo: –
 En prueba de extremo derecho:
Alternativa para la Toma de decisiones:
Se define como p value al mínimo valor del nivel de significancia con el que se rechaza la
hipótesis nula; entonces la regla de decisión es:
 En prueba de dos extremos:

 En prueba de un extremo:
El programa SPSS representa al p value como sig. bilateral (nivel observado significancia de
dos extremos).
6. Conclusión de la prueba
Finalmente se debe expresar el resultado de la prueba traduciendo el resultado obtenido a las

características del problema.
pág. 37
10. INFERENCIAS EN DOS POBLACIONES
10.1. INTRODUCCIÓN
En los temas anteriores se realizaron deducciones de una población en base del análisis de una
muestra tomada de dicha población; en este tema se tratará de establecer herramientas estadísticas
que permitan establecer estimaciones de la diferencia que existe entre los parámetros de la
población, y comprobar hipótesis acerca de las semejanzas o diferencias que presentan las dos
poblaciones.
Por otro lado, es muy importante conocer la forma como se han tomado las muestras de las dos
poblaciones que intervienen en el análisis estadístico; estas muestras pueden ser:
Independientes: Es decir la muestra de cada población se obtiene en forma independiente.
Por pares: Las observaciones o elementos de la muestra de la primera población se toman en forma
correspondiente con los elementos de la segunda población; un ejemplo característico del muestreo
por pares se denomina “antes y después”.
10.2. ESTIMACIONES DE DIFERENCIAS DE PARÁMETROS POBLACIONALES
Vamos a revisar la diferencia que existe entre los parámetros de dos poblaciones, así podremos
estimar:
 La diferencia de la durabilidad promedio de las llantas de dos marcas diferentes.
 La diferencia entre los salarios promedio de hombres y mujeres cuando realizan el mismo
trabajo.
 La diferencia entre la proporción de piezas defectuosas producidas en dos procesos industriales

diferentes.
10.3. ESTIMACIÓN DE DIFERENCIA DE LA MEDIA POBLACIONAL EN MUESTRAS GRANDES:
Cuando el tamaño de cada una de las muestras tomadas de las dos poblaciones es grande, es decir:
La diferencia entre la media poblacional de dos poblaciones está dado por:
(̅ ̅ ) ̅ ̅
Donde:
: Diferencia de la media poblacional de dos poblaciones

̅ : Media aritmética de la muestra (primera población).
: Media aritmética de la muestra (segunda población).
: Valor de z de la Distribución normal para el nivel de confiabilidad asumido.
̅ ̅ : Error de estimación para la diferencia de medias.
El error de estimación para la diferencia de medias poblacionales está dado por:
pág. 38
̅ ̅ √
Si las varianzas de las poblaciones no se conoce se deberá utilizar las varianzas de la muestra, por lo
que la expresión anterior se transforma en:
̅ ̅ √
Recuerde que el interés de este capítulo es estimar la diferencia que existe entre las medias
poblacionales de dos poblaciones, no es el de determinar el valor de las diferencias entre las medias
poblacionales.
10.4. ESTIMACIÓN DE LA DIFERENCIA DE LA MEDIA POBLACIONAL EN MUESTRAS PEQUEÑAS
Cuando las muestras tomadas de cada una de las poblaciones son pequeñas, es decir si:
Y la varianza de las poblaciones y son desconocidas se debe utilizar la distribución t tomando

en cuenta si existen evidencias o no de la igualdad de las varianzas aunque estas no sean
conocidas.
Suposición de igualdad de las varianzas:
Si existen evidencias de que las varianzas poblacionales son iguales, a pesar de no conocerlas se debe
determinar la varianza común ponderada; en función de las varianzas muestrales y tomando como
peso el tamaño de la muestra, es decir:
( ) ( )
Una vez establecido el valor de la varianza común ponderada, se puede entonces definir el intervalo
de estimación de la diferencia de la media poblacional de la siguiente manera:
( ̅ ̅ ) ̅ ̅
Donde:
: Es el valor de la distribución t para el nivel de confiabilidad asumido con grados

de libertad.
El error de estimación para la diferencia de medias poblacionales está dado por:
̅ ̅ √
Si no existen evidencias de igualdad de las varianzas el proceso de cálculo requiere la determinación

de los grados de libertad, para esto se aplica la siguiente expresión:
pág. 39
* +
( ) ( )
Una vez determinado este grado de libertad se procede a leer en la tabla el valor de para
finalmente poder establecer el intervalo de valores de estimación de la diferencia de la media
poblacional.
10.5. ESTIMACIÓN DE LA DIFERENCIA DE LA PROPORCIÓN POBLACIONAL
El intervalo de estimación para la diferencia de la proporción poblacional está dado por la expresión:
( )
Donde:
: Diferencia de la proporción poblacional.

: Proporción muestral tomada de la población 1.
: Proporción muestral tomada población 2.
: Valor de z para el nivel de confiabilidad asumido.
: Error de estimación
El error de estimación para la diferencia de la proporción poblacional está dado por:
( ) ( )
√
10.6. PRUEBAS DE HIPÓTESIS PARA COMPARACIÓN ENTRE DOS POBLACIONES
Al igual que en la estimación de la diferencia entre los parámetros de dos poblaciones se podrán
realizar las siguientes pruebas de hipótesis.
 Pruebas de hipótesis para igualdad de medias con muestras grandes.

 Pruebas de hipótesis para igualdad de medias con muestras pequeñas.
 Pruebas de hipótesis sobre la igualdad de la proporción poblacional de dos poblaciones.
PROCESO
1. Planteamiento de la hipótesis:
Se deben plantear dos hipótesis: la Hipótesis Nula (Ho) que es un enunciado o afirmación que se hace
sobre la relación de igualdad entre las medias de las poblaciones y la Hipótesis Alternativa (H1) que se
plantea como la negación de la hipótesis nula.
2. Nivel de significancia y tipo de prueba:
El nivel de significancia es el porcentaje de error que estamos resignados a cometer, es el

complemento de nivel de confiabilidad, si el nivel de confiabilidad es el 95%, entonces el nivel de
significancia será el 5%.
pág. 40
3. Estadístico de prueba.
Para pruebas de hipótesis de diferencias entre las medias poblacionales, con poblaciones bajo la
distribución normal, o de tamaño grande o con desviación poblacional conocida, el estadístico de
prueba es:
( ̅ ̅ ) ( )
̅ ̅
Para pruebas de hipótesis de diferencias entre medias poblacionales, con poblaciones bajo
distribución normal, de tamaño pequeño y con la desviación estándar de la población desconocida, el
estadístico de prueba es:
( ̅ ̅ ) ( )
̅ ̅
Deberá tomarse en cuenta las consideraciones realizadas sobre el conocimiento o presencia de

indicios de igualdad o desigualdad de las varianzas poblacionales, tal como se lo hizo en el acápite
correspondiente a la estimación por intervalos para la diferencia de las medias poblaciones en
muestras pequeñas.
Para pruebas de hipótesis sobre la diferencia proporción o fracción poblacional, se asume que la
distribución es normal, entonces el estadístico de prueba es:
( ) ( )
4. Valores críticos de la prueba
Prueba z: ( )
Prueba t: ( )
5. Toma de decisión:
 En prueba de dos extremos: – Si no se rechaza.

 En caso de p-value se tiene: ( ) Si no se rechaza.
Si se ha definido con anterioridad el intervalo de confianza:
Se puede establecer otra regla de decisión en función del intervalo de confiabilidad: Si el valor del
parámetro poblacional está dentro del intervalo de confiabilidad, entonces se acepta la hipótesis
nula, caso contrario se rechaza.
6. Conclusión de la prueba: Expresar el resultado de la prueba en términos de las características del

problema.
pág. 41
11. ANÁLISIS DE VARIANZA
11.1. INTRODUCCIÓN
El Análisis de Varianza, conocido como ANOVA (ANALYSIS OF VARIANCE) es una herramienta

estadística diseñada para la comparación de medias muestrales de más de dos poblaciones; además
esta herramienta permite realizar inferencias acerca de la varianza de una población.
La herramienta ANOVA está diseñada específicamente para probar si dos o más poblaciones tienen la
misma media; aunque el propósito de la ANOVA es comparar las medias, el proceso se fundamenta
en el análisis de la variabilidad de cada una de las muestras; siendo esta la razón de su nombre, en
otras palabras:
Mediante el estudio de la variabilidad que presentan las muestras (ANOVA) se pueden realizar
inferencias sobre la igualdad de la medias de las poblaciones de donde se tomaron dichas
muestras.
Algunos ejemplos donde se puede aplicar el Análisis de Varianza.
 Se trata de medir los efectos relativos en la producción de los empleados de una fábrica a los
cuales se los ha capacitado mediante tres programas: tradicional, audiovisual y con ayuda de
medios informáticos.
 Comparar los efectos causados por cuatro promociones mensuales en las ventas de un almacén:
muestra gratis; obsequios, descuentos, envío a domicilio.
 Una cadena de restaurantes está preocupada por las excesivas quejas sobre la demora en la
atención de las órdenes solicitadas en sus cuatro locales: Centro, Norte Sur y Periferia y desea
saber si la demora en que incurren los empleados es la misma en los cuatro locales o en cuál de
ellos la demora es diferente.
11.2. FUNDAMENTOS DEL ANOVA
El análisis de varianza está basado en una comparación de dos estimaciones diferentes de la varianza
de la población total; estas estimaciones de la varianza están claramente establecidas:
La primera estimación de la varianza, conocida como variación intergrupal o inter muestral está
dado por la variabilidad de las medias de las muestras, en términos estadísticos se conoce como
varianza entre columnas.
La segunda estimación de la varianza, se la denomina varianza dentro de las columnas y está dado
por la variabilidad de los datos de cada una de las muestras o grupos, es decir será una varianza intra
muestral o intra grupal.
Por otro lado se debe suponer:
 Todas las poblaciones involucradas son normales.

 Todas las poblaciones tiene la misma varianza.
 Las muestras se seleccionan independientemente.
pág. 42
11.3. PROCESO DE CÁLCULO PARA UNA SOLA VÍA
Se presenta el siguiente modelo de organización de los datos:
Grupo 1 Grupo 2 Grupo 3 … Grupo k

…
…
…
… … … … …
…
Se trata de un conjunto de datos agrupados en k muestras; y cada una de las muestras dispone de un
número n de datos; el número de datos u observaciones de cada una de las muestras no
necesariamente tienen que ser iguales.
El proceso de cálculo consta de los siguientes pasos:
1. Determinación de la media aritmética de cada una de las muestras, obteniéndose entonces:
̅ ̅ ̅ ̅
2. Determinación de la gran media.
La gran media o media de las medias muestrales se obtiene ponderando cada una de las medias
muestrales, tomando como peso el tamaño de cada una de las muestras, es decir:
̅ ̅ ̅ ̅
̿
3. Primera estimación de la varianza:
( ̅ ̿) ( ̅ ̿) ( ̅ ̿) ( ̅ ̿)
∑ ( ̅ ̿)
En esta expresión se tiene:
: Primera estimación de la varianza poblacional

: Tamaño de cada una de las muestras, con
̅ : Media aritmética de cada una de las muestras, con
̿ : Gran media
: Número de muestras o grupos.
Al numerador de la primera estimación de la varianza se le conoce como la Suma de Cuadrados

intergrupal o Suma de cuadrados entre grupos.
pág. 43
4. Determinación de la varianza para cada una de las muestras.
A continuación se deberá calcular las varianzas de cada una de las muestras, aplicando la
siguiente expresión:
∑ ( ̅)
La varianza de cada una de las muestras permitirá la obtención de la segunda estimación de la

varianza de la población.
5. Segunda estimación de la varianza poblacional
La segunda estimación de la varianza poblacional se obtiene mediante la ponderación de la

varianza de cada una de las muestras, en este caso la ponderación está en función del tamaño de
la muestra, el tamaño de todas las muestras y el número de muestras, es decir:
( ) ( ) ( ) ( )
∑ ( )
∑ ( )
Al numerador de la segunda estimación de la varianza se le conoce como la Suma de Cuadrados

intragrupal, Suma de cuadrados dentro de los grupos o Suma de cuadrados del error.
6. Prueba F
El estadístico de prueba para el Análisis de Varianza se conoce con el nombre de estadístico F, el

mismo que compara por cociente el valor de las estimaciones de la varianza poblacional, es decir:
7. Estadístico F
El estadístico de prueba F está en función del nivel de significancia de la prueba, el grado de

libertad de la primera estimación de la varianza y el grado de libertad de la segunda estimación
de la varianza, entonces:
( )
Donde:
: Nivel de significación de la prueba estadística asumido.

Grados de libertad del numerador (Primera estimación de la varianza)
Grados de libertad del denominador (Segunda estimación de la varianza)
Los valores de F se los puede tomar directamente de una tabla de distribución F o también
utilizar software estadístico en la categoría de funciones.
pág. 44
11.4. PRESENTACIÓN DE RESULTADOS
Es muy común, presentar los resultados del ANOVA en una tabla que contiene la información
obtenida, esta tabla tiene la siguiente estructura:
Origen de las variaciones Suma de Grados de Promedio de los F

cuadrados libertad cuadrados
Entre grupos
Dentro de los grupos
Total
11.5. PRUEBA DE HIPÓTESIS PARA IGUALDAD DE MEDIAS EN VARIAS POBLACIONES
Básicamente el procedimiento para la prueba de hipótesis acerca de la igualdad de la media

poblacional de varias muestras, es el mismo que para una o dos muestras, es decir:
1. Planteamiento de hipótesis:
Hipótesis nula:
Hipótesis alternativa:
2. Cálculo del estadístico .
3. Determinación del Valor crítico para la prueba :
Se tomará el valor de la tabla de distribución F en función del nivel de significación y los grados
de libertad del numerador y denominador.
4. Toma de decisión.
 Si , entonces se acepta la hipótesis nula,

 Si , entonces se rechaza la hipótesis nula,
 Si ( ), entonces se acepta la hipótesis nula.
5. Conclusión de la prueba:
Finalmente se debe expresar el resultado de la prueba traduciendo el resultado obtenido a las

características del problema.
11.6. PRUEBA DE TUKEY Y PRUEBA DMS
Se conoce como diseño balanceado al evento en que todas las muestras que intervienen en el
ANOVA son del mismo tamaño; si esta situación no se cumple entonces diremos que el diseño no
está balanceado.
pág. 45
Por otro lado, si la prueba de hipótesis que determina igualdad de la media poblacional de varias
poblaciones es rechazada; entonces será necesario establecer cuáles son las poblaciones que
presentan diferente media poblacional; para esto se han diseñado las siguientes pruebas:
 Prueba de Tukey.
 Prueba de la Diferencia Mínima Significativa (DMS).
 Prueba de DMS alternativo para diseños no balanceado.
A continuación se hará una descripción de estas pruebas:
Criterio de Tukey para diseños balanceados:
a. Se determina el criterio de Tukey con la siguiente expresión:
Donde:
Valor de la tabla de rangos estudentizada ( )

Segunda estimación de la varianza para el ANOVA.
Tamaño de las muestras (el mismo en todos los grupos).
b. Se establecen las diferencias absolutas entre las medias poblaciones para cada dos muestras y
este valor se lo compara con el valor obtenido de Tukey si la diferencia es mayor entonces se
concluye que esos grupos presentan la media poblacional diferente, es decir:
| ̅ ̅|
Entonces la media poblacional del grupo no es igual a la media poblacional del grupo
Criterio de la Diferencia Mínima Significativa (DMS).
a. Se determina el criterio de la Diferencia Mínima Significativa (DMS)con la siguiente expresión:
Donde:
Valor de la Distribución F ( )
Tamaño de las muestras (el mismo en todos los grupos).
este valor se lo compara con el valor DMS, si la diferencia es mayor entonces se concluye que
esos grupos presentan la media poblacional diferente, es decir:
| ̅ ̅|
pág. 46
Criterio de la Diferencia Mínima Significativa (DMS), para diseños no balanceados.
a. Para cada par de muestras se determina el criterio de la Diferencia Mínima Significativa

(DMS)con la siguiente expresión:
√* +
Donde:
Valor de la Distribución F ( )
este valor se lo compara con el valor DMS, si la diferencia es mayor entonces se concluye que
esos grupos presentan la media poblacional diferente, es decir:
| ̅ ̅|
pág. 47
12. PRUEBAS NO PARAMÉTRICAS
12.1. INTRODUCCIÓN
Las pruebas no paramétricas agrupan una serie de pruebas estadísticas que tienen como propiedad
común la ausencia de supuestos o presunciones acerca de la ley de probabilidad que sigue la
población de la que ha sido extraída la muestra. Por esta razón es común referirse a ellas como
pruebas de distribución libre.1
Las pruebas no paramétricas reúnen las siguientes características:
 son más fáciles de aplicar;

 son aplicables a los datos jerarquizados;
 se pueden usar cuando dos series de observaciones provienen de distintas poblaciones;
 son la única alternativa cuando el tamaño de muestra es pequeño y
 son útiles a un nivel de significancia previamente especificado.
12.2. PRUEBA CHI CUADRADO PARA LA INDPENDENCIA DE VARIABLES
Permite determinar que si dos variables, en formato de tabla de contingencia, son independientes o
si estas variables están relacionadas entre sí.
Hipótesis nula:
2. Cálculo del estadístico (chi cuadrado)
( )
∑
Donde:
Frecuencia de eventos observados en los datos de la muestra.

Frecuencia de eventos esperados en los datos de la muestra.
Número de categorías, clases o muestras.
( )
El número de grados de libertad, para esta prueba: ( ) ( )
1
Clasificación de pruebas no paramétricas. Cómo aplicarlas en SPSS. Vanesa Berlanga Silvente y María José Rubio Hurtado
Universitat de Barcelona. Institut de Ciències de l’Educació
pág. 48

5. Conclusión de la prueba:
Finalmente se debe expresar el resultado de la prueba traduciendo el resultado obtenido a

las características del problema.
pág. 49
13. MODELO DE REGRESIÓN Y COEFICIENTE DE CORRRELACIÓN LINEAL
13.1. INTRODUCCIÓN
Dentro de la Inferencia Estadística, en muchas ocasiones, es necesario estimar la relación existente

entre dos o más variables dentro de una población, como también cuantificar la cohesión que
presenta la relación entre estas variables.
Se citan varios ejemplos de estos problemas:
 Determinar en forma cuantitativa la relación que existe entre el peso y la estatura de una
persona.
 La relación entre los gastos de publicidad y el incremento de ventas de algún producto.
 El nivel socio económico de un individuo y su preparación académica.
 El grado de relación que existe entre el precio de ciertos productos y la cantidad disponible
para su venta.
El análisis de regresión es la determinación de una ecuación matemática que expresa la

relación existente entre dos o más variables dentro de una población, a partir del análisis de
muestras extraídas de dicha población.
Por otra parte, la necesidad de disponer de una calificación del grado de relación entre las variables
involucradas en un problema de regresión conduce a determinar el coeficiente de correlación; es
decir:
El coeficiente de correlación es una medida del grado de cohesión existente entre las
variables involucradas en un problema de regresión como también una indicación del
sentido (directo o inverso) de la relación existente.
Entonces, si se dispone de la información necesaria, siempre se podrá encontrar una expresión

matemática que indique la relación existente entre dichas variables.
13.2. EL ANÁLISIS DE REGRESIÓN
La regresión, en términos de la Estadística, consiste en determinar una expresión matemática que

indique la relación existente entre dos o más variables, considerando que una de ellas es
dependiente de todas las demás; en otras palabras: la relación existente entre dos o más variables
donde todas ellas, excepto una, son independientes.
Si la relación se presenta entre dos variables solamente diremos que se trata de una relación
bivariable; cuando la relación se presenta entre tres o más variables, diremos que se trata de una
relación multivariable.
Independientemente del número de variables, el análisis de regresión se clasifica en:
 Regresión lineal.
 Regresión no lineal.
Esta clasificación se debe a la tendencia de comportamiento matemático que presentan las variables
cuando estas se asocian. Una forma de estimar esta tendencia consiste en observar la nube de
pág. 50
puntos que se obtiene al graficar estas variables en un sistema de coordenadas cartesianas,

ubicando en el eje horizontal los valores correspondientes a la variable independiente y en el eje
vertical los valores correspondientes a la variable dependiente. Obviamente esto será posible en el
caso de relaciones bivariables.
En el gráfico que se indica a continuación se puede observar como la asociación de variables

presenta una tendencia de comportamiento lineal, es decir: se puede trazar una recta cuya
distancia hasta los puntos de observación es mínima.
Tendencia lineal Tendencia no lineal

35
30
Variable dependiente
12
25
Variable dependiente
10
8 20
6 15
4
2 10
0 5
0 5 10
0
Variable independiente 0 2 4 6 8
Variable independiente
13.3. MODELO LINEAL BIVARIABLE
Cuando se tiene un modelo de dos variables, la ecuación de mejor ajuste tiene la forma:
Donde y son los coeficientes del modelo, estos coeficientes se denominan intercepto y
pendiente del modelo respectivamente; el signo del coeficiente permite determinar si la relación
entre las variables es creciente o decreciente.
Una vez que el modelo ha sido determinado se pueden realizar pronósticos sobre el
comportamiento de las variables.
13.4. MODELO LINEAL MULTIVARIABLE
Si el modelo está formado por más de dos variables, de las cuales una de ellas depende de todas las
demás, se lo conoce como modelo multivariable; la ecuación del modelo multivariable tiene la
siguiente estructura:
Donde , son los coeficientes del modelo, estos coeficientes se denomina intercepto y
coeficientes de las variables independientes del modelo; la determinación de los coeficientes que
pág. 51
intervienen en el modelo es una tarea extensa y laboriosa, por lo que el uso de sistemas
informáticos es lo más recomendado.
13.5. COEFICIENTE DE CORRELACIÓN
Una vez encontrada la ecuación de regresión que mejor ajuste a los datos de las variables que
intervienen en un modelo no determinístico, surge preguntas como:
 ¿Qué tan relacionadas se encuentran las variables?,

 ¿Cuál es el grado de relación que existe en las variables que intervienen en el modelo?
Estas preguntas pueden ser respondidas mediante una medida estadística de la relación entre las
variables, denominada correlación; se puede afirmar que:
La correlación es una medida estadística que determina el grado de relación existente entre las
variables involucradas en un modelo de regresión.
El objetivo de un estudio de correlación es determinar el grado de relación existente entre un grupo

de observaciones. El término correlación, literalmente hablando; significa relación mutua o
recíproca.
Características del coeficiente de correlación
 El valor de se encuentra en el intervalo que va entre - 1.00 y +1.00, es decir:
 Una relación positiva ( ) entre dos variables significa que los valores altos de una variable
forman pares con los valores altos de la otra, y que los valores bajos de la una variable forman
pares con los valores bajos de la otra.
 Una relación negativa ( ) significa que valores altos de una variable forman pares con
valores bajos de la otra.
 Una relación cero ( )significa que algunos valores altos forman pares con valores bajos y
otros, con valores altos.
13.6. EL COEFICIENTE DE DETERMINACIÓN
Una medida muy importante de la correlación se denomina Coeficiente de Determinación, el mismo

que se interpreta como el porcentaje de variación explicada que existe en el modelo.
Al coeficiente de determinación se lo puede interpretar como: La variación de una variable

que es estadísticamente “explicada” o considerada como tal, por la variación en la otra
variable.
El coeficiente de determinación r 2 es un valor entre:
pág. 52
13.7. VERIFICACIÓN DE LAS VARIABLES EN EL MODELO
Mediante prueba de hipótesis se puede determinar si verdaderamente las variables que constan en
la ecuación pertenecen al modelo, el proceso de prueba de hipótesis es el siguiente:
Análisis de Varianza para todas las variables:
Hipótesis nula:
2. Cálculo del estadístico .
Se tomará el valor de la tabla de distribución F en función del nivel de significación y los grados de
libertad del numerador y denominador.

Pruebas individuales para cada variable:
Hipótesis nula:
2. Estadístico de prueba:
3. Decisión
Si ( ), entonces se acepta la hipótesis nula.
pág. 53
14. MODELO NO LINEAL Y EXPONENCIAL
14.1. MODELO NO LINEAL
El modelo no lineal bivariable corresponde a la siguiente estructura matemática:
Es decir: una función polinómica de grado .
Por otro lado, el modelo no lineal también puede ser:
Modelo potencial:
Modelo exponencial:
Modelo logarítmico: ( )
Donde:
Variable dependiente.
Coeficiente del modelo, intercepto.
Coeficientes del modelo, donde .
Variable independiente.
Los coeficientes del modelo se los determina mediante el método de mínimos cuadrados; para
decidir cuál es el modelo más adecuado es conveniente analizar el gráfico de dispersión.
Determinar los coeficientes en forma manual es una tarea muy laboriosa por lo que será necesario el
uso de paquetes estadísticos.
El programa SPSS presenta la opción de encontrar varios modelos en forma simultánea lo que
permite escoger el modelo más adecuado, es decir el que mejor se ajusta a los datos.
14.2. MODELO EXPONENCIAL O DE POISSON.
Es un modelo que resulta especialmente adecuado para modelar valores enteros no negativos,
especialmente cuando la frecuencia de ocurrencia es baja.
En este modelo, las variables de conteo o recuento se definen como el número de sucesos o eventos
que ocurren en una misma unidad de observación en un intervalo espacial o temporal definido. Así,
por ejemplo, el número de artículos adquiridos por una tienda deportiva durante un año es un
conteo; en los conteos o recuentos el valor 0 es bastante habitual.
A partir de esta definición propuesta por Lindsey (1995b), se derivan dos características principales
de una variable de recuento, lo cual la diferencia de una variable cuantitativa continua, estas son su
naturaleza discreta y no negativa.
pág. 54
14.3. FORMULACIÓN DEL MODELO
Donde:
Variable dependiente.
Constante del modelo, intercepto.
Coeficientes del modelo, donde .
Variable independiente.
14.4. COEFICIENTES DEL MODELO
Los coeficientes del modelo deben determinarse mediante el uso de algún paquete informático para
cálculo estadístico, puede ser el SPSS u otro paquete.
14.5. MODELO DE REGRESIÓN LOGÍSTICA
Los modelos de regresión logística son modelos estadísticos en los que se desea conocer la relación
entre:
 Una variable dependiente cualitativa, dicotómica (regresión logística binaria o binomial) o con
más de dos valores (regresión logística multinomial).
 Una o más variables explicativas independientes, o covariables, ya sean cualitativas o

cuantitativas, siendo la ecuación inicial del modelo de tipo exponencial, si bien su
transformación logarítmica (logit) permite su uso como una función lineal.
La regresión logística es un instrumento estadístico de análisis bivariado o multivariado, de uso tanto

explicativo como predictivo. Resulta útil su empleo cuando se tiene una variable dependiente
dicotómica (un atributo cuya ausencia o presencia se ha puntuado con los valores cero y uno,
respectivamente) y un conjunto de m variables predictoras o independientes, que pueden ser
cuantitativas (que se denominan covariables o covariadas) o categóricas. En este último caso, se
requiere que sean transformadas en variables ficticias o simuladas (“dummy”). 2.
El propósito del análisis es:
Predecir la probabilidad de que a alguien le ocurra cierto evento: por ejemplo, “estar desempleado”
=1 o “no estarlo” = 0; “ser pobre” = 1 o “no ser pobre” = 0; “graduarse como sociólogo” =1 o “no
graduarse” = 0;
14.5.1. ECUACIÓN DEL MODELO LOGÍSTICO
La ecuación del modelo de regresión logística es:
( )
2
Regresión logística CEQC
pág. 55
Donde:
( ) Probabilidad de que suceda dado que ha sucedido.
Intercepto o constante del modelo

Coeficiente de la variable independiente o covariable.
La variable independiente puede ser nominal dicotómica o continua, si la variable independiente está
expresada en más de dos valores nominales, será necesario categorizarla en n-1 grupos.
El modelo regresión logística también puede presentar más de una variable independiente, es decir:
( )
Como se ve, las covariables pueden ser cuantitativas o cualitativas; las covariables cualitativas deben
ser dicotómicas, tomando valores 0 para su ausencia y 1 para su presencia (esta codificación es
importante, ya que cualquier otra codificación provocaría modificaciones en la interpretación del
modelo).
14.5.2. OBTENCIÓN DE LOS COEFICIENTES
Los coeficientes del modelo logístico se obtienen por métodos diferentes al de mínimos cuadrados;
su cálculo manual es excesivamente laborioso por lo que será necesaria la utilización de algún
paquete estadístico.
14.5.3. EVALUACIÓN DEL MODELO
La evaluación global del modelo se puede efectuar mediante los coeficientes de determinación de
Cox y Snell, y el de Nagelkerke, los valores de estos coeficientes de determinación se pueden ver en
la tabla de “Resumen del modelo” del SPSS.
Ambos coeficientes toman valores entre 0 y 1, y su interpretación es similar a la interpretación del

coeficiente de determinación del modelo de regresión lineal, es decir, cuanto más cercanos están a
1, mejor es el modelo.
14.5.4. ESTIMACIÓN DE PROBABILIDAD
Una vez que se ha obtenido los coeficientes del modelo es muy sencillo estimar la probabilidad
cuando los valores de las variables regresoras asuman diferentes valores; para hacer esto, es
suficiente con sustituir los valores en el modelo. Si la probabilidad de que el sujeto este encuadrado
en esa categoría es mayor que 0,5 se le asigna, si es menor se le asigna a la otra categoría.
pág. 56
MANUAL DE
USUARIO
SEGUNDA SECCIÓN
ESTADÍSTICA CON SPSS MANUAL DE USUARIO SPSS
MANUAL DE USUARIO DEL PROGRAMA SPSS

1. EL PROGRAMA SPSS ............................................................................................................ 59
1.1. INTRODUCCIÓN ..................................................................................................................... 59
1.2. INGRESO AL SPSS ................................................................................................................... 59
1.3. DESCRIPCIÓN DEL ESCRITORIO DEL SPSS .............................................................................. 60
1.4. CONFIGURACIÓN DEL SPSS ................................................................................................... 65
1.5. VISTAS DEL SPSS .................................................................................................................... 66
1.6. VARIABLES EN SPSS. ............................................................................................................. 67
1.7. ETIQUETAS EN LAS VARIABLES .............................................................................................. 69
1.8. CUADROS DE DIÁLOGO ......................................................................................................... 69
1.9. CREACIÓN DE VARIABLES ...................................................................................................... 69
1.10. RECODIFICACIÓN DE DATOS.................................................................................................. 70
1.11. ETIQUETAS DE VALOR ........................................................................................................... 73
1.12. GRABAR ARCHIVOS EN SPSS .................................................................................................. 73
2. ORGANIZACIÓN DE DATOS .................................................................................................. 74
2.1. TABLAS DE FRECUENCIA SIMPLE ........................................................................................... 74
2.2. TABLAS DE CONTINGENCIA ................................................................................................... 75
2.3. TABLAS DE DISTRIBUCIÓN DE FRECUENCIA POR INTERVALOS ............................................. 77
2.4. PONDERACIÓN DE DATOS ..................................................................................................... 79
2.5. TABLAS PERSONALIZADAS ..................................................................................................... 80
3. ESTADÍSTICA DESCRIPTIVA. ................................................................................................. 82
3.1. PROCESO FRECUENCIAS ........................................................................................................ 82
3.2. PROCESO “DESCRIPTIVOS” .................................................................................................... 83
3.3. PROCESO “MEDIAS” .............................................................................................................. 84
4.1. PROCESO “EXPLORAR” .......................................................................................................... 85
4. GRAFICOS ESTADÍSTICOS ..................................................................................................... 90
5. PROBABILIDAD Y DISTRIBUCIONES DE PROBABILIDAD. ........................................................ 91
5.1. TABLAS DE CONTINGENCIA ................................................................................................... 91
5.2. DISTRIBUCIÓN BINOMIAL ...................................................................................................... 92
5.3. DISTRIBUCIÓN NORMAL ........................................................................................................ 93
6. MUESTREO ESTADÍSTICO ..................................................................................................... 94
6.1. MUESTREO ALEATORIO ......................................................................................................... 94
6.2. MUESTREO SELECCIONADO .................................................................................................. 95
6.3. MUESTREO ESTRATIFICADO .................................................................................................. 96
6.4. ELABORACIÓN DEL PLAN DE MUESTREO .............................................................................. 96
6.5. MUESTREO SISTEMÁTICO...................................................................................................... 98
pág. 57
7. ESTIMACIÓN DE LA MEDIA POBLACIONAL. .........................................................................101

7.1. PROCESO EXPLORAR............................................................................................................ 101
7.2. PROCESO PRUEBA T PARA UNA MUESTRA ......................................................................... 102
8. PRUEBA DE HIPÓTESIS SOBRE LA MEDIA POBLACIONAL ......................................................103
9. INFERENCIA ESTADÍSTICA EN DOS POBLACIONES ................................................................104
9.1. INFERENCIA EN DOS POBLACIONES INDEPENDIENTES ....................................................... 104
9.2. INFERENCIA EN MUESTRAS RELACIONADAS ....................................................................... 105
10. PRUEBA DE LA MEDIA POBLACIONAL EN VARIAS POBLACIONES ..........................................107
11. PRUEBA CHI CUADRADO ....................................................................................................108
12. MODELO DE REGRESIÓN. ...................................................................................................110
12.1. OBTENCIÓN DEL DIAGRAMA DE DISPERSIÓN ..................................................................... 110
12.2. PROCESO REGRESIÓN LINEAL .............................................................................................. 112
12.3. PROCESO ESTIMACIÓN CURVILÍNEA ................................................................................... 114
12.4. PROCESO REGRESIÓN LOGÍSTICA ........................................................................................ 115
12.5. PROCESO CORRELACIÓN ..................................................................................................... 117
pág. 58
1. EL PROGRAMA SPSS
1.1. INTRODUCCIÓN
El SPSS que corresponde a Stadistical Package for the Social Science, es el programa de software de
cálculo estadístico de mayor difusión en el mundo informático, los derechos de autor de este
programa corresponden a la Firma IBM.
El programa SPSS es muy amigable con el usuario, gracias a su diseño e implementación bajo la
plataforma Windows, su aprendizaje es rápido y sencillo; es similar al manejo de las Hojas de Cálculo,
y se pueden migrar archivos de datos desde la Hoja electrónica hasta el programa.
De hecho se puede hacer cálculo estadístico en la Hoja Excel, pues en la Hoja de cálculo se puede
obtener gráficos estadísticos, parámetros y medidas estadísticas mediante funciones electrónicas y la
herramienta Análisis de Datos, se puede también determinar estadísticos en bases de datos
mediante las funciones BD como también con la herramienta de tablas dinámicas; sin dejar de lado la
herramienta gráfica para el modelo de regresión.
Si bien la hoja de cálculo Excel puede hacer todo el trabajo estadístico mencionado en el párrafo
anterior, en situaciones complejas, por ejemplo en la estadística multivariable, el trabajo se torna
laborioso.
1.2. INGRESO AL SPSS
Al activarse el programa se despliega la siguiente pantalla:
Esta es la nueva presentación del programa SPSS en su versión 24; la misma que difiere con versiones
anteriores, sin embargo se puede trabajar con versiones anteriores.
pág. 59
Para empezar con un trabajo nuevo el usuario deberá activar la opción Nuevo conjunto de datos, al
dar un clic sobre este botón se desplegará la ventana que se indica:
Seguramente el usuario notará la similitud de esta pantalla con la de la Hoja electrónica de cálculo
Excel; por otro lado, el programa SPSS se encuentra desarrollado bajo el entorno WINDOWS,
entonces dispondrá de barras, menús desplegables, tarjetas y cuadros de diálogo y demás elementos
de esta plataforma informática.
1.3. DESCRIPCIÓN DEL ESCRITORIO DEL SPSS
Barra de identificación
En la parte superior se encuentra la barra de identificación del programa y del archivo en ejecución:
 En el extremo izquierdo de la barra se encuentra el ícono del programa.
 Junto con el ícono del programa se encuentra la leyenda que contiene el nombre del archivo,
por defecto y hasta que se registre el nombre del archivo aparecerá “Sin título 1”;
 En el extremo derecho de esta barra aparecerán finalmente los botones que permiten la
manipulación de la ventana, es decir: Minimizar, Restaurar y Salir del programa.
En cuanto a los botones del extremo derecho: el primero de estos botones (Minimizar) reduce la
pantalla del escritorio hasta su mínima expresión y, en forma de ícono, lo ubica en la barra de tareas;
el segundo botón, denominado Restaurar, permite modificar el tamaño y la posición de la pantalla
en cualquier punto de escritorio.
Para modificar el tamaño se debe colocar el cursor en los bordes verticales u horizontales de la
ventana y con el movimiento del cursor del mouse se puede variar el tamaño de la misma, tanto en
sentido vertical como horizontal; también podrá modificarse el tamaño en los dos sentidos en forma
simultánea al ubicar el puntero del mouse en las esquinas de la pantalla, observe como el cursor
cambia de forma.
pág. 60
Estos botones que permiten modificar la posición y el tamaño de la ventana resultan ser de gran
utilidad para disponer en el escritorio de más de un programa activo, permitiendo sobre todo el
control visual de la información que puede provenir de otros programas.
Menú Principal
En la segunda barra se encuentran las opciones del Menú Principal, estas son: Archivo, Edición, Ver,
Datos, Transformar, Analizar, Marketing directo, Gráficos, Unidades, Ventana y Ayuda.
A continuación se presenta una descripción ligera de estas opciones del Menú principal:
 Archivo: Es esta opción se encuentran agrupadas las operaciones que trabajan con los archivos:
Abrir, Guardar, Guardar como, Imprimir etc. Además, se encuentran opciones de conexión con
base de datos y repositorios digitales ubicados en la web.
 Edición: En esta opción el usuario encuentra las operaciones de Cortar, Copiar, Pegar, Buscar
Reemplazar etc.; además, como opciones particulares de este programa, se encuentran las
opciones para insertar variables e insertar casos.
 Ver: En esta opción se encuentran los comandos que permiten personalizar la hoja de trabajo del
programa mediante la personalización de barras, la selección del tipo de fuente, la
activación/desactivación de la cuadrícula, la presentación de la lista de variables etc.
 Datos: En esta opción el usuario podrá encontrar los comandos que permiten manipular la
información, tales como: ordenar casos y variables, transponer tablas, fundir archivos,
seleccionar casos, etc.
 Transformar: Aquí se encuentran comandos y herramientas que permiten crear nuevas

variables: sea mediante alguna opción de cálculo, por selección o recodificación; en esta opción
se destaca la herramienta: Calcular variables que dispone de una calculadora que genera nuevas
variables, sea por cálculo directo entre las variables existentes o mediante funciones de cálculo
estadístico y de probabilidad.
 Analizar: Es la opción de mayor uso en el programa SPSS, aquí se encuentran las herramientas
para el análisis estadístico tanto para Estadística Descriptiva como Estadística Inferencial;
dispone además de herramientas para el Análisis de regresión y de Series de tiempo.
 Gráficos: Con la información almacenada en el programa, el SPSS genera gráficos estáticos,

como resultado de procesos estadísticos, tal como el modelo de regresión, genera gráficos
iterativos o dinámicos.
Cada una de estas opciones del Menú principal presentan a su vez varias opciones que se encuentran
registradas en su respectiva tarjeta de menú , las mismas que despliegan una vez que se haya
activado la Opción principal.
Barra de íconos
La tercera barra del programa presenta los íconos universales de la plataforma Windows (Abrir,
Almacenar, Imprimir, etc.) junto con otros iconos que representan las herramientas propias del
programa; al acercar el puntero del mouse a cualquiera de los íconos el sistema mostrará un
pequeño rótulo de identificación/descripción del mismo.
pág. 61
Barra de registro de la información
La cuarta barra del programa funciona de la misma manera que la barra de fórmulas de la Hoja de
cálculo Excel, en esta barra se registra en forma dinámica la información almacenada en cada una de
las celdas que conforman la matriz rectangular; está dividida en dos regiones, en la región izquierda
aparecen las coordenadas de ubicación de la celda activa y en la derecha aparece la información
registrada y almacenada en dicha celda.
El usuario podrá personalizar estas barras, es decir: podrá agregar nuevas herramientas o desactivar
las que no sean de utilidad frecuente.
Matriz de Datos
El área denominada Matriz de datos es el sector donde se almacena la información, en esta Hoja se
registran los datos para el análisis estadístico; esta hoja de cálculo es similar a la del programa Excel,
aquí las filas toman el nombre de Casos y las columnas toman el nombre de Variables.
Una celda queda perfectamente identificada por su columna (Variable) y por su fila (Caso); por
defecto, las columnas o variables se identifican con Var, mientras que las filas o casos se identifican
con la secuencia numérica de los números naturales: 1, 2, 3, etc.
Como es de suponer, los datos o casos de una misma variable se almacenarán en una sola columna;
el programa recepta datos de tipo numérico de texto o cadena, de fecha, de moneda, etc.
No está permitido ingresar en una misma variable diversos tipos de datos; por ejemplo no podrá
ingresar información numérica en un caso e información de texto en otro caso; el programa no
registrará el segundo caso.
Los datos ingresan al programa de las siguientes formas:
pág. 62
1. Vía directa por medio del teclado.
 El usuario ingresa cada uno de los datos por medio del teclado; deberá también ingresar las
características de la variable; se recomienda utilizar el teclado numérico.
 Tome en cuenta además las flechas direccionales para movilizarse a través de esta ventana; hacia
arriba, abajo, izquierda o derecha; una vez que ha ingresado la información en una celda,
proceda a presionar la tecla Enter.
 Por defecto, si el usuario no ha indicado las características de las variables, el programa asumirá
que se trata de una variable numérica con dos decimales.
 Cuando se ingresan números, al igual que en el Excel, el valor ingresado quedará alineado al
margen derecho de la celda.
 Cuando se ingresan textos, al igual que en el Excel, el valor ingresado quedará alineado al margen
izquierdo de la celda.
 Al ingresar textos si aún no se ha indicado las características de la variable, el programa asume

que se trata de variable de cadena.
 La situación cambia el momento en que se ingresa datos en formato fecha; si aún no se han
indicado las características de la variable, el programa asumirá como variable de cadena.
 Cuando se trata del formato punto o coma, para separar decimales y millares, el usuario deberá
previamente definir las características de las variables.
 Las herramientas copiar y pegar funcionan de la misma forma que en todos los programas,
deberá primero definir las celdas que quiere copiar, activar la herramienta Copiar y luego ubicar
el lugar donde se va a colocar los valores a copiar; en ese lugar deberá activar la herramienta
Pegar. Recuerde que copiar y pegar se encuentran listos al dar clic en el botón derecho del
mouse.
 Para ubicar al cursor en una celda en particular el usuario

deberá desarrollar el proceso: Editar/Ir al caso; entonces
el programa devolverá un cuadro de diálogo en el cual el
usuario deberá ingresar el número del caso (fila) o la el
número de la variable (columna); podrá escribir la
información o en su defecto podrá utilizar las flechas
direccionales que permiten llegar al caso (filas) deseado; y
al tratarse de las variables (columnas) aparecerá una lista
que contiene las variables almacenadas en la base de
datos; finalmente cuando el usuario ha ingresado esta
información el sistema ubicará al cursor en el caso y
variable indicados.
2. Tomando un archivo de SPSS existente
Para abrir un archivo previamente almacenado en el disco o en una unidad exterior, el usuario
deberá proceder de la siguiente manera:
pág. 63
Si se encuentra dentro del programa SPSS deberá desarrollar el proceso Archivo/Abrir/Datos, con
lo cual se desplegará la siguiente ventana:
Una vez que se ha ubicado el archivo deseado, será suficiente dar un sobre el botón Abrir, con lo
cual el archivo seleccionado se desplegará en el escritorio del SPSS.
Como alternativa el usuario podrá navegar hacia el sitio donde se encuentra el archivo y
proceder a dar doble clic sobre el mismo.
3. Importando los datos de un archivo externo.
El SPSS permite trabajar con archivos importados de otros programas, siempre y cuando los
datos se encuentren almacenados en formato de tablas, entonces podrá importar archivos de
Excel, de gestores de bases de datos como el Access, o inclusive de un Block de notas.
Para importar archivos en otro formato el usuario deberá partir del interior del programa y
desarrollar el proceso para recuperar un archivo, es decir: Archivo/Abrir/Datos, con lo cual se
desplegará la ventana que se indica en esta página; entonces ahora el usuario deberá navegar
hasta el lugar donde se encuentre el archivo de Excel o de formato tabla; debe tomar en cuenta
que previamente deberá seleccionar el tipo de archivo, para lo cual es necesario abrir la flecha de
despliegue colocada en el lado derecho del campo Archivos de tipo.
Una vez que ha ubicado al archivo de Excel de donde desea importar la información al dar clic en
aceptar se desplegará la siguiente ventana:
pág. 64
A continuación deberá seleccionar la Hoja de trabajo del libro de Excel donde se encuentran los
datos que desea importar al SPSS, finalmente, la dar clic sobre el botón Aceptar se desplegará
sobre el escritorio del SPSS los datos requeridos para el análisis.
1.4. CONFIGURACIÓN DEL SPSS
Para configurar las diferentes características del programa SPSS es necesario desarrollar el proceso:
Editar/Opciones, con lo cual se desplegará en el escritorio la siguiente ventana:
A continuación se indica algunas características para la configuración del programa:
pág. 65
 En la pestaña General el usuario podrá entre otras cosas indicar por ejemplo la forma de salida
de las variables en los cuadros de diálogo, el uso de notación científica para valores numéricos
pequeños, la unidad de medida, etc.
 Una configuración muy importante es el idioma, para esto el usuario deberá activar la pestaña
Idioma y proceder a seleccionar el idioma, tanto para la salida como también para la interfaz del
usuario.
 En la pestaña Visor el usuario podrá modificar las características que tiene la hoja de resultados
en cuanto se refiere a su aparición, tipo y tamaño de fuente, etc.
 En la pestaña Datos se encuentran las opciones para las operaciones de cálculo, el ancho de
columna y el número de decimales, la forma en que se presenta el formato años, etc. Aquí
también se puede configurar la Vista de variables.
 En la pestaña Moneda se podrá configurar las características personalizadas para la variable

Moneda sobre todo lo que tiene que ver con al símbolo y su ubicación en el valor.
1.5. VISTAS DEL SPSS
El programa SPSS presenta varias vistas de trabajo, las mismas que se irán desplegando conforme se
desarrolle el mismo; inicialmente el SPSS presenta dos vistas:
 Vista de datos,
 Vista de variables.
Más adelante, el usuario podrá verificar la presencia de las siguientes ventanas:
 Vista de resultados.
 Editor de tablas.
 Editor de gráficos.
El usuario puede acceder a estas Vistas al dar un clic sobre los botones correspondientes que se
encuentran en la barra inferior de escritorio del programa; al activar estos botones el usuario podrá
verificar las semejanzas y diferencias de estas ventanas:
Vista de datos
En esta hoja se almacenan los datos para el análisis estadístico, las filas de la Hoja se denominan
CASOS y las columnas se denominan VARIABLES; en esta Vista las casos (filas) disponen de una
numeración natural, mientras que las columnas tiene en nombre VAR; una vez que se ingrese el
nombre de las variables, este quedará registrado en el inicio de cada columna.
pág. 66
1.6. VARIABLES EN SPSS.
Al dar un clic sobre el botón de Vistas de variables se desplegará una Hoja similar a la anterior, en
esta hoja deberán ingresarse el nombre y demás características de las variable estadísticas que van a
intervenir en el análisis.
El programa SPSS realiza el análisis estadístico con diferentes tipos de variables:
Variable tipo Numérico.- Representada por números, tienen preestablecido un ancho de campo de 8
caracteres y dos decimales; el usuario podrá establecer un ancho de campo y un número de
decimales diferente.
Cuando ingresa un dato al que se ha asignado el tipo Numérico, se presenta las siguientes
características:
 El valor se registra en el extremo derecho.

 Separa a los decimales de los enteros con una coma o con un punto dependiendo de la
configuración de la máquina.
 Si el número es decimal, menor de 1, por ejemplo: 0,30, el programa registra ,30.
 Si el número tiene más de 3 cifras enteras, por ejemplo 1245 el programa ingresa 1245,00.
Variable tipo Punto.- Representada por números, tienen preestablecido un ancho de campo de 8
Cuando ingresa un dato al que se ha asignado el tipo Punto se presenta las siguientes características:

 Separa a los decimales de los enteros con una coma o con un punto dependiendo de la
configuración de la máquina.
 Si el número es decimal, menor de 1, por ejemplo: 0,30, el programa registra ,30.
 Si el número tiene más de 3 cifras enteras, por ejemplo: 1245 el programa ingresa 1.245,00.
pág. 67
Variable tipo Coma.- Representada por números, tienen preestablecido un ancho de campo de 8
Cuando ingresa un dato al que se ha asignado el tipo Coma se presenta las siguientes características:

 Separa a los decimales de los enteros con un punto.
 Si el número es decimal, menor de 1, por ejemplo: 0.30, el programa registra .30.
 Si el número tiene más de 3 cifras enteras, por ejemplo, 1245 el programa ingresa 1,245.00.
Variable tipo Notación Científica.- Representada por números, tienen preestablecido un ancho de
campo de 8 caracteres y dos decimales; el usuario podrá establecer un ancho de campo y un número
de decimales diferente.
Cuando ingresa un dato al que se ha asignado el tipo Notación científica, el programa convierte al
número al formato 0,00E±001.
Variable tipo Fecha.- Representada por números, tienen preestablecido un ancho de campo de 9
caracteres sin decimales; cuando ingresa un dato al que se ha asignado el tipo Fecha, el programa
devuelve la fecha en formato previamente establecido; se puede cambiar el formato al dar un clic en
la celda Fecha de la columna Tipo en la hoja de variables.
Variable tipo Dólar.- Representada por números, tienen preestablecido un ancho de campo de 8
caracteres sin decimales; cuando ingresa un dato al que se ha asignado el tipo Dólar, el programa
devuelve el número con el prefijo $.
Variable tipo Moneda personalizada.- Representada por números, tienen preestablecido un ancho
de campo de 8 caracteres sin decimales; cuando ingresa un dato al que se ha asignado el tipo
Moneda personalizada, el programa devuelve el número con el prefijo o sufijo previamente
establecido (ejemplo: ptas., USD, euros, etc.) para esto el usuario deberá previamente personalizar el
formato moneda, mediante el proceso: Editar/Opciones/Moneda.
Variable tipo Cadena.- Representada por letras, números o una combinación de letras y números; se
las conoce también como variables alfanuméricas y presentan las siguientes características:
 El valor se registra en el extremo izquierdo.

 No se puede hacer ningún cálculo estadístico, aparte de contarlos.
 Debe definirse previamente el ancho del campo, capaz que permita alojar a todos los caracteres.
 Se establece una diferencia de registros entre mayúsculas y minúsculas.
Variable tipo Número restringido.- Representada por números cuyos valores están restringidos para
enteros no negativos. Los valores aparecen con los ceros iniciales llenando el ancho máximo de la
variable.
pág. 68
1.7. ETIQUETAS EN LAS VARIABLES
En la vista de Variables existe una columna en la cual el usuario podrá escribir un texto breve que
describa a la variable, esta información será de utilidad para la generación de tablas y gráficos en los
cuales se utilizará la información registrada en la etiqueta en lugar de la variable.
1.8. CUADROS DE DIÁLOGO
El programa SPSS presenta los cuadros de diálogo que permiten al usuario escoger las variables que
intervienen en el análisis estadístico; los cuadros de diálogo presentan a todas la variables que
conforman la base de datos, en esa lista se puede apreciar el nombre de las variables precedidas por
un ícono que identifica a la variable como variable de cadena, nominal y de medición; tal como se
indica en la siguiente ventana:
El usuario deberá trasladar las variables involucradas en el análisis al recuadro de la derecha,

utilizando la flecha direccional; podrá trasladar más de una variable, como también regresarlas a su
sitio en el caso requerido.
1.9. CREACIÓN DE VARIABLES
El programa SPSS dispone de una herramienta que permite crear nuevas variables a partir de las
variables existentes; estas variables se pueden crear utilizando una calculadora virtual que se
encuentra dentro del programa.
El proceso para acceder a la calculadora virtual es: Transformar/Calcular variable; entonces, realizado
el mismo, aparecerá la siguiente ventana:
pág. 69
Para crear una nueva variable el usuario deberá desarrollar el siguiente procedimiento:
a. Ingresar un nombre en el recuadro variable destino; entonces inmediatamente se activará el

botón Tipo y etiqueta, allí el usuario podrá seleccionar el tipo de la nueva variable como también
la etiqueta asignada a la misma.
b. Ingresar la expresión numérica con la cual se determinarán los valores de la variable creada,
para esto el usuario deberá auxiliarse de las variables que se encuentran en el recuadro de la
izquierda, como también de los botones de la calculadora virtual ubicada en el centro de la
ventana desplegada.
c. En la calculadora virtual aparece, en el recuadro derecho, una lista de funciones, similar a las
funciones de la hoja electrónica Excel; el usuario podrá utilizar estas funciones utilizando como
argumentos de las mismas valores numéricos o valores las variables almacenadas en la base de
datos.
1.10. RECODIFICACIÓN DE DATOS
En SPSS se conoce como recodificar al proceso de asignación de un valor numérico al valor de una
variables de carácter cualitativo que previamente ha sido almacenada en el programa; por ejemplo
asignar 1 al valor masculino y 2 al valor femenino en el caso de la variable sexo; o también asignar un
código al valor de la variable si este se encuentra dentro de un intervalo previamente establecido.
pág. 70
El programa SPSS presenta dos modalidades de recodificación:
 Recodificar en la misma variable.

 Recodificar en distinta variable.
Ambas opciones se encuentran dentro de la opción Transformar en el Menú principal.
La diferencia entre estados modalidades radica en que en la opción Recodificar en las mismas
variables el programa cambia los valores originales por los códigos establecidos, perdiéndose así la
variable original, mientras que la opción Recodificar en distintas variables el programa crea una
nueva variable en la cual registra los códigos establecidos; de esta manera los valores originales se
mantienen en su contenido y ubicación.
Al tomar la modalidad Recodificar en las mismas variables se presentan las siguientes ventanas:
Ingrese la variable a recodificar y luego debe activar el botón Valor antiguos y nuevos y se desplegará
la siguiente ventana:
pág. 71
En esta ventana deberá registrarse el valor antiguo y el valor nuevo, los cambios pueden hacerse
para valores puntuales o dentro de un rango o intervalo; siempre y cuando la variable en análisis sea
cuantitativa.
Una vez registrados los códigos el usuario deberá dar clic en el botón continuar, y regresar a la
ventana anterior donde finalmente deberá dar un clic en el botón Aceptar.
Al tomar Recodificar en distintas variables se despliegan las siguientes ventanas:
A diferencia del proceso anterior, ahora aparece un campo adicional en el cual se podrá el nombre
de la variable resultado, su etiqueta y el botón para cambiar la variable original por la variable
codificada; finalmente se debe dar un clic en el botón Valores antiguos y nuevos para trasladar el
sistema a la siguiente ventana:
En esta ventana el usuario deberá ingresar el valor y su código, este recodificación puede ser
puntual, por rango o en intervalo; siempre y cuando sea variable cuantitativa; al finalizar deberá dar
un clic en Continuar para regresar a la ventana anterior en la cual deberá dar un clic en el botón
Aceptar.
pág. 72
1.11. ETIQUETAS DE VALOR
A los valores asignados como códigos se les debe ahora asignar su etiqueta de identificación, para
esto el usuario deberá, partiendo de la Vista de variables, activar la columna Valores con lo cual se
desplegará la siguiente ventana:
Aquí el usuario deberá ingresar el valor asignado como código y su etiqueta correspondiente, luego
dar clic en el botón Añadir, con lo cual la etiqueta quedará almacenada en el sistema, al finalizar
deberá dar clic en el botón Aceptar.
1.12. GRABAR ARCHIVOS EN SPSS
Para almacenar en forma permanente, el usuario deberá dar un clic en el ícono de almacenamiento;
si es primera vez entonces se desplegará la ventana característica de Guardar como; en la cual el
usuario deberá ingresar el nombre del archivo y el lugar donde va a almacenarlo.
El programa SPSS genera dos tipos de archivos:
 Archivos.sav: Son los que almacenan los datos que han sido utilizados en el proceso estadístico.
 Archivos.spv. Son los archivos que almacenan los resultados del proceso estadístico que realiza
el SPSS, es decir almacenan la información de la ventana Resultados.
Los archivos indicados son independientes y se los puede almacenar en forma individual con el
nombre y lugar asignado por el usuario.
Estaos archivos podrán ser utilizados posteriormente cuando el usuario los necesita, para esto será
suficiente acceder a los mismos y dar doble clic sobre el nombre; inmediatamente el sistema abrirá el
programa SPSS y mostrará en el escritorio la hojas de datos o la hoja de variables.
pág. 73
2. ORGANIZACIÓN DE DATOS
Una vez que los datos han sido recolectados, es necesario organizarlos, la herramienta más eficaz
para ordenar los datos son las tablas de frecuencia; el programa SPSS organiza los datos de varias
maneras:
2.1. TABLAS DE FRECUENCIA SIMPLE
El programa SPSS puede organizar los datos en una tabla de frecuencia simple, para lo cual el usuario
deberá realizar el proceso: Analizar/Estadísticos descriptivos/Frecuencias, entonces el programa
activará el siguiente cuadro de diálogo:
En el recuadro de la izquierda el usuario podrá observar el grupo de variables, cualitativas y

cuantitativas, que conforman la base de datos, cada una de estas variables dispone de un ícono de
identificación del tipo de variable; tal como se había indicado, las variables que intervienen en el
proceso estadístico actual deben ser trasladadas virtualmente al campo denominado Variables;
también podrá observar que la casilla Mostrar tablas de frecuencias, por defecto, se encuentra
activa.
Siempre se podrá acompañar a la tabla de frecuencias

de un gráfico estadístico, para lo cual el usuario
deberá dar un clic sobre el botón Gráficos, después de
esto el programa desplegará la ventana adjunta.
En este cuadro de diálogo el usuario deberá indicar el

tipo de gráfico que desea obtener, por defecto está
activa la opción ninguno; los tipos de gráficos que
dispone el usuario son: Gráficos de barras, Gráficos
circulares e Histogramas.
En forma particular, al activar el botón Histograma se

activará la casilla Mostrar curva normal en el
Histograma.
pág. 74
A continuación se expone el resultado del proceso estadístico que el programa realiza al tomar la
Variable Gerencia:
Gerencia que administra el contrato

Frecuencia Porcentaje válido acumulado
Válido Gerencia Comercial 5 5,56 5,56 5,56
Gerencia de Operaciones 19 21,11 21,11 26,67
Gerencia Técnica de Infraestructura 66 73,33 73,33 100,00
Total 90 100,00 100,00
La tabla resultado presenta 5 columnas, en las cuales se establece los diferentes valores que toma la
variable Gerencia, la Frecuencia absoluta (Frecuencia), la Frecuencia relativa (Porcentaje) y la
Frecuencia relativa acumulada (Porcentaje acumulado); en cuanto a la columna Porcentaje válido es
un control interno que realiza el programa SPSS para verificar que toda la información ha sido
procesada y que no existen valores ocultos ni valores perdidos.
El gráfico obtenido puede ser editado y personalizado por el usuario, para lo cual deberá, en la
ventana de resultados, dar doble clic sobre el mismo; inmediatamente se desplegará la ventana del
menú de opciones de edición de gráficos; podrá agregar, cambiar títulos, rótulos, leyendas, colores,
proyecciones en tres dimensiones, sombras, etc.
2.2. TABLAS DE CONTINGENCIA
Conocidas también como tablas de doble entrada o tablas bivariables, permite la organización de la
información de varias variables, generalmente dos, sin embargo se puede introducir más variables
que actúan como capas superpuestas.
pág. 75
Para obtener una tabla de contingencia, el usuario deberá desarrollar el proceso:

Analizar/Estadísticos descriptivos/Tablas cruzadas, entonces el programa desplegará la siguiente
ventana:
En esta ventana el usuario podrá observar, en el recuadro izquierdo, la lista de variables (cualitativas
y cuantitativas) que conforman la base de datos; deberá tomar la variable que se ubicará en las filas
de la tabla como también la variable que se ubicará en las columnas.
Puede ocurrir que se tomen variables para el campo filas como también variables para el campo
columnas; entonces el programa entregará tablas bivariables resultado.
Se pueden añadir variables a la tabla, las mismas que se ubicarán como capas superpuestas, estas
variables deberán ubicarse en el campo correspondiente (capa 1 de 1).
El programa incluye también el gráfico de barras adjuntas, para esto el usuario deberá activar la
casilla correspondiente; de la misma forma, el usuario podrá suspender la salida de las tablas y
permitir solamente la salida de gráficos y estadísticos.
A continuación se incluye un ejemplo de la tabla de contingencia que resulta al cruzar las Variables
Proceso contractual con Tipo de obra:
Tabla cruzada Tipo de obra*Proceso de contratación pública

Proceso de contratación pública
Menor Total
Cotización Emergencia Licitación
cuantía
Alcantarillado en ciudad 14 3 12 5 34
Alcantarillado en parroquias 9 2 3 6 20
Tipo de
Agua potable en ciudad 2 2 1 2 7
obra
Agua potable en parroquias 9 3 1 9 22
Obras civiles 5 2 0 0 7
Total 39 12 17 22 90
pág. 76
Para editar una tabla cruzada, sobre todo para pivotar

filas y columnas, el usuario deberá activar la ventana de
edición de tablas; para esto es suficiente dar un doble clic
sobre la tabla y de manera inmediata se activará el menú
de edición.
Para intercambiar la posición de filas y columnas se la

puede hacer fácilmente si se activa la opción Pivotar, o
dentro de esta opción tomar Bandeja dinámica, tal como
se indica en la ventana adjunta.
2.3. TABLAS DE DISTRIBUCIÓN DE FRECUENCIA POR INTERVALOS
El programa SPSS permite que el usuario pueda organizar los datos en una tabla de frecuencia
dividida en varios intervalos o categorías; estos intervalos podrán ser personalizados de acuerdo con
el criterio del usuario.
El proceso a desarrollar es el siguiente: Transformar/Agrupación visual; al activar este proceso se

En esta ventana el usuario podrá observar que las variables que aparecen en el recuadro de la
izquierda son variables cuantitativas; entonces se puede concluir que se podrá organizar datos en
intervalos solamente en este tipo de variables; el proceso continúa el momento en que el usuario
seleccione la variable que desea agrupar.
pág. 77
En esta ventana el usuario podrá observar en primer lugar, en el recuadro izquierdo la lista de
variables seleccionadas, como también algunas características particulares de la variable
seleccionada; existe también un histograma que representa a los datos seleccionados.
La creación de los intervalos o clases se la puede hacer de dos maneras:
Ingresando los valores en las casillas del campo Cuadrícula; conforme ingresan los valores que limitan
al intervalo el programa creará un renglón adicional; la palabra SUPERIOR indica que el valor del
intervalo será hasta el valor superior de los datos.
A manera de ejemplo: a la variable Monto contractual se la divide en los siguientes intervalos:
300.000; 600.000; 1’000.000; más de 1’000.000; entonces deberá ingresar la siguiente información:
pág. 78
Nótese que:
a. En primer lugar se ha asignado el nombre MONTO1 a la variable agrupada, el programa agrega

como etiqueta la descripción Valor del monto contractual (agrupado);
b. En las casillas del campo Valor del recuadro cuadrícula se han ingresado los valores 300000;
600000; 1’000.000; en el último valor se ha dejado la palabra SUPERIOR.
c. Al dar un clic sobre el botón Crear etiquetas, el programa agregará las etiquetas correspondiente
para cada uno de los valores ingresados como límites del intervalo.
d. El usuario tiene además la opción de incluir o no al valor del límite superior del intervalo; por
defecto el programa incluye el límite superior (ver botón Incluidos<= activo).
Al dar un clic sobre el botón Aceptar, en la hoja de resultados aparecerá la indicación que la variable
Agrupada MONTO1, ha sido creada, entonces, en la última columna de la hoja de datos aparecerá
esta variable.
Una vez creada esta nueva variable se podrá realizar el proceso para obtener la tabla de frecuencias
agrupada en intervalos:
Monto contractual (Agrupada)

válido acumulado
<= $300,000.00 52 57,78 57,78 57,78
$300,001.00 - $600,000.00 25 27,78 27,78 85,56
Válido $600,001.00 - $1,000,000.00 7 7,78 7,78 93,33
$1,000,001.00+ 6 6,67 6,67 100,00
Total 90 100,00 100,00
Puede también crearse una distribución de frecuencia con varios puntos de corte, tal como se indica
a continuación:
Monto contractual (Agrupada)

válido acumulado
<= $10,499.00 1 1,11 1,11 1,11
$10,500.00 - $510,499.00 71 78,89 78,89 80,00
$510,500.00 - $1,010,499.00 13 14,44 14,44 94,44
Válido
$1,010,500.00 - $1,510,499.00 3 3,33 3,33 97,78
$1,510,500.00+ 2 2,22 2,22 100,00
Total 90 100,00 100,00
2.4. PONDERACIÓN DE DATOS
pág. 79
Cuando los datos han sido agrupados previamente en una distribución de frecuencia por intervalos,
es necesario ponderar los casos, dado que el SPSS considerará a cada intervalo como un solo caso; al
ponderar los casos, se da a cada intervalo o clase su peso propio que viene a ser la frecuencia de
cada intervalo.
Para ponderar los intervalos se debe realizar el siguiente procedimiento: Datos/ponderar casos; con
lo cual se desplegará la siguiente ventana:
En este cuadro de diálogo el usuario deberá previamente activar el botón Ponderar casos mediante,
y luego tomar la variable que va a ser ponderada; para el ejemplo de tablas de distribución de
frecuencia agrupadas en intervalos o categorías la variable a ponderar es la variable FRECUENCIA;
cuando existen variables ponderadas, en el extremo inferior derecho del escritorio aparecerá la
frase: Ponderación activada.
Para desactivar el proceso de ponderación, en el cual se encuentra el sistema, el usuario deberá

repetir el proceso Datos/ponderar casos; y en la ventana que se despliega presionar el botón
Restablecer, con lo cual la ponderación desaparecerá al igual que la frase Ponderación activada.
2.5. TABLAS PERSONALIZADAS
El programa SPSS puede elaborar tablas personalizadas, es decir tablas en las cuales el usuario
selecciona las variables que deben aparecer, tanto en filas como en columnas, algo similar a las
tablas dinámicas que genera el programa Excel.
Partiendo de esa similitud con las tablas dinámicas del Excel, el SPSS entrega también tablas en las
que se involucra a tres variables; como valores de resumen, las tablas personalizadas del SPSS
entregan resultados del conteo de datos, porcentajes, y medidas estadísticas que describen a la
muestra o población; el procedimiento a realizar es: Analizar/Tablas/Tablas personalizadas.
Luego de desarrollar el procedimiento indicado el programa desplegará la siguiente ventana:
pág. 80
En esta ventana el usuario deberá tomar en cuenta lo siguiente:
 Deberá trasladar las variables que conforman la tabla y ubicarlas en el campo Filas y Columnas.
 Podrá incluir más de una variable, tanto en filas como en columnas.
 Si la variable a incluir es variable cualitativa, el programa solamente podrá hacer un conteo de la

misma o expresar su frecuencia en porcentaje.
 En caso de incluir una tercera variable deberá activar el botón Capas.
 Una vez que se han ubicado las variables en filas y/o columnas, en forma inmediata se activará el
botón Estadísticos de resumen; al activar este botón el programa permitirá que el usuario
seleccione el estadístico de resumen que desea que aparezca en la tabla.
 El usuario podrá ingresar títulos, pies de página y demás información que desea que aparezca en
la tabla; para esto deberá activar la pestaña Títulos.
 En la pestaña Estadístico de Prueba el usuario podrá realizar las operaciones necesarias para
pruebas de inferencia estadística, tales como: Prueba t para dos muestras, prueba Chi cuadrado,
etc.
 Finalmente, si el usuario ha incluido en el análisis una tercera variable y activado el botón Capa,
en la tabla que aparece como resultado aparecerá un botón de filtro, al activar dicho botón, se
desplegarán como opciones los diferentes valores que tiene la variable ubicado en Capas.
pág. 81
3. ESTADÍSTICA DESCRIPTIVA.
El programa SPSS entrega, en solo proceso los estadísticos que describen a una muestra, es decir: Las
medidas de tendencia central (media aritmética, mediana, moda, etc.); las medidas de posición en
términos de percentiles, las medidas de dispersión (rango, varianza, desviación estándar), medidas
de simetría y de apuntalamiento.
3.1. PROCESO FRECUENCIAS
Partiendo desde el la opción Analizar del Menú Principal, tomar la opción Estadísticos
descriptivos/Frecuencia, con lo cual se desplegará la siguiente ventana:
En el recuadro de la izquierda el usuario podrá observar las variables (cualitativas y cuantitativas) que
conforman la base de datos, como también la opción Mostrar tablas de frecuencia que se encuentra
activa; El usuario deberá previamente seleccionar la(s) variable(s) cuyo análisis estadístico quiere
obtener y trasladarlas virtualmente al campo Variables; luego deberá presionar el botón
Estadísticos con lo cual se desplegará la siguiente ventana:
pág. 82
Obviamente, el programa entregará resultados de variables cuantitativas, en caso de haber

seleccionado variables cualitativas, el programa simplemente entregará el número de casos.
El usuario deberá activar las casillas cuyos estadísticos desea obtener en su análisis, tome en cuenta:
 Al activar la casilla cuartiles, el programa entregará el primero, segundo y tercer cuartil.
 Para obtener otros Cuantiles, tales como Deciles, Quintiles, etc. el usuario deberá activar la
casilla Puntos de corte para… grupos iguales, debiendo también indicar el Cuantil genérico que
desea obtener.
 Al activar la casilla Percentiles, el programa activará el recuadro derecho en el cual el usuario

deberá ingresar el número que identifique al percentil que desea obtener; por otro lado, para
obtener más de un percentil deberá, luego de registrar el primero de los percentiles, dar un clic
en el botón Añadir, de esta manera el primer valor ingresará al recuadro inferior permitiendo al
usuario ingresar el siguiente percentil; note además que ahora están activos los botones Cambiar
y Eliminar.
En las medidas de dispersión el programa entrega también el error de estimación de la media,

llamado error estándar media, cuyo valor se determina con:
̅
√
Una vez que el usuario ha seleccionado los estadísticos que desea obtener en su análisis, deberá dar
un clic en el botón Continuar, con lo cual el sistema retornará a la ventana anterior.
Antes de dar un clic en el botón Aceptar es conveniente que se desactive la casilla Mostrar tablas de
frecuencias; entonces el análisis estadístico solicitado se procesará y mostrará los resultados en la
hoja correspondiente.
3.2. PROCESO “DESCRIPTIVOS”
El programa SPSS ofrece como alternativa para el cálculo de estadísticos que describen a la muestra
el siguiente proceso: Analizar/Estadísticos descriptivos/Descriptivos, con lo cual se desplegará la
siguiente ventana:
pág. 83
Ahora el usuario podrá observar que en la lista de

variables no están las variables cualitativas; el
usuario deberá como siempre, seleccionar la(s)
variable(s) cuyo análisis estadístico se requiere, y
después de esto, dar un clic sobre el botón
Opciones, con lo cual se desplegará la siguiente
ventana:
En esta ventana el usuario podrá observar que

algunos estadísticos (no todos) están
seleccionados por defecto, pues se considera que
los mismos son los más importantes; por otro lado,
el usuario tiene la opción de escoger el orden de
visualización de los datos de salida.
Una vez que el usuario ha seleccionado los

estadísticos requeridos para su análisis podrá dar
un clic en el botón Continuar, con lo cual el
programa regresará a la ventana anterior, donde
podrá seleccionar si desea obtener los valores
estandarizados de la Distribución Normal; finalmente dará un clic en el botón Aceptar, con lo cual el
programa entregará en la hoja de resultados la tabal que contiene los estadísticos solicitados.
3.3. PROCESO “MEDIAS”
El programa SPSS ofrece un proceso para calcular algunos estadísticos que describen a una variable
en función de otra variable de carácter independiente; por ejemplo, se puede obtener los
estadísticos de la variable Monto contractual en función de la zona distrital. Para esto el proceso es:
Analizar/ Comparar medias/Medias, con lo cual se desplegará la siguiente ventana:
En esta ventana el usuario deberá ingresar en la lista de dependientes la(s) variable(s) que se desea
analizar, por ejemplo la variable Monto contractual; en la Lista de independientes el usuario deberá
ingresar la variable que categoriza a la variable dependiente, por ejemplo la variable Zona distrital.
pág. 84
El programa puede analizar la(s) variable(s)

dependiente(s) en función de varias variables
independientes, las mismas que ingresar al
programa por el método de “Capas”; es decir
una encima de otra; por ejemplo se puede
agregar la variable Gerencia que solicita; una
vez que el usuario ha seleccionado las variables
en análisis, deberá dar un clic sobre el botón
Opciones, con lo cual se desplegará la ventana
en la cual se podrán escoger los estadísticos que
el análisis requiera.
Por defecto el programa presenta los

estadísticos Media, Número de casos y
Desviación estándar, el usuario podrá cambiar o
añadir los estadísticos que se encuentran en el
recuadro de la izquierda, activando el botón de
flecha direccional correspondiente.
Una vez que se han seleccionado los estadísticos que requiere el análisis, ahora el usuario deberá dar
un clic en el botón Continuar, con lo cual el programa regresará a la ventana anterior donde deberá
finalmente dar un clic sobre el botón Aceptar para finalizar el proceso; los resultados se despegarán
en la hoja correspondiente.
4.1. PROCESO “EXPLORAR”1
El programa SPSS ofrece la herramienta más completa para el análisis de datos: la herramienta
Explorar, esta herramienta entrega al usuario el análisis integral de un grupo de datos previamente
almacenados en alguna(s) variable del SPSS; este análisis presenta no solamente los valores
numéricos que describen a la muestra sino que incluye gráficos para observación de su variabilidad
(diagrama de cajas y bigote) y detalle de la variación (diagrama de tallo y hojas).
Esta herramienta permite realizar el análisis de una variable dividida en varias categorías por ejemplo
analiza la variable ingresos de los empleados de una empresa categorizados por el sexo; entonces el
programa entrega datos del análisis de esta variable, tanto para los casos de sexo masculino, como
sexo femenino.
El programa, mediante la herramienta Explorar entrega adicionalmente a los estadísticos comunes

(media aritmética, median, moda, desviaciones, etc.), la media recortada, la amplitud (rango)
Intercuartil, los intervalos de confianza para un nivel de confiabilidad previamente establecido, por
defecto el programa calcula al 95% y los valores atípicos.
La media recortada al 5% corresponde a la media aritmética de una muestra a la cual se la ha

recortado el 5% de sus valores extremos (hacia arriba y hacia abajo).
El rango intercuartil es la diferencia entre el Tercer cuartil y el Primer cuartil; estos valores se verán
representados gráficamente en el diagrama de caja y bigotes.
Finalmente, se conoce como valores atípicos aquellos casos cuyos valores numéricos se encuentran
bajo o sobre el rango intercuartil a una distancia de 1.5 veces el rango.
1
Valderey Sanz Pablo.- Extracción del Conocimiento a partir del Análisis de datos con SPSS
pág. 85
Para acceder a la herramienta Explorar el procedimiento es el siguiente: Analizar/Estadísticos

descriptivos/explorar, con lo cual se desplegará la ventana que se indica:
El usuario deberá ingresar en el campo Lista la(s) variable(s) que van a ser analizadas; además deberá
ingresar en el campo Lista de factores la variable de agrupación esta debe ser una variable
cualitativa.
Luego de esto, al dar un clic en el botón Estadísticos, el usuario deberá ingresar el intervalo de
confianza, por defecto el programa trabaja con el 95%; además deberá encender, si desea obtener, la
casilla para los Valores atípicos y percentiles.
Después deberá activar el botón Gráficos, entonces se despegará una tarjeta en la cual el usuario
deberá indicar si aparece o no el diagrama de Tallo y hojas como también los diagramas que
involucra el estudio de normalidad de la muestra; por defecto el programa tiene activado el
diagrama de caja.
Finalmente, en la parte inferior de esta ventana el usuario deberá escoger la forma de visualización
de los resultados; el programa permite mostrar los estadísticos, los gráficos o ambos.
pág. 86
Descriptivos
Error
Zona distrital Estadístico
estándar
Media 768,50 63,40
Límite inferior 635,80
95% de intervalo de
Límite
confianza para la media 901,20
superior
Media recortada al 5% 772,33
Mediana 770,50
Varianza 80393,53
Centro
Desviación estándar 283,54
Mínimo 258,00
Máximo 1210,00
Rango 952,00
Rango intercuartil 434,50
Asimetría ,00 ,51
Curtosis -,72 ,99
Media 896,85 141,67
95% de intervalo de
Límite
superior
Mediana 731,00
Longitud de redes de agua Varianza 662354,76
Norte
potable Desviación estándar 813,85
Mínimo 73,00
Máximo 3959,00
Rango 3886,00
Asimetría 2,95 ,41
Curtosis 9,30 ,80
Media 875,43 75,71
95% de intervalo de
Límite
superior
Mediana 818,00
Varianza 212106,81
Sur
Mínimo 248,00
Máximo 3104,00
Rango 2856,00
Asimetría 3,19 ,39
Curtosis 15,05 ,76
pág. 87
Valores extremos
Número del
Zona distrital Valor
caso
1 84 1210,00
2 27 1187,00
Mayor 3 70 1181,00
4 31 1130,00
5 87 1063,00
Centro
1 26 258,00
2 89 356,00
Menor 3 13 408,00
4 12 425,00
5 29 558,00
1 74 3959,00
2 80 3650,00
Mayor 3 46 1255,00
4 66 1245,00
Longitud de redes de agua 5 88 1239,00
Norte
potable 1 86 73,00
2 19 220,00
Menor 3 6 359,00
4 79 360,00
5 16 386,00
1 77 3104,00
2 25 1341,00
Mayor 3 60 1215,00
4 35 1201,00
5 32 1184,00
Sur
1 7 248,00
2 48 413,00
Menor 3 52 421,00
4 8 473,00
5 56 496,00
Longitud de redes de agua potable Diagrama de tallo y hojas de ZONA= Centro
Frecuencia Stem & Hoja
4,00 0 . 2344
11,00 0 . 56677777888
5,00 1 . 01112
Ancho del tallo: 1000,00

Cada hoja: 1 caso(s)
pág. 88
Longitud de redes de agua potable Diagrama de tallo y hojas de ZONA= Norte
1,00 0 . 0
5,00 0 . 23333
7,00 0 . 4445555
7,00 0 . 6667777
2,00 0 . 88
6,00 1 . 000011
3,00 1 . 222
2,00 Extremos (>=3650)

Longitud de redes de agua potable Diagrama de tallo y hojas de ZONA= Sur
1,00 2 . 4
,00 3 .
4,00 4 . 1279
2,00 5 . 02
6,00 6 . 124566
4,00 7 . 0467
7,00 8 . 1112478
2,00 9 . 14
2,00 10 . 38
5,00 11 . 03568
2,00 12 . 01
1,00 13 . 4
1,00 Extremos (>=3104)

pág. 89
4. GRAFICOS ESTADÍSTICOS
El programa SPSS elabora gráficos estadísticos de distinta índole, clasificados en gráficos estáticos
que se obtiene a partir de los datos almacenados y gráficos dinámicos a partir de los modelos de
regresión.
El proceso para la obtención de un gráfico es: Gráficos/Cuadro de diálogos antiguos. Al desarrollarlo

se desplegará la ventana que se adjunta:
El usuario podrá observar que el programa presenta todas las alternativas de gráficos de carácter
estadístico; además se incluye el gráfico de Diagrama de cajas.
Al tomar, por ejemplo, el tipo barras el programa desplegará la ventana que se adjunta; en esta
ventana el usuario encuentra la posibilidad de seleccionar el tipo de gráficos de barras verticales
simples, verticales agrupadas y verticales apiladas.
Por otro lado, se debe seleccionar también si los datos que conforman el gráfico son:
 Resúmenes para grupos de casos.

 Resúmenes para distintas variables.
 Valores individuales de los casos.
A continuación se hará una breve explicación de cada una de estas opciones:
Resúmenes para grupos de casos.- Esta opción permite realizar gráficos tales que
las barras verticales representan el número de casos de una variable cuantitativa
(eje vertical) en función de otra variable que puede ser cualitativa o cuantitativa;
por ejemplo el número de empleados que laboran en la empresa clasificados por
su sexo o el número de empleados clasificados por su nivel de instrucción.
Este tipo de gráfico permite además representar otro estadístico que no sea el de
conteo, por ejemplo la suma, la media, la mediana, etc.; como ejemplo podemos
indicar el promedio de los ingresos en función del área laboral, la suma de
inversiones realizadas en cada zona distrital, etc.
Resúmenes para distintas variables.- Esta opción permite realizar

gráficos comparativos entre dos o más variables cuantitativas; por
ejemplo el número de conexiones de agua potable y el número de
conexiones de alcantarillado; el promedio de longitud de redes de agua
potable y alcantarillado, etc.
Valores individuales de los casos.- Esta opción entrega gráficos en los

cuales se incluye como frecuencia a todos los casos almacenados en la
hoja de datos; no es muy conveniente si el número de casos es elevado,
peros, cuando el número de casos es pequeño (filas de la tabla) resulta
ser una opción muy efectiva.
En todas las opciones el usuario dispone de un botón para agregar títulos, subtítulos y pies de página;
una vez finalizado el gráfico el usuario podrá dar doble clic sobre el mismo activando de esta manera
la ventana de edición de gráficos.
pág. 90
5. PROBABILIDAD Y DISTRIBUCIONES DE PROBABILIDAD.
5.1. TABLAS DE CONTINGENCIA
El SPSS permite la creación de tablas de contingencia mediante el proceso: Analizar/Tablas

personalizadas, luego de esto se despliega la siguiente ventana:
Una vez que se obtiene esta ventana el necesario continuar con las siguientes actividades:
 Trasladar las variables cualitativas o categóricas al campo Filas y al campo Columnas, por defecto
se activará la operación recuento o contar.
 Activando mediante un clic a cada una de las variables de Fila y columna, se activa ahora, en
forma individual, el botón Categorías y Totales, de manera que disponga al programa la orden
que totalice filas y columnas; tal como se indica en la siguiente ventana:
pág. 91
Una vez realizado el proceso indicado, al dar clic en el botón Aceptar, se desplegará la tabla de
contingencia para las variables seleccionadas. En el ejemplo se incluye la tabla de contingencia al
cruzar las variables Proceso de contratación y Zona distrital:

Cotización Emergencia Licitación Menor cuantía Total
Centro 10 4 2 4 20
Norte 11 4 6 12 33
Zona distrital
Sur 18 4 9 6 37
Total 39 12 17 22 90
 El siguiente paso será la construcción de la Tabla de probabilidades; esta tabla se construye al

dividir cada uno de los eventos para el total de casos, es decir aplicando la definición clásica de
probabilidad.
El programa SPSS entrega al usuario la tabla de probabilidades al repetir el proceso anterior

modificando la presentación de resultados al cambiar de número (recuento) a porcentaje del
total, entonces, la tabla a obtener para el ejemplo en análisis es la siguiente.

Cotización Emergencia Licitación Menor cuantía Total
Centro 11,11% 4,44% 2,22% 4,44% 22,22%
Norte 12,22% 4,44% 6,67% 13,33% 36,67%
Zona distrital
Sur 20,00% 4,44% 10,00% 6,67% 41,11%
Total 43,33% 13,33% 18,89% 24,44% 100,00%
Con los resultados de esta tabla se obtendrán probabilidades de eventos combinados, eventos
marginales y eventos condicionales.
5.2. DISTRIBUCIÓN BINOMIAL
Para el cálculo de probabilidades de eventos que se encuentran dentro de una distribución binomial,
el SPSS dispone de las funciones: y . Estas funciones se encuentran en el
recuadro inferior derecho de la calculadora virtual, recuerde que para acceder a la calculadora virtual
debe desarrollar el proceso: Transformar/Calcular variable.
Una vez que se encuentra en la ventana de la calculadora virtual el usuario podrá ubicar a las
funciones requeridas dando clic sobre la opción todas; entonces se desplegará en el recuadro inferior
la lista, ordenada alfabéticamente, de todas las funciones.
Cada una de estas funciones tiene una descripción literaria de los argumentos que requiere y del
resultado que entrega; para las funciones y . Se tiene:
PDF.BINOM(c, n, p) Numérico. Devuelve la probabilidad de que el número de éxitos en n ensayos,

con probabilidad de éxito p en cada uno de ellos, sea igual a c.
CDF.BINOM(c, n, p) Numérico. Devuelve la probabilidad acumulada de que el número de éxitos en

n ensayos, con probabilidad de éxito p en cada uno de ellos, sea menor o igual que c.
pág. 92
Con estas dos funciones y aplicando las propiedades de la Distribución Binomial se tiene un resumen
de las fórmulas que permitan calcular probabilidades bajo esta distribución en la mayoría de los
escenarios posibles:
Probabilidad Equivalencia SPSS

( ) ( ) ( )
( ) ( ) ( )
( ) ( ) ( )
( ) ( ) 1- ( )
( ) ( ) ( )
5.3. DISTRIBUCIÓN NORMAL
Para el cálculo de probabilidades de eventos que se encuentran dentro de una distribución normal, el
SPSS dispone de las funciones: y . Estas funciones se
encuentran en el recuadro inferior derecho de la calculadora virtual, recuerde que para acceder a la
calculadora virtual debe desarrollar el proceso: Transformar/Calcular variable.
Una vez que se encuentra en la ventana de la calculadora virtual el usuario podrá ubicar a las
funciones requeridas dando clic sobre la opción todas; entonces se desplegará en el recuadro inferior
la lista, ordenada alfabéticamente, de todas las funciones.
Cada una de estas funciones tiene una descripción literaria de los argumentos que requiere y del
resultado que entrega; para las funciones y . Se tiene:
PDF.BINOM(c, n, p) Numérico. Devuelve la probabilidad de que el número de éxitos en n ensayos,

con probabilidad de éxito p en cada uno de ellos, sea igual a c.
CDF.BINOM(c, n, p) Numérico. Devuelve la probabilidad acumulada de que el número de éxitos en

n ensayos, con probabilidad de éxito p en cada uno de ellos, sea menor o igual que c.
IDF.NORMAL (p, media, desv_típ) Numérico. Devuelve el valor de la distribución normal con la
media y desviación típica especificadas, cuya probabilidad acumulada es p.
PDF.NORMAL (c, media, desv_típ) Numérico. Devuelve la densidad de probabilidad de la

distribución normal con la media y desviación típica especificadas, en c
CDF.NORMAL (c, media, desv_tip) Numérico. Devuelve la probabilidad acumulada de que un valor
de la distribución normal, con la media y desviación típica especificada sea menor que c.
pág. 93
6. MUESTREO ESTADÍSTICO
El muestreo estadístico se lo realiza de manera similar al manejo de filtros en la hoja de cálculo Excel;
en esencia el muestreo en SPSS se lo realiza seleccionando casos, sean estos de manera aleatoria o
mediante el cumplimiento de alguna condición.
En SPSS se podrá realizar muestreos de tipo aleatorio, por estratos y sistemático, para lo cual se debe
cumplir con varios procesos.
6.1. MUESTREO ALEATORIO
Para obtener una muestra aleatoria el usuario debe desarrollar el siguiente proceso:
Datos/Seleccionar casos; con lo cual se desplegará la siguiente ventana:
En esta ventana, el usuario deberá activar el botón Muestra aleatoria de con lo cual el sistema
activará el botón Ejemplo, al dar un clic sobre este botón se desplegará la siguiente ventana:
pág. 94
En esta ventana, el usuario deberá ingresar el tamaño de la muestra a obtener, este tamaño puede
ser:
 Aproximado (en porcentaje),

 Exacto, indicando cuantos casos requiere la muestra del total de la población.
Una vez señalado el tamaño de la muestra procederá a dar un clic sobre el botón Continuar con lo
cual se regresará a la ventana anterior en la cual el usuario deberá escoger la forma de salida de los
resultados presentándose las siguientes opciones:
Descartar casos no seleccionados: Al activar esta opción, el programa presentará los casos
seleccionados en la misma Hoja de datos, señalando aquellos que no han sido tomados en cuenta en
el muestreo.
Copiar casos seleccionados a un nuevo conjunto de datos: Al activar esta opción el sistema
presentará los casos seleccionados en otra hoja de datos, a la cual previamente el usuario deberá
darle un nombre en el campo que se activa una vez que se haya tomado esta alternativa, como
opción de salida; la nueva Hoja de datos se ubicará precisamente debajo de la hoja de datos.
Eliminar casos no seleccionados: Al tomar esta opción el programa presentará en la misma hoja de
datos los casos seleccionados eliminando los que no ha sido tomados en cuenta; hay que tener
mucho cuidado con el manejo de esta opción puesto que algunos registros (casos) de la base de
datos han sido eliminados y sin darse cuenta el usuario pude almacenar la hoja, con lo cual se
perderá definitivamente los datos iniciales.
6.2. MUESTREO SELECCIONADO
En realidad este no es un muestreo, sino más bien una selección de casos o registros de la base de
datos que cumplen con alguna condición previamente especificada; entonces el usuario deberá
desarrollar el proceso: Datos/Seleccionar casos y en la ventana que se despliega seleccionar la
opción Si satisface la condición; finalmente el botón Si la opción… se activará y al dar un clic sobre el
mismo se desplegará la ventana de la Calculadora virtual del SPSS (Calcular variable):
pág. 95
6.3. MUESTREO ESTRATIFICADO2
Una muestra compleja puede ser distinta de una muestra aleatoria simple en muchos aspectos: en
una muestra aleatoria simple, las unidades de muestreo individuales se seleccionan aleatoriamente
con la misma probabilidad y sin reposición (SR) directamente a partir de la totalidad de la población.
Por lo contrario, una muestra compleja determinada puede tener alguna o todas las características
siguientes:
Estratificación.- El muestreo estratificado implica seleccionar muestras independientemente dentro

de los subgrupos de la población que no se solapen o estratos. Por ejemplo, los estratos pueden ser
grupos socioeconómicos, categorías laborales, grupos de edad o grupos étnicos.
Con la estratificación, puede asegurar que los tamaños muestrales de los subgrupos de interés son
adecuados, mejorar la precisión de las estimaciones globales y utilizar distintos métodos de
muestreo entre los diferentes estratos.
6.4. ELABORACIÓN DEL PLAN DE MUESTREO
Proceso: Analizar/Muestras complejas/Seleccionar una muestra con lo cual se desplegará la

siguiente ventana:
2
Muestras complejas de SPSS.- IBM Manual de Usuario
pág. 96
En esta ventana el usuario deberá seleccionar si desea Diseñar un plan de muestreo, Editar un diseño
muestral existente o extraer una muestra de un diseño existente.
Si va a diseñar un plan es necesario que en el campo activo se escriba el nombre del archivo en el
cual se ha de registrar el plan; el programa genera un archivo con extensión csplan.
Después de que el archivo que contiene el plan de muestreo ha sido creado el programa desplegará
la siguiente ventana, en la cual deberá escoger la variable de estratificación y agregar una etiqueta.
Al dar clic sobre el botón Siguiente, el programa SPSS desplegará una ventana en la cual el usuario
deberá escoger el tipo de muestro, por defecto el programa tiene activada la opción Muestreo
aleatorio simple, sin reemplazo; después de esto deberá dar un clic sobre el botón Siguiente.
En la siguiente ventana el usuario deberá escoger el tamaño de cada uno de los estratos, puede
hacerlo fijando un número o una proporción porcentual; el tamaño puede ser el mismo para cada
estrato o diferente en cada uno de ellos.
pág. 97
Una vez que el usuario ha indicado el tamaño de la muestra, sea esta por unidades o proporciones
ahora deberá dar un clic en el botón Aceptar, con lo cual el sistema abrirá la ventana siguiente
En la ventana abierta ahora el usuario deberá seleccionar algunas variables que desea almacenar
junto con los datos; si no desea añadir ninguna de las variables indicadas, simplemente debe dar un
clic para que el sistema active la siguiente ventana.
En la siguiente ventana el usuario deberá indicarle al programa si el muestreo a realizarse es por

etapas (polietápicos) o solamente está formado por una etapa; después de esto el usuario deberá
dar un clic en el botón siguiente.
En la siguiente ventana el usuario deberá decidir si desea extraer la muestra y de que etapa desea
hacerlo; en esta ventana también puede generar una semilla de números aleatorios.
Finalmente, en la siguiente ventana el usuario deberá indicar al programa donde desea almacenar los
datos muestra creada, tiene como opción: en el mismo conjunto de datos (hoja actual), como nuevo
conjunto de datos (nueva hoja) o como archivo externo; si toma las dos últimas opciones deberá
ingresar el nombre de la nueva hoja o del nuevo archivo en el campo que se activa.
6.5. MUESTREO SISTEMÁTICO
Para obtener una muestra sistemática, básicamente el usuario deberá desarrollar el mismo
procedimiento que el realizado para el muestreo estratificado; entonces el proceso es:
Proceso: Analizar/Muestras complejas/Seleccionar una muestra con lo cual se desplegará la siguiente

ventana:
pág. 98
En esta ventana el usuario deberá seleccionar si desea Diseñar un plan de muestreo, Editar un diseño
muestral existente o extraer una muestra de un diseño existente.
Si va a diseñar un plan es necesario que en el campo activo se escriba el nombre del archivo en el
cual se ha de registrar el plan; el programa genera un archivo con extensión csplan.
Después de que el archivo que contiene el plan de muestreo ha sido creado el programa desplegará
la ventana, en la cual deberá escoger la variable de estratificación y agregar una etiqueta; para un
muestreo sistemático simple no es necesario seleccionar ninguna variable como estrato de
muestreo, sin embargo si el muestreo lo requiere se deberá hacerlo.
Al dar clic sobre el botón Siguiente, el programa SPSS desplegará una ventana en la cual el usuario
deberá escoger el tipo de muestro; por defecto, el programa tiene activada la opción Muestreo
aleatorio simple, sin reemplazo. En este filtro de selección el usuario deberá seleccionar Muestreo
sistemático simple, tal como se indica en la siguiente ventana; después de esto deberá dar un clic
sobre el botón Siguiente.
pág. 99
En la siguiente ventana el usuario deberá escoger el tamaño de la muestra; el programa SPSS divide
al tamaño (número total de casos) para el número ingresado como tamaño de la muestra
obteniendo de esta manera el número de subgrupos.
El muestreo sistemático consiste en tomar aleatoriamente un elemento del primer grupo; los demás
que forman la muestra se los tomará, uno de cada subgrupo, de acuerdo con la posición del primer
elemento seleccionado.
Por ejemplo de una población de 250 elementos se desea una muestra sistemática de 10 elementos;
entonces:
Luego se toma aleatoriamente un elemento del primer grupo y el numeral que indica la posición del
número seleccionado servirá como punto de partida para la ubicación de los siguientes elementos.
Por ejemplo, si se selecciona del primer grupo el elemento que se encuentra en la cuarta posición (4),
los elementos que conforman la muestra serán los que se encuentran en las posiciones:
4 29 54 79 104 129 154 179 204 229
Nótese que la ubicación de cada uno de ellos se obtiene sumando 25 a la posición inicial.
Una vez que el usuario ha indicado el tamaño de la muestra ahora deberá dar un clic en el botón
Aceptar, con lo cual el sistema abrirá la ventana siguiente.
En la ventana abierta ahora el usuario deberá seleccionar algunas variables que desea almacenar
junto con los datos; si no desea añadir ninguna de las variables indicadas, simplemente debe dar un
clic para que el sistema active la siguiente ventana.
En la siguiente ventana el usuario deberá decidir si desea extraer la muestra y de que etapa desea
hacerlo; en esta ventana también puede generar una semilla de números aleatorios.
Finalmente, en la siguiente ventana el usuario deberá indicar al programa donde desea almacenar los
datos muestra creada, tiene como opción: en el mismo conjunto de datos (hoja actual), como nuevo
conjunto de datos (nueva hoja) o como archivo externo; si toma las dos últimas opciones deberá
ingresar el nombre de la nueva hoja o del nuevo archivo en el campo que se activa.
pág. 100
7. ESTIMACIÓN DE LA MEDIA POBLACIONAL.
Para establecer el intervalo de la media poblacional, en muestras grandes y pequeñas, el programa

SPSS presenta dos procesos, en todos ellos el usuario deberá indicar la variable en análisis como
también el nivel de confiabilidad, por defecto el programa sume el 95%.
7.1. PROCESO EXPLORAR
Para obtener el intervalo de estimación de la media poblacional utilizando la herramienta Explorar el

usuario deberá realizar el proceso Analizar/Estadística descriptiva/Explorar; entonces se desplegará
la siguiente ventana:
La variable en análisis deberá ingresar en la Lista de dependientes; luego deberá dar un clic en el
Botón Estadísticos con lo cual se desplegará el cuadro de diálogo donde podrá ingresar el nivel de
confiabilidad:
Una vez que el usuario ha ingresado el nivel de confiabilidad, deberá dar un clic en el botón
Continuar y al regresar a la ventana anterior deberá ahora dar un clic en el botón Aceptar; el
intervalo de la estimación de la media aparecerá en el segundo renglón de la tabla de resultados;
pág. 101
observe también en la última columna el programa presenta el error estándar de estimación de la

media.
7.2. PROCESO PRUEBA T PARA UNA MUESTRA
Para obtener el intervalo de estimación de la media poblacional para una variable el usuario deberá
realizar el proceso: Analizar/Comparar medias/Prueba T para una muestra independiente, con lo
cual el programa despegará la siguiente ventana:
En esta ventana el usuario deberá ingresar en el campo Variables de prueba la variable en análisis, al
dar un clic en el botón Opciones se desplegará la ventana en la cual podrá ingresar el nivel de
confiabilidad; tal como se indica en la siguiente ventana:
Al finalizar el programa entregará una tabla de resultados en el cual queda registrado el intervalo de
estimación de la media poblacional parta el nivel de confianza dado.
Prueba de muestra única

Valor de prueba = 0
95% de intervalo de
Sig. Diferencia confianza de la diferencia
t gl (bilateral) de medias Inferior Superior
Longitud de redes de 15,583 89 ,000 952,98 831,46 1074,49
alcantarillado
pág. 102
8. PRUEBA DE HIPÓTESIS SOBRE LA MEDIA POBLACIONAL
Para realizar una prueba de hipótesis sobre la media poblacional en una población, el SPSS presenta
el proceso Analizar/Comparar medias/Prueba T para una muestra; al desarrollar este proceso se
En esta ventana el usuario deberá ingresar la variable en análisis al campo Variables de prueba; en la
casilla Valor de prueba debe colocar el valor de la media poblacional asumido para la hipótesis nula;
entonces al dar un clic sobre el botón Opciones se desplegará la ventana donde debe colocar el nivel
de significación.
Una vez que ha ingresado el nivel de significación, debe dar un clic en el botón Continuar y luego, en
la ventana que se despliega deberá dar un clic en el botón Aceptar para finalizar el proceso.
Estadísticas de muestra única

Desviación Media de
N Media estándar error estándar
Longitud de redes de alcantarillado 90 952,98 580,18 61,16
Prueba de muestra única

Valor de prueba = 500
95% de intervalo de
Sig. Diferencia de confianza de la diferencia
t gl (bilateral) medias Inferior Superior
Longitud de redes 7,407 89 0,00 452,98 331,46 574,49
de alcantarillado
Para tomar la decisión de aceptar o rechazar la hipótesis nula el usuario deberá aplicar la regla:
 En prueba de dos extremos: ( )
( )
 En prueba de un extremo: s
pág. 103
9. INFERENCIA ESTADÍSTICA EN DOS POBLACIONES
El programa SPSS dispone de algunas herramientas y opciones para el análisis estadístico en dos
poblaciones; considerando a estas como independientes o relacionadas entre sí; el proceso a realizar
es: Analizar/Comparar medias.
9.1. INFERENCIA EN DOS POBLACIONES INDEPENDIENTES
Al desarrollar el proceso Analizar/Comparar medias/Prueba T para muestras independientes se

despliega la siguiente ventana:
En esta ventana el usuario deberá ingresar en el campo correspondiente la variable de prueba y la

variable de agrupación; la variable de agrupación previamente deberá haber sido codificada con
números naturales 1, 2; al dar un clic en el botón Definir grupos el programa desplegará la siguiente
ventana:
Opciones.- Al dar un clic en el botón Opciones el programa desplegará la ventana que permitirá
ingresar el nivel de significación en términos del intervalo de confianza.
Al finalizar el proceso en la vista Resultados el programa SPSS entrega los siguientes cuadros:
pág. 104
Estadísticas de grupo
Desviación Media de error
SECTOR N Media estándar estándar
RENTA Norte 7 682,86 95,17 35,97
Sur 7 582,86 167,00 63,12
Prueba de muestras independientes

Se asumen No se asumen
varianzas varianzas
iguales iguales
Prueba de Levene F 5,05
de igualdad de
Sig. 0,04
varianzas
t 1,38 1,38
gl 12,00 9,53
RENTA
Sig. (bilateral) 0,19 0,20
prueba t para la
Diferencia de medias 100,00 100,00
igualdad de medias
Diferencia de error estándar 72,65 72,65
95% de intervalo de Inferior -58,29 -62,98
confianza de la diferencia Superior 258,29 262,98
9.2. INFERENCIA EN MUESTRAS RELACIONADAS
Al desarrollar el proceso: Analizar/Comparar medias/Prueba T para muestras relacionadas se

despliega la siguiente ventana:
En esta ventana el usuario deberá ingresar la variable que presenta los datos antes de la prueba
específica y los valores de la variable después de la prueba específica; al dar un clic en la ventana
Opciones se despliega la siguiente ventana:
pág. 105
Luego de ingresar el nivel de significación en términos del intervalo de confianza el programa SPSS
dispondrá en la hoja de Resultados los siguientes cuadros:
Estadísticas de muestras emparejadas

Desviación Media de error
Media N
estándar estándar
R_ANTES 20,19 15,00 3,62 0,93
Par 1
R_DESPUÉS 17,59 15,00 2,04 0,53
Prueba de muestras emparejadas

Par 1
R_ANTES - R_DESPUÉS
Media 2,61
Diferencias emparejadas Media de error estándar 1,22
95% de intervalo de Inferior 0,00
confianza de la diferencia Superior 5,22
t 2,14
gl 14,00
Sig. (bilateral) 0,05
pág. 106
10. PRUEBA DE LA MEDIA POBLACIONAL EN VARIAS POBLACIONES
Si se trata de analizar la media poblacional en varias poblaciones se debe realizar una prueba
estadística de comparación entre la variabilidad entre los grupos y la variabilidad dentro de los
grupos; esta relación estadística se la realiza con el proceso de ANOVA en una sola vía o en un solo
factor.
ANOVA EN UN FACTOR
Al desarrollar el proceso: Analizar/Comprar medias/Anova en un factor, se despliega la siguiente

ventana:
En esta ventana el usuario deberá ingresar la variable de análisis en el campo Lista de dependientes
y en el campo Factor deberá ingresar la variable de agrupación; al dar un clic en el botón Post hoc el
programa desplegará la ventana adjunta, en la cual deberá escoger la prueba DMS o la Prueba
Tukey; también deberá finalmente ingresar el nivel de significación.
En la hoja de Resultados el programa SPSS entregará el cuadro estándar del ANOVA.
pág. 107
11. PRUEBA CHI CUADRADO
La prueba chi cuadrado es el estadístico más adecuado para comparar variables categóricas o
cualitativas; permite también realizar pruebas para determinar la bondad del ajuste de un grupo de
datos a una determinada distribución estadística.
La prueba chi cuadrado requiere de los valores observados y esperados, organizados en una tabla
cruzada entonces, el proceso en el programa SPSS es el siguiente:
Analizar/Estadísticos descriptivos/Tablas cruzadas con lo cual se desplegará la siguiente tabla:
Una vez ubicadas las variables categóricas en el campo filas y en el campo columnas, ahora el
usuario deberá dar un clic en el botón Exacta, con lo cual se desplegará la ventana en la que se
registra el nivel de significación en términos del nivel de confiabilidad.
Al presionar el botón Estadísticos, en la ventana que se despliega el usuario deberá activar la casilla
correspondiente a la prueba Chi-cuadrado, también podrá activar la casilla correspondiente al
Cuadro de correlaciones.
Al presionar el botón Casillas el usuario deberá activar la casilla correspondiente a Observado y

Esperado; de esta manera, el programa SPSS entregará la tabla cruzada con el registro de los valores
observados (Recuento) y esperados (Recuento esperado); estos valores permitirán más adelante
calcular es estadístico Chi cuadrado.
Al final del proceso; el programa SPSS entregará en la vista de resultados los cuadros que registran la
información sobre la prueba estadística realizada, estos cuadros son los que a continuación se
indican:
pág. 108
Tabla cruzada Lugar*Silicosis

Silicosis
Grado I Grado II Grado III Total
Lugar Campo Recuento 54 78 72 204
Recuento esperado 65,28 69,36 69,36 204,00
Oficina Recuento 42 24 30 96
Total Recuento 96 102 102 300
En cuanto a la prueba Chi cuadrado el programa entrega el valor de estadístico chi cuadrado de
Pearson, los grados de libertad, el valor del nivel de significación bilateral y el intervalo de
confiabilidad para el nivel asumido.
Pruebas de chi-cuadrado
Sig. Monte Carlo (bilateral)
Significación Intervalo de confianza al
Valor df asintótica 99%
Significación
(bilateral) Límite Límite
inferior superior
Chi-cuadrado de Pearson 9,768a 2 0,008 0,008b 0,005 0,010
Razón de verosimilitud 9,657 2 0,008 0,009b 0,007 0,012
b
Prueba exacta de Fisher 9,560 0,009 0,007 0,012
N de casos válidos 300
a. 0 casillas (0,0%) han esperado un recuento menor que 5. El recuento mínimo esperado es 30,72.
b. Se basa en 10000 tablas de muestras con una semilla de inicio 2000000.
La toma de decisión con respecto a aceptar o rechazar la hipótesis nula que expresa el grado de
relación o independencia entre las variables categóricas en análisis puede hacerse comparando el
valor del estadístico Chi cuadrado con el valor de la tabla de distribución correspondiente o a través
de la comparación del valor del Sig bilateral con el nivel de significación asumido.
pág. 109
12. MODELO DE REGRESIÓN.
El programa SPSS presenta algunos procesos para la obtención del modelo de regresión, una vez
realizado el proceso necesario, el programa devolverá una estadística de las variables que
intervienen en el modelo, los coeficientes de correlación y determinación y los coeficientes de
modelo; entregará también las herramienta e insumos necesarios para hacer inferencia estadística
con los coeficientes obtenidos.
12.1. OBTENCIÓN DEL DIAGRAMA DE DISPERSIÓN
El diagrama de dispersión o dispersograma se obtiene siguiendo el proceso: Gráficos/Cuadro de

diálogo antiguos/Dispersión/ puntos, con lo cual se desplegará la siguiente ventana:
El usuario podrá observar que está seleccionada por defecto la opción Dispersión simple, el ícono
indica que se trata de obtener una nube de puntos que representa la tendencia de las variables; el
usuario deberá dar un clic en el botón Definir; inmediatamente se desplegará la siguiente ventana:
En esta ventana el usuario deberá ubicar en el campo denominado Eje Y la variable dependiente y en
el campo denominado Eje X la variable independiente, podrá también incluir rótulos y títulos en el
gráfico; una vez ubicadas las variables el usuario deberá dar un clic en el botón Aceptar, con lo cual
se desplegará el diagrama de dispersión que se indica:
pág. 110
Al dar doble clic sobre el diagrama de dispersión se desplegará la ventana del Editor de gráficos; al
activar en el menú del editor de gráficos el proceso: Elementos/Línea de ajuste total se despliega la
siguiente ventana:
En esta ventana el usuario deberá seleccionar las características de la línea de ajuste que representa
al modelo; por defecto el programa SPSS asume el modelo lineal, además asume como siempre el
nivel del 95% para el intervalo de confianza; finamente está activa la opción Adjuntar etiqueta a
pág. 111
línea, esta última acción, al ser activada entrega la ecuación de la recta o curva que mejor ajuste a los
datos.
Note además que el programa entrega el coeficiente de determinación R².
12.2. PROCESO REGRESIÓN LINEAL
El SPSS entrega el siguiente proceso para la obtención del modelo de regresión lineal bivariable y
multivariable: Analizar/Regresión/Lineales, al desarrollar el mismo se desplegará la siguiente
ventana:
pág. 112
El usuario deberá colocar la variable dependiente y la(s) variable(s) independiente(s) en los campos
correspondientes; al dar clic sobre el botón Estadísticos el usuario podrá ingresar las características
para el análisis estadístico de los coeficientes, entre ellos el nivel de confiabilidad, como siempre el
programa sume por defecto el valor del 95%; con esto, el programa desplegará la siguiente ventana:
Una vez cumplido con los requisitos del programa, al dar clic en el botón Continuar, el programa
regresará a la ventana anterior en la cual, al dar clic en el botón Aceptar dará finalizado el proceso,
entregando entre otros los siguientes resultados:
Resumen del modelo

Modelo R R cuadrado R cuadrado ajustado Error estándar de la estimación
a
1 ,98 ,95 ,95 ,14
a. Predictores: (Constante), Temperatura ambiental ° F
a
Coeficientes
Coeficientes no Coeficientes 95,0% intervalo de
estandarizados estandarizados confianza para B
Modelo t Sig.
Error Límite Límite
B Beta
estándar inferior superior
(Constante) -2,55 0,39 -6,53 0,00 -3,46 -1,65
1
Temperatura ambiental ° F ,06 0,00 ,98 12,60 1,48E-6 ,05 ,07
a. Variable dependiente: Ventas de helado en miles USD
En el último cuadro de resultados el usuario tendrá a su disposición los coeficientes del modelo con
lo cual podrá construir el mismo y hacer proyecciones sobre el comportamiento de la variable
dependiente en función de la variable independiente.
El programa SPSS presenta la posibilidad de realizar el análisis de regresión lineal múltiple por diverso
métodos; por defecto el programa trabaja con el método Intro; sin embargo el programa permite
trabajar por el método “Entre pasos”.
El método “Entre pasos” desarrolla en forma rápida el proceso de ingresar y eliminar las variables
independientes que no aportan significativamente al modelo. Presentando como último resultado la
lista de variables que han sido eliminadas.
El usuario una vez que conoce las variables que el método “Entre pasos” ha eliminado, podrá volver a
desarrollar el análisis de regresión múltiple, esta vez solamente con las variables que no han sido
eliminadas.
El mejor ajuste del modelo se verá reflejado ahora en el coeficiente de determinación; el usuario
podrá ahora disponer de un modelo en el cual están las variables que verdaderamente aportan al
modelo.
De acuerdo con el valor del coeficiente de determinación el usuario podrá detectar la necesidad de
introducir nuevas variables en el modelo, con la finalidad de mejorar su ajuste; de cualquier manera
las nuevas variables que ingresen al modelo no podrán ser las variables que ya fueron eliminadas.
pág. 113
12.3. PROCESO ESTIMACIÓN CURVILÍNEA
El programa SPSS tiene una herramienta que permite obtener modelos alternativos al modelo no
lineal, mediante una estimación curvilínea bivariable; el proceso a desarrollar es: Analizar/Regresión/
Estimación curvilínea con lo cual se desplegará la ventana que se indica:
En esta ventana el usuario deberá colocar las variables dependientes e independiente en los campos
correspondientes, luego deberá seleccionar los modelos de curvas que desea estimar; luego de esto,
al dar clic en el botón Aceptar se desplegará un cuadro de resultados con los coeficientes de todos
los modelos seleccionados como también un gráfico simultáneo de las curvas obtenidas.
Resumen de modelo y estimaciones de parámetro
Variable dependiente: Ventas de helado en miles USD

Estimaciones de
Resumen del modelo parámetro
R
Ecuación cuadrado F df1 df2 Sig. Constante b1 b2
Lineal 0,95 158,81 1,00 8,00 0,00 -2,55 0,06
Logarítmico 0,93 109,00 1,00 8,00 0,00 -18,17 4,69
Cuadrático 0,98 164,35 2,00 7,00 0,00 5,00 -0,13 0,00
La variable independiente es Temperatura ambiental ° F.
pág. 114
12.4. PROCESO REGRESIÓN LOGÍSTICA
Al desarrollar el proceso: Analizar/Regresión/Regresión logística binaria el programa desplegará la

siguiente ventana:
pág. 115
En esta ventana, el usuario ingresará en el campo correspondiente la variable dependiente y las

variables independientes llamadas predictoras o covariables; al dar un clic en el botón Categórica el
usuario podrá verificar las variables que van a ser categorizadas;
Al dar un clic en el botón continuar el usuario regresará a la ventana anterior; ahora deberá dar un
clic en el botón Guardar con lo cual el programa desplegará la siguiente ventana:
El usuario deberá activar la casilla Probabilidades con lo cual aparecerá en la vista de datos los
valores estimados de la probabilidad investigada de acuerdo con el modelo obtenido.
En el botón Opciones el usuario podrá ingresar el valor del nivel de significación asignado al modelo.
Al finalizar el proceso el programa SPSS entregará el cuadro de resumen en el que se registran los
coeficientes del modelo, el error estándar y el coeficiente Exp(B) junto con el intervalo de confianza
asumido.
pág. 116
Variables en la ecuación
Error 95% C.I. para EXP(B)
B Wald gl Sig. Exp(B)
estándar Inferior Superior
E_civil 1,511 4 0,825
E_civil(1) 0,237 0,810 0,085 1 0,770 1,267 0,259 6,193
E_civil(2) -0,508 1,016 0,250 1 0,617 0,602 0,082 4,412
E_civil(3) -0,223 0,914 0,059 1 0,807 0,800 0,133 4,800
E_civil(4) -0,316 1,082 0,085 1 0,770 0,729 0,088 6,077
Empleo 0,541 0,550 0,968 1 0,325 1,718 0,585 5,048
Vivienda 1,129 0,486 5,394 1 0,020 3,091 1,193 8,011
Paso 1a
Vehículo -0,047 0,509 0,009 1 0,926 0,954 0,352 2,589
Antecedentes 1,322 0,534 6,123 1 0,013 3,749 1,316 10,679
Cifras 0,393 2 0,822
Cifras(1) 0,352 0,708 0,248 1 0,619 1,422 0,355 5,698
Cifras(2) -0,075 0,496 0,023 1 0,879 0,928 0,351 2,452
Tasa(1) -0,538 0,511 1,110 1 0,292 0,584 0,215 1,588
Constante -1,432 0,964 2,207 1 0,137 0,239
Al igual que en el modelo de regresión múltiple el programa SPSS presenta en el modelo de regresión
logística binaria varios métodos para su análisis entre estos, el método Intro, el método de Wald
hacia adelante, hacia atrás, etc.
12.5. PROCESO CORRELACIÓN
Se puede obtener el coeficiente de correlación entre varias variable de carácter cuantitativo

utilizando el programa SPSS, para lo cual el usuario deberá desarrollar el proceso
Analizar/Correlaciones/bivariadas de esta manera se desplegará la siguiente ventana:
En esta ventana el usuario deberá colocar en el campo Variables aquellas variables cuantitativas que
intervienen en el análisis; por defecto el programa devuelve el coeficiente de correlación de Pearson,
pudiendo también entrega el coeficiente de Kendall y el Spearman.
pág. 117
Al dar un clic en el botón Opciones se despliega una ventana que sugiere al usuario la obtención de
estadísticos como también el nivel de confiabilidad para la inferencia estadística del coeficiente;
finalmente al dar un clic en el botón Aceptar se desplegará un cuadro de resultados a manera de
tabla cruzada en la cual se registran los coeficientes de correlación entre las variables involucradas.
Años de
Cargas Estatura Sueldo del Peso en
servicio en la
familiares en m empleado libras
Empresa
Años de Correlación de Pearson 1,00 0,03 -0,11 0,06 0,09
servicio en Sig. (bilateral) 0,70 ,19 0,46 ,28
la Empresa N 150 150 150 150 150
Correlación de Pearson 0,03 1,00 -0,02 0,05 -0,01
Cargas
Sig. (bilateral) 0,70 0,77 0,56 ,86
familiares
N 150 150 150 150 150
Correlación de Pearson -0,11 -0,02 1,00 0,03 0,04
Estatura
Sig. (bilateral) ,19 ,77 0,70 ,60
en m
N 150 150 150 150 150
Correlación de Pearson 0,06 0,05 0,03 1,00 0,01
Sueldo del
Sig. (bilateral) 0,46 0,56 0,70 0,94
empleado
N 150 150 150 150 150
Correlación de Pearson 0,09 -0,01 0,04 0,01 1,00
Peso en
Sig. (bilateral) 0,28 ,86 ,60 0,94
libras
N 150 150 150 150 150
pág. 118
BIBLIOGRAFIA
1. ANDERSON David, SWEENEY Dennis, WILLIAMS Thomas, “Estadística para Administración y

Economía”, Editorial Thomson Learning México 1999.
2. HERRERA Aráuz Daniel, “Probabilidad, Combinatoria y Distribuciones de Probabilidad”,

Edición virtual CEDICPAED, Ecuador 2017.
3. IBM, “Manual de usuario SPSS versión 23”, España, 2010
4. LEVIN Richard I., “Estadística para Administradores”, Editorial Prentice/Hall Internacional,

México, 1982.
5. LIND Douglas, Marchal Williams, Wathen Samuel, “Estadística aplicada a los Negocios y la
Economía”, Editorial McGraw Hill, Colombia 2008.
6. MENDENHALL William, “Introducción a la Probabilidad y Estadística”, Grupo editorial

Iberoamérica, México, 1987.
7. QUEZADA Lucio Nel, “Estadística con SPSS”, Empresa Editora Macro, Perú, 2012.
8. SHELDON M. Ross “Probabilidad y Estadística para Ingenieros”, Editorial Mc Graw-Hill

México 2001.
9. SPIEGEL Murray R. “Estadística”, Editorial Mc-Hill Schaum, Colombia, 1980.
10. STEVENSON William J. “Estadística para Administración y Economía”, Editorial Harla,

México, 1988.
11. WEBSTER Allen L. “Estadística aplicada a los Negocios y la Economía”, Editorial McGraw Hill,
Colombia 2000.
12. YAMANE Taro, “Estadística”, Editorial Harla, México, 1992.

ACERCA DEL AUTOR.-
Daniel Herrera Aráuz (Quito, 1960) es Ingeniero Civil y Magister en Docencia Matemática,
títulos otorgados por la Facultad de Ingeniería, Ciencias Físicas y Matemática de la Universidad
Central del Ecuador; además tiene el título de Diplomado Superior en Gestión de Proyectos,
otorgado por la Facultad de Ciencias Económicas de la misma universidad.
Desde marzo de 1990 hasta diciembre de 2014, ejerció las funciones de Fiscalizador de Obras
de Agua Potable y Saneamiento en la Empresa Pública Metropolitana de Agua potable y
Saneamiento de Quito, EPMAPS.
Desde noviembre de 1993 hasta la presente fecha es profesor de Matemáticas, Estadística e
Investigación Operativa de la Facultad de Ciencias Administrativas de la Universidad Central
del Ecuador.
A nivel de posgrado, Profesor de Matemática Aplicada, Matemática Financiera y Estadística en
la Facultad de Ingeniería en la Universidad Central del Ecuador, En el Instituto de Altos
Estudios Nacionales IAEN, en la Dirección General de Posgrados de la Universidad Tecnológica
Equinoccial UTE y de la Facultad de Ingeniería Civil de la Universidad Técnica Particular de Loja,
UTPL.
Instructor de Excel, SSPS y Ms Project en el Centro de Educación Continua de la Facultad de
Ciencias Administrativas de la Universidad Central del Ecuador, en el Centro de Educación
Continua de la Escuela Politécnica Nacional, en el Centro de Educación Continua de la
Universidad Tecnológica Equinoccial y en el Centro de Actualización de Conocimientos del
Colegio de Ingenieros Civiles de Pichincha.
Publicaciones Académicas:
 Matemática Financiera, Editorial Alfaomega, Colombia, 2017.

 Probabilidad, Combinatoria y Distribuciones de Probabilidad, formato digital, 2017.
 Solucionario de Problemas propuestos del Texto de Probabilidad, Combinatoria y
Distribuciones de Probabilidad, formato digital, 2017.
 Estadística con SPSS, formato digital, 2017.
 Prácticas de Laboratorio de Estadística con SPSS, formato digital, 2017.
Comentarios: danielherrera_1960@hotmail.com
www.cedicaped.com
Pedidos a: 0992745563; 022801667; 023444480

Estadistica Con SPSS

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Estadistica Con SPSS

Uploaded by

Copyright:

Available Formats

DANIEL HERRERA ARÁUZ

ESTADÍSTICA CON SPSS

 Nociones básicas de Estadística.

Al igual que las publicaciones anteriores: Matemática Financiera y Probabilidad, Combinatoria y

A criterio del autor, en la actualidad, la enseñanza de la Estadística no puede desarrollarse sin la

Daniel Herrera Aráuz

La historia de la Estadística es la historia de la humanidad, desde comienzos de la civilización, el

 El primero contiene dos Censos de la población de Israel.

Un estudio similar sobre la tasa de mortalidad en la ciudad de Breslau, en Alemania, realizado en

Jean Baptiste Colbert.-

No se puede separar el desarrollo de la Estadística de la historia del Cálculo de la Probabilidad. En

La Estadística y el Desarrollo Industrial.-

En el desarrollo de la humanidad, la Estadística se ha constituido en uno de los soportes más

NOCIONES BÁSICAS DE ESTADÍSTICA

2. ORGANIZACIÓN Y PRESENTACIÓN DE LOS DATOS .................................................................. 7

3. ESTADÍSTICA DESCRIPTIVA .................................................................................................. 14

3.1.1. DATOS NO AGRUPADOS ................................................................................................ 14

3.2. MEDIDAS DE POSICIÓN EN UNA DISTRIBUCIÓN DE FRECUENCIA ........................................ 17

3.2.1. PRINCIPIO FUNDAMENTAL ............................................................................................ 18

3.3. MEDIDAS DE DISPERSIÓN ...................................................................................................... 19

3.3.1. RANGO ........................................................................................................................... 19

3.4. MEDIDAS DE ASIMETRÍA ....................................................................................................... 21

4. DISTRIBUCIONES DE PROBABILIDAD .................................................................................... 23

5. MÉTODOS DE MUESTREO .................................................................................................... 28

6. DISTRIBUCIÓN DE MUESTREO ............................................................................................. 29

7. TEORÍA DE ESTIMACIÓN ESTADÍSTICA.................................................................................. 31

9. PRUEBAS DE HIPÓTESIS PARA LA MEDIA Y PROPORCIÓN POBLACIONAL............................... 36

10. INFERENCIAS EN DOS POBLACIONES .................................................................................... 38

11. ANÁLISIS DE VARIANZA ....................................................................................................... 42

12. PRUEBAS NO PARAMÉTRICAS.............................................................................................. 48

13. MODELO DE REGRESIÓN Y COEFICIENTE DE CORRRELACIÓN LINEAL ..................................... 50

14. MODELO NO LINEAL Y EXPONENCIAL................................................................................... 54

14.5.1. ECUACIÓN DEL MODELO LOGÍSTICO ............................................................................. 55

1.1. DEFINICIÓN DE ESTADÍSTICA

Es la ciencia que trata de los métodos de recolección, organización y resumen de la información

1.2. CLASIFICACIÓN DE LA ESTADÍSTICA

Para su estudio, es conveniente clasificar a la estadística de la siguiente manera:

Estadística Descriptiva: Estudia los métodos de recolección, organización y resumen de la

De la definición de Estadística Inferencial, es conveniente tomar en cuenta las palabras: Población y

Comúnmente, se conoce como población, a un grupo humano que ha nacido o se ha asentado en

1. Electores inscritos en el padrón electoral del Cantón Quito.

2. Datos mensuales relacionados con el número de niños nacidos vivos en la maternidad de la

3. Reporte de las utilidades mensuales de una empresa de transporte pesado.

Dentro de la Estadística, la muestra es un subconjunto de la población; es decir, un conjunto formado

2. Número de barriles de petróleo exportados por el Ecuador que fueron explotados en la

3. Un grupo de niños nacidos en la maternidad de la ciudad, que vinieron al mundo el mes de

En conclusión, la muestra, es un subconjunto representativo tomado de una población.

1.5. MUESTRA VS POBLACIÓN

Como se indicó en la definición de Estadística Inferencial, los métodos estadísticos inferenciales

En algunas ocasiones, el análisis de los elementos de una muestra, requiere de la destrucción o

1.6. VARIABLES O DATOS ESTADÍSTICOS

Los datos estadísticos se presentan de dos maneras:

1. El número de mujeres que participaron en la encuesta realizada en el cantón Atacames es de

Los datos cuantitativos se presentan de dos maneras:

Esta clasificación de datos de variable cuantitativa en discreta y continua, permitirá más

1.7. ESTADÍSTICOS Y PARÁMETROS

Medida estadística Estadístico Parámetro

2. ORGANIZACIÓN Y PRESENTACIÓN DE LOS DATOS

2.1. ORDENAMIENTO DE LOS DATOS

2.2. DISTRIBUCIÓN DE FRECUENCIAS SIMPLE.- VARIABLE CUALITATIVA

Sexo del empleado

a. Gráfico de barras verticales u horizontales,

El gráfico de barras verticales es una representación cartesiana de la variable de estudio, en el eje