You are on page 1of 100

PROGRAMA DIGNIFICACIN DEL MAGISTERIO Y DESARROLLO PROFESIONAL

DE DIRECTIVOS Y DOCENTES


PROYECTO
PROGRAMA DE ESPECIALIZACIN DOCENTE PARA LA ENSEANZA DE LENGUAJE Y LITERATURA,
ESTUDIOS SOCIALES, MATEMTICA, BIOLOGA, QUMICA Y FSICA PARA DOCENTES DE EDUCACIN
MEDIA Y TERCER CICLO DE EDUCACIN BSICA.

(POSTGRADO PARA DOCENTES DE EDUCACIN MEDIA)

Matemtica
MATERIAL DE APOYO - CURSO 7


ESTADSTICA





San Salvador, Septiembre-Noviembre 2011


Ministerio de Educacin
Direccin Nacional de Educacin
Gerencia de Gestin Pedaggica
Escuela Superior de Maestros
REPBLICA DE EL SALVADOR
MINISTERIO DE EDUCACIN
DIRECCIN NACIONAL DE EDUCACIN



Mauricio Funes
Presidente de la Repblica de El Salvador

Salvador Snchez Cern
Vicepresidente de la Repblica de El Salvador y
Ministro de Educacin Ad-honoren

Eduardo Bada Serra
Viceministro de Educacin

Erlinda Handal
Viceministra de Ciencia y Tecnologa

Sandra Alas Guidos
Directora Nacional de Gestin Departamental

Lorena Duque de Rodrguez
Directora Nacional de Educacin

Lorena Janet Serrano de Lpez
Gerencia de Gestin Pedaggica

Luis Armando Gonzlez Gonzlez
Director General de Escuela Superior de Maestros ESMA

Rolando Lemus Gmez
Coordinador de Matemtica

REPBLICA DE EL SALVADOR
MINISTERIO DE EDUCACIN
DIRECCIN NACIONAL DE EDUCACIN




INTRODUCCIN.

El Ministerio de Educacin, consciente de la necesidad de fortalecer las competencias de los
docentes al nivel de Educacin Media y Tercer Ciclo, ofrece el programa de Formacin Docente en
las asignaturas de: Lenguaje y Literatura, Estudios Sociales, Matemtica, Biologa, Qumica y Fsica.
El programa de Formacin Docente responde a necesidades de actualizacin y especializacin
docente y en coherencia con el Plan Social Educativo 2009-2014, a la lnea estratgica Dignificacin
del Magisterio y Desarrollo Profesional.
Este programa tiene como propsito contribuir a la cualificacin del desarrollo profesional y
desempeo docente, por consiguiente al mejoramiento de los aprendizajes de los educandos.



OBJETIVO GENERAL.

Contribuir al desarrollo profesional docente del profesorado del pas, en el manejo de contenidos
y herramientas pedaggicas necesarias para mejorar su desempeo en el aula.
Garantizar el desarrollo de aprendizajes significativos en los educandos a travs de prcticas
docentes exitosas.
Cualificar la oferta formativa de los docentes en servicio del Ministerio de Educacin a travs de
cursos especializados que garanticen las buenas prcticas pedaggicas.



OBJETIVOS ESPECFICOS.

Mejorar en el corto y mediano plazo los conocimientos y el uso de herramientas pedaggicas de
los maestros y maestras del sector pblico, en las asignaturas bsicas del currculo.
Fortalecer el desarrollo de conocimientos especializados en las diferentes reas, que permitan al
docente una eficiente aplicacin de los programas de cada asignatura.
Desarrollar cursos que permitan la especializacin docente en las asignaturas bsicas de acuerdo
en nivel que ejerce el docente.
Facilitar el acceso a fuentes actualizadas del conocimiento para introducir a las instituciones
educativas en los cambios generados por el avance de la ciencia y la tecnologa.
FORMACIN DOCENTE MATEMTICA - Curso 7

1
(Para impresin sta pgina debe quedar en blanco)


Ministerio de Educacin
Direccin Nacional de Educacin
Gerencia de Gestin Pedaggica
Escuela Superior de Maestros
MDULO ESTADSTICA
Equipo de diseo:
Rolando Lemus Gmez (Coordinador)
Francisco Asdrubal Hernndez Ramrez
Camilo Salvador Ernesto Zamora Castro
Jose Ren Palacios Barrera
Pedro Armando Ramos Alberto
Ricardo Salvador Ros Mrquez
Walter Otoniel Campos Granados
Ingrid Carolina Martnez Barahona
Jos Nerys Funes Torres
Oscar Hernn Lemus Gmez
Armando Figueroa Morales
Oscar de Jess Aguila Chvez
Carlos Ernesto Gmez Rodrguez
Marcelino Meja Gonzlez
Jos Henry Garca Flores
Jorge Alberto Martnez Gutirrez
San Salvador, Septiembre-Noviembre 2011
Resumen
La estadstica es una de las herramientas ms ampliamente utilizadas en la investigacin cientca.
Su aplicacin en instituciones gubernamentales y educativas, en los negocios y en la industria, en la
banca y en otros quehaceres diarios hacen de la estadstica una herramienta indispensable.
Sin embargo el trmino Estadstica tiene varios signicados para diferentes personas; para la gente
comn y corriente la estadstica solamente signica nmeros. En el periodo de la maana se pueden encontrar
la estadstica ms reciente sobre los delitos en el pas; de asesinatos, de robos de automviles; de asaltos y
dems delitos que hayan sido denunciados en determinado periodo de tiempo; de la situacin econmica sobre
la canasta bsica, el empleo, el precio de la gasolina; sobre la actuacin del gabinete del actual gobierno; o en
relacin con el deporte, el nmero de partidos ganados y perdidos por equipos de la liga mayor de futbol.
Para otras personas es un mtodo para obtener, presentar y escribir grandes cantidades de datos, y para
otras es un mtodo para tomar decisiones en situaciones bajo incertidumbre.
El objetivo bsico de este material de apoyo para el Mdulo de Estadstica es aclarar los signicados
de Estadstica, denir sus conceptos bsicos utilizados con frecuencia, estudiar el proceso de anlisis estads-
tico en la investigacin educativa con ayuda del computador, y evidenciar los usos y abusos de los mtodos
estadsticos.
Aunque los signicados sean diferentes, todos ellos forman parte del concepto total de Estadstica. La
palabra tiene su sentido ms amplio para aquellas personas cuyo trabajo requiere un conocimiento de los
aspectos ms tcnicos de la estadstica. Para estas personas, la palabra tiene relacin con aquellos mtodos
y tcnicas que se utilizan en la formulacin del problema a investigar, la recopilacin de los datos, su
organizacin y presentacin, su resumen a travs de medidas, su anlisis, interpretacin y comunicacin de
la informacin o modelo para obtener conclusiones que enriquezcan nuestro conocimiento de la realidad y
nuestra capacidad para transformarla.
La computadora y, estos mtodos y tcnicas juegan un papel importante en las actividades que realizan
los profesionales de todas las ciencias, y en especial los docentes de educacin media, del sistema de educacin
nacional, ya que la Estadstica contribuye al conocimiento de las condiciones siolgicas, psicolgicas y
sociales de los alumnos y de los docentes. Al perfeccionamiento de los mtodos de enseanza y de evaluacin.
NDICE 1
ndice
1. Introduccin a la estadstica. 6
1.1. Resea histrica de la estadstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2. Importancia de la estadstica y denicin. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.1. Qu es investigar en educacin? . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2.2. Particularidades de la investigacin educativa. . . . . . . . . . . . . . . . . . . . . . . 10
1.3. La investigacin educativa y su relacin con la estadstica. . . . . . . . . . . . . . . . . . . . 10
2. Conceptos bsicos 13
2.1. Aleatoriedad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2. Poblacin, muestra, parmetro y estadstico. . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.3. Variables y tipos de variables. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.4. Medicin de variables y escalas de medicin. . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.5. Tipos de escalas de medicin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3. Fuentes y recoleccin de datos. 19
3.1. Fuentes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.2. Tcnicas e instrumentos de recoleccin de datos . . . . . . . . . . . . . . . . . . . . . . . . . 20
4. Organizacin y presentacin de los datos. 22
4.1. Presentacin de datos en tablas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4.2. Distribuciones de frecuencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4.3. Presentacin de datos en grcos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.4. Representacin Grca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.5. Representaciones para variables cualitativas o Categricas . . . . . . . . . . . . . . . . . . . 25
4.6. Representaciones para variables cuantitativas sin agrupamiento . . . . . . . . . . . . . . . . . 27
4.7. Representaciones para variables cuantitativas agrupadas . . . . . . . . . . . . . . . . . . . . . 28
5. Resumen de datos 32
5.1. Medidas de Centralizacin. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
5.1.1. Moda , M
o
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
5.1.2. Mediana , M
d
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
5.1.3. Media ,

X . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
5.2. Medidas de Posicin. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
5.2.1. Cuartiles, Q
i
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
5.2.2. Deciles, D
i
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5.2.3. Centiles, C
i
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5.3. Medidas de Dispersin. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5.3.1. Rango o Recorrido, R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5.3.2. Desviacin Media, DM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.3.3. Varianza, S
2
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.3.4. Coeciente de variacin. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.3.5. Estadsticos de Asimetra. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
5.3.6. Estadstico de apuntamiento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
5.4. Diagrama de caja. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.5. Otros resmenes estadsticos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
5.6. Nmeros ndices: cambio de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
5.7. Algunos ndices demogrcos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
NDICE 2
5.7.1. Nacimientos brutos e ndice de mortalidad . . . . . . . . . . . . . . . . . . . . . . . . 46
5.8. Estandarizacin de indicadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.8.1. ndice de mortalidad estandarizado . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
6. Probabilidades 49
6.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
6.2. Resea Histrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
6.3. Conceptos Bsicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
6.4. Algebra de sucesos de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
6.5. Denicin de Probabilidad. Probabilidad de un evento . . . . . . . . . . . . . . . . . . . . . 54
6.6. Nociones Bsicas de Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
6.7. Teoremas de espacios probabilsticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
6.8. Probabilidades Condicionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
6.9. Leyes de Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
6.10. Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
7. Distribuciones de probabilidad 57
7.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
7.2. Conceptos Bsicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
7.3. Distribuciones de Probabilidad. Distribucin de Bernoulli . . . . . . . . . . . . . . . . . . . . 60
7.4. Distribucin de probabilidad Binomial, Valor Esperado y Varianza . . . . . . . . . . . . . . . 61
7.5. Distribucin Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
7.6. Distribucin Normal Estndar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
8. Muestreo 65
8.1. Algunas tcnicas probabilsticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
8.2. Muestreo aleatorio simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
8.3. Estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
8.4. Muestreo estraticado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
8.4.1. Muestreo Estraticado sin reposicin: Estimadores y errores . . . . . . . . . . . . . . 70
8.4.2. Muestreo Estraticado con reposicin: Estimadores y errores . . . . . . . . . . . . . . 70
8.4.3. Ajacin de la muestra: Tipos de ajacin y errores de los estimadores para muestreo
con reposicin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
8.5. Muestreo por conglomerados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
8.6. Muestreo sistemtico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
8.7. Nmeros Aleatorios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
8.7.1. Aleatorizacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
9. Inferencia estadstica 77
9.1. Estimacin puntual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
9.1.1. Propiedades deseables de los estimadores puntuales . . . . . . . . . . . . . . . . . . . 77
9.2. Estimacin por intervalo de conanza de medias y proporciones . . . . . . . . . . . . . . . . 77
9.2.1. Intervalo de conanza para la media poblacional, conocida (n 30) . . . . . . . . . 78
9.2.2. Intervalo de conanza para la media poblacional, es desconocida (n 30) . . . . . 79
9.2.3. Intervalo de conanza para estimar la diferencia de medias poblacionales (
x

y
) . 79
9.2.4. Estimacin por intervalo para proporciones . . . . . . . . . . . . . . . . . . . . . . . 80
9.2.5. Estimacin por intervalo para diferencias de proporciones . . . . . . . . . . . . . . . 80
9.2.6. Estimacin de para muestas pequeas (n < 30) . . . . . . . . . . . . . . . . . . . . 80
9.2.7. Intervalos de conanza para diferencia de medias poblacionales (n < 30) . . . . . . . 81
NDICE 3
9.2.8. Intervalos de conanza para una proporcin poblacional P (n < 30) . . . . . . . . . . 81
9.3. Prueba de hiptesis estadsticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
9.3.1. Denicin de pruebas de hiptesis y tipo de error . . . . . . . . . . . . . . . . . . . . 82
9.3.2. Procedimiento para probar hiptesis estadsticas . . . . . . . . . . . . . . . . . . . . 82
9.3.3. Prueba de hiptesis para muestras grandes . . . . . . . . . . . . . . . . . . . . . . . . 83
9.3.4. Prueba de hiptesis para muestras pequeas y distribucin t de Student . . . . . . . . 85
10. Distribuciones bidimensionales 86
10.1. Tablas de contingencia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
10.1.1. Contraste de independencia de caracteres. . . . . . . . . . . . . . . . . . . . . . . . . 87
10.1.2. Distribuciones marginales y condicionales. . . . . . . . . . . . . . . . . . . . . . . . 89
10.2. Correlacin y prediccin. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
10.3. Modelos de regresin lineal: Lnea de tendencia. . . . . . . . . . . . . . . . . . . . . . . . . 91
10.4. Estimacin de los parmetros por mnimos cuadrados . . . . . . . . . . . . . . . . . . . . . . 92
10.4.1. Ejemplos. Regresin lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
LISTA DE TABLAS 4
Lista de tablas
1. Diferentes formas de medir la presencia del hbito tabquico. . . . . . . . . . . . . . . . . . . . . . 19
2. Distribucin de frecuencias simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3. Distribucin de frecuencia agrupada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4. Resumen de las decisiones que el investigador puede tomar en la prueba de hiptesis . . . . . 82
5. Prueba de hiptesis para . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
6. Prueba de hiptesis para P . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
7. Prueba de hiptesis para en muestras pequeas . . . . . . . . . . . . . . . . . . . . . . . . 85
8. Prueba de hiptesis para P en muestras pequeas . . . . . . . . . . . . . . . . . . . . . . . . 86
LISTA DE FIGURAS 5
Lista de guras
1. Etapas que comprende la investigacin educativa . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2. La estadstica en la investigacin educativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3. Relacin poblacin, muestra, parmetro y estadstico . . . . . . . . . . . . . . . . . . . . . . . . . 15
4. Clasicacin de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
5. Clasicacin segn el nmero de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
6. Diagrama de tcnicas e instrumentos para la recoleccin de datos . . . . . . . . . . . . . . . . . . . 20
7. Grco de barras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
8. Grco de pastel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
9. Pictograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
10. Grco de barras para las notas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
11. Polgono de frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
12. Gasto en lea . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
13. Ayuda en remesas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
14. Poligono de frecuencias acumuladas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
15. Serie temporal para el ujo de remesas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
16. Medidas representativas de un conjunto de datos estadsticos . . . . . . . . . . . . . . . . . . 33
17. La mediana es el punto de corte de la ojiva creciente con la decreciente . . . . . . . . . . . . . 34
18. Posibles ubicaciones de las medidas de centralizacin en un conjunto de datos . . . . . . . . . 36
19. Distribuciones de frecuencias simtricas y asimtricas . . . . . . . . . . . . . . . . . . . . . . 40
20. Uso de los cuartiles para medir la asimetra. . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
21. Apuntamiento de distribuciones de frecuencia. . . . . . . . . . . . . . . . . . . . . . . . . . . 42
22. Intervalo de conanza para con conocido . . . . . . . . . . . . . . . . . . . . . . . . . . 78
23. Interpretacin del nivel de conanza en un intervalo para la media de una distribucin normal . 79
24. Diagrama de dispersin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
1 INTRODUCCIN A LA ESTADSTICA. 6
1. Introduccin a la estadstica.
Como dijera Huntsberger: La palabra estadstica a menudo nos trae a la mente imgenes de nmeros apilados
en grandes arreglos y tablas, de volmenes de cifras relativas a nacimientos, muertes, impuestos, poblaciones,
ingresos, deudas, crditos y as sucesivamente. Huntsberger tiene razn pues al instante de escuchar esta pal-
abra estas son las imgenes que llegan a nuestra cabeza.
La Estadstica es mucho ms que slo nmeros apilados y grcas bonitas. Es una ciencia con tanta antigedad
como la escritura, y es por s misma auxiliar de todas las dems ciencias.
La ausencia de sta conllevara a un caos generalizado, dejando a los investigadores, administradores y ejecu-
tivos sin informacin vital a la hora de tomar decisiones en tiempos de incertidumbre.
La interpretacin de esta informacin puede resultar una tarea difcil, si adems recordamos cuntas veces se
nos pretende manipular con ella. Para la obtencin, interpretacin y evaluacin de toda esta informacin resulta
indispensable el conocimiento de los mtodos estadsticos.
La estadstica pretende determinar formas ecientes de obtener informacin sobre un fenmeno o poblacin
y cmo analizar dicha informacin para hacer inferencias sobre la poblacin, siempre tomando en cuenta la
presencia de perturbaciones originadas por el azar, ya sean inherentes al objeto de estudio o debidas a errores
de medicin. Los mtodos y conceptos que desarrolla la estadstica pueden aplicarse, con las modicaciones
adecuada, en muchos campos diferentes: como la medicina, la biologa, la ingeniera, la educacin, la industria,
los gobiernos, etc.
La Estadstica que conocemos hoy en da debe gran parte de su realizacin a los trabajos matemticos de aquel-
los hombres que desarrollaron la teora de las probabilidades, con la cual se adhiri a la Estadstica a las ciencias
formales.
1.1. Resea histrica de la estadstica
Los comienzos de la estadstica pueden ser hallados en el antiguo Egipto, cuyos faraones lograron recopilar,
hacia el ao 3050 antes de Cristo, prolijos datos relativos a la poblacin y la riqueza del pas. De acuerdo al
historiador griego Herdoto, dicho registro de riqueza y poblacin se hizo con el objetivo de preparar la con-
struccin de las pirmides. En el mismo Egipto, Ramss II hizo un censo de las tierras con el objeto de vericar
un nuevo reparto.
En el antiguo Israel la Biblia da referencias, en el libro de los Nmeros, de los datos estadsticos obtenidos en
dos recuentos de la poblacin hebrea. El rey David por otra parte, orden a Joab, general del ejrcito hacer un
censo de Israel con la nalidad de conocer el nmero de la poblacin.
Tambin los chinos efectuaron censos hace ms de cuarenta siglos. Los griegos efectuaron censos peridica-
mente con nes tributarios, sociales (divisin de tierras) y militares (clculo de recursos y hombres disponibles).
La investigacin histrica revela que se realizaron 69 censos para calcular los impuestos, determinar los dere-
chos de voto y ponderar la potencia guerrera.
Pero fueron los romanos, maestros de la organizacin poltica, quienes mejor supieron emplear los recursos
de la estadstica. Cada cinco aos realizaban un censo de la poblacin y sus funcionarios pblicos tenan la
obligacin de anotar nacimientos, defunciones y matrimonios, sin olvidar los recuentos peridicos del ganado
y de las riquezas contenidas en las tierras conquistadas. Para el nacimiento de Cristo suceda uno de estos em-
padronamientos de la poblacin bajo la autoridad del imperio.
Durante los mil aos siguientes a la cada del imperio Romano se realizaron muy pocas operaciones Estadsti-
cas, con la notable excepcin de las relaciones de tierras pertenecientes a la Iglesia, compiladas por Pipino el
Breve en el 758 y por Carlomagno en el 762 DC. Durante el siglo IX se realizaron en Francia algunos censos
parciales de siervos. En Inglaterra, Guillermo el Conquistador recopil el Domesday Book o libro del Gran
Catastro para el ao 1086, un documento de la propiedad, extensin y valor de las tierras de Inglaterra. Esa
obra fue el primer compendio estadstico de Inglaterra.
Aunque Carlomagno, en Francia; y Guillermo el Conquistador, en Inglaterra, trataron de revivir la tcnica ro-
1 INTRODUCCIN A LA ESTADSTICA. 7
mana, los mtodos estadsticos permanecieron casi olvidados durante la Edad Media.
Durante los siglos XV, XVI, y XVII, hombres como Leonardo de Vinci, Nicols Coprnico, Galileo, Neper,
William Harvey, Sir Francis Bacon y Ren Descartes, hicieron grandes aportaciones al mtodo cientco, de tal
forma que cuando se crearon los Estados Nacionales y surgi como fuerza el comercio internacional exista ya
un mtodo capaz de aplicarse a los datos econmicos.
Entretanto, en el perodo del 1800 al 1820 se desarrollaron dos conceptos matemticos fundamentales para
la teora Estadstica; la teora de los errores de observacin, aportada por Laplace y Gauss; y la teora de los
mnimos cuadrados desarrollada por Laplace, Gauss y Legendre. A nales del siglo XIX, Sir Francis Gaston
ide el mtodo conocido por Correlacin, que tena por objeto medir la inuencia relativa de los factores sobre
las variables.
Hasta mediados del siglo XIX la palabra Estadstica se usaba con referencia a informaciones o datos de tipo
Socio-econmico sobre la realidad de un estado.
A nales del siglo XIX, con Galton y Karl Pearson nace la inferencia estadstica, como fruto del encuentro
entre la antigua Estadstica (de carcter descriptivo) y el clculo de probabilidades.
Karl Pearson, es considerado el fundador de la Ciencia Estadstica, por sus aportes en reas como la teora de
las distribuciones, teora de la correlacin, errores probables de estadsticos, distribucin Gi-Dos, sistemticas
aplicaciones realizadas junto a alumnos como Yule o Shepard a numerosos problemas reales, fundaron la re-
vista Biometrika publicaron numerosas tablas estadsticas. Tambin contribuyeron Neyman y Ego Pearson en
el rea de contraste de hiptesis y Ronald Aylmer Fisher con sus aportaciones en la estimacin y en la teora de
los modelos lineales.
En 1940, lo que hoy en da entendemos como inferencia estadstica ya estaba establecida. El clculo de prob-
abilidades, con las aportaciones de Misses y sobre todo de Kolmogorov, basados en los trabajos de Borel y
Lebesgue, constituye ya una teora matemtica rme con una base axiomtica. Los trabajos de Wald, Von New-
mann y Savage permiten un enfoque unicado de la Teora de Decisin Estadstica.
En la decada de los ochenta, se aplica la estadstica como herramienta para la mejora de procesos en la in-
dustria, y alcanza su auge con su utilizacin masiva en Japn bajo la losofa del Dr. Deming sobre calidad y
productividad.
Los progresos ms recientes en el campo de la Estadstica se reeren al ulterior desarrollo del clculo de prob-
abilidades, particularmente en la rama denominada indeterminismo o mecnica cuantica, se ha demostrado
que el indeterminismo fue reconocido en la Fsica como resultado de las investigaciones atmicas y que este
principio se juzga aplicable tanto a las ciencias sociales como a las fsicas.
1.2. Importancia de la estadstica y denicin.
La estadstica es una herramienta fundamental para la investigacin cientca o estudio de fenmenos inciertos
(aleatorios), ya que ha desarrollado mtodos
1
y tcnicas
2
estadsticas para apoyar el trabajo de los inves-
tigadores para describir lo que ven, tratar de explicar lo observado y usar esos conocimientos para predecir
eventos del mundo en que vivimos. Entre los problemas que se presentan en este proceso de investigacin, y
que trata de resolver la Estadstica podemos mencionar los siguientes:
1. La descripcin de datos:
Es muy poca la informacin til que podemos obtener simplemente observando una tabla de datos. Nece-
sitamos, entonces, procedimientos para resumir ecientemente la informacin ya sea de tipo grco o
numrico. En este caso suele hablarse de Estadstica Descriptiva.
1
Mtodo es una palabra que proviene del griego methodos, meta, y odos, va y que se interpreta como la va con la cual se logra
algo y que se puede generalizar como un modo razonado de obrar.
2
Del griego tchne, que signica arte, la tcnica es un conjunto de saberes prcticos o procedimintos para obtener el resultado
deseado. La tnica requiere de destreza manual y/o intelectual, generalmente con el uso de herramientas.
1 INTRODUCCIN A LA ESTADSTICA. 8
2. La eleccin y anlisis de muestras:
Al estudiar una poblacin o fenmeno, en general es imposible (o muy costoso) obtener informacin
sobre todos los elementos de la poblacin o repetir un nmero grande de veces un experimento. Por con-
siguiente, nos vemos en la necesidad de usar informacin parcial, y deseamos que est sea lo mejor posi-
ble. Nos enfrentamos, entonces, al problema de cmo elegir un subconjunto signicativo de la poblacin
(Teora de Muestreo) o de cmo disear un experimento que nos proporcione la mayor cantidad posible
de informacin sobre el fenmeno de inters (Diseo de Experimentos). As mismo, deseamos utilizar
est informacin parcial para obtener inferencias sobre el total de la poblacin o fenmeno estudiado en
base a los resultados de la muestra. Para ello, suponemos que el azar afecta los resultados que hemos
obtenido y empleamos Modelos Probabilsticos.
3. El contraste o prueba de Hiptesis:
Cuando se desea probar la validez de alguna hiptesis, es necesario recabar informacin que sea per-
tinente a dicha hiptesis y que nos permita observar el fenmeno de particular inters. Para ello, es
necesario en general el Diseo de Experimentos con el n de obtener informacin relevante al problema.
De la misma manera, una vez recabada dicha informacin, es necesario disponer de mtodos que permi-
tan la interpretacin de los resultados, es decir, que permitan decidir si la informacin obtenida apoya o
contradice la hiptesis planteada.
4. La medicin de relaciones entre variables:
En muchos casos es interesante estudiar las relaciones entre las diferentes variables que intervienen en
el problema. Por ejemplo, cmo se relaciona el tabaquismo con el nmero de horas dedicadas a estudiar,
o cul es el efecto de la alimentacin sobre el incremento de peso de los pollos en una granja avcola.
De esta manera, al conocerse una de las variables puede predecirse el valor de la otra. Para hacer esto,
recurrimos al ajuste de modelos Modelos Probabilsticos, pues suponemos la presencia de perturbaciones
en los datos, las cuales atribumos al azar.
5. La prediccin:
En muchas ocasiones deseamos predecir eventos futuros, como por ejemplo cul ser el precio de un bar-
ril de petroleo durante el prximo ao, o cunto alcanzar la inacin. La estadstica desarrolla metodos
para realizar estas predicciones dentro de ciertos mrgenes de error conocidos.
6. La decisin:
Ante cualquier situacin, distintas decisiones producirn ganancias o prdidas diferentes. Cmo pode-
mos elegir aquella decisin o lnea de accin que produzca la mayor ganancia esperada? A esta rama de
la Estadstica suele denominrsele Teoria de Decisin.
Denicin:
ESTADSTICA
Es una ciencia interdisciplinar que utiliza un conjunto de tcnicas y mtodos para recoger, preparar,
organizar, resumir, hallar regularidades, analizar e interpretar datos del fenmeno en estudio, siempre
y cuando la variabilidad e incertidumbre sea una causa intrnseca de los mismos; con el n de obtener
conclusiones o hacer predicciones sobre el fenmeno y tomar decisiones ms acertadas.
Qu son los mtodos estadsticos?
Son tcnicas y mtodos estadsticos con los que se toman decisiones basadas en el anlisis de datos recopilados
en experimentos de diseo minucioso. Puesto que los experimentos no pueden disearse para tener en cuenta
toda posible contingencia, siempre existe algo de incertidumbre en la ciencia experimental. Los mtodos es-
tadsticos estn ideados para permitir la evaluacin del grado de incertidumbre de los resultados.
Es posible clasicar los mtodos estadsticos de manera general en tres categoras: estadstica descriptiva, es-
tadstica inferencial y construccin de modelos.
1 INTRODUCCIN A LA ESTADSTICA. 9
La estadstica descriptiva, actualmente tambin conocida como Anlisis Exploratorio de Datos (AED), se puede
denir como los mtodos que permiten recoger, organizar, representar, resumir y analizar una o varias carac-
tersticas de todos los individuos u objetos de un conjunto con la nalidad de explicar en forma apropiada las
relaciones de interdependencia y dependencia de las caractersticas, de dicho conjunto.
A la estadstica inferencial o inferencia estadstica le conciernen los mtodos que hacen posible obtener con-
clusiones relevantes y vlidas sobre un grupo o conjunto de objetos, al estudiar nicamente una porcin o
subconjunto de los elementos de dicho grupo. La conabilidad de las conclusiones basadas en los datos puede
ser evaluada objetivamente por medio del uso de la probabilidad, ya que la teora de la probabilidad permite
pasar de datos especcos a conclusiones generales. Este concepto conlleva a la denicin de poblacin y de
muestra que se har ms adelante.
Por otra parte la construccin de modelos comprende los mtodos estadsticos que buscan encontrar una ley,
mediante el el desarrollo de ecuaciones predictivas a partir de datos experimentales, que explique tanto la parte
sistemtica o previsible del fenmeno en estudio como la parte aleatoria del mismo.
No se trata de categoras mutuamente excluyentes. Dicho de otra manera, los mtodos creados para solucionar
problemas en un rea suelen tener aplicacin en otra.
1.2.1. Qu es investigar en educacin?
En el campo educativo, como en el resto de las ciencias, la investigacin se ha constituido en una actividad
precisa y elemental. Por este motivo, se ha originado la investigacin educativa, como disciplina que trata las
cuestiones y problemas relativos a la naturaleza, epistemologa, metodologa, nes y objetivos en el marco de
la bsqueda progresiva de conocimiento en el mbito educativo. [?]
Los orgenes de la investigacin educativa se sitan a nes del siglo XIX, cuando en pedagoga se adopta la
metodologa cientca. Esta investigacin, como disciplina de base emprica, se llam primeramente pedagoga
experimental, designacin similar a la de psicologa experimental, utilizada por Wundt en 1880.
La pedagoga experimental nace en un contexto histrico-social en el cual se resalta el inters por aanzar la
educacin sobre fundamentos empricos e incorporar el mtodo experimental en las ciencias humanas.
Segn los estudios de Buyse (1949), se pueden diferenciar tres inuencias principales en la pedagoga ex-
perimental: el pensamiento losco reinante en el siglo XIX, el surgimiento de la pedagoga cientca y el
crecimiento de la metodologa experimental.
El pensamiento losco imperante en el siglo XIX, se caracteriz por corrientes loscas que fueron funda-
mentales para la independencia de las ciencias sociales, contribuyendo en gran medida a dotar de cienticidad
a la pedagoga. Estas corrientes son el positivismo, cuyo representante es Comte; el pragmatismo, representado
por James; el sociologismo de Durkheim; y el experimentalismo de Dewey.
El surgimiento de la pedagoga cientca, basada en la experimentacin, fue otro factor de importancia para
el desarrollo de la pedagoga experimental. Esto se produce gracias a los aportes del racionalismo del siglo
XVIII; el crecimiento de las ciencias naturales con la contribucin de las ideas de Darwin, Cournot y de Bain;
la publicacin de las obras de autores como C.Bernard, Galton, Burt, Cattell y Rice, entre otros. Tambin son
destacables las ideas educativas de Rousseau, Pestalozzi, Froebel y Herbart para establecer los pilares empri-
cos de la educacin. (Arnal, J. y otros, 1994, Pg.24-25.) El desarrollo de la metodologa experimental es el
producto de numerosos elementos de carcter poltico, social y cultural. Se produce inicialmente en el rea de
la medicina y de la psicologa, para propagarse posteriormente al mbito educativo.
El concepto de investigacin educativa se ha ido modicando a medida que han surgido nuevos enfoques para el
tratamiento de los fenmenos educativos. Actualmente, son variados los signicados atribuidos a la expresin
Investigacin Educativa, dependiendo de la diversidad de objetivos y caractersticas que se le establecen. Esta
temtica nos conduce a abordar el siguiente apartado vinculado con los paradigmas en el estudio de los sucesos
educativos.
1 INTRODUCCIN A LA ESTADSTICA. 10
1.2.2. Particularidades de la investigacin educativa.
Frente a la investigacin en las ciencias naturales, la investigacin en el mbito educativo (como en todas las
ciencias sociales), presenta diversas particularidades que se relacionan justamente con la especicidad de los
fenmenos que estudia. Siguiendo el desarrollo realizado por J. Arnal, Del Rincn y Latorre sobre esta temti-
ca, podemos establecer las siguientes caractersticas de la Investigacin Educativa.
Los fenmenos educativos, debido a su complejidad, presentan una dicultad epistemolgica mayor, ya que
en los mismos interaccionan una diversidad de variables que no permiten un estudio preciso y exacto como el
que se realiza en las ciencias naturales. Cuestiones importantes de los hechos educativos (como son los valores,
signicados, intenciones y creencias) no son directamente observables ni susceptibles de experimentacin. En
el mbito educativo la conducta debe contextualizarse (Guba, 1982), esto hace difcil su generalizacin, porque
la misma debe estar desligada del contexto.
La diversidad de paradigmas existentes, conformados por supuestos, perspectivas tericas y metodologas dif-
ciles de armonizar y articular.(A diferencia de las ciencias naturales que se orientan por paradigmas integrados).
La variedad de metodologas que se utilizan, ya que las caractersticas de los hechos educativos generan la in-
strumentacin de mltiples mtodos y modelos de investigacin. (Cuestin relacionada con la diversidad de
paradigmas).
El carcter pluridisciplinar de los fenmenos educativos lleva a que su estudio requiera de los aportes coordi-
nados de diferentes disciplinas, como la psicologa, la sociologa, la pedagoga, etc.
La variacin de los fenmenos educativos en el tiempo y en el espacio no facilitan el proceso de generalizacin
y el establecimiento de regularidades. Esto hace ms complicado el alcance de uno de los objetivos de la cien-
cia.
El investigador (como en todas las ciencias sociales) forma parte del objeto de estudio que investiga. Esto pro-
duce que no pueda mantenerse neutral y ajeno a la problemtica educativa que investiga, lo cual no implica que
deba abandonar la necesidad de ser lo ms objetivo posible.
Se hace necesario aclarar que el concepto de investigacin educativa no tiene un marco denido y claro para
delimitar lo que es considerado propiamente de la disciplina. Esto exige mantener una actitud abierta hacia sus
diferentes modalidades y realizar un esfuerzo de claricacin.
1.3. La investigacin educativa y su relacin con la estadstica.
La investigacin educativa es investigacin cientca, por eso en su bsqueda de conocimiento objetivo se apoya
en el mtodo cientco. La observacin directa de los hechos, la bsqueda de evidencias que sustenten las ideas,
permiten alcanzar un conocimiento ms exacto y conable. La historia del hombre ha demostrado que este es
el mtodo ms seguro y productivo para obtener conocimiento. En el campo educativo la Estadstica contribuye
al conocimiento de las condiciones siolgicas, psicolgicas y sociales de los alumnos y de los profesores.
Al perfeccionamiento de los mtodos de enseanza y de evaluacin. Los investigadores, los educadores, los
profesionales, los grupos privados, las fundaciones, el gobierno y otros interesados que intentan entender y
explicar racionalmente los problemas o fenmenos del proceso educativo, siguen ms o menos las etapas del
procedimiento que se muestra en la siguiente gura.
1 INTRODUCCIN A LA ESTADSTICA. 11
Figura 1: Etapas que comprende la investigacin educativa
1. Seleccin del problema.
La idea o problema debe surgir de aspectos importantes para nuestras vidas. Es decir tiene que in-
teresarnos saber algo de nuestra cotidianeidad, pues este es nuestro principal punto de referencia y
conocimiento previo. Jams debe pensarse que una idea es estpida y descabellada. Una idea inicial
siempre es vaga y cargada de confusin pero eso no signica que no sea importante. No existen ideas
obvias que no deban ser consideradas. Lo obvio sin anlisis previo es prejuicio. El prejuicio es lo
opuesto a la verdadera ciencia, por lo tanto se debe tener mucho cuidado en este aspecto.
2. Revisin bibliogrca.
La idea o problema debe surgir de aspectos importantes para nuestras vidas. Es decir tiene que in-
teresarnos saber algo de nuestra cotidianeidad, pues este es nuestro principal punto de referencia y
conocimiento previo. Jams debe pensarse que una idea es estpida y descabellada. Una idea inicial
siempre es vaga y cargada de confusin pero eso no signica que no sea importante. No existen ideas
obvias que no deban ser consideradas. Lo obvio sin anlisis previo es prejuicio. El prejuicio es lo
opuesto a la verdadera ciencia, por lo tanto se debe tener mucho cuidado en este aspecto.
3. Las restantes etapas estan incluidas en el Proceso de Anlisis Estadstico que se detalla en la pgina 12.
La Investigacin Educativa presenta una serie de caractersticas particulares. La multiplicidad de los objetivos
y nes que pretende, la singularidad de los fenmenos que estudia y la pluralidad de los mtodos que emplea
son dimensiones que le otorgan especicidad propia a la vez que hacen ms compleja y ardua su descripcin y
estudio. El mtodo es un modo de abordar los problemas, siendo la naturaleza del objeto a estudiar, la que hace
recomendables posibles mtodos y tcnicas especcas.
La estadstica es una de las herramientas fundamentales en la aplicacin del mtodo cientco. As, cuando se
realiza un experimento y se miden determinadas variables como resultado del mismo (nivel de colesterol, peso,
etc.) y se desea sacar alguna conclusin del estilo de qu tratamiento es mejor o aumenta o disminuye el
peso, ser necesario realizar un anlisis estadstico de los datos.
Conclusiones basadas en la pura observacin de los resultados, o en la observacin de algunos estadsticos
descriptivos, tales como la media aritmtica o el valor mximo, pueden conducir a error y son inadmisibles en
la ciencia moderna. El motivo de ello es que al realizar cualquier medida en el transcurso de un experimento
siempre existe un componente muy importante debido al azar. La estadstica es, por lo tanto, un conjunto de
conocimientos y tcnicas que permiten cuanticar el azar.
La mayora de las veces el investigador quiere inferir resultados sobre toda una poblacin a partir de una mues-
tra reducida sobre la cual se llevar a cabo el experimento. Es importante conocer a priori cul es el tamao de
1 INTRODUCCIN A LA ESTADSTICA. 12
la muestra, lo cual depender estrechamente del tipo de anlisis estadstico que se realizar posteriormente, as
como de la precisin con la que se desea trabajar. A lo largo de este documento se hablar de los mtodos y
tcnicas estadsticas usadas ms frecuentemente en los anlisis y diseos estadsticos de investigaciones exper-
imentales, as como del clculo de los tamaos muestrales adecuados. El empleo de la estadstica dentro de la
investigacin basada en el uso del mtodo cientco, tanto en Ciencias Sociales como en aspectos administra-
tivos relacionados con la toma de decisiones resulta cada vez ms importante. En general, como veremos ms
adelante, se puede decir que la metodologa de investigacin determina la calidad de la informacin en la cual
se basan tanto la descripcin del comportamiento de variables e indicadores, como la toma de decisiones.
La estadstica es un campo del conocimiento que permite al investigador deducir y evaluar conclusiones acerca
de una poblacin a partir de la informacin proporcionada por una muestra, por medio de mtodos y tcnicas
necesarias para recolectar y analizar los datos requeridos en una investigacin, este procedimiento se denomina
Proceso de Anlisis Estadstico y se puede sintetizar en los siguientes pasos:
1. Formulacin del problema especco de la investigacin. En base al conocimiento conocimiento del
problema Problemtica, justicacin, antecedentes, y objetivos especcos, hiptesis.
2. Desarrollo de un mtodo para la obtencin de datos. Denir las caractersticas o variables a estudiar
y su operacionalidad; la obtencin de los datos puede requirir disear un experimento, disear chas,
disear un cuestionario, o extraerlos de una base de datos, para lo cual podra ser necesario denir: la
poblacin objetivo, la poblacin muestreada, la unidad de observacin, el marco de muestreo, el tamao
de la muestra muestra; y elegir el mtodo de seleccin de la muestra ms adecuado.
3. Recoleccin de los datos. Seleccionar las unidades a observar o medir y que integraran la muestra; disear
un plan para la recoleccin, preparar los materiales; y realizar el experimento, entrevista, o encuesta.
4. Organizacin y presentacin de los datos. Despus que los datos han sido recolectados, estos se pre-
sentan en su forma primaria, sin ninguna organizacin, lo que hace imposible el anlisis de ellos; en
consecuencia, se hace necesario clasicar estos datos, a travs de la revisin, el agrupamiento y pre-
sentacin. Revisin en la inspeccin de los formularios y de los registros donde se han reunido los datos
para corregir los errores, las respuestas ilgicas y encontrar las omisiones. Agrupamiento es volcar en
una sola hoja o base de datos todos los datos contenidos en los cuestionarios. La presentacin (tablas y
grcos) de los datos: Luego de la agrupacin de los datos estos se pueden presentar ordenados en tablas
cuadros y mediante de representaciones grcas.
5. Anlisis Estadstico. Despus de clasicar los datos, se encuentran en condiciones de ser analizados des-
de el punto de vista estadstico, haciendo uso de las medidas de las caractersticas, relaciones entre ellas
y de mtodos descriptivos e inductivos, simples y compuestos. Es decir, los datos obtenidos a travs de
la recoleccin se condensan, se estiman las medidas en funcin de la poblacin, se determinan sus rela-
ciones y se prueban las hiptesis. , para interpretar los resultados en funcin de los objetivos y preguntas
planteadas.
6. Interpretacin de los resultados. Consiste en traducir las medidas estadsticas obtenidas, de acuerdo al
lenguaje del fenmeno o hecho estudiado. Se interpretar lo hallado y emitir principios, leyes, etc.,
sobre el problema investigado.
7. Presentacin de los resultados. Se dan a conocer los resultados obtenidos considerando en lo posible
hacia quienes va dirigido, hacindolo en forma comprensible y efectiva. Esta presentacin puede hacerse
en forma: textual a travs de letras y smbolos algebraicos; tabular o semitabular a travs de los cuadros
estadsticos, grca a travs de esquemas y diagramas; y por medio de modicaciones de la forma grca
como son las formas pictricas.
2 CONCEPTOS BSICOS 13
El mtodo de investigacin que se apli-
ca al anlisis de problemas de nuestra
realidad esta basado en el proceso es-
tadstico planteado anteriormente y en
el uso de herramientas tecnolgicas, tal
como lo muestra la gura de la derecha.
Figura 2: La estadstica en la investigacin educativa
2. Conceptos bsicos
A n de ayudar al maestro en sus trabajos de investigacin, en esta seccin se revisa una serie de conceptos
bsicos para aplicar la estadstica.
2.1. Aleatoriedad
La aleatoriedad es un campo de denicin que, en matemticas, se asocia a todo proceso cuyo resultado no
es previsible ms que en razn de la intervencin del azar. La consecuencia de todo suceso aleatorio no puede
determinarse en ningn caso antes de que este se produzca. Por consiguiente, los procesos aleatorios quedan
englobados dentro del rea del clculo de probabilidad y, en un marco ms amplio en el de la estadstica. La
palabra aleatorio se usa para expresar una aparente carencia de propsito, causa, u orden. El diccionario del uso
del espaol, dene la cualidad de ser aleatorio como aquello que es incierto.
2.2. Poblacin, muestra, parmetro y estadstico.
El libro Women and Love: A Cultural Revolution in Progress (1987), de Shere Hite, tiene varios resultados
ampliamente citados:
El 84 % de las mujeres no estn satisfechas emocionalmente con sus relaciones (pgina 804).
El 70 % de las mujeres con cinco o ms aos de casadas tienen relaciones sexuales fuera del matrimonio
(pgina 856).
El 95 % de las mujeres informan de diversas maneras de acoso emocional y psicolgico por parte de los
hombres con los que mantuvieron alguna relacin sentimental (pgina 810).
El 84 % de las mujeres informan de ciertos sentimientos de superioridad por parte de los hombres con
los que mantuvieron relaciones sentimentales (pgina 809).
El libro fue muy criticado en los artculos de peridicos y revistas a lo largo de los Estados Unidos.
Por qu fue tan criticado el estudio de Hite?Fue incorrecto que citara a las mujeres que sentan que los hom-
bres de sus vidas se resistan a tratarlas como iguales, fminas que posiblemente no haban tenido la oportunidad
de hablar anteriormente?Era incorrecto informar de los porcentajes de estas mujeres que no se sentan felices
con la relacin que llevaban con los hombres?
Por supuesto que no. La investigacin de Hite permiti a las mujeres analizar una visin de sus experiencias
y reej la riqueza de las experiencias de estas mujeres de una forma que no lo lograra un examen de opcin
mltiple. El error de Hite fue generalizar estos resultados a todas las mujeres, hayan participado en la encuesta
o no, y armar que los porcentajes se aplicaban a todas las mujeres.
En la encuesta de Hite, como las mujeres que recibieron cuestionarios (de 127 preguntas) fueron elegidas
a propsito y un porcentaje extremadamente pequeo de ellas regres los cuestionarios, las estadsticas calcu-
ladas a partir de estos datos no sirven para indicar la actitud de todas las mujeres de Estados Unidos. La muestra
2 CONCEPTOS BSICOS 14
nal no es representativa de todas las mujeres de Estados Unidos y las estadsticas slo sirven para describir a
las mujeres que contestaron la encuesta.
Una muestra perfecta, una versin a escala de la poblacin, que reejara cada una de las caractersticas de toda
la poblacin, por supuesto que no puede existir para poblaciones complejas (aunque existiera, no sabramos
que es perfecta sin antes medir toda la poblacin). Pero una buena muestra reproduce las caractersticas de
inters que existen en la poblacin de la manera ms cercana posible. Esta muestra ser representativa, en el
sentido de que cada unidad muestreada representar las caractersticas de una cantidad conocida de unidades
de la poblacin.
Necesitamos algunas deniciones para precisar el concepto de buena muestra.
Unidad de observacin. Es el objeto sobre el cual se realiza una medicin de la caracterstica a investigar.
Esta es la unidad bsica de observaci, a veces llamada elemento. En los estudios de poblacin humana,
con frecuencia ocurre que las unidades de observacin son los individuos.
Poblacin: es el conjunto de elementos u objetos que satisfacen una denicin comn y en los que in-
teresa analizar una o varias caractersticas observables y medibles. Aqu el trmino poblacin tiene un
signicado mucho ms amplio que el usual, ya que puede referirse a personas, animales, cosas, actos,
reas geogrcas e incluso al tiempo.
Una poblacin se precisa como un conjunto nito o innito de personas que presentan caractersticas
comunes, por lo que debe estar perfectamente denida en el espacio y en el tiempo, de modo que ante
la presencia de un potencial integrante de la misma, se pueda decidir si forma parte o no de la poblacin
bajo estudio. Por lo tanto, al denir una poblacin, se debe cuidar que el conjunto de elementos que la
integran quede perfectamente delimitado. Si, por ejemplo, estamos analizando las escuelas primarias,
debemos especicar cules y cundo, por ejemplo: Escuelas primarias de San Salvador, ao 2010.
El tamao N de una poblacin viene dado por la cantidad de elementos que la componen, en el caso en
que sea una poblacin nita, es decir, que podemos contabilizar y establecer un lmite de existencia.
Hay que distinguir entre la "poblacin objetivo"formada por todos los elementos que poseen la(s) carac-
terstica(s) que deseamos estudiar; y la poblacin muestreada formada por aquellas unidades (elemen-
tos o grupos de elementos) que posiblemente puedan ser miembros de una muestra.
Unidad de muestreo: es la unidad (individuos, objetos o grupos) de la poblacin muestreada sobre la que
se mide la(s) caracterstica(s) que se estudia(n). Por ejemplo, podramos querer estudiar a las personas,
pero no tenemos una lista de todos los individuos que pertenecen a la poblacin objetivo. En vez de esto,
las familias sirven como las unidades de muestreo y las unidades de observacin son los indiduos que
viven en una familia.
Marco de muestreo: es una una lista de de las unidades de mustreo. Para las encuestas telefnicas, el
marco de muestreo podra ser una lista de todos los nmeros telefnicos residenciales de la ciudad; para
las entrevistas personales, una lista de las direcciones de todas las calles.
Censo: es el proceso de estudiar todos los elementos que conforman la poblacin. Es decir, tomar una
muestra igual a la poblacin.
Muestra: es un subconjunto de unidades (elementos o grupos de elementos) de la poblacin muestrea-
da, que se seleccionan a partir del marco de muestreo, destinado a suministrar informacin sobre dicha
poblacin. Para que este subconjunto de unidades sea de utilidad estadstica, deben reunirse ciertos req-
uisitos en la seleccin de los elementos.
Las causas por la cual se seleccionan muestras son muchas. Puede ocurrir que la poblacin que se dena
tenga tamao innito (incontable), y en consecuencia, no fuera posible observar a todos sus elementos.
En otras ocasiones, el costo de la observacin exhaustiva puede ser muy elevado, el extenso tiempo de
recoleccin de la informacin, o ms an, la observacin de los elementos puede ser destructiva.
2 CONCEPTOS BSICOS 15
En todos estos casos, la nica manera de estudiar la poblacin es obteniendo muestras de ella. El tamao
de la muestra queda determinado por el nmero de elementos que la forman y se simboliza con la letra
n.
Parmetro: es un valor (nico) que resume la caracterstica que se investiga en una poblacin, se clcula
considerando a todos los elementos. Los parmetros de una caracterstica que usualmente interesan son:
el promedio, la proporcin, la razn, el total, la varianza o variabilidad.
Estadstico: es un valor o medida que resume la caracterstica que se investiga en una poblacin, se
obtiene considerando a todos los elementos o unidades de una muestra particular, por lo tanto puede
tomar distintos valores dependiendo de la muestra seleccionada. Formalmente, un estadstico es una
funcin matemtica de una muestra, que mediante mtodos inferenciales permite aproximar o estimar al
respectivo parmetro poblacional.
Figura 3: Relacin poblacin, muestra, parmetro y estadstico
Las encuestas de opinin pblica se realizan con frecuencia para predecir el candidato que ganar en las prx-
imas elecciones. Por ejemplo, en la eleccin del alcalde de San Salvador. La poblacin objetivo est formada
por las personas que viven en San Salvador y que votarn en la prxima eleccin de alcaldes, ao 2012; la
poblacin muestreada podra estar formada por las personas que pueden ser localizadas por telfono y dicen
estar dispuestas a votar en la prxima eleccin. El marco de muestreo puede ser el directorio telefnico (lista
de nmeros telefnicos).
En la Encuesta de Hogares y Propsitos Mltiples, que se realiza en El Salvador, la poblacin objetivo est
formada por todos los hogares del pas. La poblacin muestreada estara formada por todas las viviendas reg-
istradas hasta cierta fecha, anterior a la realizacin de la Encuesta. El marco de muestreo sera un listado de
viviendas registradas hasta la fecha establecida. Entonces la unidad de muestreo es la vivienda pero la unidad
de observacin (elemento) podra ser el hogar (jef o jefa del hogar), observe que la vivienda A del registro
podra contener 3 hogares al momento de la realizar la encuesta.
La calidad de una muestra, o la conanza que se pueda depositar en ella, depende exclusivamente de la calidad
del mtodo usado para obtenerla, o de la conanza que l merezca. En la prctica, lo nico que puede legtima-
mente hacerse es aplicar un mtodo que, por el modo de hacerse la seleccin y por el tamao del subconjunto
elegido, produzca un alto porcentaje de muestras buenas, de manera que resulte muy probable que la que
seleccionemos en suerte pertenezca al subgrupo especco de muestras posibles que tienen ese atributo. La
seleccin de la muestra se hace por un procedimiento que asegure en alto grado que sea representativa de la
poblacin. Los mtodos de seleccin de muestras se describen ms adelante.
2 CONCEPTOS BSICOS 16
2.3. Variables y tipos de variables.
Datos Estadsticos: son los resultados del experimento o mediciones de las observaciones realizadas, son en
general, el producto de las observaciones efectuadas en los cuales se produce el fenmeno que queremos estu-
diar. Los datos (valores o modalidades) de una caracterstica o cualidad que se observa o mide y que es comn
en todos los elementos de una poblacin o muestra son variables, su resultado varia aleatoriamente de una
medicin a otra. Debido lo a los datos estadsticos los denominamos variables aleatorias. Por ejemplo, Ingresos
mensuales de los miembros de una comunidad, Calicaciones de un examen, nmero de asesinatos por mes en
El Salvador en el 2010, estado civil, etc.
Nota: En trminos prcticos, los instrumentos de medicin presentan ciertas limitaciones de tipo fsico que
restringen el grado de precisin, a pesar de esto los datos siguen siendo continuos. Este es el caso de datos
que representan la estatura de una persona. Usando una cinta mtrica tradicional, se habla por ejemplo, de que
una persona mide 1.73 mts. Pero si tuvisemos a disposicin algn instrumento electrnico sosticado podra
obtenerse que est persona mide 1.7287253046301 mts. Debemos tener claro que una variable no es el objeto
de estudio en s, sino sus caractersticas, por ejemplo si estuviramos analizando un local para alquilar el local
no es la variable, variables son sus atributos: ubicacin, tamao, iluminacin, ventilacin, etc.
La denicin operacional de una variable es el proceso que que permite pasar de las preguntas de investigacin
formuladas a nivel conceptual (calidad de vida, edad, tabaquismo, mortalidad, etc.) desde el plano terico al
operativo, a su medicin (o clasicacin) en cada unidad de observacin o de anlisis especca. Es algo que
tiene el mismo signicado ayer, hoy y maana para todos los individuos.
Consideremos un ejemplo simple y familiar: la edad. Formalmente, la edad de un sujeto habra de dirse como
el nmero de vueltas que ha dado la tierra en torno al sol, ms la fraccin del recorrido realizado desde la ltima
vuelta completa hasta el instante en que se hace la indagacin. Sin embargo, en la mayora de los estudios, la
edad se operacionaliza tomando simplemente el nmero de aos cumplidos (vueltas completas).
Dependiendo de los valores o modalidades que tomen las variable, estas se pueden clasicar de la siguiente
manera:
Figura 4: Clasicacin de variables
Variables cualitativas: son aquellas que describen cualidades o
atributos. No son numricas, sus valores posible son categoras
o modalidades, y se subdividen en:
Nominales: sus valores son categoras o nombres que no
guardan un orden. Ej. Estado civil, preferencia por una mar-
ca, sexo, lugar de residencia.
Ordinales: sus valores son categoras o nombres que represen-
tan un orden y jerarqua. Ej. Nivel educacional, das de la se-
mana, calidad de la atencin, nivel socioeconmico.
Variables cuantitativas: son aquellas cuyo conjunto de valores
posibles son valores numricos. Dentro de ella, se subdividen
en:
Discretas: toman valores enteros. Ej. No. de hijos de una famil-
ia, no. de alumnos de un curso. Continuas: son valores reales.
Pueden tomar cualquier valor dentro de un intervalo. Ej. Peso,
estatura, salarios.
Existe otra clasicacin de acuerdo al nmero de variables que se analizan conjuntamente. Cuando las vari-
ables se presentan y analizan individualmente, se habla de variable univariante. Alternativamente, cuando se
analizan simultneamente dos, tres o ms variables se habla de variable bivariante, trivariante o multivariante.
Por ejemplo, de una encuesta se obtienen los datos sobre tipo de sangre, peso, ingreso y sexo de los estudiantes
de un curso de Estadstica; y se analiza cada una de estas variables separadamente. En este caso se tienen cuatro
2 CONCEPTOS BSICOS 17
variables univariantes.
Por otro lado, si es de inters analizar conjuntamente las variables tipo de sangre y peso se est ante la presencia
de una variable bivariante. Pero, si se analizan simultneamente las cuatro variables entonces se habla de una
variable multivariante.
Sea, X : Tipo de sangre, Y : Peso, W : Ingreso, Z : Sexo.
Figura 5: Clasicacin segn el nmero de variables
2.4. Medicin de variables y escalas de medicin.
Datos Estadsticos: son los resultados del experimento o mediciones de las observaciones realizadas,
son el general, el producto de las observaciones efectuadas en los cuales se produce el fenmeno o
caracterstica que queremos estudiar.
Medicin. Es la observacin de un fenmeno o propiedad, y la asignacin de un nmero o categora,
como forma de representar ese fenmeno. Suele usarse el trmino observar como sinnimo de medir.
Por ejemplo, pesar un objeto es observar una propiedad, su peso, y asignarle un nmero, el nmero de
kilogramos que pesa. Determinar el estado civil de una persona tambin es efectuar una medicin, que
consiste en clasicar esa propiedad en una de varias categoras: soltera, casada, etc.
Dato o medida: es el valor (nmero) o atributo (categora) que se asigna al medir un fenmeno o una
caracterstica. Un sinnimo de medida es observacin.
Escala de Medida: una escala de medida es el conjunto de valores que puede tomar una determinada
medida. Los tipos de escala se estudian a continuacin.
2.5. Tipos de escalas de medicin
Existen distintas formas de medir las variables, distintos tipos de escalas de medicin con uno o ms de los
siguientes atributos matemticos: magnitud, un intervalo igual entre unidades adyacentes y un cero absoluto.
No podemos decir que una sea mejor que otra, sino que cada una tiene sus propiedades y responde mejor a un
problema, y sobre todo que condiciona las tcnicas que se pueden utilizar para analizarla. Podemos distinguir
cuatro escalas o niveles de medicin, en orden ascendente:
1. Escalas nominales: al utilizar una escala nominal, la caracterstica o variable se divide en sus diver-
sas categoras. Estas categoras comprenden las unidades de la escala y los elementos se miden al
determinar la categora a la cual pertenecen. As, la medicin con una escala nominal equivale, en re-
alidad, a clasicar los elementos y a darles el nombre (de ah lo de escala nominal) de la categora a la
cual pertenecen. Las categoras deben ser mutuamente excluyentes y colectivamente exhaustivas. Mutu-
amente excluyentes signica que un individuo, objeto o medicin pertenece nicamente a una categora,
y exhaustiva signica que ningn individuo, objeto o medicin puede quedar sin categora, por ejemplo:
En un aula de clases vamos a clasicar las personas por lugar de nacimiento, una misma persona no
2 CONCEPTOS BSICOS 18
puede haber nacido en dos lugares, pero tampoco se puede decir que no naci en ningn lado, por lo
tanto, todos tenemos que estar en una sola categora. A cada categora se le puede asignar un nmero,
por ejemplo, la variable sexo puede tomar dos valores: mujer = 1, hombre = 2. Estos numeros son
nicamente un identicador o cdigo, pues no existe siquiera una relacin de orden entre ellas. No existe
relacin de magnitud entre las categoras, representa el nivel mnimo de medicin y se utiliza con fre-
cuencia para variables cualitativas. Por ejemplo, marcas de zapatos, los das de la semana, nacionalidad,
preferencia poltica, creencia religiosa, etc. Las nicas operaciones que se pueden efectuar con medidas
(datos) de variables nominales estn basadas en la relacin de equivalencia: frecuencias, modas, tablas
de contingencia, etc.
2. Escalas ordinales: adems de las propiedades de la escala nominal permite establecer un orden entre los
elementos medidos. La escala ordinal representa el siguiente nivel de medicin, el cual es relativamente
bajo de acuerdo con la propiedad de magnitud. Con esta escala, ordenamos los elementos medidos segn
si poseen ms, menos o la misma cantidad de la variable medida. As, una escala ordinal para medir el
rendimiento de los alumnos A y B, permite determinar si A > B, A = B, o A < B. Otro ejemplo de
una escala ordinal es el orden de los primeros cinco participantes en un concurso de oratoria, de acuerdo
con su facilidad de palabra. En este ejemplo, la diferencia de facilidad de palabra entre las personas de
rango 1 y 2 podra ser grande y la que existe entre los individuos de rango 2 y 3 podra ser pequea. As,
una escala ordinal no tiene la propiedad de intervalos iguales entre unidades adyacentes. Las operaciones
que se pueden efectuar con medidas de una variable ordinal se basan en relaciones de orden: la mediana,
el coeciente de correlacin de rangos, etc.
3. Escalas de intervalos: adems de las propiedades de la escala ordinal, hace que tenga sentido calcular
diferencias entre mediciones, tiene magnitud, igual separacin entre unidades adyacentes pero no cero
absoluto. Por ejemplo, la escala de temperatura Celsius en la que el cero es la temperatura a la cual se
congela el agua, este es un cero arbitrario, ya que una lectura de 20
o
Celsius no es el doble de caliente
que 10
o
Celsius. Adems de determinar si A > B, A = B, o A < B permite determinar si A B >
C D, AB = C D, o AB < C D, por ejemplo, la diferencia entre un C.I. de 120 a 125 es la
misma que entre 112 y 117 (125-120=5, 117-112=5). Las medidas de este tipo de escala permiten utilizar
casi todas las operaciones estadsticas para analizar los resultados: la media, la desviacin estndar, el
coeciente de correlacin, test paramtricos, etc.
4. Escalas de razn y proporcin: posee magnitud, intervalos iguales entre unidades adyacentes y cero ab-
soluto. Por ejemplo, la escala de temperatura Kelvin que posee un cero absoluto denido por la ausencia
completa de calor, es el punto menor en la escala, y por lo tanto permite proporciones, una lectura de
20
o
Kelvin es el doble de caliente que 10
o
Kelvin. Otro ejemplo, de escala de razn se tiene al querer
medir la edad, el salario. Sobre medidas de este tipo de escala se pueden efectuar todas las operaciones
matemticas clsicas: suma, resta, multiplicacin y divisin, y las operaciones estadsticas: media, vari-
anza, moda, coeciente de correlacin, etc.
Otra manera de expresar esta escala es la siguiente. Supongamos que tenemos un grupo de estudiantes
que incluye 6 hombres y 14 mujeres: la proporcin de hombres en el grupo es:
6
20
= 0.30 la proporcin
de mujeres es:
14
20
= 0.70. Es lo que posteriormente llamaremos frecuencia relativa.
Porcentaje. Es la proporcin multiplicada por 100: porcentaje de hombres 30 %, de mujeres 70 %.
Cociente. El cociente o relacin entre mujeres y hombres es
14
6
= 2.33 a 1. Siempre va arriba lo mas
frecuente. Se usa en casos como "la posibilidad de contraer cncer de pulmn es 7 veces mayor (o 7 a 1)
entre los fumadores".
Tasa. Se usan en dos situaciones: cuando el denominador es muy bajo (por ejemplo la tasa de mortalidad
es de 10 en 100,000, si furamos a expresarnos en porcentaje sera de 0.0001 lo que es imprctico de
trabajar) o en casos en que no es una frecuencia relativa (el numerador no forma parte del denominador,
como por ejemplo la tasa de autos por habitante es de 0.7 autos por persona).
3 FUENTES Y RECOLECCIN DE DATOS. 19
Como vamos a ver ms adelante el concepto de la frecuencia relativa nos lleva al concepto de probabili-
dad.
5. Relaciones entre escalas: los cuatro tipos de escalas estn ligados por una relacin de jerarqua, desde la
escala de razn, que posee mayores propiedades, hasta la nominal, la menos operativa. De las escalas de
razn se puede pasar a las de intervalos, a las de orden y a las nominales. As, por ejemplo, la edad se
puede asociar a una variable de razn (edad, un nmero exacto), a una variable de intervalos (la clase de
edad), a una variable de orden (clases de edad representados por un ordinal) y nominal (grupo de jvenes
y no jvenes).
Una variable siempre puede bajar de escala pero no subir. Por ejemplo el peso de los nios al nacer se puede
categorizar en bajo peso, medio, y sobrepeso. Pero si nos dicen que un nio es de bajo peso, no sabemos cual
fue exactamente ese peso. Una denicin operacional proporciona un signicado a un concepto o variable que
puede comunicarse a otros individuos. Es algo que tiene el mismo signicado ayer, hoy y maana para todos
los individuos. En la tabla 1 se muestra un ejemplo.
Tabla 1: Diferentes formas de medir la presencia del hbito tabquico.
3. Fuentes y recoleccin de datos.
La base para el trabajo estadstico, es decir los datos, se pueden obtener de manera indirecta, por ejemplo
al utilizar la informacin de los censos nacionales o de algn tipo de organizacin o institucin, o de manera
directa, llenando chas, cdulas de observacin o aplicando cuestionarios. En aplicaciones reales, lo ms comn
es que la parte inicial o bsica de un estudio se apoye en datos generales que no se hayan obtenido de manera
directa (por ejemplo, distribucin general de la poblacin por edades, niveles de escolaridad, distribucin de
actividades por entidad federativa) y que la parte medular y las conclusiones descansen en datos obtenidos en
forma directa, por ser especcos para el problema que se est analizando.
En muchas ocasiones en la investigacin cientca es necesario recurrir a la obtencin directa de datos, ya sea
al emplear chas o cdulas de observacin en las que se registran caractersticas de inters, o bien al disear
un cuestionario cuyas respuestas nos permitan conocer las caractersticas de quien responde, su opinin, las
condiciones reales en las cuales se encuentra en relacin con algn aspecto especco, como podra ser trabajo,
educacin y capacitacin, salud, relaciones interpersonales, empleo del tiempo libre, etctera.
Cuando los datos se obtengan de manera directa, ser necesario apoyarse en el muestreo, disear el instrumento
de recoleccin, coordinar la recopilacin de datos y su procesamiento, para nalmente hacer en anlisis de la
informacin y efectuar el informe o informes nales en que se basar la toma de decisiones.
3 FUENTES Y RECOLECCIN DE DATOS. 20
3.1. Fuentes.
Las fuentes de recoleccin de datos de una investigacin estadstica son:
1. Fuentes Primarias: Es cuando la persona o institucin ha recolectado los datos.
2. Fuentes Secundarias: Si la persona o institucin que ha publicado los datos, no es la que ha efectuado la
investigacin. Se utilizan cuando la ocina que las publica tenga suciente solvencia tcnica.
3. Fuentes Ociales: Es cuando los datos son provistos por cualquier dependencia gubernamental.
4. Fuentes Privadas: Es cuando son provistos por agencias, personas, organizaciones, etc., no gubernamen-
tales.
3.2. Tcnicas e instrumentos de recoleccin de datos
Tcnica: Se entiende como tcnica, el procedimiento o forma particular de obtener datos o informacin.
La aplicacin de una tcnica conduce a la obtencin de informacin, la cual debe ser resguardada mediante un
instrumento de recoleccin de datos.
Instrumento de recoleccin de datos: Es un dispositivo o formato (en papel o digital), que se utiliza para obtener,
registrar o almacenar informacin. Son ejemplos de instrumentos
Un cuestionario en cuya estructura queda registradas las respuestas suministradas por el encuesta-
do.(Formulario para rellenar)
Una libreta en la que el investigador anota lo observado.
Computadora porttil con sus respectivos medios de almacenaje
Dispositivos como cmara fotogrca, video- lmadora, grabador de audio, etc.
Figura 6: Diagrama de tcnicas e instrumentos para la recoleccin de datos
3 FUENTES Y RECOLECCIN DE DATOS. 21
Las tres tcnicas para la investigacin de campo son utilizadas frecuentemente. Por su importancia, en este
material vamos a revisar la tcnica de la encuesta.
Encuesta: Se dene como una tcnica que pretende obtener informacin que suministra un grupo, muestra o
poblacin de sujetos acerca de si mismo, o en relacin a un tema en particular. La encuesta puede ser oral o
escrita.
Encuesta Oral: Se fundamenta en un interrogatorio cara a cara o va telefnica en el cual el encuestador
pregunta y el encuestado responde. Su duracin es bastante corta por lo cual se realizan poca preguntas.
Esta modalidad utiliza como instrumento la Gua de encuesta.
Encuesta escrita: Se realiza a travs de un cuestionario autoadministrado, el cual como su nombre lo
indica, siempre es respondido de forma escrita por el encuestado.
Cuestionario: Se realiza de forma escrita mediante un instrumento o formato en papel, medios magnti-
cos o electrnicos contentivo de una serie de preguntas. Se le denomina cuestionario auto administrado
porque debe ser llenado por el encuestado sin intervencin del encuestador
Tipos de cuestionarios:
Preguntas Cerradas: Son aquellas que establecen previamente las opciones de respuesta. Ejemplo: Posee usted
un televisor? Si No
Preguntas Abiertas o de desarrollo: Son las que no ofrecen opciones de respuesta, sino que se da la libertad de
responder al encuestado, quien construye su respuesta de manera independiente. Que actividades deportivas
realiza durante el ultimo mes?
Preguntas Mixtas: Es aquel cuestionario que combina preguntas abierta y cerradas.
Recomendaciones para la elaboracin del cuestionario:
1. Las preguntas del cuestionario no se inventan a capricho, es decir estas deben tener una correspondencia
con los objetivos especcos de la investigacin.
2. Ordena las preguntas de lo general a lo particular.
3. Evitar preguntas que abusen de la memoria del encuestado
4. Obviar preguntas sobre temas o conocimientos especializados.
5. No incluir preguntas que induzcan a la respuesta (preguntas guas).
6. Omitir preguntas que originen mltiples interpretaciones.
7. Separar las preguntas de doble can, es decir, aquellas que se interroga sobre dos puntos en una misma
pregunta.
8. Incluir preguntas que permitan vericar respuesta anteriores o preguntas de control.
9. Emplear frases de enlace cuando sea necesario.
10. Utilizar escalas de rangos para preguntas sobre tpicos muy personales, tales como, la edad y el salario
11. Una vez construido el cuestionario se recomienda aplicar una prueba piloto o sondeo preliminar a un
pequeo grupo que no forme parte de la muestra, pero que sea equivalente en cuanto a su caracterstica.
Esto con la nalidad de establecer la validez, corregir cualquier falla y elaborar una versin denitiva del
instrumento.
4 ORGANIZACIN Y PRESENTACIN DE LOS DATOS. 22
4. Organizacin y presentacin de los datos.
Una vez que se han recolectado los datos necesarios, es importante organizarlos o agruparlos de alguna manera
para poder manejarlos ms fcilmente. Sin la ayuda de la estadstica, los datos recolectados para una inves-
tigacin podran resultar algo as como una masa catica de nmeros. La presentacin de estos datos en tablas
o grcos permite apreciarlos con mayor claridad, permitiendo explorar la informacin antes de analizarla.
Mientras que las tablas aportan una descripcin ms detallada de los datos, los grcos permiten observar los
patrones generales. Veremos, entonces, cmo organizar los datos en tablas y, posteriormente, cmo presentarlos
en grcos.
4.1. Presentacin de datos en tablas
Para organizar los datos y presentarlos en forma de tabla lo primero que tenemos que hacer es agrupar a los
individuos o unidades del estudio (personas, viviendas, enfermedades, etc.) segn alguna de sus caractersticas.
La forma de agrupacin depender de la escala que hayamos utilizado para medir la variable.
Si la escala que utilizamos es nominal u ordinal deberemos agrupar los datos de acuerdo a las diferentes cate-
goras de la variable.
Si la escala que utilizamos es numrica discreta, deberemos observar el rango de valores diferentes que adopt
esa variable. Si este rango es pequeo, entonces los datos se agruparn de acuerdo a cada uno de los valores de
la variable. Pero si dicho rango de valores es muy amplio, entonces, debern construirse intervalos.
Si la escala que utilizamos para medir la variable es numrica continua, siempre deben formarse intervalos o
clases.
Una vez lograda la agrupacin de los datos en diferentes categoras o intervalos, determinar la frecuencia de
observaciones en cada categora o intervalo de la variable y construir la Tabla de Distribucin de Frecuencias,
en el primero de los casos, y la Tabla de Frecuencias con Intervalos de Clases, en el segundo de los casos.
Las tablas para facilitar su lectura e interpretacin deben contener las siguientes partes:
Ttulo. Este describe la informacin ms importante del problema como es: la variable, la muestra o
poblacin, a quin corresponde la muestra.
Encabezado. Este describe el tipo de informacin que se describe en cada columna.
Cuerpo. El cuerpo agrupa el contenido de la informacin.
Final. En el nal se registran los totales.
Fuente. En esta parte se debe especicar: cmo, quin, en dnde y cundo se tomaron los datos.
4.2. Distribuciones de frecuencia
Supongamos que tenemos recogidos un conjunto de N datos de una variable X. La tabla que recoge de un
modo sistemtico estos datos se denomina distribucin de frecuencias. Una distrubucin de frecuencias puede
ser de dos tipos: simple o agrupada. La siguiente tabla recoge las principales caractersticas de una distribucin
de frecuencia simple o no agrupada.
La primera columna representa los distintos valores de esos datos y la segunda la frecuencia simple, es decir,
el nmero de veces que se ha observado el correspondiente valor. La tercera columna recoge la frecuencia
acumulada, es decir, el nmero de veces que se han observado valores menores o iguales que el correspondiente
a dicha la. Las frecuencias relativas se obtienen a partir de las frecuencias absolutas, dividiendo por el tamao
de la muestra.
4 ORGANIZACIN Y PRESENTACIN DE LOS DATOS. 23
Datos Frecuencias Frecuencias F. absolutas
absolutas relativas acumuladas
x
1
n
1
f
1
= n
1
/N N
1
= n
1
x
2
n
2
f
2
= n
2
/N N
2
= n
1
+n
2
.
.
.
.
.
.
.
.
.
.
.
.
x
k
n
k
f
k
= n
k
/N N
k
= n
1
+n
2
+. . . +n
k
Totales
k

i=1
n
i
= N
k

i=1
f
i
= 1
Tabla 2: Distribucin de frecuencias simple
Cuando en la muestra hay muchos valores diferentes y mucha variabilidad se recomienda, an a costa de perder
informacin, agrupar los datos en clases, en lo que se denomina distribucin de frecuencias agrupadas en
intervalos. La siguiente tabla recoge las principales caractersticas de una distribucin de frecuencia agrupada.
Intervalos Marcas Frecuencias Frecuencias F. Absolutas Amplitudes Densidades
de clase absolutas relativas acumuladas (longitudes)
I
i
x
i
n
i
f
i
= n
i
/N N
i
=
i

j=1
n
j
c
i
= L
i
L
i1
d
i
=
n
i
c
i
[L
0
, L
1
] x
1
n
1
f
1
N
1
c
1
d
1
[L
1
, L
2
] x
2
n
2
f
2
N
2
c
2
d
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
[L
k1
, L
k
] x
k
n
k
f
k
N
k
c
k
d
k
Totales
k

i=1
n
i
= N
k

i=1
f
i
= 1
Tabla 3: Distribucin de frecuencia agrupada
A cada uno de los intervalos se les denomina clase; a los extremos, extremos de la clase, y al punto medio de
cada clase se le llama marca de la clase. Para efectos de clculo se elige a la marca de clase como representante
del intervalo. El nmero de clases en que se dividen los datos no debe ser excesivo, puesto que pueden aparecer
irregularidades accidentales si hay pocas observaciones en algunas clases. Por el contrario, si se eligen un
nmero reducido, se producir una prdida importante de informacin. A modo orientativo, el nmero de clases
se puede obtener mediante la siguiente frmula emprica, llamada frmula emprica de Sturges:
k = nmero de clases =
_
3
2
+
log(N)
log(2)
_
(1)
donde los corchetes en la ecuacin anterior signica que se toma la parte entera de la expresin.
4.3. Presentacin de datos en grcos.
En ocasiones, preferir representar grcamente sus datos, con el objeto de obtener una rpida impresin vi-
sual del conjunto. Para ello podr utilizar diferentes tipos de grcos, pero lo que nunca debe olvidar son las
siguientes aspectos:
4 ORGANIZACIN Y PRESENTACIN DE LOS DATOS. 24
El grco debe ser sencillo y explicarse por s mismo.
No intente gracar todos los datos que tiene en un solo grco; por el contrario, es preferible que no
contenga demasiada informacin y su lectura sea fcil.
Utilice un diseo atractivo, pero sin deformar los hechos que est describiendo.
Seleccione el grco ms apropiado de acuerdo al tipo de variable y la escala de medicin utilizada para
medirla.
Los grcos son importantes porque permiten:
Organizar los datos
Observar patrones
Observar agrupamientos
Observar relaciones
Comparar distribuciones
Visualizar rpidamentela distribucinde los datos
Visualizar, obtenery comparar medidas estadsticas
El tipo de grco est condicionado por el tipo de escala utilizada para medir la variable que desea gracar.
4.4. Representacin Grca
El objetivo esencial de las representaciones grcas de las distribuciones de frecuencias es obtener una idea
general sobre sus propiedades en un simple vistazo, as por ejemplo, observando un histograma de frecuencias
podemos ver si la variable se aproxima a una distribucin normal, o si es simtrica, as como otras propiedades
que posteriormente pueden ser analizadas utilizando herramientas estadstica avanzadas.
A la hora de representar distribuciones de frecuencias ser necesario tener presente en primer lugar si la
variable es cualitativa o cuantitativa. En segundo lugar, y ya dentro de las variables cuantitativas, habr que
tener presente si la variable es agrupada o no agrupada. Teniendo en cuenta estas caractersticas de la variable
cuya distribucin de frecuencias se presenta se pueden clasicar los grcos como sigue:
Variables
_

_
Cuantitativas
_

_
Datos agrupados
_
_
_
Histograma de frecuencias
Polgono de frecuencias
Poligono de frecuencias acumuladas
Datos sin agrupar
_

_
Diagrama de barras
Diagrama escalonado
Polgono de frecuencias
Polgono de frecuencia acumuladas
Cualitativas
o Categricas
_
_
_
Diagramas de sectores
Diagramas de rectngulos
Pictogramas
4 ORGANIZACIN Y PRESENTACIN DE LOS DATOS. 25
4.5. Representaciones para variables cualitativas o Categricas
Despus de que han sido reunidos los datos, se consolidan y resumen para mostrar la siguiente informacin:
Qu valores de la variable han sido medidos?
Con qu frecuencia ha ocurrido cada valor?
Para este propsito, se construyen las tablas estadsticas para mostrar los datos en forma grca como una
distribucin de datos. El tipo de grco que elija depende del tipo de variable que ha medido.
Cuando la variable de inters es cualitativa, la tabla estadstica es una lista de las categoras consideradas junto
a una medida de la frecuencia con que ocurri cada valor. Puede medir la frecuencia de tres maneras distintas:
La frecuencia absoluta o el nmero de mediciones en cada categora,
La frecuencia relativa o proporcin de mediciones en cada categora,
El porcentaje de mediciones en cada categora
Por ejemplo, si N es el nmero total de mediciones, encontrar la frecuencia relativa (denotada por f) y el
porcentaje (denotado por p), mediante las siguientes relaciones:
f =
F
N
, p = f 100
donde F es la frecuencia absoluta de la categora.
Las categoras para una variable cualitativa se deben elegir de modo que
una medicin pertenecer a una y solo una categora,
cada medicin tiene una categora a la cual se asigna
Una vez que las mediciones han sido clasicadas y resumidas en una tabla estadstica puede usar una grca
de sectores (de pastel) o una grca de barras para mostrar las distribucin de los datos.
Denicin 4.1. Diagramas de Barras
Los diagramas de barras o rectngulos se construyen asignando a cada modalidad de la variable cualitativa un
rectngulo con altura igual (o proporcional) a su frecuencia absoluta n
i
y con base constante.
Ejemplo 4.1. En la siguiente gura se muestra el grco de barras para la pregunta de la encuesta nacional
Local de uso pblico de internet ms cercano?, las categoras son: A pie, Carreta, Microbs, Bus, Pick-up o
Camin, Bicicleta, Auto particular, Caballo, Otros, No sabe-no utiliza, No se desplaza
De la Figura 7 se desprende que la gente que tiene acceso a internet se traslada a pie, sin embargo, una gran
mayora no sabe o no utiliza internet.
Denicin 4.2. Diagramas Circulares
Tambin llamados Grcos de pastel, constituyen el tipo de grco ms utilizado para representar distribu-
ciones de frecuencias de variables cualitativas. La variable se representa en un crculo cuyas proporciones
(sectores circulares) tienen un rea proporcional a las frecuencias absolutas de las modalidades de la variable.
Para realizar el grco basta con asignar a cada modalidad de la variable un sector circular cuyo ngulo cen-
tral sea proporcional a la frecuencia absoluta de la modalidad. Matemticamente, el ngulo central
i
de la
modalidad isima cuya frecuencia absoluta es n
i
se expresa como sigue:

i
=
360
N
n
i
= 360
n
i
N
= 360f
i
4 ORGANIZACIN Y PRESENTACIN DE LOS DATOS. 26
Figura 7: Grco de barras
Ejemplo 4.2. En la Figura 8 se presenta el grco de pastel para la pregunta de la encuenta nacional A que
jornada (escolar o universitaria) asiste predominantemente?. (Aqu se toma el total sobre todas las personas
que antes haban contestado positivamente a la pregunta Estudia actualmente?, que son 20,915)
Ejercicio 1. Interprete los grcos de las Figuras 7 y 8, y diga cual le resulta ms simple de entender.
Otra forma habitual de construir grcos de sectores consiste en asignar al sector circular relativo a la modalidad
isima un porcentaje igual al tanto por ciento que representa su frecuencia absoluta n
i
sobre la frecuencia
total N =

n
i
. Matemticamente, la expresin del porcentaje p
i
relativo a la modalidad isima se expresa
como sigue:
p
i
= 100
n
i
N
= 100f
i
Denicin 4.3. Pictogramas
Es un grco con dibujos alusivos al carcter que se est estudiando y cuyo tamao es proporcional a la fre-
cuencia que representan, dicha frecuencia se suele indicar.
Su formato es libre,
Emplean una secuencia de smbolos para representar frecuencias,
Se emplean para el tratamiento de datos tanto cualitativos como cuantitativos.
Ejemplo 4.3. La Figura 9, representa el nmero de rboles plantados cada mes durante un ao.
Ejercicio 2. En base al grco de la Figura 9, explique: en qu mes se plantaron menos rboles?, y en cul
se hicieron ms plantaciones?
4 ORGANIZACIN Y PRESENTACIN DE LOS DATOS. 27
Figura 8: Grco de pastel
Figura 9: Pictograma
4.6. Representaciones para variables cuantitativas sin agrupamiento
Las variables cuantitativas miden una cantidad en cada unidad experimental. Si la variable toma slo un nmero
nito o contable de valores, es una variable discreta. Una variable con un nmro innito de valores que corre-
sponden a puntos en un intervalo lineal se llama continua.
Algunas veces la informacin que se reune para una variable cuantitativa es medida en segmentos distintos de la
poblacin, o para diferentes categoras de clasicacin. Por ejemplo se podra medir el ingreso promedio para
personas de distintos grupos de edad, generos diferentes o que viven en distintas zonas geogrcas del pas.
En estos casos se pueden usar grcas de sectores o de barras para describir los datos, con la cantidad medida
en cada categora y no la frecuencia de ocurrencia en cada cateora. La grca de sectores muestra como se
distribuye la cantidad total entre las categoras y la grca de barras usa la altura de la barra para mostrar la
cantidad en una categora particular.
4 ORGANIZACIN Y PRESENTACIN DE LOS DATOS. 28
Denicin 4.4. Diagramas de barras
Para variables cuantitativas sin agrupar se construyen situando sobre el eje de las abscisas los valores de la
variable y sobre el eje de ordenaddas los valores de sus frecuencias absolutas.
Ejemplo 4.4. En el siguiente grco se muestran las notas en el examen parcial 1 del curso de posgrado en
cierta sede, las categoras son: mal, para los que tengan menos de 5; bueno, para los que tengan ms de 5 y
menos o igual que 7.5; muy bueno para los que tengan mas de 7.5 y menos o igual que 8.5; excelente para el
resto.
Figura 10: Grco de barras para las notas
Ejercicio 3. En base al grco de la Figura 10, explique el rendimiento de los docentes en el examen parcial.
Denicin 4.5. Polgono de frecuencias
Paraconstruir el polgono de frecuencias se unen los puntos (x
i
, n
i
), tambin pueden unirse los puntos (x
i
, f
i
).
Finalmente para construir el polgono de frecuencias acumuladas se unen los puntos (x
i
, N
i
). Tmbin pueden
unirse los puntos (x
i
, F
i
).
Ejemplo 4.5. Se presenta el polgono de frecuencias para el ejemplo de las notas del curso de posgrado
anterior
Ejercicio 4. Explique el grco de la Figura 11, su explicacin coincde con la que dio anteriormente?
4.7. Representaciones para variables cuantitativas agrupadas
Los anlisis anteriores parten de la idea que la cantidad de datos con que se est trabajando es poca, sin embargo,
cuando se hacen encuestas nacionales (como por ejemplo, consumo de canasta bsica por hogar) se obtienen
grandes cantidades de datos y los anteriores grcos no son viables.
En lo que sigue se estudiaran las representaciones ms importantes y conocidas para variables cuantitativas que
tienen una gran cantidad de datos y cuyos valores se repiten muchas veces.
4 ORGANIZACIN Y PRESENTACIN DE LOS DATOS. 29
Figura 11: Polgono de frecuencias
Denicin 4.6. Histogramas de frecuencias
Los histogramas de frecuencias para variables cuantitativas agrupadas en intervalos se construyen levantando
sobre cada intervalo un rectngulo de rea proporcional a la frecuencia absoluta correspondiente a dicho
intervalo. Hay que tener muy presente que si los intervalos son de amplitud constante, las alturas de los
rectngulos seran iguales a las frecuencias absolutas respctivas (en este caso las reas dependen solo de las
alturas porque las bases de los rectngulos son iguales). Si las amplitudes de los intervalos son desiguales, las
alturas de los rectngulos (densidades de frecuencias) deben calcularse dividiendo la frecuencia absoluta por
la amplitud del intervalo.
Si llamamos d
i
a la altura del intervalo isimo, c
i
a su longitud (amplitud) y n
i
a sus frecuencias absolutas,
la densidad de frecuencia d
i
vendr dada por
d
i
=
n
i
c
i
Como norma, el nmero de clases o intervalos en que se agrupa la variable debe variar de 5 a 12, cuantos ms
datos disponibles haya, ms clases son necesarias. Las clases o intervalos deben ser elegidas de modo que cada
observacin en uno y solo un intervalo.
La Tabla 2 resume los valores necesarios para construir el histograma de frecuencias, que como ya se sabe,
consta de rectngulos cuyas bases sobre el eje de abscisas son los intervalos I
i
y cuyas alturas son las densidades
de frecuencias d
i
.
Ejemplo 4.6. La Figura 12 muestra el histograma para la variable gasto de dlares en lea de los hogares
en el pas.
Ejemplo 4.7. La Figura 13 muestra el histograma para la variable cantidad de ayuda en remesas en los
hogares nacionales, la divisin de los intervalos se hizo as: intervalo 1, de cero a 100; intervalo 2, de 100 a
200; intervalo 3, de 200 a 500; itervalo 4, de 500 a 1000; y el intervalo 5, mayor que 1000. (todo en dlares).
En ocasiones suele sustituirse el histograma por el polgono de frecuencias simple, grco que se forma al unir
los puntos medios de cada intervalos x
i
(marcas de clase) a una altura proporcional a la frecuencia (para interva-
los iguales). La unin de estos puntos (x
i
, n
i
) o (x
i
, d
i
) forman una lnea quebrada rectilnea que al prolongarla
por los extremos corta al eje X (esta prolongacin suele hacerse hasta los puntos medios de la categora
inferior y superior inmediatos que corresponden a la clase de frecuencia cero). De esta forma, el rea que queda
4 ORGANIZACIN Y PRESENTACIN DE LOS DATOS. 30
Figura 12: Gasto en lea
Figura 13: Ayuda en remesas
por debajo del polgono de frecuencias es igual al rea contenida dentro del correspondiente histograma. Este
grco permite comparar las distribuciones de varios grupos observando las reas donde coincden o se separan.
Otro instrumento grco esencial para representar una distribucin de frecuencias es el polgono de frecuen-
4 ORGANIZACIN Y PRESENTACIN DE LOS DATOS. 31
cias acumuladas, que se utiliza cuando se trabaja con frecuencias absolutas o relativas acumuladas y que se
construye levantando en el extremo superior de cada intervalo de clase una ordenada igual a la frecuencia acu-
mulada correspondiente y uniendo a continuacin dichas ordenadas. Los puntos que se unen sern (L
i+1
, N
i
).
La primera ordenada se une al extremo inferior del primer intervalo prolongndose el polgono desde este pun-
to hasta la izquierda sobre el eje X, y prolongndose tambin el polgono a partir de la ordenada del extremo
superior del ltimo entervalo con una paralela al eje de abscisas. De esta forma, la ordenada correspondiente a
cada valor de la variable X mide el nmero de observaciones para las cuales la variable toma valores menores
o iguales que la abscisa (este concepto aproxima la idea de funcin de distribucin de la variable x).
Figura 14: Poligono de frecuencias acumuladas
Ejercicio 5. Interprete el grco de la Figura 14
Denicin 4.7. Serie Temporal
Hasta ahora todas las variables que se han estudiado tenan en comn que, por lo general, nunca han estado
fechadas, es decir no estaban vinculadas al tiempo en forma alguna y menos explcitamente. Se trataba de datos
de corte transversal o atemporales. Sin embargo es muy frecuente, especialmente en el mbito econmico y
en las ciencias sociales, que las observaciones de los caracteres de una poblacin se realicen ligadas al tiem-
po o fechadas en instantes determinados del tiempo. As, por ejemplo, uno de los caracteres de una empresa,
susceptible de ser observado puede ser su volumen de ventas y podemos estar interesados en estudiar el com-
portamiento y evolucin temporal de esa caracterstica de la empresa. En este caso esa observacin se realizar
de forma repetida durante una serie de momentos del tiempo. Esa observacin repetida en el tiempo da lugar a
una serie temporal. En este sentido diremos que una serie temporal, cronolgica, histrica o de tiempo es una
sucesin de observaciones cuantitativas de un fenmeno ordenadas en el tiempo.
Ejemplo 4.8. En la Figura 15 se presenta el grco para la serie temporal que se obtiene al observar el ujo
de remesas mensuales en El Salvador desde enero de 1991 hasta junio de 2011
El anlisis de series temporales, desde el punto de vista de su comportamiento, tanto pasado como futuro, re-
quiere el uso de nuevas tcnicas, pues las presentadas hasta el momento, aunque le son aplicables, no cubren las
necesidades que surgen en el tratamiento de este tipo de datos. Desde el momento que los valores de una serie
temporal van ligados a instantes del tiempo, entonces, podemos decir que el anlisis de una serie implica el
5 RESUMEN DE DATOS 32
Figura 15: Serie temporal para el ujo de remesas
manejo conjunto de dos variables, siendo una de ellas nuestra serie temporal y la otra los intervalos o instantes
del tiempo sobre los cuales se han realizado las observaciones. Hay que sealar que esa observacin sincroniza-
da de la variable en el tiempo implica que los valores de la misma han de estar perfectamente ordenados, de
igual modo
que los intervalos del tiempo lo estn. Sin embargo, las tcnicas para abordar el anlisis de las series temporales
est por encima de los objetivos de este curso, ya que son necesarias herramientas avanzadas de estadsticas y
probabilidad.
5. Resumen de datos
Anteriormente hemos visto cmo como se pueden resumir los datos obtenidos del estudio de una muestra o
poblacin en una tabla o un grco. No obstante, tras la elaboracin de tabla y su representacin grca, en la
mayora de las ocasiones resulta ms ecaz condensar dicha informacin en algunos nmeros que la expresen
de forma clara y concisa.
Los fenmenos no suelen ser constantes, por lo que ser necesario que junto a una medida que indique el valor
alrededor del cual se agrupan los datos, se asocie una medida que haga referencia a la variabilidad que reeje
dicha uctacin.
Por tanto el siguiente paso y objeto de este captulo consistir en denir algunos tipos de medidas que sinteticen
an ms.
Es decir, dado un grupo de datos organizados en una distribucin de frecuencias o bien una serie de obseva-
ciones sin ordenar, pretendemos describirlos mediante dos o tres cantidades sintticas.
En ese sentido pueden examinarse varias caracterstica, siendo las ms comunes: la tendencia central de los
datos, dispercin o variacin con respecto a este centro, los datos que ocupan ciertas posiciones, la simetra de
los datos, la forma en la que los datos se agrupan.
A lo largo de este captulo, y siguiendo este orden, iremos estudiando los estadsticos que nos van a orientar
sobre cada uno de los niveles de informacin: valores alrededor de los que se agrupan los datos, la mayor
o menor uctuacin alrededor de esos valores, nos interesaremos en ciertos valores que marcan posiciones
caractersticas de una distribucin de frecuencias.
5 RESUMEN DE DATOS 33
Figura 16: Medidas representativas de un conjunto de datos estadsticos
5.1. Medidas de Centralizacin.
5.1.1. Moda , M
o
.
Denicin 5.1. La Moda es una medida de tendencia central que indica cul es la puntuacin, categoras
o modalidad que ms se repite en el conjunto de datos. Otra forma de entenderla es decir que la Moda es
cualquier mximo relativo de la distribucin de frecuencias, es decir cualquier valor de la variable que posea
una frecuancia mayor que su anterior y su posterior.
Propiedades de la moda
Puede calcularse para cualquier conjunto de datos medidos en cualquier escala.
La moda es inestable ya que puede variar mucho de una muestra a otra de una muestra extraidas de una
misma poblacin.
Podemos encontrarnos con que no existe una nica moda, a lo que llamaremos distribuciones bimodales
o multimodales.
Si nos encontramos con que todas las puntuaciones de una distribucin tienen la misma frecuencia con-
sideraramos que no existe moda.
Para datos agrupados por intervalos, el valor de la moda depender de la amplitud de los intervalos, el
nmero de ellos y los lmites jados.
En caso de que dos valores alcazaran la misma frecuencia mxima y estos son adyacentes, la moda sera
el promedio de ambos valores.
Clculo de la Moda
Datos no agrupados.
En primer lugar se construye la distribucin de frecuencias. La moda sera aquel valor con frecuencia mxima.
Si la frecuencia mxima se repite en dos o ms valores tendremos varias modas, y el grupo se denominaria
bimodal o multimodal segn el caso. En el caso de que valores adyacentes alcanzaran la misma frecuencia
mxima, la moda ser el promedio de ambos valores.
Datos agupados.
M
o
= L
i1
+ (L
i
L
i1
)
n
i
n
i1
(n
i
n
i1
) + (n
i
n
i+1
)
(2)
En donde: L
i1
: lmite inferior de la clase modal, L
i
: lmite superior de la clase modal, n
i
: frecuencia de la
clase modal, n
i1
: frecuencia de la clase premodal, n
i+1
: frecuencia de la clase postmodal, Clase modal es
aquella con mayor frecuencia.
5 RESUMEN DE DATOS 34
5.1.2. Mediana , M
d
.
Denicin 5.2. La mediana es una medida de tendencia central, que divide en dos partes igules a un conjunto
de datos previamente ordenados. Es la puntuacin del dato que deja por encima y por debajo de s el 50 % de
los casos.
Clculo de la Mediana
Datos no agrupados.
Inicialmente se ordenan los datos, si el nmero de datos es impar, la mediana ser el valor que queda justo al
centro, en el caso de ser par tomamos el promedio de los dos datos centrales en este caso M
d
no corresponde a
ningn valor en el conjunto de datos.
Datos agrupados.
Sea ]L
i1
, L
i
] la clase donde sea encontrado que por debajo de L
i
est al menos la mitad de las observaciones,
razonemos la deduccin del valor de M
d
a partir de la grca de las frecuencias acumuladas, en donde N
i
=

i
k=1
n
i
, como se puede ver en la grca siguiente:
Figura 17: La mediana es el punto de corte de la ojiva creciente con la decreciente
En la gura 17 tenemos que los tringulos ACC
1
y ABB
1
son semejantes, de donde tenemos que:
CC
1
AC
=
BB
1
AB
, es decir:
n
i
L
i
L
i1
=
N
2
N
i1
M
d
L
i1
despejando M
d
obtenemos:
M
d
= L
i1
+
N
2
N
i1
n
i
(L
i
L
i1
) (3)
Propiedades de M
d
.
Destacamos las siguientes propiedades:
Como medida descriptiva, tiene la ventaja de no estar afectada por las observaciones extremas, ya que no
depende de los valores que toma la variable, sino del orden de las mismas. Por ello es adecuado su uso
en distribuciones que presentan asimtrias.
Es de clculo rpido y de interpretacin sencilla.
La mediana de una variable discreta es casi siempre un valor de la variable que estudiamos.
5 RESUMEN DE DATOS 35
Para datos agrupados por intervalos, el valor de la mediana depender de la amplitud de los intervalos, el
nmero de estos y los lmites jados.
5.1.3. Media ,

X .
Denicin 5.3. La media es una medida de tendencia central que se obtiene por la suma de todas las puntua-
ciones de un grupo de datos dividida por el nmero total de datos.
Clculo de la Media
Datos no agrupados.
Si los datos no estan ordenados en una tabla, tenemos que la media es:

X =

N
i=1
x
i
N
(4)
donde N es el total de datos.
Datos agrupados.
Si los datos estan organizados en tabla, tenemos que la media es:

X =

k
i=1
x
i
n
i
N
(5)
donde: n
i
es la frecuencia de dato x
i
y N =

k
i=1
n
i
. Si los datos estan agrupados en clases de frecuencia,
tenemos que la expresin anterior cambiamos x
i
por x
p
i
que es el punto medio de la clase o intervalo y
tenemos k intervalos.
Propiedades de la media
Es muy sensible a los valores extremos de la variable: ya que todas las observaciones intervienen en
el clculo de la media, la aparicin de una observacin extrema, har que la media se desplace en esa
direccin. En consecuencia,no es recomendable usar la media como medida central en las distribuciones
muy asimtricas; si consideramos una variable discreta, por ejemplo, el nmero de hijos en las familias
de cierto pas el valor de la media puede no pertenecer al conjunto de valores de la variable.
Slo puede calcularse para variables cuantitativas.
La suma de las desviaciones de todas las puntuaciones respecto a la media es 0, es decir

N
i=1
(x
i
x) = 0

N
i=1
(x
i
x)
2
0
La suma de las desviaciones al cuadrado respecto a la media es menor que respecto a otro valor
cualquiera. es decir,
N

i=1
(x
i
x)
2

i=1
(x
i
c)
2
Si denimos y
i
= x
i
+k entonces y = x +k, para k .
Si denimos y
i
= kx
i
entonces y = k x, para k .
Cuando calculamos la media para datos agrupados en intervalos el valor resultante depende de los inter-
valos elegidos, de su amplitud, el nmero de intervalos y de los lmites jados en estos.
5 RESUMEN DE DATOS 36
La media puede calcularse cuando las variables se han medido en una escala de intervalo o razn.
Si y
i
=

k
r=1
a
i
x
r
i
, para i = 1 a i = n entonces y =

k
r=1
a
i
x
r
i
.
Si un grupo esta particionado en r partes y cada parte tiene n
i
datos con una media cada parte i-sima de
x
i
, entonces la media del grupo es:
x =

r
i=1
n
i
x
i

r
i=1
n
i
En el caso de distribuciones unimodales, la mediana est con frecuencia comprendida entre la media y la moda
incluso ms cerca de la media. En distribuciones que presentan cierta inclinacin, es ms aconsejable el uso de
la mediana. Sin embargo en estudios relacionados con propsitos estadsticos y de inferencia suele ser ms apta
la media.
Por otra parte criterios muy generales para escoger que medida de tendencia central usamos: primero escogemos
x pues un mejor estimador para la media poblacional;si no podemos calcular la media, ya sea porque estemos
en presencia de varible ordinal o tenemos muchos valores extremos usamos la mediana; si no se puede obtener
la mediana pues los datos son nominales, o tenemos intervalos abiertos con ms con ms 50 % de los datos
calcular la moda.
Figura 18: Posibles ubicaciones de las medidas de centralizacin en un conjunto de datos
En algunos casos los tres indicadores pueden dar valores similares pero no necesariamente ha de ser as, como
se muestral en la gura 18.
5.2. Medidas de Posicin.
En la seccin anterior, vimos lo referente a las medidas de tendencia central, las cuales, a su vez, son tambin
medidas de posicin ya que, de todas maneras ocupan un lugar dentro de la informacin. Nos ocuparemos
ahora de ciertos parmetros posicionales muy tiles en la interpretacin porcentual de la informacin. Estos
son: Cuartiles, Deciles y Centiles.
5.2.1. Cuartiles, Q
i
.
Denicin 5.4. Las cuartillas o cuartiles son valores posicionales que dividen la informacin en cuatro partes
iguales, el primer cuartil deja el 25 % de la informacin por debajo de l, y el 75 % por encima, el segundo
cuartil, al igual que la mediana, divide la informacin en dos partes iguales, y por ltimo el tercer cuartil deja
el 75 % por debajo de s, y el 25 % por encima.
Para calcular los cuartiles.
Para deducir una expresin que nos permita el clculo tanto el Q
1
, Q
2
, Q
3
procedemos como cuando se dedujo
la expresin para la media.
n
i
L
i
L
i1
=
N
i
4
N
i1
Q
i
L
i1
5 RESUMEN DE DATOS 37
para i = 1, 2, 3, despejando tenemos que:
Q
i
= L
i1
+
N
i
4
N
i1
n
i
(L
i
L
i1
) (6)
para i = 1, 2, 3. Para datos no agrupados se procede de manera semejante a cuando se calcula la mediana.
5.2.2. Deciles, D
i
.
Denicin 5.5. Dividen la informacin en diez parte iguales,en catidades porcentuales de 10 % en 10 % .
Para calcular los deciles.
D
i
= L
i1
+
N
i
10
N
i1
n
i
(L
i
L
i1
) (7)
para i = 1, 2, 3, . . . , 9. Para datos no agrupados se procede de manera semejante a cuando se calcula la mediana.
5.2.3. Centiles, C
i
.
Denicin 5.6. Dividen la informacin en cien parte iguales, lo que facilita la interpretacin porcentual de la
distribucin de frecuencia.
Para calcular los centiles.
C
i
= L
i1
+
N
i
100
N
i1
n
i
(L
i
L
i1
) (8)
para i = 1, 2, 3, . . . , 99. Para datos no agrupados se procede de manera semejante a cuando se calcula la
mediana.
5.3. Medidas de Dispersin.
En el anlisis estadstico no basta el clculo e interpretacin de las medidas de tendencia central o de posicin,
ya que, por ejemplo, cuando pretendemos representar toda una informacin con la media aritmtica, no estamos
siendo absolutamente eles a la realidad, pues suelen existir datos extremos inferiores y superiores a la media
aritmtica, los cuales, en honor a la verdad, no estn siendo bien representados por este parmetro.
En dos informaciones con igual media aritmtica, no signica este hecho, que las distribuciones sean exac-
tamente iguales, por lo tanto, debemos analizar el grado de homogeneidad entre sus datos. Por ejemplo, los
valores 5, 50, 95 tiene igual media aritmtica, y mediana que los valores 49, 50, 51; sin embargo, para la
primera informacin la media aritmtica , se encuentra muy alejada de los valores extremos 5 y 95, cosa que no
ocurre con la segunda informacin que posee igual media aritmtica y mediana, vemos entonces que la primera
informacin es mas heterognea o dispersa que la segunda.
Para medir el grado de dispersin de una variable, se utilizan principalmente los siguientes indicadores: Rango,
Desviacin media, Varianza y desviacin tpica.
5.3.1. Rango o Recorrido, R .
Denicin 5.7. Es la medida de dispersin mas sencilla ya que solo considera los dos valores extremos de una
coleccin de datos, es decir, el valor mximo x
max
y mnimo x
min
de los datos, para la variable x de estudio.
5 RESUMEN DE DATOS 38
Para calcular el rango o recorrido.
R = x
max
x
min
Otro recorrido utilizado es el recorrido intercuartlico, que se clcula R
Q
= Q
3
Q
1
.
5.3.2. Desviacin Media, DM .
Denicin 5.8. La desviacin media, mide la distancia absoluta promedio entre cada uno de los datos, y el
parmetro que caracteriza la informacin. Usualmente se considera la desviacin media con respecto a la
media aritmtica o la mediana.
Para calcular la desviacin media.
Datos no agrupados.
DM =

N
i=1
|x
i
x|
N
; DM =

N
i=1
|x
i
M
d
|
N
Datos agrupados.
DM =

m
i=1
|x
i
x|n
i
N
; DM =

m
i=1
|x
i
M
d
|n
i
N
con m nmero de datos diferentes, y n
i
frecuencia de cada dato distinto. Si los datos estan en agrupados en
intervalos entonces tenemos que la expresin anterior cambiamos x
i
por x
p
i
que es el punto medio de la clase
o intervalo y tenemos m intervalos
5.3.3. Varianza, S
2
.
El problema de los signos en la desviacin media, es eludido tomando los valores absolutos de las diferencias de
los datos con respecto a la media aritmtica. Ahora bien, la varianza obvia los signos elevando las diferencias
al cuadrado, lo cual resulta ser ms elegante, aparte de que es supremamente til en el ajuste de modelos
estadsticos que generalmente conllevan formas cuadrticas.
La varianza es uno de los parmetros ms importantes en estadstica paramtrica, se puede decir que, teniendo
conocimiento de la varianza de una poblacin, se ha avanzado mucho en el conocimiento de la poblacin
misma.
Denicin 5.9. Numricamente denimos la varianza, como desviacin cuadrtica media de los datos con
respecto a la media aritmtica, puede usarse tambin la mediana,
Para calcular la varianza.
Datos no agupados
S
2
=

N
i=1
(x
i


X)
2
N
Datos agrupados
S
2
=

m
i=1
(x
i


X)
2
n
i
N
donde m es el nmero de datos diferentes y n
i
la frecuencia del dato x
i
. Si tenemos los adtos agrupados
en intervalos, en la expresin anterior cambiamos x
i
por x
p
i
que es el punto medio de la clase o intervalo
y tenemos m intervalos
5 RESUMEN DE DATOS 39
Denicin 5.10. La desviacin tpica o estndar denida como la raz cuadrada de la varianza, deno-
tada por S y se usa para una mejor comprensin pues esta expresada en las mismas unidades que la
variable en estudio.
Propiedades de la varianza
Si denimos y
i
= x
i
+k entonces S
2
y
= S
2
x
, para k .
Si denimos y
i
= kx
i
entonces S
2
y
= k
2
S
2
x
, para k
Es sensibles a la variacin de cada una de las puntuaciones, es decir, si una puntuacin cambia, cambia
con ella la varianza. La razn es que si miramos su denicin, la varianza es funcin de cada una de las
puntuaciones.
La desviacin tpica tiene la propiedad de que en el intervalo ( x 2S, x + 2S) se encuentra, al menos,
el 75 % de las observaciones.
No es recomendable usarla, cuando tampoco lo sea el de la media como medida de tendencia central.
5.3.4. Coeciente de variacin.
Generalmente interesa establecer comparaciones de la dispersin, entre diferentes muestras o poblaciones que
posean distintas magnitudes o unidades de medida.
Hemos visto que las medidas de centralizacin y dispersin nos dan informacin sobre una muestra. Nos
podemos preguntar si tiene sentido usar estas magnitudes para comparar dos poblaciones. Por ejemplo, si nos
piden comparar la dispersin de los pesos de las poblaciones de elefantes de dos circos diferentes, S nos dara
informacin til.
Pero qu ocurre si lo que comparamos es la altura de unos elefantes con respecto a su peso? Tanto la media
como la desviacin tpica, x y S, se expresan en las mismas unidades que la variable. Por ejemplo, en la
variable altura podemos usar como unidad de longitud el metro y en la variable peso, el kilogramo. Comparar
una desviacin (con respecto a la media) medida en metros con otra en kilogramos no tiene ningn sentido. El
problema no deriva slo de que una de las medidas sea de longitud y la otra sea de masa. El mismo problema se
plantea si medimos cierta cantidad, por ejemplo la masa, de dos poblaciones, pero con distintas unidades. Este
es el caso en que comparamos el peso en toneladas de una poblacin de 100 elefantes con el correspondiente
en miligramos de una poblacin de 50 hormigas. El problema no se resuelve tomando las mismas escalas para
ambas poblaciones. Por ejemplo, se nos puede ocurrir medir a las hormigas con las mismas unidades que los
elefantes (toneladas). Si la ingeriera gentica no nos sorprende con alguna barbaridad, lo lgico es que la
dispersin de la variable peso de las hormigas sea practicamente nula (Aunque haya algunas que sean 1000
veces mayores que otras!)
En los dos primeros casos mencionados anteriormente, el problema viene de la dimensionalidad de las variables,
y en el tercero de la diferencia enorme entre las medias de ambas poblaciones.
Denicin 5.11. El coeciente de variacin es lo que nos permite evitar estos problemas, pues elimina la
dimensionalidad de las variables y tiene en cuenta la proporcin existente entre medias y desviacin tpica. Se
dene como: CV =
Sx
x
Propiedades del Coeciente de variacin
Slo se debe calcular para variables con todos los valores positivos. Todo ndice de variabilidad es es-
encialmente no negativo. Las observaciones pueden ser positivas o nulas, pero su variabilidad debe ser
siempre positiva. De ah que slo debemos trabajar con variables positivas, para la que tenemos con
seguridad que x > 0.
5 RESUMEN DE DATOS 40
No es invariante ante cambios de origen. Es decir, si a los resultados de una medida le sumamos una
cantidad positiva, b > 0, para tener y = x +b, entonces CV
y
< CV
x
.
Es invariante a cambios de escala. As por ejemplo el coeciente de variacin de una variable medida en
metros es una cantidad adimensional que no cambia si la medicin se realiza en centmetros.
5.3.5. Estadsticos de Asimetra.
Para saber si una distribucin de frecuencias es simtrica, hay que precisar con respecto a qu. Un buen can-
didato es la mediana, ya que para variables continuas, divide al histograma de frecuencias en dos partes de igual
rea. Podemos basarnos en ella para, de forma natural, decir que una distribucin de frecuencias es simtrica si
el lado derecho de la grca a partir de la mediana es la imagen por un espejo del lado izquierdo.
Cuando la variable es discreta, decimos que es simtrica, si lo es con respecto a la media.
Dentro de los tipos de asimetra posible, vamos a destacar los dos fundamentales:
Asimetra positiva: Si las frecuencias ms altas se encuentran en el lado izquierdo de la media, mientras
que en derecho hay frecuencias ms pequeas llamada cola.
Asimetra negativa: Si las frecuencias ms altas se encuentran en el lado derecho de la media, mientras
que en izquierdo hay frecuencias ms pequeas.
Figura 19: Distribuciones de frecuencias simtricas y asimtricas
Cuando realizamos un estudio descriptivo es altamente improbable que la distribucin de frecuencias sea
totalmente simtrica. En la prctica diremos que la distribucin de frecuencias es simtrica si lo es de un modo
aproximado. Por otro lado, an observando cuidadosamente la grca, podemos no ver claro de qu lado estn
las frecuencias ms altas. Se denen entonces toda una familia de estadsticos que ayuden a interpretar la
asimetra, denominados ndices de asimetra.
Momento central de tercer orden
Denicin 5.12. El momento central de tercer orden lo denotamos por a
3
y lo denimos por:
a
3
=
1
N
N

i=1
(x
i
x)
3
si los datos no estan agrupados, si estos estan agrupados tenemos:
a
3
=
1
N
m

i=1
(x
i
x)
3
n
i
donde m son el total de datos distintos y n
i
su frecuencia. Si los datos estan en agrupados en intervalos,
cambiamos x
i
por c
i
que es el punto medio de la clase o intervalo y tenemos m intervalos
5 RESUMEN DE DATOS 41
Un dato x
i
se puede encontrar ubicado de tal forma que x
i
x < 0 o x
i
x > 0, y puesto que los cubos de
estas cantidades mantienen las desigualdades tenemos:
Si a
3
= 0 la distribucin es simtrica.
Si a
3
> 0 la asimetra es positiva.
Si a
3
< 0 la asimetra es negativa.
ndice de simtria basado en los tres cuartiles (Yule-Bowley)
Si una distribucin es simtrica, es claro que deben haber tantas observaciones entre la que deja por debajo de
s las tres cuartas partes de la distribucin y la mediana, como entre la mediana y la que deja por encima de s
un cuarto de todas las observaciones. De forma abreviada esto es, Q
2
Q
1
= Q
3
Q
2
.
Si Q
2
Q
1
< Q
3
Q
2
la asimtria es positiva, en caso de que Q
2
Q
1
> Q
3
Q
2
la asimtria es negativa.
Figura 20: Uso de los cuartiles para medir la asimetra.
Para quitar dimensionalidad al problema, utilizamos como ndice de asimetra la cantidad:
A
s
=
(Q
3
Q
2
) (Q
2
Q
1
)
Q
3
Q
1
que es invariante ante cambios de escala y de origen; adems A
s
[1, 1], cuando A
s
< 0 tenemos asimetra
negativa, si A
s
> 0 la asimetra es positiva y A
s
= 0 hay simetra.
Otro ndice de asimetra, que se basa en que cuando tenemos una distribucin de frecuencias simtrica y uni-
modal, los valores de la media, mediana y moda coinciden, podemos denir la siguiente medida de asimetra:
A
s
=
x M
o
S
A
s
=
3( x M
d
)
S
Siempre tenemos que si A
s
< 0 asimetra negativa, A
s
> 0 asimetra es positiva y A
s
= 0 hay simetra.
5.3.6. Estadstico de apuntamiento.
Denicin 5.13. Se dene el coeciente de aplastamiento de Fisher o curtosis como:
CC =
m
4
S
4
3
donde m
4
es le momento de cuarto orden es decir m
4
=
1
N

N
i=1
(x
i
x)
4
, hacer las consideraciones cuando
tengamos datos agrupados.
Es ste un coeciente adimensional, invariante ante cmbios de escala y de origen. Sirve para medir si una
distribucin de frecuencias es muy apuntada o no. Para decir si la distribucin es larga y estrecha, hay que
tener un patrn de referencia. El patrn de referencia es la distribucin normal o gaussiana (que se estudia ms
adelante) para la que se tiene:
m
4
S
4
= 3 CC = 0.
De este modo, atendiendo a CC, se clasican las distribuciones de frecuencias en:
Platicrtica: Cuando CC < 0, o sea, si la distribucin de frecuencias es menos apuntada que la normal.
5 RESUMEN DE DATOS 42
Mesocrtica: Cuando CC = 0, es decir, cuando la distribucin de frecuencias es tan apuntada como la
normal.
Leptocrtica: Cuando CC > 0, o sea, si la distribucin de frecuencias es ms apuntada que la normal.
Como se muestra en gura 21.
Figura 21: Apuntamiento de distribuciones de frecuencia.
5.4. Diagrama de caja.
Para describir un conjunto de datos es muy ecaz un resumen de cinco puntos.
El resumen de cinco puntos est integrado por: Min: el mnimo valor en el conjunto de datos, Q
1
: el primer
cuartil, x: la media, Q
3
: el tercer cuartil, Max: el mximo valor en el conjunto de datos.
La informacin resumida contenida en los cuartiles se pone de relieve en la representacin grca llamada
diagrama de caja. Un diagrama de caja presenta los tres cuartiles, el mnimo y el mximo de los datos en una
caja rectangular, alineada en forma horizontal o vertical. La caja encierra el intervalo intercuartil con la lnea
izquierda en el primer cuartil y la lnea derecha en el tercer cuartil. Se dibuja una linea a travs de la caja en el
segundo cuartil (mediana). Una lnea en cualquier extremo se extiende hasta los valores extremos. Estas lneas,
llamadas algunas veces bigotes, pueden extedendese solo hasta los deciles 1y 9, o hasta los percentiles 5 y
95 en grandes conjuntos de datos. Algunos autores se reeren al diagrama de caja como el diagrama de caja y
bigotes.
Si Q = Q
3
Q
1
, Q se conoce como recorrido intercuartlico y se dice que toda observacin a ms de 1.5Q
del cuartil ms cercano es atpico o inusual. Un valor inusual es extremo si est a ms de 3Q del cuartil ms
cercano y es moderado en otro caso.
El grco de caja nos proporciona informacin acerca de la localizacin, la dispersin, el sesgo y las colas del
conjunto de datos que se aprecia de una sola mirada. La lectura siguiente est dada para un diagrama de caja
orientado de manera vertical.
La localizacin est representada en la lnea que corta la caja y representa la mediana ( que est dentro
de la caja), la dispercin est dada por la altura de la caja, como por la distancia entre los extremos de los
bigotes.
El sesgo se observa en la desviacin que exista entre la linea de la mediana con relacin al centro de la
caja y tambin la relacin entre las longitudes de los bigotes.
Las colas se pueden apreciar por la longitud de los bigotes con relacin a la altura de la caja, y tambin
por las observaciones que se marcan explcitamente.
Por ejemplo para un conjunto de datos en el cual obtenemos los siguentes datos.
Mn Q
1
Mediana Q
3
Mx
30.10 31.35 33 35.80 39.50
5 RESUMEN DE DATOS 43
Obtenemos el siguiente diagrama de caja.
5.5. Otros resmenes estadsticos.
Hemos estudiado distintas variables estadsticas mediante una serie de instrumentos que tratan de sintetizar en
un solo nmero toda la informacin disponible; pero para efectos de establecer comparaciones adecuadas de
las mismas variables a travs del tiempo, se utilizan ciertos indicadores denominados nmeros ndices.
Denicin 5.14. Un nmero ndice es una medida estadstica diseada para mostrar los cambios en una vari-
able o un grupo de variables relacionadas con respecto al tiempo, situacin geogrca u otra caracterstica.
Los nmeros ndices son un mtodo estadstico que sirve para hacer comparaciones entre un ao y otro, una
variable o un conjunto de variables, respecto a otras, etc.
Para la construccin de un nmero ndice, se procede ante todo, a jar el periodo de referencia o periodo
base", teniendo presente que debe ser un periodo normal, esto es, que no se hayan presentado situaciones
fortuitas (guerras, terremotos, incendios u otro tipo de imprevisto), que incidan en el valor de la variable para
ese periodo. Adems es recomendable considerar un periodo reciente que haga comparables los diferentes
valores de las variables consideradas. Generalmente se calcula as:
ndice =
valor del ao determinado
valor del ao base
y se suele expresar en porcentaje, multiplicndolo por 100.
Dependiendo de si nos referimos a valores de una sola variable o de varias variables, tendremos:
Nmeros ndices simples: Cuando la comparacin se realiza para una sola variable. Es decir, si X es una
variable estadstica cuya evolucin se pretende estudiar.
Llamaremos:
Periodo inicial o base, es aquel momento del tiempo sobre el que se va comparando la evolucin de la magnitud
o variable estadstica x
0
.
Periodo de comparacin, es aquel momento del tiempo en el que el valor de la variable x
t
se compara con el
del periodo base.
El ndice de evolucin de 0 a t expresado en porcentaje:
I
t
0
=
x
t
x
0
100
Observaciones:
I
t
0
es un nmero adimensional que indica la variacin que ha sufrido la variable entre uno y otro periodo
de tiempo.
I
t
0
toma el valor 100 en el periodo base.
I
t
0
< 100 implica que x
t
< x
0
.
5 RESUMEN DE DATOS 44
I
t
0
> 100 implica que x
t
> x
0
.
Ejemplo 5.1. ndices simples ms conocidos.
1. Precio relativo. Si p
0
y p
n
denotan los precios del bien durante el periodo base y el periodo considerado,
respectivamente, entonces, por denicin
Precio relativo =
p
n
p
0
2. Cantidad relativa. Si q
t
es la cantidad producida de un bien en el periodo t y q
0
es la cantidad producida
en el periodo base
Cantidad relativa =
q
t
q
0
3. Valor relativo. Es la razn entre el valor de un bien en el periodo t y su valor en el periodo base.
Valor relativo =
p
t
q
t
p
0
q
0
=
_
p
t
p
0
__
q
t
q
0
_
En cambio, cuando se trabaja con ms de una magnitud a la vez, hablaremos de Nmeros ndices complejos
sin ponderar y Nmeros ndices complejos ponderados.
Nmeros ndices complejos sin ponderar: Estudian la evolucin en el tiempo de una magnitud que tiene
varios componentes y a los cuales se asigna la misma importancia o peso relativo.
Sea X una variable formada por n magnitudes simples x
1
, x
2
, . . . , x
n
, entonces:
I
t
0
=
1
n
n

i=1
I
t
i0
=
1
n
n

i=1
x
it
x
i0
100
en donde:
I
t
i0
Nmeros ndices simples de cada componente i en el periodo t.
I
t
0
Nmero ndice total en el periodo t de la variable compleja.
I
t
i0
Nmero ndice simple del componente i en el periodo t.
x
it
Valor del componente i en el periodo t.
x
i0
Valor del componente i en el periodo base 0.
Nmeros ndices complejos ponderados: Estudian la evolucin en el tiempo de una magnitud que tiene varios
componentes y a los cuales se asigna un determinado coeciente de ponderacin w
i
.
Sea X una variable formada por n magnitudes simples x
1
, x
2
, . . . , x
n
, entonces:
I
t
0
=
n

i=1
I
t
i0
w
i
n

i=1
w
i
=
n

i=1
x
it
x
i0
100 w
i
n

i=1
w
i
=
n

i=1
_
_
_
_
_
_
x
it
x
i0

w
i
n

i=1
w
i
_
_
_
_
_
_
100
en donde:
5 RESUMEN DE DATOS 45
I
t
i0
Nmeros ndices simples de cada componente i en el periodo t.
Sean w
1
, w
2
, . . . , w
n
los coecientes de ponderacin de los componentes.
I
t
0
Nmero ndice total en el periodo t de la variable compleja.
I
t
i0
Nmero ndice simple del componente i en el periodo t.
x
it
Valor del componente i en el periodo t.
x
i0
Valor del componente i en el periodo base 0.
w
i
Coeciente de ponderacin del componente i.
5.6. Nmeros ndices: cambio de base
Debido a la prdida de representatividad de los nmeros ndice a medida que nos alejamos del ao base, resulta
conveniente expresar los ndice calculados con base en un periodo 0 en otra base h. Como
I
t
0
=
x
t
x
0
e I
h
0
=
x
h
x
0
, es claro que I
t
h
=
x
t
x
h
=
I
t
0
x
0
I
h
0
x
0
=
I
t
0
I
h
0
.
5.7. Algunos ndices demogrcos
Los indicadores demogrcos nos informan de las diversas variaciones que se presentan en las poblaciones
humanas. Antes de ver algunos ndices demogrcos expondremos conceptos principales.
Tiempo vivido y poblacin media.
El tiempo vivido por un grupo de personas corresponde a la suma del tiempo vivido, en aos, de cada
uno de los individuos, durante los cuales los miembros de la poblacin en estudio, han estado expuestos
al riesgo de ser afectados por un hecho demogrco en un perodo dado. Para poder determinar su valor
para una poblacin en un perodo dado, es necesario contar con informacin individualizada para cada
uno de los miembros, que resulta muy difcil a no ser que sea una poblacin muy pequea. Por esta
razn recurrimos a otra medida que aproxima su valor. Bajo el supuesto que las entradas y salidas que se
efectan en la poblacin se producen de manera aleatoria a lo largo del perodo, se toma la convencin
de utilizar la poblacin a mitad del periodo. Si este valor no se conoce, puede ser aproximado por la
poblacin media, la cual se obtiene de promediar dicha poblacin al inicio y al nal del perodo en
estudio.
Poblacin media =
(Poblacin inicial) + ( Poblacin nal )
2
La poblacin a mitad del perodo o poblacin media, un aproximado del tiempo vivido, cuando el perodo
de tiempo es un ao. En otro caso, este valor debe ser multiplicado por la longitud, en aos, del perodo
de tiempo.
Tiempo vivido = t ( Poblacin media)
donde t esta dado en aos.
Tasa.
Las tasas son ndices cuyo empleo se halla muy difundido en demograa y corresponde a diversos con-
ceptos, que en nuestro una tasa la obtendremos por medio de un cociente, el numerador representa al
5 RESUMEN DE DATOS 46
nmero de personas afectadas por un hecho demogrco y el denominador representa la poblacin ex-
puesta al riesgo de ser afectada por ese hecho.
Tasa =
Nmero de hechos ocurridos en el perodo
Tiempo vivido por la poblacin en el perodo
Como el tiempo vivido resulta prcticamente imposible de conocer utilizamos la poblacin a mitad del
perodo o a la poblacin media para aproximar su valor. Normalmente las tasas se multiplican por algn
mltiplo de 10, para dar una mejor interpretacin a su valor. El ms usado es 1000, por lo que se hace
referencia a frecuencia del hecho por cada mil personas.
5.7.1. Nacimientos brutos e ndice de mortalidad
El denominador en la denicin de tasas, es un estimado de la poblacin total expuesta a un hecho demogrco;
esto convierte a los valores en medidas un tanto burdas pues, no toda la poblacin est expuesta en igual
magnitud al hecho. Por esta razn se acostumbra denotarlas como tasas brutas y nos aportan una medida global
relativa a la natalidad, nupcialidad y la mortalidad. Cuando el denominador incluye nicamente un subgrupo
de la poblacin y no la poblacin total, estas tasas reciben el nombre de tasas especcas. La frmula general
de la tasa bruta se compone de dos efectos a tener en cuenta: E evento, P poblacion
3
. Adems denotemos por
x la variable composicin o de disgregacin de la poblacin, entonces
Tasa bruta: T =
E
P
Tasa especca: T
x
=
E
x
P
x
Tomando en cuenta que

x
E
x
= E,

x
P
x
= P y E
x
= T
x
P
x
, tendremos que
T =

x
T
x
P
x

x
P
x
=

x
T
x
P
x

x
P
x
Es decir, la tasa bruta es una media ponderada de las tasas especcas del fenmeno con peso la estructura de
la variable de composicin. Normalmente estas tasas brutas se calculan con alcance anual. De este modo si B
y D nos representan el nmero de nacimientos y defunciones en un perodo dado respectivamente, entonces
Tasa bruta de natalidad =
B
P
; Tasa bruta de mortalidad =
D
P
5.8. Estandarizacin de indicadores
Hemos dicho que de acuerdo al denominador utilizado, las tasas pueden ser clasicadas en dos tipos: tasas
brutas y especcas. En las tasas brutas el denominador est compuesto por la poblacin total expuesta a un
evento. Por ejemplo, la tasa bruta de mortalidad representa la frecuencia de lo muerte en el total de la poblacin
expuesta en un lugar y tiempo determinado. Cuando queremos hacer una comparacin entre dos diferentes
poblaciones, con relacin a un suceso, podremos usar tasas brutas slo si las poblaciones son similares en
aquellas caractersticas que pudieran afectar la ocurrencia del suceso y, por ende, el resultado de dichas tasas.
Si las poblaciones son diferentes debemos recurrir a las tasas especcas o modicar las tasas brutas de tal
3
P ser la poblacin a mitad del perodo o poblacin media.
5 RESUMEN DE DATOS 47
manera que dicha comparacin sea vlida. Ilustraremos esta situacin y el mtodo de estandarizacin en el
ejemplo siguiente.
Ejemplo 5.2. Supongamos que se cuenta con la informacin de dos regiones hipotticas, la primera corre-
sponde a una regin en desarrollo que se denominar como Regin Ay la segunda una regin ms desarrollada
que se catalogar como Regin B.
Regin A Regin B
Edad Poblacin Defunciones Tasas de mortalidad Poblacin Defunciones Tasas de mortalidad
(por 1000 ha.) (por 1000 ha.)
0-4 279.7 2570 9.2 226.2 540 2.4
5-9 280.8 155 0.6 221.6 40 0.2
10-19 500.7 336 0.7 633.3 266 0.4
20-29 333.8 466 1.4 714.7 650 0.9
30-39 208.1 397 1.9 606.1 699 1.2
40-49 150.8 542 3.6 710.2 1701 2.4
50-59 97.4 739 7.6 547.3 2813 5.1
60-69 70.1 1198 17.1 402.6 5286 13.1
70-79 34.9 1435 41.1 357.3 11350 31.8
80-89 11.2 1161 103.7 67.8 5564 82.1
90 y + 1.7 333 195.9 40.7 7735 190.0
Total 1969.3 9332 4527.8 36644
De esta informacin obtenemos:
Tasa bruta de mortalidad de la Regin A =
9332
1969.3
= 4.7
Tasa bruta de mortalidad de la Regin B =
36644
4527.8
= 8.1
La tasa bruta de mortalidad en la Regin B prcticamente duplica el valor obtenido en la Regin A. Pero, segn
nuestra informacin, en cada uno de los grupos, las tasas especcas de mortalidad son menores en la Regin
B. Lo cual nos indica que el estado de mortalidad es mucho menor en esta regin. Luego, es evidente que este
indicador no nos sirve para poder comparar ambas regiones. Para poder comparar las regiones utilizaremos
la estandarizacin directa o mtodo de la poblacin tipo el cual nos proporciona un indicador comparativo.
Se construye como una media ponderada de las tasas especcas donde los pesos proceden de una serie de
referencia llamada estndar, con la cual se homogeneiza la estructura composicional de los distintos grupos o
poblaciones a comparar. Este mtodo responde a la pregunta: Qu comportamiento tendra tal grupo, si tuviera
la misma estructura composicional que el estndar?. Con la nalidad de homgeneizar los procedimientos de
ajuste de tasas, se suelen utilizar poblaciones de referencia convencionales. Por ejemplo, si deseamos comparar
indices entre departamentos podramos usar la poblacin nacional como poblacin tipo, para comparar pases
de la regn podramos usar la poblacin de Amrica Latina como poblacin tipo. Cualquiera que sea el caso, la
poblacin debe estar categorizada por los mismos estratos de nuestras tasas especcas. Para nalizar nuestro
ejemplo usaremos como poblacin estandar la suma de las poblaciones de la Regin A y B. Obteniendo
5 RESUMEN DE DATOS 48
Tasas especcas de mortalidad Defunciones esperadas
Edad Poblacin Regin A Regin B Regin A Regin B
estandar
0-4 505.9 0.0092 0.0024 4654 1214
5-9 502.4 0.0006 0.0002 301 100
10-19 1134 0.0007 0.0004 794 454
20-29 1048.5 0.0014 0.0009 1468 944
30-39 814.2 0.0019 0.0012 1547 977
40-49 861 0.0036 0.0024 3100 2066
50-59 644.7 0.0076 0.0051 4900 3288
60-69 472.7 0.0171 0.0131 8083 6192
70-79 392.2 0.0411 0.0318 16119 12472
80-89 79 0.1037 0.0821 8192 6486
90 y + 42.4 0.1959 0.1900 8306 8056
Total 6497 57465 42250
Tasas de mortalidad
estandarizadas 8.8 6.5
De esta manera, si la Regin A presenta 8.8 defunciones por cada mil habitantes y, bajo las misma estructura
poblacional en la Regin B se presentaran 6.5 defunciones por cada mil habitantes. Queda evidenciado, que el
patron de mortalidad en la Regin B es menor que en la regin A.
5.8.1. ndice de mortalidad estandarizado
Del punto de vista de los clculos, la estandarizacin directa es sencilla:
Tasa directamente estandarizada =

(tasas especcas de los estratos pesos estndares)

(pesos estndares)
De la denicin de tasa bruta cuando conocemos las tasas especcas para la variable de composicin x
T =

x
T
x
P
x

x
P
x
=

x
T
x
P
x

x
P
x
Cuando tenemos dos poblaciones, para eliminar las diferencias en las estructuras de las poblaciones, se sustituye
la serie de pesos por una nica serie de pesos extrada de la poblacin tipo: P
est
.
T
est
i
=

x
T
i,x
P
est,x

x
P
est,x
, i = 1, 2
Es claro que usando esta frmula podemos obtener el indice de nacimientos estandarizado.
Al interpretar los resultados de una estandarizacin directa debemos tener en cuenta los siguientes puntos:
La tasa estandarizada no tiene valor en s misma.
Indica qu tasa bruta del fenmeno tendra una poblacin determinada si tuviese la composicin de la
poblacin estndar. Es decir, proporciona indicadores que son directamente comparables y que se leen
como tasas brutas.
Segn el estndar escogido, el valor de la tasa estandarizada variar.
6 PROBABILIDADES 49
Uno de los principales problemas ligados a la estandarizacin directa es la gran cantidad de datos que se
necesitan, sobre todo en refencia a las tasas especcas, pus, cuando los nmeros por estrato son pequeos,
las estimaciones de las tasas especcas son demasiado susceptibles a la fuerte inuencia de la variabilidad al
azar para que el mtodo de la estandarizacin directa de resultados satisfactorios. En este caso, puede usarse
un procedimiento de estandarizacin indirecto, para el cual solamente se debe disponer de las tasas especcas
de la poblacin estndar. Para el clculo del indicador comparativo estandarizado por el mtodo indirecto se
necesitan:
1. Los eventos totales de cada una de las poblaciones que se comparan.
2. La estructura de poblacin de cada una de las poblaciones a comparar.
3. Las tasas especcas del fenmeno en la poblacin tipo.
Partimos de unas tasas especcas tipo: T
est,x
, y las aplicamos a dos estructuras de poblacin conocidas:
P
i,x
i = 1, 2, de manera que obtendramos unos eventos tericos:
E
tericos
i
=

x
T
est,x
P
i,x
, i = 1, 2
Como tenemos los eventos observados en las poblaciones, los podemos comparar:
E
i
E
tericos
i
=

x
T
i,x
P
i,x

x
T
est,x
P
i,x
= I
i
, i = 1, 2
Este indicador nos permite situar a cada una de las poblaciones en relacin a la poblacin tipo escogida. Esto
es, no proporciona indicadores comparables.
Si I
i
< 1 entonces el fenmeno de la poblacin i es menor que el fenmeno de la poblacin de referencia.
Si I
i
> 1 entonces el fenmeno de la poblacin i es mayor que el fenmeno de la poblacin de referencia.
En la estandarizacin directa, la poblacin de estudio provee las tasas y la poblacin estndar provee los pesos.
En la estandarizacin indirecta, la poblacin estndar provee las tasas y la poblacin de estudio provee los
pesos.
6. Probabilidades
6.1. Introduccin
La teora de la probabilidad actualmente se ha convertido en una herramienta indispensable para aquellos es-
tudios en las que se aprecie la incertidumbre, por ejemplo, algunas expresiones que normalmente se escuchan:
posiblemente nuestro equipo ganar esta noche", hay una alta posibilidad que de este lote de artculos elc-
tricos el 90 % son ables", sobre las apuestas a un juego de dados, a la hora de comprar dos tipos de frmacos
A y B, nos vemos en el problema de determinar cul de ellos es ms ecaz para el tratamiento de una de-
terminada enfermedad, tambin, estimar la proporcin de electores que preeren a un determinado candidato,
entonces, nos preguntamos Cmo podemos llegar a conrmar los resultados?, Qu se necesita para tener una
respuesta antes estos eventos?; llegamos al problema de buscar una forma de medir, es decir, de que si existe
una medida del grado de incertidumbre asociado a cada uno de estos eventos. Entonces Cmo medimos la
incertidumbre asociada a eventos? La respuesta es la probabilidad.
6 PROBABILIDADES 50
6.2. Resea Histrica
Una disputa entre jugadores en 1654 llev a dos famosos matemticos franceses, Blaise Pascal y Pierre de
Fermat, a la creacin del clculo de Probabilidades. Antoine Gombaud, caballero de Mer, noble francs in-
teresado en cuestiones de juegos y apuestas, llam la atencin a Pascal respecto a una aparente contradiccin
en un popular juego de dados. Este y otros problemas planteados por de Mer motivaron un intercambio de
cartas entre Pascal y Fermat en las que por primera vez se formularon los principios fundamentales de las
probabilidades. Si bien unos pocos problemas sobre juegos de azar haban sido resueltos por matemticos ital-
ianos en los siglos XV y XV I, no exista una teora general antes de esa famosa solucin de problemas. El
cientco holands Christian Huygens, enterado de esa situacin public rpidamente en 1657 el primer libro
de probabilidades; fue un tratado de problemas relacionado con los juegos. El clculo de probabilidades lleg
a ser pronto popular por sus alusiones a los juegos de azar, y se desarrollo rpidamente a lo largo del siglo
XV III. Quienes ms contribuyeron a su desarrollo fueron James Bernoulli y Abraham de Moivre. En 1812,
Pierre de Laplace introdujo gran cantidad de ideas nuevas y tcnicas matemticas en su libro, Teora Analtica
de Probabilidades. Antes de Laplace, las probabilidades prcticamente consistan en un anlisis matemtico de
los juegos del azar. Laplace demostr que esa teora poda ser aplicada a multitud de problemas cientcos y
prcticos. Ejemplo de tales aplicaciones son la teora de errores, la matemtica actuarial y la mecnica estads-
tica que se desarrollaron en el siglo XIX. Una de las dicultades que se presentaron al desarrollar una teora
matemtica ha sido alcanzar una denicion de probabilidad lo bastante precisa para su utilizacin matemtica.
La bsqueda de una denicin completamente aceptable duro cerca de tres siglos y fue caracterizada por un
gran nmero de controversias. El asunto fue denitivamente resuelto en el siglo XX al tratar la teora de la
probabilidad en forma axiomtica establecida por el matemtico ruso Andrei Kolmogorov, quien consider la
relacin entre la frecuencia relativa de un suceso y su probabilidad cuando el nmero de veces que se realiza
el experimento es muy grande. Antes de introducirnos al campo de la probabilidad es necesario comprender
algunos los conceptos importantes de las probabilidades, as como tambin, algunos conceptos de la teora de
conjuntos.
6.3. Conceptos Bsicos
1. Un evento aleatorio se dene como un fenmeno que en la realizacin experimental su observacin
ocurre o no ocurre.
2. Experimento Aleatorio: Conjunto de pruebas realizadas bajo las mismas condiciones y cuyos resultados
son impredecibles. Los rasgos que distinguen a los experimentos aleatorios son:
a) Todos los resultados del experimento son conocidos con anterioridad a su realizacin.
b) No se puede predecir el resultado del experimento.
c) El experimento puede repetirse en condiciones idnticas.
3. Espacio Muestral: Es el conjunto de todos los resultados posibles de un experimento aleatorio.
Se denota por y este puede ser Finito, Innito numerable, Innito no numerable.
4. Llamaremos suceso elemental al constituido por un solo elemento del espacio muestral y suceso com-
puesto a cualquier subconjunto constituido por ms de un elemento.
5. Suceso o evento aleatorio: Es cualquier subconjunto del espacio muestral. Conjunto de posibles resulta-
dos de un experimento aleatorio.
6. Suceso o evento seguro: Es un evento que siempre ocurre.
7. Suceso o evento imposible: Es aquel que indefectiblemente no ocurrir, se denomina conjunto vaco, .
6 PROBABILIDADES 51
8. Eventos igualmente probables: Todos tienen la misma probabilidad de ocurrir (equiprobables).
9. Eventos mutuamente excluyentes: Se dice mutuamente excluyentes si los eventos A y B (ambos conjun-
tos) no contienen puntos mustrales en comn.
10. Eventos dependientes: Aquellos en que la ocurrencia de uno afecta la probabilidad de ocurrencia de los
dems.
11. Eventos independientes: La ocurrencia de uno no afecta la probabilidad de ocurrencia o no de los dems.
Para una mejor ilustracin de los eventos mutuamente excluyentes e independientes utilizaremos un ejemplo
que nos permita una mejor comprensin de ambos tipos de eventos. Pensemos en el lanzamiento de una moneda
y en los eventos A= sale cara y B = sale cruz.
Lleva informacin un resultado sobre el otro?
Afecta un resultado con el otro?
Tambin nos podramos preguntar si los eventos A y B:
a) Son mutuamente excluyentes?
b) Son independientes?
Sabemos entonces que P(A) =
1
2
, P(B) =
1
2
.
Respondiendo a), la pregunta intuitiva a formularse es Se pueden dar ambos eventos a la vez?, Si la respuesta
es si, no son mutuamente excluyentes, si la respuesta es no, si son mutuamente excluyentes. Obviamente la
respuesta intuitiva es que no se pueden simultaneamente obtener a la vez cara y cruz, por tanto son mutuamente
excluyentes. Expresando formalmente lo escrito anteriomente diremos P(A B) = 0 porqu A B = , en
consecuencia P() = 0.
Para b), la pregunta intuitiva es Si s que se ha dado el evento A eso lleva informacin acerca que se ha dado
el evento B? es decir si s, que ha salido cara puedo decir algo sobre el hecho que haya salido o no cruz?. La
respuesta intuitiva, es que, si ha salido cara ya se que no ha salido cruz, es decir, el evento A lleva informacin
sobre el evento B, por tanto no son independientes. Formalmente hemos encontrado que P(A B) = 0 mien-
tras que P(A).P(B) =
1
2
.
1
2
=
1
4
, que es distinto de cero, como la probabilidad de la interseccin es distinta
del producto de las probabilidades los eventos A y B no son independientes. Proposicin general: Si A y B son
dos eventos mutuamente excluyentes tales que P(A) = 0 y la P(B) = 0 no es cero entonces A y B no son
independientes.
Proposicin general: Si A y B son dos eventos mutuamente excluyentes tales que P(A) = 0 y la P(B) = 0
entonces A y B no son independientes.
Demostracin.
Lo hacemos por contradiccin, asumamos que los eventos A y B son independientes y lleguemos a una con-
tradiccin. Como A y B son independientes tenemos que P(A B) = P(A)P(B) = 0 por el hecho que
P(A) = 0 y P(B) = 0, pero adems se tiene por el hecho que A y B son mutuamente excluyentes lo siguiente
P(AB) = P() = 0 con lo que llegamos a que P(AB) = 0 y P(AB) = 0 lo cual es una contradiccin.
6.4. Algebra de sucesos de probabilidad
Consideremos ahora ciertas operaciones con eventos que tendrn como resultados la formacin de nuevos
eventos. Tales eventos nuevos sern subconjuntos del mismo espacio muestral como los eventos dados.
Supngase que se tiene dos eventos A y B que se asocian con un experimento, es decir, A y B subconjuntos
del espacio muestral S. Entonces:
6 PROBABILIDADES 52
1. La unin de dos sucesos A y B en un espacio S se dene como:
A B = {x : x A o x B}
Grcamente tenemos:
2. La interseccin de dos sucesos A y B en un espacio S se dene como:
A B = {x : x A y x B}
Grcamente tenemos:
3. Las operaciones de unin e interseccin gozan de las propiedades de clausura, idempotencia, conmutati-
va, asociativa y se vinculan mediante la propiedad distributiva de la interseccin respecto a la unin, es
decir,
A (B C) = (A B) (A C)
4. El complemento del suceso A en el espacio S se dene como la diferencia entre el conjunto S y el
conjunto A, es decir,
A
C
= S A = {x : x S y x A} y signica que no ocurre A.
5. Leyes de De Morgan
a) (A B)
C
= A
C
B
C
b) (A B)
C
= A
C
B
C
Para una mejor ilustracin de nuestros conceptos resolvamos el ejercicio siguiente.
6 PROBABILIDADES 53
Ejemplo 6.1. Los currculos de dos aspirantes masculinos por el puesto de profesor de matemtica en
una facultad se colocan en el mismo archivo que los currculos de dos aspirantes mujeres. Hay dos
puestos disponibles y el primero, con el rango de profesor asistente, se cubre mediante la seleccin al
azar de 1 de los 4 aspirantes. El segundo puesto, con el rango de profesor titular, se cubre mediante la
seleccin aleatoria de uno de los 3 aspirantes restantes. Utilizando una notacin adecuada para denotar
el evento utilizaremos la notacin M1F2, que signica que el primer puesto se cubra con el primer
aspirante hombre y el segundo puesto se cubra despus de la segunda aspirante mujer:
a) Liste los elementos del espacio muestral S.
b) Liste los elementos de S que corresponden al evento A de que el puesto de profesor asistente se
cubra con un aspirante hombre.
c) Liste los elementos de S que corresponden al evento B de que exactamente 1 de los 2 puestos se
cubra con un aspirante hombre;
d) Liste los elementos de S que corresponden al evento C de que ningn puesto se cubra con un
aspirante hombre;
e) Liste los elementos de S que corresponden al evento A B.
f) Liste los elementos de S que corresponden al evento A C.
Solucin.
Para iniciar la solucin, uno de los conceptos bsicos a tener en cuenta es la construccin del espacio
muestral, S, el cul consistir en obtener de todos los posibles resultados, es decir, quien ocupar el
puesto de asistente ya sea este hombre mujer y del igual modo los que ocuparan el puesto de profesor
titular.
a) Como ya hemos denotado los elementos que conformaran nuestro conjunto diremos que nuestro
espacio muestral es
S = {M1M2, M1F1, M1F2, M2M1, M2F1, M2F2, F1M1, F1M2, F2F1, F2M1, F2M2, F2F1}
b) Aqu buscaremos al sexo masculino que ocupara el puesto de asistente no importando el segundo
puesto de que sexo lo ocupar.
A = {M1M2, M1F1, M1F2, M2M1, M2F1, M2F2}
c) Analiza en el espacio muestral los elementos que cumplen con esta condicin, su resultado ser:
B = {M1F1, M1F2, M2F1, M2F2, F1M1, F1M2, F2M1, F2M2}
d) Aqu buscamos aquellos elementos en las cuales los puestos los ocuparan solo mujeres, es decir:
C = {F1F2, F2F1}
e) Este conjunto es precisamente la combinacin de dos eventos simples y su enunciado se construye
generando un enunciado que combine a ambos eventos, es decir:
A B = {M1F1, M1F2, M1F1, M2F2}
f) La combinacin de ambos enunciado obtendramos El conjunto de los elementos que ocupen el
primer puesto sea el de asistente o que ningn puesto sea ocupado por ningn hombre", es decir
A C = {M1M2, M1F1, M1F2, M2M1, M2F1, M2F2, F1F2, F2F1}
6 PROBABILIDADES 54
La relacin entre eventos y el correspondiente espacio muestral se puede ilustrar en forma grca utilizando
diagramas de Venn, de la forma siguiente:
1. A B = regiones 1 y 2
2. B C = regiones 1 y 3
3. A B = regiones 1, 2, 3, 4, 6, 7
4. B
C
A = regiones 4 y 7
5. A B C = regin 1
6. (A B) C
C
= regiones 2, 6 y 7
Varios resultados se obtienen de las deniciones anteriores y que se pueden vericar de forma sencilla emple-
ando diagramas de Venn, dentro de ellos tenemos
1. A =
2. A = A
3. A A
C
= S, donde S es el espacio muestral
4. A A
C
=
5. S
C
=
6.
C
= S
7. (A
C
)
C
= A
6.5. Denicin de Probabilidad. Probabilidad de un evento
La insaciable sed de los juegos al azar condujo al desarrollo de la teora de las probabilidades. Como resultado
de este estudio inicial, la inferencia estadstica, con todas sus predicciones y generalizaciones se extiende ms
all de los juegos, abarcando muchos campos que se tiene como resultado: eventos aleatorios.
Denicin Clsica o a priori". Si un evento ocurre en N formas, las cuales se excluyen mutuamente y son
igualmente probables, y si m de estos eventos poseen una caracterstica E, la probabilidad de ocurrencia de E
6 PROBABILIDADES 55
es igual a m/N. Es decir,
P(E) =
m
N
=
(Nmero de casos favorables)
(Nmero de casos posibles)
= p
Denicin Frecuencial o a posteriori": Si algn proceso es repetido un gran nmero de veces, n, y si algn
evento resultante, con la caracterstica E ocurre m veces, la frecuencia relativa de la ocurrencia de E viene
dada por
P(E) =
m
n
= lm
n
P(E) = p
La proximidad de la frecuencia relativa a la probabilidad depende de las repeticiones de algn proceso y de
la posibilidad de contar el nmero de repeticiones, as como el nmero de veces que algn evento de inters
ocurre.
6.6. Nociones Bsicas de Probabilidad
La denicin axiomtica de las probabilidades se debe al matemtico ruso Andrei Kolmogorov, en los aos de
1903 a 1987. La cual se enuncia as:
Sea el espacio muestral asociado a un experimento aleatorio y sean A
i
para i = 1, 2, ..., n eventos. A
cada A
i
le asignaremos un nmero real P(A
i
), denominada probabilidad de A
i
, que satisface las propiedades
siguientes:
1. 0 P(E) 1
2. P() = 1
3. Si A
1
excluye a A
2
entonces P(A
1
A
2
) = P(A
1
) +P(A
2
)
4. Si los A
i
son mutuamente excluyentes, es decir, A
i
A
j
= , para todo i = 1, 2, 3, ...., n entonces
P(
n
i=1
A
i
) =
n

i=1
P(A
i
)
6.7. Teoremas de espacios probabilsticos
Los teoremas siguientes son consecuencia directa de los cuatro axiomas.
Teorema 6.1. La probabilidad del suceso imposible, o en otras palabras del conjunto vaco es nula, es decir,
P() = 0
Teorema 6.2. (Regla del complementario).Para cualquier suceso A, se verica que P(A
C
) = 1 P(A)
Teorema 6.3. Para cualquier suceso A se cumple 0 P(A) 1
Este teorema nos garantiza que la probabilidad de cualquier evento estar entre 0 y 1.
Teorema 6.4. Si A B entonces P(A) P(B)
Teorema 6.5. Ley de la suma de probabilidades Para dos sucesos cualesquiera A y B, se verica que
P(A\B) = P(A) P(A B)
Teorema 6.6. (Ley de la suma de probabilidades). Para dos sucesos cualesquiera A y B,
P(A B) = P(A) +P(B) P(A B)
6 PROBABILIDADES 56
Aplicando el teorema anterior dos veces, obtenemos:
Corolario 6.7. Para tres sucesos cualesquiera A, B, C, se verica que
P(A B C) = P(A) +P(B) +P(C) P(A B) P(A C) P(B C) +P(A B C)
Esta regla de la adicin puede generalizarse a cualquier nmero nito de conjuntos.
6.8. Probabilidades Condicionales
Denicin 6.1. La probabilidad Condicional de un evento A, ya que ocurri un evento B, es igual a
P(A\B) =
P(A B)
P(B)
Siempre que P(B) > 0. El smbolo P(A\B) se lee la probabilidad de A dada la ocurrencia de B"
Denicin 6.2. Dos eventos A y B son independientes si
P(A B) = P(A).P(B)
Si esta no se satisface, los eventos se dice que son dependientes. Ntese que la denicin es equivalente a
expresar que los eventos A y B son independientes si
P(A\B) = P(A) o P(B\A) = P(B)
6.9. Leyes de Probabilidad
La probabilidad de la interseccin de dos eventos A y B es
P(A B) = P(A).P(B\A) = P(B).P(A\B)
Y tal como se coment, si A y B son conjuntos independientes se satisface la denicin anterior.
Dentro de estas leyes tambin puede contemplarse la ley de la suma de probabilidades denidas anteriormente.
6.10. Teorema de Bayes
El procedimiento de la composicin de los eventos para resolver los problemas de probabilidad se facilita
algunas veces al considerar el espacio muestral S como una unin de subconjuntos que son mutuamente ex-
cluyentes. Es decir, se supone que
S = B
1
B
2
B
3
. . . B
K
Con B
i
B
j
= , para i = j. Entonces, cualquier subconjunto A de A se puede escribir como
A = A S = A (B
1
B
2
B
3
. . . B
K
) = (A B
1
) (A B
2
) . . . (A B
k
)
Entonces observemos que
P(A) = P(A B
1
) +P(A B
2
) +. . . +P(A B
k
)
= P(B
1
)P(A\B
1
) +P(B
2
)P(A\B
2
) +P(B
3
)P(A\B
3
) +. . . +P(B
k
)P(A\B
k
)
=
k

i=1
P(B
i
)P(A\B
i
)
7 DISTRIBUCIONES DE PROBABILIDAD 57
Una probabilidad condicional de la forma P(B
j
\A) se puede calcular como
P(B
j
\A) =
P(A B
j
)
P(A)
=
P(B
j
)P(A\B
j
)

k
i=1
P(B
i
).P(A\B
i
)
Esta ecuacin para la probabilidad condicional se le llama Regla de Bayes.
7. Distribuciones de probabilidad
7.1. Introduccin
Uno de los objetivos de la estadstica es el conocimiento cuantitativo de un determinado fenmeno de la real-
idad. Para ello, es necesario observarlo e intentar construir un modelo de esta realidad particular partiendo de
la premisa de que modelar lo real es siempre ms complejo y multiforme que cualquier modelo que se pueda
construir. De todas formas, la formulacin de modelos aceptados en el campo de la estadstica, nos permite
minimizar la existencia del error o distancia entre la realidad y el modelo.
Los modelos tericos a los que se hace referencia se reducen en muchos casos a (o incluyen en su formulacin)
funciones de probabilidad.
La teora de la probabilidad tiene su origen en el estudio de los juegos de azar, como se ha comentado al inicio
de este apartado, pero uno de los conceptos ms importantes de esta teora es el de variable aleatoria que, intuiti-
vamente, puede denirse como cualquier caracterstica medible que toma diferentes valores con probabilidades
determinadas.
Toda variable aleatoria posee una distribucin de probabilidad que describe su comportamiento. Si la variable
es discreta, es decir, si toma valores aislados dentro de un intervalo, su distribucin de probabilidad especca
todos los valores posibles de la variable junto con la probabilidad de que cada uno ocurra. En el caso continuo,
es decir, cuando la variable puede tomar cualquier valor de un intervalo, la distribucin de probabilidad permite
determinar las probabilidades correspondientes con subintervalos de valores.
Una forma usual de describir la distribucin de probabilidad de una variable aleatoria continua es mediante la
denominada funcin de densidad.
Una de las preocupaciones de los cientcos ha sido construir modelos de distribuciones de probabilidad que
pudieran representar el comportamiento terico de diferentes fenmenos aleatorios que aparecan en el mundo
real. La pretensin de modelar lo observable ha constituido siempre una necesidad bsica para el cientco
emprico, dado que a travs de esas construcciones tericas, los modelos, poda experimentar sobre aquello que
la realidad no le permita. Por otra parte, un modelo resulta extremadamente til, siempre que se corresponda
con la realidad que pretende representar o predecir, de manera que ponga en evidencia las propiedades ms
importantes del mundo que nos rodea.
En la prctica existen distribuciones de probabilidad tericas, como son, por ejemplo, para variables discretas,
la distribucin binomial, la de Poisson, entre otras. La distribucin normal para variables continuas, que sirven
de modelo para representar las distribuciones empricas ms frecuentes.
7.2. Conceptos Bsicos
1. Variable Aleatoria.
Denicin 7.1. Una variable aleatoria de un espacio muestral es una regla que asigna un valor
numrico a cada resultado de , en otras palabras, una funcin de en el conjunto R de nmeros
reales.
7 DISTRIBUCIONES DE PROBABILIDAD 58
Notacin: Sean S y T dos conjuntos. Supongamos que para cada s S hay asignado un nico elemento
de T; la cantidad de f de tales asignaciones se llama funcin de S en T, y se escribe f : S T.
Escribiremos f(s) para el elemento de T que f asigna a s S, y llamaremos f(s) la imagen de s bajo
f o el valor de f en s.
La imagen f(A) de cualquier subconjunto A de S, y la preimagen f
1
(B) de cualquier subconjunto B
de T se dene por:
f(A) = {f(s) : s A}
f
1
(B) = {s : f(s) B}
En palabras, f(A) se compone de las imgenes de puntos de A, y f
1
(B) se compone de aquellos puntos
cuya imagen pertenece a B. En particular , el conjunto f(S) de todas la imgenes de puntos se llama
Rango ( o imagen) de la funcion f.
En lo que sigue X denota la variable aleatoria y su correspondiente letra minscula, x para uno de sus
valores. Tambin tmese en cuenta que P(X = x) = f(x).
Ejemplo 1
El espacio muestral que ofrece una descripcin detallada de cada posible resultado, cuando se prueban
tres componentes electrnicos (D=funciona el componente electrnico y N=no funciona el componente
electrnico), se escribe como
= {NNN, NND, NDN, DNN, DNN, NDD, DND, DDN, DDD}
Observamos que la variable aleatoria X=Nmero de componentes no-defectuosos toma el valor de 2
para todos los elementos del subconjunto
E = {DDN, DND, NDD}
del espacio muestral . Esto es, para cada valor posible de X representa un evento que es un subconjunto
del espacio muestral para el experimento dado.
Ejemplo 2
Sea X la variable denida como el tiempo de espera , en horas, entre conductores sucesivos que exceden
los lmites de velocidad detectados por una unidad de radar. La variable aleatoria X toma todos los
valores de x tales que x 0.
2. Espacio muestral discreto.
Denicin 7.2. Si un espacio muestral contiene un nmero nito de posibilidades, o una serie inter-
minable con tantos elementos como nmeros existen, se llama espacio muestral discreto.Tal es el caso
del ejemplo 1.
3. Espacio muestral continuo.
Denicin 7.3. Si un espacio muestral contiene un n mero innito de posibilidades igual al nmero de
puntos de un segmento de lnea, se llama espacio muestral continuo. Tal es el caso del ejemplo 2.
4. Identiquemos las distribuciones de probabilidad.
a) Discretas. Distribuciones que estn asociadas a variables que toman un nmero nito (o numerable)
de valores posibles. El conjunto de pares ordenados [(x
i
, f(x
i
)] se da normalmente en una tabla como
la siguiente:
7 DISTRIBUCIONES DE PROBABILIDAD 59
b) En el conjunto de pares (x, f(x)) en una funcin de distribucin de probabilidad de la variable aleato-
ria discreta X si, para cada resultado posible x, debe cumplirse:
1) f(x) 0
2)

x
f(x) = 1
3) P(X = x) = f(x)
c) Continuas. Las distribuciones continuas estn asociadas a variables aleatorias con valores reales. La
distribucin de probabilidad de una variable aleatoria continua no se puede representar de forma tab-
ular, se le reconocer por una frmula , la cual necesariamente sera funcin de los valores nmericos
de la variable aleatoria continua X, y se representa mediante la notacion funcional f(x). Al tratar con
variables aleatorias continuas, por lo general, f(x), tambin se le conoce con el nombre de funcin
de densidad de probabilidad o simplemente funcion de densidad de X.
5. Distribucin de probabilidad acumulada.
La Funcin de Distribucin acumulada F(x) de una variable aleatoria discreta X con distribucin de
probabilidad f(x) viene dada por
F(x) = P(X x) =

tx
f(t), para < x <
Ilustraremos con un ejemplo este apartado de una distribucin en el caso discreto ya que esta puede elab-
orarse de manera similar tal como se elaboraron la distribucin de frecuencias relativas.
Para el caso de la variable continua en esta oportunidad no lo abordaremos ya que se necesita de her-
ramientas del clculo diferencial e integral para denir sus propiedades y otros parmetros como la
media y la varianza.
Ejemplo
Una variable aleatoria discreta tiene la siguiente funcin de distribucin (f(x))
La funcin de distribucin acumulada (F(x))
7 DISTRIBUCIONES DE PROBABILIDAD 60
Su respectivo grco
6. Valor esperado: (E(X))
E[X] = x
1
.f(x
1
) +x
2
.f(x
2
) + +x
n
.f(x
n
) =

n
i=1
x
i
f(x
i
)
7. Varianza: (V ar(X))
V ar(X) = (x
1
)
2
.f(x
1
) + (x
2
)
2
.f(x
2
) +. . . + (x
n
)
2
.f(x
n
) =

n
i=1
(x
i
)
2
.f(x
i
)
7.3. Distribuciones de Probabilidad. Distribucin de Bernoulli
1. Distribucin de Bernoulli
Denicin 7.4. Experimento de Bernoulli. Se denomina experimento de Bernoulli a todo experimento
aleatorio en el que slo son posibles dos resultados (uno, o xito, y cero), con probabilidades asociadas
p(1) = p y p(0) = 1 p.
La distribucin de de probabilidad de una variable aleatoria de Bernoulli X viene dada por
p(x) = p
x
(1 p)
1x
para x = 0, 1
La media y la varianza de una variable aleatoria con distribucion de Bernoulli viene dada por
= p y
2
= p(1 p) para x = 0, 1
Por ejemplo, tirar una moneda al aire es un experimento de Bernoulli con probabilidad de cara p = 0.5 y
de cruz 1 p = 0.5. Por otra parte, la ocurrencia o no de lluvia en una localidad concreta tambin puede
considerarse un experimento de Bernoulli (si no se tiene ninguna informacin que permita predecir la
ocurrencia de lluvia un da concreto).
2. Distribucin Binomial
Denicin 7.5. Un experimento binomial es aquel que tiene las siguientes caractersticas:
a) El experimento consta de n pruebas idnticas.
b) Cada prueba tiene dos resultados posibles. Exito (E) y Fracaso (F).
c) La probabilidad de tener xito en una sola prueba es igual a p, y permanece constante de prueba
en prueba. La probabilidad de un fracaso es igual (1 p) = q
d) Las pruebas son independientes.
e) La variable aleatoria bajo estudio es X, el nmero de xitos observados en las n pruebas.
7 DISTRIBUCIONES DE PROBABILIDAD 61
Para denir si un experimento en particular es un experimento binomial se deben examinar cada una de las
caractersticas anteriores. La variable de inters es el nmero de xitos en la n pruebas.
Se puede obtener la distribucin de probabilidad binomial p(x) aplicando la tcnica de los puntos muestrales
para encontrar la probabilidad de que el experimento tenga x xitos. Cada punto muestral se puede denotar
como una n ada, utilizando E y F.
Un punto muestral tpico aparecera as
EEEEFFEFFEFEEEFF . . . FE
En donde la letra en la i-sima posicin (contando de izquierda a derecha) indica el resultado de la i-sima
prueba. Entonces reagrupando tenemos EEEEEEEE . . . FFFF es la interseccin de las n pruebas inde-
pendientes, x xitos y (n x) fracasos y por lo tanto
pppppppppp . . . pppqqqq . . . qqq = p
x
.q
nx
Cualquier otro punto muestral aparecera como un rearreglo de las letras E y F en el punto antes descrito y por
esto contendr x letras E y (nx) letras F. Se observa que el nmero de arreglos distintos de E y F se puede
denir como
_
n
x
_
=
n!
x!(n x)!
7.4. Distribucin de probabilidad Binomial, Valor Esperado y Varianza
1. La Distribucin de probabilidad Binomial viene dada por
P(X = x) = p(x) =
_
n
x
_
p
x
.q
nx
Tambin en otros textos se identica la distribucin binomial utilizando la notacin b(x; n, p).
2. De dnde viene el nombre binomial?
La Distribucin Binomial deriva su nombre del hecho de que los n + 1 trminos en la expansin binomial
de (p +q)
n
corresponden a los diversos valores de b(x; n, p) para x = 0, 1, 2, . . . , n. Es decir
(p +q)
n
=
_
n
0
_
q
n
+
_
n
1
_
p
1
q
n1
+
_
n
2
_
p
2
q
n2
+
_
n
3
_
p
3
q
n3
+. . .
_
n
n
_
p
n
Obsrvese que
_
n
0
_
q
n
= p(0),
_
n
1
_
pq
n1
= p(1) . . . y en general p(x) =
_
n
x
_
p
x
.q
nx
Como p +q = 1, entonces

x
p(x) =
n

x=0
_
n
x
_
p
x
.q
nx
= b(x; n, p) = (p +q)
n
= 1
3. Valor Esperado y Varianza.
La media y la varianza de la distribucin binomial b(x; n.p) viene dada por
= np y V ar(X) = npq
7 DISTRIBUCIONES DE PROBABILIDAD 62
La distribucin de probabilidad binomial tiene muchas aplicaciones, ya que el experimento binomial ocurre
en el muestreo de productos defectuosos en un control de calidad, en el muestreo de preferencias del con-
sumidor o poblaciones de votantes, en la seleccin de medicamentos y en muchas situaciones del mundo
real.
7.5. Distribucin Normal
La distribucin continua de probabilidad ms importante en todo el campo de la estadstica es la distribucin
normal por la frecuencia con que se encuentra y por sus aplicaciones tericas. Su grco recibe el nombre de
curva normal, que es una fgura en forma de campana, la cual describe aproximadamente muchos fenmenos
sociales, mediciones en una industria, experimentos metereolgicos, y otros que ocurren en nuestra naturaleza y
que dada su comportamiento pueden explicarse a travs de la distribucin normal. Fu descubierta y publicada
por primera vez en 1733 por Abraham DeMoivre. A la misma llegaron, de forma independiente, Laplace (1812)
y Karl F. Gauss (1809), en relacin a la teora de los errores de observacin astronmica y fsica .
Una variable aleatoria continua X que tiene la distribucin con forma de campana se denomina variable
aleatoria normal. La ecuacin matemtica para la distribucin de probabilidad de la viariable aleatoria normal
depende de los parmetros y , su media y su desviacin esndar. De aqu, denotamos los valores de X con
N(x : , ).
Denicin 7.6. La funcin de densidad de la variable aleatoria normal X con media y varianza
2
es
f(x) =
1

2
e

(x)
2
2
2
Notacin: X N(,
2
)
Una vez se conocen y la curva normal est completamente denida. En la fgura siguiente se han trazado tres
curvas normales con la misma media pero con diferentes desviaciones estndares. Observe que las tres curvas
estan centradas exactamente en la misma posicin sobre el eje horizontal; la curva con mayor desviacin es
ms plana y su extienson es ms amplia.
7 DISTRIBUCIONES DE PROBABILIDAD 63
La fgura siguiente muestra el resultado de trazar tres curvas normales dos de ellas tiene diferentes medias y
diferentes desviaciones estndar. Evidentemente, estan centradas en posiciones diferentes sobre el eje horizontal
y sus formas reejan los valores diferentes de .
Propiedades de la Curva normal
1. La moda, la mediana y la media es el punto en el eje horizontal en donde la curva normal alcanza su mximo
valor, ocurre en

X =

X =

X.
2. La curva es simtrica alrededor de su eje vertical a travs de la media .
3. La curva normal tiene dos puntos de inexion: x = + y x =
4. La curva normal se aproxima al eje horizontal observando un comportamiento asntotico, esto sucede con-
forme nos alejamos de la media en cualquier direccin, formando una asntota.
5. El rea bajo la curva y sobre el eje horizontal es igual a 1.
6. El valor esperado de la distribucin normal con su respectiva varianza viene dada por
E(X) = y V ar(X) =
2
La curva de cualquier distribucin continua de probabilidad o funcin de densidad se construye de manera que
el rea bajo la curva limitada por las dos ordenadas x = x
1
y x = x
2
sea igual a la de la probabilidad de que la
variable aleatoria X tome un valor entre x = x
1
y x = x
2
. Es decir,
P(x
1
< X < x
2
) =
1

2
_
x
2
x
1
e

(x)
2
2
2
dx
que sta representada por el rea de la regin sombreada en la siguiente fgura
7 DISTRIBUCIONES DE PROBABILIDAD 64
El rea bajo la curva entre cualesquiera dos ordenadas tambin dependen de y . La P(x
1
< X < x
2
) donde
X es la variable aleatoria que describe la distribucin de Ay describe la distribucin B, entonces P(x
1
< X <
x
2
) sta dada por la region sombreada.
Desafortunadamente, la dicultad que se encuentra al resolver las integrales de funciones de densidad normal
se necesita de la tabulacin de las reas de la curva normal para obtener una inmediata solucin. Esta es una
tarea titnica intentar establecer tablas separadas para los parametros y .
Pero se cuenta con herramientas matemticas capaces de transformar todas las observaciones de una variable
aleatoria normal X a un nuevo conjunto de observaciones de una variable aleatoria normal Z con = 0 y
= 1. Esto se puede realizar mediante la transformacin
Z =
X

Siempre que X tome un valor x, el valor correspondiente de Z estar dado por Z = (x)/. Por lo tanto, si X
se encuentra entre los valores x = x
1
y x = x
2
, la variable aleatoria Z cara entre los valores correspondientes
Z
1
=
x
1

y Z
2
=
x
2

Entonces tenemos
P(x
1
< X < x
2
) =
1

2
_
x
2
x
1
e

(x)
2
2
2
dx =
1

2
_
z
2
z
1
e

1
2
z
2
dz = P(z
1
< Z < z
2
)
donde Z N(0, 1). Ahora hemos reducido el nmero requerido a las tablas de reas bajo la curva normal a
una, la de la distribucin normal stndar.
7.6. Distribucin Normal Estndar
Se dice que Z tiene distribucin normal standar si sus parmetros son = 0 y
2
= 1, es decir Z N(0, 1).
Su funcin de densidad estar dada por
f(z) =
1

2
e

z
2
2
Como se menciono en las propiedades de la distribucin normal tambin la distribucion estndar cumple
ciertas propiedades: simetra, puntos de inexin, el comportamiento asntotico y otros. Ilustramos lo anterior
con el ejemplo siguiente
Ejemplo
Considerar los valores de coecientes de inteligencia(CI o IQ) en seres humanos. Los CI estn distribuidos
8 MUESTREO 65
normalmente con media igual a 100 y desviacin estndar igual a 10.Si una persona es elegida al azar, Cul
es la probabilidad de que su CI est entre 100 y 115; es decir P(100 < x < 115)?
Solucin
P(100 < x115) est representada por el rea sombreada en la gura siguiente
La variable x debe ser estandarizada utlizando la expresin
Z =
x

Los valores de z sern


Cuando x = 100, tenemos z =
100100
10
= 0.0
Cuando x = 115, tenemos z =
115100
10
= 1.5
La distribucin de probabilidad normal asociada al valor de z se presenta en la tabla ( anexar tabla ) que
enlista las probabilidades asociadas a los intervalos centrados en la media para valores especcos de z. Otras
probabilidades pueden encontrarse por adicin, sustraccin ,etc. con base al concepto de simetra que existe en
la distribucin normal y el hecho que el rea total bajo la curva normales 1.0.
Representado en forma grca tenemos
En consecuencia P(100 < x < 115) = P(0.0 < z < 1.5) = 0.4332
8. Muestreo
Una tcnica ms reciente en el proceso de recoleccin de datos, consiste en las encuestas por muestreo. Por
medio de stas se trata de obtener la informacin de una pequea porcin (muestra) de la poblacin que debe
representar a la totalidad. La mayora de las veces los resultados de la muestra no interesan por si solos, sino
que son un medio para inferir o generalizar resultados hacia la poblacin total o a una buena parte de ella.
Para tomar una muestra de la poblacin contamos con diferentes tcnicas de muestreo. Podemos aplicar
muestreo no probabilstico y muestreo probabilstico.
Aunque el muestreo no probabilstico suele aplicarse en la vida corriente, debe aplicarse a investigaciones en
las que estamos seguros de la homogeneidad de la poblacin o en investigaciones en las cuales el equivocarse
8 MUESTREO 66
no traiga consecuensias graves y solo se necesiten estimaciones a partir de las cuales no se tomarn decisiones
importantes, de no ser en poblaciones homogeneas la ventaja principal es que el presupuesto de la encuesta es
menor que el muestreo probabilstico.
Este tipo de muestreo no nos permite predecir el tipo de distribucin de los resutados producidos ni estimar
cuanto dieren estos resultados del verdadero valor que se busca. Esto tambin implica que no podemos medir
la conanza que podemos tener de los resultados producidos, debido a que no se conoce la probabilidad de
que una determinada unidad sea seleccionada en el muestreo. Por lo tanto, no podemos dar la distribucin de
frecuencia de las estimaciones, en ausencia de informacin sobre como diferirn las diferentes muestras entre
s, el error de muestreo no puede determinarse objetivamente.
8.1. Algunas tcnicas probabilsticas
Antes de describir las principales tcnicas de muestreo probabilstico, veamos el leguaje que usaremos de
manera natural.
Representamos el conjunto de las N unidades que constituyen una poblacin nita objeto de estudio mediante
U = {u
1
, u
2
, . . . , u
N
}, es usual que los mtodos de muestreo comunes consideren iguales muestras con los
mismos elementos, aunque estn colocados en orden distinto, una muestra de tamao n de elementos de U
puede considerarse como un subconjunto s
i
= {u
i1
, u
i2
, . . . , u
in
}. El conjunto S = {s
1
, s
2
, . . . , s
N
} de todas
las muestras posibles se denomina espacio muestral. Como antes, un procedimiento o mtodo de muestreo es
sencillamente un proceso o mecanismo mediante el cual se seleccionan las muestras, ahora, cada una de esas
muestras tiene una determinada probabilidad de ser elegida. Por lo tanto, el mtodo aleatorio empleado para
seleccionar la muestra dene en el espacio muestral S una funcin de probabilidad P.
Aun cuando el muestreo se realiza con muchos propsitos, el inters se centra, con frecuencia, en cuatro carac-
tersticas de la poblacin. Estas son:
1. Poblacin total (variables cualitativas y cuantitativas),
2. media de la poblacin (variables cuantitativas),
3. proporcin de la poblacin (caractersticas cualitativas) y
4. tasa de la poblacin (cociente de estimaciones).
8.2. Muestreo aleatorio simple
El muestreo aleatorio sin reemplazamiento de poblaciones nitas llamado tambin muestreo irrestrictamente
aleatorio o, ms sencillamente, muestreo aleatorio simple, consiste en la seleccin de n elementos entre los N
que constituyen la poblacin, de modo que todas las muestras posibles de tamao n tengan la misma probabil-
idad de ser obtenidas.
Dada la forma de denirse el procedimiento de seleccin de la muestra el espacio muestral asociado tiene
_
N
n
_
muestras posibles, ya que el orden de colocacin de los elementos en las muestras no interviene.
Como el procedimiento es con probabilidades iguales, la probabilidad de una muestra cualquiera ser:
p(u
1
, . . . , u
n
) =
Casos favorables
Casos posibles
=
1
_
N
n
_
8 MUESTREO 67
Estimador Varianza de estimador Estimador de varianza

X = N x V (

X) = N
2
(1 f)
S
2
n

V (

X) = N
2
(1 f)

S
2
N

X = x V (

X) = (1 f)
S
2
n

V (

X) = (1 f)

S
2
n

P =
1
n
n

i=1
A
i
V (

P) =
N
N1
1
n
(1 f)PQ

V (

P) =
1
n1
(1 f)

P

Q
Y la probabilidad que tiene cualquier unidad de la poblacin de pertenecer a la muestra ser:

i
= P(u
i
s) =
Nmero de muestras que contienen la unidad u
i
Nmero total de muestras
=
_
N 1
n 1
_
_
N
n
_ =
n
N
.
Puesto que el nmero de muestras posibles que se pueden formar con los elementos de la poblacin y que
contengan al elementos dado u
i
ser
_
N 1
n 1
_
, ya que en este caso se ja el elemento u
i
y las muestras
posibles resultan de las formas de seleccionar de entre los N 1 elementos de la poblacin restantes n 1 de
ellos.
Una denicin operacional puede ser la siguiente: a partir de una tabla de dgitos aleatorios, seleccionamos con
igual probabilidad n nmeros de seleccin diferentes, correspondiente a n de los N nmeros de listado de los
elementos de la poblacin. Los n nmeros seleccionados de la lista, en la cual cada uno de los N elementos de
la poblacin est representado separadamente por exactamente un nmero, debe identicar unvocamente a n
elementos diferentes. Las unidades que llevan estos n nmeros constituyen la muestra. Para aplicar el muestreo
aleatorio simple se requiere que todas las unidades muestrales estn enumeradas del 1 al N.
8.3. Estimadores
A contiuacin se presentan los estimadores lineales insesgados para el total , media , proporcin y total de clase.
Donde:

S
2
=
1
n 1
N

i=1
(X
i
x)
2
Ejercicio. Mediante muestreo irrestricto aleatorio se obtiene una muestra de 50 trabajadores procedente de una
poblacin de 750 empleados de una multinacional. Al medir el salario mensual X en cientos de euros que
perciben los trabajadores de la muestra se obtienen los siguientes datos:
50

i=1
X
i
= 454 y
50

i=1
X
2
i
= 4306
De esta muestra 20 trabajadores pertenecen al sector nanciero de la multinacional, y al medir los salarios
mensuales X sobre estos 20 empleados se obtienen los siguientes resultados:
20

i=1
X
i
= 172 y
20

i=1
X
2
i
= 1536
8 MUESTREO 68
Estimar el salario medio mensual por trabajador y el total mensual de pagos en salarios de la multinacional
para todos sus empleados y para los empleados del sector nanciero, as como sus errores absolutos.
Ejercicio. Dos dentistas A y B hicieron una encuesta para investigar el estado de los dientes de 200 nios. El
doctor A seleccion una muestra irrestricta aleatoria de 20 nios y cont el nmero de dientes con caries de
cada nio, con los siguientes resultados:
N de dientes con caries por nio 0 1 2 3 4 5 6 7 8 9 10
N de nios 8 4 2 2 1 1 0 0 0 1 1
El doctor B, utilizando las mismas tcnicas dentales, examin a los 200 nios y slo registr aquellos que no
tenan caries, encontrando que 60 nios no tenan dientes daados.
Estudiar qu doctor obtiene estimaciones ms precisas del nmero total de dientes con caries en los nios
cuanticando la ganancia en precisin.
8.4. Muestreo estraticado
En el muestreo estraticado, la poblacin de N unidades se divide primero en subpoblaciones de
N
1
, N
2
, . . . , N
L
unidades, respectivamente. Estas subpoblaciones, no se traslapan y en su conjunto comprenden
a toda la poblacin, por lo tanto,
N
1
+N
2
+ +N
L
= N
Las subpoblaciones se denominan estratos. Dentro de cada estrato se selecciona una muestra separada a partir
de todas las unidades que componen ese estrato, las extracciones deben hacerse independientemente en los
diferentes estratos. Si adems la seleccin en cada estrato es por muestreo aleatorio simple, el procedimiento
total se describe como un muestreo aleatorio estraticado.
Hay varias razones por las cuales utilizar muestreo estraticado, las principales son:
1. La estraticacin puede dar lugar a una ganancia en la precisin de las estimaciones de caractersticas de
la poblacin total. Es decir, podemos lograr disminuir las varianzas de las estimaciones de la muestra.
2. Se pueden formar los estratos para utilizar diferentes mtodos y procedimientos dentro de ellos.
3. Los estratos pueden establecerse porque las subpoblaciones dentro de ellos tambin se denen como
dominios de estudio. Un dominio es una parte de la poblacin para la que se han planeado estimaciones
separadas en el diseo de la muestras
Adems de procurar mediante la estraticacin muestras ms representativas, puede lograrse un mejor
aprovechamiento de la organizacin administrativa y en general de las particularidades de diferentes grupos de
elementos de la poblacin.
Notacin usual en el muestreo estraticado
El subndice h denota el estrato, e i la unidad del estrato. Los tamaos de muestras dentro de los estratos se
denotan con n
1
, n
2
, . . . , n
L
. Todos los smbolos siguientes se reeren al estrato h.
8 MUESTREO 69
N
h
nmero total de unidades
n
h
nmero de unidades en la muestra
y
hi
valor obtenido para la i-sima unidad
W
h
=
N
h
N
ponderacin del estrato
f
h
=
n
h
N
h
fraccin de muestreo en el estrato

Y
h
=

N
h
i=1
y
hi
N
h
media poblacional
y
h
=

n
h
i=1
y
hi
n
h
media de muestra
S
2
h
=

N
h
i=1
(y
hi
Y
h
)
2
N
h
1
varianza poblacional
8 MUESTREO 70
8.4.1. Muestreo Estraticado sin reposicin: Estimadores y errores
Estimador Varianza de estimador Estimador de varianza

X
st
=
L

h=1

X
h
V (

X
st
) =
L

h=1
N
2
h
(1 f
h
)
S
2
h
n
h

V (

X
st
) =
L

h=1
N
2
h
(1 f
h
)

S
2
h
n
h

X
st
=
L

h=1
W
h
x
h
V (

X
st
) =
L

h=1
W
2
h
(1 f
h
)
S
2
h
n
h

V (

X
st
) =
L

h=1
W
2
h
(1 f
h
)

S
2
h
n
h

A
st
=
L

h=1

A
h
V (

A
st
) =
L

h=1
N
2
h
(1 f
h
)
N
h
N
h
1
P
h
Q
h
n
h

V (

A
st
) =
L

h=1
N
2
h
(1 f
h
)

P
h

Q
h
n
h
1

P
st
=
L

h=1
W
h

P
h
V (

P
st
) =
L

h=1
W
2
h
(1 f
h
)
N
h
N
h
1
P
h
Q
h
n
h

V (

P
st
) =
L

h=1
W
2
h
(1 f
h
)

P
h

Q
h
n
h
1
8.4.2. Muestreo Estraticado con reposicin: Estimadores y errores
Estimador Varianza de estimador Estimador de varianza

X
st
=
L

h=1

X
h
V (

X
st
) =
L

h=1
N
2
h

2
h
n
h

V (

X
st
) =
L

h=1
N
2
h

S
2
h
n
h

X
st
=
L

h=1
W
h
x
h
V (

X
st
) =
L

h=1
W
2
h

2
h
n
h

V (

X
st
) =
L

h=1
W
2
h

S
2
h
n
h

A
st
=
L

h=1

A
h
V (

A
st
) =
L

h=1
N
2
h
P
h
Q
h
n
h

V (

A
st
) =
L

h=1
N
2
h

P
h

Q
h
n
h
1

P
st
=

L
h=1
W
h

P
h
V (

P
st
) =

L
h=1
W
2
h
P
h
Q
h
n
h

V (

P
st
) =

L
h=1
W
2
h

P
h

Q
h
n
h
1
8.4.3. Ajacin de la muestra: Tipos de ajacin y errores de los estimadores para muestreo con reposi-
cin
Se llama ajacin de la muestra al reparto, del tamao muestral n entre los diferentes estratos. Esto es, a la
determinacin de los valores de n
h
que veriquen n
1
+ n
2
+ . . . + n
L
= n. Las ajaciones mas importantes
son: la ajacin uniforme, la ajacin proporcional, la ajacin de varianza mnima y la ajacin ptima.
Veamos brevemente en que consisten:
8 MUESTREO 71
Ajacin uniforme
Consiste en asignar el mismo nmero de unidades muestrales a cada estrato, con lo que se tomarn todos los
n
h
iguales a n/L. Aumentando o disminuyendo este tamao en una unidad si n no fuese mltiplo de L.
n
h
= k h = 1, 2, . . . , L
L

h=1
n
h
=
L

h=1
k n = Lk
Este tipo de ajacin da la misma importancia a todos los estratos, en cuanto a tamo de la muestra, con lo
cual favorecer a los estratos de menor tamao y perjudicar a los grandes en cuanto a precisin. Slo es
conveniente en poblaciones con estratos de tamao similar.
Ajacin proporcional
Consiste en asignar a cada estrato un nmero de unidades muestrales proporcionales a su tamao. Las n
unidades de la muestra de distribuyen proporcionalmente a los tamaos de los estratos expresados en nmero
de unidades. Tenemos:
n
h
= N
h
k
L

h=1
n
h
. .
n
=
L

h=1
N
h
k = k
L

h=1
N
h
. .
N
n = kN k =
n
N
La probabilidad de seleccin
hj
=
n
h
N
h
=
n
N
es la misma para todos los estratos. As, la probabilidad de
que un individuo sea elegido para estar en la muestra, es la misma que en una muestra aleatoria simple, pero
muchas de las malas muestras que podran aparecer en una muestra aleatoria simple no puede ocurrir en una
muestra estraticada con asignacin proporcional.
Ajacin de mnima varianza (o ajacin de Neyman)
La ajacin de mnima varianza o ajacin de Neyman consiste en determinar los valores de n
h
de forma que
para un tamao de muestra jo igual a n la varianza de los estimadores sea mnima. Es decir, estamos ante el
problema de optimizacin con restriccin siguiente:
minV ()
L

h=1
n
h
= n
_

_
Este problema se resuelve aplicando el mtodo de los multiplicadores de Lagrange, considerando la funcin
lagrangiana siguiente:
(n
h
, ) = V () +
_
L

h=1
n
h
n
_
donde es cualquiera de los cuatro estimadores que venimos tratando.
Ajacin ptima
La ajacin ptima consiste en determinar los valores de n
h
de forma que para un coste jo C la varianza
8 MUESTREO 72
de los estimadores sea mnima. El coste jo C ser la suma de los costes derivados de la seleccin de las
unidades muestrales de los estatos, es decir, si c
h
es el coste por unidad de muestreo en el estrato h, el coste
total de seleccin de las n
h
unidades muestrales en ese estrato ser c
h
n
h
. Sumando los costes c
h
n
h
para los L
estratos tenemos el coste total de seleccin de la muestra estraticada. Estamos nuevamente ante un problema
de optimizacin
4
con restricciones:
minV ()
L

h=1
c
h
n
h
= C
_

_
El cual se resuelve aplicando el mtodo de los multiplicadores de Lagrange, considerando la funcin la-
grangiana siguente:
(n
h
, ) = V () +
_
L

h=1
c
h
n
h
C
_
Cuando los estratos son bastante grandes, en general, la varianza de la poblacin de y
st
bajo la distribucin
proporcional es a lo ms tan grande como la varianza de la poblacin de y, al usar el mismo nmero de
observaciones pero reunidas en una muestra aleatoria. Esto es cierto sin importar lo ingenuo que sea el esquema
de estraticacin. En realidad, el principal objetivo del muestreo estraticado es mejorar la precisin de las
estimaciones reduciendo los errores de muestreo. Intenta minimizar la varianza de los estimadores mediante
la creacin de estratos lo ms homogneos posible entre sus elementos y lo ms heterogneos entre s. Es en
este sentido que vemos la conveniencia de los distintos tipos de ajacin en trminos de su eciencia medida a
travs del error de muestreo, o lo que es lo mismo, a travs de la varianza. Por lo tanto ser ms eciente aquel
tipo de ajacin que presente menos varianza. La comparacin segn el tipo de ajacin es la siguiente:
V
MAS
(x) V
MEP
(x) V
MEMV
(x)
Esto es, el muestreo estraticado con ajacin de mnima varianza es ms preciso que el muestreo estraticado
con ajacin proporcional y que el aleatorio simple, siendo adems el estraticado con ajacin proporcional
ms preciso que el aleatorio simple.
Se podra pensar que, como el muestreo estraticado casi siempre porporciona una precisin mayor que
el muestreo aleatorio simple, no habra necesidad de estraer una muestra aleatoria simple. Sin embargo, la
estraticacin agrega cierta complejidad a la encuesta. Esta complejidad adicional puede no valer la pena para
obtener una pequea ganancia en la precisin. Adems, para realizar una muestra estraticada, necesitamos
ms informacin. Para cada estrato debemos saber cuntos y cules miembros de la poblacin pertenecen a ese
estrato.
El nmero de estratos elegidos depende de muchos factores; por ejemplo, la dicultad para construir un marco
de muestreo con la informacin estraticada y el costo de la estraticacin.
Dada la forma en que estn denidos los clculos de los n
h
para las ajaciones uniforme y proporcional, dichas
ajaciones no van a verse afectadas por el hecho de que el muestreo sea con o sin reposicin. Sin embargo, s
variarn las varianzas de los estimadores. Las ajaciones de mnima varianza y ptima s van a verse afectadas
por la existencia de reposicin o no, ya que el clculo de n
h
depende de las varianzas en los estratos.
Ajacin uniforme
4
En realidad, la signacin de Neyman es un caso particular de distribucin ptima, utilizada cuando los costos de los estratos son
aproximadamente iguales.
8 MUESTREO 73
Para este tipo de ajacin, las varianzas de los estimadores sern:
V (

X
st
) =

L
h=1
N
2
h

2
h
k
V (

X
st
) =

L
h=1
W
2
h

2
h
k
V (

A
st
) =

L
h=1
N
2
h
P
h
Q
h
k
V (

P
st
) =

L
h=1
W
2
h
P
h
Q
h
k
Ajacin proporcional
Para este tipo de ajacin, las varianzas de los estimadores sern:
V (

X
st
) =
1
k

L
h=1
N
h

2
V (

X
st
) =
1
k

L
h=1
W
h

2
h
V (

A
st
) =
1
k

L
h=1
N
h
P
h
Q
h
V (

P
st
) =
1
n

L
h=1
W
h
P
h
Q
h
k
Ejercicio. Consideremos los salarios anuales (variable X) en miles de euros de 500 trabajadores de una empresa
se obtiene la siguiente distribucn de frecuencias:
X
i
2 3 5 10 20 50 100 200
n
i
100 80 200 30 30 30 20 10
Se estratica la poblacin en grupos homogneos de ganancias salariales utilizando como variable de estrati-
cacin el propio salario anual mediante el criterio dado por 2 X < 10, 10 X < 100, 100 X 200.
Realizar las ajaciones de uniforme y proporcional sin y con reposicin de una muestra de tamao 100 cuando
se estima el salario anual medio. Analizar las precisiones y justicar los resultados.
8.5. Muestreo por conglomerados
Consideramos una poblacin nita con M unidades elementales agrupadas en N unidades mayores llamadas
conglomerados o unidades primarias, de tal forma que no existan solapamientos entre los conglomerados y
que stos contengan en todo caso a la poblacin en estudio. En el muestreo monoetpico de conglomerados las
unidades muestrales son grupos completos de unidades elementales. Consideramos como unidad de muestreo
el conglomerado y extraemos de la poblacin una muestra de n conglomerados a partir de la cual estimaremos
los parmetros poblacionales.
El nmero de unidades elementales de un conglomerado se denomina tamao del conglomerado. Los con-
glomerados pueden ser de igual o de distinto tamao
5
y han de ser lo ms heterogneos posible dentro de ellos
y lo ms homogneos posibles entre ellos, de tal forma que la situalcin ideal sera que un nico conglomerado
pudiese representar elmente a la poblacin.
En el muestreo por conglomerados en una etapa, todos o ninguno de los elementos que componen un
conglomerado (unidad de muestreo primario) estn en la muestra. El muestreo por conglomerados se utiliza
en muchas encuestas donde el costo de muestreo de las unidades secundarias
6
es despreciable en relacin con
el costo de muestreo de las unidades primarias. Para las encuestas educativas, una unidad primaria natural es
el saln de clase; con frecuencia, todos los estudiantes de un determinado saln se incluyen como unidades
secundarias, pues se requiere apenas un ligero costo adicional para dar un cuestionario a todos los estudiantes
5
Los conglomerados son, en la mayora de las poblaciones, de tamao desigual; por ejemplo, las viviendas en manzanas, las personas
en viviendas, los empleados en secciones, etc. Los conglomerados de igual tamao se presentan raras veces en diseo de muestreo de
la naturaleza o la sociedad, pero constituyen una introduccin sencilla a la teora del muestreo de conglomerados. Aunque suelen ser
resultado de condiciones planeadas, tales como los precesos de manufactura. En nuestro caso podemos suponer como conglomerados
cada departamento y estraticar por el tipo de administracin del centro educativo.
6
En el muestreo aleatorio simple, las unidades muestreadas son tambin los elementos observados. En el muestreo por conglomer-
ados, las unidades de muestreo son los conglomerados y los elementos observados constituyen las unidades secundarias dentro de los
cmulos.
8 MUESTREO 74
del saln, en vez de a unos cuantos.
Es frecuente que los conglomerados estn denidos como reas o partes bien delimitadas de terreno, de
modo que todas las unidades ltimas correspondientes al rea sean las que constituyen el conglomerado. De
aqu que est generalizada la denominacin de muestreo por reas para designar estos procedimientos de
muestreo.
La concentracin de unidades disminuye la necesidad de desplazamiento. Pero lo ms importante es que
para efectuar un muestreo aleatorio simple es necesario disponer de una lista de todos los elementos de la
poblacin, y si se trata de muestreo aleatorio estraticado son necesarias listas de cada sub poblacin o estrato.
En la prctica no suele disponerse de tales listas, y adems resultara muy costosa, difcil o excesivamente
prolongada la confeccin del listado. Vamos a citar a modo de resumen algunas de las ventajas y desventajas
que presenta este tipo de muestreo.
Entre las ventajas ms importantes tenemos:
No se necesita un marco muy especco.
El costo por elemento es menor, debido al costo menor de los listados o de localizacin, o ambas cosas.
Se pueden utilizar como marco divisiones territoriales ya establecidas por necesidades administrativas
para las cuales existe ya informacin. Tambin se pueden utilizar como marco reas geogrcas cuyas
carctersticas estn ya muy delimitadas.
Entre las desventajas ms importantes tenemos:
La varianza por elemento es mayor, lo que resulta de la homogeneidad de los elementos en los conglom-
erados.
La eciencia de este tipo de muestreo disminuye al aumentar el tamao de los conglomerados, cuando
en realidad este tipo de muestreo es ms util en caso de poblaciones muy numerosas en las que se puedan
construir conglomerados grandes.
Casi siempre, el muestreo por conglomerados proporciona una menor precisin para los estimadores que en
el caso de una muestra aleatoria simple con el mismo nmero de elementos. Debe preferirse trabajar por
conglomerados en lugar de emplear una seleccin individual cuando el menor costo por elemento compense
con creces estas desventajas.
Para la estimacin de los parmetros poblacionales que venimos tratando, el caso ms sencillo se da cuando
cada conglomerado tiene el mismo nmero de elementos, pero como se mencion antes, suelen ser resultado
de condiciones planeadas y pueden aparecer, por ejemplo, en muestreo agrcola e industrial. Sin embargo,
los cmulos de personas que aparecen con mayor naturalidad no se ajustan a este marco de referencia y es
por eso que trataremos el caso de conglomerados de distinto tamao. En donde la notacin usual es la siguiente:
N nmero de conglomerados de la poblacin
n nmero de conglomerados seleccionados en la muestra
M
i
nmero de elementos en el conglomerado i
8 MUESTREO 75
m =
1
n
n

i=1
M
i
tamao promedio del conglomerado en la muestra
M =
N

i=1
M
i
nmero de elementos de la poblacin
M =
M
N
tamao promedio del conglomerado en la poblacin
x
ij
valor de la variable en la unidad j del i-simo conglomerado
8.6. Muestreo sistemtico
Partimos de una poblacin de tamao N, y agrupamos sus elementos en n zonas de tamao k (N = nk).
Podramos representar la poblacin como sigue:
i \ j 1 2 3 . . . j . . . k
1 u
11
u
12
u
13
. . . u
1j
. . . u
1k
2 u
21
u
22
u
23
. . . u
2j
. . . u
2k
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
i u
i1
u
i2
u
i3
. . . u
ij
. . . u
ik
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
n u
n1
u
n2
u
n3
. . . u
nj
. . . u
nk
A continuacin se numeran los elementos de la tabla anterior de izquierda a derecha empezando por la primera
unidad de la primera la y pasando a la primera unidad de la la siguiente cuando se agota cualquierla.
Tendramos la siguiente estructura:
i \ j 1 2 3 . . . j . . . k
1 u
1
u
2
u
3
. . . u
1j
. . . u
k
2 u
k+1
u
k+2
u
k+3
. . . u
k+j
. . . u
k+k
3 u
2k+1
u
2k+2
u
2k+3
. . . u
2k+j
. . . u
2k+k
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
i u
(i1)k+1
u
(i1)k+2
u
(i1)k+3
. . . u
(i1)k+j
. . . u
(i1)k+k
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
n u
(n1)k+1
u
(n1)k+2
u
(n1)k+3
. . . u
(n1)k+j
. . . u
(n1)k+k
Para extraer una muestra de tamao n, tomamos una unidad al azar entre las k primeras y luego tomamos las
subsecuentes a intervalos de k. Es decir, el intervalo k divide a la poblacin en n zonas de k unidades cada
una
7
. Por ejemplo si la unidad seleccionada para la muestra al azar en la primera zona es la tercera, se elegirn
7
Si el tamao de la poblacin N no es un multiplo entero de k, se presenta un problema. Se puede resolver de varias maneras, entre
8 MUESTREO 76
las n 1 unidades restantes para la muestra tomando la tercera unidad de cada zona.
Este tipo de muestreo suele ser de fcil y rpida aplicacin y adems podemos tener ventajas, con relacin al
muestreo aleatorio simple o aleatorio estraticado. Lo cual depende mucho de las propiedades de la poblacin.
Esto lo podemos visualizar mejor analizando las varianzas de los estimadores poblacionales, para lo cual par-
tiremos de la identidad fundamental siguiente:
n

i=1
k

j=1
(x
ij
X)
2
. .
Variacin total
=
n

i=1
k

j=1
(x
ij
x
j
+x
j
X)
2
=
n

i=1
k

j=1
(x
ij
x
j
)
2
. .
Variacin dentro
de muestras
+
n

i=1
k

j=1
(x
j
X)
2
. .
Variacin entre
muestras
8.7. Nmeros Aleatorios
Los nmeros aleatrios son un conjunto de cifras entre 0 y 9 cuyo orden no obedece ninguna regla de formacin,
ellas se pueden leer individualmente o en grupos y en cualquier orden, en columnas hacia abajo, columnas hacia
arriba, en la, diagonalmente, si se desea formar nmeros aleatorios en un determinado rango, basta con calcular
la proporcin, otra forma de usarlo es sumando dos nmeros tomados de alguna posicin o multiplicarlos.
Para ser presentadas estas cifras se agrupan en nmeros de 4 dgitos, formando bloques de 5 las y 10 columnas
facilitando de esta forma su lectura que puede iniciarse desde cualquier parte de la tabla.
Una tabla de nmeros aleatorios es til para seleccionar al azar los individuos de una poblacin conocida que
deben formar parte de una muestra.
8.7.1. Aleatorizacin
La aleatorizacin, que permite: (i) la validacin del error experimental, (ii) evita sesgos y (iii) garantiza la
independendencia de los errores.
Mediante el uso de una tabla de nmeros aleatorios es posible realizar la aleatorizacin como se ilustra a
continuacin: Suponga que se tienen N=15 unidades experimentales (UE) homogneas, para un experimento
bajo un DCA con t=3 tratamientos y r=5 rplicas. Inicialmente asigne los dgitos 01, 02, . . ., 15 a las UE,
ubique la punta de su lapiz aleatoriamente en cualquier lugar de la tabla de nmeros aleatorios, por decir en la
la 26 columna 5 donde aparece el nmero 24878, apartir de lo dos primeros dgitos (24) empiece a recorrer en
cualquier sentido, suponga que se hace hacia abajo de la columna donde est el nmero 24, registre los nmeros
de dos cfras (o de tres cfras cuando los rtulos de las UE tengan tres cfras) que esten entre 1 y 15 inclusive. En
este caso son: 04, 02, 01, 14, 10, continuando desde la parte inferior de la columna (6) hacia arriba se obtiene:
06, 13, siga a la parte superior de la columna (7): 15, 09, 11. Se puede parar aqu ya que se asigna las primeras
cinco : 04,02,01,14,10 al tratamiento 1, las siguientes cinco:06, 13,15, 09, 11 al tratamiento 2 y las restantes
al:03, 05,07,08,12 al tratamiento 3.
ellas tenemos:
a. k = Parte entera de N/n.
b. k = (Parte entera de N/n)+1.
c. Considerar la lista como si fuera circular.
9 INFERENCIA ESTADSTICA 77
9. Inferencia estadstica
La Inferencia Estadstica es la parte de la estadstica encargada de estudiar mtodos para la obtencin de con-
clusiones generales en la poblacin o poblaciones objeto de investigacin, a partir de la informacin que pro-
porciona una muestra.
La inferencia estadstica se divide en: estimacin de parmetros y prueba de hiptesis.
Existen dos tipos de estimaciones para parmetros; puntuales y por intervalo.
9.1. Estimacin puntual
Una estimacin puntual es un nico valor estadstico y se usa para estimar un parmetro. El estadstico usado
se denomina estimador.
Por tanto los estimadores puntuales son las medidas descriptivas numricas aplicadas a las caractersticas de las
unidades de la muestra. La estimacin hace referencia a los valores numricos de los parmetros poblacionales
desconocidos, a los cuales se llega mediante una muestra.
Por ejemplo, la media muestral x es un estimador puntual de la media poblacional , la desviacin muestral
s estima a la desviacin poblacional y la proporcin muestral es un estimador puntual de la proporcin
poblacional P.
9.1.1. Propiedades deseables de los estimadores puntuales
La distancia entre el estimador y el parmetro a estimar puede medirse mediante el error cuadrtico medio, que
se dene como el valor esperado del cuadrado de la diferencia entre el estimador y el parmetro.
ECM(

) = E[

]
2
El ECM puede escribirse como: ECM(

) = VAR[

] + [ E(

)]
2
; una es la varianza del estimador y la otra
el cuadrado del sesgo.
Insesgado
Un estimador es insesgado (o centrado) si la esperanza del estimador coincide con el parmetro a estimar
E(

) = .
Consistencia
Se dice que un estimador es consistente si se aproxima cada vez ms al valor del parmetro a medida que se
aumenta el tamao de la muestra.
P[(

) > ] 0; si n , 0
Eciencia
Un estimador ser eciente cuando su varianza sea menor, ya que se concentra ms alrededor del verdadero
valor del parmetro.
Suciencia
Se dice que un estimador es suciente si se utiliza toda la informacin relevante contenida en una muestra para
la estimacin del parmetro.
9.2. Estimacin por intervalo de conanza de medias y proporciones
No siempre resulta conveniente realizar la estimacin puntual, debido a que no proporciona suciente informa-
cin acerca del parmetro de inters, ya que un solo nmero puede no resultar muy signicativo, es decir, que
no puede estimar con exactitud el valor del parmetro de la poblacin. Sin embargo, no se puede considerar
que un estimador puntual obtenido a partir de una muestra grande, llegue a ser exactamente igual al valor del
9 INFERENCIA ESTADSTICA 78
parmetro de la poblacin. Por esta razn resulta ms conveniente determinar un intervalo dentro del cual se
esperara que se encuentre el valor del parmetro, a este mtodo se le conoce como estimacin por intervalo.
A los estimadores por intervalo generalmente se les llama intervalos de conanza, este contiene un conjunto
de valores posibles del parmetro a estimar obtenidos a partir de la muestra aleatoria de la cual se determina el
estadstico de inters. Para llevar a cabo la estimacin por intervalo es necesario conocer: el nivel de conanza
y el error estndar.
9.2.1. Intervalo de conanza para la media poblacional, conocida (n 30)
Si se dispone de una poblacin que tiene una variable aleatoria X con distribucin N(, ) y con conocida,
y anteriormente se estudi que la distribucin muestral de las medias corresponde a:

X N
_
,

n
_
Se quiere estimar la media poblacional a partir de la media muestral x, obteniendo para ello un intervalo de
forma que tenga una probabilidad alta de que la media poblacional est en dicho intervalo.
Tipicando la expresin anterior:
Z =

X

n
N(0, 1)
Si se ja una probabilidad , se puede obtener z y z que limitan un rea de valor 1 . Despejando se
obtiene el intervalo de conanza para la media poblacional:
Figura 22: Intervalo de conanza para con conocido
De un total de k muestras seleccionadas de una poblacin, se denen K medias aritmticas, que constituyen el
100 % de medias, de las cuales con una de ellas se estima con un nivel de conanza de (1 )100 % . A
continuacin se ilustra con un nivel de conanza del 95 % como se comportaran los intervalos construidos por
cada media muestral al estimar a .
9 INFERENCIA ESTADSTICA 79
Figura 23: Interpretacin del nivel de conanza en un intervalo para la media de una distribucin normal
Ejemplo 9.1. Una institucin gubernamental realiz una encuesta para estimar el gasto promedio que los fu-
madores invierten en cigarrillos durante una semana. Un muestra de 49 fumadores revel que el gasto promedio
es de $20.00 con una desviacin de $ 5.00.
a) Cul es el estimador puntual de la media poblacional?
b) Utilizando un nivel de conanza del 95 %, determinar el intervalo de conanza para , interprete el resul-
tado.
c) Suponga que la muestra es de 64 fumadores, con base a la informacin del ejemplo, determine el estimador
puntual y el intervalo de conanza.
9.2.2. Intervalo de conanza para la media poblacional, es desconocida (n 30)
Sustituimos el valor de por la desviacin estndar de la muestra s y los lmites del intervalo de se encuentran
mediante la expresin:
x Z
/2
s

n
Ejemplo 9.2. De un grupo de 300 estudiantes de nuevo ingreso en una Instituto Nacional, se seleccionaron de
manera aleatoria 30 calicaciones de matemtica, las que a continuacin se presentan:
71 49 78 58 82 53 75 73 58 74
57 70 76 62 71 54 62 86 58 86
50 73 64 68 56 45 72 65 87 56
Construya un intervalo de conanza del 99 % para la calicacin promedio de la poblacin
9.2.3. Intervalo de conanza para estimar la diferencia de medias poblacionales (
x

y
)
Se puede aplicar un argumento similar en lo planteado anteriormente para desarrollar el intervalo de conanza
para estimar a (
x

y
), es necesario denir la varianza V ( x y) =

2
x
nx
+

2
y
ny
, si se conoce las variancias
poblacionales, en caso de no conocerlas se sustituyen por las desviaciones muestrales V ( x y) =
s
2
x
nx
+
s
2
y
ny
.
El intervalo de conanza para la diferencia de medias se expresan como sigue:
9 INFERENCIA ESTADSTICA 80
x y z
/2

s
2
x
n
x
+
s
2
y
n
y
Ejemplo 9.3. En un estudio para comparar los pesos promedio de nios y nias de sexto grado en una escuela
primaria se seleccion una muestra aleatoria de 20 nios y otra de 25 nias. Se sabe que tanto para nios
como para nias los pesos siguen una distribucin normal. El promedio de los pesos de todos los nios de
sexto grado de esa escuela es de 90 libras y su desviacin estndar es de 8 libras, mientras que el promedio
de los pesos de todas las nias del sexto grado de esa escuela es de 80 libras y su desviacin estndar es de 6
libras.
Encuentre el intervalo de conanza de la diferencia de los pesos promedio de los nios y nias con un nivel de
conanza del 99 %
9.2.4. Estimacin por intervalo para proporciones
Si el estadstico es la proporcin de xitos en una muestra de tamao n 30 extrada de una poblacin
binomial en la que P es la proporcin de xito (es decir, la probabilidad de xito), los lmites de conanza para
P vienen dados por p z
/2

p
donde p es la proporcin de xitos en la muestra de tamao n. El intervalo de
conanza del (1 )100 % para estimar una proporcin P, se expresa como:
p z
/2

p
< P < p +z
/2

p
Donde
p
es el error estndar de la proporcin, el cual mide la variabilidad en la distribucin de muestreo de la
proporcin muestral se representa como:

p
=
_
p q
n
Ejemplo 9.4. Un partido poltico pretende conocer la intencin de voto de cara a las prximas elecciones.
Para ello encarga un sondeo sobre un total de 230 personas, de las que 69 contestan que votaran.
a) Hallar un intervalo de conanza del 90 % para la verdadera proporcin poblacin.
b) Encuentre un intervalo de conanza del 99 % para la proporcin poblacional.
9.2.5. Estimacin por intervalo para diferencias de proporciones
Un intervalo de conanza para la diferencia de proporciones se obtiene aplicando la frmula siguiente:
p
x
p
y
z
/2

p
x
q
x
n
x
+
p
y
q
y
n
y
Ejemplo 9.5. Una muestra aleatoria de 400 adultos y 600 adolescentes que ven un cierto programa de tele-
visin. 100 adultos y 300 adolescentes dijeron que les gustaba. Hallar los lmites de conanza del 95 % y del
99 % para la diferencia de proporciones de todos los adultos y adolescentes que ven el programa y les gusta.
9.2.6. Estimacin de para muestas pequeas (n < 30)
Si la muestra es pequea (n < 30) sus valores promedios se aproximan a una distribucin t-student. Para
construir intervalos de conanza para la media poblacional , con muestras pequeas normalmente distribuidas,
debe utilizarse la distribucin t- student, la cual es similar a la normal, pero su forma depende del tamao n de
muestra.
9 INFERENCIA ESTADSTICA 81
El intervalo de conanza para se encuentra utilizando la expresin:
P{ x t
(/2;n1)
s

n
x +t
(/2;n1)
s

n
} = 1
Ejemplo 9.6. Los ingresos mensuales de las familias de una comunidad se encuentran distribuidos normal-
mente. De esta se seleccion una muestra de 16 familias para estimar el ingreso promedio mensual. De la
informacin de la muestra se obtuvo una desviacin estndar de $12 y una media de $300.
a) Encuentre un intervalo de conanza del 95 % para el ingreso promedio de las familias de la comunidad.
b) Encuentre un intervalo de conanza del 99 % para el ingreso promedio de las familias de la comunidad.
c) Qu conclusin realiza de los resultados obtenidos en a) y b)?
9.2.7. Intervalos de conanza para diferencia de medias poblacionales (n < 30)
Los intervalos de conanza para la diferencia de medias poblacionales en muestras pequeas normalmente
distribuidas, utilizan la distribucin t- student y se calculan aplicando la expresin siguiente:
( x y) t
(/2;n1)

s
2
x
n
x
+
s
2
y
n
y
Ejemplo 9.7. Una muestra de tamao 10 de una poblacin de mujeres presenta una altura media de 156 cm
y una muestra de 12 hombres de otra poblacin presenta una altura media de 160 cm. Sabiendo que ambas
poblaciones son normales con desviaciones de 5 cm y 7 cm respectivamente.
a) Determine el intervalo para diferencias de las medias poblacionales para el 90 % de conanza
b) Qu conclusin realiza al respecto de las alturas de las mujeres y hombres?
9.2.8. Intervalos de conanza para una proporcin poblacional P (n < 30)
Los intervalos de conanza para proporciones se obtienen mediante la frmula siguiente:
p t
(/2;n1)
_
p q
n
Ejemplo 9.8. La ocina gubernamental de salud desea realizar una campaa a n de disminuir el porcentaje
de funcionarios pblicos que tienen el hbito de fumar en horas de trabajo, para ello decide realizar una
investigacin por muestreo a 28 funcionarios, encontrando que 16 de ellos fuman.
a) Determinar el intervalo de conanza del 90 % con respecto a la proporcin de funcionarios que fuman.
b) Determinar el intervalo de conanza del 99 % con respecto a la proporcin de funcionarios que fuman.
9 INFERENCIA ESTADSTICA 82
9.3. Prueba de hiptesis estadsticas
9.3.1. Denicin de pruebas de hiptesis y tipo de error
Denicin 9.1. La prueba de hiptesis es un procedimiento que se basa en la evidencia de las muestras y en
la teora de probabilidad para determinar si la hiptesis es un enunciado razonable
8
.
TIPOS DE HIPTESIS ESTADSTICAS:
Hiptesis nula (H
0
) : Es una armacin respecto del valor de un prametro de la poblacin.
Hiptesis alternativa(H
1
): Es una armacin que se acepta si los datos de la muestra proporcionan ev-
idecia suciente de que la hiptesis nula es falsa.
TIPOS DE ERROR: En la prueba de hiptesis existen dos tipos de error:
Error tipo I(): Es la probabilidad de rechazar la hiptesis nula, cuando esta es verdadera.
Error tipo II (): Es la probabilidad de aceptar la hiptesis nula, cuando esta es falsa.
En la tabla (4) se observan las consecuencias al tomar decisiones con respecto a pruebas de hiptesis.
Tabla 4: Resumen de las decisiones que el investigador puede tomar en la prueba de hiptesis
Estado de la Hiptesis nula
DECISIN DEL INVESTIGADOR
Acepta H
0
Rechaza H
0
H
0
es verdadera Decisin correcta Error tipo I
H
0
es falsa Error tipo II Decisin correcta
9.3.2. Procedimiento para probar hiptesis estadsticas
Para probar hiptesis estadsticas se deben seguir los siguientes pasos:
Paso 1: Formular las hiptesis estadsticas
H
0
: Hiptesis nula
H
1
: Hiptesis alternativa
Paso2: Eleccin de la prueba de hiptesis con su modelo estadstico
Toda prueba de hiptesis estadstica est asociada a un modelo estadstico de acuerdo al tamao de muestra y
dependiendo del parmetro poblacional en el que se basa la prueba de hiptesis estadstica.
Los modelos estadsticos que generalmente se utilizan en la prueba de hiptesis parmetricas son las distribu-
ciones normales, t-student y chi-cuadrado.
Paso 3: Calcular el estadstico de prueba
Es el valor que se calcula en funcin de los datos de la muestra y se utiliza para determinar si se va a rechazar
la hiptesis nula.
Paso 4: Seleccionar el nivel de signicancia
El nivel de signicancia: es la probabilidad de rechazar la hiptesis nula cuando esta es verdadera.
Al realizar la prueba de hiptesis se tiene como propsito aceptar o rechazar la hiptesis nula, para esto debe
elegirse de acuerdo a criterios especco del investigador un margen de riesgo de equivocarse al rechazr la
hiptesis nula cuando esta es verdadera.
Generalmente se eligen valores [0.01, 0.05] este valor se utilizar para determinar la regin crtica o de
rechazo de H
0
.
8
Douglas Lind. Estadstica para Administracin y Economa.Mxico D.F, Editorial Mc. Graw Hill, 2005, pg. 318.
9 INFERENCIA ESTADSTICA 83
Paso 5: Establecer la regin crtica o de rechazo(formular la regla de decisin) Esta formada por un con-
junto de valores para los cuales se rechazar la hiptesis nula.
Paso 6: Toma de decisiones La decisin de aceptar o rechazar la hiptesis nula se basa en el estadstico de
prueba calculado a partir de los datos de la muestra.
Si el valor calculado del estadstico se localiza en la regin de rechazo, se rechaza la hiptesis nula y se acepta
la hiptesis alternativa. Pero si el valor del estadstico no se encuentra en la regin de rechazo, entonces, se
acepta la hiptesis nula y, es decir no se tiene suciente evidencia para rechazar la hiptesis nula.
Cualquier decisin que se toma est sujeta a cierto margen de incertidumbre ya que la inferencia se realiza a
partir de una muestra.
9.3.3. Prueba de hiptesis para muestras grandes
Prueba de hiptesis para en muestras grandes Resulta conveniente aplicar este mtodo de prueba cuando
la hiptesis sobre el problema en estudio, est enfocado a realizar inferencias respecto a la media de la poblacin
y los datos obtenidos en la investigacin cumplen con las siguientes condiciones:
El tamao de la muestra es grande y proviene de una poblacin normalmente distribuida
Desviacin estndar de la poblacin desconocida
Procedimiento:
1) Formulacin de la hiptesis
H
0
: =
0
(
0
es la constante hipottica para la media poblacional)
H
1
: Puede tomar una de las hiptesis alternativas siguientes:
Unilateral derecha Unilateral izquierda Bilateral
>
0
<
0
=
0
2) Calcular el estadstico de prueba
z =
x
0
s

n
3) Elegir el nivel de signicancia, si no ha sido especicado
4) Encontrar la regin de rechazo asociada al nivel de signicancia y utilizando las tablas de la distribucin
normal
La regin crtica o de rechazo depender del tipo de hiptesis alternativa formulada para el proble-
ma en estudio. A continuacin mencionamos los diferentes hiptesis alternativas con sus correspondientes
regiones de rechazo.
Tabla 5: Prueba de hiptesis para
Hiptesis nula H
0
Hiptesis alternativa H
1
Regin de rechazo de H
0
=
0
>
0
Z > Z

<
0
Z < Z

=
0
Z > Z
/2
o Z < Z
/2
5) Tomar la decisin correspondiente basada en el estadstico de prueba y la regin crtica
9 INFERENCIA ESTADSTICA 84
Ejemplo 9.9. La direccin mdica de una clnica toma una muestra aleatoria de 500 mediciones acerca del
tiempo de hospitalizacin, resultando una media muestral de 5.4 das y una desviacin estndar de 3.1 das.
La direccin mdica supone que el promedio de tiempo de hospitalizacin es mayor de 5 das. Apoya esta
informacin la hiptesis con un nivel de signicancia del 0.05
Prueba de hiptesis para una proporcin en muestras grandes Este mtodo de prueba se puede aplicar
cuando la hiptesis sobre el problema en estudio, est enfocado a realizar inferencias respecto a la proporcin
de la poblacin y los datos obtenidos en la investigacin cumplen con las siguientes condiciones:
El tamao de la muestra es grande y proviene de una poblacin normalmente distribuida.
Que la variable aleatoria tenga solamente dos posibles resultados.
Cuando el inters del investigador sea probar que una parte o proporcin de la muestra tenga un valor
especico.
Procedimiento:
1) Formulacin de la hiptesis
H
0
: P = P
0
(donde P
0
es la constante hipottica para la proporcin poblacional)
H
1
: Puede tomar una de las hiptesis alternativas siguientes:
Unilateral derecha Unilateral izquierda Bilateral
P > P
0
P < P
0
P = P
0
2) Calcular el estadstico de prueba
z =

PP
0
_
p(1 p)
n
3) Elegir el nivel de signicancia, si no ha sido especicado
4) Encontrar la regin de rechazo asociada al nivel de signicancia y utilizando las tablas de la distribucin
normal
La regin crtica o de rechazo depender del tipo de hiptesis alternativa formulada para el proble-
ma en estudio.
Tabla 6: Prueba de hiptesis para P
Hiptesis nula H
0
Hiptesis alternativa H
1
Regin de rechazo de H
0
P = P
0
P > P
0
Z > Z

P < P
0
Z < Z

P = P
0
Z > Z
/2
o Z < Z
/2
5) Tomar la decisin correspondiente basada en el estadstico de prueba y la regin crtica
Ejemplo 9.10. Por estadsticas que se tienen, se ha podido establecer que ms del 40 % de los jvenes toman
regularmente Coca-Cola, cuando tienen sed. Una muestra aleatoria de 450 jvenes revel que 207 de ellos
solan tomar dicha bebida cuando tenan sed. Cul podra ser su conclusin al nivel del 1 % de signicancia
acerca de lo que muestran las estadsticas?
9 INFERENCIA ESTADSTICA 85
9.3.4. Prueba de hiptesis para muestras pequeas y distribucin t de Student
Prueba de hiptesis para una media poblacional en muestras pequeas Este es otro de los mtodos de
inferencia estadstica cuando se quiere probar la media de una poblacin. Las condiciones a considerar para
utilizar este mtodo de prueba son las siguientes:
El tamao de la muestra es pequea (n < 30) y proviene de una poblacin normalmente distribuida.
Se desconoce la varianza poblacional, la cual se estima mediante la varianza muestral.
Procedimiento:
1) Formulacin de la hiptesis
H
0
: =
0
(
0
es la constante hipottica para la media poblacional)
H
1
: Puede tomar una de las hiptesis alternativas siguientes:
Unilateral derecha Unilateral izquierda Bilateral
>
0
<
0
=
0
2) Calcular el estadstico de prueba
t =
x
0
s

n
3) Elegir el nivel de signicancia, si no ha sido especicado
4) Encontrar la regin de rechazo asociada al nivel de signicancia y utilizando las tablas de la distribucin t
de student
La regin crtica o de rechazo depender del tipo de hiptesis alternativa formulada para el proble-
ma en estudio.
Tabla 7: Prueba de hiptesis para en muestras pequeas
Hiptesis nula H
0
Hiptesis alternativa H
1
Regin de rechazo de H
0
=
0
>
0
t > t
,n1
<
0
t < t
,n1
=
0
t > t
/2,n1
o t < t
/2,n1
5) Tomar la decisin correspondiente basada en el estadstico de prueba y la regin crtica
Ejemplo 9.11. Una distribuidora de gas ofrece a sus clientes el servicio en un mximo de espera de 48 horas.
Se toma una muestra de seis hogares que hicieron pedidos y se encontr lo siguiente: 24,20, 60, 72, 40, 30
horas de espera. Se puede creer lo ofrecido por la distribuidora?
Prueba de hiptesis para una proporcin en muestras pequeas Este mtodo de prueba se puede utilizar
bajo las siguientes condiciones:
El tamao de la muestra es pequea y proviene de una poblacin normalmente distribuida.
Que la variable aleatoria tenga solamente dos posibles resultados.
Cuando el inters del investigador sea probar que una parte o proporcin de la muestra tenga un valor
especico.
10 DISTRIBUCIONES BIDIMENSIONALES 86
Procedimiento:
1) Formulacin de la hiptesis
H
0
: P = P
0
(P
0
es la constante hipottica para la media poblacional)
H
1
: Puede tomar una de las hiptesis alternativas siguientes:
Unilateral derecha Unilateral izquierda Bilateral
P > P
0
P < P
0
P = P
0
2) Calcular el estadstico de prueba
t =
pP
0
_
p(1 p)
n
3) Elegir el nivel de signicancia, si no ha sido especicado
4) Encontrar la regin de rechazo asociada al nivel de signicancia y utilizando las tablas de la distribucin t
de student
La regin crtica o de rechazo depender del tipo de hiptesis alternativa formulada para el proble-
ma en estudio.
Tabla 8: Prueba de hiptesis para P en muestras pequeas
Hiptesis nula H
0
Hiptesis alternativa H
1
Regin de rechazo de H
0
P = P
0
P > P
0
t > t
,n1
P < P
0
t < t
,n1
P = P
0
t > t
/2,n1
o t < t
/2,n1
5) Tomar la decisin correspondiente basada en el estadstico de prueba y la regin crtica
Ejemplo 9.12. El Gerente de una corporacin de ahorros argumenta que menos del 30 % de los clientes poseen
un saldo superior a los $50,000. Desea conrmar tal apreciacin, mediante una muestra aleatoria a 20 clientes
elegidos al azar, de los cuales 8 tienen saldo superior a los $50,000. Con un nivel de conanza del 5 % se
podr decir que menos del 30 % de ahorradores tienen saldos superiores a la armacin hecha por el gerente?
10. Distribuciones bidimensionales
Supongamos que en una poblacin, y para un conjunto de n individuos, se miden dos caracteres X e Y :
(x
1
, y
1
), (x
2
, y
2
) , (x
n
, y
n
)
En este caso tenemos una variable estadstica bidimensional o distribucin bidimensional de frecuencias, la
cual representaremos por (X, Y). Cuando se cuenta con una gran cantidad de datos, un modo de presentar la
distribucin bidimensional es a travs de una tabla de doble entrada de la forma:
Donde los valores de X e Y pueden venir dados en intervalos, al igual que en el caso de una dimensin. En el
caso de que las dos variables sean atributos, la tabla anterior recibe el nombre de tabla de contingencia. A con-
tinuacin se presentan las tablas de contingencia y posteriormente las distribuciones marginales y condicionales
para variables numricas.
10 DISTRIBUCIONES BIDIMENSIONALES 87
X \ Y y
1
y
2
. . . y
j
. . . y
k
Total
x
1
n
11
n
12
. . . n
1j
. . . n
1k
n
1+
x
2
n
21
n
22
. . . n
2j
. . . n
2k
n
2+
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
x
i
n
i1
n
i2
. . . n
ij
. . . n
ik
n
i+
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
x
l
n
l1
n
l2
. . . n
lj
. . . n
lk
n
l+
Total n
+1
n
+2
. . . n
+j
. . . n
+k
n
10.1. Tablas de contingencia.
Muy a menudo los datos de un estudio estadstico se presentan agrupados en categoras siendo el objeto com-
parar sus frecuencias con un cierto patrn o entre ellas, para ver si es posible concluir que la poblacin tiene
determinadas caractersticas. En denitiva se van a realizar contrastes de independencia de caracteres, en el
que se juzga la independencia de dos variables observadas en los individuos de una poblacin.
10.1.1. Contraste de independencia de caracteres.
Para realizar el contraste de independencia entre dos caracteres de los individuos de una poblacin, se supone
que cada individuo puede clasicarse en a modalidades de un primer atributo A y en b modalidades segn otro
criterio B. Los n individuos de una muestra aparecen, por tanto, clasicados en una tabla de contingencia de
la forma:
A \ B 1 2 3 . . . b
1 n
11
n
12
n
13
. . . n
1b
n
1.
2 n
21
n
22
n
23
. . . n
2b
n
2.
3 n
31
n
32
n
33
. . . n
3b
n
3.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
a n
i1
n
i2
n
i3
. . . n
ab
n
a.
n
.1
n
.2
n
.3
. . . n
.b
n
En este documento se utilizar indistintamente n
i.
= n
i+
=

k
j=1
n
ij
o n
.j
= n
+j
=

l
i=1
n
ij
. El interes
es conocer si existe dependencia entre dos caractersticas A y B de una poblacin, en donde cada una de ellas
presentan a y b categoras, respectivamente. Para ello se pretende contrastar la hiptesis:
H
0
: A y B son independientes H
1
: A y B no son independientes.
Si designamos por p
ij
: la probabilidad de que un elemento de la muestra presente las caractersticas A
i
y B
j
,
es decir, p
ij
= P(A
i
B
j
) = p
i.
p
.j
para cualquier i, j. Los estimadores mximo verosimiles de p
i.
y p
.j
son:
p
i.
=
n
i.
n
, i = 1, 2, ..., a, p
.j
=
n
.j
n
, j = 1, 2, ..., b.
El estadstico de Pearson que se utiliza para realizar este contraste es el siguiente:

2
=
a

i=1
b

j=1
(O
ij
E
ij
)
2
E
ij
=
a

i=1
b

j=1
_
n
ij

n
i.
n
.j
n
_
2
n
i.
n
.j
n

2
(a1)(b1)
y tiene una distribucin
2
con (a 1)(b 1) grados de libertad. Se rechaza H
0
si el estadstico de Pearson es
10 DISTRIBUCIONES BIDIMENSIONALES 88
mayor que
2
(a1)(b1),1
.
Ejemplo.
Para estudiar la dependencia entre la prctica de algn deporte y la depresin, se seleccion una muestra aleato-
ria simple de 100 jvenes, con los siguientes resultados:
Deportista \ Depresin NO SI
SI 38 9 47
NO 31 22 53
69 31 100
Realice el contraste de hiptesis con = 0.05.
Solucin.
Las hiptesis son:
H
0
: La depresin es independiente de la prctica de algn deporte.
H
1
: La depresin depende de la prctica de algn deporte.
El estadstico de prueba est dado por:

2
=
2

i=1
2

j=1
_
n
ij

n
i.
n
.j
n
_
2
n
i.
n
.j
n
y toma el valor de:

2
=
_
38
4769
100
_
2
4769
100
+
_
9
4731
100
_
2
4731
100
+
_
31
5369
100
_
2
5369
100
+
_
22
5331
100
_
2
5331
100
= 5.823
El estadstico
2
tiene una distribucin
2
1
(Chi-cuadrado con 1 grado de libertad), as que el valor de la

2
1,0.05
= 3.841 (Valor de la tabla Chi-cuadrado). Como el valor del estadstico
2
= 5.823 es mayor que el
valor de tabla
2
1,0.05
= 3.841 se rechaza la independencia, es decir, que la depresin depende de si realizas
algn tipo de deporte.
Ejemplos.
1. En una determinada regin existen 3 facultades en las que se cursan estudios de Economa. Un programa
de radio universitario pretende debatir si la dicultad de estos estudios pudiera estar relacionada con
el centro donde se cursan. Para aportar informacin al programa, se propuso a los oyentes licenciados
en Economa que llamaran a un telfono gratuito donde se les realizara una serie de preguntas. Con
la informacin obtenida se complet la siguiente tabla de frecuencias, en las que las llamadas han sido
clasicadas segn el lugar donde se realizaron los estudios y el tiempo empleado en terminarlos:
Facultad Nmero de aos empleados para nalizar
la licenciatura en Economa
4 menos Entre 5 y 6 7 ms
A 300 150 50
B 110 125 90
C 325 350 100
10 DISTRIBUCIONES BIDIMENSIONALES 89
Suponiendo que estos datos pudieran ser considerados como procedentes de una muestra aleatoria, Se
podra armar que existe alguna relacin entre el centro de estudios y el tiempo que un estudiante tarda
en terminar su carrera de Economa? Nivel de signifacin del 10 %
2. Las asociaciones de padres y madres de alumnos de los colegios pblicos de una determinada ciudad
pretenden organizar de forma conjunta las actividades extraescolares del prximo curso. Para tratar de
conocer el inters de los padres en el tipo de actividades que pueden desarrollar sus hijos, la comisin
encargada decide llevar a cabo una encuesta a una muestra aleatoria de 1500 padres. Con los datos de
esta encuesta, pudo construirse la siguiente tabla:
Actividades Niveles de estudio de los padres
Primarios Bachillerato Universitarios
Competiciones deportivas 150 195 175
Talleres creativos en la propia ciudad 90 100 46
Excursiones diversas 60 330 180
Otras 50 75 49
Cabe pensar, al 1 % de signicacin, que el nivel de estudios de los padres inuye en el tipo de actividad
extraescolar elegida para su hijo?
10.1.2. Distribuciones marginales y condicionales.
Dada una variable estadstica bidimensional, las distribuciones marginales permiten estudiar de un modo ais-
lado cada una de las componentes. A partir de una tabla de doble entrada, las distribuciones de frecuencias
marginales se obtienen sumando las frecuencias de la tabla por las y por columnas.
Las distribuciones condicionadas permiten estudiar el comportamiento de una de las variables cuando la otra
permanece constante. Vienen dadas por:
Una distribucin de frecuencias bidimensional es el conjunto de valores de la variable (X, Y), junto con sus
correspondientes frecuencias. Se denota por (x
i
, y
j
, n
ij
) o bien (x
i
, y
j
, f
ij
), segn se utilicen las frecuencias
10 DISTRIBUCIONES BIDIMENSIONALES 90
conjuntas absolutas o relativas.
La frecuencia relativa conjunta, marginales y condicionales vienen dadas por: f
ij
=
n
ij
n
; fi. =
n
i.
n
o bien
f
.j
=
n.j
n
; y f
i/j
=
n
i/j
n
.j
=
f
ij
f
.j
o bien f
j/i
=
n
j/i
n
i.
=
f
ij
f
i.
, respectivamente.
Dada una distribucin de frecuencias (x
i
, y
j
; f
ij
), las variables X e Y son estadsticamente independientes, si
para cualesquiera i y j, se cumple: f
ij
= f
i.
f
.j
o bien f
i/j
= f
i.
o f
j/i
= f
.j
.
Ejemplos.
1. Se supone que el consumo de medicamentos depende de la edad de las personas, para vericar esta
suposicin, se eligi una muestra de 100 individuos, cuyas edades, junto con las cantidades, en dlares,
que gastan en medicamentos durante un ao, se presentan en la siguiente tabla:
Gasto \ Edad 0 < 15 15 < 30 30 < 60 60 < 100
0 < 30 5 7 5 3
30 < 90 12 2 15 21
90 < 180 3 1 10 16
a) Obtngase la distribucin de frecuencias de la variable gastos en medicina.
b) Hllese la distribucin de frecuencias de la variable edad
c) Cul es la distribucin de frecuencias de la edad condicionada a un nivel de gasto comprendido
entre 30 y 90 dlares?
d) Calclese la distribucin de frecuencias del gasto para una edad comprendida entre 60 y 100 aos.
2. La siguiente tabla recoge los ingresos y los gastos en alimentacin semanales, en dlares, de 12 familias.
Ingresos \ Gastos 0 < 60 60 < 90
120 < 300 4 2
300 < 480 1 5
Determnese el gasto medio por familia en alimentacin de las familias con ingresos comprendidos entre
300 y 480 dlares semanales.
10.2. Correlacin y prediccin.
Para hacer un estudio conjunto de dos variables cuantitativas X e Y, supondremos que disponemos de una
muestra de n pares de observaciones de X e Y:
(x
1
, y
1
), (x
2
, y
2
) , (x
n
, y
n
)
Antes de hacer cualquier clculo, conviene representar en el plano los pares de valores obtenidos. Con esto
obtenemos una nube de puntos (Diagrama de dispersin), que nos puede dar una idea visual de las posibles
relaciones existentes.
Cuando se observa el comportamiento conjunto de dos variables, el objetivo principal es determinar si existe
o no algn tipo de variacin conjunta o covariacin entre ellas. La covarianza muestral, ayuda a cuanticar la
asociacin entre dos variables. La covarianza muestral se dene como:
Cov(X, Y ) = S
xy
=
1
n
n

i=1
(x
i
x) (y
i
y) =
1
n
n

i=1
x
i
y
i
x y
10 DISTRIBUCIONES BIDIMENSIONALES 91
Figura 24: Diagrama de dispersin
Interpretacin.
1. Si la Cov(X, Y ) > 0, existe una tendencia a que mayores observaciones de una de las variables se
correspondan con mayores observaciones de la otra variable.
2. Si Cov(X, Y ) < 0, existir una tendencia a que mayores observaciones de una variable se correspondan
con menores observaciones de la otra variable.
3. Si Cov(X, Y ) = 0, no se puede concluir que no exista relacin entra ambas variables. Pero se puede
decir que no existe relacin lineal entre las variables.
Suponemos que Cov(X, Y ) = 0,indica que existe relacin lineal entre las variables, la pregunta que surge es
Cmo de grande es la relacin entre X e Y y cmo cuanticarla? El coeciente de correlacin lineal es un
valor que permite estudiar el grado de dependencia lineal existente entre X e Y. Viene denido por:
r =
Cov(X, Y )
S
x
Sy
=
1
n

n
i=1
(x
i
x) (y
i
y)
_
1
n

n
i=1
(x
i
x)
2 1
n

n
i=1
(y
i
y)
2
Una propiedad importante del coeciente de correlacin es que no depende de cambios de origen y escala, y su
valor siempre est comprendido entre -1 y 1 (1 r 1).
De modo que valores de r cercanos a 1 indican una dependencia lineal y positiva entre las dos variables, y
valores de r cercanos a -1 indican dependencia lineal negativa. Cuando el valor de r est cercano a cero, no
existe dependencia lineal entre X e Y. Esto ltimo puede ser, bien porque X e Y son variables independientes,
o bien porque la dependencia existente entre ambas variables es de otro tipo diferente al lineal.
10.3. Modelos de regresin lineal: Lnea de tendencia.
En este tipo de regresin se desea caracterizar el efecto lineal de una nica variable explicativa sobre la variable
respuesta. Los pasos para efectuar un anlisis son los siguientes:
1. Representacin grca de datos
2. Planteamiento del modelo
3. Estimacin de la ecuacin de prediccin
4. Examen de la adecuacin del modelo lineal
10 DISTRIBUCIONES BIDIMENSIONALES 92
El modelo de regresin lineal simple tiene un solo regresor X (variable independiente) que tiene una relacin
con una respuesta Y (variable dependiente), donde la relacin es una lnea recta. Este modelo de regresin
lineal poblacional es:
Y =
0
+
1
X +
Donde la ordenada al origen
0
y la pendiente
1
son constantes desconocidas, y es una componente aleatorio
del error. Se supone que los errores tienen promedio cero y varianza constante desconocida. Adems se suele
suponer que los errores no estn correlacionados. Esto quiere decir que el valor de un error no depende del
valor de cualquier otro error.
10.4. Estimacin de los parmetros por mnimos cuadrados
La idea de la recta de regresin es sencilla: intentamos encontrar la recta que mejor represente a la nube de
puntos, en el sentido de minimizar la suma de los cuadrados de las distancias verticales de los diferentes punto
de la nube a la recta.
Denicin. La recta de regresin de Y sobre X es la recta y = a+bx, donde a y b son los estimadores mnimos
cuadrticos de
0
y
1
, respectivamente. El criterio de mnimos cuadrados es:
mn S(
0
,
1
) = mn

0
,
1
n

i=1

2
i
= mn

0
,
1
n

i=1
(y
i

1
x
i
)
2
Derivando con respecto a
0
y
1
, e igualando a cero, se obtienen las expresiones para a y b, esto es:
a = y
Cov(x, y)
S
x
x b =
Cov(x, y)
S
2
x
Por tanto, la recta de regresin de Y sobre X es:
y = a +bx = y
Cov(x, y)
S
2
x
x +
Cov(x, y)
S
2
x
x
La diferencia entre el valor observado y
i
y el valor ajustado correspondiente y
i
se llama residual, matemtica-
mente el i-simo residual es: e
i
= y
i
y
i
= y
i
(a + bx
i
), i = 1, 2, , n, e
i
tiene un papel importante
para investigar la adecuacin del modelo de regresin ajustado, ya que debe cumplir los supuestos de los
errores del modelo.
Coeciente de determinacin (r
2
). La cantidad r
2
=
SCReg
SCT
= 1
SCRes
SCT
. Se llama coeciente de determi-
nacin, donde:
SCRes =
n

i=1
e
2
i
=
n

i=1
(y
i
y
i
)
2
; SCT =
n

i=1
(y
i
y)
2
r
2
: se interpreta como la proporcin de la variacin explicada por la variable independiente x, toma valores
entre cero y 1.
Por otra parte, la suma de cuadrados de regresin est dada por:
SCReg =
n

i=1
( y
i
y)
2
10 DISTRIBUCIONES BIDIMENSIONALES 93
y se verica que:
SCT =
n

i=1
(y
i
y)
2
= SCReg +SCRes =
n

i=1
( y
i
y)
2
+
n

i=1
(y
i
y
i
)
2
Ejemplo. Se tienen las puntuaciones por acceso a un servicio mdico (X) y el grado de salud (Y ) de 15
personas. Se supone que el grado de salud depende del acceso al servicio mdico. Los datos se presentan en la
siguiente tabla:
Puntuacin Puntuacin Puntuacin Puntuacin Puntuacin Puntuacin
por acceso por salud por acceso por salud por acceso por salud
3 2 7 5 2 2
6 6 8 7 4 3
13 9 13 10 5 4
1 1 10 8 11 9
4 5 3 4 9 8
Realizar un diagrama de dispersin, a n de observar la relacin entre las variables X, Y .
Es evidente la relacin lineal entre el grado de salud y el acceso al servicio mdico. Para medir el grado de
relacin lineal entre X e Y , se obtiene el coeciente de correlacin:
r =
152.2
_
(215.6)(115.73)
= 0.964
Este valor se interpreta como, el 96.4 % de los datos estn correlacionados linealmente y de manera positiva.
Ahora, se ajustar el modelo de regresin lineal (modelo de prediccin), el cual est dado por:
y = a +bx = 0.8744 + 0.7059x
A partir de este modelo se obtienen las puntuaciones de salud previstas, y, y con ello las siguientes medidas:
1. Suma de cuadrados de regresin
SCReg =
n

i=1
( y
i
y)
2
= 107.4322
10 DISTRIBUCIONES BIDIMENSIONALES 94
2. Suma de cuadrados residuales
SCRes =
n

i=1
e
2
i
=
n

i=1
(y
i
y
i
)
2
= 8.2898
3. Utilizando estos dos resultados se tiene que:
SCT =
n

i=1
(y
i
y)
2
= 107.4322 + 8.2898 = 115.772
Ahora, dividiendo por n 2 la suma de cuadrados residuales y luego obtener la raz cuadrada, se tiene:
_
SCRes
n 2
=

n
i=1
e
2
i
n 2
=

n
i=1
(y
i
y
i
)
2
n 2
=
_
8.2898
15 2
= 0.7985
este valor se interpreta como la medida del error total en la prediccin de las puntuaciones de un grupo de n
sujetos, ya que este valor es pequeo, es decir, 0.7985, el modelo es aceptable para predecir. Sin embargo, la
medida que se utiliza para indicar la bondad del modelo es el coeciente de determinacin, esto es:
r
2
=
SCReg
SCT
= 1
SCRes
SCT
= 1
8.2898
115.772
= 0.928
Esto signica que aproximadamente el 93 % de la variacin de las puntuaciones de salud estuvo relacionada
con las puntuaciones de acceso a servicios mdicos del individuo. Por otra parte, tambin signica que
aproximadamente el 7 % de esta variacin no se explica por el acceso a servicios mdicos y, por consiguiente,
debe atribuirse a otros factores desconocidos.
10.4.1. Ejemplos. Regresin lineal
1. Dado una distribucin de frecuencias bidimensional (x
i
, y
i
, f
ij
), cuya covarianza es S, obtngase la
covarianza de la distribucin de frecuencias (ax
i
+b, cy
i
+d, f
ij
), S

, siendo a y b nmero reales positivos.


2. A partir de la regresin lineal de Y, ahorro anual, sobre X, renta mensual de un grupo de familias (ambas
variables en miles de dlares) se ha estimado que el ahorro correspondiente a una renta de 3 mil dlares
es de 0.4 miles de dlares, mientras que, si la renta es de 2.5 miles de dlares, el ahorro es de 0.3 miles
de dlares. Con estos datos, hllese la ecuacin de la recta de regresin de Y sobre X.
3. Obtngase la media y la varianza de los residuos en la regresin lineal de Y sobre X.
4. Obtngase la media y la varianza de los valores tericos en la regresin lineal de Y sobre X.
5. En la regresin lineal de Y sobre X, demustrese la siguiente relacin denominada descomposicin de la
varianza:
S
2
Y
= S
2
e
Y
+S
2
e
.
6. En la regresin lineal de Y sobre X, demustrese la siguiente relacin:
S
2
e
= S
2
Y
(1 r
2
)

You might also like