You are on page 1of 201

ESTADÍSTICA APLICADA A LA

GESTIÓN PÚBLICA Y GOBIERNO
MSc. Miguel Oswaldo Pérez Pulido

Maestría en Gestión Pública y gobierno
Universidad de Santander
Mayo de 2013
JORNADA TEMAS





Generalidades de las Estadísticas oficiales

-Instrumentos para el fortalecimiento del sistema estadístico
Nacional

- Credibilidad estadística

- Principios y buenas prácticas

-Planificación estadística estratégica

-Indicadores de gestión: construcción e interpretación





Estadística descriptiva

- Forma grafica de presentar resultados
- Medidas de tendencia central
- Medidas de dispersión
- Medidas de forma
PROGRAMA CURSO
JORNADA TEMAS





Marco conceptual de las técnicas muestrales:

• Población
• Muestras, Marcos muestrales
• Diseños muestrales
• Estimación puntual
• Estimación por intervalos.

 La encuesta y el cuestionario.

Distribuciones de muestreo





 Análisis de regresión lineal y correlación entre variables.
• Variables dependientes, independientes
• Supuestos del modelo
• Pronósticos

MÓDULO 1



¿IMPORTANTE LA ESTADÍSTICA PARA LA GESTIÓN
PÚBLICA?



PRESIDENTE DEL BID DESTACA IMPORTANCIA DE LA ESTADÍSTICA EN EL
DESEMPEÑO DEL SECTOR PÚBLICO



El presidente del Banco Interamericano de Desarrollo, Luis Alberto Moreno, resaltó hoy la
importancia de la estadística para medir el desempeño de los gobiernos durante la
conferencia Utilizando la estadística para promover un desarrollo incluyente: retos para
América Latina y el Caribe.


La conferencia, que se lleva a cabo en la sede del BID en Washington del 28 al 29 de
septiembre, es auspiciada por el BID y París 21, el consorcio para la colaboración en las
estadísticas para el desarrollo en el siglo XXI. El evento busca identificar los principales retos
de la región para mejorar el uso de la información estadística para apoyar un desarrollo
incluyente y alcanzar los Objetivos de Desarrollo del Milenio (ODM) en el 2015.
"El BID ha sido y seguirá siendo una entidad activa en el apoyo al desarrollo
estadístico de la región, habiendo canalizado más de US $150 millones para la
generación de mejores estadísticas, particularmente en el área social, en 12
países de la región", afirmó Moreno al iniciar la conferencia.

Destacó la relevancia de la estadística en el proceso de toma de decisiones
gubernamentales, en asuntos relativos al desarrollo económico y social y a la
superación de la pobreza y la equidad.


"Contar con información oportuna, creíble y relevante es esencial para mejorar
el desempeño del sector público y la legitimidad de los gobiernos", dijo Moreno.
"La generación de datos de alta calidad, producidos a tiempo, ampliamente
accesibles y útiles para la gestión pública es una prioridad en la agenda de los
gobiernos y de los institutos de estadística de toda la región“.


Tomado de Internet el 10 de julio de 2012 en www.iadb.org/dominicana/noticias/28.09.06A.htm
El presidente del BID agregó que la estadística como herramienta para medir el
impacto de políticas y programas es aún mayor ahora que se han trazado metas
sobre el cumplimiento de objetivos concretos para el desarrollo en la región, como
es el caso de los ODM (Objetivos del Desarrollo del Milenio) y las metas de
Oportunidades para la Mayoría (OPM), la iniciativa lanzada por el BID en junio.

Además, subrayó la importancia de trabajar en el contexto de coordinación en
materia estadística representado en la región por la Conferencia Estadística de las
Américas.

París 21 fue fundada en 1999 por la Organización para Cooperación y Desarrollo
Económico (OECD), el Banco Mundial, la Comisión Europea, el Fondo Monetario
Internacional (FMI) y las Naciones Unidas

“No se puede gestionar lo que no se mide. Las mediciones son la clave. Si usted no
puede medirlo, no puede controlarlo. Si no puede controlarlo, no puede gestionarlo. Si no
puede gestionarlo, no puede mejorarlo. La falta sistemática o ausencia estructural de
estadísticas en las organizaciones impide una administración científica de las
mismas. Dirigir sólo en base a datos financieros del pasado, realizar predicciones
basadas más en la intuición o en simples extrapolaciones, y tomar decisiones
desconociendo las probabilidades de éxito u ocurrencia, son sólo algunos de los
problemas o inconvenientes más comunes hallados en las empresas.


Carecer de datos estadísticos en cuanto a lo que acontece tanto interna como
externamente, impide decidir sobre bases racionales, y adoptar las medidas
preventivas y correctivas con el suficiente tiempo para evitar daños, en muchos
casos irreparables, para la organización.

Por Mauricio León Lefcovich

Tomado el 10 de julio de 2012 en manuelgross.bligoo.com/.../La-estadistica-es-fundamental-par... –
España
¿ESTADÍSTICAS OFICIALES?
LA ESTADÍSTICA PÚBLICA (u oficiales)
• Es un instrumento estratégico para el diseño de políticas públicas
apropiadas, la adopción de decisiones oportunas y el ejercicio de
gestiones eficientes, transparentes y responsables.

• Uno de los principales problemas que encuentran los usuarios de la
estadística pública es le disponer de información estadística que sea
homogénea y comparable.

• La estadística está definida como “La ciencia especializada en contar
sucesos, personas o cosas y ordenar la información obtenida en tablas,
bases de datos y gráficas, a fin de facilitar su análisis”

• La estadística pública son todos aquellos datos y estadísticas
definidas, generadas, elaboradas y publicadas por las diferentes
dependencias y organismos que componen la administración pública,
(INEGI, 2006)
LA NECESIDAD DE UNA CULTURA ESTADÍSTICA ENTRE
LOS FUNCIONARIOS DE LA ADMINISTRACIÓN PÚBLICA
 En la organización y gestión de los organismos de la administración pública, ha
surgido un nuevo modelo de producción resultante del impulso hacia la
descentralización, el desarrollo autónomo de cada organismo y la introducción de
responsabilidades de los directivos por los resultados obtenidos.

 Todo ello requiere el desarrollo de las funciones de planeamiento, control
administrativo y evaluación en los distintos planos en que se formulan los
procesos de decisión.

 Resulta fácil demostrar que para esto hacen falta sistemas de información
estadística adecuados y que cada etapa del proceso requiere información e
indicadores estadísticos apropiados, así como la utilización de procedimientos
estadísticos idóneos para realizar los análisis necesarios. (mediaciones de
costos, eficiencia y efectividad, análisis de simulación e impacto, análisis de
satisfacción de los usuarios


 La estadística comienza por la noción de que utilizamos datos para responder
preguntas, es importante recordar que los datos no son solo conjuntos de números
sino que consisten en conjuntos de mediciones .

 El pensamiento de Moore (1997), es que la educación estadística debería
centrarse en los datos y en el razonamiento estadístico antes que en la
presentación de tantos métodos como sea posible o en la teoría matemática de la
inferencia.

 La comprensión del razonamiento estadístico debería constituir el objetivo más
importante de la difusión de la cultura estadística: tenemos que hacer mas hincapié
en los datos y los conceptos, a expensas de menos teoría y menos recetas.

 Por consiguiente, los conocimientos numéricos y estadísticos básicos
comprenden: la facilidad para manejar cifras y problemas cuantitativos, la
comprensión de nociones y conceptos matemáticos básicos, el razonamiento
estadístico, la cuantificación ey explicación de la variabilidad, la producción y
presentación de los datos.
• Las estadísticas públicas son una de las piedras angulares del buen
gobierno y de la confianza del público en el buen gobierno., (Consejo
Económico y Social, 2004)


•Grado en el cual la información
estadística y su proceso de
producción satisfacen las
expectativas de sus diferentes
interesados. (Tarazona, 2006)
Calidad de
información
estadística
•Capacidad para interpretar y evaluar
críticamente la información
estadística
•Capacidad para discutir o comunicar
sus opiniones respecto a tales
informaciones estadísticas cuando
sea relevante (Batanero, 2002)
Cultura
estadística
Elaboración de informes estándar de calidad con indicadores cualitativos y
cuantitativos de los dominios de calidad definidos y medición de sus mejoras
Utilización de modelos de medición de calidad en los instrumentos
Mejoramiento en las relaciones con las unidades informantes (Facilitando la
forma de proporcionar los datos y reduciendo la carga de respuesta)
Realización de encuestas de satisfacción de los usuarios
Realización de foros de diálogo productores-usuarios
Elaboración de manuales que permitan al personal conocer temas “Buenas
practicas en la elaboración de encuestas oficiales”
Elaboración de una listas e verificación genérica para programas sencillos de
autoevaluación de los responsables de las encuestas
Realización de auditorias internas
Elaboración y distribución de documentos sobre la misión y políticas de
difusión
Ejecución de programas de formación en materia de calidad para el personal
ACCIONES O INSTRUMENTOS PARA EL MEJORAMIENTO DE CALIDAD DE
LAS ESTADISTICAS OFICIALES (presentada por el INE en la CEPAL, 2003)
CREDIBILIDAD EN LA ESTADÍSTICA PÚBLICA
Las buenas estadísticas son esenciales para generar una pintura objetiva de la
condición económica y social del país
Un ciudadano informado es un mejor ciudadano. Las estadísticas posibiliten a las
personas a tomar mejores decisiones sobre su vida diaria
Las buenas estadísticas permiten a los gobiernos informar a la sociedades sobre el
avance de sus políticas y darles poder a los ciudadanos a evaluar su éxito
Las estadísticas publicas creíbles proporcionan valiosos antecedentes a los
ciudadanos para evaluar la calidad de las políticas públicas
La credibilidad se deriva del respeto y confianza que los usuarios tengan por la
organización productora y los datos que emanen de ella
PORTALES ESTADÍSTICOS
http://biblioteca.unimagdalena.edu.co/index.php?option=com_content&task=view&id
=144
EL SISTEMA ESTADÍSTICO NACIONAL Y LA INFORMACIÓN
ESTADÍSTICA ESTRATÉGICA (SEN)
El sistema Estadístico Nacional (SEN) es según el DANE:















“El SEN forma parte de un universo que contiene tanto información
estadística como no estadística. Dentro de la información estadística
existe información estadística estratégica (IEE).









“Se considera de carácter estratégico aquella información estadística que
primordialmente apoya y sirve de insumo directo al Sistema de Cuentas
Nacionales, o se constituye como base para la toma de decisiones, el
diseño, formulación, seguimiento y evaluación de políticas públicas a
nivel nacional, sectorial y territorial” (DANE, 2008)
Registros
administrativos
Censos
Estadísticas
derivadas
Encuestas
Instrumentos para el fortalecimiento del
Sistema Estadístico Nacional (SEN)
http://190.25.231.249/aplicativos/sen/aym_document/aym_sen/El%20papel%20de%20los%20usuarios%20especializados
%20en%20el%20fortalecimiento%20del%20SEN%20COLOMBIA.pdf

La información estadística estratégica en el Sistema
Estadístico Nacional Colombiano
Fuente: DIRPEN (2008). Documento de trabajo. El sistema Estadístico Nacional y la información
estadística estratégica: articulación de instrumentos.
ENDE
•Busca garantizar la consolidación del SEN para brindar al país una información
estadística estratégica en condiciones optimas soportada en información
estadística y conocimiento
PENDES
•Identifica a los usuarios de información estadística estratégica, define
sus perfiles y determina las prioridades e producción de información
estadística
PAD
•Es un sistema de información que permite la ejecución de las mejores pràcticas
y las normas internacionales en la documentación y difusión de microdatos y
metadatos, aprovechando así la labor realizada por la red internacional para
encuesta de hogares
MIS
•Son instrumentos que permiten representar gráficamente, la distribución de la
información estadística sectorial, las cuales hacen referencia a tres aspectos
fundamentales: estructura del sector, normativa vigente, inventario de
operaciones estadística del sector
SIEAT
•Es un sistema de información creado para disponer de información territorial
relevante y estratégica que sirva para el diseño, monitoreo y evaluación de
programas y políticas públicas que sean implementadas en un espacio
geográfico determinado
Plan estratégico nacional de estadística y su dinámica
ESTANDARIZACIÓN DE CONCEPTOS
Los productos que se obtienen son:
Distribución temática de conceptos estandarizados
ESTANDARIZACIÓN DE METODOLOGIAS
Según la ONU, los institutos nacionales
de estadística deben contar con un
conjunto de valores y principios
fundamentales.

+ Persistencia

+ Imparcialidad

+ Acceso equitativo

+ Rendición de cuentas

+Transparencia
BUENAS PRÁCTICAS PARA EL DESARROLLO ESTADÍSTICO
1. Pertinencia,
imparcialidad y
acceso
equitativo
2. Normas y
ética
profesionales
3. Rendición de
cuentas y
transparencia
4. Prevención de
la utilización
indebida
5. Fuentes de las
estadísticas
oficiales
6. Confidencialidad
7. Legislación
8. Coordinación
nacional
9. Utilización de
normas
internacionales
10. Cooperación
internacional
P
R
I
N
C
I
P
I
O
S

D
E

B
U
E
N
A
S

P
R
Á
C
T
I
C
A
S

D
E

O
N
U

B
A
N
C
O
S

D
E

B
U
E
N
A
S

P
R
A
C
T
I
C
A
S


ASEGURAMIENTO DE CALIDAD DE LA INFORMACIÓN
ESTADÍSTICA ESTRATÉGICA
Es un conjunto de procesos que busca garantizar que un producto o servicio
cumpla los estándares de calidad, estos estándares son parámetros que se
definen por la entidad certificadora y los estándares internacionales existentes.

Su objetivo es revisar y analizar, diagnosticar y evaluar el proceso de producción
de la información estadística estratégica del país, analizando las principales
variables que garanticen su calidad.
PLANIFICACIÓN ESTADÍSTICA ESTRATEGICA
La planificación estadística tiene como objetivo organizar los procesos
de producción y de gestión de la información estadística institucional,
sectorial y territorial, de modo que esta se constituya en un soporte
eficiente para la formulación de políticas públicas, la planeación, la
toma de decisiones, el seguimiento y evaluación a los planes de
desarrollo y programas de gobierno
METODOLOGIA ESTADÍSTICA
1-METODOLOGIA ESTADÍSTICA
2-DATOS ESTADÍSTICOS
1.1-CONCEPTO Y NATURALEZA.
1.2-CLASIFICACION: TEMPORALES, ATEMPORALES
1.3-ESCALAS DE MEDIDA: NOMINAL, ORDINAL, INTERVALOS
3-VARIABLES ESTADÍSTICAS
2.1-VARIABLES CATEGÓRICAS O CUALITATIVAS
2.2-VARIABLES CUANTITATIVAS: DISCRETAS, CONTINUAS
4-ANÁLISIS DECRIPTIVO DE LOS DATOS ESTADÍSTICOS
3.1-GRAFICOS: HISTOGRAMAS, CAJAS, TENDENCIA, DISPERSIÓN 3.1-
DISTRIBUCIÓN DE FRECUENCIAS. ABSOLUTA. RELATIVA.
3.2-MEDIDAS DESCRIPTIVAS:
1-TENDENCIA CENTRAL
2-POSICIÓN
3-DISPERSIÓN
4-FORMA
5-ASOCIACIÓN
Los Datos son unidades de información que incluyen
percepciones, números, observaciones, hechos y cifras, pero que
al estar desligada de un contexto particular, carecen de sentido
informativo.

La información, es un conjunto organizado de datos procesados,
que constituyen un mensaje sobre un determinado fenómeno y
proporciona significado o sentido a una situación en particular.

Los datos se convierten en información cuando aportan
significado, relevancia y entendimiento, en un tiempo y lugar
especifico.

El principal desafío de la evaluación y planificación es separar los
datos que tienen sentido y aportan información, para asegurarse
de que el análisis se realice basado en la mejor información
disponible.
http://www.transparenciacolombia.org.co/LACORRUPCION/EnColombia/tabid/101/language/
es-ES/Default.aspx

http://www.vanguardia.com/opinion/editorial/103670-corrupcion-de-las-estadisticas-al-drama-humano

http://suamox03.dane.gov.co:7778/pls/enh/enh_web_continua.definicion_e
nh1

http://chartsbin.com/view/2186

http://www.dnp.gov.co/EstudiosEconomicos/Estad%C3%ADsticashist%C3%B3ri
casdeColombia.aspx

CARACTERISTICAS POBLACIONALES
(PARAMETROS)
• Valores desconocidos de la Población
• Se estiman con base en muestras
METODOLOGIA ESTADISTICA
IDENTIFICACION DEL PROBLEMA
D
E
S
OBTENCION DE DATOS
PROCESAMIENTO Y SINTESIS DE DATOS
C
R
I
P
T
I
V
DATOS de la POBLACION
Conjunto total de mediciones de
la característica del proceso
DATOS de la MUESTRA
Subconjunto representativo de
la población (grupo de
mediciones)
CARACTERISTICAS MUESTRALES
(ESTIMADORES) A


Función de la muestra
Se infieren a la población
LA ESTADÍSTICA:
•Estudia Fenómenos Aleatorios:
variabilidad inherente.
Fenómenos parcialmente predecibles debido a su
•Identifica y Analiza la Variabilidad Inherente de los Fenómenos Aleatorios.
•Proporciona métodos para recolectar, organizar, resumir y analizar información
con fines descriptivos e inferenciales.
A) Esquema General del Proceso de Obtención, Elaboración y Análisis
de Resultados.
Esquema General (Vicens 2005)
• Universo Poblacional.
• Métodos de Muestreo.
• Tamaños y Errores de
Muestro.
•Tabulación de la
Información.
• Fuentes Secundarias
• DETERMINACIÓN
DEL OBJETIVO
• OBTENCIÓN DE
INFORMACIÓN
• ANÁLISIS
TÉCNICO
• INFORME DE
RESULTADOS
• Fuentes Primarias
• Internacionales.
• Nacionales.
• Tablas y Gráficos.
• Estadística Descriptiva.
• Análisis de Correlación
• Simple
• Análisis de
Dependencia. (MBRL, ANOVA,
Análisis Discriminante, LOGIT, PROBIT, TOBIT,
REGRESIÓN COX…)
• Análisis de
Interdependencia. (Análisis
Factorial, Análisis Cluster,…)
• Multivariante


DATOS ESTADISTICOS
PROBLEMAS, INFORMACION Y DATOS ESTADISTICOS
REALIDAD
INDISPENSABLE:
•Planificar la recolección de datos dentro del
UNIDADES EXPERIMENTALES
marco de las preguntas que deben contestarse.
•Datos correctos y exactos, recopilados mediante
elaborados diseños muestrales o experimentales,
son inútiles si no permiten resolver las preguntas
MEDIDAS RELEVANTES
de interés.
INFORMACION UTIL
PROCESO GENERADOR DE INFORMACION UTIL PARA LA SOLUCION DE PROBLEMAS:
1. FORMULACION DEL PROBLEMA O PREGUNTAS QUE DEBEN RESOLVERSE
2.
3.
RECOPILAR DATOS RELATIVOS A LAS CUESTIONES PLANTEADAS DISEÑO EXPERIMENTAL

ORGANIZAR Y ANALIZAR LOS DATOS EN FORMA ADECUADA:
1. ANALISIS GRAFICO
2. ANALISIS NUMERICO
DATOS ESTADISTICOS
•RESULTADO NUMERICO DE MEDIDAS SOBRE UNIDADES EXPERIMENTALES
•OBSERVACIONES DISPONIBLES PARA EL ANALISIS ESTADISTICO

•INFORMACION: ESTA BASADA EN DATOS. PERMITE RESOLVER PROBLEMAS
CLASIFICACION DE LOS DATOS:
1. DATOS TEMPORALES: SERIES CRONOLOGICAS (Ver ejemplo)
DATOS DE UN MISMO ELEMENTO EN DISTINTOS PERIODOS DE TIEMPO

2. DATOS ATEMPORALES: MATRICES DE DATOS
DATOS DE DIFERENTES

EJEMPLO: Carros.sf6
ELEMENTOS EN UN MISMO PERIODO DE TIEMPO
X1 X2 ... Xj ......... Xp
ESCALAS DE MEDIDA
1.
2.
3.
4.
NOMINAL
ORDINAL
INTERVALO
RELACION
MATRIZ
de DATOS
Xij
Tipos de Información Estadística en Tiempo y Espacio.
La información estadística pueden adoptar tres tipos de dimensiones: la temporal, la espacial o
ambas a la vez. Así, y definiendo, existen tres tipos de datos:
• Series
Temporales
• Los datos se refieren a la
evolución de una o más variables
a lo largo de un determinado
tiempo.
PIB per cápita (ppp) de México
10.101,2
13.406,7
8000
9000
10000
11000
12000
13000
14000
1
9
9
0
1
9
9
1
1
9
9
2
1
9
9
3
1
9
9
4
1
9
9
5
1
9
9
6
1
9
9
7
1
9
9
8
1
9
9
9
2
0
0
0
2
0
0
1
2
0
0
2
2
0
0
3
2
0
0
4
2
0
0
5
2
0
0
6
2
0
0
7
2
0
0
8
Fuente: World Bank
• Corte
Transversal
• Los datos se refieren al
comportamiento de una
variable para diferentes
individuos.
0,594
0,584
0,412
0,000
0,100
0,200
0,300
0,400
0,500
0,600
0,700
A
r
B
o
B
r
C
l
C
o
C
r
E
c
M
x
N
i
P
a
P
e
R
.
D
o
m
U
y
V
e
Índice de Concentración de Gini (2008)
Fuente: Comisión Económica para América Latina y el Caribe (CEPAL)
• POOL (PANEL DATA)
• Combinan la variabilidad temporal y
transversal de una variable.

ESCALA

CARACTERISTICAS

EJEMPLOS

MEDIDAS ESTADISTICAS
1.IDENTIFICACION Y CLASIFICACION DE
UNIDADES

2.LOS NUMEROS INDICAN LA CLASE O
CATEGORIA. NO INDICAN CANTIDAD DE
LA CARACTERISTICA DE LAS UNIDADES
1.CLASIFICACION POR SEXO
2.CLASIFICACION POZOS
PETROLEROS

(PRODUCTIVO, SECO)

1.PORCENTAJES
2.MODA


NOMINAL


ORDINAL

1.ORDENAMIENTO Y POSICION RELATIVA DE
LAS UNIDADES

2.INDICA SI UNA UNIDAD TIENE MAS O
MENOS CANTIDAD DE LA
CARACTERISITICA QUE OTRA UNIDAD

3.NO INDICA LA MAGNITUD DE LAS
DIFERENCIAS ENTRE LAS UNIDADES

4.PERMITE MEDIR OPINIONES, ACTITUDES,
PREFERENCIAS


1.CLASE ECONOMICA SOCIAL
2.CALIDAD DEL CRUDO:

(PESADO, LIVIANO)

1.FRACTILES
2.MEDIANA


INTERVALOS

1.LAS DIFERENCIAS ENTRE UNIDADES
PUEDEN COMPARARSE.

2.LAS DISTANCIAS IGUALES EN LA ESCALA
REPRESENTAN VALORES IGUALES EN LA
CARACTERISTICA QUE SE MIDE

3.EL PUNTO CERO ES ARBITRARIO

1.TEMPERATURA (F, C)
2.OPINIONES 3.INDICES

1.MEDIA
2.RANGO
3.VARIANZA
4.DESVIACION ESTANDAR
5.COEFICIENTE CORRELACION


RELACION
1.EL PUNTO CERO ES FIJO

2.LA RELACION ENTRE LOS VALORES DE
LA ESCALA SE PUEDE CALCULAR

1.EDAD 2.INGRESO 3.COSTOS

1.MEDIA GEOMETRICA
2.COEFICIENTE VARIACION
ESCALAS DE MEDIDA
VARIABLES

CUALITATIVAS
ESTADISTICAS

CUANTITATIVAS
Vernier
No PASA
PASA
Tiempo
ON OFF
TEMPERATURA
Circuito Eléctrico
Termómetro
7
VARIABLES DISCRETAS
DIAGRAMA de BARRAS. GRAFICO DE SECTORES
Frecuencia Frec. Acumulada
Class CIL Absoluta Relativa Absoluta Relativa
1 4 104 0.689 104 0.689
2 6 30 0.199 134 0.887
3 8 17 0.113 151 1.000
Diagrama de barras: Se utilizan rectángulos separados, que tienen como
base a cada uno de los datos y como altura la frecuencia de ese dato.

Ejemplo: En la siguiente tabla se muestra el total de vacunas aplicadas
durante el verano de 1991 en un estado de la República Mexicana.
Ojiva de Frecuencias Acumuladas: Una gráfica de distribución de
frecuencias absolutas o relativas acumuladas es llamada una ojiva. Se
trazan los límites reales superiores contra las frecuencias acumuladas.
GRÁFICOS ESTADÍSTICOS
0
1
f
r
e
c
u
e
n
c
i
a
Miles galones de agua
25
30
35
0
2
4
6
8
10
12
14
5 10 15 20 25 30 35 40
#

d
e

f
a
m
i
l
i
a
s
CONSUMO DE AGUA (MILES DE GALONES)
POLIGONO DE FRECUENCIAS
GRÁFICOS ESTADÍSTICOS
Polígono de frecuencias: Se puede construir dibujando primero un
histograma y luego conectando por medio de líneas rectas los puntos
medios de la parte superior de cada una de las barras o rectángulos
Ejemplo:
Se preguntó si estamos gastando “Muy poco”, “más o menos” o “demasiado”
en programas sociales.
GRÁFICOS ESTADÍSTICOS
Diagrama de torta: Consiste en representar las frecuencias absolutas o
relativas a través de un circulo que representa el 100% de las frecuencias,
y subdividiendo el circulo en parte proporcional
Cartograma es un mapa o diagrama que muestra datos de cantidad
asociados a respectivas áreas, mediante la modificación de los tamaños de
las unidades de enumeración.
Limite Limite Punto Frecuencia Frecuencia Acumulada
Clase Inferior Superior Medio Absoluta Relativa Absoluta Relativa
1 13.0 15.6 14.3 1 0.0067 1 0.0067
2 15.6 18.1 16.9 11 0.0733 12 0.0800
3 18.1 20.7 19.4 19 0.1267 31 0.2067
4 20.7 23.3 22.0 10 0.0667 41 0.2733
5 23.3 25.9 24.6 12 0.0800 53 0.3533
6 25.9 28.4 27.1 20 0.1333 73 0.4867
7 28.4 31.0 29.7 14 0.0933 87 0.5800
8 31.0 33.6 32.3 18 0.1200 105 0.7000
9 33.6 36.1 34.9 22 0.1467 127 0.8467
10 36.1 38.7 37.4 11 0.0733 138 0.9200
11 38.7 41.3 40.0 5 0.0333 143 0.9533
12 41.3 43.9 42.6 3 0.0200 146 0.9733
13 43.9 46.4 45.1 3 0.0200 149 0.9933
14 46.4 49.0 47.7 1 0.0067 150 1.0000
Total 150
VARIABLES CONTINUAS
HISTOGRAMA de FRECUENCIAS. DIAGRAMA de CAJA.
DISTRIBUCION de FRECUENCIAS (Carros.sf6)
22
El Histograma indica la mezcla de tres poblaciones (origen)
El análisis debe hacerse por grupo de origen

PROCEDIMIENTO STATGRAF:
20
19
ANALYZE  VARIABLE DATA
 ONE VARIABLE ANALYSIS
DISTRIBUCION DE FRECUENCIAS
GRÁFICOS DE TENDENCIA
Análisis de patrones y tendencias
Visualiza el comportamiento de los datos en el tiempo
Tendencia creciente Tendencia decreciente Corrida de proceso
Valores anormales Ciclos Variabilidad creciente
65
PARÁMETROS Y ESTADÍSTICOS
 Parámetro: Es una cantidad numérica
calculada sobre una población.
 La altura media de los individuos de un
país.
 La idea es resumir toda la información
que hay en la población en unos pocos
números (parámetros).
•Estadístico: (cambiar población por muestra).
–La altura media de los que estamos en este aula.
•Somos una muestra (¿representativa?) de la población.
–Si un estadístico se usa para aproximar un parámetro también se le suele
llamar estimador.
66
Estadísticos de forma intuitiva
SINTESIS DESCRIPTIVA DE
LOS DATOS ESTADISTICOS
1-TENDENCIA CENTRAL
2-POSICION
3-DISPERSION
4-FORMA
5-ASOCIACION


A-GRAFICOS Y TABLAS
GRAFICOS •UNIVARIANTES. MULTIVARIANTES

TABLAS
•TABLAS DE FRECUENCIAS
•TABLAS CRUZADAS
B-MEDIDAS DESCRIPTIVAS


1.TENDENCIA CENTRAL

•MEDIA ARITMETICA

•MEDIANA

•MODA
2.POSICION (ORDEN)

•MAXIMO

•MINIMO

•CUANTILES (CUARTILES, PERCENTILES)
3.DISPERSION (VARIABILIDAD)

•RANGO, RANGO INTERCUARTILICO

•VARIANZA, DESVIACION ESTÁNDAR

•COEFICIENTE DE VARIACION


4.FORMA

•ASIMETRIA (SESGO)

•CURTOSIS (ACHATAMIENTO)


5.ASOCIACION

•COVARIANZA

•CORRELACION

1-MEDIDAS DE TENDENCIA CENTRAL
Se elimina un porcentaje (5-10%) de los
Media Acotada Conjunto Total Datos –
valores más altos y bajos del conjunto de datos
(datos outliers)
(Media Recortada)
– (%Menor + %Mayor)
Media Geométrica G= (X1*X2*…*Xn)
1/n
Escala de Medida No Lineal.
(G)
Log(G) =E(log(Xi))/n
2-MEDIDAS DE POSICION (MEDIDAS DE ORDEN)
3-MEDIDAS DE DISPERSION (VARIABILIDAD)
UNIDAD Media Desv Est CV (%)
1-Comparación de muestras con distintas unidades de medida y diferentes promedios
Tiempo Espera Minutos 78.7 12.14 12.05
Salario Bs F 1000.0 215.35 21.53


2-Comparación de muestras con las mismas unidades de medida, y diferentes promedios
Temperatura A ° C 1100 225 20.45
Temperatura B ° C 800 200
25.00
19
DESVIACION ESTANDAR (S)
•Raíz cuadrada positiva de la Varianza. Medida de dispersión más común
•Se expresa en las mismas unidades que la Variable Estadística.
•Estandariza los valores de la VE (VE con media cero y desviación estándar unitaria)
Z = (X –μ) /σ ~ (0;1)
•Permite calcular la proporción de datos contenido en cierto intervalo alrededor de la
media: El Intervalo (μ ± Kσ) contiene al menos (1-1/K
2
), K>1
COEFICIENTE DE VARIACIÓN: Medida de Dispersión Relativa
4-MEDIDAS DE FORMA
HISTOGRAMAS y FORMAS
NORMAL BIMODAL
INTERVALO VACIO
ASIMETRIA POSITIVA ASIMETRIA NEGATIVA
UNIFORME
DATOS OUTLIERS
• Universo
• Población
• Muestra
• Individuos
Conceptos
básicos
Etapas
• Preparación
• Muestra
Procedimiento
Probabilísticos
No probabilísticos
M
U
E
S
T
R
E
O

• Significatividad
• Representatividad
•Tamaño de la muestra
• Simple
• Sistemático
• Estratificado
• Conglomerados
• Multietápico
• Deliberado
• Accidental
• Bola de nieve
• Por voluntarios
CARACTERISTICAS VENTAJAS INCONVENIENTES
Aleatorio simple
Se selecciona una muestra
de tamaño n de una
población de N unidades,
cada elemento tiene una
probabilidad de inclusión
igual y conocida de n/N.
•Sencillo y de fácil
comprensión.

•Cálculo rápido de medias y
varianzas.

•Se basa en la teoría
estadística, y por tanto
existen paquetes
informáticos para analizar
los datos
Requiere que se posea de
antemano un listado
completo de toda la
población. Cuando se
trabaja con muestras
pequeñas es posible que
no represente a la
población
adecuadamente.
Sistemático
Conseguir un listado de los N
elementos de la población
Determinar tamaño muestral
n.
Definir un intervalo k= N/n.
Elegir un número aleatorio, r,
entre 1 y k (r= arranque
aleatorio).
Seleccionar los elementos de
la lista.
•Fácil de aplicar.
•No siempre es necesario
tener un listado de toda la
población.
•Cuando la población está
ordenada siguiendo una
tendencia conocida,
asegura una cobertura de
unidades de todos los
tipos.
Si la constante de
muestreo está asociada
con el fenómeno de
interés, las estimaciones
obtenidas a partir de la
muestra pueden contener
sesgo de selección
Ventajas e inconvenientes de los distintos tipos de muestreo
probabilístico
Estratificado
En ciertas ocasiones
resultará conveniente
estratificar la muestra
según ciertas variables
de interés. Para ello
debemos conocer la
composición
estratificada de la
población objetivo a
hacer un muestreo. Una
vez calculado el tamaño
muestral apropiado,
este se reparte de
manera proporcional
entre los distintos
estratos definidos en la
población usando una
simple regla de tres.

•Tiende a asegurar que la muestra
represente adecuadamente a la
población en función de unas
variables seleccionadas.

•Se obtienen estimaciones más
precisa

•Su objetivo es conseguir una
muestra lo más semejante posible a
la población en lo que a las
variables estratificadoras se refiere.
•Se ha de
conocer la
distribución en
la población de
las variables
utilizadas para
la
estratificación.
Conglomerados
Se realizan varias
fases de muestreo
sucesivas
(Polietápico)

La necesidad de
listados de las
unidades de una
etapa se limita a
aquellas unidades
de muestreo
seleccionadas en
la etapa anterior.
•Es muy eficiente
cuando la población es
muy grande y dispersa.

•No es preciso tener un
listado de toda la
población, sólo de las
unidades primarias de
muestreo.
•El error estándar es mayor
que en el muestreo
aleatorio simple o
estratificado.

•El cálculo del error
estándar es complejo.



Conceptos básicos del muestreo
CARACTERÍSTICAS DE LA INFORMACIÓN
Calidad
Suficiente
1. Confiable
2. Oportuna
Confiable
3. Bajo costo
Método de búsqueda de
información
Censo
Muestreo
MUESTREO:
Es una técnica inductiva que permite determinar tanto el tamaño de
muestra como seleccionar una o más de una población de acuerdo al tipo
de modelo de muestreo a utilizar: así como obtener estimaciones de
totales, promedios, proporciones, etc. La estimación puede ser tan exacta
como queramos al incrementar el tamaño de muestra
Costo reducido (Gastos son menores que los que se
realizan si se lleva a cabo un censo)
Mayor rapidez (el muestreo emplea menos tiempo en
recopilar y procesar los datos que el censo)
Mayor exactitud (Se espera que una encuesta bien
empleada produzca resultados más exactos que el censo.
En el censo, más errores de complejidad. El muestreo
emplea personas de mayor calibre
Estimar válidamente el margen de error y decidir si los
resultados son suficientemente exactos. El censo no revela
el margen de incertidumbre al cual está sometido. En
poblaciones pequeñas, mejor el censo
VENTAJAS MUESTREO vs. CENSO
1
• Diseñar instrumentos o cuestionarios de la encuesta
2
• Economía de adquirir una cantidad específica de información
3
• Seleccionar el tipo de muestreo adecuado de acuerdo al
objetivo
4
• Determinación de tamaños de muestra con error especificado. El
muestreo abarca tres grandes áreas:a
• Diseño de la muestra
• Determinación de la muestra
• Inferencias
OBJETIVOS DEL CURSO
ETAPAS PRINCIPALES DE LA INVESTIGACIÓN
POR MUESTREO
•Se realiza según el plan
de tabulación diseñado
y las técnicas
estadísticas propuestas
para cumplir con los
objetivos previstos en la
investigación

•Se redacta el informe de
resultados de la
investigación por muestreo y
se ejecuta el plan de
publicación de los mismos
•Objetivos de la
encuesta
•Población bajo
muestreo
•El marco
•Unidad de muestreo
•Selección de la
muestra
•Información que se
recopilará
•Grado de precisión
deseado
•Método de obtener
información
•Referencia de tiempo y
periodo de referencia
•Cuestionario u hoja de
encuesta
•Capacitación de los
entrevistados y
supervisión
•Inspección de la
información entregada
1.
Planeación
y ejecución
de una
encuesta
(Fase I)
3. Informe
y
publicación
de
resultados
2.
Presentació
n y análisis
de datos
Planeación
y ejecución
de una
encuesta
(Fase II)

INCONVENIENTES DEL MUESTREO
Al seleccionar una muestra podemos hacerlo de tal forma que ésta
no sea representativa de la población que queremos estudiar o
que al hacerlo cometamos errores.

•Errores en la selección de la muestra. Porque el listado base de los
individuos de la población sea incompleto, contenga errores o sus datos
sean insuficientes, o bien porque se haya recurrido a un método
incorrecto de muestreo (por Ej. Estudiar las características de una
enfermedad en voluntarios que acudan al hospital).

•Errores debidos a las “no respuestas”. La imposibilidad de localizar
a algunos individuos seleccionados o la negativa de éstos a responder al
cuestionario o a acudir a un examen puede no ser debida al azar, por lo
que a menudo puede actuar como fuente de error en la estimación de un
parámetro.

•Errores de medida o de observación. Son los debidos a la impericia
del observador o a defectos del aparato de medida.
•Errores de transcripción. Son los que se producen cuando, por
ejemplo, se anota la cifra del pulso en la casilla correspondiente a la
tensión arterial diastólica o cuando se anota 2.300 g. como peso de un
recién nacido que en realidad pesa 3.200 g.

•Errores en el tratamiento de la información. Son los que se
comenten al codificar, tabular o, en general, procesar la información
inicial.

•Error propio de la estimación muestral.
Estrategias para aumentar la exactitud
•Estandarización de los métodos de medición
•Entrenamiento y acreditación de los observadores
•Refinamiento de los instrumentos
•Automatización de los instrumentos
•Cegamiento o enmascaramiento
•Calibración del instrumento con un estándar de oro.

Estrategias para aumentar la precisión
•Estandarización de los métodos de medición
•Entrenamiento y acreditación de los observadores
•Refinamiento de los instrumentos
•Automatización de los instrumentos
•Repetición
Error de medida
SISTEMATICO ALEATORIO
 OBSERVADOR
 SUJETO
 INSTRUMENTO
• VARIABILIDAD DEL
ESTIMADOR EN EL
MUESTREO.

ERROR NO DE MUESTREO ERROR DE MUESTREO
SESGO DE INFORMACION
ERROR ESTANDAR
DISEÑO y EJECUCION
TEORIA DEL MUESTREO
MUESTRA
POBLACION
PARAMETROS
ESTIMADORES
µ
x
P
p
Error de medida
SISTEMATICO ALEATORIO
ERROR NO DE MUESTREO
ERROR DE MUESTREO
ERROR ESTANDAR
MARCO CONCEPTUAL
* Población de Referencia: Conjunto de elementos o sujetos
acerca de los cuales queremos conocer una o varias
características (Consideraremos solo el caso de Poblaciones
finitas pero relativamente grandes).

Se describen generalmente de manera conceptual:
 Niños en edad escolar del municipio X
 Municipios de Colombia
 Estudiantes universitarios de pregrado.
 Manzanas del Municipio de Bucaramanga

Tipos de población objetivo

1. Hogares y personas

2. Clientes empleados o miembros de organizaciones

3. Organizaciones

4. Eventos

5. Poblaciones poco frecuentes


Unidades de Análisis, unidad elemental, unidad de
observación o elemento: Nombre genérico que reciben los
elementos o sujetos que constituyen una población y que podrían
ser objeto de interrogatorio o medición.


Unidades de muestreo: Son colecciones no traslapadas de
elementos de la población que cubran la población completa. Otra
definición: colecciones o grupos no solapados de unidades
elementales. También es la unidad donde realizamos la muestra.

Ejemplos:

Encuestas de vivienda-Unidad de muestreo: manzanas definidas de tal forma que
cada vivienda no pueda ser muestreada más de una vez y que cada vivienda tenga
una oportunidad de ser seleccionada en la muestra

Encuesta sobre ingreso familiar-Unidad de muestreo: vivienda

Proporción de votantes que favorecieron la emisión de bonos-Unidad de
muestreo: hogares. Unidad elemental: votantes
En cualquier caso las Unidades de Muestreo deben cubrir
por entero la Población sin interceptarse.
Unidades de Primera Etapa (UPE): En una primera etapa
del muestreo pueden ser seleccionados directamente los
individuos que serán interrogados o sobre los que se hará la
medición.

Unidades de Segunda Etapa (USE): En una primera etapa
se seleccionen conglomerados (UPE), y en una segunda
etapa, se seleccionan las Unidades que serán interrogadas
o medidas. Y así sucesivamente…
Después de tener definido el cuestionario, para completar la elaboración de datos primarios es
necesario cumplir las siguiente etapas:
Procedimiento Estadístico para la
Elaboración de Datos Primarios
• Determinación del
Universo Poblacional
• Determinación
del Tamaño de la
Muestra
• Elección del
Método de
Muestreo
• Cálculo de
los Errores de
Muestreo
• Trabajo de Campo
(Aplicación de la
Encuesta)
1º 5º 2º 3º 4º
Marco Muestral: Conjunto de listas de todas las
unidades de muestreo necesarias para llevar adelante
el proceso.

Por ejemplo: Para interrogar u observar características
de jefes de hogar en una ciudad puede se necesario
contar con:

 Listado de Manzanas de la ciudad.
 Listado de Hogares de cada Manzana.
No se puede hablar de muestreo probabilístico e
inferencia estadística sin contar con Marcos
Muestrales.

Tipos de marco de muestreo

1. De lista

2. De Áreas


El marco de muestreo es defectuoso si presenta:

1. Sobrecoberturas

2. Subcoberturas

3. Duplicación
Muestra: Colección de unidades muéstrales de un
marco o de varios marcos. Puede decirse también que
muestra es una proporción representativa de la
población. Son requisitos deseables de una buena
muestra:


Representatividad
(que se garantiza con la
selección adecuada del tipo
de muestreo)
Confiabilidad
(está relacionada con el
tamaño de la muestra)
El análisis estadístico puede extenderse o no, a todo el conjunto de elementos que
participan en nuestra investigación. En este sentido, todo el conjunto de individuos
o elementos que tienen características comunes recibe el nombre de población.
Por razones obvias de coste, sólo podemos analizar una parte de esta población
que se denomina muestra. Por tanto, una muestra será todo subconjunto
representativo del total de la población.
En el caso de que nuestra investigación se dirija a toda la población se dice que se
realiza un censo, mientras que la recogida muestral recibe el nombre de encuesta.
Población y Muestra.
• Una muestra
debe cumplir:
Perfecta Acotación del Universo
Conocimiento preciso de las unidades que lo componen
Obtención de un Censo



Tipos
de
muestreo
Muestreo probabilístico






Muestreo no probabilístico
•Muestreo irrestricto aleatorio
• Muestreo estratificado
• Muestreo sistemático
• Muestreo por conglomerados
por áreas
•Muestreo Bietápico
• Muestreo Polietápico
•Intencional u opinático
•Sin norma circunstancial
errático
•A capricho o comodidad
•Por cuotas: a conveniencia
administrativa o económica
•Juicio
• Bola de nieve







Probabilidad de Selección y Diseños Probabilisticos:
Supongamos que tenemos una población:
{ }
N
e e e P ,... ,
2 1
=
El método de selección es estadísticamente riguroso si se
cumple:

Que se ha otorgado a cada elemento de la población una
probabilidad conocida πi (diferente de cero) de integrar la
muestra

Ejemplo 2: Se escriben los 12 números en igual número de tarjetas
que se colocan en una urna y se toma al azar 6 números; la teoría
combinatoria permite probar que en este caso cada individuo tiene igual
probabilidad también ½ de ser elegido.

Sin embargo, los dos métodos de elección son diferentes.
Diseños Equiprobablísticos:
Todos los elementos de la Población tienen la misma probabilidad de
ser seleccionados. Es decir πi es constante para todo i.
Ejemplo 1: Tenemos 12 individuos numerados del 1 al 12 y los
separamos en dos grupos. Grupo 1, los numerado del 1 al 6, Grupo 2 los
numerados del 7 al 12. Se lanza una moneda, si cae cara se elige el
Grupo 1 y si sello el Grupo 2. La probabilidad de elegir cualquier
individuo es igual a ½.
En que se diferencian los dos métodos?
Diseños No Equiprobabílisticos:

Ejemplo: Ahora los 12 individuos están separados en dos
grupos: En el Grupo 1 hay 4 individuos y en el Grupo 2 hay 8
individuos. Los 6 individuos se seleccionan así: Se
seleccionan al azar 3 individuos del Grupo 1: la probabilidad
de elegir cualquier individuo de este grupo es ¾, y se eligen
al azar 3 individuos del Grupo 2: la probabilidad de elegir a
cualquier individuo de este grupo es 3/8.
El diseño es probabilístico, pero no equiprobabilistico
Muestras No Probabilísticas:
 Selección realizada sin ningún método.

No se recomienda en ningún caso.
Muestreo semiprobabilístico.

Se mantiene el rigor probabilístico hasta cierto punto y
de allí en adelante se abandona. Solo se recomienda
cuando no hay nada más que hacer y tomando muchas
precauciones para no generar sesgos.
 Muestreo por cuotas.
Forzar que la muestra contenga el mismo porcentaje de individuos con
ciertas características prefijadas que la población entera.

Por ejemplo: Se le asigna a cada encuestador una manzana en la cual
debe hacer 10 entrevistas: Así:

• 5 hombres y 5 mujeres.
• Uno profesional.
• Dos mayores de 50 años 6 deben estar entre los 25 y los 49
años y el resto entre 15 y 24 años.

Puede conducir a importantes sesgos debido a que la selección final del
encuestado se deja al juicio subjetivo del entrevistador.
Selección según criterio de autoridad.
En ocasiones, con poblaciones y muestras pequeñas se prefieren a
los estrictamente probabilísticos.
Representatividad:
La muestra exhibe internamente el mismo grado de
diversidad que la población
Azar: (Definición) Suceso imprevisible por ser fruto de
una coincidencia fortuita de series causales diversas.
Según algunas escuelas, llamamos azar sólo a
nuestra ignorancia de todos los factores causales que
inciden en un fenómeno.
Porque recurrimos al azar para escoger las muestra
con las cuales trabajar en el muestreo probabilístico?
Para establecer criterios que nos permitan medir el
grado de precisión con el cual se hacen las
estimaciones.
Para eliminar toda subjetividad en la elección de las
unidades de análisis.
Garantiza el azar la representatividad?
MARCO Y LUCY (Librería en R TeachingSampling)
Base de datos de una investigación gubernamental que
quiere responder al objetivo de medir el crecimiento
económico en el sector industrial. (Tomado de Gutiérrez, 2009)

Supongamos que para completar el objetivo se ha propuesto
desarrollar una encuesta a las empresas que hacen parte del
sector industrial para conocer el comportamiento en términos
de constructores financieros, sociales y fiscales.

Cuando termine el proceso de medición, se pueden calcular
estimaciones y construir indicadores que permitan inferir
sobre el crecimiento del sector en le periodo de interés.
• Población objetivo: empresas con actividades comerciales
en el sector industrial.

• Proceso de medición: se hará con base a las
características de interés (ingresos del último año, impuestos
declarados en el último año, número de empleados)

• Preguntas de interés:

1. En el último año fiscal, ¿a cuanto ascendieron los ingresos en
esta empresa?
2. En el último año fiscal, ¿a cuánto ascendieron los impuestos
declarados por esta empresa?
3. Actualmente, ¿cuántos empleados laboran para esta empresa?
4. Esta empresa acostumbra a enviar periódicamente material
publicitario por correo electrónico a sus clientes o potenciales
clientes?
Big Medium Small
0
5
0
0
1
0
0
0
1
5
0
0
2
0
0
0
2
5
0
0
Boxplot de Ingreso
Big Medium Small
0
5
0
1
0
0
1
5
0
2
0
0
2
5
0
Boxplot de empleados
Histograma de Ingreso
Income
F
r
e
q
u
e
n
c
y
0 500 1000 1500 2000 2500
0
2
0
0
4
0
0
6
0
0
Big
Medium
Small
Pie de Nivel
Income
0 50 100 200
0
5
0
0
1
5
0
0
2
5
0
0
0
5
0
1
0
0
2
0
0
Employees
0 500 1500 2500 0 50 150 250
0
5
0
1
5
0
2
5
0
Taxes



Parámetros Poblacionales
y
Estimación Puntual






Parámetro Poblacional Estimador Puntual
Si N es el tamaño de la población
constituida por las observaciones

La Media Poblacional es:


Si n es el tamaño de la muestra
constituida por las observaciones

La Media Muestral es:


El Total Poblacional El Total Poblacional Estimado es:

Si individuos de la población
tienen una característica de interés A,
la Proporción Poblacional con la
Característica A es:


Si en la muestra resultan individuos
con dicha característica la Proporción
Muestral es:

N
X X X ,... ,
2 1
¿
=
=
N
i
i
X
N
X
1
1
n
x x x ,... ,
2 1
¿
=
=
n
i
i
x
n
x
1
1
X N X
N
N X T
N
i
i
N
i
i
= = =
¿ ¿
= = 1 1
1
x N T =
ˆ
A
N
N
N
P
A
=
A
n
n
n
p
A
= ˆ
Estimación por Intervalos

e

interpretación

Pob


Error de
Muestreo


Media
Estimada
Intervalo de Confianza
del 95 %
Limite
Inferior
Limite
Superior
X 0.9 149.68 148.78 150.58
Y 3.8 155.88 152.08 159.69
Límite Inferior = Estimación Puntual - Error de Muestreo

Límite Superior = Estimación Puntual + Error de Muestreo
Ejemplo:
Tamaño de Muestra: 100
Por ejemplo un Intervalo de Confianza del 95 % quiere
decir que si el investigador repitiera el experimento 100
veces en aproximadamente 95 ocasiones el Intervalo
incluirá el verdadero valor del parámetro.

Confiabilidad
Es el grado de confianza con el cual el investigador
puede asegurar que el verdadero valor del parámetro
se encuentra en el intervalo calculado. Se da en
porcentaje generalmente del 90, 95, 98 por ciento.
Para la determinación del Tamaño de la Muestra debemos considerar que
intervienen las siguientes variables:
Tamaño de la Muestra y Errores de Muestreo.
1º Error de Muestreo ( )
2º Tamaño de la Población ( )
3º Varianza Poblacional ( )
N
S
Adicionalmente habrá que tener en cuenta para decidir el tamaño muestral lo
siguiente:
1º Tipo de Muestreo utilizado
2º El nivel de confianza
• El nivel de confianza óptimo
es de 95%. Esto es que
podríamos equivocarnos un 5%
k
Para el cálculo de errores de muestro es necesario diferenciar entre estimaciones
medias y totales o de proporciones.
1º Error de Muestreo para Medias y Totales
2º Error de Muestreo para Proporciones
n
q p
1 N
n N
2 k
÷
÷
÷
=
N
= Tamaño de la población
= Tamaño de la muestra
= Proporción muestral
= (1- p )
n
p
q
n
S
N
n N
k
´ ÷
= 2
= Tamaño de la población
= Tamaño de la muestra
= Cuasi varianza muestral
n
´ S
N
Un buen estimador debe se insesgado, eficiente
y consistente.
La media de la muestra es un buen estimador
para pequeñas muestras.
Para muestras grandes y en virtud del teorema
del límite central, la distribución de las muestras
distintas seguirá una distribución normal.
Sigue los mismos criterios de estimación que en
el caso de medias y totales.
Si el cuestionario contiene en su globalidad
variables de escala nominal la fórmula más
adecuada para el cálculo de los errores de
muestreo es mediante proporciones. Éste es el
método que utilizó la UAM para estimar los
errores de muestreo de la Encuesta de
Inmigración.
Validez
Es el grado en que un instrumento de medida
mide aquello que realmente pretende medir o
sirve para el propósito para el que ha sido
construido. (Hernández Sampieri)

Grado en que un instrumento realmente mide
los que el investigador pretende. (Thorndike)
Prueba piloto

Es una muestra que antecede a la definitiva, cuya selección
se hace de acuerdo a los lineamientos que marca el diseño
de muestreo que se utilizará en el estudio definitivamente.

* Se tiene una primera aproximación del tiempo y costos

* Estimar parámetros involucrados en la determinación de la
muestra (media-varianza)

* Probar factibilidad (métodos de selección de unidades
muestrales, medición de variables, entre otros

* Probar factibilidad del cuestionario
Tamaño del Error de Muestreo
Para comprender la importancia de este concepto
miremos el siguiente raciocinio:
Supóngase que un Candidato cree contar con el 70 %
de opinión favorable.
En un Sondeo de opinión obtuvo que 75 % de los
encuestados están por dicho candidato.

Se puede afirmar que se supera la creencia original?
 Si el Error Muestral es del 8 % esto significa
que el verdadero valor promedio de favorabilidad
esta entre el 67 % y el 83 %.
 Es decir, la favorabilidad en el momento del
nuevo sondeo podría ser incluso inferior a la
primera medición.

 En este caso el intervalo de confianza para la
favorabilidad promedio en el momento del sondeo, estaría
entre el 71% y el 79 %, intervalo que esta por encima del
70 % (creencia original).
 En otras palabras el sondeo solo mostraría superación
de la creencia original, para una estimación puntual del
75 %, si el error muestral fuera inferior al 5 % (digamos,
por ejemplo, 4 %).
 El nuevo sondeo, para ser concluyentemente
favorable, debería tener un error muestral aun más
pequeño digamos del 2 %. Así, el nuevo intervalo del
73 % al 77 % al no interceptar al anterior apoyaría la
conclusión de que la favorabilidad actual es mayor que
la original.
Pero hay algo más:
 Si la creencia original se estableció también por un
procedimiento de muestreo y lo que obtuvo fue un
Intervalo de Confianza de 68 % al 72 %.
Distribuciones

de

muestreo
Cada una de las muestras proporcionan un valor estimado del parámetro el cuál
varía de muestra a muestra. Esta variabilidad proviene de un ERROR DE MUESTREO,
debido al azar, es decir, hay diferencias entre cada muestra y la población y entre
diversas muestras, debido únicamente a características de los individuos
seleccionados para formar las muestras
DISTRIBUCIONES MUESTRALES DE X A PARTIR DE
POBLACIONES QUE SIGUEN UNA DISTRIBUCIÓN
NORMAL
Si se obtiene una muestra aleatoria n observaciones de una
población que sigue aprox una distribución normal con media
mu y desviación estándar sigma, la distribución de muestreo
de x barra será normal y tendrá:



DISTRIBUCIONES MUESTRALES DE X A PARTIR DE
POBLACIONES QUE NO SIGUEN UNA DISTRIBUCIÓN
NORMAL
RELACIÓN ENTRE EL TAMAÑO DE LA MUESTRA Y EL
ERROR ESTANDAR


Cuestionario
y
la
encuesta
LA ENCUESTA Y EL CUESTIONARIO
TAREAS BÁSICAS PARA ORGANIZAR UNA
ENCUESTA

1. Redactar un cuestionario
2. Confeccionar un plan de tabulación y análisis
3. Construir un marco muestral adecuado
4. Diseñar la muestra
5. Aplicar el cuestionario a las unidades elegidas
6. Procesar la información
7. Realizar inferencias
Diagrama de organización y desarrollo de una
encuesta por muestreo
Errores ajenos al muestreo
Pueden producirse por:


1. Deficiencias en aspectos como el diseño del cuestionario
2. La estructura o redacción de las preguntas
3. En el registro de la información


Varios experimentos ponen en evidencia que el error
inducido por preguntas deficientemente formuladas pueden
superar los 20 ó 30 puntos de porcentaje
El cuestionario
1. Instrumento básico de recolección de información:

 Preguntas (subjetividad: opiniones, Objetividad)

 Mediciones
2 Formas de Aplicación
 A través de un encuestador.

 Cuestionario auto administrados

 Por teléfono

 Procurando respuestas por correo

 Encuesta asistida por computador usando el
Internet.
3. Ubicación de las preguntas
 El orden de las preguntas afectará la calidad de
información de la encuesta?

 Si se está tratando un tema delicados, cuál debe ser
la estrategia para ubicar las preguntas?

Lo que se recomienda es que no deben ubicarse al
principio del cuestionario. Todas las preguntas
“conflictivas” deberían dejarse para el final.


• Las opciones presentadas deben ser exhaustivas

• Cuando las opciones son valorativas, el número de
opciones que se presente al encuestado influye en
las respuestas.
 Abiertas
• Al dejar en libertad al encuestado para que
redacte un párrafo como respuesta, se debe prever
el tratamiento que se le dará.

• Son útiles en estudios exploratorios
4. Tipos de Preguntas
Cerradas
4.1 Abiertas, cerradas


¿Cómo considera usted que es su estado de salud actualmente?

Bueno________ Malo__________
¿Cómo considera usted que es su estado de salud actualmente?

Bueno________ Aceptable ___________ Malo__________


¿Cómo considera usted que es su estado de salud actualmente?

Óptimo______ Muy bueno ______ Bueno ______ Regular _______ Malo______


Ejemplos: (Preguntas cerradas)
Ejemplos: (Preguntas abiertas)
¿Cuál es su opinión acerca del grado de eficiencia de la gestión gubernamental en
materia de sanidad ambiental?

________________________________________________________________________


Indique los métodos con los cuáles usted practica el sexo seguro:
________________________________________________________________________


 Cuantitativas
• La respuesta es un número que puede ser el resultado de
una pregunta sobre aspectos objetivos o subjetivos.

• O el resultado de una medición.
 Cualitativas
• La respuesta es una categoría.
• En la mayoría de los casos las categorías posibles (una de
las cuales debe ser escogida por el encuestado) son
aportadas en forma de pregunta cerrada
4.2 Cuantitativas, cualitativas
4.3 De ordenación
• Responden a preguntas que se enuncian como : “Ponga en orden de
importancia …” dando una lista de opciones

• En orden de importancia, de más a menos, escriba los nombres de los tres
profesores que más influyeron, positivamente, en su formación durante la
carrera.
Ponga en orden de importancia para su vida numerándolos del más importante (1) al
menos importante (5):

_______trabajo _______ relaciones de amistad
_______ relaciones de pareja _______ salud
_______dinero
¿En qué orden cronológico deben a su juicio introducirse los alimentos
siguientes a los niños durante su primer año de vida.
______ zumo de frutas _______ cereales
______ pescados
______ carne de res
4.4 De escala
 Escala de analogía visual
Nada
Mucho
Segmento de recta de 10 cm aprox. El encuestado debe poner
una marca sobre la recta donde considere más adecuado su
situación
¿Cuán fuerte han sido los ataques asmáticos que ha sufrido en la última semana?

No tuve ataques De extrema
intensidad
 Escala de Likert
• Se usa para valorar el grado en que un individuo comparte
cierta línea de pensamiento o teoría.
• Se aplica a una secuencia de afirmaciones (alrededor de 15)
acerca de un determinado punto de vista.
• Para cada afirmación la persona encuestada debe elegir
una de entre varias alternativas (usualmente entre 5 y 9) que
expresan diversos grados de adhesión a dicha posición.
• Para evitar que el encuestado responda sin pensar, en un
cierto sentido, se construyen unas preguntas en forma
positiva y otras en forma negativa.
Qué tan de acuerdo está con las siguientes afirmaciones
Nº ÍTEMS completo
acuerdo
acuerdo Mediano
acuerdo
Desa-
cuerdo
Completo
desacuerdo
1 Su esposo puede cambiar y dejar de
maltratarla
1 2 3 4 5
2 Cuando su esposo la maltrata lo hace sin
querer hacerlo
1 2 3 4 5
3 Siente que su deber es conservar su familia
unida a pesar del maltrato
1 2 3 4 5
4 Para usted es motivo de orgullo mantener
el matrimonio a pesar del maltrato que
recibe
1 2 3 4 5
5 Tiene la esperanza de que su esposo
cambie y deje de maltratarla
1 2 3 4 5
6 Piensa que es indispensable que su esposo
permanezca en casa para criar bien a sus
hijos
1 2 3 4 5
ESCALA PARA IDENTIFICAR LA ETAPA DEL PROCESO DE CAMBIO EN QUE
SE ENCUENTRAN LAS MUJERES EN UNA RELACIÓN CONYUGAL VIOLENTA
Índice de consistencia interna
Si su valor es cercano a la unidad se trata de un instrumento
fiable que hace mediciones estables y consistentes.

Si su valor está por debajo de 0.8 el instrumento que se está
evaluando presenta una variabilidad heterogénea en sus items y
por tanto llevará a conclusiones equivocadas.

Existen dos formas de calcularlo:
Requisitos para poder calcular la fiabilidad de un test:

1. Estar formado por un conjunto de items que se combinan aditivamente para
hallar una puntuación global (esto es, las puntuaciones se suman y dan un
total que es el que se interpreta.

2. Todos los items miden la característica deseada en la misma dirección. Es
decir, los items de cada una de las escalas tienen el mismo sentido de
respuesta. Este último no es necesario para el método de la varianza de los
items
Algunos comentarios sobre:
1. Recolección de la información.
Necesidad de establecer controles para garantizar que la
información que se recoge sea correcta.
2. Registro y captura de datos
Uso de Hojas de Excel, Access, o los módulos específicos con
que cuentan los distintos paquetes estadísticos.

Conocer, o aprender a lidiar con los problemas de importación
y exportación de datos.
3. Procesamiento y análisis de datos
Uso de hojas de Excel (cálculos manuales)
Paquetes estadísticos:

 Epi info, Modulo “Complex Sample”

 SPSS , Modulo “Complex Sample” (versión 13 en adelante)

 SAS, Procedimientos SurveyMeans, SurveyFreq, etc.

 R-project, por la librería “TeachingSampling”
Encuesta sobre Hábitos de Consumo de los Inmigrantes en la
Comunidad de Madrid
Datos Técnicos de la Encuesta

Tabulación y Análisis Primario de Datos con
SPSS
Ficha Técnica de la Encuesta sobre Hábitos de Consumo de los Inmigrantes en la
Comunidad de Madrid
• Entidades que
Participan
Consejería de Inmigración de la Comunidad de Madrid e Instituto de
Predicción Económica L.R. Klein de la UAM
• Ámbito
• Universo
Personas mayores de 18 años con nacionalidad ecuatoriana, colombiana,
peruana, boliviana, rumana, marroquí y resto (inmigración económica).
• Muestra 1545 encuestas. (46 encuestadores)
Amplia variedad de zonas de trabajo de campo: calle, parques, locutorios,
metro, asociaciones, tren de cercanías….
• Distribución de
la Muestra
12 municipios de la Comunidad y 19 distrititos del municipio de Madrid con
mayor concentración de inmigrantes.
• Aplicación de la
Encuesta
15 – 29 Octubre de 2007.
• Error de
Muestro
Error de muestreo del 2,55% para el conjunto y de entre el10% para los
resultados por nacionalidad.
• Datos Primarios
179 variables creadas y analizadas.
Esquema General de Trabajo de la Encuesta sobre Hábitos de Consumo de los
Inmigrantes en la Comunidad de Madrid
DE TERMINACIÓN
OBJETIVOS:
Consumo e Inversión de los
Inmigrantes

Análisis de la Población y
del Entorno
Economía de la Comunidad
de Madrid
Inmigración y Economía en
la Comunidad de Madrid
Importancia del Consumo y
de la Inversión de la
Inmigración
Determinación de los
Métodos y Errores de
Muestreo

Diseño del Cuestionario

Cuestionario Definitivo

Trabajo de Campo
ANÁLISIS DE RESULTADOS
1º Hábitos de consumo
2º Expectativas de futuro
3º Renta, Ahorro y Remesas
4º Inversión
Recomendaciones generales para la
construcción de un cuestionario (Según Silva, 2000)



1. Comprobar que las preguntas que se realizan se deriven
exclusivamente de las que se haya formulado el
investigador.

Es necesario que haya consistencia entre los propósitos del estudio y el
contenido del cuestionario


2. Conformar cuestionarios tan breves como sea posible.

Los cuestionarios muy largos producen fatiga y desestimulo en el sujeto
interrogado.
3. Conseguir que las preguntas sean autoexplicativas.

Que no se requiera de instructivos para los encuestadores, y con mayor
razón para los entrevistados para explicaciones de preguntas.


4. Reducir al máximo las preguntas que exijan remomeración
a largo plazo.

Cuando se pide información sobre acontecimientos muy lejanos, el sesgo
aumenta, pues el interrogado puede no recordar lo que se pide y
responder, si llega a hacerlo, de modo tentativo y ajeno a todo rigor.


5. Evitar preguntas abiertas salvo situaciones excepcionales

En ocasiones es necesario cuando se quiere una descripción personal
que obliga a dar la palabra al encuestado. Por ejemplo, cuando se
pregunta sobre la comida favorita, es imposible anticipar todas las
posibles respuestas.

Según Shuman y Presser (1981), han demostrado que las preguntas
abiertas pueden generar problemas de fiabilidad y validez.

Uno de los métodos sugeridos para cerrar la pregunta es aplicar una
prueba con preguntas abiertas similares y utilizar las respuestas que se
presenten con más frecuencias como opciones de respuesta para
conformar definitivamente la pregunta cerrada (Scheafer y Mendehall,
1996)

¿Se deberían cerrar las preguntas?
Por ejemplo:

¿Cuántos cigarrillos fuma como promedio diariamente?

_______________

¿Cuántos cigarrillos fuma como promedio diariamente?

_______ Ninguno
_______ de 1 a 20
_______ de 21 a 40
_______ más de 40
6. Emplear la técnica de retro traducción siempre que la
encuesta original haya sido redactada en otro idioma

Retro traducción significa traducir nuevamente al idioma original el
texto que se obtuvo como resultado de la primera traducción. Se
espera que no difiera significativamente del texto original.


7. Tener en cuenta que el interrogado suele no adoptar una
posición crítica ante la redacción o la forma de la
pregunta.


Pregunta formulada a 189 estudiantes de la carrera de medicina de la
Habana (Silva y Macías, 2000).

En su opinión, ¿es la informática una tecnología completamente
inteligente respecto del futuro?

Si______ No _______

8. Reparar en que el interrogado tiende a preocuparse más
por la imagen que da por la exactitud de la información
que comunica


¿Comparte usted los argumentos existentes para fundamentar que se
otorgue el premio Nobel al creador de la vacuna antimeningocóccica?

Si_______ No ________ No conozco el tema _____











Reacción de los encuestados Número Porcentaje
Comparten los argumentos 68 36,0
No comparten los argumentos 15 7,9
Reconocen desconocimiento 106 56,1
Total 189 100,0
Dependiendo del tema (cuando son delicados), es conveniente
contextualizar con el fin de suavizar la situación:

Su consumo de bebidas alcohólicas por lo general es:

Nulo_____ Escaso______ Moderado _______ Alto_____ Muy alto ____

Se podrían hacer preguntas de este tipo:

a). En general, Ud. Diría que Ud. Ingiere bebidas alcohólicas:

Menos que sus amigos _______
Aproximadamente igual que ellos ______
Más que sus amigos _______

b). Piense en aquel de sus amigos que más alcohol consume. ¿Cuántos
tragos Ud. Cree que él consume a diario como promedio?
______

c). ¿Y cuántos consume Ud. Aquellos días en que lo hace?
¿Aproximadamente cuántos tragos?
_________
9. Valorar la conveniencia de usar una pregunta “de filtro”
antes que indagar directamente sobre determinada
conducta u opinión


¿Reciben los niños de este centro de atención estomatológica
sistemáticamente?

Preventiva _______
Curativa _________
Ambas __________
No la reciben _______

Los niños de este centro reciben atención estomatológica sistemática?
Si_______ No ______

¿Qué tipo de atención reciben?
Preventiva Si_____ No____
Curativa Si_____ No____




Experimento en estudiantes universitarios (Silva y Macías, 2000).


Grupo A: Para el estudio independiente, ¿utiliza usted la biblioteca?
Si______ No ________ (pasar a la próxima pregunta)


¿Cuántas veces hace uso de ella a lo largo de un mes?




Grupo B: Para el estudio independiente, ¿Cuántas veces hace uso de la
biblioteca a lo largo de un mes?

_______ nunca
_______ una
_______ dos o tres
_______ cuatro o cinco
_______ más de cinco

Número de
veces que usa
la biblioteca
Grupo A Grupo B
No % No %
Nunca 51 54,3 15 15,8
Una 5 5,3 13 13,7
Dos o tres 13 13,8 34 35,8
Cuatro o cinco 10 10,6 19 20
Más de cinco 15 16 14 14,7
Influyó notablemente la pregunta de filtro, para que los
encuestados reconocieran que no usaban la biblioteca para el
estudio personal.
10. Tener en cuenta que una pregunta que procure obtener
una opinión, si se proyecta sobre otra persona, puede
conseguir más veracidad que cuando se reclama de
manera directa












Grupo A: Un compañero suyo se ve involucrado en un fraude académico. ¿Cuál es su
opinión acerca de la medida que debe tomarse? Estaría a favor de:

_____Sancionarlo pero permitirle que continúe la carrera
_____Expulsarlo de la carrera
_____ Hacerle sólo una advertencia

Grupo B: Si usted se ve involucrado en un fraude académico, la medida adecuada
que procede aplicarle en su opinión sería:

_____ Sancionarlo pero permitirle que continúe la carrera
_____ Expulsarlo de la carrera
_____ Hacerle sólo una advertencia
Opciones Grupo A Grupo B
No % No %
Sancionarlo pero
permitirle que continúe
la carerra
65 69,1 58 62,4
Expulsarlo de la carrera 14 14,9 9 9,7
Hacerle sólo una
advertencia
15 16,0 26 27,9
Total 94 100 93 100
La opción de perdonar al alumno se elige casi dos veces más
para si mismo que para otros (16% frente a 28%)

Ausencia
de
respuesta
La mejor manera de enfrentar la ausencia de
respuesta es prevenirla.

Ante la ausencia de respuesta es posible,
modelar los datos faltantes, pero predecir esos
datos nunca es tan bueno como observarlos de
primera mano. Las personas que no responden
con frecuencia difieren de manera crucial de
las personas que si lo hacen.
Tipos de ausencia de respuesta

No respuesta por unidad (falta toda la unidad de
observación)

No respuesta por elemento (falta al menos un individuo).

Formas de prevenir la ausencia de respuesta:

 Prevención. Diseño de la encuesta de modo que la
ausencia de respuesta sea pequeña.

 Extraer una submuestra representativa de quienes no
responden; y utilizarla para establecer inferencias acerca
de quienes no contestaron.

 Utilizar modelos para predecir u observar como se
comportan los valores de quienes no responden.
Factores que afectan la ausencia de respuesta
FORMAS DE ENCARAR LA AUSENCIA DE RESPUESTA



Técnicas de imputación

• De la media
Sustituir cada valor faltante por la media aritmética

• Por regresión
Si el valor a imputarse es un número (edad, salario, hemoglobina), usar
regresión múltiple
Si el valor es categórico (grupo religioso, status laboral), usar regresión
logística

• Cold-deck
Tomar un sujeto parecido al que tiene valores perdidos y atribuírselo

• Múltiple
Cada valor faltante se asigna m(>=2) veces distintas.
¿QUÉ ES UNA TASA DE RESPUESTA
ACEPTABLE?
Con frecuencia el investigador dirá: “espero una tasa de
respuesta de 60% en mi encuesta ¿Es esto aceptable? ¿Me
dará la a encuesta resultados validos?”

La repuesta a estas preguntas depende de la naturaleza de la
no respuesta: si los que no responden son completamente
aleatorios, entonces podemos ignorar por completo la no
respuesta y utilizar a quienes contestan como muestra
representativa de la población. Si quienes no contestan tienden
a diferir, de quienes si, entonces los sesgos de los resultados al
usar solo a quienes si respondieron hará que toda la encuesta
pierda su valor.
Se debe tomar en cuenta que las tasa de respuesta se pueden manipular al
definirlas de otra manera, y se acumulan resultados distintos para las tasa de
respuesta, según la definición utilizada:
















Obsérvese que una “tasa de respuesta“ calculada con la última formula será
mucho mayor que la calculada mediante la primer fórmula pues el denominador
es menor.
muestra la en unidades de cantidad
concluidas s entrevista de cantidad
rechazos s inelegible unidades s contactada unidades
concluidas s entrevista
÷ ÷
s inelegible unidades s contactada unidades
concluidas s entrevista
÷
contactada unidades
s inelegible unidades concluidas s entrevista +
s contactada unidades de cantidad
concluidas s entrevista de cantidad
Por lo anterior se sugiere que se reporten varias tasas de respuesta para una
encuesta:


Tasa fuera de alcance: el cociente del número de unidades fuera de alcance
entre la cantidad de unidades al alcance y no respuesta.


Tasa de no contactos: el cociente del número de no contactos y las
unidades no resueltas entre las cantidad de unidades al alcance y no
resueltas.


Tasa de rechazo: el cociente del número de rechazos entre la cantidad de
unidades al alcance.


Tasa de no respuesta: el cociente del número de quienes no responden y
las unidades no resueltas entre la cantidad de unidades al alcance y no
resueltas.
Las distintas medidas de no respuesta pueden ser adecuadas para distintas
encuestas y no intentamos dar una definición de tasa de respuesta que se ajuste
a todos los casos. Sin embargo, las cantidades utilizadas para calcular la tasa de
respuesta deben quedar definidas en cada encuesta, para lo que se recomienda
lo siguiente:


1. Los equipos de la encuesta deben calcularla de una manera uniforme con
respecto del tiempo y documentar los componentes en cada edición de una
encuesta.


2. Los componentes de la tasa de respuesta deben publicarse en los informes de
la encuesta; los lectores pueden recibir las definiciones de las tasas utilizadas,
incluyendo las cifras reales, así como comentarios sobre la importancia de la
tasa de respuesta para la calidad de los datos de la encuesta.


3. Un poco de investigación acerca de la no respuesta debe tener sus
dividendos, se debe de apoyar como una forma de mejorar la eficacia de las
operaciones de recolección de datos.


CONSENTIMIENTO INFORMADO
El consentimiento informado es el procedimiento mediante el cual se
garantiza que el sujeto ha expresado voluntariamente su intención de
participar en la investigación, después de haber comprendido la información
que se le ha dado, acerca de los objetivos del estudio, los beneficios, las
molestias, los posibles riesgos y las alternativas, sus derechos y
responsabilidades.


El sujeto participante expresará su consentimiento por escrito o, en su
defecto, de forma oral ante un testigo independiente del equipo de
investigadores, que lo declarará por escrito bajo su responsabilidad.


Debe contener el objetivo, los posibles riesgos y beneficios, procedimientos,
alternativas y posibilidades de retiro, además del número de teléfono del
investigador y del encuestado para contactarlos.


Los proyectos de investigación de las Ciencias Sociales relacionados
con la salud, también requieren del consentimiento informado oral o
escrito de los participantes. En estos casos, debe informarse al
participante sobre los objetivos del estudio, la metodología por seguir,
las técnicas e instrumentos que se utilizarán para registrar la
información (grabadora, fotografía, vídeo entre otros), la forma en que la
información recolectada será resguardada, la utilización de los datos y
la garantía del anonimato de los participantes, durante y después del
trabajo de campo.


En algunas investigaciones sociales no se exige el consentimiento
informado, entre otras razones, porque al notificar el propósito del
estudio los participantes podrían cambiar su comportamiento.
Igualmente, en algunos estudios epidemiológicos, podría existir una
voluntad comunal manifiesta de participar en el estudio, por ejemplo,
para el control de brotes o epidemias, sin embargo, siempre debe
respetarse el derecho individual a no participar

UNIVERSIDAD DE SANTANDER
Maestria en Gestión Pública y Gobierno
Estadistica aplicada a las ciencias sociales
Regresión lineal simple
Correlación simple (pearson)
Profesor: MSc. Miguel Pérez

REGRESIÓN LINEAL SIMPLE
Es un modelo matemático para predecir el efecto de
una variable sobre otra, ambas cuantitativas.
Una variable es la dependiente y otra la
independiente
Se grafica con el diagrama de dispersión.
Dice cómo es la relación entre las dos variables.
El análisis consiste en encontrar la “mejor” línea
recta de esos puntos.

SUPUESTOS
 La variable X o independiente o predictora (está bajo el control
del investigador), la variable Y es la variable dependiente o
predicha.

 Los valores de X son fijos (seleccionados previamente por el
investigador).

 Para cada X, existe un conjunto de valores de Y, que deben
seguir una distribución normal (es decir, los valores de Y deben
ser normales), para aplicar con validez los procedimientos de
inferencia y/o estimación.

 Todas las varianzas de las subpoblaciones de Y son iguales.
EL MODELO DE REGRESIÓN LINEAL
 La relación se puede representar gráficamente
mediante una línea recta.
Se supone que el error sigue una distribución
normal con media cero y varianza sigma
2
.
 El modelo de regresión completo es

x y | o + =
Y es el valor de la variable dependiente
A o alfa es el intercepto, donde cruza el eje Y
B o beta es la pendiente o inclinación
DIAGRAMA DE DISPERSIÓN
DIAGRAMA DE DISPERSIÓN Y RECTA
PRUEBA DE HIPÓTESIS
 Prueba de Ho: beta=0, mediante la estadística
F
 Si beta es igual a cero, se concluye que:
La relación es lineal y de fuerza para justificar
el uso de ecuaciones de regresión simple para
predecir y estimar Y para valores dados de X.

 El modelo lineal proporciona un buen ajuste
para los datos, pero un modelo curvilíneo
podría proporcionar un mejor ajuste.
ESTUDIO DE LA SIGNIFICANCIA
 Tiene dos grandes partes:
El análisis de varianza, que dice si el modelo es
significativo como un todo
El estudio de los coeficientes individuales por
medio de una prueba t. La prueba t permite probar
hipótesis y construir intervalos de confianza para
los coeficientes del modelo
EJEMPLO: REGRESIÓN LINEAL SIMPLE
EJEMPLO: REGRESIÓN LINEAL SIMPLE
EJEMPLO: REGRESIÓN LINEAL SIMPLE
EJEMPLO: REGRESIÓN LINEAL SIMPLE
Temperatura media anual y tasa de mortalidad por
100,000 habitantes
y = -0,0592x + 4,6146
R
2
= 0,8395
-0,5
0
0,5
1
1,5
2
2,5
0 20 40 60 80 100
Temperatura
T
a
s
a

d
e

m
o
r
t
a
l
i
d
a
d

p
o
r

1
0
0
,
0
0
0
CORRELACIÓN SIMPLE
CORRELACIÓN SIMPLE
 Es una extensión de la regresión simple.
 Mide la calidad del ajuste de una línea.
 Dice cuánto se relacionan las dos
variables
 r es el coeficiente de correlación
 r
2
es el coeficiente de determinación


total iación
licada in iación
r
var
exp var
2
=
PRUEBA DE HIPÓTESIS
Ho: r=0, mediante la estadística F

 Si r es igual a cero, se concluye que no existe
correlación lineal entre las variables, pero
puede ser no lineal (exponencial, curva, etc.)
COEFICIENTE R DE PEARSON
Puede variar de –1 a +1
 -1 correlación negativa perfecta
 -0.9 correlación negativa muy fuerte
 -0.75 correlación negativa considerable
 -0.5 correlación negativa media
 -0.1 correlación negativa débil
 0.0 no existe correlación entre las variables
Los programas reportan el valor de p del coeficiente para
evaluar la significancia de la correlación
ASOCIACIÓN ENTRE X Y Y
EJEMPLO: REGRESIÓN LINEAL SIMPLE
Temperatura media anual y tasa de mortalidad por
100,000 habitantes
y = -0,0592x + 4,6146
R
2
= 0,8395
-0,5
0
0,5
1
1,5
2
2,5
0 20 40 60 80 100
Temperatura
T
a
s
a

d
e

m
o
r
t
a
l
i
d
a
d

p
o
r

1
0
0
,
0
0
0