You are on page 1of 48

Universidad Alberto Hurtado

Trabajo Social
Estadstica
Definiciones, variables y presentacin de datos

Paulina Gajardo Serrano

Qu es la estadstica?

La estadstica consiste en el conjunto de


tcnicas y herramientas que permiten
recolectar, organizar y analizar informacin
para transformarla en un insumo til para el
proceso de toma de decisiones.
Uso permanente de herramientas
matemticas, pero
La consideraremos como una rama distinta de la
ciencia matemtica debido a su carcter
eminentemente concreto y aplicado

Dnde SE APLICA?

En todas las ramas del quehacer cientfico y


profesional donde se tomen decisiones:

Medicina: Epidemiologa, y experimentacin


Ingeniera: Hidrulica,
Ciencias Sociales: Demografa, sociologa,
experimentos sociales?
Economa: Econometra
Ciencia Poltica: estudios de opinin
Ciencias de la Administracin: Gestin de
organizaciones, sistemas de gestin de calidad,
evaluacin de proyectos
Gestin Pblica: Gestin de organizaciones, diseo y
evaluacin de polticas pblicas

TIPOS DE ESTADSTICA

ESTADSTICA DESCRIPTIVA:
Consiste de aquellos mtodos y herramientas
diseadas para permitir y/o facilitar la
caracterizacin y presentacin de un conjunto de
datos en una poblacin, con el fin de describir
varias de sus caractersticas

ESTADSTICA INFERENCIAL:
Conjunto de tcnicas y procedimientos
estadsticos que permiten hacer anlisis de
variables en poblaciones de inters a partir de
una muestra representativa de observaciones
extrada de dicha poblacin

POBLACION

Una Poblacin consiste de todos los


elementos u observaciones sobre las que se
desea realizar un anlisis
Algunos objetos de anlisis y poblaciones
relevantes:
Intencin de voto en las prximas Elecciones
Municipales:

Todos los ciudadanos Chilenos Mayores de 18 aos.

Trabajo infantil en Chile:

Personas menores de 15 aos

El aborto en Chile:

Mujeres de cualquier edad

MUESTRA
Subconjunto del total de elementos u observaciones
que componen la poblacin que se obtiene para
hacer anlisis de una o varias variables de la poblacin
de la que fue extrada.
Una muestra no tiene un valor en s misma sino que
en la medida en que permite analizar adecuadamente
variables de la poblacin de la cual fue extrada
Para que cumpla con el objetivo para el que fue
obtenida, se dice que las muestras deben ser
representativas
Muestras no representativas pueden inducir a
conclusiones errneas en los anlisis de poblaciones

PARMETRO

Es una medida de resumen de una caracterstica de la


poblacin que es objeto de anlisis
Intencin de voto en las prximas Elecciones Municipales:
Proporcin de los electores que vota por cada coalicin, partido
y/o candidato

Trabajo infantil en Chile:

Cantidad (y/o proporcin) de menores de 15 aos que


desarrollan actividades que les impiden desarrollar su proceso
educativo con normalidad
Cantidad de horas semanales que trabajan los menores de edad

El aborto en Chile:

Cantidad (y/o proporcin) de mujeres de cualquier edad


embarazadas en las cuales ya sea por razones inducidas o
espontneas el embarazo se interrumpe prematuramente
Edad promedio de las madres que abortan

ESTADSTICO
Es una medida de resumen de una
caracterstica de la poblacin que es
objeto de anlisis pero obtenida a partir
de una muestra de dicha poblacin
El estadstico no tiene valor per se
Permite hacer inferencia del parmetro
poblacional en anlisis

Link entre estadistica descriptiva e


inferencial
MUESTRA

Estadstico

POBLACION

Proceso deductivo

Parmetro

FUENTES DE DATOS EN
ESTADISTICA

FUENTES PRIMARIAS:

Son aquellas en las cuales la informacin se obtiene


directamente en el proceso de investigacin:
Encuestas
Experimentos
Observacin participante (metodologa cualitativa)

FUENTES SECUNDARIAS

Son aquellas fuentes de informacin creadas con


diversos fines pero que no son tomadas directamente
por el investigador pero son tiles para su trabajo:
Bases de datos de publicacin peridica: Censo, CASEN,
Encuesta Nacional de Salud, Cuentas Nacionales, etc
Bases de datos originadas en estudios previos: Datos que
fueron primarios en otros procesos de investigacin

METODOS DE INVESTIGACION

CUALITATIVOS
Basados en la observacin directa de los objetos de
estudio y en la aplicacin de tcnicas cualitativas
FOCUS GROUP
Observacin Participante
Etnografa

CUANTITATIVOS
Analizan datos en forma de nmeros
Consisten de un conjunto de
matemticas aplicadas

herramientas

AMBAS METODOLOGIAS NO SON


ANTAGONICAS SINO MAS BIEN
COMPLEMENTARIAS: TRIANGULACION

de

Sujetos y variables

Sujetos: Unidad bsica sobre la cual la informacin es


recolectada (unidad de anlisis)
Ej: personas, hogares, pases,

Variables: Una caracterstica observable (medible) en cada


sujeto
Ejemplo 1
Variable: Edad
Modalidades o valores: 12 aos, 33 aos, 78 aos
Cmo se mide la edad?

Ejemplo 2
Variable: Ingreso monetario per cpita
Modalidades o valores: $ 250.000, $ 500.000, $ 1.000.000
Cmo se mide el ingreso?

Sujetos y variables

Los datos cuantitativos consisten de una o ms


variables medidas para varios sujetos.

La cantidad de sujetos estudiados es el tamao


poblacional o muestral segn sea el caso,
generalmente se denotan por N y n
respectivamente

Unidad de Observacin / Unidad de


Anlisis

Unidad de observacin: Es la unidad que se


toma como base para recoger la informacin
de una variable. Sobre estas unidades se
efecta la encuesta, entrevista, consulta,
medicin u observacin

Unidades de anlisis: Es la unidad sobre la


que se realiza el anlisis estadstico de cada
variable de acuerdo a lo definido en los
objetivos de la investigacin y formulacin del
problema
Pueden coincidir!

3/30/2014

Footer Text

14

Anlisis de variables por separado


vs. Anlisis de asociaciones

Preguntas sobre una variable a la vez


Ej: Cul es la esperanza de vida de los chilenos? Qu tipo de base
de datos se requiere?
Cul es el desempeo de los colegios de la RM en la prueba SIMCE
Qu tipo de base de datos se requiere?

Preguntas sobre asociaciones de variables


Tienen hombres y mujeres la misma esperanza de vida?
Cmo se relacionan las notas del test de lectura con las notas del
test de matemticas en la prueba SIMCE?

Dos variables estn asociadas si los valores conocidos de


una (variable explicativa) ayudan a predecir valores de la
otra (variable respuesta)

Diferentes tipos de variables

Diferentes unidades de medida

Variables Discretas vs. Continuas

Por qu son importantes estas


distinciones?: Diferentes tipos de variables
requieren distintos mtodos de anlisis

Unidades de medida

La unidad de medida (escala de medida) de


una variable indica que tanta informacin
contienen los nmeros

Una clasificacin estndar


1. Nivel Nominal de medidas
2. Nivel Ordinal de medidas
3. Nivel de Intervalo / Razn de medidas

Nivel nominal de medida

Ej: Cul es la situacin ocupacional de una persona?


1 = Ocupado
2 = Desocupado
3 = Inactivo

4 = Sin edad para trabajar

Los nmeros son slo etiquetas de los valores


(categoras) de las variables, sin interpretacin de
magnitud
La nica comparacin posible: son dos valores iguales o
distintos?
Otros ejemplos de variables nominales: Sexo, Comuna,
zona (urbano rural), Pas

Nivel ordinal de medida

Ej: respuesta a la pregunta:

En trminos generales, Cul es su expectativa con


respecto al futuro econmico del pas?
1. Psima 2. Mala 3. Ni buena ni mala 4. Buena 5.
Excelente

El orden de los nmeros tiene algn sentido, no as


las magnitudes
Comparacin posible: un valor es ms alto/bajo
que otro
Otros ejemplos: Nivel educacional, preguntas en
escala likert, pobreza, quintil de ingreso

Nivel de Intervalo

Ej: Cul es el coeficiente intelectual de una persona?

Sus valores tienen un orden natural, es posible cuantificar


la diferencia entre dos valores de intervalo (permiten
determinar la diferencia entre puntos a lo largo del mismo
continuo)
EJ: La fecha, la temperatura, las notas de una prueba, etc.
Operaciones como la suma y resta tienen sentido
Sin embargo, el cero 0 no indica ausencia de variable y
es arbitrario, se pueden usar valores negativos.
Lo anterior vuelve poco procedente el clculo de
operaciones matemticas como la multiplicacin y divisin

Nivel de RAZON /RATIO

Ej: Cul es el salario de una persona?

Cuentan con un 0 absoluto lo que vuelve


pertinente
el
uso
de
operaciones
matemticas ms complejas (multiplicaciones
y divisiones)
Otros
ejemplos: peso, estatura, edad,
velocidad, etc.

Variables discretas vs. continuas

Las unidades de medida de variables


continuas pueden ser subdivididas sin lmites
Ej: Edad, rea, distancia, tiempo, ingresos, gastos,
tasas de inters

Las unidades de medida de variables discretas


no pueden ser subdivididas
Ej: Nmero de integrantes del hogar, Nivel
educacional, etc.
Tambin variables continuas agrupadas. Ej: Edad en
intervalos

Discreto vs. continuo


Las Variables discretas categricas tienen
solo un numero finito de valores positivos
Ej: preferencia por un partido, regin, etc

Casi todas las variables discretas son


categricas

Si la variable categrica puede tomar slo


dos valores (hombre/mujer, Si/no, etc) se le
denomina variable dicotmica

Como se relacionan los tipos de


variables?

Nominal/ Ordinal
Intervalo/Ratio

Discreta

Continua

Muchas

No

Algunas (Ej:
continuas
indivisibles)

Muchas

Ejemplos de Variables Continuas


Pueden ser subdivididas, o bien, pueden
corresponder a un valor decimal no entero,
ejemplos:
El gasto pblico del Gobierno
La estatura y el peso de las personas
El promedio de notas de un alumno

Son variables que sufren variaciones continuas


porque entre un valor y otro existen infinidad
de cantidades (entre 1 y 2 existe el 1,10, 1,80,
etc.)
Footer Text

25

Ejemplos Variables Discretas

No pueden ser subdividas, por ejemplo:

Cantidad de hermanos (tenemos 1, 2 o 3 hermanos,


pero no Hermano)
Cantidad de alumnos en el aula
Nmero de aviones que aterrizan a diario en el
aeropuerto
Cantidad de naranjas que vende un almacn
(siempre y cuando se mida en cantidad y no en
kilos)

Las variables discretas sufren variaciones en


cantidades enteras (1, 2, 3, 4, etc.).
3/30/2014

Footer Text

26

Cmo se publican generalmente los


datos cuantitativos (1)
Hoy en da, la informacin se trabaja
utilizando computadores.
Software que puede utilizarse para anlisis
cuantitativo:

Bsico: Excel
Avanzado: SPSS, Stata, Gauss, Redatam

Los computadores no distinguen cuando el


analista trabaja con poblaciones o con
muestras: Precaucin para los anlisis
3/30/2014

Footer Text

27

Cmo se publican generalmente los


datos cuantitativos (2)

Existe un estndar en la presentacin de


datos: se trabaja en filas y columnas

Filas: generalmente se contempla una fila


por cada observacin de la poblacin o
muestra:
Total de filas: N o n segn sea el caso
Por simplicidad de aqu en adelante utilizaremos
n independientemente que se trate de
muestras o poblaciones
3/30/2014

Footer Text

28

Cmo se publican generalmente los


datos cuantitativos (3)

Columnas: se contempla una columna por


cada variable.
Generalmente, por simplificacin, las variables se
denotan con letras maysculas
Total columnas: k variables medidas en la
poblacin o muestra

Cada celda proporciona el valor de una


variable (j) para una persona (i)
j toma valores entre 1 y k
i toma valores entre 1 y n
3/30/2014

Footer Text

29

Cmo se publican generalmente los


datos cuantitativos (4)

Cuando se trata de encuestas o instrumentos


con gran cantidad de datos, estos se
acompaan generalmente por un Diccionario
de datos o de variables, que puede incluir:

Nombre de la variable
Breve explicacin
Tipo de variable
Unidad de observacin y/o unidades de anlisis
Unidades de medida de la variable
Valores que puede tomar la variable (y etiquetas)
3/30/2014

Footer Text

30

Ejemplos de diccionarios de variables:


(1)

Edad:

Nombre de la variable
Breve explicacin
Tipo de variable
Unidad de observacin y/o unidades de anlisis
Unidades de medida de la variable
Valores que puede tomar la variable

Sexo:

Nombre de la variable
Breve explicacin
Tipo de variable
Unidad de observacin y/o unidades de anlisis
Unidades de medida de la variable
Valores que puede tomar la variable
3/30/2014

Footer Text

31

Ejemplos de diccionarios de variables: (2)

Calidad de servicio:
Que tan de acuerdo est con la siguientes frases? Los violadores y
asesinos deben ser castigados con pena de muerte. (1=muy
insatisfecho y 5=muy satisfecho con valores intermedios)

Nombre de la variable
Breve explicacin
Tipo de variable
Unidad de observacin y/o unidades de anlisis
Unidades de medida de la variable
Valores que puede tomar la variable

Regin:

Nombre de la variable
Breve explicacin
Tipo de variable
Unidad de observacin y/o unidades de anlisis
Unidades de medida de la variable
Valores que puede tomar la variable
3/30/2014

Footer Text

32

Ejemplos de diccionarios de variables:


(3)

Salario de una persona:

Nombre de la variable
Breve explicacin
Tipo de variable
Unidad de observacin y/o unidades de anlisis
Unidades de medida de la variable
Valores que puede tomar la variable

Nivel de pobreza del hogar:

Nombre de la variable
Breve explicacin
Tipo de variable
Unidad de observacin y/o unidades de anlisis
Unidades de medida de la variable
Valores que puede tomar la variable
3/30/2014

Footer Text

33

Matriz de Datos

La informacin de variables para cada


observacin se presenta en lo que se
denomina una matrz de datos.

Tambin se le llama Base de datos.

3/30/2014

Footer Text

34

Ejemplo de una matriz de datos


N

Edad

SEXO

EDUC

OCUPACION

Ingreso

67

319.287

170.470

23

167.222

37

12

14.528

53

10

203.641

15

1.163.571

10

333.418

55

13

1.063.160

40

15

1.143.366

10

13

561.416

11

59

14

3
2

12

37

341.159

13

11

533.142

14

22

10

1.021.693

70.344

Ejemplo
Analizaremos una muestra de 200 personas
encuestadas para la encuesta CASEN
versin 2006.
Centraremos nuestro anlisis sobre las
siguientes variables:

Nivel educacional (EDUC)


Ingreso autnomo individual (IAI)

Tambin usaremos la base de datos de la


prueba SIMCE 2008 para cuartos bsicos.

Distribuciones de Frecuencias

El Objetivo de la estadstica descriptiva es


sumarizar, resumir, caracterizar una variable.

Distribucin de frecuencia de una variable:


Es la lista de valores de la variable que existen en
una muestra, junto con la cantidad de repeticiones
(frecuencia) con que cada valor ocurre.

Esto generalmente se presenta en tablas de


distribucin de frecuencias.

Distribuciones de Frecuencias

Podemos tratar de resumir la distribucin


entera de la poblacin (distribucin de
frecuencias).
En una tabla: Tabla de distribucin de
frecuencias
O Grficamente: Grficos de distribucin de
frecuencias, histogramas

o generando una nica medida de


resumen de la variable
Midiendo tendencia central
Midiendo variablidad

Tabla SPSS de frecuencias para


EDUC
Frecuencias
Frecuencias
absolutas ni

Vlidos

Perdidos
Total

SIN EDUC. FORMAL


BASICA INCOM.
BASICA COMPL.
M.HUM. INCOMPLETA
M.TEC.PROF.
INCOMPLETA
M.HUM. COMPLETA
M.TEC COMPLETA
TEC. O UNIV.
INCOMPLETA.
TECNICA O UNIV.
COMPLETA
Total
Sistema

Relativas ni
NIVEL EDUCACIONAL

Frecuencia
5
30
20
31

Porcentaje
2,5
15,0
10,0
15,5

Porcentaje
vlido
3,3
20,0
13,3
20,7

Porcentaje
acumulado
3,3
23,3
36,7
57,3

1,5

2,0

59,3

19
11

9,5
5,5

12,7
7,3

72,0
79,3

17

8,5

11,3

90,7

14

7,0

9,3

100,0

150
50
200

75,0
25,0
100,0

100,0

Tabla de distribucin de frecuencias: colegios


por regin (SIMCE)
REGION
Regin de Aisn del General Carlos Ibaez del Campo
Regin de Antofagasta
Regin de Arica y Parinacota
Regin de Atacama
Regin de Coquimbo
Regin de la Araucana
Regin de Los Lagos
Regin de los Ros
Regin de Magallanes y de la Antrtica Chilena
Regin de Tarapac
Regin de Valparaso
Regin del Biobo
Regin del Libertador General Bernardo O' Higgins
Regin del Maule
Regin Metropolitana
Total general

Total

52
133
58
98
488
889
753
390
55
104
775
1130
470
628
1803
7826

NIVEL EDUCACIONAL
TECNICA O UNIV. COMPLETA

TEC. O UNIV. INCOMPLETA.

M.TEC COMPLETA

M.HUM. COMPLETA

M.TEC.PR OF. INCOMPLETA

M.HUM. INCOMPLETA

BASICA COMPL.

BASICA INCOM.

SIN EDUC. FORMAL

Recuento

Grfico de Barras (EDUC)


30

Las barras muestran frecuenci as

20

10

Grfico de barras para colegios (SIMCE)


Total
2000
1800

1600
1400
1200
1000
800
600
400
200
0

Total

Tabla de Distribucin de Frecuencias para


variables continuas (IAI)
Frecuencia
Vlidos

Perdidos
Total

Porcentaje

494
988
6667
25000
29290
35000
39520
50000
50500
50670
78820

1
1
1
1
1
1
2
1
1
1
1

0,5
0,5
0,5
0,5
0,5
0,5
1
0,5
0,5
0,5
0,5

5226750
8255160
10251675
Total
Sistema

1
1
1
96
104
200

0,5
0,5
0,5
48
52
100

Porcentaje
Porcentaje
vlido
acumulado
1,0
1,0
1,0
2,1
1,0
3,1
1,0
4,2
1,0
5,2
1,0
6,3
2,1
8,3
1,0
9,4
1,0
10,4
1,0
11,5
1,0
12,5

1,0
1,0
1,0
100,0

97,9
99,0
100,0

Resumiendo variables con muchos


valores

Las tablas de distribucin de frecuencias y los grficos


de barra funcionan mejor para una pequea cantidad
de valores observados de la variable (variables en
escalas de medida nominal, ordinal o variables
discretas).

Cuando los valores son muchos (especialmente en el


caso de variables continuas) se necesitan
modificaciones.

Solucin: resumir la informacin para valores de la


variables agrupados:
Tablas de distribucin de frecuencias con intervalos
Histogramas en lugar de grficos de barras

Distribucin de frecuencias para IAI (2)


Intervalos de Ingreso autnomo

Vlidos

Perdidos
Total

0-100.000
100.001-200.000
200.001-300.000
300.001-400.000
400.001-500.000
500.001-600.000
600.001-700.000
900.001-1.000.000
1.000.000 y ms
Total
Sistema

Frecuencia
22
35
17
5
4
1
2
1
9
96
104
200

Porcentaje
11,0
17,5
8,5
2,5
2,0
,5
1,0
,5
4,5
48,0
52,0
100,0

Porcentaje
vlido
22,9
36,5
17,7
5,2
4,2
1,0
2,1
1,0
9,4
100,0

Porcentaje
acumulado
22,9
59,4
77,1
82,3
86,5
87,5
89,6
90,6
100,0

Histograma para IAI

Recu ento

75

50

25

0
250 0000

500 0000

750 0000

Ingreso Aut nomo

100 00000

176
180,4266667
184,8533333
189,28
193,7066667
198,1333333
202,56
206,9866667
211,4133333
215,84
220,2666667
224,6933333
229,12
233,5466667
237,9733333
242,4
246,8266667
251,2533333
255,68
260,1066667
264,5333333
268,96
273,3866667
277,8133333
282,24
286,6666667
291,0933333
295,52
299,9466667
304,3733333
308,8
313,2266667
317,6533333
322,08
326,5066667
330,9333333
335,36
339,7866667

Frecuencia

Histograma de puntajes promedio


SIMCE lenguaje
Histograma

300

250

200

150

100
Frecuencia

50

Clase

Skewness (asimetra)

La distribucin de frecuencias de los ingresos


autnomos presenta algunos ingresos
(pocos) muy por encima de los de la mayora
La Distribucin tiene una larga cola hacia la
derecha
Se dice entonces que tiene asimetra positiva