Professional Documents
Culture Documents
Julio de 2011
Definición de Estadística
“Es el conjunto de técnicas que se emplean para la recolección,
organización, análisis e interpretación de datos.” (Kazmier, 1998:1).
Contabilidad:
•Para seleccionar muestras con propósitos de auditoría.
•Para comprender los derroteros de costos en contabilidad de costos.
Finanzas:
•Para estar al tanto de las medidas financieras en el transcurso del tiempo.
•Para desarrollar formas de pronosticar valores de estas medidas en momentos futuros.
Administración:
•Para describir las características de los empleados dentro de una organización.
•Para mejorar la calidad de los productos fabricados o de los servicios procurados por la organización.
Mercadeo:
•Para determinar la proporción de clientes que prefieren un producto en vez de otro y la razón de esto.
•Para sacar conclusiones respecto a la estrategia de publicidad que sería más útil para el incremento de ventas de
un producto.
Definición
La Estadística es la Ciencia de la
Pruebas de hipótesis
Problema Inferencia Estimaciones
Indicadores de centralidad
(Moda, Mediana, Media)
Descripción
de los datos Indicadores de dispersión
(Recorrido, Varianza, Desv. Típica)
Coeficientes de correlación
Diseño de muestreo
La inferencia estadística es el proceso que consiste en
inferir una conclusión acerca de alguna medida de
población (parámetro), con base a algún estadístico
obtenido de una muestra aleatoria, con un cierto nivel de
confianza. Las pruebas de hipótesis ayudan a este
proceso.
Población
Muestra
x
s
DEFINICIONES BÁSICAS
UNIVERSO: Es un conjunto integrado por todos los
elementos, seres u objetos que contienen las
características u observaciones que se requieren en una
investigación dada.
POBLACIÓN: Es el conjunto integrado por todas las
mediciones u observaciones del universo de interés en la
investigación. Por lo tanto pueden definirse varias
poblaciones en un solo universo, tantas como
características a medir.
MUESTRA: Es una parte (sub-conjunto) de la población,
obtenida con el propósito de investigar propiedades que
posee la población. Es decir, se pretende que dicho sub-
conjunto, represente a la población a la cual se extrajo.
II.- ESTADÍSTICA INFERENCIAL
A) Procedimiento General de la Prueba Estadística de Hipótesis:
diferente (*)
R.D. (modelo): Si E.P. es mayor o (+) que Valor tabla, se Rechaza Ho.
menor (#)
Nos permite:
• Tomar decisiones
• Solucionar problemas
PARA QUE SIRVE EL ANÁLISIS ESTADÍSTICO
Formales (Matemáticas, Física, Medicina)
Deducción lógica.
Ciencias
Empíricas (psicología, sociología, Economía,)
Generalización inductiva
En las ciencias empíricas el objetivo fundamental es el de encontrar relaciones
de tipo general (leyes), capaces de explicar eventos reales cuando se dan las
circunstancias apropiadas. (Se descubren y verifican observando el mundo real).
La generalización inductiva, intenta ir desde lo que considera que es verdad para
un número reducido de observaciones hasta la afirmación de que eso mismo es
verdad para el total de observaciones posibles de la misma clase.
La generalización inductiva. En las ciencias empíricas las fuentes de variación
existentes son numerosas y difícil de identificar, medir y controlar, por ello
necesita una metodología especial que las valide: “El análisis estadístico”
TIPOS DE VARIABLES
NOMINAL
CUALITATIVA
ORDINAL
VARIABLE
DISCRETA
CUANTITATIVA
CONTINUA
Tipos de variables
Cualitativas
Si sus valores (modalidades) no se pueden asociar naturalmente a
un número (no se pueden hacer operaciones algebraicas con
ellos)
Cuantitativas o Numéricas
Si sus valores son numéricos (tiene sentido hacer operaciones
algebraicas con ellos)
SAS STATISTIC
MINITAD
EXCEL
SPSS (STATISTICAL
PACKAGE FOR THE
SOCIAL SCIENCE
10.0 en Español
Tipo de Investigación
MODA
MEDIA, MEDIANA,
CLASIFICAR, DISTRIBUCIONES DE VARIANZA.
CATEGORIZAR FRECUENCIA
DESCRIPTIVA EQUIPARAR GRÁFICOS, HISTOGRAMAS,
DESVIACIÓN TÍPICA
CURTOSIS
IGUALAR, CONTRASTAR PASTELES
ASIMETRÍA
2G WILCOSON t de student
COMPARAR, GRUPOS
DIFERENCIAR,
COMPARACIÓN EQUIPARAR, IGUALAR, >2G KRUSKAL ANOVA
CONTRASTAR GRUPOS WALLIS PRUEBA DE MEDIAS
FRIEDMAN (TUKEY, LSD)
RELACIONAR, ASOCIAR
CHI CUADRADO, CORRELACIÓN DE
RELACIÓN VINCULAR
RANGOS DE SPEARMAN PEARSON
(UNIÓN NEXO)
MEDIDAS DE LOCALIZACIÓN
MEDIDAS DE DISPERSIÓN
MEDIDAS DE FORMA
MEDIDAS DE POSICIÓN
DISTRIBUCIÓN DE FRECUENCIAS
MEDIDAS DE TENDENCIA CENTRAL
Medidas de localización
Media Aritmética
Se obtiene sumando todos los valores de una
población o muestra y dividiendo entre el número de
valores sumados.
x
x i
x i
N
Los valores extremos influyen sobre la media, y en
algunos casos puede distorsionarla tanto que llega a
ser indeseable como medida de tendencia central.
Medidas de localización
La Moda
Ejemplo:
¿Cual es la moda en los siguientes datos?
12 14 09 04 12 33 23 17 33 31 12 24 09 18
16 09 25 07 15
Medidas de localización
La Mediana
___ d) Desechar el valor 15.3; sumar los otros 8 números y dividir por
8.
Una profesora quiere cambiar la disposición de los asientos en su clase, con la
esperanza de que ello incremente el número de preguntas que hacen sus
alumnos. Primero, decide ver cuántas preguntas hicieron los estudiantes con la
colocación actual de los asientos. Un registro del número de preguntas hechas
por sus 8 estudiantes durante una clase se muestra a continuación:
___ b) El grupo que no durmió lo hizo mejor porque su promedio parece ser un
poco más alto que el promedio del grupo que durmió.
___ c) No hay diferencia entre los dos grupos, porque hay un solapamiento
considerable en las puntuaciones de los dos grupos.
___ d) No hay diferencia entre los dos grupos, porque la diferencia entre sus
promedios es pequeña, comparada con la variación de sus puntuaciones.
___ e) El grupo que no durmió lo hizo mejor porque hubo en ese grupo más
estudiantes que puntuaron 80 o por encima.
___ f) El grupo de control lo hizo mejor, porque su promedio parece ser un poco
mayor que el promedio del grupo no durmió.
Calificaciones de 40 estudiantes en la
unidad curricular estadística I
15 20 20 19 18 17 11 16 10 15
12 14 13 15 14 16 14 19 13 17
16 13 16 12 13 14 12 18 17 15
10 16 11 16 12 17 19 15 13 14
Medidas de Dispersión
( X1 – X )2 + ( X2 – X )2 + ….........…. ( Xi – X )2
S2 = n-1
La varianza de la muestra, es
la suma de los cuadrados de
las diferencias con relación a la
VARIANZA ∑ ( Xi – X )2 media aritmética divida entre el
MUESTRAL S2 = n-1 tamaño de la muestra menos 1
∑ ( Xi – )2
VARIANZA
POBLACIONAL
σ 2=
N
Unidades de la varianza son al
cuadrado.
MEDIDAS DE DISPERSIÓN
Desviación estándar
Indica como se agrupa o distribuye un conjunto de datos
alrededor de la media.
La desviación estándar también se define como la raíz cuadrada
positiva de la varianza.
=
0.05 Dispersión en distribuciones ‘normales’
0.05
0.04
0.04
0.03
0.03
0.02
0.02
0.01
0.01
x s x 2s
68.5 % 95 %
0.00
0.00
150 160 170 180 190 150 160 170 180 190
CV =
( ) X
S
100 %
Xi - X
Zi =
S
Zi = valor z del elemento
X = media de la muestra
S = Desviación estándar de la muestra
MEDIDAS DE FORMA
15 20 20 19 18 17 11 16 10 15
12 14 13 15 14 16 14 19 13 17
16 13 16 12 13 14 12 18 17 15
10 16 11 16 12 17 19 15 13 14
MEDIDAS DE POSICIÓN
NO CENTRALES
PERCENTILES
Dividen el conjunto de datos en 100 partes iguales. El percentil
90 es un valor tal que el 90% de todos los valores son menores
y el 10 son mayores que el.
CUARTILES
Dividen el conjunto de datos en cuatro partes iguales. Se
necesitan solamente tres cuartiles para dividir los datos en
cuatro partes
DECILES
Dividen el conjunto de datos en diez partes iguales. Nueve
deciles dividen las observaciones en diez partes iguales.
Resumen sobre estadísticos
Posición
Dividen un conjunto ordenado de datos en grupos con la misma
cantidad de individuos entre ellos.
Cuantiles, percentiles, deciles,...
Tendencia central
Indican valores con respecto a los que los datos parecen agruparse.
Media, mediana y moda
Dispersión
Indican la mayor o menor concentración de los datos con respecto a
las medidas de centralización.
Desviación típica, coeficiente de variación, rango, varianza
Forma
Asimetría
Apuntamiento o curtosis
DISTRIBUCIÓN DE FRECUENCIAS
tablas y gráficos para datos numéricos
Es una tabla de resumen en la cual los datos se colocan en agrupamiento o
categorías establecidas en forma conveniente de clases ordenadas
numéricamente
FRECUENCIA RELATIVA
Se obtiene de dividir las frecuencias de cada clase entre el número
total de observaciones.
Frecuencia Frecuencia de clase
=
relativa de clase n
DIAGRAMA DE BARRAS
100
variables cuantitativas discretas y 90
variables cualitativas. 80
Frecuencias absolutas
70
Se construye en un plano cartesiano,
60
colocando en el eje de las ordenadas
50
(y), las frecuencias ordinarias absolutas 40
(n), y situando en el eje de las abscisas 30
(X) los valores que toma la variable. 20
HISTOGRAMAS
(variables continuas)
Se utiliza para describir datos numéricos que están agrupados en
distribuciones de frecuencia, de frecuencia relativa o de porcentaje.
Un histograma es una gráfica de barras verticales que se construye
en los límites de cada clase
GRÁFICO 1
DISTRIBUCIÓN SEGÚN LA EDAD
En el eje horizontal 10
medios de cada 6
intervalo de clase 4
EDAD
DISTRIBUCIÓN DE FRECUENCIAS
tablas y gráficos para datos numéricos
POLÍGONOS DE
FRECUENCIA 100
Frecuencias absolutas
90
(v. continuas) 80
70
Se construye uniendo 60
50
con segmentos de recta, 40
los puntos medios 30
20
(marcas de clase) – 10
parte superior de cada 0
20 40 60 80
intervalo de clase. Al unir
Puntos medios
las marcas mediante
líneas rectas se obtiene
el polígono de
frecuencia.
ANÁLISIS DESCRIPTIVO
SPSS
Distribución de frecuencias
CATEGÓRICA Diagrama de Barras
Diagrama de sectores
Ejemplo:
Abrir archivo “datos de empleados” del spss
Aceptar
FRECUENCIA
CUANDO UTILIZAR CADA ESTADÍSTICO
Histograma
Gráficos > Con curva normal
DESCRIPTIVOS
300
Recuento 200
Categoría laboral
Administrativo Seguridad Directivo Total
Sexo Hombre 157 27 74 258
Mujer 206 10 216 100 Categoría laboral
Total 363 27 84 474
Administrativo
Recuento
Seguridad
0 Directivo
Hombre Mujer
Sexo
Estadísticos
Chi-cuadrado
Establece la relación existente entre dos variables categóricas. Permite
contrastar la hipótesis de que las dos variables categóricas son
independientes.
H0: Las variables son independientes
H1: Las variables son dependientes
EJEMPLO.
Abra el archivo de datos “datos de empleados”
Analizar - Est. Desc. - Tablas de contingencia - Fila: sexo; Columna:
Categoría laboral - Estadísticos - Chi-Cuadrado
Pruebas de chi-cuadrado El valor Chi-Cuadrado toma un valor de
Sig. asintótica 79,277 y tiene asociada un nivel de
Valor gl (bilateral) significación asociado de 0,000 por lo que
Chi-cuadrado de Pearson 79,277a 2 ,000
Razón de verosimilitud
se rechaza la H0 de independencia
95,463 2 ,000
N de casos válidos 474
a. 0 casillas (,0%) tienen una frecuencia esperada inferior a 5.
La frecuencia mínima esperada es 12,30.
Correlación entre variables ordinales:
Spearman
El coeficiente de correlación de spearman es también una medida de
asociación lineal pero para variables ordinales:
Se rechaza la hipótesis de independencia cuando el nivel crítico sea
menor que el nivel de significación establecido y se concluirá que
existe relación lineal significativa
Analizar>correlaciones>bivariadas>spearman
Correlaciones
Meses des de
Salario inicial Salario actual el contrato
Rho de Spearman Salario inicial Coeficiente de
1,000 ,826** -,063
correlación
Sig. (bilateral) , ,000 ,168
N 474 474 474
Salario actual Coeficiente de
,826** 1,000 ,105*
correlación
Sig. (bilateral) ,000 , ,023
N 474 474 474
Meses des de el contrato Coeficiente de
-,063 ,105* 1,000
correlación
Sig. (bilateral) ,168 ,023 ,
N 474 474 474
**. La correlación es s ignificativa al nivel 0,01 (bilateral).
*. La correlación es s ignificativa al nivel 0,05 (bilateral).
Coeficiente de correlación entre variables
cuantitativas: Pearson
Este coeficiente toma valores entre -1 y 1 un valor de 1 indica
relación lineal perfecta positiva un valor de -1 indica relación lineal
perfecta negativa. No implica causalidad.
Se rechaza la hipótesis de independencia cuando el nivel crítico sea
menor que el nivel de significación establecido y se concluirá que
existe relación lineal significativa
Analizar>correlaciones>bivariadas>pearson
Correlaciones
Meses des de
Salario inicial Salario actual el contrato
Salario inicial Correlación de Pearson 1,000 ,880** -,020
Sig. (bilateral) , ,000 ,668
N 474 474 474
Salario actual Correlación de Pearson ,880** 1,000 ,084
Sig. (bilateral) ,000 , ,067
N 474 474 474
Meses des de el contrato Correlación de Pearson -,020 ,084 1,000
Sig. (bilateral) ,668 ,067 ,
N 474 474 474
**. La correlación es s ignificativa al nivel 0,01 (bilateral).
Análisis de variables de respuestas
múltiples: (procedimientos)
La expresión respuesta múltiple se utiliza para identificar variables
en las que los sujetos pueden dar más de una respuesta, es decir,
variables en las que un mismo sujeto puede tener distintos valores.
Al intentar codificar VRM surge un problema: el SPSS solo permite
utilizar variables con un solo código para cada caso:
Se puede usar dos estrategias diferentes:
a) Crear tantas variables dicotómicas como alternativa de
respuestas tiene la pregunta (dicotomías múltiples)
b) Crear tantas variables categóricas como respuestas distintas
hayan dado los sujetos.
a) Crear tantas variables dicotómicas como
alternativa de respuestas tiene la pregunta
(dicotomías múltiples)
Ejemplo:
Señale cual de los siguientes transportes ha usado
durante el último mes.
a) Autobús
b) Metro
c) Tren
d) Taxi
datos correspondiente a una muestra de 20 encuestados
Id genero autobus metro tren taxi resp1 resp2 resp3
1 1 1 0 1 0 1 3 0
2 1 1 1 0 0 1 2 0
3 1 1 1 1 0 1 2 3
4 1 1 0 1 0 1 3 0
5 1 0 1 1 0 2 3 0
6 1 0 0 0 1 4 0 0
7 1 1 0 1 0 1 3 0
8 1 0 1 1 0 2 3 0
9 1 0 1 0 1 2 4 0
10 1 1 1 1 0 1 2 3
11 2 1 1 0 0 1 2 0
12 2 0 1 1 0 2 3 0
13 2 0 1 0 0 1 0 0
14 2 1 1 1 0 2 2 3
15 2 0 1 1 0 1 3 0
16 2 1 0 1 0 2 3 0
17 2 0 1 0 1 2 4 0
18 2 0 1 1 0 2 3 0
19 2 1 0 0 1 1 4 0
20 2 0 1 1 1 2 3 4
Analizar>Respuestas Múltiples>Definir Conjunto