You are on page 1of 76

*

Anghiela Johanna B. Saavedra Rodríguez


*

La estadística. Es el conjunto sistemático de procedimientos para la


observación, registro, organización, síntesis y análisis e interpretación
de los fenómenos y de las leyes que los regulan para poder así predecir
o concluir acerca de ellos. Esta definición claramente involucra las dos
fases de la estadística: la descriptiva y la inferencial.
* Descriptiva (Deductiva). Es la fase de descripción,
organización, síntesis y análisis de la información de interés.

* Inferencial (Inductiva). Esta fase busca obtener conclusiones


sólidas y más profundas que una simple descripción de la
información basados en el trabajo con muestras y su posterior
generalización de resultados para la toma de decisiones y
conclusiones sólidas.

*
* Población. Conjunto total de individuos u objetos que poseen
una o más características observables sobre los cuales se
buscan conclusiones y decisiones.
* Muestra. Parte de la población.
* Parámetro. Medida de una característica poblacional.
* Estadístico. Medida de una característica en una muestra.

*
Variable. Es una característica observable en un objeto de
estudio, que puede adoptar diferentes valores o categorías.

* Variable cuantitativa, es aquella para la cual las mediciones


arrojan datos númericos. Las variables cuantitativas se pueden
clasificar en continuas y discretas.
* Variable discreta, es aquella que puede tomar finitos o infinitos
valores numerables.
* Variable continua, es aquella que puede tomar infinitos valores
dentro de un intervalo de números reales (no numerables).
* Una variable cualitativa, es aquella para la cual no es posible
hacer mediciones numéricas. Las observaciones son categorías
que se pueden solamente clasificar o rotular.

*
* Nominal. Los datos de las variables son rótulos usados para
identificar un atributo del elemento de la muestra. Los rótulos no
pueden ordenarse con sentido.
* Ordinal. Permiten ordenar las observaciones con sentido, como es
el caso de la variable Severidad de la enfermedad (severo,
moderado y sano) o nivel del daño en una pieza (leve, moderado y
severo)
* Intervalo. Los datos tienen propiedades de dato ordinal y se
pueden determinar distancias. No hay un cero absoluto o real, el
cero es arbitrario como es el caso de la variable temperatura en
grados centígrados. Escalares
* Razón. Los datos tienen propiedades de datos de intervalo y
existe un cero real que permite considerar cocientes de
mediciones, como es el caso de la variable peso.

*
Se construye colocando determinado número de puntos sobre
un eje horizontal de acuerdo al número de veces que se
repite el dato. (Máximo 20 datos)

Graphs
Scatter/Dot
*
Simple Dot
Se requiere que los datos estén conformados por al menos dos
dígitos.
El último dígito constituye la hoja y el ó los restantes
conformarán el tallo. Para una adecuada descripción de los
datos es conveniente trabajar con al menos 4 tallos.

PASOS
* Hacer una lista de los diferentes valores del tallo en una
columna vertical
* Junto al valor correspondiente del tallo se registran las hojas

Explore
Plots
*
Stem and leaf
El histograma es una técnica gráfica utilizada para resumir una
gran cantidad de datos. Se le atribuye a Karl Pearson en 1895.
Tabla de frecuencias
Es un arreglo tabular de las frecuencias con que ocurre cada
característica en que se han dividido los datos, esta conformado
por:
* Intervalo de clase (caso continuo), es cada uno de los rangos de
valores en que se ha decidido agrupar parcialmente los datos.
* Marca de clase (caso continuo), es el punto medio del intervalo
de la clase, su valor es obtenido al promediar los extremos del
intervalo.

Graphs
Histogram
*
* Frecuencia absoluta es el número de veces que se repite un dato
(caso discreto) ó el número de mediciones dentro del intervalo
(caso continuo).
* Frecuencia absoluta acumulada de la clase es la suma de
frecuencia absoluta actual con las frecuencia anteriores
* Frecuencia relativa es el cociente entre la frecuencia absoluta y el
total de datos
* Frecuencia relativa acumulada es el cociente entre la frecuencia
absoluta acumulada y el número de observaciones

* Caso discreto
* Caso continuo

*
* Se basa en las tablas de frecuencia (conteo del número de
elementos o individuos que tienen determinada característica).
* Categóricas cualitativas barras horizontales
* Categóricas cuantitativas barras verticales
* PARETO (Diagrama de Barras Ordenado)

Graphs
*
Bar
Simple Bar
* Permiten visualizar mejor la proporción en que aparece una
característica respecto del total.

*
Graphs
Pie
* Consiste en un gráfico en el plano cartesiano que muestra la
relación entre dos variables.

*
Graphs
Scatter
Simple Scatter
* Son tablas utilizadas cuando los elementos pueden
clasificarse de acuerdo a dos o más criterios diferentes

Analyze
Crosstabs
*
*
A B

Estatura Estatura

C D

Estatura
Estatura
Medidas de tendencia

Medidas de dispersión

Medidas de forma

*
*
Determinan el punto alrededor del cual se concentran la mayoría de
observaciones

*
Poblacional
𝑵 Muestral
𝟏
𝛍 = ෍ 𝒙𝒊 𝟏
𝑵 ഥ = σ𝒏𝒊=𝟏 𝒙𝒊
𝒙 𝒏
𝒊=𝟏

Propiedades
1. La suma de las desviaciones respecto de la media es igual a cero
2. Si se tiene la media de un conjunto de datos y a cada observación se multiplica por
una constante b y se le suma una constante a, entonces la nueva media de los datos
se obtiene multiplicando la media de los datos originales por b y sumándole a.

Analyze/Descriptive Statistics/Descriptives
* El salario promedio para los empleado en una
empresa en el año anterior era de 4,500,000, si
para este nuevo año se incrementa un 7%, y se
les da una bonificación de $200,000. ¿Cual es el
nuevo salario promedio?
La media ponderada se usa principalmente para:

Promediar observaciones con diferentes importancias o pesos

σ𝒏𝒊=1 𝒘𝒊 𝒙𝒊
ഥ𝒑 = 𝒏
𝒙
σ𝒊=1 𝒘𝒊

*
* ¿Cuál es la nota promedio de un estudiante
quien obtiene una nota de 5 en una asignatura
de 3 créditos y una nota de 4 en una de 2
créditos?
Se usa principalmente para:

* Promediar porcentajes, índices y cifras relativas.


* Determinar el incremento porcentual promedio en ventas,
producción u otras actividades o series económicas de un periodo a
otro.

* No se aplica cuando algún dato toma el valor de cero o cuando la


raíz no está definida

𝒏
ഥ𝒈 =
𝒙 𝒙1 𝒙2 𝒙3 … 𝒙𝒏
* Ejemplo: Una compañía obtiene en 4 proyectos utilidades del 3%,
6%, 8% y 5%. ¿Cuál es la utilidad porcentual promedio?

*
* Generalmente se utiliza para promediar variaciones con
respecto al tiempo
1 n
ഥ𝒂 = 1
𝒙 1 1 1 = 1 1 1
+ +⋯+ + +⋯+
𝒏 𝒙1 𝒙2 𝒙𝒏 𝒙1 𝒙2 𝒙𝒏

* Una familia que hace un viaje en automóvil, recorre los


primeros 100km a razón de 60km/h, los siguientes 100 a
razón de 70km/h y los últimos 100 a 80km/h. ¿Cuál es la
velocidad promedio del recorrido?

*
* Una compañía fabrica 120 papeleras a razón de
14 por día. Para cubrir un nuevo pedido fabrica
otras 120 papeleras con una productividad de
16 díarias. ¿Cuál es la productividad diaria
promedio? 14,93 papeleras diarias en promedio
* La Mediana es el valor que divide un conjunto de datos ordenado en dos
partes porcentualmente iguales. Se utiliza ante la presencia de datos
atípicos
* Sea 𝒙 𝟏 , 𝒙 𝟐 ,…., 𝒙 𝒏una muestra ordenada, es decir 𝒙 𝟏 es el dato menor,
𝒙 𝟐 , el dato que le sigue al menor y así sucesivamente hasta 𝒙 𝒏 el dato
mayor 3.4 3.4 3.5 3.7 3.8

* 16 16 17 17 17 17 17 18 18 50
𝒙 𝒏+𝟏 𝒔𝒊 𝒏 𝒆𝒔 𝒊𝒎𝒑𝒂𝒓
𝟐
𝑴𝒆𝒅𝒊𝒂𝒏𝒂 = 𝒙 𝒏 𝒙 𝒏
𝟐 + 𝟐+𝟏
𝒔𝒊 𝒏 𝒆𝒔 𝒑𝒂𝒓
𝟐

*
Se define como el valor que se presenta con mayor frecuencia
6,3,7,6,5,4,6 moda=6 unimodal
6,3,7,6,5,3,6,7,3 moda 3,6 bimodal
* Para el caso de un conjunto de datos se puede presentar una moda
(unimodal) o dos modas (bimodal).
* Su importancia radica en que es la única medida de tendencia para
datos cualitativos

unimodal bimodal

*
Describen el comportamiento de una variable dividiendo la serie de valores en un
diferente número de partes porcentualmente iguales

* Los Cuartiles
Son aquellos números que dividen un conjunto de datos ordenado en cuatro
partes porcentualmente iguales. Hay tres cuartiles, Q1, Q2 y Q3. El primer
cuartil Q1, es el valor por debajo del cual queda aproximadamente un cuarto
(25%) de todos los datos. El segundo cuartil Q2 es el valor por debajo del cual
queda el 50% de los datos (Mediana), y el tercer cuartil Q3 es el valor por
debajo del cual quedan las tres cuartas partes (75%) de los datos.
* Los Deciles
Son ciertos números que dividen el conjunto de datos ordenado en diez partes
porcentualmente iguales. Se denotan por D1, D2, . . . , D9. El decil 5
corresponde a la mediana.
* Los Percentiles
Son ciertos números que dividen el conjunto de datos ordenados en cien partes
porcentualmente iguales. El percentil 50 equivale a la mediana.

Analyze/Descriptive Statistics /Explore/Statistics


𝒏𝒐 𝒆𝒏𝒕𝒆𝒓𝒐 𝒑𝒌 = 𝒙 𝒏∗𝒌 𝑎𝑝𝑟𝑜𝑥𝑖𝑚𝑎𝑑𝑜 𝑎𝑙 𝑒𝑛𝑡𝑒𝑟𝑜 𝑚á𝑠 𝑔𝑟𝑎𝑛𝑑𝑒
𝒏𝒌 𝟏𝟎𝟎
Hallar = ൞ 𝒙 𝒏∗𝒌 +𝒙 𝒏∗𝒌
𝟏𝟎𝟎 𝟏𝟎𝟎 𝟏𝟎𝟎
+𝟏
𝒆𝒏𝒕𝒆𝒓𝒐 𝒑𝒌 =
𝟐

Donde n=No, total de datos y k es el valor del subíndice de 𝒑𝒌

*
𝒑𝒌
Determinan nivel de concentración de un conjunto de datos

Más variación = Heterogeneidad


Menos variación =Homogeneidad

* ABSOLUTAS: Varianza, Desviación Estándar, Rango y Rango


Intercuartilico

* RELATIVAS : Coeficiente de Variación


Se define como el promedio (poblacional) ó el "casi promedio"
(muestral) de los cuadrados de las desviaciones de los datos
con respecto a la media muestral.

Propiedades de la varianza
* La varianza de una constante es cero
* Si se tiene la varianza de un conjunto de datos y cada
observación se multiplica por una constante b , entonces la
nueva varianza de los datos se obtiene multiplicando la
varianza de los datos originales por b2.

𝟏
𝝈𝟐 = 𝑵 σ𝑵
𝒊=𝟏 𝒙𝒊 − 𝝁
𝟐 Poblacional
N=tamaño poblacional 𝝁:media poblacional
𝒔𝟐 =
𝟏
𝒏−𝟏
σ𝒏𝒊=𝟏 𝒙𝒊 − 𝒙
ഥ 𝟐 Muestral *
n=tamaño muestral 𝒙:media muestral
La desviación estándar está definida como la raíz de la Varianza

𝟏 𝑵 𝟐
𝝈= σ 𝒙𝒊 − 𝝁 Poblacional
𝑵 𝒊=𝟏

𝟏
𝒔= σ𝒏𝒊=𝟏 ഥ
𝒙𝒊 − 𝒙 𝟐 Muestral
𝒏−𝟏

*
* Es la diferencia entre el máximo y el mínimo valor
de un conjunto de datos

𝑹𝒂𝒏𝒈𝒐 = 𝑴á𝒙𝒊𝒎𝒐 − 𝑴í𝒏𝒊𝒎𝒐

*
Es apropiado ante la presencia de datos atípicos, es la
diferencia entre el tercer y el primer cuartil

𝑹𝑰 = 𝑸3 − 𝑸1

*
Se utiliza ante la presencia de datos atípicos y se define como la
mediana del valor absoluto de las diferencias de los datos
respecto a su mediana

𝑴𝑬𝑫𝑨 = 𝑴𝒆𝒅𝒊𝒂𝒏𝒂 𝑴𝒆𝒅𝒊𝒂𝒏𝒂 − 𝒙𝒊

*
Es utilizado para comparar la variabilidad entre dos grupos de
datos que tienen distinta media o referidos a distintos sistemas
de unidades de medida. Por ejemplo, kilogramos y
centímetros.
𝝈
𝑪𝑽𝑷𝒐𝒃𝒍𝒂𝒄𝒊𝒐𝒏𝒂𝒍 = 𝒙𝟏𝟎𝟎%
𝝁

𝒔
𝑪𝑽𝑴𝒖𝒆𝒔𝒕𝒓𝒂𝒍 = 𝒙𝟏𝟎𝟎%

*

𝒙
* Medida que determina el grado de simetría o asimetría que
presenta la distribución de un conjunto de datos

<0 Sesgada a la izquierda


(negativamente sesgada)

1 3
𝜇3 σ 𝑥𝑖 − 𝜇
∝3 = 3 = 𝑁 =0 Simétrica
𝜎 3

σ 𝑥𝑖 − 𝜇 2

𝑁 >0 Sesgada a la derecha


(positivamente sesgada)

*
* Determina que tan empinada o aplanada se encuentra una
distribución unimodal

<0 Platicurtica

1 4
𝜇4 σ 𝑥𝑖 − 𝜇
∝4 = 4 = 𝑁 −3 =0 Messocurtica
𝜎 4
o normal
σ 𝑥𝑖 − 𝜇 2

𝑁
>0 Leptocurtica

*
* Mide la fuerza de asociación entre dos variables

1
σ 𝑦𝑖 𝑥𝑖−𝑥ҧ
𝑛
r=
σ 𝑥𝑖 −𝑥ҧ 2 σ 𝑦𝑖 −𝑦ത 2

*
*
* Dibujar y marcar un eje de medida horizontal.
* Construir un rectángulo cuyo borde izquierdo está en el primer
cuartil y cuyo borde derecho esta en el tercer cuartil .
* Dibujar un segmento de recta vertical dentro del rectángulo en
la mediana.
* Prolongar dos rectas horizontales desde cada extremo del
rectángulo de longitud 1.5 veces el rango intercuartílico.
* Dibujar un circulo vacio para identificar cada observación que
caiga entre 1.5 y 3.0 veces el rango intercuartílico desde los
bordes del rectángulo(inusuales suaves).
* Dibujar un circulo relleno para identificar cada observación que
caiga a más de 3.0 veces el rango intercuartilico (inusuales
extremos).

*
* INFERENCIA ESTADÍSTICA
*
Generalizar los resultados obtenidos a partir de muestras

población
muestra
µ x
σ s
p
p
Un muestreo es probabilístico si cumple los siguientes
requerimientos según Bautista(1998):
1. Se pueden definir el conjunto de muestras posibles
que se derivan del proceso de selección propuesto.
2. A cada muestra posible le corresponde una
probabilidad de selección conocida
3. El proceso de selección garantiza que todo
elemento del universo tiene una probabilidad mayor a
cero de ser incluido en alguna muestra
4. El proceso de selección es un mecanismo aleatorio

*
POBLACIÓN: 1,2,3,4,5,6
Se seleccionarán muestras de tamaño n=3

Número Número
muestra Muestra Probabilidad muestra Muestra Probabilidad
1 1,2,3 0,05 11 2,3,4 0,05
2 1,2,4 0,05 12 2,3,5 0,05
3 1,2,5 0,05 13 2,3,6 0,05
4 1,2,6 0,05 14 2,4,5 0,05
5 1,3,4 0,05 15 2,4,6 0,05
6 1,3,5 0,05 16 2,5,6 0,05
7 1,3,6 0,05 17 3,4,5 0,05
8 1,4,5 0,05 18 3,4,6 0,05
9 1,4,6 0,05 19 3,5,6 0,05
10 1,5,6 0,05 20 4,5,6 0,05
*
Para un universo con N elementos y una cantidad n
preestablecida (tamaño de muestra).

* Es una muestra seleccionada de tal forma que cada una de la


posibles muestras de tamaño n tienen la misma probabilidad de
ser seleccionadas.

* Ej. Selección por método coordinado negativo


*
* Los elementos son seleccionados de la población de un
intervalo que se mide respecto al tiempo, orden o al espacio
* Un primer elemento es tomado aleatoriamente , y con igual
probabilidad, entre los primeros a elementos en la lista de la
población, tal que N= an
* El entero positivo a es fijo y se denomina intervalo muestral.
* El resto de la muestra es determinada sistemáticamente cada a
elementos después hasta el final de la lista.
* Así solo hay a posibles muestras cada una con probabilidad 1/ a
de ser seleccionada.
INFERENCIA ESTADISTICA
Proceso de tomar conclusiones acerca
de parámetros con base en información
obtenida a partir de muestras

ESTIMACION ESTIMACION POR


PUNTUAL INTERVALOS PRUEBAS DE HIPOTESIS
Predecir el valor Obtener un rango de Verificar o refutar algún
de un parámetro valores con alguna certeza supuesto sobre un
que contiene el valor del parámetro en la población
parámetro
*
 Normal
 t-Student

 Chi cuadrado  F_Fisher


 CHI_CUADRADO



v v
1  1
f ( x)   v e x2 2
para x  0;
 2 2   v 

 2 

v : grados de libertad Si m  0,  m   e  x x m1dx


 T-STUDENT 0
 v 1
  x  2

 1 2
f ( x)   1 1   para    x  ;
 v 2   1 , v   2 

 2 2
v : grados de libertad 1
Si m  0 y n  0 ,  m; n    x m1 1  x n 1 dx
 F-FISCHER 0

 v1

  v1 
2
v1  v2
   1  

  v2 
v1
v 2
f ( x)   x 2 1  1
x  para x  0(v1  0; v2  0)
   v1 , v2   v2  1
  2 2  Si m  0 y n  0 ,
  m; n    x m1 1  x n 1 dx
 0
Metodología

Especificar la Concluir si hay


Elegir el estadístico
hipótesis nula (H0) y evidencia suficiente
de prueba y
la hipótesis alterna en la muestra para
calcularlo
(Ha) rechazar o no Ho

*
*
* PRUEBA DE HIPOTESIS ESTADÍSTICA: Regla o procedimiento para
decidir si se rechaza una hipótesis.
* HIPÓTESIS NULA (Ho): Se establece con el propósito de ser o no ser
rechazada esta dada en términos de algún parámetro.
* HIPÓTESIS ALTERNA (Ha,H1): Cualquier suposición que difiere de la
hipótesis nula
* ESTADISTICO DE PRUEBA: Estadístico utilizado para comprobar la
veracidad de Ho. Su distribución muestral se divide en dos regiones:
la crítica o de rechazo y la de no rechazo
TIPOS DE ERROR

SITUACIÓN

Ho Verdadera H0 Falsa

e
No rechazar 1-α β
H0 Confianza Error tipo II
DECISIÓN

α
Rechazar 1-β
Error tipo I
Ho Potencia
(nivel de significancia)
TIPOS DE PRUEBAS
Ho :    0
PRUEBA BILATERAL
Ha :    0

REGIONES DE RECHAZO

PRUEBAS UNILATERALES
Ha :    0 Ha :    0

REGIÓN DE RECHAZO REGIÓN DE RECHAZO


1. Definir el parámetro
2. Plantear adecuadamente Ho y Ha
3. Elegir y calcular el estadístico de prueba
4. Determinar la región de rechazo de acuerdo a Ha y al nivel
de significancia
5. Concluir

*
( X  )  conocida
z  N (0,1)
Media  n
( X  )  desconocida
t  tn1
s n
pˆ  p
z  N 0,1
Proporción p (1  p )
n

(n  1) S 2
Varianza X2    2 n 1
2
( X 1  X 2 )  ( 1   2 )
Conocidas Z  N (0,1)
 12  22

n1 n2
Independientes
( X 1  X 2 )  ( 1   2 )
 ´s Iguales t  tn1  n2 2 
1 1
s 2p   
* Diferencia de medias Desconocidas  n1 n2 
( X 1  X 2 )  ( 1   2 )
 ´s Diferentes t 
2 2
 t (v )
s1 s2
(d   d ) 
Dependientes t  tn 1 n1 n2
sd n

( pˆ 1  pˆ 2 )  ( p1  p2 )
* Diferencia de proporciones z  N 0,1
1 1
pˆ (1  pˆ )  
 n1 n2 

S12
* Cociente de Varianzas F  2  Fn1 1,n2 1
S1

*
Ejemplo
Una máquina empacadora de azúcar cuyos pesos están
normalmente distribuidos con media μ gramos y desviación
estándar 2.5 gramos. Regulaciones requieren que μ no sea
mayor que 1001. Una muestra de 20 paquetes arroja un
promedio de 1002 gr. Es esto suficiente evidencia para probar
que las regulaciones no se cumplen?

 : peso promedio

Ho :   1001 vs Ha :   1001

( X   ) 1002  1001
Z   1.798
 n 2.5 20
p  0.037 *
*
Metodología

Elegir una Elegir un valor Manipular hasta que


función pivotal de probabilidad únicamente el parámetro se
encuentre en el centro de la
desigualdad

Una proporción del 100(1- α) de todos los intervalos contendrá el valor


verdadero del parámetro
  conocida
z  X  Z
Media n
2

t  X  t
s  desconocida
2 n

pˆ (1  pˆ )
Proporción pˆ 
n

(n  1) S 2 (n  1) S 2
Varianza
 2 
 21 2 ,n 1 2  , n 1 
2
Conocidas  12  22
X 1  X 2  z 
2 n1 n2

Independientes
1  2
 ´s Iguales X 1  X 2  z 
2 n1 n2
* Diferencia de medias Desconocidas

 ´s Diferentes
X 1  X 2  tv
s12 s22

n1 n2
Dependientes d  t  sd n
2

* Diferencia de proporciones 1 1
pˆ 1  pˆ 2  z  pˆ (1  pˆ )  
2  n1 n2 

* S12 1  12 S12
Cociente de Varianzas  2 2F 
S12 F   1 S1 1 2 ,n 1,n 11 2
1 , n2 1, n1 1
2

*
Ejemplo: Suponga que X1, X2,…, Xn es una muestra
aleatoria de una distribución normal con media μ y
varianza σ2 constante, entonces el intervalo de confianza
para la media es
( X  )
Z ~ N 0,1
 n

Pr  z  Z  z   1  
 2 2

1
 2  2
 ( X  )   z z
Pr  z   z   1   2
2

 2  n 2

 
Pr( X  z 2    X  z 2 )  1
n n
Ejemplo: Intervalo de confianza del 95% para la media

0.95
0,025 0,025
 1.96 1.96

2.5 2.5
Pr(1002  1.96    1002  1.96 )  0.95
20 20
Pr(1002  1.09    1002  1.09)  0.95
Pr(1001.90    1003.09)  0.95
*
* Media
Z
NZ   2
2
E  2

n n 2

E 2 ( N  1)  Z   2
2
Z 
2 2

2
n 2
E2

* Proporción
Z p (1  p )
E  NZ  p (1  p )
2 2

n
n 2

E 2 ( N  1)  Z  p (1  p )
2
Z  p (1  p )
2

n 2 2

E2
*
* Busca controlar la variación no deseada controlando los
factores extraños, para ello toma las observaciones en pares
* Hay una relación natural entre las observaciones de un par,
por esto, los pares no se consideran muestras independientes
Ej. Un médico se interesa en determinar si un fármaco tiene el
efecto colateral de elevar la presión sanguínea. Para ello toma
inicialmente la presión sanguínea y después de suministrar el
fármaco vuelve a tomarla nuevamente (Factores externos como
la edad o la salud pueden tener un efecto sobre la presión).
*
PS ANTES PS DESPUÉS
1 128 134
2 176 174
3 110 118
4 149 152
5 183 187
6 136 136
7 118 125
8 158 168
9 150 152
10 130 128
11 126 130
12 162 137
*
*
La mayoría de los métodos estadísticos básicos se apoyan en la
distribución normal, su importancia radica en:

* Numerosos fenómenos continuos parecen seguirla o se pueden


aproximar mediante ella.
* Se puede utilizar para aproximar varias distribuciones
discretas de probabilidad (Binomial, Hipergeométrica,
Poisson) y de esta forma simplificar cálculos tediosos.
* Proporciona la base para la inferencia estadística clásica por
su relación con el teorema central del límite.

*
Algunas de sus propiedades son:

* Tiene “forma de campana”' y es de apariencia simétrica


* Sus medidas de tendencia central (Media, mediana, moda)
son idénticas y se encuentran ubicadas en el centro de la
curva
* La variable aleatoria asociada con esta distribución tiene
rango infinito

*
*
GRÁFICOS
P-P PLOT
Q-Q PLOT
PROBABILITY PLOT
* NORMALIDAD
PRUEBAS DE NORMALIDAD
Ho=Los datos se distribuyen normal
BONDAD DE AJUSTE(Chi-cuadrado)
SHAPIRO WILKS n<2.000
KOLMOGOROV n>=2.000
*
2.00

1.50
j x(j) (j-0.5)/10 zj
1 176 0,05 -1,64 1.00
2 183 0,15 -1,04
3 185 0,25 -0,67 0.50

4 190 0,35 -0,39


5 191 0,45 -0,13 0.00
zj

170 180 190 200 210 220 230


6 192 0,55 0,13
-0.50
7 201 0,65 0,39
8 205 0,75 0,67 -1.00
9 214 0,85 1,04
10 220 0,95 1,64 -1.50

-2.00
x(j)
*
j3
Bloom : 8
n 1 4
j 1
Rankit : 2
n
j 1
Tukey : 3
n 1 3
j
VanderWaerden :
n 1
*
k
( f i  ei ) 2
X 2
 
i 1 ei
  2  n 1) x ( m 1

donde
f ij Frecuencia observada para la categoría del renglón i
y la columna j
eij Frecuencia esperada para la categoría del renglón i
y la columna j

El estadístico tiene una distribución ji cuadrado con (n-1)x(m-1)


g. l., siempre y cuando las frecuencias esperadas sean 5 o
más para todas las categorías
Alber,s fabrica tres tipos de cerveza: ligera, clara y oscura.
En un análisis de segmentación para las cervezas, el grupo
de investigación ha planteado la duda de si las
preferencias son diferentes para los consumidores hombres
y las mujeres.

Ho: La preferencia de la cerveza es independiente del sexo


del consumidor
Ha: La preferencia de la cerveza NO es independiente del
sexo del consumidor
Tipo de cerveza

ligera clara oscura Subtotal

hombre 20 40 20 80
sexo
mujer 30 30 10 70

Subtotal 50 70 30 150

You might also like