Professional Documents
Culture Documents
*
* Población. Conjunto total de individuos u objetos que poseen
una o más características observables sobre los cuales se
buscan conclusiones y decisiones.
* Muestra. Parte de la población.
* Parámetro. Medida de una característica poblacional.
* Estadístico. Medida de una característica en una muestra.
*
Variable. Es una característica observable en un objeto de
estudio, que puede adoptar diferentes valores o categorías.
*
* Nominal. Los datos de las variables son rótulos usados para
identificar un atributo del elemento de la muestra. Los rótulos no
pueden ordenarse con sentido.
* Ordinal. Permiten ordenar las observaciones con sentido, como es
el caso de la variable Severidad de la enfermedad (severo,
moderado y sano) o nivel del daño en una pieza (leve, moderado y
severo)
* Intervalo. Los datos tienen propiedades de dato ordinal y se
pueden determinar distancias. No hay un cero absoluto o real, el
cero es arbitrario como es el caso de la variable temperatura en
grados centígrados. Escalares
* Razón. Los datos tienen propiedades de datos de intervalo y
existe un cero real que permite considerar cocientes de
mediciones, como es el caso de la variable peso.
*
Se construye colocando determinado número de puntos sobre
un eje horizontal de acuerdo al número de veces que se
repite el dato. (Máximo 20 datos)
Graphs
Scatter/Dot
*
Simple Dot
Se requiere que los datos estén conformados por al menos dos
dígitos.
El último dígito constituye la hoja y el ó los restantes
conformarán el tallo. Para una adecuada descripción de los
datos es conveniente trabajar con al menos 4 tallos.
PASOS
* Hacer una lista de los diferentes valores del tallo en una
columna vertical
* Junto al valor correspondiente del tallo se registran las hojas
Explore
Plots
*
Stem and leaf
El histograma es una técnica gráfica utilizada para resumir una
gran cantidad de datos. Se le atribuye a Karl Pearson en 1895.
Tabla de frecuencias
Es un arreglo tabular de las frecuencias con que ocurre cada
característica en que se han dividido los datos, esta conformado
por:
* Intervalo de clase (caso continuo), es cada uno de los rangos de
valores en que se ha decidido agrupar parcialmente los datos.
* Marca de clase (caso continuo), es el punto medio del intervalo
de la clase, su valor es obtenido al promediar los extremos del
intervalo.
Graphs
Histogram
*
* Frecuencia absoluta es el número de veces que se repite un dato
(caso discreto) ó el número de mediciones dentro del intervalo
(caso continuo).
* Frecuencia absoluta acumulada de la clase es la suma de
frecuencia absoluta actual con las frecuencia anteriores
* Frecuencia relativa es el cociente entre la frecuencia absoluta y el
total de datos
* Frecuencia relativa acumulada es el cociente entre la frecuencia
absoluta acumulada y el número de observaciones
* Caso discreto
* Caso continuo
*
* Se basa en las tablas de frecuencia (conteo del número de
elementos o individuos que tienen determinada característica).
* Categóricas cualitativas barras horizontales
* Categóricas cuantitativas barras verticales
* PARETO (Diagrama de Barras Ordenado)
Graphs
*
Bar
Simple Bar
* Permiten visualizar mejor la proporción en que aparece una
característica respecto del total.
*
Graphs
Pie
* Consiste en un gráfico en el plano cartesiano que muestra la
relación entre dos variables.
*
Graphs
Scatter
Simple Scatter
* Son tablas utilizadas cuando los elementos pueden
clasificarse de acuerdo a dos o más criterios diferentes
Analyze
Crosstabs
*
*
A B
Estatura Estatura
C D
Estatura
Estatura
Medidas de tendencia
Medidas de dispersión
Medidas de forma
*
*
Determinan el punto alrededor del cual se concentran la mayoría de
observaciones
*
Poblacional
𝑵 Muestral
𝟏
𝛍 = 𝒙𝒊 𝟏
𝑵 ഥ = σ𝒏𝒊=𝟏 𝒙𝒊
𝒙 𝒏
𝒊=𝟏
Propiedades
1. La suma de las desviaciones respecto de la media es igual a cero
2. Si se tiene la media de un conjunto de datos y a cada observación se multiplica por
una constante b y se le suma una constante a, entonces la nueva media de los datos
se obtiene multiplicando la media de los datos originales por b y sumándole a.
Analyze/Descriptive Statistics/Descriptives
* El salario promedio para los empleado en una
empresa en el año anterior era de 4,500,000, si
para este nuevo año se incrementa un 7%, y se
les da una bonificación de $200,000. ¿Cual es el
nuevo salario promedio?
La media ponderada se usa principalmente para:
σ𝒏𝒊=1 𝒘𝒊 𝒙𝒊
ഥ𝒑 = 𝒏
𝒙
σ𝒊=1 𝒘𝒊
*
* ¿Cuál es la nota promedio de un estudiante
quien obtiene una nota de 5 en una asignatura
de 3 créditos y una nota de 4 en una de 2
créditos?
Se usa principalmente para:
𝒏
ഥ𝒈 =
𝒙 𝒙1 𝒙2 𝒙3 … 𝒙𝒏
* Ejemplo: Una compañía obtiene en 4 proyectos utilidades del 3%,
6%, 8% y 5%. ¿Cuál es la utilidad porcentual promedio?
*
* Generalmente se utiliza para promediar variaciones con
respecto al tiempo
1 n
ഥ𝒂 = 1
𝒙 1 1 1 = 1 1 1
+ +⋯+ + +⋯+
𝒏 𝒙1 𝒙2 𝒙𝒏 𝒙1 𝒙2 𝒙𝒏
*
* Una compañía fabrica 120 papeleras a razón de
14 por día. Para cubrir un nuevo pedido fabrica
otras 120 papeleras con una productividad de
16 díarias. ¿Cuál es la productividad diaria
promedio? 14,93 papeleras diarias en promedio
* La Mediana es el valor que divide un conjunto de datos ordenado en dos
partes porcentualmente iguales. Se utiliza ante la presencia de datos
atípicos
* Sea 𝒙 𝟏 , 𝒙 𝟐 ,…., 𝒙 𝒏una muestra ordenada, es decir 𝒙 𝟏 es el dato menor,
𝒙 𝟐 , el dato que le sigue al menor y así sucesivamente hasta 𝒙 𝒏 el dato
mayor 3.4 3.4 3.5 3.7 3.8
* 16 16 17 17 17 17 17 18 18 50
𝒙 𝒏+𝟏 𝒔𝒊 𝒏 𝒆𝒔 𝒊𝒎𝒑𝒂𝒓
𝟐
𝑴𝒆𝒅𝒊𝒂𝒏𝒂 = 𝒙 𝒏 𝒙 𝒏
𝟐 + 𝟐+𝟏
𝒔𝒊 𝒏 𝒆𝒔 𝒑𝒂𝒓
𝟐
*
Se define como el valor que se presenta con mayor frecuencia
6,3,7,6,5,4,6 moda=6 unimodal
6,3,7,6,5,3,6,7,3 moda 3,6 bimodal
* Para el caso de un conjunto de datos se puede presentar una moda
(unimodal) o dos modas (bimodal).
* Su importancia radica en que es la única medida de tendencia para
datos cualitativos
unimodal bimodal
*
Describen el comportamiento de una variable dividiendo la serie de valores en un
diferente número de partes porcentualmente iguales
* Los Cuartiles
Son aquellos números que dividen un conjunto de datos ordenado en cuatro
partes porcentualmente iguales. Hay tres cuartiles, Q1, Q2 y Q3. El primer
cuartil Q1, es el valor por debajo del cual queda aproximadamente un cuarto
(25%) de todos los datos. El segundo cuartil Q2 es el valor por debajo del cual
queda el 50% de los datos (Mediana), y el tercer cuartil Q3 es el valor por
debajo del cual quedan las tres cuartas partes (75%) de los datos.
* Los Deciles
Son ciertos números que dividen el conjunto de datos ordenado en diez partes
porcentualmente iguales. Se denotan por D1, D2, . . . , D9. El decil 5
corresponde a la mediana.
* Los Percentiles
Son ciertos números que dividen el conjunto de datos ordenados en cien partes
porcentualmente iguales. El percentil 50 equivale a la mediana.
*
𝒑𝒌
Determinan nivel de concentración de un conjunto de datos
Propiedades de la varianza
* La varianza de una constante es cero
* Si se tiene la varianza de un conjunto de datos y cada
observación se multiplica por una constante b , entonces la
nueva varianza de los datos se obtiene multiplicando la
varianza de los datos originales por b2.
𝟏
𝝈𝟐 = 𝑵 σ𝑵
𝒊=𝟏 𝒙𝒊 − 𝝁
𝟐 Poblacional
N=tamaño poblacional 𝝁:media poblacional
𝒔𝟐 =
𝟏
𝒏−𝟏
σ𝒏𝒊=𝟏 𝒙𝒊 − 𝒙
ഥ 𝟐 Muestral *
n=tamaño muestral 𝒙:media muestral
La desviación estándar está definida como la raíz de la Varianza
𝟏 𝑵 𝟐
𝝈= σ 𝒙𝒊 − 𝝁 Poblacional
𝑵 𝒊=𝟏
𝟏
𝒔= σ𝒏𝒊=𝟏 ഥ
𝒙𝒊 − 𝒙 𝟐 Muestral
𝒏−𝟏
*
* Es la diferencia entre el máximo y el mínimo valor
de un conjunto de datos
*
Es apropiado ante la presencia de datos atípicos, es la
diferencia entre el tercer y el primer cuartil
𝑹𝑰 = 𝑸3 − 𝑸1
*
Se utiliza ante la presencia de datos atípicos y se define como la
mediana del valor absoluto de las diferencias de los datos
respecto a su mediana
*
Es utilizado para comparar la variabilidad entre dos grupos de
datos que tienen distinta media o referidos a distintos sistemas
de unidades de medida. Por ejemplo, kilogramos y
centímetros.
𝝈
𝑪𝑽𝑷𝒐𝒃𝒍𝒂𝒄𝒊𝒐𝒏𝒂𝒍 = 𝒙𝟏𝟎𝟎%
𝝁
𝒔
𝑪𝑽𝑴𝒖𝒆𝒔𝒕𝒓𝒂𝒍 = 𝒙𝟏𝟎𝟎%
*
ഥ
𝒙
* Medida que determina el grado de simetría o asimetría que
presenta la distribución de un conjunto de datos
1 3
𝜇3 σ 𝑥𝑖 − 𝜇
∝3 = 3 = 𝑁 =0 Simétrica
𝜎 3
σ 𝑥𝑖 − 𝜇 2
*
* Determina que tan empinada o aplanada se encuentra una
distribución unimodal
<0 Platicurtica
1 4
𝜇4 σ 𝑥𝑖 − 𝜇
∝4 = 4 = 𝑁 −3 =0 Messocurtica
𝜎 4
o normal
σ 𝑥𝑖 − 𝜇 2
𝑁
>0 Leptocurtica
*
* Mide la fuerza de asociación entre dos variables
1
σ 𝑦𝑖 𝑥𝑖−𝑥ҧ
𝑛
r=
σ 𝑥𝑖 −𝑥ҧ 2 σ 𝑦𝑖 −𝑦ത 2
*
*
* Dibujar y marcar un eje de medida horizontal.
* Construir un rectángulo cuyo borde izquierdo está en el primer
cuartil y cuyo borde derecho esta en el tercer cuartil .
* Dibujar un segmento de recta vertical dentro del rectángulo en
la mediana.
* Prolongar dos rectas horizontales desde cada extremo del
rectángulo de longitud 1.5 veces el rango intercuartílico.
* Dibujar un circulo vacio para identificar cada observación que
caiga entre 1.5 y 3.0 veces el rango intercuartílico desde los
bordes del rectángulo(inusuales suaves).
* Dibujar un circulo relleno para identificar cada observación que
caiga a más de 3.0 veces el rango intercuartilico (inusuales
extremos).
*
* INFERENCIA ESTADÍSTICA
*
Generalizar los resultados obtenidos a partir de muestras
población
muestra
µ x
σ s
p
p
Un muestreo es probabilístico si cumple los siguientes
requerimientos según Bautista(1998):
1. Se pueden definir el conjunto de muestras posibles
que se derivan del proceso de selección propuesto.
2. A cada muestra posible le corresponde una
probabilidad de selección conocida
3. El proceso de selección garantiza que todo
elemento del universo tiene una probabilidad mayor a
cero de ser incluido en alguna muestra
4. El proceso de selección es un mecanismo aleatorio
*
POBLACIÓN: 1,2,3,4,5,6
Se seleccionarán muestras de tamaño n=3
Número Número
muestra Muestra Probabilidad muestra Muestra Probabilidad
1 1,2,3 0,05 11 2,3,4 0,05
2 1,2,4 0,05 12 2,3,5 0,05
3 1,2,5 0,05 13 2,3,6 0,05
4 1,2,6 0,05 14 2,4,5 0,05
5 1,3,4 0,05 15 2,4,6 0,05
6 1,3,5 0,05 16 2,5,6 0,05
7 1,3,6 0,05 17 3,4,5 0,05
8 1,4,5 0,05 18 3,4,6 0,05
9 1,4,6 0,05 19 3,5,6 0,05
10 1,5,6 0,05 20 4,5,6 0,05
*
Para un universo con N elementos y una cantidad n
preestablecida (tamaño de muestra).
v1
v1
2
v1 v2
1
v2
v1
v 2
f ( x) x 2 1 1
x para x 0(v1 0; v2 0)
v1 , v2 v2 1
2 2 Si m 0 y n 0 ,
m; n x m1 1 x n 1 dx
0
Metodología
*
*
* PRUEBA DE HIPOTESIS ESTADÍSTICA: Regla o procedimiento para
decidir si se rechaza una hipótesis.
* HIPÓTESIS NULA (Ho): Se establece con el propósito de ser o no ser
rechazada esta dada en términos de algún parámetro.
* HIPÓTESIS ALTERNA (Ha,H1): Cualquier suposición que difiere de la
hipótesis nula
* ESTADISTICO DE PRUEBA: Estadístico utilizado para comprobar la
veracidad de Ho. Su distribución muestral se divide en dos regiones:
la crítica o de rechazo y la de no rechazo
TIPOS DE ERROR
SITUACIÓN
Ho Verdadera H0 Falsa
e
No rechazar 1-α β
H0 Confianza Error tipo II
DECISIÓN
α
Rechazar 1-β
Error tipo I
Ho Potencia
(nivel de significancia)
TIPOS DE PRUEBAS
Ho : 0
PRUEBA BILATERAL
Ha : 0
REGIONES DE RECHAZO
PRUEBAS UNILATERALES
Ha : 0 Ha : 0
*
( X ) conocida
z N (0,1)
Media n
( X ) desconocida
t tn1
s n
pˆ p
z N 0,1
Proporción p (1 p )
n
(n 1) S 2
Varianza X2 2 n 1
2
( X 1 X 2 ) ( 1 2 )
Conocidas Z N (0,1)
12 22
n1 n2
Independientes
( X 1 X 2 ) ( 1 2 )
´s Iguales t tn1 n2 2
1 1
s 2p
* Diferencia de medias Desconocidas n1 n2
( X 1 X 2 ) ( 1 2 )
´s Diferentes t
2 2
t (v )
s1 s2
(d d )
Dependientes t tn 1 n1 n2
sd n
( pˆ 1 pˆ 2 ) ( p1 p2 )
* Diferencia de proporciones z N 0,1
1 1
pˆ (1 pˆ )
n1 n2
S12
* Cociente de Varianzas F 2 Fn1 1,n2 1
S1
*
Ejemplo
Una máquina empacadora de azúcar cuyos pesos están
normalmente distribuidos con media μ gramos y desviación
estándar 2.5 gramos. Regulaciones requieren que μ no sea
mayor que 1001. Una muestra de 20 paquetes arroja un
promedio de 1002 gr. Es esto suficiente evidencia para probar
que las regulaciones no se cumplen?
: peso promedio
Ho : 1001 vs Ha : 1001
( X ) 1002 1001
Z 1.798
n 2.5 20
p 0.037 *
*
Metodología
t X t
s desconocida
2 n
pˆ (1 pˆ )
Proporción pˆ
n
(n 1) S 2 (n 1) S 2
Varianza
2
21 2 ,n 1 2 , n 1
2
Conocidas 12 22
X 1 X 2 z
2 n1 n2
Independientes
1 2
´s Iguales X 1 X 2 z
2 n1 n2
* Diferencia de medias Desconocidas
´s Diferentes
X 1 X 2 tv
s12 s22
n1 n2
Dependientes d t sd n
2
* Diferencia de proporciones 1 1
pˆ 1 pˆ 2 z pˆ (1 pˆ )
2 n1 n2
* S12 1 12 S12
Cociente de Varianzas 2 2F
S12 F 1 S1 1 2 ,n 1,n 11 2
1 , n2 1, n1 1
2
*
Ejemplo: Suponga que X1, X2,…, Xn es una muestra
aleatoria de una distribución normal con media μ y
varianza σ2 constante, entonces el intervalo de confianza
para la media es
( X )
Z ~ N 0,1
n
Pr z Z z 1
2 2
1
2 2
( X ) z z
Pr z z 1 2
2
2 n 2
Pr( X z 2 X z 2 ) 1
n n
Ejemplo: Intervalo de confianza del 95% para la media
0.95
0,025 0,025
1.96 1.96
2.5 2.5
Pr(1002 1.96 1002 1.96 ) 0.95
20 20
Pr(1002 1.09 1002 1.09) 0.95
Pr(1001.90 1003.09) 0.95
*
* Media
Z
NZ 2
2
E 2
n n 2
E 2 ( N 1) Z 2
2
Z
2 2
2
n 2
E2
* Proporción
Z p (1 p )
E NZ p (1 p )
2 2
n
n 2
E 2 ( N 1) Z p (1 p )
2
Z p (1 p )
2
n 2 2
E2
*
* Busca controlar la variación no deseada controlando los
factores extraños, para ello toma las observaciones en pares
* Hay una relación natural entre las observaciones de un par,
por esto, los pares no se consideran muestras independientes
Ej. Un médico se interesa en determinar si un fármaco tiene el
efecto colateral de elevar la presión sanguínea. Para ello toma
inicialmente la presión sanguínea y después de suministrar el
fármaco vuelve a tomarla nuevamente (Factores externos como
la edad o la salud pueden tener un efecto sobre la presión).
*
PS ANTES PS DESPUÉS
1 128 134
2 176 174
3 110 118
4 149 152
5 183 187
6 136 136
7 118 125
8 158 168
9 150 152
10 130 128
11 126 130
12 162 137
*
*
La mayoría de los métodos estadísticos básicos se apoyan en la
distribución normal, su importancia radica en:
*
Algunas de sus propiedades son:
*
*
GRÁFICOS
P-P PLOT
Q-Q PLOT
PROBABILITY PLOT
* NORMALIDAD
PRUEBAS DE NORMALIDAD
Ho=Los datos se distribuyen normal
BONDAD DE AJUSTE(Chi-cuadrado)
SHAPIRO WILKS n<2.000
KOLMOGOROV n>=2.000
*
2.00
1.50
j x(j) (j-0.5)/10 zj
1 176 0,05 -1,64 1.00
2 183 0,15 -1,04
3 185 0,25 -0,67 0.50
-2.00
x(j)
*
j3
Bloom : 8
n 1 4
j 1
Rankit : 2
n
j 1
Tukey : 3
n 1 3
j
VanderWaerden :
n 1
*
k
( f i ei ) 2
X 2
i 1 ei
2 n 1) x ( m 1
donde
f ij Frecuencia observada para la categoría del renglón i
y la columna j
eij Frecuencia esperada para la categoría del renglón i
y la columna j
hombre 20 40 20 80
sexo
mujer 30 30 10 70
Subtotal 50 70 30 150