We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF or read online on Scribd
50 TECNICAS DE ANALISIS MULTIVARIANTE DE DATOS
A continuacién se presenta el grifico de control tres sigmas para una
variable con los 25 valores entre 1 238 y 1 295 siguientes: 1 270, 1 258, 1 248,
1260, 1 263, 1 260, 1 259, 1 240, 1 260, 1 246, 1 238, 1 253, 1 249, 1 245, 1 251,
1252, 1 249, 1 274, 1 258, 1 268, 1 248, 1 295, 1 243, 1 253, 1 258,00
Grafico de control: VAROO001
1298:
war
1258:
1238:
Lo=1220,4709
fe 0 i a a a
307 1 18 18 28
Nel sigma: 3
Se ve que la observacin mimero 22 es un valor atipico por caer fuera de los
limites de control.
La razén fundamental del uso de limites tres sigmas radica en que la mayoria
de las distribuciones con que nos encontramos normalmente se aproximan a la forma
de campana de Gauss correspondiente a la funcién de densidad de la distribucién
normal. Si usamos la desviacién estindar (sigma) para dividir el drea que se
encuentra debajo la curva, tal como se indica en la Figura de la pagina siguiente,
podemos calcular las areas de cada zona limitada por los valores j:+ko de la abscisa
como un porcentaje del area total que hay debajo de las curvas. Como indica la
Figura, la probabilidad de encontrar un valor dentro de tr es aproximadamente del
68%, 0 lo que es lo mismo; la probabilidad de obtener un valor fuera de estos limites
es aproximadamente del 32%. Similarmente, la probabilidad de que los valores
caigan fuera de los limites 4420 es aproximadamente del 4,5%, mientras que la
probabilidad de que los valores caigan fuera de los limites 436 es ya pequefifsima
(sélo del 0,3% o del :res por mil).PRIMEROS PASOS EN EL ANALISIS MULTIVARIANTE, ANALISIS EXPLORATORIO DE DATOS 51,
Puesto que un acontecimiento que tenga esta probabilidad tan baja sucede
muy raramente, usualmente cuando los datos caen fuera de los limites 3-sigma,
sacamos la conclusién de que la distribucién ha cambiado, de que el proceso definido
por la variable ha cambiado, y de que presenta alguna anomalia. Esta es la justificacién
del uso generalizado de los limites tres sigmas para detectar los valores atipicos.
pedo p36 p20 pro tS Po pio Ho
68,26%
95.46%
'99,73%
—$—$ 99, 99% —___-»!
Otra forma de detectar la existencia de posibles valores atipicos es utilizar
los estadisticos robustos de la variable y ver su diferencia respecto de los
estadisticos no robustos. Suelen considerarse como estadisticos robustos de
centralizacién (localizacién) la mediana, la media truncada y la media winsorizada.
La media truncada prescinde del 15% de los valores de la variable por cada extremo
y la media winsorizada sustituye csc 15% de valores por valores del centro de la
distribucién. Como estadisticos robustos de dispersion (escala) se _usan
respectivamente la variacién media respecto de la mediana, la desviacién tipica
truncada y la desviacién tipica winsorizada. Cuando no hay valores atipicos, los
estadisticos robustos y los estadisticos normales no difieren mucho. También pueden
calcularse intervalos de confianza para la media normal y para la media winsorizada.
Si su anchura es similar no hay valores atipicos.
No obstante, es mis efectivo utilizar un contrasie formal estadistico para
detectar valores atipicos, por ejemplo el test de Dixon o el test de Grubs, cuyos p-
valores detectan los valores atipicos. Para p-valores menores que 0,05 hay valores
atipicos al 95% de confianza.