Valores Atípicos (Outliers) Valores atípicos son aquellos valores en el conjunto de datos que se alejan o son diferentes a la mayoría

de los otros valores del conjunto de datos. Estos, potencialmente, pueden esconder características importantes del conjunto de datos teniendo efectos dramáticos en la media, la desviación estándar, la escala de las gráficas, y en los resultados de análisis estadísticos. ¿Cómo podemos detectarlos? Aprendiendo del conjunto de datos usando los métodos descriptivos que hemos aprendido hasta el momento. ¿Qué hacemos cuando los encontramos? Si son errores en la recolección o entrada de datos, estos deben ser corregidos antes de proseguir con los análisis estadísticos. Por otra parte, si no se puede determinar su procedencia o se determina que es un valor correcto se debe evaluar su impacto o efecto realizando los análisis (estadística descriptiva o inferencial) con y sin estos valores. Valores atípicos podrían revelar información importante. Detección de outliers usando los cuartiles Valores atípicos extremos (extreme outliers): Valores que quedan fuera del intervalo

�Q1 � 3 * (Q3 � Q1 ), Q3 � 3 * (Q3 � Q1 )�
Valores atípicos moderados (mild outliers): Valores que no se consideran extremos, pero que están fuera del intervalo

�Q1 � 1.5 * (Q3 � Q1 ), Q3 � 1.5 * (Q3 � Q1 )�
Detección de outliers usando el z-score (para distribuciones en forma de campana) Para distribuciones en forma de campana con media � y desviación estándar � , la Regla empírica, dice que aproximadamente el 68% de la observaciones está en el intervalo ( � � � , � � � ) 95% de las observaciones está en el intervalo ( � � 2� , � � 2� ) 99.7% de las observaciones está en el intervalo ( � � 3� , � � 3� )

Observaciones que estén a distancia de más de tres desviaciones estándar de la media son considerados posibles valores atípicos. El z-score mide esta distancia y para un valor particular x en el conjunto de datos se define como
z� x�� �

Tarea: Contruya un Box-Plot de la altura para feminas y otro para los varones e identifique los outliers (de haberlos) en ambos casos usando los dos métodos presentados. Altura (pulg) para feminas
6 01133444 6 5555678 7 2

Altura en (pulg) para masculino
6 34 6 78 7 01224

Sign up to vote on this title
UsefulNot useful