You are on page 1of 12

UNIVERSIDAD NACIONAL AGRARIA LA MOLINA La depuración de datos consiste en la detección y corrección de los posibles errores que se

Dpto. de Estadística e Informática


pueden haber cometido en la fase anterior, además de comprobar la calidad de los datos. La
Curso: Técnicas Multivariadas Avanzadas
Profesor: Mg. Jesús Salinas Flores calidad de los datos tiene que ver con el grado en que los datos codificados e introducidos en
el ordenador son fiel reflejo de los datos brutos.
ANÁLISIS EXPLORATORIO DE DATOS
La transformación de los datos está relacionada con las operaciones que debemos realizar a
Adaptado del libro: “Depuración y análisis preliminares de datos en SPSS”. Antonio
partir de los datos codificados. Tiene que ver con la gestión de variables y sujetos:
Rial, Jesús Varela, Antonio Rojas. Editorial Ra-ma. 2001
recodificación, transposición, cálculo de nuevas variables, etc.

Toda investigación implica recoger y analizar datos, bien sea con fines descriptivos (tratando En el análisis exploratorio o análisis preliminar de datos se detectan los posibles casos
de extraer la información más relevante que contienen y presentarla de una manera sencilla y extremos o outliers (que pueden de algún modo distorsionar los resultados); se trata a la no
comprensiva) o inferenciales (intentando estimar los parámetros poblaciones a partir de los respuesta o existencia de casos missing; se comprueban determinados supuestos acerca de
datos muestrales, o bien contrastar las posibles hipótesis que hayamos planteado). los datos, y sobre los que se basa la aplicación de gran parte de las técnicas estadísticas más
conocidas (como sucede con el conjunto de pruebas paramétricas), e incluso, en caso de que
A pesar de los controles y pruebas que podemos llevar a cabo sobre los datos, podemos
sea necesario, se puede considerar la transformación de variables con el fin de que se ajusten
encontrarnos con distintos problemas:
a un tipo de distribución que cumplan dichos supuestos.
• Errores debido al instrumento de medida utilizado para su recogida
Por último, en la fase de análisis de datos es donde se aplican todas las técnicas estadísticas
• Errores asociados a la codificación de respuestas
destinadas a dar respuesta a los objetivos propios de la investigación, o a contrastar las
• Errores debidos al excesivo número de sujetos que dejan alguna preguntas sin hipótesis que haya sido planteadas.
responder
Razones por las que conviene examinar previamente los datos.-
• Errores por el uso de una técnica estadística equivocada.
• El número considerable de errores que pueden haberse generado en la codificación y
Es necesario llevar a cabo un procedimiento lo más exhaustivo posible que nos permita almacenamiento de los datos. Si no detectamos estos errores y depuramos nuestra
conocer las cualidades de los datos (calidad, estructura y propiedades). En este sentido, hay base de datos, tal vez los resultados que presentemos y las conclusiones a las que
que decir que para que esto ocurra, debemos garantizar que todo el proceso que recorren los lleguemos no coincidan con la realidad.
datos, desde su comienzo en la etapa de recogida hasta su análisis, sea el adecuado. En
• Comprobar la existencia de casos missing, valores ausentes o simplemente falta de
definitiva, debemos conocer y controlar el proceso llamado Tratamiento de los Datos.
respuesta de algún sujeto en algún ítem o variable. Esta falta de respuesta puede, por
En general, podemos decir que el tratamiento de los datos de una investigación implica, al un lado, reducir considerablemente el tamaño de la muestra, disminuyendo la potencia
menos, cinco fases: de los contrastes estadísticos a utilizar y, por otro lado, sesgar los resultados, si los
casos missing no se distribuyen de manera aleatoria.
1) La introducción de datos en ordenador
• Comprobar si existen datos atípicos o anómalos que, sin ser necesariamente errores de
2) La depuración de los datos
codificación o de almacenamiento, condicionan las decisiones a tomar en análisis
3) La transformación de los datos
posteriores. Detectar la presencia de casos extremos o outliers y afrontar su
4) El análisis exploratorio o análisis preliminar de los datos, y, por último tratamiento, son cuestiones que afectan la elección de la prueba estadística adecuada,
de los índices descriptivos para resumir adecuadamente la información que contienen
5) El análisis de datos propiamente dicho.
los datos y, en definitiva, una cuestión que incide en la validez de los resultados.
La fase de introducción de datos implicaría pasar del dato bruto al dato codificado e
• Antes de contrastar cualquier hipótesis, antes de aplicar una prueba estadística, es
introducido en el ordenador. Por dato bruto entendemos el dato procedente de las respuestas
conveniente comprobar si los datos cumplen o no determinados supuestos.
de las personas, en la forma tal y como se ha recogido (respuestas a un cuestionario,
registros, etc.). El dato codificado implica, generalmente, la asignación de números a los
distintos valores de las variables. En esta fase se pasa de una cantidad ingente de material,
normalmente impreso en papel, a una matriz de números en un fichero de ordenador.
1 2
DETECCIÓN Y CORRECCIÓN DE ERRORES Sexo

Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Al igual que en la estimación de errores, podemos decir que existen diversos niveles en la Válidos Hombre 17 56.7 56.7 56.7
Mujer 12 40.0 40.0 96.7
detección y corrección de errores, en función del grado en que nos impliquemos en la
3 1 3.3 3.3 100.0
búsqueda de los mismos. Así, podemos realizar desde una revisión total del proceso de Total 30 100.0 100.0
introducción de datos (lo que garantizaría en gran medida la calidad de los mismos, pero
multiplicaría por dos el coste de recursos dedicados a dicha fase), hasta una ausencia de
revisión, con lo que estaríamos depositando una fe ciega en las personas que llevan a cabo la
Estado Civil
grabación de los datos, suponiendo que no han cometido errores. De esta última forma
disminuiría hasta cero el coste dedicado a la depuración de datos, pero asumimos un riesgo Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
que difícilmente garantizaría la calidad de los datos. Entre ambas existen algunas estrategias Válidos Soltero(a) 6 20.0 20.0 20.0
(tantas como se le ocurran al investigador), que tienen como finalidad localizar y corregir los Casado(a) 14 46.7 46.7 66.7
Divorciado(a) 2 6.7 6.7 73.3
posibles datos erróneos. Viudo(a) 6 20.0 20.0 93.3
Otras situaciones 2 6.7 6.7 100.0
Estas estrategias dependen de la naturaleza de las variables (nominales, ordinales,
Total 30 100.0 100.0
cuantitativas discretas frente a continuas), de si la matriz de datos cuenta o no con variables
de filtro, etc.

Nivel de Estudios
Valores Fuera de Rango o no Permitidos
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Esta estrategia es recomendable para todo tipo de variables que hayan sido codificadas bien
Válidos Sin estudios 4 13.3 13.3 13.3
como variables nominales, ordinales o cuantitativas discretas, especialmente cuando las Estudios Primarios 7 23.3 23.3 36.7
variables toman pocos valores. Para la detección de errores en las variables mencionadas Estudios Secundarios 8 26.7 26.7 63.3
Bachillerato 5 16.7 16.7 80.0
basta con realizar un análisis descriptivo de todas las variables que componen nuestra base de
Maestría 4 13.3 13.3 93.3
datos. 8 2 6.7 6.7 100.0
Total 30 100.0 100.0
Ejemplo No. 1

V1 : sexo de los sujetos (1 hombre, 2 mujer)

V2 : estado civil (1 soltero, 2 casado, 3 divorciado, 4 viudo, 5 otras situaciones)

V3 : nivel de estudios (1 sin estudios 2 estudios primarios, 3 estudios secundarios, Grado de Práctica Religiosa
4 bachillerato, 5 maestría, 6 doctorado) Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
V4 : grado de práctica religiosa (1 nada, 2 poco, 3 regular, 4 bastante, 5 mucho)
Válidos Nada 14 46.7 46.7 46.7
Poco 1 3.3 3.3 50.0
Regular 1 3.3 3.3 53.3
V1 1 1 1 2 2 2 1 2 1 2 2 1 1 1 1 2 2 2 3 1 1 2 1 1 2 2 1 1 1 1
Bastante 3 10.0 10.0 63.3
V2 1 2 1 3 2 4 2 4 1 4 2 2 2 4 5 4 2 3 2 5 2 2 4 1 2 2 2 1 2 1 Mucho 11 36.7 36.7 100.0
V3 1 1 2 3 8 2 2 2 3 1 1 2 5 2 2 5 4 3 3 3 4 4 3 3 4 5 5 3 8 4 Total 30 100.0 100.0

V4 4 1 2 1 1 1 5 1 1 3 4 1 5 1 1 4 1 1 5 5 5 5 5 1 1 5 5 1 5 5

3 4
Incoherencias en los datos P1. ¿Ha planteado usted alguna queja en este restaurante?
Con el procedimiento anterior sólo es posible detectar los errores que se producen en cada Porcentaje Porcentaje
variable, de manera individual, pero no las inconsistencias que puedan darse entre dos Frecuencia Porcentaje válido acumulado
Válidos Si 9 22.5 22.5 22.5
variables o ítems, como sucede en las preguntas filtro. No 31 77.5 77.5 100.0
Total 40 100.0 100.0
Ejemplo No. 2

P1. ¿Ha planteado usted alguna queja en este restaurante?


P2. ¿Cómo la ha planteado?
1 ( ) Si
Porcentaje Porcentaje
2 ( ) No Frecuencia Porcentaje válido acumulado
Válidos Verbalmente 7 17.5 77.8 77.8
Por escrito 2 5.0 22.2 100.0
P2. ¿Cómo lo ha planteado? Total 9 22.5 100.0
1. ( ) verbalmente Perdidos Sistema 31 77.5
Total 40 100.0
2. ( ) por escrito

P3. ¿Cuál era el tema fundamental de la queja?


1. ( ) instalaciones
P3. ¿Cuál era el tema fundamental de la queja?
2. ( ) atención y trato
Porcentaje Porcentaje
3. ( ) comida
Frecuencia Porcentaje válido acumulado
4. ( ) precio Válidos Instalaciones 1 2.5 11.1 11.1
Atención y trato 1 2.5 11.1 22.2
5. ( ) otras _________________________________ Comida 2 5.0 22.2 44.4
Precio 5 12.5 55.6 100.0
Total 9 22.5 100.0
P4. ¿Cómo considera Ud. el servicio en general?
Perdidos Sistema 31 77.5
1. ( ) muy bueno Total 40 100.0

2. ( ) bueno
3. ( ) ni bueno ni malo
4. ( ) malo
P4. ¿Cómo considera usted el servicio en general?
5. ( ) muy malo
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos Muy Bueno 10 25.0 25.0 25.0
Bueno 13 32.5 32.5 57.5
Ni Bueno Ni Malo 12 30.0 30.0 87.5
Los datos codificados en un grupo de 40 sujetos han sido los siguientes: Malo 5 12.5 12.5 100.0
Total 40 100.0 100.0

P1 2 2 1 2 2 2 1 2 2 1 2 2 2 1 2 1 2 2 2 2 2 1 2 2 2 2 2 2 2 2 2 2 1 2 1 2 2 2 2 1

P2 . . 1 . . . 1 . . 2 . . . 1 . 1 . . . . . 2 . . . . . . . . . . 1 . 1 . . . . 1

P3 . . 3 . . . 4 . . 4 . . . 2 . 4 . . . . . 1 . . . . . . . . . . 4 . . 4 . . . 3

P4 1 2 3 2 2 1 4 1 2 4 2 3 1 2 2 3 1 2 3 3 1 1 2 3 3 3 4 1 1 2 2 1 4 2 3 4 3 3 2 3

5 6
Con las tablas de frecuencias cruzadas o tablas de contingencia podemos comprobar si los
valores de las preguntas condicionadas se corresponden con los valores adecuados de las DATOS PERDIDOS O VALORES AUSENTES
preguntas filtro.

Debido a múltiples factores, tanto en el diseño de los instrumentos de medida como en las
respuestas de los sujetos, es frecuente encontrarse con variables en las que o bien el sujeto no
responde o bien su codificación es confusa. En estos casos decimos que estas variables
Tabla de contingencia P1. ¿Ha planteado usted alguna queja en este
restaurante? * P2. ¿Cómo la ha planteado? contienen valores perdidos. Esta falta de información puede interferir en análisis posteriores.

Recuento Si se decide no reconstruir la información sustituyendo los valores que faltan por algún otro
P2. ¿Cómo la ha
valor, debemos tener en cuenta que corremos un grave riesgo por dos motivos:
planteado?
Verbalmente Por escrito Total • Por un lado, es posible que la información que falta sea considerable, reduciendo en
P1. ¿Ha planteado Si
usted alguna queja 7 2 9 exceso el tamaño de la muestra y, en consecuencia, disminuyendo la potencia de los
en este restaurante? contrastes que realicemos y aumentando los intervalos de confianza de nuestras
Total 7 2 9 estimaciones.

• Por otro lado, es posible que la información que falta no se distribuya de manera
Tabla de contingencia P1. ¿Ha planteado usted alguna queja en este restaurante? * P3. ¿Cuál aleatoria, sino sistemáticamente. Dicho de otro modo, es posible que los sujetos que no
era el tema fundamental de la queja?
contestan a un ítem no se comporten igual que el resto, por lo que sería un error
Recuento
dejarlos fuera de los análisis.
P3. ¿Cuál era el tema fundamental de la queja?
Atención y No se entenderá por valores ausentes, perdidos o casos missing aquellos que por motivos de la
Instalaciones trato Comida Precio Total
propia pregunta no procede realizarse, por ejemplo, en el caso de que contestar a una
P1. ¿Ha planteado Si 1 1 2 4 8
usted alguna queja determinada pregunta dependa de las respuestas dadas a otras (preguntas filtro). En estos
en este restaurante? No 0 0 0 1 1
casos, aunque el programa estadístico los identifique como valores ausentes o perdidos, estas
Total 1 1 2 5 9
ausencias de respuesta no se contabilizan como tales, sino que simplemente se ha reducido el
número de personas que deben contestar.

• Cuando la ausencia de información es pequeña y repartida al azar, los datos pueden ser
analizados directamente, con lo que prescindiríamos de la información que nos falta y
seguiríamos adelante en nuestros análisis. En ese caso, cuando decidimos no sustituir
los datos perdidos por otro valor y trabajar con los datos tal cual se han recogido, el
SPSS dispone de dos alternativas ante cualquier análisis: LISTWISE (prescinde de
aquellos sujetos que tienen un valor perdido en cualquiera de las variables de los datos)
y PAIRWISE (prescinde únicamente de aquellos sujetos con valores perdidos sólo en las
variables que intervienen en un análisis concreto).

• Si la ausencia de información es grande y no debida al azar, puede distorsionar de


manera considerable los resultados, en cuyo caso debemos plantearnos algún tipo de
estrategia de sustitución.

7 8
Procedimientos para la sustitución de los datos perdidos
Identificación y pertinencia de la sustitución
• Imputación mediante la media de la serie: sustituye los valores perdidos de la serie por la
Ejemplo No. 3
media de esa serie.
Se preguntan a 20 sujetos si están a favor o en contra de la ley del aborto (X1), utilizando
• Imputación mediante la media de los puntos adyacentes: sustituye los valores perdidos por
para ello una escala tipo Likert de 5 puntos. Asimismo, le piden que se posicionen en un
la media de los valores válidos circundantes
continuum de 1 a 10, según el grado de práctica religiosa (X2). La matriz de datos es la que
se muestra a continuación: • Imputación mediante la mediana de los puntos adyacentes: sustituye los valores perdidos
por la mediana de los valores circundantes.

X1 1 2 1 1 5 5 5 . 1 2 5 5 . . 3 4 5 5 . . • Imputación en base a una interpolación lineal: se utiliza el último valor válido antes del

X2 7 10 8 4 3 4 5 4 5 6 10 7 3 2 8 2 6 8 4 1 valor perdido y el primer valor válido después del valor perdido para realizar una
interpolación.
X3 1 1 1 1 1 1 1 2 1 1 1 1 2 2 1 1 1 1 2 2

Actitud al aborto • Imputación en base a la tendencia lineal en el punto: sustituye los valores perdidos de la

Porcentaje Porcentaje serie nueva por la tendencia lineal en ese punto. Se hace una regresión de la serie
Frecuencia Porcentaje válido acumulado existente sobre una variable índice escalada de 1 a n y los valores perdidos se sustituyen
Válidos 1 4 20.0 26.7 26.7
2 2 10.0 13.3 40.0 por sus valores pronosticados.
3 1 5.0 6.7 46.7
4 1 5.0 6.7 53.3
• Imputación mediante la media de subclases o método de Kalton: está especialmente
5 7 35.0 46.7 100.0 indicado en el caso de variables medidas en una escala de intervalo y consiste en asignar a
Total 15 75.0 100.0 los valores perdidos la media del grupo de sujetos al que pertenecen esos casos perdidos.
Perdidos Sistema 5 25.0
Total 20 100.0 • Imputación siguiendo el método de regresión lineal: se estiman los valores perdidos
mediante una regresión lineal múltiple, estableciendo para ello una serie de predictores.

Se divide la muestra en dos partes, los que contestaron X1 y los que no contestaron X1.

Se crea la variable X3 con los siguientes valores:

1 Si contestó X1

2 Si no contestó X1

X3

Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos Si Contestó en X1 15 75.0 75.0 75.0
No Contestó en X1 5 25.0 25.0 100.0
Total 20 100.0 100.0

Prueba de muestras independientes

Prueba de Levene
para la igualdad de
varianzas Prueba T para la igualdad de medias
95% Intervalo de
confianza para la
Diferencia Error típ. de diferencia
F Sig. t gl Sig. (bilateral) de medias la diferencia Inferior Superior
Práctica Religiosa Se han asumido
2.224 .153 2.991 18 .008 3.400 1.137 1.012 5.788
varianzas iguales
No se han asumido
3.999 13.272 .001 3.400 .850 1.567 5.233
varianzas iguales

9 10
Imputación de los Datos Perdidos con SPSS Variables de resultado

Ejemplo No. 4 Números de casos de


Nº de valores los valores no
Variable de perdidos perdidos Nº de casos Creando
No. X1 X1_1 X1_2 X1_3 X1_4 X1_5 resultado reemplazados Primero Último válidos función
1 MEDIAN(X
1 1 1 1 1 1 1 X1_3 3 1 18 18
1,2)
2 2 2 2 2 2 2
3 1 1 1 1 1 1
4 1 1 1 1 1 1
5 5 5 5 5 5 5
6 5 5 5 5 5 5 Variables de resultado
7 5 5 5 5 5 5
8 . 3.3 3.3 3.5 3 3.2 Números de casos de
9 1 1 1 1 1 1 Nº de valores los valores no
10 2 2 2 2 2 2 Variable de perdidos perdidos Nº de casos Creando
11 5 5 5 5 5 5 resultado reemplazados Primero Último válidos función
12 5 5 5 5 5 5 1 X1_4 3 1 18 18 LINT(X1)
13 . 3.3 4.3 4.5 4.3 4
14 . 3.3 4.3 4.5 3.7 4.2
15 3 3 3 3 3 3
16 4 4 4 4 4 4 Variables de resultado
17 5 5 5 5 5 5
18 5 5 5 5 5 5
Números de casos de
19 . 3.3 . . . 5 los valores no
Nº de valores
20 . 3.3 . . . 5.2 Variable de perdidos perdidos Nº de casos Creando
resultado reemplazados Primero Último válidos función
1 X1_5 5 1 20 20 TREND(X1)
X1_1=Media de la serie X1_2=Media de puntos adyacentes
X1_3=Mediana de puntos adyacentes X1_4=Interpolación lineal
X1_5=Tendencia lineal en el punto
Resumen del modelo

R cuadrado Error típ. de la


Variables de resultado Modelo R R cuadrado corregida estimación
1 .539a .290 .235 1.573
a. Variables predictoras: (Constante), No
Números de casos de
Nº de valores los valores no
Variable de perdidos perdidos Nº de casos Creando
resultado reemplazados Primero Último válidos función
1 X1_1 5 1 20 20 SMEAN(X1) Coeficientesa

Coeficientes
Coeficientes no estandarizad
Variables de resultado estandarizados os
Modelo B Error típ. Beta t Sig.
Números de casos de 1 (Constante) 1.778 .788 2.257 .042
Nº de valores los valores no No .172 .074 .539 2.305 .038
Variable de perdidos perdidos Nº de casos a. Variable dependiente: Actitud al aborto
resultado reemplazados Primero Último válidos Creando función
1 X1_2 3 1 18 18 MEAN(X1,2)

11 12
Imputación de datos ausentes por el procedimiento de Kalton Estadísticos

Desempeño Laboral
Ejemplo No. 5 N Válidos 30
Perdidos 0
Supongamos que deseamos obtener un modelo explicativo que nos ayude a predecir el
Media 6.63
desempeño laboral en un sector como puede ser el administrativo. En caso de lograrlo Mediana 7.00
estaremos en condición de imputar o sustituir los posibles casos ausentes en dicha variable por Moda 8
Desv. típ. 1.650
sus valores estimados, con un margen de error mínimo. Dicho de otro modo, una vez
Varianza 2.723
identificadas las variables con mayor capacidad predictiva, tendremos la posibilidad de estimar Rango 5
cuál será el desempeño laboral de un futuro trabajador, a partir de sus valores en esas Mínimo 4
Máximo 9
variables. Para ello, realizaremos previamente un estudio con una muestra de 30 sujetos que
Suma 199
ya están desempeñando ese puesto, con el fin de obtener dicho modelo a partir de cuatro
variables predictoras.
Desempeño Laboral

Porcentaje Porcentaje
V1: desempeño o rendimiento laboral Frecuencia Porcentaje válido acumulado
Válidos 4 6 20.0 20.0 20.0
V2: número de errores obtenido en un test de aptitudes administrativas
5 1 3.3 3.3 23.3
V3: puntuación en autoestima 6 5 16.7 16.7 40.0
V4: puntuación en un test de extroversión 7 7 23.3 23.3 63.3
V5: nivel de habilidad sociales, medida a través de un cuestionario, que agrupa a los 8 8 26.7 26.7 90.0
9 3 10.0 10.0 100.0
candidatos en tres categorías: bajo (entre 1 y 3), moderado (entre 4 y 6) y alto (entre Total 30 100.0 100.0
7 y 9).

V1 V2 V3 V4 V5 AE MV1 NV1 NV2 NV4 Correlaciones


7 0 8 4 4 2 7 7 0 4
8 2 8 0 3 1 8 8 2 0 Aptitudes
6 0 7 12 6 2 6 . 0 12 Desempeño Administr Habilidades
8 3 7 0 3 1 8 8 3 0 Laboral ativas Autoestima Extroversión Sociales
Desempeño Laboral Correlación de Pearson 1 -.825** .444* -.896** -.345
4 19 6 20 8 5 4 4 . 20
Sig. (bilateral) .000 .014 .000 .062
9 0 9 0 3 1 9 9 0 0
N 30 30 30 30 30
5 24 6 25 7 6 5 5 24 25
8 4 6 0 3 1 . 8 4 0 Aptitudes Administrativas Correlación de Pearson -.825** 1 -.591** .811** .167
9 0 8 0 7 1 9 9 0 . Sig. (bilateral) .000 .001 .000 .377
8 4 7 3 2 2 8 8 4 3 N 30 30 30 30 30
7 2 7 4 2 2 7 7 2 4 Autoestima Correlación de Pearson .444* -.591** 1 -.383* -.029
8 0 9 0 1 1 8 8 0 . Sig. (bilateral) .014 .001 .037 .880
6 32 5 15 2 5 . 6 32 15 N 30 30 30 30 30
8 4 6 0 5 1 8 8 . 0 Extroversión Correlación de Pearson -.896** .811** -.383* 1 .230
7 6 7 0 4 1 7 . 6 . Sig. (bilateral) .000 .000 .037 .221
7 8 5 4 5 2 . 7 8 4 N 30 30 30 30 30
8 0 4 0 3 1 8 . 0 0 Habilidades Sociales Correlación de Pearson -.345 .167 -.029 .230 1
6 19 3 0 8 4 6 6 19 0 Sig. (bilateral) .062 .377 .880 .221
4 27 3 25 1 6 4 . 27 25 N 30 30 30 30 30
7 12 3 5 3 2 7 7 12 5 **. La correlación es significativa al nivel 0,01 (bilateral).
4 28 34 25 5 6 4 4 28 25
*. La correlación es significante al nivel 0,05 (bilateral).
6 12 4 25 3 3 6 6 12 25
6 4 7 6 2 2 6 6 4 6
7 0 8 0 5 1 7 7 0 0
8 6 7 0 1 1 8 8 6 0
4 32 5 25 2 6 4 4 32 25
4 36 5 25 5 6 . 4 36 25
9 0 8 0 1 1 9 9 0 0
7 7 6 5 5 2 7 7 7 5
4 16 9 25 8 3 4 4 16 25

13 14
AE : Aptitud-Extroversión Variable MV1 con datos ausentes

V2 : menor o igual de 18 errores y mayor o igual de 19


Informe
V4: sujetos con puntuación de 0 en el test, entre 1 y 20, y superiores a 20
Desempeño Laboral-Perdidos
Aptitud-Extroversión Media N Desv. típ.
1 8.09 11 .701
V2 V4 AE
2 6.86 7 .690
<=18 0 1 3 5.00 2 1.414
4 6.00 1 .
<=18 >=1 y <= 20 2 5 4.00 1 .
6 4.25 4 .500
<= 18 > 20 3 Total 6.69 26 1.668
>= 19 0 4

>= 19 >=1 y <= 20 5 V1 V2 V3 V4 V5 AE MV1

>= 19 > 20 6 7 0 8 4 4 2 7
8 2 8 0 3 1 8
6 0 7 12 6 2 6
Informe 8 3 7 0 3 1 8

Desempeño Laboral 4 19 6 20 8 5 4
Aptitud-Extroversión Media N Desv. típ. 9 0 9 0 3 1 9
1 8.08 12 .669 5 24 6 25 7 6 5
2 6.88 8 .641
8 4 6 0 3 1 8
3 5.00 2 1.414
4 6.00 1 . 9 0 8 0 7 1 9
5 5.00 2 1.414 8 4 7 3 2 2 8
6 4.20 5 .447 7 2 7 4 2 2 7
Total 6.63 30 1.650
8 0 9 0 1 1 8
6 32 5 15 2 5 4
8 4 6 0 5 1 8
Tabla de ANOVA 7 6 7 0 4 1 7

Suma de Media 7 8 5 4 5 2 7
cuadrados gl cuadrática F Sig. 8 0 4 0 3 1 8
Desempeño Laboral * Inter-grupos (Combinadas) 66.375 5 13.275 25.302 .000
Aptitud-Extroversión Intra-grupos 12.592 24 .525 6 19 3 0 8 4 6
Total 78.967 29 4 27 3 25 1 6 4
7 12 3 5 3 2 7
4 28 34 25 5 6 4
6 12 4 25 3 3 6
6 4 7 6 2 2 6
7 0 8 0 5 1 7
8 6 7 0 1 1 8
4 32 5 25 2 6 4
4 36 5 25 5 6 4
9 0 8 0 1 1 9
7 7 6 5 5 2 7
4 16 9 25 8 3 4

15 16
Reconocimiento de Patrones en Datos Ausentes
Imputación de datos perdidos por el método de regresión
NV1 NV2 NV4
7 0 4
v2 v4 mv1 8 2 0
0 4 7 . 0 12
8 3 0
2 0 8 4 . 20
0 12 6 9 0 0
5 24 25
3 0 8 8 4 0
19 20 4 9 0 .
8 4 3
0 0 9 7 2 4
8 0 .
24 25 5
6 32 15
4 0 8 8 . 0
. 6 .
0 0 9 7 8 4
4 3 8 . 0 0
6 19 0
2 4 7 . 27 25
0 0 8 7 12 5
4 28 25
32 15 5 6 12 25
4 0 8 6 4 6
7 0 0
6 0 7 8 6 0
4 32 25
8 4 7
4 36 25
0 0 8 9 0 0
7 7 5
19 0 6
4 16 25
27 25 4
12 5 7
Estadísticos univariados
28 25 4
12 25 6 Desviación Perdidos No de extremos
a

4 6 6 N Media típ. Recuento Porcentaje Bajos Altos


NV1 26 7.19 4.552 4 13.3 0 1
0 0 7 NV2 28 26.64 14.213 2 6.7 0 0
6 0 8 NV4 27 10.89 12.411 3 10.0 0 1
a. Número de casos fuera del rango (C1 - 1.5*AIC, C3 + 1.5*AIC).
32 25 4
36 25 4
0 0 9 Patrones tabulados

7 5 7

b
16 25 4

Completo si...
Patrones
a
perdidos

NV2

NV4

NV1
Número de casos
22 22
3 X 25
1 X X 28
2 X 24
2 X 24
a. Las variables se ordenan según los patrones
perdidos.
b. Número de casos completos si las variables perdidas
en ese patrón (marcado con X) no se utilizan.

17 18
VALORES EXTREMOS Y OUTLIERS
Valores extremos

Número
del caso Valor
Puede hablarse de dos tipos de casos anómalos o atípicos. Un primer tipo se refiere a casos Experiencia en el puesto Mayores 1 5 42
2 13 41
que se distancias de forma sensible de la normalidad, o de las puntuaciones del resto de los
3 26 24
sujetos de la muestra, y a los que se denominan outliers. Un segundo tipo se refiere aquellos 4 27 22
casos en los que las puntuaciones de los sujetos se separan en mayor grado del resto de las 5 19 20a
Menores 1 28 0
puntuaciones, y a los que se les denomina valores extremos. 2 25 0
3 24 0
4 17 0
Valor superiores a 3
(extremo) 5 12 0b
a. En la tabla de valores extremos mayores sólo se muestra una
*
Valor superiores a lista parcial de los casos con el valor 20.
1.5 (outlier) b. En la tabla de valores extremos menores sólo se muestra una
0 lista parcial de los casos con el valor 0.

Tercer
Cuartil (Q3) Experiencia en el puesto Stem-and-Leaf Plot
Mediana
Frequency Stem & Leaf

18.00 0 . 000000000222334444
2.00 0 . 77
1.00 1 . 0
El bigote inferior se
extiende al valor 3.00 1 . 669
Primer adyacente - el valor 4.00 2 . 0024
Cuartil (Q1) más bajo dentro del
límite inferior
2.00 Extremes (>=41)

Stem width: 10
Each leaf: 1 case(s)
Ejemplo No. 6

Supongamos que queremos identificar la presencia de algún valor anómalo en la variable V5


(Experiencia en el puesto)
50

0 2 0 3 42 0 16 4 0 4 2 0 41 10 3 2 0 19 20 4 20 7 4 0 0 24 22 0 7 16 13
5
40

Descriptivos

Estadístico Error típ.


30
Experiencia en el puesto Media 9.07 2.145
Intervalo de confianza Límite inferior 4.68
para la media al 95% Límite superior
13.45
20
Media recortada al 5% 7.76
Mediana 4.00
Varianza 138.064
Desv. típ. 11.750
10
Mínimo 0
Máximo 42
Rango 42
Amplitud intercuartil 17 0
Asimetría 1.578 .427
Curtosis 2.027 .833 Experiencia en el puesto

19 20
Ejemplo de la influencia de casos extremos y outliers en un estudio de selección de
Resumen del modelo
personal
V1: Desempeño o rendimiento laboral, evaluado por sus supervisores. R cuadrado Error típ. de la
Modelo R R cuadrado corregida estimación
V2: El número de errores obtenido en un test de aptitudes administrativas 1 .818a .669 .645 .983
V4: La puntuación en un test de extroversión a. Variables predictoras: (Constante), Escala de Extroversion,
Aptitudes Administrativas

No. V1 V2 V4 ANOVAb
1 7 0 4
Suma de Media
2 8 2 0 Modelo cuadrados gl cuadrática F Sig.
1 Regresión 52.865 2 26.433 27.343 .000a
3 6 0 80 Residual 26.101 27 .967
4 8 3 0 Total 78.967 29
5 4 42 20 a. Variables predictoras: (Constante), Escala de Extroversion, Aptitudes
Administrativas
6 9 0 0 b. Variable dependiente: Desempeño Laboral
7 5 16 25
8 8 4 0 Coeficientesa

9 9 0 0 Coeficientes
Coeficientes no estandarizad
10 8 4 3 estandarizados os
11 7 2 4 Modelo B Error típ. Beta t Sig.
1 (Constante) 7.882 .247 31.894 .000
12 8 0 0 Aptitudes Administrativas -.091 .016 -.647 -5.720 .000
13 6 41 15 Escala de Extroversion -.033 .010 -.383 -3.382 .002

14 8 12 0 a. Variable dependiente: Desempeño Laboral

15 7 3 0
16 7 2 60
17 8 0 0
18 6 19 0 3
80
19 4 20 25
20 7 4 5
21 4 20 25
60
22 6 7 25
23 6 4 6
24 7 0 0
5
25 8 0 0 40 13

26 4 24 25
27 4 22 25
28 9 0 0
20

29 7 7 5
30 4 16 25

Aptitudes Administrativas Escala de Extroversion

21 22
TRANSFORMACIÓN DE VARIABLES
Resumen del modelo

R cuadrado Error típ. de la Una vez probados los supuestos de normalidad o igualdad de variancias, si éstos no cumplen
Modelo R R cuadrado corregida estimación
1 .896a .804 .787 .760
entonces podemos acudir a un contraste no paramétrico, sabiendo que es menos potente que
a. Variables predictoras: (Constante), Escala de Extroversion, su equivalente paramétrico. Precisamente, debido a esta falta de potencia, en ocasiones
Aptitudes Administrativas podemos optar por transformar la variable y mantener el contraste paramétrico elegido. De
esta forma, mediante la transformación de las variables podemos corregir la ausencia de
normalidad y la heterocedasticidad (o desigualdad de variancias).

ANOVAb Pero antes de llevar a cabo la transformación de una variable hemos de tener en cuenta las

Suma de Media características y forma de su distribución. Al respecto, Tukey recomienda distintos tipos de
Modelo cuadrados gl cuadrática F Sig. transformaciones según sea el grado de asimetría, así como la dirección de los casos
1 Regresión 56.793 2 28.397 49.123 .000a
Residual 13.874 24 .578 extremos.
Total 70.667 26
a. Variables predictoras: (Constante), Escala de Extroversion, Aptitudes
Administrativas Erikson y Nosanchuk representan los diferentes tipos de transformaciones propuestas por
b. Variable dependiente: Desempeño Laboral
Tukey a través de la siguiente escala:

Coeficientesa

Coeficientes
Coeficientes no estandarizad -1/X2 -1/X Log X √X X X2 X3 AntilogX
estandarizados os
Modelo B Error típ. Beta t Sig. Fuerte Suave Sin Suave Fuerte
1 (Constante) 8.127 .200 40.651 .000 cambio
Aptitudes Administrativas -.148 .021 -.728 -7.054 .000
Escala de Extroversion -.031 .012 -.279 -2.698 .013
a. Variable dependiente: Desempeño Laboral
Asimetría + Asimetría -

Cola hacia arriba Cola hacia abajo

Casos próximos al valor pequeño Casos próximos al valor grande

23 30

You might also like