You are on page 1of 29

2011

Apuntes de clases para guiar el uso del programa SPSS:


Prcticas de estadstica bsica
Un primer intento de resumir la estadstica bsica a modo de apuntes de clases para facilitar a otros interesados en aplicar esta herramienta en investigaciones de biologa y ecologa. Para utilizar este documento obligatoriamente leer los siguientes modelos estadsticos: t para grupos independientes y relacionados, Anova de una y de dos vas, Correlacin de Pearson y Spearman, Regresin, Prueba de Mann-Whitney, Kruskal-Wallis, Friedman y Wilcoxon. Tener bases en la utilizacin de Diseo de investigacin.

Jos Carlos Herrera-Flores Docente de la UAGRM 10/08/2011

Apuntes de clases para guiar el uso del programa SPSS:


Prcticas de estadstica bsica

Un primer intento de resumir la estadstica bsica a modo de apuntes de clases para facilitar a otros interesados en aplicar esta herramienta en investigaciones de biologa y ecologa. Para utilizar este documento obligatoriamente leer los siguientes modelos estadsticos: t para grupos independientes y relacionados, Anova de una y de dos vas, Correlacin de Pearson y Spearman, Regresin, Prueba de Mann-Whitney, Kruskal-Wallis, Friedman y Wilcoxon. Tener bases en la utilizacin de Diseo de investigacin.

M. Sc. Jos Carlos Herrera-Flores Docente de la UAGRM Santa Cruz de la Sierra - Bolivia 10/08/2011

I. INTRODUCCIN La estadstica es una herramienta que ayuda describir datos de acuerdo al diseo y principalmente de acuerdo a la pregunta de investigacin que corresponde o responde a una necesidad o problema que se requiere solucionarse con fines biolgicos, ecolgicos y socioeconmicos. Por lo anterior, para ejecutar los modelos estadsticos descriptivos e inferenciales se necesita conocer, como requisito: primero, la pregunta de investigacin y segundo el diseo de investigacin. Sin conocimiento de estos dos la investigacin no tiene validez su aplicacin. En este manual se asume que el alumno conoce estos dos requisitos. Por lo tanto se describe a continuacin en la forma que se ejecuta el SPSS de manera bsica en trabajos de biologa y ecologa. Principalmente se da a conocer las siguientes partes: introduccin al programa SPSS, manejo de base de datos, utilizacin estadsticos descriptivos, estadsticos inferencias (paramtricos y no paramtricos). Tambin se da a conocer la transformacin de datos.

II. INTRODUCCIN AL PROGRAMA Opciones para abrir diferentes archivos que corresponden a distintos formatos. Abrir nuevos archivos de Datos, Sintaxis, Resultado y Proceso. Archivo Nuevo Datos

Abrir archivos existentes en diferentes formatos, como el Excel, las opciones son Datos, Sintaxis, Resultados y Proceso. Archivo Abrir Datos

Exportar archivos del Excel

Indicar el rango de los datos existentes en Excel

Pantalla que muestra la base de datos extrados de Excel

Pantalla que muestra las caractersticas de diferentes tipos de variables

Pantalla que muestra los resultados de los anlisis estadsticos

III. ESTADSTICA DESCRIPTIVA a) FRECUENCIAS Analizar Estadsticos descriptivos Frecuencias La ventana de Frecuencias genera cuatro subventanas: Estadsticos, Grficos, Formato y Bootstrap. La ventana Estadsticos ofrece cuatro tipos de estadsticos: Valores percentiles, Tendencia central, Dispersin y Distribucin. La ventana de Grficos slo ofrece Grficos de barras, Grficos de barras (tortas) e Histogramas, este ltimo con opcin a curva normal, slo para variables continuas. Ventana principal

La ventana de Formato da la posibilidad de ordenar los valores, comparar variables y organizarlas.


Categrica Ordinal Cuantitativa Tendencia central Media Mediana Moda Dispersin Desviacin estandar Varianza Error Tipo Rando amplitud Distribucin Asimtrica Curtosis Grfico Barra Torta Normal X X X X X X X X X X X X X X X

X X

En la caracterizacin de datos, utilizando estadstica de tendencia central, percentiles, dispersin, distribucin y grficos, se considera los tipos de variables: Categrica, Ordinal y Cuantitativa, por ejemplo las variables categricas no se pueden someter a pruebas de Dispersin. Estas reglas en general estn en el cuadro izquierdo.

Resultados de estadstica descriptiva FRECUENCIAS


Statisti cs DAP N Valid Missing

Mean Std. Error of Mean Median Mode Std. Dev iation Variance Skewness Std. Error of Skewness Kurt osis Std. Error of Kurtos is Range Minimum Max imum Sum Percentiles 25 50 75

196 0 32, 3184 1, 05860 33, 1000 31, 50 14, 82033 219,642 ,644 ,174 1, 342 ,346 88, 50 6, 10 94, 60 6334,40 19, 7500 33, 1000 40, 7750

Estadstica de tendencia central son Media (Mean), Mediana (Median) y Moda (Mode); de dispersin son desviacin estndar (Std. Deviation), varianza (Varience), rango o amplitud (Range), mximo y mnimo; de distribucin son curtosis (Kurtosis) y asimtrica (Skewness). Las decisiones de normalidad, con valores de asimetra y curtosis, se realizan con el valor de 1,96. Valores calculados mayores a +1,96 y menores a -1,96 significa que no son normales. Pero los valores calculados que estn entre -1,96 y +1,96 significan que son normales (la muestra).

En los resultados se tiene Frecuencia, Porcentaje de lo que representa la frecuencia y el Porcentaje acumulativo. Es til para conocer los datos que se repiten, la frecuencia y el porcentaje que representa con respecto a los dems datos.

Muestra una distribucin de los datos, con respecto a la normalidad. Adems agrega datos de Media, Desviacin estndar (Std. Dev.) y el nmero de casos (N); aunque estos mismos datos se repiten en el cuadro de arriba. Esta opcin de grficos tambin muestra grficos de barra y torta. Para aplicar estos grficos se encuentran descritos en la parte final de la hoja anterior.

b) DESCRIPTIVOS Analizar Estadsticos descriptivos Descriptivos

Ventana principal

Este estadstico muestra resultados iguales al estadstico que se describi en Frecuencias, interpretndose de forma similar; PERO, con una diferencia, esta opcin es slo para variables continas.

c) EXPLORAR Analizar Estadsticos descriptivos Explorar Explorar abre una ventana, donde se coloca una variable dependiente y en la otra la variable categrica u ordinal.

Ventana principal

La ventana principal da opcin a otras subventanas: Estadsticos, Grficos, Opciones y Bootstrap. Tambin da una opcin rpida de salida de resultados: Estadsticos, Grficos o Ambos anteriores. Por omisin viene sealado en Ambos, como se muestra en el grfico (Both).

Descriptivos: tiene opcin para la estadstica descriptiva, pero no tiene opcin para elegir estadstica de tendencia central o dispersin. Estimadores robustos centrales M: es la media ponderada que recibe poca influencia de los valores extremos, los estimadores son Huber, Andrew, Hampel y Tukey. Valores atpicos: se muestran los 5 valores ms extremos. Percentiles: son aplicados de acuerdo a los datos, con diferentes mtodos. Esta opcin muestra Diagramas de caja, Descriptivos (De tallo y hojas e Histograma), Grficos con pruebas de normalidad y homogeneidad de varianzas (Transformada o no transformada).

10

Resultados de estadstica descriptiva EXPLORAR Gua principal para A,B,C

H I J A= Resumen de los casos, B= Estadstica descriptiva, C= Pruebas de normalidad, D= Homogeneidad de varianza, E= Histograma, F= Tallo y hojas, G= Q-Q normal (puntos alineados a la lnea significa normal), H= Tendencia Q-Q (puntos al azar significa normalidad), I= Grfico de caja (se observan puntos extremos), y J= Pendiente. 11

d) TABLAS DE CONTINGENCIA (Chi-cuadrado) Pruebas para frecuencias Primero se da peso a las frecuencias: Datos Segmentar archivo

Analizar Estadsticos descriptivos Tablas de contingencia

El estadstico tiene opcin para cuatro ventanas, las principales son: Estadsticos y Casillas. La primera ofrece modelos que estn basados en asociacin. La segunda da forma a las celdas de los resultados.

12

IV. PRUEBAS PARAMTRICAS Los modelos deben cumplir con los siguientes puntos principales: los datos deben ser normales, las varianzas en los que se comparan deben ser similares. a) T PARA MUESTRAS INDEPENDIENTES (t para dos grupos independientes) Analizar Comparar medias Prueba T para muestras independientes

Ventana principal

RESULTADOS

Pruebas de significancia

Una forma de interpretar es lo siguiente: Los dimetros mayores y menores del tallo de un pino son similares en los bosques de Canad (t=0,537; df=194; p=0,592).

13

b) T PARA MUESTRAS RELACIONADAS (t pareada) Analizar Comparar medias Prueba T para muestras relacionadas

Se desplaza una ventana principal.

En esta ventana se puede colocar ms de un par de anlisis. Ahora con A20022003, pero se puede agregar otro, como B2003-C2004, y sucesivamente.

RESULTADOS

Para cada par saca un estadstico descriptivo simple.

Es la correlacin de Pearson el que es estudiado ms adelante.

Cuadro principal de este anlisis relacionado, o t pareado. El crecimiento diamtrico del isigo es significativo entre el ao 2002 y 2003 (t= -12,7; df=310; p<0,05). 14

c) ANOVA DE UNA VA (un factor) Analizar Modelo lineal general Univariante Ventana principal

Post hoc (anlisis a posterior)

Comparaciones de tendencias. Si las medias son desiguales, las VI y VD estn relacionados, y entonces cual es la tendencia: lineal, cuad Anlisis a posterior, descrito abajo En Opciones est un estadstico descriptivo, que da un resultado resumido. Existe un anlisis de homogeneidad de varianzas. Posteriormente est un grfico de medias. Finalmente en las opciones para excluir valores segn el caso.

15

Cuando existen diferencias entre las medias comparadas, para conocer entre cuales, es necesario recurrir a un anlisis a posteriori, para ello existen modelos que asumen varianzas iguales y no. VARIANZAS IGUALES: DMS o LSD, Bonferroni y Sidak estn basados en la distribucin de T, la primera no controla la tasa del error, la segunda y la tercera controlan (2da conservador y la 3ra menos conservador). Scheff basado en la distribucin de F, solo para pares y es muy conservador. REGWF, en un modelo paso a paso, est basado en distribucin de F, ms potente que los anteriores, se utiliza cuando las muestras no son iguales, es bien rgido. REGWQ, paso a paso, basado en la distribucin de rango estudentizado y para grupos de muestras iguales. SNK, basado en la distribucin rango estudentizado. Tukey, equivale a utilizar mtodo Student, mtodo con mayor aceptacin. Tukey-b, prueba del rango mltiple, por pasos, basado en la distribucin de rango estudentizado. GT2 de Hochberg, similar al Tukey, pero est basado en distribucin del modelo mximo estudentizado (mejor el Tukey). Waller-Duncan, utiliza distribucin de t de student y una aproximacin bayesiana (muestras iguales o desiguales). Dunnett, sirve para comparar cada grupo con un grupo control. VARIANZAS DESIGUALES. T2 de Tamhane, basado en la distribucin del mdulo mximo estudentizado. Games-Howell, similar Tukey, es el que mejor controla la tasa de error. C de Dunnett, es un mtodo ms conservadora que Games-Howell.

16

Resultados de ANOVA DE UNA VA

17

d) ANOVA DE DOS VAS (ms de dos factores) Analizar Modelo lineal general Univariante Esta ventana de dos vas muestra 6 subventanas: modelo personalizado, tendencias, figuras, anlisis a posterior, graba residuos y muestra opciones. Con la primera se construye un modelo cuando son completamente aleatorizados, los que se pueden hacer con interaccin, con bloques aleatorios, modelos jerrquicos, etc.

Suma de cuadrados: I, para grupos iguales y modelos anidados; II, modelos equilibrados y anidados; III, cualquier modelo, no equilibrados, sin casillas vacas; IV, cualquier modelo con casillas vacas. Estos contrastes o tendencia tiene sentido en regresin lineal.

Ayuda a construir un grfico de acuerdo al anlisis que uno realiza. El ejemplo muestra lo siguiente:

18

Este tipo de anlisis es para conocer de la distribucin de los residuos, los que deben tener una distribucin normal. Entre el pronosticado y el residuo tipificado debe formar una nube de punto en un grfico.

Del factor que se elija se realiza un anlisis asumiendo varianzas iguales o desiguales. Los modelos a posteriori ya fueron explicados en anova de una va.

Para todo el modelo o una parte de ella puede hacer anlisis de comparacin de medias con tres estadsticos (Tukey, Bonferroni) tambin ofrece estadstica descriptiva, homogeneidad de varianzas, un grfico de residuos, entre los principales.

19

e) CORRELACIN BIVARIADA Analizar Correlaciones Bivariadas

La ventana muestra un anlisis paramtrico (correlacin de Pearson) y no paramtrico (correlacin de Spearman). La confiabilidad de los resultados se puede obtener con dos o una cola, que depende del objetivo del anlisis.

f) CORRELACIN PARCIAL Analizar Correlaciones Parciales

20

g) REGRESIN LINEAL Analizar Regresin Lineales

Esta ventana principal tiene opcin para 4 subventanas: Estadsticos, Grficos, Guardar residuos, Opciones y Bootstrap.

Estima el coeficiente de regresin, el modelo de regresin, el R2 cuadrado, estadstica descriptiva y analiza los residuos (Durbin-Watson).

21

Expone los residuos, en forma de dispersin, saca histograma y su grfico de normalidad.

Permite grabar los residuos, otros valores para analizar, etc.

Permite condicionar el criterio de anlisis, que puede ser usando prueba de F en probabilidades o colocando los valores de F.

22

V. TRANSFORMACIONES Las variables continuas es mejor analizarlas con las pruebas paramtricas, porque es ms precisa en la estimacin. Cuando estas variables no tienen normalidad y tampoco entre los comparando tienen unas varianzas similares, se recurre a la transformacin para que cumplan los dos requisitos y entre otros, como se muestra en el siguiente cuadro.

Para ejecutar la transformacin uno puede orientarse de acuerdo a la distribucin que presentan los datos. Las distribuciones comunes se muestran en el siguiente cuadro.

Adems las transformaciones se ejecutan de acuerdo al tipo de variables que se maneja en la investigacin, como se muestra en el siguiente cuadro.

23

A continuacin se muestra cmo se puede transformar los datos en SPSS, para recordar, primero uno debe conocer la distribucin y luego el tipo de variable, caso contrario la transformacin sera intil. Transformar Calcular variable

24

VI. PRUEBAS NO PARAMTRICAS a) MANN-WHITNEY Tambin: Kolmogorov-Smirnov, Moses, Wald-Wolfowitz. Analizar Pruebas no paramtricas Cuadros de dilogo antiguos 2 muestras independientes

25

b) KRUSKAL-WALLIS Tambin: Jonckheere-Terpstra, Mediana. Analizar Pruebas no paramtricas Cuadros de dilogo antiguos K muestras independientes

26

c) WILCOXON Tambin: Signo, McNemar, Homogeneidad marginal. Analizar Pruebas no paramtricas Cuadros de dilogo antiguos 2 muestras relacionadas

27

d) FRIEDMAN Tambin: Kendall, Cochran. Analizar Pruebas no paramtricas Cuadros de dilogo antiguos K muestras relacionadas

VII. MODELOS DE BASE DE DATOS Los modelos estadsticos descritos requieren que los datos estn de una forma especfica, caso contrario los anlisis no tienen validez. A continuacin se muestran las formas de datos que se deben tener para analizar con los modelos estadsticos.

28

FORMA DE COLOCAR DATOS EN PLANILLAS ELECTRONICAS PARA ANALIZAR CON DIFERENTES PRUEBAS UTILIZANDO LOS PROGRAMAS SYSTAT Y JMP

PRUEBAS PARAMETRICAS
t de grupos
Categora GRUPO$ Noind

ANOVA DE 1 VIA
Un factor GRUPO$ Noind

ANOVA DE 2 VIAS
Dos factores BLOQUE$ TRATA$ NoInd

t Pareada
2 muestras pareadas
ANTES DESPUES

CORRELACION
asociacin
LARGO ANCHO

REGRESION
Prediccin
DAP DOSEL

F F F F F F F F O O O O O O O

7 6 9 6 6 12 12 15 8 5 3 5 17 4 4

F F F F F F F O O O O O O T T T T T T T

9 9 17 15 12 3 20 15 3 20 18 19 7 4 16 8 8 17 2 19

1 1 1 2 2 2 3 3 3 4 4 4 5 5 5

I II III I II III I II III I II III I II III

82 67 65 77 68 72 62 66 90 87 72 73 82 84 70

42 46 44 70 51 47 52 51 63 62 50 53 45 69 49

43 77 85 73 40 74 77 50 70 73 65 49 73 50 61

86 89 76 81 65 72 80 84 68 66 80 84 63 78 73

21 20 28 27 28 26 49 49 48 55 34 25 21 21 54

81 76 48 81 60 87 97 91 45 85 58 88 51 60 93

82 98 70 98 87 76 60 80 58 75 83 68 52 58 78

Ejecucin en SYS:Stats, t-test, two group

Stats, Analy(ANOVA), Estimate

Stats, Gener(GLM), Estimate

Stats, t-test, paried

Stats, correlations, simple

Stats, regression, linear

Variables= indep depen indep depen indep indep depen depen depen depen depen Tipos categ interva categ interva categ categ interva interva interva interva interva Cuando los datos no tienen una distribucin normal, sus varianzas son heterogeneas, etc. se recurre a las pruebas no paramtricas que son anlogas a las pruebas paramtricas, por debajo de cada prueba se citan:

indep interv

depen interv

PRUEBAS
Mann Whitney Kruskal Wallis

NO

PARAMETRICAS
Wilcoxon Spearman

Friedman?

29