Transformacion de Datos

TRANSFORMACIN DE
DATOS
Profesor
Juan Barile Sanhueza
Y si los datos no siguen una distribucin
normal?...
Cuando se analizan datos medidos por una variable

cuantitativa continua, las pruebas estadsticas de
estimacin y contraste frecuentemente empleadas
se basan en suponer que se ha obtenido una
muestra aleatoria de una distribucin de probabilidad
de tipo normal. Pero en muchas ocasiones esta
suposicin no resulta vlida, y en otras la sospecha
de que no sea adecuada no resulta fcil de
comprobar, por tratarse de muestras pequeas.
En estos casos se disponen de dos posibles
mecanismos:
los datos se pueden transformar de tal manera
que sigan una distribucin normal,
se puede acudir a pruebas estadsticas que no se
basan en ninguna suposicin en cuanto a la
distribucin de probabilidad a partir de la que
fueron obtenidos los datos, y por ello se
denominan pruebas no paramtricas mientras que
las pruebas que suponen una distribucin de
probabilidad determinada para los datos se
denominan pruebas paramtricas.
Considerar que:
Los datos transformados son an los mismos,
solamente estn expresados en una escala
diferente. Por ejemplo, en vez de comparar largos
de la concha de caracoles en mm, se comparan
largos de concha en unidades de logaritmos de mm.
Si se cambia la escala (transformamos los datos),
todas las observaciones, de todos los grupos a
comparar deben ser transformadas. As, si uno de
los grupos o nivel de un tratamiento a comparar
presenta desviaciones importantes de la normalidad,
mientras la distribucin en los otros grupos se ve
aproximadamente normal. Debemos buscar una
transformacin que mejore normalidad en todos los
grupos.
Procedimientos para verificar el ajuste a una
distribucin de probabilidad
Existen diferentes pruebas para verificar el ajuste
de nuestros datos a una distribucin de
probabilidad. Las ms utilizadas son:
Prueba de Kolmogorov-Smirnov
Prueba de Shapiro-Wilks
Contraste de Pearson
Prueba de Kolmogorov-Smirnov
Este contraste, que es vlido slo para variables
continuas, compara la funcin de distribucin
(probabilidad acumulada) terica con la observada, y
calcula un valor de discrepancia (D), que
corresponde a la discrepancia mxima en valor
absoluto entre la distribucin observada y la
distribucin terica, proporcionando asimismo un
valor de probabilidad P, que corresponde, si estamos
verificando un ajuste a la distribucin normal, a la
probabilidad de obtener una distribucin que discrepe
tanto como la observada si verdaderamente se
hubiera obtenido una muestra aleatoria, de tamao n,
de una distribucin normal.
Prueba de Shapiro-Wilks
Aunque esta prueba es menos conocida es la que
se recomienda para contrastar el ajuste de
nuestros datos a una distribucin normal, sobre
todo cuando la muestra es pequea (n<30).
Mide el ajuste de la muestra a una recta, al
dibujarla en papel probabilstico normal. Este tipo
de representacin tambin lo proporcionan
algunos programas de estadstica, de tal manera
que nos permite adems apreciar el ajuste o
desajuste de forma visual:
En escala probabilstica normal se representa en el eje
horizontal, para cada valor observado en nuestros datos, la
funcin de distribucin o probabilidad acumulada
observada, y en el eje vertical la prevista por el modelo de
distribucin normal. Si el ajuste es bueno, los puntos se
deben distribuir aproximadamente segn una recta a 45.
En la imagen vemos que en este ejemplo existe cierta
discrepancia.
Posibles soluciones cuando se rechaza la
hiptesis de normalidad
Si se rechaza o se duda de la normalidad de los
datos, existen varias soluciones posibles:
Si la distribucin es ms apuntada que la normal
(mayor parte de los valores agrupados en torno
de la media y colas ms largas en los extremos),
se debe investigar la presencia de
heterogeneidad en los datos y de posibles valores
atpicos o errores en los datos. La solucin puede
ser emplear pruebas no paramtricas.
Si la distribucin es unimodal y asimtrica, la
solucin ms simple y efectiva es utilizar una
transformacin para convertir los datos en
normales.
Cuando la distribucin no es unimodal hay que
investigar la presencia de heterogeneidad, ya que
en estos casos la utilizacin de transformaciones
no es adecuada y los mtodos no paramtricos
pueden tambin no serlo.
Transformaciones para conseguir datos normales
La utilizacin de transformaciones para lograr que los
datos se ajusten a una distribucin normal es en
muchas ocasiones la solucin ms natural, ya que
existen gran cantidad de parmetros biolgicos que
tienen una distribucin asimtrica, figura de la
izquierda, y que se convierten en aproximadamente
simtricas al transformarlas mediante el logaritmo.
La transformacin logaritmica (log x)
Cuando la desviacin tpica de los datos es
proporcional a la media o cuando el efecto de los
factores es multiplicativo, en lugar de aditivo, est
indicado el uso de la transformacin logartmica. Si
los efectos de los tratamientos son multiplicativos,
se producirn grandes diferencias entre las
varianzas de los tratamientos.
Si la variable contiene valor 0, o incluso si existen
valores muy pequeos, ser adecuado emplear la
transformacin ln(x+n). Donde n es 1,2, 3 etc.
Ejemplo
A B El efecto del tratamiento B es
40 80
multiplicativo,al aplicar el log x
20 40
30 60
cambiar los efectos
15 30 multiplicativos por efectos
25 50 aditivos
A B Log A Log B
Media Estadstico 26,0000 52,0000 1,3908 1,6919
Desv. tp. Estadstico 9,61769 19,23538 ,16301 ,16301
Varianza Estadstico 92,500 370,000 ,027 ,027
Asimetra Estadstico ,590 ,590 -,054 -,054
Error tpico ,913 ,913 ,913 ,913
Curtosis Estadstico -,022 -,022 -,498 -,498
Error tpico 2,000 2,000 2,000 2,000
Al aplicar la transformacin, las varianzas se han igualado.
Puesto que los datos son inventado se obtienen resultados
exactos pero con datos reales lo ms probable que las
varianzas mostrarn algunas veces rangos aceptables de
homogeneidad
Otras transformaciones habitualmente empleadas son x, 1/x y
1/x2, que tambin precisan sumar una cantidad a cada valor si
existen ceros.
Estas transformaciones comprimen los valores altos de los
datos y expanden los bajos, en el siguiente orden de menor a
mayor:x , ln x, 1/x, 1/x2
Si la concentracin de datos en el lado de la
derecha y la cola en la izquierda, se puede utilizar
la transformacin x2, x3 y antilog nombradas de
menor a mayor que comprime la escala para
valores pequeos y la expande para valores altos.
Cuando los datos son proporciones o porcentajes
se utilizan las transformaciones basadas en
arcoseno. En este caso, si los valores estn
distribuidos homogneamente entre 0 y 100% o
entre 20 y 80% etc dando una media cercana a
50% no es necesario transformar los datos. Cuando
los datos promedios estn por sobre o bajo el 50%
sea por ejemplo un 30% o un 90% la curva ser
muy asimtrica y ser necesario una transformacin
de los datos para acercarse a la distribucin normal
Ejemplo
Por ejemplo tenemos los siguientes porcentajes
A 85 82 83 79 81 78 80 88
B 45 51 50 56 53 47 55 52
arcosenA 67,2 64,9 65,6 62,7 64,2 62,0 63,4 69,7
arcosenB 42,1 45,6 45,0 48,4 46,7 43,3 47,9 46,1
Estadsticos descriptivos
A B arcsenA arcsenB
Media Estadstico 82,0000 51,1250 64,9625 45,6375
Desv. tp. Estadstico 3,29502 3,75832 2,52922 2,15402
Varianza Estadstico 10,857 14,125 6,397 4,640
Asimetra Estadstico ,767 -,431 ,894 -,445
Error tpico ,752 ,752 ,752 ,752
Curtosis Estadstico ,138 -,601 ,450 -,562
Error tpico 1,481 1,481 1,481 1,481
Pruebas de normalidad
Kolmogorov-Smirnov Shapiro-Wilk
Estadstico gl Sig. Estadstico gl Sig.
A ,131 8 ,200(*) ,957 8 ,785
B ,132 8 ,200(*) ,965 8 ,856
arcsenA ,150 8 ,200(*) ,946 8 ,667
arcsenB ,134 8 ,200(*) ,963 8 ,839
* lmite inferior de la significacin verdadera.
OJO
En todos los casos para los clculos estadsticos
basados en la teora normal, se utilizarn los
valores transformados, pero despus para la
presentacin de los resultados se efectuar la
transformacin inversa para presentarlos en su
escala de medida natural.
Pruebas no paramtricas
Son aquellas que no presuponen una distribucin
de probabilidad para los datos, por ello se conocen
tambin como de distribucin libre.
En la mayor parte de ellas los resultados
estadsticos se derivan nicamente a partir de
procedimientos de ordenacin y recuento, por lo
que su base lgica es de fcil comprensin.
En estos casos se emplea como parmetro de
centralizacin la mediana, que es aquel punto para
el que el valor de X est el 50% de las veces por
debajo y el 50% por encima.
Prueba de Wilcoxon de los rangos con signo.
Permite comparar nuestros datos con una mediana terica
(ejemplo: un valor publicado en un artculo).
Prueba de Wilcoxon para contrastar datos pareados

Prueba de Mann-Whitney:para comparar dos series de
valores de una variable continua obtenidas en muestras
independientes.
Prueba de Kruskal-Wallis para comparar K muestras

Prueba de Friedman para comparar K muestras
pareadas (bloques)
Coeficiente de correlacin de Spearman para

rangos
Prueba de rachas de Wald-Wolfowitz

Transformacion de Datos

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Transformacion de Datos

Uploaded by

Copyright:

Available Formats

TRANSFORMACIN DE

Cuando se analizan datos medidos por una variable

Prueba de Wilcoxon para contrastar datos pareados

Prueba de Kruskal-Wallis para comparar K muestras

Coeficiente de correlacin de Spearman para

Prueba de rachas de Wald-Wolfowitz

You might also like