You are on page 1of 32

ANOVA UNIDIRECCIONAL

MODELOS CON UN SOLO CATEGÓRICO VATICINADOR

Hasta este punto, nos hemos basado en modelos de regresión donde


las variables predictoras han sido tratadas como variables continuas.
Nuestro propósito en este capítulo y los siguientes dos es examinar
nuestro enfoque básico para el análisis de datos cuando los
predictores son variables categóricas. En el lenguaje de los libros
tradicionales de estadística, los capítulos anteriores se referían a la
regresión múltiple. El presente capítulo se refiere a modelos de
análisis de varianza de una vía (ANOVA) o, de manera equivalente,
modelos con un único predictor categórico. En el próximo capítulo
consideramos modelos que tienen múltiples predictores categóricos,
o modelos ANOVA de orden superior. El capítulo 10 está dedicado a
los modelos en los que algunos predictores son categóricos y otros
son continuos. Tales modelos han sido tradicionalmente etiquetados
como análisis de modelos de covarianza. Al integrarlos en un enfoque
común, no solo exploraremos estos temas tradicionales, sino que
también consideraremos otros que amplíen considerablemente el tipo
de preguntas que podemos formular a nuestros datos, en el contexto
de variables predictoras categóricas. En todo momento
continuaremos utilizando nuestro enfoque básico para la inferencia
estadística, probando hipótesis nulas mediante la comparación de
modelos aumentados y compactos.

EL CASO DE UN PREDICTOR CATEGORICO CON DOS NIVELES

La figura 8.1 contiene datos hipotéticos de un estudio en el que se evaluó el


impacto de un curso de capacitación SAT. Veinte estudiantes de último año de
secundaria fueron asignados aleatoriamente para tomar el curso de
capacitación de 2 semanas, diseñado para mejorar el rendimiento del SAT, o
para controlar una condición de no curso. Como podemos ver, 10 estudiantes
terminaron en cada uno de los dos grupos. Al final del período de 2 semanas,
los 20 estudiantes tomaron el examen SAT y se registró su desempeño. Lo que
nos gustaría hacer es examinar si el curso marcó una diferencia en el
rendimiento posterior. Por lo tanto, nuestra pregunta es si podemos predecir de
manera confiable el rendimiento posterior del SAT en función de si un
estudiante estaba en el grupo de Curso o en el grupo de control Sin Curso. Si
vamos a decirle a la computadora que especifique un modelo en el que se
predice el rendimiento del SAT en cuál de los dos grupos estuvo un estudiante,
necesitamos alguna forma de codificar o representar numéricamente la variable
del grupo. Esta variable es categórica en lugar de numérica o continua, lo que
significa que los estudiantes en los dos grupos difieren en si han tomado el
curso o no, pero no implica ninguna representación numérica automática de
esa diferencia. Dichas variables requieren algún esquema de codificación para
representarlas numéricamente, de modo que puedan usarse como variables
predictoras en los modelos. Resulta que cualquier representación numérica de
esta variable de grupo funcionaría, siempre y cuando usemos esa
representación numérica consistente.

Por coherente uso, queremos decir que si un valor dado en la variable


que
representa el grupo (curso versus ningún curso) numérico - ally se
asigna a un grupo, luego cada estudiante en ese grupo tiene el
mismo valor en la variable, y no
estudiante en el otro grupo tiene ese valor.
Para ilustrar, supongamos que creamos una variable Xi para
representar grupo numéricamente, asignando arbitrariamente el valor
de -1 para estudiantes en el grupo Sin curso y +1 a los estudiantes en
el grupo del curso. Desde cada estudiante
está en un grupo u otro, todos los estudiantes tienen valores de –1 o
+1 en la variable Xi. Tenga en cuenta que nuestro propósito de crear
esta variable es simplemente diferenciar: tiene numéricamente entre
los dos grupos. Desde grupo es una variable categórica, sin orden de
rango o intervalo la información necesita ser preservada en nuestro
esquema de codificación.
Con la misma facilidad podríamos haber dado el valor de –1 a el
grupo del curso y +1 al grupo sin curso.
Del mismo modo, podríamos haber dado el valor de 203 a estudiantes
en el grupo del curso y el valor de –20.5 a estudiantes en el grupo Sin
curso. El caso es que
Los valores que representan la variable categórica se definen
arbitrariamente, pero deben ser utilizado constantemente.

En todo el resto del libro usaremos una convención para codificar


nominal predictores conocidos como códigos de contraste. Los
códigos de contraste son simplemente uno de los posibles esquemas
de codificación arbitraria para representar numéricamente
predictores categóricos. Dos las condiciones definen códigos de
contraste y los diferencian de otros esquemas de codificación. por
ahora, solo definiremos una de estas dos condiciones. El otro solo es
relevante cuando la variable categórica tiene más de dos categorías y
se dará más adelante en este capítulo. Definamos un valor en una
variable categórica codificada por contraste Xi como k ("lambdak"),
donde el subíndice k se refiere al nivel de la variable categórica que
se codifica. En esto caso, k se refiere a los dos niveles de la variable
de grupo: Curso versus Ningún curso. A través de niveles de k, o en
todas las categorías de la variable, un código de contraste es uno
donde:
Tenga en cuenta que estamos sumando aquí a través de niveles o
categorías en lugar de entre individuos observaciones En otras
palabras, la condición es que los valores de la variable de contraste
sumen a cero en las dos categorías, no en las observaciones
individuales en esas dos categorías. En nuestro ejemplo, los valores
de +1 para estudiantes en el grupo del curso y –1 para estudiantes en
el grupo Sin curso constituyen valores de una variable codificada por
contraste, ya que la suma de estos dos valores en las dos categorías
son iguales a cero. Otro código de contraste válido
La variable usaría valores de +.5 para el grupo del curso y –.5 para el
grupo sin curso.
Sin embargo, tenga en cuenta que los valores de 203 para el grupo
Curso y –20.5 para el No curso grupo no cumple la condición para una
variable codificada por contraste. Tenga en cuenta también que en
este Por ejemplo, los valores de una variable codificada por contraste,
digamos +1 y –1, suman cero no solo en las dos categorías pero
también en los 20 estudiantes en esas dos categorías. Esta será el
caso cuando se use una variable codificada por contraste y cuando
haya un valor igual número de observaciones en los dos grupos o
categorías. Si hubiéramos tenido más estudiantes en uno de los dos
grupos que en el otro, luego la suma de los valores en los dos grupos
sería cero, pero la suma de los valores de todos los alumnos no lo
sería.
En las siguientes secciones, utilizaremos dos predictores diferentes
codificados por contraste para predecir el rendimiento del SAT con los
datos presentados en la Figura 8.1. Primero usaremos los valores de
+1 y –1 y luego usaremos los valores de +.5 y –.5. Estos posibles los
valores de un predictor codificado por contraste son simplemente dos
de un número infinito de tales valores que podrían usarse. En un
punto posterior, también discutiremos brevemente la estimación de
modelos que utilizan convenciones de codificación distintas de los
códigos de contraste.

Modelo de estimación e inferencia con un predictor codificado por


contraste
Comenzamos por estimar un modelo en el que predecimos el
rendimiento del SAT con un código de contraste predictor con valores
de +1 para estudiantes en el grupo del curso y –1 para estudiantes en
el grupo Sin curso. SAT es, por lo tanto, nuestra variable Yi y nuestro
predictor, Xi, es el código de contraste vaticinador. Nuestro modelo es
el modelo de regresión simple con un solo predictor variable del
Capítulo 5. Vamos a querer comparar este modelo, haciendo
predicciones de SAT condicional en Xi, con uno compacto en el que
predecimos el mismo valor para cada estudiante independientemente
de si estaban en el grupo del curso o en el grupo sin curso:
MODELO A: Yi =? 0 +? 1Xi +? I
MODELO C: Yi =? 0 +? I
Suponiendo que? 1 ≠ 0, el modelo aumentado hace predicciones
condicionales de SAT
rendimiento, condicional a si los estudiantes estaban en el grupo del
curso o no
Curso grupal. Por otro lado, el modelo compacto hace la misma
predicción para todos
estudiantes, independientemente de su grupo.
Las estimaciones de mínimos cuadrados para estos modelos son:
MODELO A: Y ˆ
i = 591 + 14Xi
MODELO C: Y ˆ
i = 591
Ambos modelos, así como los datos en los que se basan, están
graficados en la Figura
8.2. La función de predicción horizontal es el Modelo C, mientras que
la línea de predicción que hace las predicciones diferenciales son el
Modelo A. Las sumas de los errores al cuadrado de estos dos modelos
son 16,060 para el modelo A y 19,980 para el modelo C.

Los cálculos de estas dos sumas de cuadrados se muestran en la


Figura 8.3 donde
derivar para cada observación el valor predicho de cada modelo, el
residual y el
residual al cuadrado Las sumas de estos residuos al cuadrado, dados
en la última fila de la Figura 8.3, son las sumas de errores al cuadrado
para los dos modelos.
La comparación de estos dos modelos, preguntando si las
predicciones condicionales
el predictor codificado por contraste hace un mejor trabajo que las
predicciones incondicionales, produce:

El modelo A contiene dos parámetros y el modelo C uno, por lo tanto,


PA - PC es igual a 1 y n - PA es igual a 18. En consecuencia, podemos
calcular el estadístico F para esta comparación del valor calculado de
PRE o de los valores de las sumas de cuadrados:

Estas estadísticas no alcanzan sus valores críticos, con 1 y 18 grados


de libertad,
con  fijado en .05. Por lo tanto, no podemos concluir que las
predicciones condicionales de Los SAT son significativamente mejores
que los incondicionales realizados por el Modelo C.
Hasta ahora, una vez que hemos codificado nuestro predictor
categórico, no hay nada diferente en este modelo de regresión simple
de aquellos modelos simples que usan predictores continuos que se
discutieron en el Capítulo 5. La estimación de los parámetros del
modelo y los cálculos de PRE y F proceden igual que antes. Dado que
todos los supuestos subyacentes al uso de los valores críticos de PRE
y F implican suposiciones sobre la distribución de Yi, o realmente de?
i, y dado que la naturaleza categórica de Xi no tiene ningún efecto en
la distribución de? i, ninguno de los supuestos subyacentes a este
análisis se ha visto afectado por el uso de
predictor categórico.
Sin embargo, lo que ha cambiado un poco es la interpretación de la
estimación
parámetros del modelo y, en consecuencia, la interpretación de la
inferencia estadística
resultados. No es el caso que las viejas interpretaciones (las
desarrolladas en el Capítulo 5) sean incorrecto, para el valor de la
intersección en el modelo aumentado, 591, sigue siendo el predicho
valor de Yi cuando Xi es igual a cero. El coeficiente para Xi, 14, sigue
siendo una pendiente: la cantidad por el cual el valor predicho de Yi
cambia para cada unidad de aumento en Xi. Y PRE y F todavía nos
cuenta sobre la reducción en los errores de predicción. Más bien,
cuando tenemos categórica predictores, nuevas interpretaciones de
estas estadísticas se hacen posibles.
Para comprender estas nuevas interpretaciones, es útil considerar lo
previsto
valores que hace el modelo aumentado. Estos están contenidos en la
Figura 8.3. Si nosotros estamos tratar con un estudiante en el grupo
del curso, el valor pronosticado del aumento modelo es:

Y si estamos tratando con un estudiante en el grupo Sin curso, el


valor predicho de
El modelo aumentado es:

Estos valores pronosticados resultan ser los puntajes SAT promedio


de los 10 estudiantes en cada de los dos grupos. Es decir, 605 es el
puntaje promedio de SAT de aquellos estudiantes que recibieron el
curso, y 577 es el puntaje promedio de SAT de aquellos estudiantes
que no lo hicieron. Y dado nuestro uso de +1 y –1 como los valores
del predictor codificado por contraste, la pendiente asociada con ese
predictor es igual a la mitad de la diferencia entre las medias de los
dos grupos:

En general, la estimación del parámetro de mínimos cuadrados o la


pendiente asociada con un código codificado por contraste el
predictor viene dado por:

que, en el ejemplo en cuestión, se evalúa como:


Esta es una fórmula muy general y útil para interpretar la pendiente
asociada con cualquier predictor codificado por contraste. El
numerador representa una comparación entre medias grupales, en
este caso, la diferencia entre la media para el grupo del Curso y la del
No Grupo del curso, y el denominador es un factor de escala que
depende de los valores específicos. utilizado para el predictor
codificado por contraste. El punto importante es que el coeficiente de
regresión asociado con cualquier predictor codificado por contraste
nos informa sobre la diferencia entre el grupo
significa que la dirección de esa diferencia está determinada por qué
grupo está codificado con un valor positivo y qué grupo está
codificado con un valor negativo.
La intersección estimada de 591 equivale, como siempre, al valor
predicho de Yi cuando Xi es igual a cero Como Xi es igual a cero a
mitad de camino entre los dos valores de +1 y –1, ese código los dos
grupos, el valor estimado de la intersección es necesariamente igual
al promedio de los dos medios grupales. Este resultado queda claro
por la gráfica del modelo en la Figura 8.2. También se puede mostrar
algebraicamente de la siguiente manera:

Agregar estas dos igualdades da:

Tenga en cuenta que esta interpretación de la intersección en el


modelo aumentado, que incluye el predictor codificado por contraste
no es lo mismo que la interpretación de la intercepción en el modelo
compacto, el que hace predicciones incondicionales. La intercepción
en el pacto. El modelo se estima como la media de todas las
observaciones, lo que podríamos llamar el gran significa, Y definido
como:

Por otro lado, la intercepción en el modelo aumentado es la media de las medias


grupales, definido como:

donde m es el número total de grupos, en este caso 2.

En el conjunto de datos que hemos estado utilizando, los valores de estas dos
intersecciones, uno de el modelo compacto y uno del aumentado son idénticos, es
decir, 591, porque hay son un número igual de estudiantes en los dos grupos. En
general, sin embargo, estiman cosas diferentes. La intercepción en el modelo
compacto, la que hace incondicional predicciones, es la media de todas las
observaciones. La intercepción en el modelo aumentado, el que hace predicciones
condicionales al grupo, es la media de las medias grupales.

Es importante saber un último resultado cuando se usan predictores codificados por


contraste. Tal como el coeficiente de regresión para cualquier predictor codificado por
contraste se puede representar como un comparación entre grupo significa:

así también puede expresarse de manera similar la SSR asociada con cualquiera de
dichos predictores. Como siempre, El SSR asociado con un predictor es la diferencia
entre el SSE (A) y el SSE (C) para modelos compactos y aumentados con y sin ese
predictor. Y como siempre que SSR es igual a:
En el caso de un predictor categórico, como hemos visto, los valores pronosticados
para el modelo aumentado en esta expresión son los medios de grupo o categoría, Y

k, y el El valor predicho del modelo compacto es la gran media de todas las


observaciones, Y Como resultado, es posible mostrar que la SSR asociada con cualquier
código codificado por contraste.

El predictor se puede expresar como una función de la categoría media (y el número


de observaciones en cada grupo, nk) como sigue:

En el caso en cuestión, hemos visto que SSE (C) es igual a 19,980 y SSE (A) es igual a
16,060, resultando en un SSR asociado con el predictor codificado por contraste de
3920. Eso es calculado de manera equivalente como:

Estimación con valores alternativos para el código de contraste Vaticinador

Si hubiéramos definido los valores del predictor codificado por contraste como +.5
para el grupo del curso y –.5 para el grupo Sin curso, en lugar de +1 y –1, el modelo
estimado sería:

donde Xi 'es el nuevo predictor codificado por contraste. Es importante destacar que
este modelo hace exactamente.
En consecuencia, en un sentido profundo, es el mismo modelo aumentado con la
misma suma de errores al cuadrado. La pendiente del predictor codificado por
contraste ahora es igual a 28 en lugar de 14, ya que ahora hay una diferencia de una
unidad en Xi– que separa los dos grupos (entre –.5 y +.5) en lugar de la diferencia de
dos unidades que los separó en Xi (entre +1 y 1). Y esa pendiente ahora es igual a la
diferencia entre los dos grupos significa:

Las mismas predicciones para los estudiantes en los dos grupos, es decir, su grupo
respectivo significa:

Por supuesto, dado que este Modelo A es, en un sentido profundo, igual al que
codificó el contraste el predictor tenía valores de +1 y –1, la comparación del modelo
con el compacto modelo, haciendo predicciones que no estaban condicionadas por el
grupo, produce exactamente el mismo Estadísticas de SSR, PRE y F. Volver a calcular el
SSR para esta comparación, utilizando estos nuevos los códigos y la fórmula dada para
el SSR en términos del grupo significa, nos da:

Equivalencia con ANOVA y prueba t de dos grupos

La pendiente en el modelo aumentado, haciendo predicciones condicionales, nos


informa sobre la diferencia entre las dos medias de grupo (independientemente de los
valores de k utilizados para construir el predictor codificado por contraste). Por lo
tanto, la comparación de esta aumentada modelo con el compacto que hace
predicciones incondicionales pregunta si el parámetro asociado con el predictor
codificado por contraste parte de cero y si los dos grupos significan diferir el uno del
otro. En otras palabras, la comparación del modelo nos han examinado las siguientes
hipótesis nulas equivalentes:
donde Uc y UNC son los medios verdaderos pero desconocidos de los dos grupos. En
los libros de texto estadísticos más tradicionales, la prueba de una hipótesis nula sobre
el la diferencia entre las medias de dos grupos generalmente se realiza calculando un
grupo de dos ANOVA o una prueba t de muestras independientes de dos grupos. Por
eso es importante mostrar que nuestra comparación de modelos y sus estadísticas PRE
y F asociadas son idénticas a las generado por estos enfoques más tradicionales.

En la Figura 8.4 damos la tabla fuente ANOVA para la comparación del modelo que
tenemos recién realizado, utilizando las fórmulas desarrolladas en el Capítulo 5 y
anteriores. También proporcionamos la tabla fuente usando los valores numéricos
generados por nuestro ejemplo de datos. La fórmula para el SSR para la comparación
del modelo que hemos dado antes es:

sumando todas las observaciones individuales. En el presente caso, YC es la media de


todos de las observaciones, Y, y los valores pronosticados del modelo aumentado, YA,
son los dos grupos significa Y Caramelo CAROLINA DEL NORTE. Representemos
genéricamente estos medios grupales como Y k, indicando así la media del grupo para
el grupo k. Entonces podemos escribir lo anterior expresión para la suma de cuadrados
reducida como:
donde nk es el número de observaciones en el grupo k.

También podemos volver a expresar la fórmula para SSE (A) y SSE (C) en términos de
medios, ya que esos son los valores predichos de cada modelo:

En consecuencia, las fórmulas en la tabla fuente que hemos usado todo el tiempo para
resumir nuestros cálculos de PRE y F (dados en la mitad superior de la Figura 8.4)
pueden, en este caso, escribirse de manera equivalente con las fórmulas utilizadas
para calcular un análisis de varianza para comparar medias grupales en los libros de
texto de estadísticas tradicionales. Esta versión revisada de la fuente. La tabla se
muestra en la Figura 8.5.

Se han cambiado los nombres dados a las filas en esta versión de la tabla fuente. para
reflejar los utilizados tradicionalmente en el análisis de varianza. Entonces, la suma de
cuadrados reducida y su cuadrado medio se llama tradicionalmente la suma de
cuadrados y el cuadrado medio entre grupos, y la suma de cuadrados y el cuadrado
medio del Modelo A se llaman tradicionalmente La suma de los cuadrados y el
cuadrado medio dentro de los grupos. Pero fundamentalmente y algebraicamente esta
es la misma tabla fuente, produciendo exactamente la misma F y PRE, que la que
somos más solía, dado en la Figura 8.4.

La raíz cuadrada de F es la estadística t (ya que n - PA = 1), con n - 2 grados de libertad,


eso se llama tradicionalmente la prueba t de muestras independientes de dos grupos.
Todo esto es simplemente para demostrar que nuestro enfoque integrado de
estadística inferencia, descansando en comparaciones de modelos estimadas con
cualquier múltiplo de mínimos cuadrados.
programa de regresión, produce los mismos resultados que las recetas de libros de
cocina que se dan en más libros de texto estadísticos tradicionales. Nuestra
comparación de modelos en este caso, probando si el coeficiente de regresión para un
solo predictor codificado por contraste parte de cero, es exactamente equivalente a
una prueba t de dos muestras para examinar si las medias de dos grupos difieren

de cada uno.

Intervalo de confianza para la pendiente de un predictor codificado por contraste La


fórmula que proporcionamos en el Capítulo 6 para el intervalo de confianza para una
regresión el coeficiente continúa siendo aplicable en la situación donde las variables
predictoras son codificado por contraste. El intervalo de confianza para la pendiente
asociada con cualquier predictor variable se dio allí como:

Dado que la pendiente de un predictor codificado por contraste nos informa sobre la
magnitud de la diferencia entre medias grupales, por lo que su intervalo de confianza
también nos informa sobre el intervalo de confianza asociado con esa diferencia
media. Para ver esto, tomemos el caso donde el predictor codificado por contraste
utilizó valores de –.5 para el grupo Sin curso y +5 para el grupo del curso. La pendiente
resultante en este caso fue igual a 28 y la confianza el intervalo para esa pendiente se
calcula como:
donde 4.41 es el valor crítico F con 1 y 18 grados de libertad, 892.22 es la media error
cuadrado de nuestro Modelo A, n - 1 es igual a 19, la varianza de los 20 individuos en el
predictor codificado por contraste es 0.263, y su tolerancia es, por supuesto, 1 ya que
es el único predictor en el modelo. Este intervalo de confianza también se puede
escribir como:

Dado que el parámetro que se estima aquí, con este predictor codificado por
contraste, es También una estimación de la verdadera diferencia de medias entre los
dos grupos, esta confianza intervalo puede expresarse de manera equivalente como:

Cuando el predictor codificado por contraste utilizó los valores de –1 y +1 en lugar de


–.5 y +.5, la pendiente estimada fue la mitad de la diferencia en las medias grupales (es
decir, 14) y su intervalo de confianza se calcula como:

El término que es diferente en este intervalo (distinto del valor de la pendiente


estimada en sí) es la varianza del predictor (codificado +1 y –1), que es 1.052 en lugar
de 0.263.

En este caso, el intervalo de confianza se da de manera equivalente como:


Por lo tanto, continúa informándonos sobre el intervalo de confianza para la diferencia
de medias, excepto con estos códigos, por supuesto, es el intervalo de confianza para
la mitad de la diferencia media. Si multiplicamos esta expresión por 2, obtenemos el
intervalo de confianza para la diferencia de medias.

PREDICTORES CATEGORICOS CON MÁS DE DOS NIVELES

Supongamos que un psicólogo del desarrollo está interesado en los efectos de la


retroalimentación sobre rendimiento en la motivación posterior para hacer una tarea.
Ella plantea la hipótesis de que posteriormente la motivación disminuirá si se les dice a
los niños que antes fallaron en la tarea. Probar Según esta hipótesis, asigna
aleatoriamente a los niños a tres condiciones; en una condición se les dice que fallaron
en la tarea; en una segunda condición no reciben retroalimentación; y en una tercera
condición se les dice que tuvieron éxito. El experimentador luego monitorea el número
de tareas que completan posteriormente, después de que la retroalimentación
diferencial fue dado. Veinticuatro niños corren en total, ocho en cada una de las tres
condiciones. Los datos brutos hipotéticos se dan en la Figura 8.6.

FIGURA 8.6 Datos experimentales hipotéticos para tres condiciones (los valores
representan el número de tareas que completa cada asignatura)

Códigos de contraste para predictores categóricos multinivel


Para examinar los efectos de la retroalimentación sobre el número de tareas
posteriormente completado, necesitamos derivar un esquema de codificación para
representar los tres niveles de la variable de retroalimentación categórica. Podríamos
pensar que una sola variable que codifica los tres las condiciones serían apropiadas,
dando observaciones de la condición de éxito mayor valor en la variable que las
observaciones para la condición Sin comentarios que en a su vez recibe un valor más
alto que las observaciones de la condición de Falla. Podríamos entonces vea si tal
variable codificada sería predictiva de Yi. El problema con el uso de un solo variable
para codificar los tres niveles de esta variable categórica es que con dicha codificación
esquema estamos asumiendo que las categorías se pueden ordenar a priori y que la
relación entre los valores de la variable predictora simple y Yi es lineal uno. Si bien
podemos tener una razón para esperar que Yi sea menor en la falla condición que en
los otros dos, no tenemos ninguna razón para asignar valores particulares a los grupos,
esperando predicciones lineales en función de esos valores particulares. En en otras
palabras, una variable de predicción única que codifica las tres condiciones con
particular los valores no tienen mucho sentido, dado que estamos tratando con una
variable categórica cuyos niveles no difieren de una manera lineal ordenada.

Preguntar si podemos predecir Yi en función de alguna variable categórica que tenga


en general m niveles o grupos es equivalente a preguntar si hay diferencias entre el
grupo m significa (Yk) a través de esos niveles (con k variando de 1 a m). Para contestar
esto pregunta, necesitamos usar m - 1 variables predictoras codificadas por contraste
en nuestro modelo. Nosotros luego podría preguntar sobre las diferencias de medios
entre los grupos, posiblemente todas las posibles ordenamientos de esos medios. Para
definir estos predictores m - 1 codificados por contraste, ahora es hora de introducir la
segunda condición definitoria para los códigos de contraste. La primera condición,
recordarán, si se trata de una variable codificada en contraste, la suma de los valores
en Los grupos o niveles de la variable categórica deben ser iguales a cero.

Cuando usamos más de un predictor solo codificado por contraste para codificar una
variable categórica que tenga más que dos niveles, la segunda condición que debe
cumplirse es que a través de los niveles de variable categórica todos los pares de
códigos de contraste deben ser ortogonales entre sí. Friso que se cumple la primera
condición, esta segunda condición de ortogonalidad se cumplirá siempre que la suma
(a través de k o los niveles de la variable categórica) de los productos de los valores de
pares de códigos de contraste es igual a cero.

En nuestro ejemplo, tenemos tres niveles de la variable categórica. Por lo tanto lo


haremos use dos códigos de contraste para codificarlo. Cada valor de ahora tiene dos
subíndices, el primero designando de qué código de contraste estamos hablando y el
segundo designando El nivel de la variable categórica (k). La condición de
ortogonalidad se cumple cuando:

Para hacer que esta segunda condición definitoria de los códigos de contraste sea más
comprensible, permítanos ilustra los códigos que lo cumplen y no lo cumplen para el
ejemplo en cuestión. En la figura 8.7, dos Se proporcionan conjuntos de códigos, con
dos códigos en cada conjunto, para codificar los tres niveles de variable predictiva
categórica: Fallo, Sin comentarios y Éxito. Cada uno de los cuatro códigos cumple la
primera condición definitoria para un código de contraste, en ese La suma de los
valores de cualquier código dado, calculada en los tres niveles de variable categórica,
igual a cero. La segunda condición definitoria, sin embargo, solo se cumple

por los códigos del Conjunto A. Si multiplicamos el valor de 1k por el valor de 2k en


cada uno de los niveles de la variable predictiva categórica y luego sumamos los tres
resultantes productos, obtenemos una suma de 0 del Conjunto A (es decir, 0 + (–1) + 1
= 0) y una suma de 1 del Conjunto B (es decir, 0 + 0 + 1 = 1). En consecuencia, solo los
códigos del Conjunto A pueden llamarse legítimamente códigos de contraste.

Esta segunda condición de definición significa que un código dado no se puede definir
como un código de contraste de forma aislada. No pudimos, por ejemplo, mirar el
código para 1k en el Conjunto A e identificarlo como un código de contraste, a menos
que veamos el otro código o códigos con los que se usa en combinación para codificar
la variable predictora categórica. Por ejemplo, si nosotros cambió los valores de 2k en
el Conjunto A para que sean –1, –1 y 2 para Falla, Sin comentarios y Éxito,
respectivamente, entonces los códigos en el Conjunto A ya no serían códigos de
contraste, incluso aunque no habíamos cambiado los valores de para el primer código.
Este conjunto de códigos ya no serán códigos de contraste ya que la suma de los
productos de los valores en todo el los niveles de categoría ya no serían iguales a cero.

Si nuestra variable predictora categórica tuviera cuatro niveles, necesitaríamos tres


contrastes códigos para codificarlo por completo. La segunda condición definitoria
para los códigos de contraste sería cumplido en tal caso si las sumas de los productos
de los valores para todos los pares posibles de códigos igual a cero. Supongamos, por
ejemplo, que tenemos una variable categórica con cuatro niveles, como en la Figura
8.8. Allí definimos tres códigos de contraste con valores de 1k, 2k y 3k. Luego tenemos
tres pares de códigos, y para cada uno de estos pares la suma de los productos de los
valores debe ser igual a cero. Para los códigos 1 y 2, la suma de los productos de jk
valores iguales (–3) 0 + 1 (–2) + 1 (1) + 1 (1) = 0. Para los códigos 1 y 3, la suma de los
productos de los valores jk es igual a (–3) 0 + 1 (0) + 1 (–1) + 1 (1) = 0. Y para los
códigos 2 y 3, la suma de los productos de los valores jk es igual a 0 (0) + 0 (–2) + 1 (–1)
+ 1 (1) = 0.

Con un predictor categórico que tiene tres niveles, entonces, necesitamos dos códigos
de contraste y una sola suma de productos de valores debe ser igual a cero. Con un
predictor categórico Al tener cuatro niveles, necesitamos tres códigos de contraste.
Esos tres códigos dan como resultado tres posibles pares de códigos y, por lo tanto,
tres sumas de productos de valores deben ser iguales a cero. En general, con una
variable categórica que tiene m niveles, necesitamos m - 1 códigos de contraste para
codificarla.
De estos códigos de contraste m - 1, hay (m - 1) (m - 2) / 2 pares de códigos. Este
muchos las sumas de productos de valores deben ser iguales a cero para cumplir con la
segunda condición definitoria de códigos de contraste Para cualquier predictor
categórico dado, hay un número infinito de conjuntos de contraste.

Códigos que podrían usarse. La elección de los códigos que se utilizarán debe guiarse
por algunosnociones teóricas o sustantivas sobre cómo los grupos definidos por lo
categórico se espera que las variables predictoras difieran en la variable dependiente.
Por ejemplo, en el

ilustración a la mano, esperábamos que los sujetos en condición de fracaso tuvieran


puntajes más bajos que los sujetos en las otras dos condiciones. Como, como vimos en
el caso de un categórico predictor con solo dos niveles, el coeficiente de regresión para
un código de contraste nos dice acerca de La diferencia de medias relativa entre
observaciones que tienen valores diferentes en el contraste código, tiene sentido
derivar un código que nos permita examinar esta predicción sobre diferencias medias
en la variable dependiente. En otras palabras, dado que queremos ver si las
observaciones en la condición de falla tienen puntajes más bajos que las observaciones
en las otras dos condiciones, el primer código de contraste que proporcionamos en el
Conjunto A de la Figura 8.7 es uno que bien podemos elegir examinar.

Como fue el caso con un único predictor codificado por contraste que codifica un
categórico variable con dos niveles, el coeficiente de regresión asociado con un código
de contraste predictor en el caso de una variable categórica con más de dos niveles
nos informa sobre diferencias medias entre los diversos grupos o niveles de la variable
categórica, según a la siguiente fórmula:
Pero este será el caso solo si se incluye un conjunto completo de predictores
codificados m - 1 en el modelo y solo si los códigos de contraste utilizados cumplen la
condición de ortogonalidad que acabamos de definir. En un punto posterior de este
capítulo discutiremos la estimación en el presencia de predictores codificados no
ortogonalmente. Por ahora, lo importante es que las pendientes cuéntenos sobre las
diferencias de medias codificadas entre las categorías solo con un conjunto completo
de códigos y solo con ortogonalidad.

Basado en consideraciones teóricas, entonces, estamos interesados en la comparación


que está hecho por el primer código de contraste del Conjunto A en la Figura 8.7. Con
tres niveles de nuestro variable categórica y un código elegido, el segundo código está
limitado a ser uno que compara los medios en las condiciones Sin comentarios y Éxito,
como el segundo código en el Conjunto A. En general, con m niveles de una variable
categórica y m - 1 códigos de contraste, el código final está restringido una vez que se
han definido los primeros m - 2 códigos, para cumplir con la condición de
ortogonalidad.

Podemos usar estos dos códigos para definir dos variables predictoras, X1i basadas en
los códigos –2, 1, 1 (para Fallo, Sin comentarios y Éxito respectivamente) y X2i basado
en el códigos 0, -1, 1, y luego estimar un modelo de regresión múltiple en el que se
utilizan como predictores simultáneos de Yi. Si hiciéramos esto, podemos especificar
exactamente la media diferencias estimadas por las dos pendientes resultantes usando
la fórmula para la pendiente de un predictor codificado por contraste en el contexto
de un modelo con un conjunto completo de códigos de contraste ortogonales
predictores:
En general, tales pendientes nos informarán sobre las diferencias entre los medios de
categoría siguientes los códigos utilizados, con el numerador de las expresiones
anteriores que representa la media diferencia, y el denominador que representa un
factor de escala. Note que grupo significa para niveles de la variable categórica que se
codifican con un valor cero de un determinado El predictor codificado por contraste
abandona el numerador de la pendiente y, por lo tanto, no figura en la comparación
que se realiza (es decir, la media del grupo para la condición de Falla no desempeñar
un papel en la pendiente de la segunda variable codificada por contraste). Para
mostrar el impacto del factor de escala en el denominador de la expresión de
pendiente, si hubiéramos usado valores fraccionales para (–2⁄3, 1⁄3, 1⁄3 para X1′i, y 0, –
1⁄2, 1⁄2 para X2′i) en lugar de los definidos anteriormente, entonces los siguientes serían
los valores de las pendientes:

La ventaja de tales códigos fraccionarios es que sus pendientes serán iguales a las
diferencias medias en lugar de fracciones de diferencias medias.

Sin práctica, puede parecer difícil encontrar un conjunto de contraste ortogonal


códigos, particularmente cuando se trata de una variable categórica que tiene más de
tres o entonces niveles. Nuestro consejo es que inicialmente se deben crear códigos
que representen la media comparaciones que uno quisiera hacer teóricamente, y
luego derivar el resto de la códigos para preservar la ortogonalidad. Una forma de
hacer esto, una vez una o más iniciales los códigos han sido definidos, es construir más
códigos de contraste que comparen categoría significa que estaban vinculados (o
recibieron el mismo valor de) en los códigos ya utilizados. Con Algo de práctica, derivar
códigos ortogonales se convierte en una tarea relativamente fácil.

En ausencia de comparaciones motivadas, siempre se puede usar una convención


llamada Códigos Helmert, independientemente del número de niveles. Un algoritmo
simple genera tal códigos Si hay m niveles de la variable categórica, uno define el
primero de m - 1 códigos de contraste asignando el valor de m - 1 al primer nivel y el
valor de –1 a cada uno de los m - 1 niveles restantes. Para el segundo código de
contraste, se da el primer nivel

El valor de 0, el segundo nivel recibe el valor de m - 2, y todos los niveles restantes son
dado el valor de –1. Para el tercer código de contraste, los dos primeros niveles de la
categoría al predictor se le asignan valores de 0, al tercer nivel se le da el valor de m -
3, y el los niveles restantes reciben el valor de –1. Se procede de esta manera a definir
todos los m - 1 códigos de contraste, el último tiene valores de 0 para todos los niveles
del predictor variable a excepción de los dos últimos. Estos dos últimos niveles tienen
valores de 1 y –1. los Los valores de código resultantes se presentan en la Figura 8.9.

Estimación e inferencia con predictores categóricos multinivel Usando los datos de la


Figura 8.6, estimamos los parámetros de los siguientes múltiples modelo de regresión,
con X1i y y X2i como predictores codificados por contraste, dados los valores de
definido por el Conjunto A en la Figura 8.7:

Las estimaciones de los parámetros son:

y la suma de los errores al cuadrado es 23.375. Como era de esperar, los valores
predichos de este modelo son las medias de los tres categorías (dadas en la figura 8.6)
de la variable categórica independiente:

Como hemos dicho antes, un modelo con una variable independiente categórica hará
Las predicciones del nivel de grupo o categoría significan siempre que un conjunto
completo de códigos m - 1 se utiliza como predictores Ya hemos discutido las
interpretaciones de las estimaciones de los dos parámetros. asociado con los
predictores codificados por contraste en términos de la categoría media. Nos deja
revisitemos estas interpretaciones ahora que tenemos las estimaciones numéricas:

Y tal como lo encontramos con un predictor categórico con dos niveles, la intercepción
estimada en este modelo es igual a la media de las tres categorías significa:
Aunque estas interpretaciones para los coeficientes de regresión en modelos con
código de contraste Los predictores suelen ser los más útiles, las interpretaciones que
dimos anteriormente para Las estimaciones de parámetros en modelos de regresión
múltiple siguen siendo completamente apropiadas.

Por lo tanto, las pendientes de un predictor pueden interpretarse como diferencias en


Y ˆi valora como el predictor aumenta en una unidad, manteniendo constantes otros
predictores. En el caso de la pendiente para X1i, a medida que pasamos de un puntaje
de –2 (para la condición de Falla) a un puntaje de +1 (para el Sin comentarios y
condiciones de éxito) los valores pronosticados van desde la media de la falla
condición (3.000) a los medios en las condiciones Sin comentarios y Éxito (3.750 y
4.375). Por lo tanto, para un aumento de tres unidades en X1i, pasamos de un valor
predicho de 3.000 a uno de 4.0625, lo que significa que el aumento en los valores
pronosticados para un aumento de una unidad en X1i es .3542. Y para X2i, a medida
que pasamos de una puntuación de –1 a 1, el valor predicho va de 3.75 a 4.375. En
consecuencia, por unidad de aumento en X2i, predecimos un aumento de .3125 en
Yyo. Y finalmente, la intersección es igual al valor pronosticado cuando ambos
codifican en contraste predictores iguales a cero. ¿Cuándo estos predictores son
iguales a cero? Desde la primera condición usado para definir códigos de contraste, la
media de cada código de contraste, a través de categorías, es igual cero. En
consecuencia, la intersección es el valor predicho para el promedio de las categorías.
Por supuesto, hay muchos modelos C con los que podemos comparar este modelo
para probar Varias hipótesis nulas. Una comparación obvia es con el parámetro simple
más simple modelo, estimando solo la intersección:

y prediciendo la gran media, Y, para todas las observaciones. Dado que, en este
ejemplo, cada de los niveles de la variable categórica tiene el mismo número de
observaciones, el total La gran media de las 24 observaciones es la misma que la media
de la categoría medias. Por lo tanto, es el caso de que el parámetro estimado en este
Modelo C sea idéntico a la intersección en el Modelo A de tres parámetros con el que
lo estamos comparando:

Este Modelo C estimado tiene una suma de errores al cuadrado de 30.9583.

¿Cuál es exactamente la hipótesis nula que se prueba con esta comparación de


modelos? Obviamente es que los dos predictores tienen pendientes de cero, es decir,
usarlos como Los predictores no hacen nada para mejorar la calidad de nuestras
predicciones:

Pero esta hipótesis nula también se puede expresar en términos de igualdad de la


categoría. significa, ya que el Modelo C predice la gran media, Y, por cada observación
y modelo A hace predicciones condicionales a la membresía de la categoría,
prediciendo la categoría significa, Y k, para cada observación. En consecuencia, la
hipótesis nula puede ser equivalente expresado como:

donde estos son los medios verdaderos pero desconocidos de los tres niveles de lo
categórico variable independiente. La comparación de estos dos modelos arroja los
siguientes valores de PRE y F:
Y estos apenas superan los valores críticos para 2 y 21 grados de libertad. Por lo tanto,
no podemos rechazar la hipótesis nula de que no hay diferencias medias entre Estas
tres categorías o condiciones.

Esta conclusión no significa, por supuesto, que debamos aceptar la hipótesis nula sin
diferencias medias. Y en este caso, ya que claramente teníamos la expectativa de que
el la media en la condición de Fallo sería menor que la media en las otras dos
condiciones, ciertamente debemos proceder a probar directamente esa hipótesis, que
es la comparación hecho por el primer predictor codificado por contraste. Dentro del
análisis de la tradición de varianza, se a veces se mantiene que no se deben probar
comparaciones enfocadas específicas entre categoría significa a menos que la prueba
general de múltiples grados de libertad que acabamos de realizado —que no hay
diferencia de medias entre las categorías— se rechaza. Nosotros totalmente en
desacuerdo con este punto de vista. Por razones que hemos explicado anteriormente,
somos generalmente no está enamorado de las comparaciones de modelos donde PA -
PC es> 1. Uno de los distintos ventajas de un enfoque basado en la regresión para el
análisis tradicional de los procedimientos de varianza es que uno se ve obligado a
construir comparaciones individuales de un grado de libertad o con contrastes entre
los medios grupales. Muchos programas ANOVA tradicionales proporcionan
automáticamente solo la prueba ómnibus, de múltiples grados de libertad, y esto,
creemos, es una prueba distinta deservicio.

Como hemos visto, los coeficientes de regresión para X1i y X2i estiman particular
diferencias entre medias de categoría, la primera compara la media de Falla con el
promedio de los medios No Feedback y Success, y el segundo comparando el No
Feedback y el éxito significa. Por lo tanto, comparaciones de modelos que prueban si
estos dos parámetros apartarse de cero son pruebas equivalentes de diferencias de
medias entre las tres categorías. Específicamente, una comparación de modelo es si el
parámetro asociado con X1i es igual a cero:

con las siguientes hipótesis nulas equivalentes:


Y la otra comparación de modelos prueba si el parámetro asociado con X2i es igual
cero:

con las siguientes hipótesis nulas equivalentes:

El modelo A para ambas comparaciones es el mismo modelo aumentado de tres


parámetros que estimamos anteriormente, con una suma de errores al cuadrado de
23.375. Modelo C1 para el primero La comparación se estima de la siguiente manera:

con una suma de errores al cuadrado de 29.396. Y el modelo C2 para la segunda


comparación es estimado de la siguiente manera:

con una suma de errores al cuadrado de 24.937. Tenga en cuenta que la intersección
estimada y la endiente en Estos modelos no cambian de lo que eran en el Modelo A
con ambos predictores. Esto resulta de la conjunción de dos condiciones: Primero,
hemos empleado códigos de contraste. predictores, que por definición son
ortogonales a nivel de las tres categorías. Segundo, tenemos el mismo número de
observaciones en cada una de las tres condiciones. Como un Como resultado de estas
dos condiciones, los predictores codificados por contraste no están correlacionados
con cada otro a través de las 24 observaciones individuales. Su tolerancia en el Modelo
A es 1.00.
La primera comparación de modelos, preguntando si 1 difiere de cero, arroja lo
siguiente Estadísticas PRE y F:

Esta estadística F excede el valor crítico de F con   a las .05. Por lo tanto, concluimos
que 1 difiere significativamente de cero. De manera equivalente, concluimos que el
valor medio de Yi en la condición de falla es significativamente diferente del promedio
de los valores medios en las condiciones de éxito y sin comentarios. Dado que la media
de la muestra en la falla condición es menor que el promedio de las otras dos medias
de muestra, concluimos que la retroalimentación de falla en este estudio disminuye el
rendimiento posterior en relación con el éxito y Sin realimentación.

La prueba de la segunda hipótesis nula, que 2 es igual a cero, produce el siguiente PRE
y estadísticas F:

Como esta F no excede su valor crítico, concluimos que 2 no difiere significativamente


desde cero. De manera equivalente, no podemos concluir que el rendimiento medio
bajo la condición de Éxito es diferente de bajo Sin comentarios. Anteriormente en este
capítulo dimos una fórmula general para la SSR debido a un código de contraste
predictor expresado en términos de la categoría significa:

Esta expresión para la SSR de un predictor codificado por contraste continúa


aplicándose en el caso de variables categóricas con más de dos niveles, siempre que un
conjunto completo de m - 1 con código de contraste los predictores se incluyen en el
Modelo A. Por lo tanto, en el presente caso, hemos visto que el SSR para la
comparación del Modelo A / Modelo C1 que probó si 1 igual a cero era igual a:

Esto se puede obtener de manera equivalente en términos de la categoría significa


como:

Del mismo modo, vimos que el SSR para la comparación del Modelo A / Modelo C2 que
probó si   2 igual a cero era igual a:

Esto se puede obtener de manera equivalente en términos de la categoría significa


como:

Ahora hemos realizado tres pruebas diferentes comparando el modelo aumentado,


que incluye ambos predictores codificados por contraste, con tres compactos
diferentes. Los resultados de estas tres pruebas se presentan en la figura 8.10. Tenga
en cuenta que hemos dado etiquetas, en paréntesis, para cada una de estas pruebas
para indicar las preguntas que están examinando en términos del grupo significa. La
prueba de dos grados de libertad, realizada primero, comparando el Modelo A con un
Modelo C que predijo la gran media para todas las observaciones, fue una prueba
general de cualquier grupo significa diferencias. El segundo, comparando modelos con
y sin X1i como predictor, examinó si la media en la condición de falla difería del
promedio de los dos en las otras condiciones. Y el tercero, comparando modelos con y
sin X2i como predictor, examinó si las medias en No Feedback and Success Las
condiciones diferían. Queremos enfatizar nuevamente que a pesar de que los dos
grados de
la prueba de libertad no resultó ser significativa, encontramos una diferencia de
medias significativa cuando probamos la pregunta de contraste más centrada
representada por X1i. Como siempre, nosotros alentar fuertemente las comparaciones
de modelos PA - PC = 1. Como muestran las sumas de cuadrados en esta tabla fuente,
los SSR para el predictor individual las variables se suman a la SSR para la primera
comparación del modelo, donde el total aumentado El modelo se comparó con un
modelo compacto de un solo parámetro, prediciendo la gran media para todas las
observaciones Como vimos en el Capítulo 6, este será el caso siempre que los
predictores son completamente no redundantes, con tolerancias de 1.0. En el presente
caso, esto resulta de la conjunción de dos condiciones: el uso de predictores
codificados por contraste, que son por definición ortogonal a nivel de los grupos o
categorías; y el hecho de que cada La categoría contiene el mismo número de
observaciones.

You might also like