Professional Documents
Culture Documents
En el conjunto de datos que hemos estado utilizando, los valores de estas dos
intersecciones, uno de el modelo compacto y uno del aumentado son idénticos, es
decir, 591, porque hay son un número igual de estudiantes en los dos grupos. En
general, sin embargo, estiman cosas diferentes. La intercepción en el modelo
compacto, la que hace incondicional predicciones, es la media de todas las
observaciones. La intercepción en el modelo aumentado, el que hace predicciones
condicionales al grupo, es la media de las medias grupales.
así también puede expresarse de manera similar la SSR asociada con cualquiera de
dichos predictores. Como siempre, El SSR asociado con un predictor es la diferencia
entre el SSE (A) y el SSE (C) para modelos compactos y aumentados con y sin ese
predictor. Y como siempre que SSR es igual a:
En el caso de un predictor categórico, como hemos visto, los valores pronosticados
para el modelo aumentado en esta expresión son los medios de grupo o categoría, Y
En el caso en cuestión, hemos visto que SSE (C) es igual a 19,980 y SSE (A) es igual a
16,060, resultando en un SSR asociado con el predictor codificado por contraste de
3920. Eso es calculado de manera equivalente como:
Si hubiéramos definido los valores del predictor codificado por contraste como +.5
para el grupo del curso y –.5 para el grupo Sin curso, en lugar de +1 y –1, el modelo
estimado sería:
donde Xi 'es el nuevo predictor codificado por contraste. Es importante destacar que
este modelo hace exactamente.
En consecuencia, en un sentido profundo, es el mismo modelo aumentado con la
misma suma de errores al cuadrado. La pendiente del predictor codificado por
contraste ahora es igual a 28 en lugar de 14, ya que ahora hay una diferencia de una
unidad en Xi– que separa los dos grupos (entre –.5 y +.5) en lugar de la diferencia de
dos unidades que los separó en Xi (entre +1 y 1). Y esa pendiente ahora es igual a la
diferencia entre los dos grupos significa:
Las mismas predicciones para los estudiantes en los dos grupos, es decir, su grupo
respectivo significa:
Por supuesto, dado que este Modelo A es, en un sentido profundo, igual al que
codificó el contraste el predictor tenía valores de +1 y –1, la comparación del modelo
con el compacto modelo, haciendo predicciones que no estaban condicionadas por el
grupo, produce exactamente el mismo Estadísticas de SSR, PRE y F. Volver a calcular el
SSR para esta comparación, utilizando estos nuevos los códigos y la fórmula dada para
el SSR en términos del grupo significa, nos da:
En la Figura 8.4 damos la tabla fuente ANOVA para la comparación del modelo que
tenemos recién realizado, utilizando las fórmulas desarrolladas en el Capítulo 5 y
anteriores. También proporcionamos la tabla fuente usando los valores numéricos
generados por nuestro ejemplo de datos. La fórmula para el SSR para la comparación
del modelo que hemos dado antes es:
También podemos volver a expresar la fórmula para SSE (A) y SSE (C) en términos de
medios, ya que esos son los valores predichos de cada modelo:
En consecuencia, las fórmulas en la tabla fuente que hemos usado todo el tiempo para
resumir nuestros cálculos de PRE y F (dados en la mitad superior de la Figura 8.4)
pueden, en este caso, escribirse de manera equivalente con las fórmulas utilizadas
para calcular un análisis de varianza para comparar medias grupales en los libros de
texto de estadísticas tradicionales. Esta versión revisada de la fuente. La tabla se
muestra en la Figura 8.5.
Se han cambiado los nombres dados a las filas en esta versión de la tabla fuente. para
reflejar los utilizados tradicionalmente en el análisis de varianza. Entonces, la suma de
cuadrados reducida y su cuadrado medio se llama tradicionalmente la suma de
cuadrados y el cuadrado medio entre grupos, y la suma de cuadrados y el cuadrado
medio del Modelo A se llaman tradicionalmente La suma de los cuadrados y el
cuadrado medio dentro de los grupos. Pero fundamentalmente y algebraicamente esta
es la misma tabla fuente, produciendo exactamente la misma F y PRE, que la que
somos más solía, dado en la Figura 8.4.
de cada uno.
Dado que la pendiente de un predictor codificado por contraste nos informa sobre la
magnitud de la diferencia entre medias grupales, por lo que su intervalo de confianza
también nos informa sobre el intervalo de confianza asociado con esa diferencia
media. Para ver esto, tomemos el caso donde el predictor codificado por contraste
utilizó valores de –.5 para el grupo Sin curso y +5 para el grupo del curso. La pendiente
resultante en este caso fue igual a 28 y la confianza el intervalo para esa pendiente se
calcula como:
donde 4.41 es el valor crítico F con 1 y 18 grados de libertad, 892.22 es la media error
cuadrado de nuestro Modelo A, n - 1 es igual a 19, la varianza de los 20 individuos en el
predictor codificado por contraste es 0.263, y su tolerancia es, por supuesto, 1 ya que
es el único predictor en el modelo. Este intervalo de confianza también se puede
escribir como:
Dado que el parámetro que se estima aquí, con este predictor codificado por
contraste, es También una estimación de la verdadera diferencia de medias entre los
dos grupos, esta confianza intervalo puede expresarse de manera equivalente como:
FIGURA 8.6 Datos experimentales hipotéticos para tres condiciones (los valores
representan el número de tareas que completa cada asignatura)
Cuando usamos más de un predictor solo codificado por contraste para codificar una
variable categórica que tenga más que dos niveles, la segunda condición que debe
cumplirse es que a través de los niveles de variable categórica todos los pares de
códigos de contraste deben ser ortogonales entre sí. Friso que se cumple la primera
condición, esta segunda condición de ortogonalidad se cumplirá siempre que la suma
(a través de k o los niveles de la variable categórica) de los productos de los valores de
pares de códigos de contraste es igual a cero.
Para hacer que esta segunda condición definitoria de los códigos de contraste sea más
comprensible, permítanos ilustra los códigos que lo cumplen y no lo cumplen para el
ejemplo en cuestión. En la figura 8.7, dos Se proporcionan conjuntos de códigos, con
dos códigos en cada conjunto, para codificar los tres niveles de variable predictiva
categórica: Fallo, Sin comentarios y Éxito. Cada uno de los cuatro códigos cumple la
primera condición definitoria para un código de contraste, en ese La suma de los
valores de cualquier código dado, calculada en los tres niveles de variable categórica,
igual a cero. La segunda condición definitoria, sin embargo, solo se cumple
Esta segunda condición de definición significa que un código dado no se puede definir
como un código de contraste de forma aislada. No pudimos, por ejemplo, mirar el
código para 1k en el Conjunto A e identificarlo como un código de contraste, a menos
que veamos el otro código o códigos con los que se usa en combinación para codificar
la variable predictora categórica. Por ejemplo, si nosotros cambió los valores de 2k en
el Conjunto A para que sean –1, –1 y 2 para Falla, Sin comentarios y Éxito,
respectivamente, entonces los códigos en el Conjunto A ya no serían códigos de
contraste, incluso aunque no habíamos cambiado los valores de para el primer código.
Este conjunto de códigos ya no serán códigos de contraste ya que la suma de los
productos de los valores en todo el los niveles de categoría ya no serían iguales a cero.
Con un predictor categórico que tiene tres niveles, entonces, necesitamos dos códigos
de contraste y una sola suma de productos de valores debe ser igual a cero. Con un
predictor categórico Al tener cuatro niveles, necesitamos tres códigos de contraste.
Esos tres códigos dan como resultado tres posibles pares de códigos y, por lo tanto,
tres sumas de productos de valores deben ser iguales a cero. En general, con una
variable categórica que tiene m niveles, necesitamos m - 1 códigos de contraste para
codificarla.
De estos códigos de contraste m - 1, hay (m - 1) (m - 2) / 2 pares de códigos. Este
muchos las sumas de productos de valores deben ser iguales a cero para cumplir con la
segunda condición definitoria de códigos de contraste Para cualquier predictor
categórico dado, hay un número infinito de conjuntos de contraste.
Códigos que podrían usarse. La elección de los códigos que se utilizarán debe guiarse
por algunosnociones teóricas o sustantivas sobre cómo los grupos definidos por lo
categórico se espera que las variables predictoras difieran en la variable dependiente.
Por ejemplo, en el
Como fue el caso con un único predictor codificado por contraste que codifica un
categórico variable con dos niveles, el coeficiente de regresión asociado con un código
de contraste predictor en el caso de una variable categórica con más de dos niveles
nos informa sobre diferencias medias entre los diversos grupos o niveles de la variable
categórica, según a la siguiente fórmula:
Pero este será el caso solo si se incluye un conjunto completo de predictores
codificados m - 1 en el modelo y solo si los códigos de contraste utilizados cumplen la
condición de ortogonalidad que acabamos de definir. En un punto posterior de este
capítulo discutiremos la estimación en el presencia de predictores codificados no
ortogonalmente. Por ahora, lo importante es que las pendientes cuéntenos sobre las
diferencias de medias codificadas entre las categorías solo con un conjunto completo
de códigos y solo con ortogonalidad.
Podemos usar estos dos códigos para definir dos variables predictoras, X1i basadas en
los códigos –2, 1, 1 (para Fallo, Sin comentarios y Éxito respectivamente) y X2i basado
en el códigos 0, -1, 1, y luego estimar un modelo de regresión múltiple en el que se
utilizan como predictores simultáneos de Yi. Si hiciéramos esto, podemos especificar
exactamente la media diferencias estimadas por las dos pendientes resultantes usando
la fórmula para la pendiente de un predictor codificado por contraste en el contexto
de un modelo con un conjunto completo de códigos de contraste ortogonales
predictores:
En general, tales pendientes nos informarán sobre las diferencias entre los medios de
categoría siguientes los códigos utilizados, con el numerador de las expresiones
anteriores que representa la media diferencia, y el denominador que representa un
factor de escala. Note que grupo significa para niveles de la variable categórica que se
codifican con un valor cero de un determinado El predictor codificado por contraste
abandona el numerador de la pendiente y, por lo tanto, no figura en la comparación
que se realiza (es decir, la media del grupo para la condición de Falla no desempeñar
un papel en la pendiente de la segunda variable codificada por contraste). Para
mostrar el impacto del factor de escala en el denominador de la expresión de
pendiente, si hubiéramos usado valores fraccionales para (–2⁄3, 1⁄3, 1⁄3 para X1′i, y 0, –
1⁄2, 1⁄2 para X2′i) en lugar de los definidos anteriormente, entonces los siguientes serían
los valores de las pendientes:
La ventaja de tales códigos fraccionarios es que sus pendientes serán iguales a las
diferencias medias en lugar de fracciones de diferencias medias.
El valor de 0, el segundo nivel recibe el valor de m - 2, y todos los niveles restantes son
dado el valor de –1. Para el tercer código de contraste, los dos primeros niveles de la
categoría al predictor se le asignan valores de 0, al tercer nivel se le da el valor de m -
3, y el los niveles restantes reciben el valor de –1. Se procede de esta manera a definir
todos los m - 1 códigos de contraste, el último tiene valores de 0 para todos los niveles
del predictor variable a excepción de los dos últimos. Estos dos últimos niveles tienen
valores de 1 y –1. los Los valores de código resultantes se presentan en la Figura 8.9.
y la suma de los errores al cuadrado es 23.375. Como era de esperar, los valores
predichos de este modelo son las medias de los tres categorías (dadas en la figura 8.6)
de la variable categórica independiente:
Como hemos dicho antes, un modelo con una variable independiente categórica hará
Las predicciones del nivel de grupo o categoría significan siempre que un conjunto
completo de códigos m - 1 se utiliza como predictores Ya hemos discutido las
interpretaciones de las estimaciones de los dos parámetros. asociado con los
predictores codificados por contraste en términos de la categoría media. Nos deja
revisitemos estas interpretaciones ahora que tenemos las estimaciones numéricas:
Y tal como lo encontramos con un predictor categórico con dos niveles, la intercepción
estimada en este modelo es igual a la media de las tres categorías significa:
Aunque estas interpretaciones para los coeficientes de regresión en modelos con
código de contraste Los predictores suelen ser los más útiles, las interpretaciones que
dimos anteriormente para Las estimaciones de parámetros en modelos de regresión
múltiple siguen siendo completamente apropiadas.
y prediciendo la gran media, Y, para todas las observaciones. Dado que, en este
ejemplo, cada de los niveles de la variable categórica tiene el mismo número de
observaciones, el total La gran media de las 24 observaciones es la misma que la media
de la categoría medias. Por lo tanto, es el caso de que el parámetro estimado en este
Modelo C sea idéntico a la intersección en el Modelo A de tres parámetros con el que
lo estamos comparando:
donde estos son los medios verdaderos pero desconocidos de los tres niveles de lo
categórico variable independiente. La comparación de estos dos modelos arroja los
siguientes valores de PRE y F:
Y estos apenas superan los valores críticos para 2 y 21 grados de libertad. Por lo tanto,
no podemos rechazar la hipótesis nula de que no hay diferencias medias entre Estas
tres categorías o condiciones.
Esta conclusión no significa, por supuesto, que debamos aceptar la hipótesis nula sin
diferencias medias. Y en este caso, ya que claramente teníamos la expectativa de que
el la media en la condición de Fallo sería menor que la media en las otras dos
condiciones, ciertamente debemos proceder a probar directamente esa hipótesis, que
es la comparación hecho por el primer predictor codificado por contraste. Dentro del
análisis de la tradición de varianza, se a veces se mantiene que no se deben probar
comparaciones enfocadas específicas entre categoría significa a menos que la prueba
general de múltiples grados de libertad que acabamos de realizado —que no hay
diferencia de medias entre las categorías— se rechaza. Nosotros totalmente en
desacuerdo con este punto de vista. Por razones que hemos explicado anteriormente,
somos generalmente no está enamorado de las comparaciones de modelos donde PA -
PC es> 1. Uno de los distintos ventajas de un enfoque basado en la regresión para el
análisis tradicional de los procedimientos de varianza es que uno se ve obligado a
construir comparaciones individuales de un grado de libertad o con contrastes entre
los medios grupales. Muchos programas ANOVA tradicionales proporcionan
automáticamente solo la prueba ómnibus, de múltiples grados de libertad, y esto,
creemos, es una prueba distinta deservicio.
Como hemos visto, los coeficientes de regresión para X1i y X2i estiman particular
diferencias entre medias de categoría, la primera compara la media de Falla con el
promedio de los medios No Feedback y Success, y el segundo comparando el No
Feedback y el éxito significa. Por lo tanto, comparaciones de modelos que prueban si
estos dos parámetros apartarse de cero son pruebas equivalentes de diferencias de
medias entre las tres categorías. Específicamente, una comparación de modelo es si el
parámetro asociado con X1i es igual a cero:
con una suma de errores al cuadrado de 24.937. Tenga en cuenta que la intersección
estimada y la endiente en Estos modelos no cambian de lo que eran en el Modelo A
con ambos predictores. Esto resulta de la conjunción de dos condiciones: Primero,
hemos empleado códigos de contraste. predictores, que por definición son
ortogonales a nivel de las tres categorías. Segundo, tenemos el mismo número de
observaciones en cada una de las tres condiciones. Como un Como resultado de estas
dos condiciones, los predictores codificados por contraste no están correlacionados
con cada otro a través de las 24 observaciones individuales. Su tolerancia en el Modelo
A es 1.00.
La primera comparación de modelos, preguntando si 1 difiere de cero, arroja lo
siguiente Estadísticas PRE y F:
Esta estadística F excede el valor crítico de F con a las .05. Por lo tanto, concluimos
que 1 difiere significativamente de cero. De manera equivalente, concluimos que el
valor medio de Yi en la condición de falla es significativamente diferente del promedio
de los valores medios en las condiciones de éxito y sin comentarios. Dado que la media
de la muestra en la falla condición es menor que el promedio de las otras dos medias
de muestra, concluimos que la retroalimentación de falla en este estudio disminuye el
rendimiento posterior en relación con el éxito y Sin realimentación.
La prueba de la segunda hipótesis nula, que 2 es igual a cero, produce el siguiente PRE
y estadísticas F:
Del mismo modo, vimos que el SSR para la comparación del Modelo A / Modelo C2 que
probó si 2 igual a cero era igual a: