You are on page 1of 13
DISENOS DE INVESTIGACION Y ANALISIS DE DATOS CORIENTACIONES TEMA N 8 (ANALISIS DE REGRESION) TEMA N° 8 > ANALISIS DE REGRESION LINEAL SIMPLE Y MULTIPLE ANALISIS DE REGRESION SIMPLE (ARS) Regresion lineal simple > Cuando una variable (VI) aporta informacién sobre otra variable (VD) decimos que estén relacionadas. El ARS estuaia la relacién entre dos variables (X e Y) para hacer predicciones (sabiendo el comportamiento de la VI, predecimos el de la VD). Ambas variables son cuantitativas (medidas en una escala de intervalo 0 razén) y mantienen una relacién lineal segun la expresién de la ecuacién de regresién lineal: Y=BX+ Bp yeBx ata Puntuaciones directas Puntuaciones diferenciales Puntuaciones tipicas La estimacién seré més precisa y ajustada cuanto mayor sea la relacién entre las variables (depende del valor del coeficiente de correlacién de Pearson).Entre las puntuaciones que predecimos con la recta de regresion (Y) y los valores reales de la VD (¥) existe una distancia (Y - Y’) que se denomina error de estimacién o prediccién. _ _ Siendo la media de los valores pronosticados (Y’) = la media de los valores observados (Y) Y¥ El tema bésico en la regresion simple es ajustar los 3, | puntos del diagrama de dispersién de X e Y. Para a conseguir la mejor linea que una esos puntos x -) necesitamos un criterio (minimos cuadrados). En i general surge de consideramos todas las Fl distancias (Y-Y}), se elevan al cuadrado y suman los cuadrados resultantes; a partir de estos datos, obtenemos la recta de regresién que hace minimo ese error (métode de ajuste por minimos Intaligancla (X} cuadrados) COEFICIENTES DE REGRESION LINEAL SIMPLE (B y Bo) > Normalmente los coeficientes B y By son desconocidos. El objetivo ser estimarlos por medio de Ja informacién contenida en una muestra aleatoria seleccionada de la poblacién. (Bo) recibe el nombre de “ordenada en el origen” (es el valor de Y pronosticado cuando X = 0) (B) recibe el nombre de ‘pendiente” de la recta (representa el cambio que experimenta Y cuando X aumenta una unidad) MODELO > Y,= By +8Xx+€ (Yestimada = ordenada en el origen + pendiente + Error) Célculo de los coeficientes > B = (n EXY) - (2X EY) /n EX*~(EX}* // Byp= Y-BX B= ty (Sy/ Sy) Para que sean validas las inferencias que se hacen sobre la VD utilizando la recta de regresién, se deben cumplir cuatro supuestes basicos (similares a las enunciadas para el ANOVA): 1.- Independencia de las observaciones (Ia selecci6n de la muestra debe ser aleatoria) 2. Homocedasticidad (las varianzas de las distribuciones de los errores deben ser iguales) 3.- Normalidad de las distribuciones 4. Independencia entre los valores estimados (Y) y los errores de estimacién (c) > (ry-¢ = 0) 'R. MEDRANO (TUTOR) Pagina 1 DISENOS DE INVESTIGACION Y ANALISIS DE DATOS CORIENTACIONES TEMA N 8 (ANALISIS DE REGRESION) BONDAD DE AJUSTE DE LA RECTA DE REGRESION. Alude a cémo es de explicativa la recta de regresién respecto a los datos sobre los que se ha ajustado. Para analizar la bondad de ajuste, se analiza la varianza de la VD antes y después de ajustar la recta de regresién. Cuando hay una relacién lineal entre dos variables, la varianza de la VD se puede descomponer en dos varianzas: la de los pronésticos y la de los errores > S*y=S*y-+ Se 'y/ Sy = SCrecresion/ SCy=FPxy | Proporcién de varianza de la VD ‘explicada por la varianza de la VI R’xy (Coeficiente de Determinacién) 1-RPxy | Proporcién de varianza de la VD no ‘explicada por la varianza de la VI S’e/S*y = SCreswues / SC 1 - F’xy (Coeficiente de Alienacién) El coeficiente de Determinacion (R’xy) es susceptible de varias interpretaciones: > Como medida de la mejora introducida por la ecuacién de regresién (proporcién en que se reduce el error de la VD cuando utiliza mos la recta de regresién para estimarla) > Como medida de la bondad de ajuste de la recta a los puntos (cuando no podemos asumir ef supuesto de normalidad de los errores). Cuando podemos asumir el supuesto de normalidad de los errores, la varianza de los errores S’e puede interpretarse como una medida de la bondad de ajuste de la regresi6n (a menor varianza de error, mejor ajuste) Se=Sy\1- Fry (error tipico) INFERENCIAS SOBRE LA REGRESION Contraste de hipstesis sobre la correlacién > Ho: pxy = 0 y Hy: pxy #0 La hipstesis nula plantea que no hay relacién entre la VD y la VI. Para dilucidar la significacién se pueden utiizar dos procedimientos equivalentes (relacién entre ty F > f= Fin) “Una razén F (cociente entre medias cuadtdticas) > Coeficiente de determinacién dividido entre el Coeficiente de alienacién con sus respectivos grados de libertad. r-——_—_— (1—F)/(N-2) * Mediante el estadistico t Intervalo de Conflanza ty n= 2) ZZ. 0170-9) Vt-F 'R. MEDRANO (TUTOR) Pagina2 DISENOS DE INVESTIGACION Y ANALISIS DE DATOS CORIENTACIONES TEMA N 8 (ANALISIS DE REGRESION) PROBLEMA EJEMPLO > En un centro de Psicologia clinica se ha encontrado que, en una muestra aleatoria simple de 45 pacientes fumadores, la ingesta media diaria de chicles de nicotina (n) y el consumo medio diario de cigarrillos (c) presentan una correlacién de rnc = (- 0,89). Se cumplen los supuestos del modelo de correlacién lineal ¢Es significativa la relacién lineal entre la ingestin media de chicles de nicotina y el consumo medio de cigarrllos? Considere un nivel de confianza del 99 %. Hipétesis > Ho: puc=0 y Hi: prc #0 Estadisticos de contraste (Los resultados confirman la equivalencia) ~ [¢ (-12,8)° = F (164)] = FP /[(1 — FP) / (N—2)] 9 F = (0°7921) /(0°00483) = 164 0,89) \45—2/% (1 = (- 0,89) = (- 584) / 0'456 = (- 12°80) Decisién > (se comprueba que La F te6rica = 929 F;, wy = 71 < 164; por tanto rechazamos Hy (el coeficiente de correlacién es significativo) La t te6rica = 039 asqi= (- 2°42) < (- 12°80); por tanto rechazamos H, (el coeficiente de correlacién es significativo) Interpretacién > Para un nivel de confianza del 99%, la correlacién es significativamente distinta de cero, por lo que debe pensarse que existe relacién lineal significativa entre el consumo medio de cigarrilos y la ingesta media de chicles de nicotina. Intervalo de confianza >Z'tZ.2\ 1/(n -3) La distribucién muestral del coeficiente de correlacién no es simétrica, lo que supone que los limites de! intervalo de confianza no son equidistantes del valor de ry (por esta razén se aplica la transformacién Z’ de Fisher) > (las tablas transforman directamente la correlacién ren Z’) Z’= Yin (141) ~ In (1-r)] PZ’ = [In (140°89) — In (1-0°89)] = (0°636) — (- 2°21) /2= 142 743 > 0°152 ZtZa2V1/(n-¥ P 142+ (2°42 - 0152) > (105 y 1°79) > transformados en r (0°78 y 0°945) INFERENCIAS SOBRE LA REGRESION Contraste de hipétesis para los pardmetros de la rearesién (B y Bo) > Y= BX + Bo Se contrasta si los coeficientes de regresién: pendiente (B) e intercepto (By) son distintos de cero Hipstesis estadisticas Ho (pendiente) Ho: Bo= Bo (intercepto) Ay: Hy: Bo# Bo ESTADISTICOS DE CONTRASTE | T =8 -0 /«; Op = Sy/ Sx (V1 =F xy/-2) Y ERRORES TIPICOS B20 (0p | p= Si Selo A 2 T=Bo- 0/090 | opo= 07 (tn + X11) Sy INTERVALOS DE CONFIANZA: | IC (B)= B+ Tnz:t02 08 By By (Coeficientes Regresién) 7 risers osteo) 1 (Bal: Bot Taasta2 Aas IC (¥) = VT na:ta2 «(Oe \ Un + (X=X)*/ (Nl) Sy 'R. MEDRANO (TUTOR) Pagina 3 DISENOS DE INVESTIGACION Y ANALISIS DE DATOS CORIENTACIONES TEMA N 8 (ANALISIS DE REGRESION) PROBLEMA EJEMPLO > Consideremos, a modo de ejemplo, los siguientes datos referidos an = 25 sujetos: ESTADISTICOS DESCRIPTIVOS. X X ¥ ‘Sumatorio (5) 882 239 2354 ‘Media 35°28 256 9416 esviacion tipica 97105 20833, 105423, varianza 94 2933 434 1114 ‘MATRIZ DE CORRELACIONES DE ORDEN CERO. x X, y % (0237) 0436 X; 0504 y 1.- Ecuacién de regresién (predecir el comportamiento de la variable Y a partir de la variable X,) Célculo de los coeficientes de regresién lineal (consideramos los datos de X,e Y) B= tyy(Sy/ Sx) = 07436 (10°5423/9°7105) = 0473 Bo = Y- BX = 94°16 - (0,473 - 35°28) = 77'465 Ecuacién de regresién > Y'= 77°465 + 0473 X 2. Contrastar hipétesis de que los parémetros de la regresién son nulos (no son significativos) Previamente calculamos el error tipico > 0, = Se = Sy\1- xy Se = 105411 — 0'436° 3 10°54. 0°9 = 9486 El intercepto (ordenada en el origen) es nulo (Bo = 0). Hipstesis estadisticas > Ho: Bo YH: Bo#O Estadistico de Contraste > T = Bo-0/0g0 > T= (774650) /7°035 = 11°01 (Vin 7 (rl) Sy) = Op Distribuci6n T o/2=ocasne ¥ T1-a/2=o97%n2 > #2069 < 11,01 (Rechazamos Hy) = 9°486 (1/25 +35 28°/ 24 94°29 = 7°035 po = Intervalo de confianza > IC (Bo)= Bo + Tn2:1a2 O50 > 77°465 + (2°069 -7035) = (92°02 y 62915) Elintercepto no es nulo (Bo # 0) > 0 no esta en el intervalo de confianza Lapendiente de la recta de regresion es nula > B = 0 Hipétesis estadisticas > Hy: B=0 Hy: B #0 Estadistico de Contraste > T = B - 0/0, > T = (0,473 - 0) /0°197 = 2401 Op = Sy/ Sx (V1 —Pay/ 1B) > Op = (10°54/9'71) NOOBS = 0°197 'R. MEDRANO (TUTOR) Pagina 4 DISENOS DE INVESTIGACION Y ANALISIS DE DATOS CORIENTACIONES TEMA N 8 (ANALISIS DE REGRESION) Distribuci6n T /2-0025:n2 ¥ T1-0/2~0.975,02 > +2 069 < 2°401 (Rechazamos Hp) Intervalo confianza > IC (B)= B+ Tnz:1a2 G8 > 0,473 + (2069 - 0'197) = (0066 y 0°88) > Pendiente no nula (B #0) > 0 no esté en el intervalo de confianza. 3. Pronéstico mediante la ecuacién de regresién de la puntuacién que ha obtenido un sujeto en Y, cuando su puntuacién en X; = 31 y calculamos el intervalo de confianza para este pronéstico individual (para a = 0,05). Utilizamos la ecuacién de regresién simple: Y’ = By + B X > Y= 77465 + 0473 X Pronéstico > Y'= 77°465 + 0°473 (31) > Y= 92°128 Para calcular el intervalo de confianza de este pronéstico individual Y’ = 92128, necesitamos calcular el error tipico del pronéstico con o*, desconocida y estimada mediante S*., Tra:taze (Be ¥ Un + (X—X)?/(n-1) Sx) Icy) Yt Tnza2 Ov > 92128 + 2°069 - 9°486 > (72,502 y 111754) ay = 9°486 \ (0°04 + 2262°96) / (24 . 94°29) > ay = (9°486) - (1) = 9°486 Precision de las estimaciones de los pardmetros (p, B y By) segtin el tamafio muestral: La amplitud del intervalo es funcién inversa del tamario muestral. El error tipico de la distribucién muestral de los pardmetros (factor que multiplica el valor t en la construccién del intervalo de confianza) esta aproximadamente en una proporcién inversa ain (cuando se cuadruplica el tamario muestral el error tipico se divide por la mitad). Asi, si se pretende reducir el error tipico para un n dado > n*= Nn (go/ o%g0)* Problema ejemplo: Se desea pasar de un error tipico (ago = 0°78) para un n = 50 a un error tipico ‘menor (a",0= 0°3) > La muestra necesaria seria: n* = n (Bpo/ 0*so)* > n* = 50 (0'78/ 0°3) = 338. ‘ANALISIS DE REGRESION MULTIPLE (ARM) El modelo de la Regresién Muitiple incorpora dos o més variables independientes o predictoras (X;, X2) actuando sobre una variable dependiente o criterio (Y). Estudiaremos el caso (el modelo) que considera fijos los valores de las X; y aleatorios Unicamente los de la variable Y. Ecuacién de regresién miiltiple - (Plano de Regresién) Y= Bo+ Br X; + Bo Xe +... (Modelo) Y= Bot By X; + Bp Xo +... (Caso conereto) Ecuacién de regresién en puntuaciones tipicas > 2'y= B21 + Bs Ze Procedimientos de cdlculo > By (intercepto con el eje de la Y cuando X; y X; valen 0; altura de! plano de la regresi6n) y By B, (coeficientes de regresion parcial o pesos de cada variable) Coeficiente By > By = ¥- By X;- Bo Xz Coeficientes B > A partir de los coeficientes de regresién parcial estandarizados (8) B=Bi(Sy/S) _ [Bista—ta- tal 1h Bz= B2(Sy/ 52) [Boe tye = typ - tia / T= rie Siy Sox Desviaciones tipicas de las variables X,y Xz 'R. MEDRANO (TUTOR) Pagina 5 DISENOS DE INVESTIGACION Y ANALISIS DE DATOS CORIENTACIONES TEMA N 8 (ANALISIS DE REGRESION) [BONDAD DE AJUSTE DEL PLANO DE REGRESION, Correlacién y determinacién lineal multiple > EI coeficiente de correlacién miitiple (Ry.1) Se interpreta como la relacién de Y con X; y Xe consideradas conjuntamente. El coeficiente de determinacién miitiple (F?,,12) se interpreta como > % de la varianza de Y que se debe a la variacién conjunta de X; y X; y como indice de bondad de ajuste al plano de regresién. Procedimientos de calculo > A PARTIR DE LAS CORRELACIONES Rye V (Ont Pre = 2 tie ty tay) / (1 = Pre) ‘A PARTIR DE LOS COEFICIENTES DE REGRESION ESTANDARIZADOS Ry z= VB tit Bare A PARTIR DE LAS VARIANZAS / Varianza dela VO) COEFICIENTE DE DETERMINACION | Ry... = 1-[(1-FPy.2)- (n-1/n-p-1)] MULTIPLE CORREGIDO (F AJUSTADO) (p=n* de Vio predictoras) VARIANZA DE LOS ERRORES Y ERROR TIPICO DE ESTIMACION S*ennon= (1 - Fy. 12) Sy (Al aumentar el coeficiente de correlacién iitiple disminuye error tipico) L(Y-YF/n-p-1 INFERENCIAS SOBRE LA REGRESION MULTIPLE Significacién del coeficiente de correlacién multiple > Ho: F° = 0 y Hy: FP# 0 F=R(n-p-1)/(1-F)p Distribuci6n F 5 ino- a1 Intervalo de confianza 3 IC (F’ # ty.2;1a2- 0 ae = Limites superior e inferior) Donde o m= \4F° (1-F°P(n-p-1) / (1? - 1)(n + 3) PROBLEMA EJEMPLO > ‘Aludimos, a modo de ejemplo, al planteamiento utilizado en el andlisis de regresién simple. Disponemos de los siguientes datos referidos a n = 25 sujetos: ESTADISTICOS DESCRIPTIVOS x X ¥ ‘Sumatorio (5) 882 239 2354 Media 35°28 956 94°16 Desviacién tipica 97105 20833 10°5423, varianza, (942933 434 11114 ‘MATRIZ DE CORRELACIONES DE ORDEN CERO. x x ¥ x (0237) 0436 X; 0504 Y 'R. MEDRANO (TUTOR) Pagina 6 DISENOS DE INVESTIGACION Y ANALISIS DE DATOS CORIENTACIONES TEMA N 8 (ANALISIS DE REGRESION) 1.- Pronosticar la puntuacién en la variable ¥ (VD) de un sujeto con (X; =31) y (Xz =9). Para ello, construimos la ecuaci6n de regresién multiple: Coeficientes de regresién parcial > By=B;(Sy/S;) Br=ta—ha fal 1h By = 0'583(10'54/9'71) By = 0°436 ~ [(0°504) . (- 0°231)]/0°9466 = 0° B= B2(Sy/ $2) Bez tanta t/t By= 0°639(10'54 /2°08) = 3°238 Be= (0504) — (0'436) - (- 0°231)]/0°9466 = 0'639 By =Y-B; X,-Bz Xp > By = 94°16 - 0°6328 (35°28) - 3°238 (9°56) = 40°88 Ecuacién de regresién miiltiole > Y" = 40°88 + (0°6328) X, + (3238) Xz Pronéstico > Y" = 40°88 + (0°6328) (31) + (3'238) (9) > 89°64 2. Obtener el coeficiente de determinacién multiple y el coeficiente de correlacién miiltiple: Célculo a partir de las correlaciones > Rye VP it 2-20 2 sy8 ay) /(1—P ra) = \ (0'436°+0 594) - 2 (0°436)(0°504)(-0 231) 0,986 Ry, 2 = 0°759 > Coeficiente de determinacién miittiple > Ry. 1. = (0,759) = 0,576 (Un 57°6% de la varianza de Y se debe a la variacién conjunta de X,y X2. Célculo a partir de los coeficientes de regresién estandarizados > B: B: ryt — Fa Fra! 1 = tz? D By = 0°436 — [(0°504) - (- 0°231)] / 09466 = 0583 haat tre Vr? DBs (0°504) — (0°436) - (- 0°231)] /0°9466 = 0°639 Ry. 12 = V Brtvr+ Batv2 > Ry. 12= V (0°83 - 0°436) + (0639 - 0°04) = 0759 Coeficiente de determinacién ajustado > Poy y2= 1-[(1- Py.) (n—1/n-p-1)] DRPy.12 = 1 -[(0'4239) - (24 / (25-2-1]) = 0538 3.- Obtener la Varianza de los errores y Error tipico > Varianza de los errores > S*ennon = (1 - Ry. 12) Sy > S*ennon= (1 -0°759) 111'14 = 47°11 Error Tipico > ae =V¥ (Y—Y)'/n—p—1 ; oc = Sennon V 11306/22= 717 Donde: S*eanon= 5 (Y- YP /n- 1 E (Y¥-V P= Sennon(n- 1) > L(V-¥ P= 4711 - 24 =11306 4.- Averiguar la significacién de R° con (a = 0°05)> F = R’(n—p-1)/(1-F’)p Fz 759 (25-2-1) / (1-0°75%) 2 = 14°95 D Como 14°95 > F os; 2y22= 344 (Aceptamos H;: R’# 0) 'R. MEDRANO (TUTOR) Pagina? DISENOS DE INVESTIGACION Y ANALISIS DE DATOS CORIENTACIONES TEMA N 8 (ANALISIS DE REGRESION) Intervalo de confianza > (FP t tna;1a2+ 0 aa > 0°576 + (2°07 - 0°107) = (0°356 y 0°796) © ne = VAR (RF (ie p-tP / (0 — T(r + 3) Po a= \(200,72/ 17472) = 0107 5.- Averiguar la significacién de las pendientes de la ecuacién de regresién (se averigua el intervalo ‘de contianza (IC) para cada pendiente y se comprueba si dentro del intervalo de confianza esté el valor cero ( sie! 0 no estd se rechaza la Hy) Hipotesis estadisticas > Ho: By = 0 y Hy: By #0 Ho: B2 = Oy Hy: B2 #0 Estadistico de Contraste 3 IC (B)= Bt Tna1a2 Op Donde > og = Sy/ Sx (V (1/ (1 = RN (1- ya) /(r-p-1) Donde > F¥; es la correlacién entre las variables predictoras al cuadrado 4.= 2a1F Ops = (10°54/971) 11056 NO019= 0°55 xa = (10°54/2'08) V1 05610019 = 0724 Distribucién Ta/2.0ces:ne1 ¥ T1-a/2=0975ne1 > £2074 < (Rechazamos Ho) Intervalo confianza 3 IC (B)= B+ Tn2:1a2 8 > 0,473 + (2°069 - 0197) = (0066 y 088) > Pendiente no nula (8 # 0) > 0 no esta en el intervalo de confianza. CORRELACION PARCIAL Y SEMIPARCIAL > Para determinar la contribucién de cada VI a la explicacién de la VD se utilizan la correlacién semiparcial (sr) y su cuadrado (sr). Cuando en un modelo intervienen mas de dos variables las correlaciones dos a dos no son correlaciones puras (no miden la relacién entre esas dos variables al margen del influjo de las otras variables del modelo). Las correlaciones entre dos variables de ‘orden cero son correlaciones calculadas sin tener en cuenta la presencia de terceras variables. Correlacién semiparcial (sr): relacién entre cada VI y la VD, eliminando el influjo del resto de las Wil. Para calcularlo, utiizando el modelo de dos variables predictivas > X; y Xz, (ajusto una regresién de la 1? sobre la 22, extraigo los residuos y los correlaciono con la VD > Coeficiente de correlacién semiparcial entre X,y la VD) 801 (tvs rate) /N1 = 2 M/ Stes (tre tite) NI-P Cuando elevamos al cuadrado sr; y sf obtenemos la contribucién que cada VI tiene sobre la VD, habiendo eliminado el influjo de las otras VVII (contribucién exclusiva que cada variable hace a la explicacién de la VD) s?)= Py 2-2 I! 82> Py n— Pv Correlacién parcial (pr): se elimina el influjo de los predictores, tanto de la VI como de la VD (correlacién entre residuos). Se trata de la correlacién pura de dos variables, eliminando el influjo de terceras variables. Bly = (tyi— Wyeth) /V 1- Pye V1 =P 39 M/ pte = (Pre— ty tha) /\ 1- Py NI-P Cuando elevamos al cuadrado pr. y prz se interpreta como la proporcién de la varianza de la VD (Y) asociada a X; y no asociada a X2 (y viceversa) 'R. MEDRANO (TUTOR) Pagina 8 DISENOS DE INVESTIGACION Y ANALISIS DE DATOS ORIENTACIONES TEMA N 8 (ANALISIS DE REGRESION) Pe, = Py. 2—Pral tA Mp a= By.2-P n/t Modelo Stepwise (pasos sucesivos): Modelo para la introduccién sucesiva de variables en el andlisis de regresién miltiple. Si realizamos una regresién con el modelo (stepwise) introduciriamos en primer lugar la VI con mayor correlacién con la VD (posteriormente la que mayor correlacién parcial tenga con la VD y as{ sucesivamente hasta que la nueva variable no aporte un ineremento significativo en el FF). Resulta un ajuste dptimo del modelo con el menor numero de variables. F = Feeamtio(N-p = 1)/q(1- RP) Donde: F’camsio (e cuadrado del coeficiente de correlacién semiparcial > sr’ > proporcién de varianza explicada cuando se incorpora esta variable al modelo). El cambio debe ser significativo. Siguiendo nuestro problema ejemplo > si quisiéramos determinar el cambio que se produce en el ‘modelo al incorporar la segunda variable (modelo stepwise) La primera variable que entraria en el modelo seria la X; (es la que mAs alto correlaciona con Y) La segunda variable introduce el cambio > st”, = Fy, 12- Pry > SP2 = 0'759° — 0'504 = 0°322 Para averiguar si es significativo > q (n° de nuevas variables que entran en el modelo) F = 0°322 (25-2-1)/1 (1 —0°576) = 16°71 // vss F1y22= 4°35 < 1671 (cambio significativo) ‘PROBLEMA EJEMPLO > Consideremos, a modo de ejemplo, las variables X,, Xze Y, cuyas correlaciones son las siguientes: m=07 ra=06 Rv 2=08 Una primera ojeada puede hacernos pensar que la variable X, contribuye a la variabilidad de Y en una proporcién de 0’7° = 0°49 y que la variable X, contribuye en una proporcién de 06° = 0’36. No obstante, se sabe por la correlacién miiltiple que la proporcién de variacién explicada es de 0.8° 0°64. El total de ambas contribuciones no es igual a la suma, luego esta claro que ambas variables explicativas no son fuentes independientes de variabilidad, sino que comparten una cierta cantidad de la misma (existe redundancia entre ambas variables) Célculos (correlaciones semiparciales) > Como entre ambas variables explican una proporcién de 0°64, es evidente que la contribucién adicional de X, sobre la que explica X; sera: SP, = Py i2—Pre D ss = 064-036 = 028 > sr, = \028 529 Esto es, lo que afiade X, a X; es una proporcién de variacién explicada de 0°28. La raiz cuadrada de este valor se expresa como sr; y se define como coeficiente de correlacién semiparcial. De igual modo lo que afiade X, aX, sera: sP2=Py.2-Py > st'2= 064-049 =015 > st,=\0'15 = 0387 Es decir, la inclusién de X2 supone un incremento sobre la proporcién de variacién explicada por X, de 0°15 puntos. Su coeficiente de correlacién semiparcial es = 0°387. Calculos (correlaciones parciales) > Un investigador desea estudiar la relacién entre actividad fisica y sensacién de bienestar pero cree que el tiempo de suefio puede afectar la relacién entre ambas variables. Fija el nivel de significacién en a = 0,01, extrae aleatoria e independientemente 30 sujetos y les mide el tiempo que dedican diariamente al deporte (X,), el tiempo diario de suerio (Y) y la sensacién de bienestar (X.). Se cumplen los supuestos del modelo de correlacién lineal y el supuesto de normalidad. El investigador obtiene los siguientes coeficientes de correlacién: r12= 0,80; 'R. MEDRANO (TUTOR) Pagina 3 DISENOS DE INVESTIGACION Y ANALISIS DE DATOS CORIENTACIONES TEMA N 8 (ANALISIS DE REGRESION) Tyv= 0,50 y tev= 06 Pri = (tr—traria)/V Pye Vt Pia > pry = [0°5 — (0°6-0°8)] /NO64 \036 = 0°46; pr’ = 0174 La correlacién entre tiempo dedicado al deporte y sensacién de bienestar, habiendo controlado la influencia del tiempo de suefio = 0’416 (17°4 % es el porcentaje de varianza asociado a X;) Pls = (Pye Fa Fra) /V 1 Py V1 —F 2 > ple = [06 - (0°5-0°8)] /V0'75 \0°36 = 0385: pr’, = 0148 Interpretacién > Para un nivel de confianza del 99%, los resultados indican que es significativa la relacién lineal entre el tiempo dedicado al deporte y la sensacidn de bienestar, habiendo controlado la posible influencia del tiempo de suerio. PROBLEMA EJEMPLO > Disponemos de las puntuaciones de 5 sujetos en tres variables: promedio de horas de ejercicio al dia (X,), promedio diario de kilocalorias consumidas (X.) y kilos perdidos (Y). Con los datos expuestos en la tabla, planteamos los andlisis mas tipicos sobre la Regresion lineal miiltiple. Xe ¥ x; Xs ¥ Xi Xe XY XY 4 4 1 16 16 4 4 16 375 6 2.25 | 14,0625 | 36 5.625 9 22,5 3 7 4 9 49 6 14 21 2 o 6.25 4 81 5 22,5 18 15 10 9 2.25 100 45 30 15 E10 | £21425 | F=36 | ¥=225|F=45,31| ¥= 262 | ¥=2512| F=795 | F=925 X22 Ke= 2,85 Sxj=05 Sx, =094 S¥y: 1234 + (3,235) X; + (0,174) Xe (0985) 1! tyy= 0°93 // rye (- 0°976) 1.+ Pronosticar el peso que perdera en dos meses una mujer que hace un promedio de 1,75 horas de ejercicio diarias (X;) y consume 2,2 Keal/ dia (X;). Construimos la ecuacién de regresién. Coeficientes de regresién parcial > B= Bi (S/S) Bist ha tal tre By = 1071 (213/07) =3°23 By = 0°93 - [(- 0°976) -(- 0°985)}/0°0298 = 1071 B= B(S1/S.) Bre tata tal The B,= 0'079(2'13/0'97) =017 Bs (- 0'976) ~ (0°93) - (- 0°985)]/0°0298 = 0'079 By =Y-B, X,-B2Xz > By = 72-3285 (2) — 0174 (2°85) = 0°234 Ecuacién de regresién miltiple > Y’ = 0°234 + (3°235) X,+ (0'174) Xz 'R. MEDRANO (TUTOR) Pagina 10 DISENOS DE INVESTIGACION Y ANALISIS DE DATOS CORIENTACIONES TEMA N 8 (ANALISIS DE REGRESION) Prondstico > Y= 0,234 + (3,235) (1,75) + (0,174) (2,2) > 6,278 (La pérdida en peso pronosticada para esa persona sera de 6, 278 Kilos) 2. Obtener el coeficiente de determinacién multiple y el coeficiente de correlacién miiltiple: A partir de las correlaciones > Rye V (PtP y2-20 20 iv a)/(1—P2) = V (0986+ 0,952 - 191) /(0,0298) = 0,97 Coeficiente de determinacién miitiple > Fy. 1 = (0,97F = 0,94 (Un 94% de la varianza de Y se debe a Ja variacién conjunta de X; y X. A partir de los coeficientes de regresién estandarizados > Bi Bo=tya—ty-ta/1- he D Be= f= fa Fao! 1 = the? > Br = (0°993) ~ [(- 0°976) - (- 0°985)] /(0,0298) = 1071 ( 0°976) — (0°93) - (- 0'985)} /0'0298 = 0°079 Ry. 12= V Bit + Botv2 > Ry. 12= V (1071 - 0°93) + (0°079 - - 0976) ‘97 Coeficiente de determinacién ajustado > Res HMA ya) (n-1/n-p- I] PR v2 —[(1 - 0°94) . (4/ (5-2-1) Signiticacién > F = R° (n- p - 1)/ (1 — R) p > F = 0°94 (2) /0°06 (2) = 15°67 Como 15°67 > F os; 2y2= 19 +4t+tttt+ Intervalo de contianza > (R’ £ ty2:1a2° 0 nz = Limites superior e inferior) PROBLEMAS EJEMPLO > Se ha llevado a cabo un estudio con objeto de pronosticar las calificaciones que obtendran los alumnos de A. Datos II (ADII), a partir de las puntuaciones que obtuvieron en la asignatura A. Datos 1 (ADI). Para ello se ha seleccionado una muestra aleatoria de 5 sujetos, recogiendo sus calificaciones finales en las dos asignaturas: ‘SUJETOS [ ADIDY | ADIDX XY. y (V=VF x 1 6 4 24 5.29 0.5041 0 2 4 3 12 4,895 0,8010 4 3 6 Z 42 6.475 0,2256 0 4 Z 6 42 6.08 0.8464 1 5 Z 9 63, 7.265 0.0702 1 E=30 z=29 | £=163 | F=30,005| F=245 | F=6 Datos DE (X-X/= 22,8 Se=E(Y-VF/n-232,45/ = 0,82 > (S,= 0,904) X=29/5=5,8 Y=30/5=6 Sy =57 S215 ty=0673 Y’=By+BX 9 Y'=3,71 +0,395X Donde, los coeficientes de la regresién son: B= (nEXY-EXZY)/[nEX— (5 X}] P (45/114) = 0,395 By=Y-b 6 = (0,395 - 5,8) = 3,71 'R. MEDRANO (TUTOR) Pagina 11 DISENOS DE INVESTIGACION Y ANALISIS DE DATOS CORIENTACIONES TEMA N 8 (ANALISIS DE REGRESION) 1.- Contrastar las hipétesis de que los parémetros son nulos (no son significativos) El intercepto (ordenada en el origen) es nulo (Bo = 0). Hipstesis estadisticas > Ho: Bo=0 y Hy: Bo# 0 Estadistico de Contraste > T = Bo~0/Og0 > T= (3,71-0)/1,1 = 337 Fp = Oe (Win + X/ (1-1) Sx) = Ogo = 0904 (VIS +5 F457 = 11 Distribucién Ta/znocesne ¥ T1-a/zeasrsne > #3,18 < 3°37 (Rechazamos Ht). Intervalo de confianza > IC (Bo)= Bot T 2:10 Fao > 3,71 + (3,18 -1,1) = (7208 y 0212) El intercepto no es nulo (Bo # 0) > 0 no esta en el intervalo de confianza. La pengiente de la recta de regresién es nula > B = 0 Hipétesis estadisticas > Ho: B=0 Hy:B #0 Estadistico de Contraste > T +0 /a3 T= (0,395-0)/119 Op = Sy/ Sx (V1 =F xy/ 1-2) > Og = (1'22/2°39) NO182 = 1°19 Distribuci6n T a/2-o0e8:n2 Y T1-0/2=0975:02 > # 3,18 > 119 (Mantenemos Ho) Intervalo confianza > IC (B)= B+ Tn2:1a2 8 (como ejemplo, puesto que no hemos aceptado H;) 0,395 + (3,18 - 1’19) )) > 0 esta en el intervalo de confianza. (4°18 y— 3°38) > Pendiente nula (B También podemos contrastar la hipdtesis (B = 0) mediante el andlisis de varianza de la ecuacién de regresién: Hipdtesis estadisticas -> Hy. B = 0 yHy:B#0 TABLA DEL ANOVA FUENTE DE ‘SUMAS | GRADOS DE ‘MEDIAS ESTADISTICO DE VARIACION | CUADRATI AS| LIBERTAD | _CUADRATICAS CONTRASTE DEBIDA A LA ‘SC neanesiow MC ecnesion REGRESION 1 Desviacién Total 3,55 3,55/1=3,55 | F=(3,55 /0,82) = 4,353 RESIDUAL O ERROR | SC resiouaz MC nesioua. = So Varianza explicada 3 por la Regresion 245 245 /3 = 0,82 TOTAL SC tora Desviacién respecto a 4 F se distribuye con 1 y 3 gl > 10,13 a recta de Regresion 6 SC Total (Y-¥=E¥'=6 SC neonesiw=(6-2,45)=3,55 SCaesouu=E(Y¥-¥) = 2,45 Decision ® No podemos rechazar H) > 10,13 > 4,353. La regresién no es significativa (B = 0) no hay pendiente. Ambos andlisis indican lo mismo; por tanto, la puntuacién en A. Datos | no predice adecuadamente la calificacién en A. Datos Il. Por tiltimo, averiguamos (pronosticamos) la puntuacién que obtendré un alumno en AD Il, sabiendo que ha obtenido un 5 en AD | y calculamos el intervalo de confianza para este pronéstico individual (para a = 0,05). Utiizamos la recta de regresién simple: Y’ = Bo + BX > 3,71 + 0,395 X 'R. MEDRANO (TUTOR) Pagina 12 DISENOS DE INVESTIGACION Y ANALISIS DE DATOS CORIENTACIONES TEMA N 8 (ANALISIS DE REGRESION) Prondstico en AD Il, para un alumno que obtuvo un 5 en ADI > Y= 3,71 + 0,395 (5) > 5,685 Para calcular el intervalo de confianza de este pronéstico individual Y” = 5,685, necesitamos calcular el error tipico del pronéstico con a°, desconocida y estimada mediante S*., IC (Y) = YT nz: 102 «(OV Un + (X—X)*/(n-1) Sx) Yt Tnza2 Oy P5685 +4 3,18 -0'82 > (3071 y 8,29) Tavznooa5ine Y T1-a/ osrane > 43,18 ay = 0820 (02+ 228)/(4-57) Poy= (0°82) - (1) = 0°82 'R. MEDRANO (TUTOR) Pagina 13,

You might also like