You are on page 1of 115
TEORIA DE LA CORRELACION 333 y de ahi deducimos 6) = —3.38 yb, = 1.036, y por tanto, ¥ = —3.38 + 1.036Y. El grafico de estas ccuaciones se ve en Ia Figura 14.2 Otro método ener -engwm mney = ee a = 3,38 ey SSS = 1036 be NSPS a > Fy 14.2. Rehacer los Problemas 14 1(h) y 14.1(c) usando las rectas de regresion a y Sf i y x donde x = ¥ — Fey =¥— fF. t Solucién Primer método La Tabla 14.3 resume la tarea. La recta de regresion de Y sobre ¥ es Tay" 4034 ie sous ae . - = (¥ — 66,7) ee x aca)” O476x 0 sea. ¥ — 67.6 = 0.476. 16,7) Tabla 14,3 x y a ae . y ye 65 68 -17 04 2.89 —0.68 0.16 63 66 —37 -16 13.69 5,92 2.56 67 68 03 04 0.09 O12 0.16 64 65 -27 —26 7.29 7.02 6.76 68 69 GF 14 1.69 182 1.96 62 66 -47 16 22.09 752 2.56. 70, 68 33 04 10.89 132 0.16 66 65 =0.7. —26 0.49 182 6.76 68 A 13 34 1.69 442 TLS6 67 67 03 06 0.09 —O1B 0.36 69 68 23 04 5.29 092 0.16 a 0 43 24 18.49 10.32 5.76 yx=800 yest ¥=800/12 Y=sii/2 Yay =40.34] 5 y2= 38.92 = 66.7 =67.6 La recta de regresion de X sobre ¥ es «>= Gaal Coinciden con los resultados del Problema 14.1. =1036r osea -¥ — 66.7 = 1036(¥ — 67.6) 334 ESTADISTICA Segundo método Restar una constante adecuada, 60, por ejemplo, de cada valor de Xe ¥. Los resultados sé pueden ordenar como ¢n la Tabla 14.4. Procedamos con el segundo método del Problema 13.17. Asi pues. a 2 SEXY EY) vEXY - Cre) _ 1 NE AY NOY? —(pyy | Como ¥ = 60 + 80/12 = 6676 F las de antes. Notese que si dy y My & - -1asen por este método, no obtendriamos los mismos resultados que antes, ya que a y By dependen uc la cleccién del origen. De manera que este método se usa sélo para hhallar @, y 6,, que son independientes de la eleccién de! origen = 0476 b, 1.036 60 + 91/12 676, las requeridas ecuaciones de regresién son Tabla 14.4 x # ve ry bi 5 8 25 40 64 3 6 9 18 36 7 8 49 56 64 4 5 6 20 25 8 9 64 n al 2 6 4 2 36 10 8 100 80 64 6 5 36 30 25. 8 i 64 88 11 7 7 49 49 49 9 8 81 2 64 uw 10 121 no 100 Ex=80 | Yvan | yrtsos | yerr=or | Yrt=n9 ERROR TIPICO DE ESTIMACION 143, Si la recta de regresion de Y sobre ¥ viene dada por ¥ = dy + a,X, probar que ei error tipico de estimacion s;. viene dada por fe a Te = ay ¥ — a 0 XY fa ey Solucion Los valores de ¥ estimados por la recta de regresién estin dados por Yay, = aq + aX. Luego y YO = ay ak? N X) = a0 (¥ = ag — aX) — a XY — ay — aX) N Ahora bien LY = ag = aX) = EY - aN = EX = TEORIA DE LA CORRELACION 335 y EX — ay — aj X) = XY - a VX — VX? =0 ya que de las ecuaciones normales BT toes tag Vets YAY = PX +4, Px? a 2 Por tanto - 40h J DE Este resultado puede ser extendido a ecuaciones de regresién no lineales. 144. Six=X—¥ey=Y¥-— F, probar que el resultado del Problema 14.3 puede expresarse a, 2 Fy 5 Solucién Del Problema 14.3, con ¥ =x + Pe ¥ = y + P, tenemos Nsi¢ = DY? — ap) ¥—- a YAY =L + PF -— a EO+ P)-a Ee + DU +h) = S07 + 2p F + F9)— aly + NP) — a, Soy + Pe 4 xP + PP) = Ey? + PY + NPP a NP — a, Dxy a PD — a, PE — aN PP = Yy? + NY? — agN¥ — a, ) xy — a, NXP = Ey? a, Dxvt+ NPP — ay — 4,8), LP -a dy donde hemos usado los resultados }'x = 0,» = Oe F = ay + a, ¥ (que se'siguen al dividir ambos lados de la ecuacian normal 5 ¥ = aj +4, FX por N) 145, Calcular el error tipico de estimacién, sy y, para los datos del Problema 14.1, usando (a) la definicion y (b) el resultado del Problema 14.4. Solucién (a) Segiin el Problema 14.1(b) la recta de regresion de ¥ sobre ¥ es Y = 35.82 + O.476¥. La Tabla 14.5 da los valores reales de ¥(de la Tabla 14.1) y los valores estimados de Y, denotados por Yuu. que se obtieneh de la recta de regresién: por ejemplo, correspondiente a ¥ = 65 tenemos ¥,.. = 35.82 + 0.476(65) = 66.76. También se recogen los valores ¥ — Y,,, que se necesitan al cal- cular sy, (1.247 + (0.19? + + + 0.38" n 4; SS 1.642 Y Spx = 1642 = 1.28 in 336 ESTADISTICA Tabla 145 x 65 | 63 | 67 | 64 | 68 | 62 | 70 | 66 | 68 | 67 | 69 Y 68 | 66 | 68 | 65 | 69 | 66 | ox | 65 | 71 | 67 | 68 66.76 |65.81 [67.71] 66.28 |68.19]65.33| 69.14 | 67.24 |68.19] 67.71] 68.66 Y-Yeq | 1.24] 0.19] 0.29) —1.28| 081} 0.67] -1.14] —224] 281] —0.71| -0.66 (©) De los Problemas 14.1, 14.2 y 14.4 > _ Det =a Lxy _ 3892 — 04764034) = = 1683 ee N 12 yoy = 9/1643 = 1.28 in. 146. (@) Consteuir dos rectas paralelas a la recta de regresiGn del Problema 14.1 y que estén a distancia vertical ).y de ella. (4) Determinar el porcentaje de puntos dato que caen entre esas dos rectas. Solucion (a) La recta de regresin Y = 35.82 + 0.476Y, obtenida en cl Problema 141, ¢s la de trazo gruesoe Ja Figura 14.3. Las paralelas a distancia vertical sy y 1.28 de ella (véase Prob. 14.5), son las: ‘trazo discontinuo en csa figura. | (b) De la Figura 14.3 se ve que mientras 7 de los 12 puntos dato caen entre esas rectas, 3 apare sobre ellas, Un examen mas detallaco (usando la fila inferior de la Tabla 14.5, por ejemplo) que dos de ellos estan entre csas dos rectas. Luego el porcentaje requerido es 9/12 = 75%, Figura 14.3. TEORIA DELA CORRELACION 337 Otro método Segiin la fila de abajo on la Tabla 14.5, ¥ — ¥_,, est entre — 1.28 y 1,28 (por ejemplo, +5y,x) paca nueve puntos (X. Y). Luego el porcentaje pedido es 9/12 = 75%. Si los puntos estan normalmente distribuidos respecto de la recta de regresion, la teoria predice que alrededor del 68% de los puntos estan entre las dos rectas. Ello seria mis preciso si el tamaiio de la muestra fuese grande ‘Nota: Una estimacién mejor del error tipico de estimacidn de | poblacion de la que procede Ja muestea viene dada por 8. = \/N(N — 2)sy.x = /12/10(1.28) = 1.40 in. VARIACION EXPLICADA Y VARIACION INEXPLICADA 147. 148, Probar que )(¥ — PP = PY — Yu? + Dron — FY. Solneion Flevando al cuadrado ambos mienbros de ¥ — ¥ = (¥ — ¥,,) + (Ya. — Y)y sumando, tenemos LO = FP = Lr — Ya)? + Ee — PP + AE — Neal Per — PP El resultado buscado se sigue inmediatamente si conseguimos ver que la altima suma es cero: en el caso de regresi6n lineal, e80 es cierto, porque LY = Yad Yea — P= VOW — ay — XV lay + 4 — FP) ag VAY — ay — aX) + ay PX(Y = ay — aX) — PLY — ag a X= 0 ‘a causa de las ecuaciones normales )(¥ — ap — a,¥) = Oy Y MY — ay — a,X) = 0. Andlogamente se ve que el resultado es vilido para regresion no lineal usando una curva de minimos cuadrados dada por Ya) = dg + a,¥ + a,¥? + + a,X" Calcular (a) la variacién total, (6) la -variacién inexplicada y (c) la variacion explicada para los datos del Problema 14.1. Solucion * (@ La variacion total (Prob. 14.2) es Y(¥ — ¥)? = Dy? = 38.92. () La variacion inexplicada (Prob. 14.5) es E(¥ — Yuu)? = Nsjy = 19.70. (© La variacion explicada (Prob. 14.7) es. .(¥,. — ¥)? = 3892 — 19.70 = 19.22. Otro método Como ¥ = 811/12 = 67.58, podemos construir la Tabla 14.6 usando los valores ¥.,. de la Tabla 145; entonces "(Yuu — PY? = (—0.82)? + (—1.77)? + -- + (2.04)? = 19.21. Los resultados de las partes (a) y (6) se pueden deducir también dircetamente. Tabla 14.6 Pye a = =177 013 130 061 —225 156 —03 13 1.08 2.04 Ca? a 0 0.61 —2.25 1,56 4 0.61 0.13 338 ESTADISTICA COEFICIENTE DE CORRELACION 149. Hallar (a) el coeficiente de determinacién y (4) el cocficiente de correlacién para los datos del Probl ma 14.1. Usar los resultados del Problema 14.8, Solucin variacién explicada _ 19.22 = SaaS RE = 0.493: variacion total 38.92 (6) Coeficiente de correlacion = r = + ,/0.4938 = 40.7027. (a) Coeficiente de determinacion = Como la variable ¥ crece al erecer Xa correlacién es positiva y por tanto escribimos r = 0. 9 sea 0.70 con dos cifras significativas 14.10. Probar que para regresién lineal el cocficiente de correlacién entre las variables Ye ¥ se puede escril donde x = ¥ —- ey = ¥— Solucion La recta de regresion de minimos cuadrados de ¥ sobre X ¢s Yeu = do + 4X6 Jey = Xe donde [véase Prob. 13.15(a)] Gee = a yariacion explicada (Ye. — PP _ Yyee jontotal == S(Y— FP Sy? ays ap (6%; Le Ge rye EAA y r Entonces es VEEN day VEE es positiva cuando y4,, crece al erecer x (0 sea, correlacién lineal positiva) y negativa cuando y decrece al crecer x (@ sea, correlaciGn lineal negativa), aulomdricamente tiene el signo correcto. Por tanto, definimos el coeliciente de correlacion lineal como Ter MEHL) Esto se suele Hamar la firmala momento-producto pata el coeficiente de correlacion lineal Sin embargo, como la cantidad FORMULA MOMENTO-PRODUCTO PARA EL COEFICIENTE, DE CORRELACION LINEAL 14.11. Hallar el coeficiente de correlacion lineal entre las variables X e ¥ presentadas en la Tabla 14.7. TEORIA DE LA CORRELACION 339 Tabla 14.7 Solucion Los caleulos se resumen en la Tabla 14.8 veriay tbe ahi observamos que hay una correlacion lineal muy alta entre las variables, como Y8 S comprobé en los Problemas 13.8 y 13.12 rs VE32)656) Tabla 148 x Y x=¥-¥ | y=¥ Fr ro xy 1 1 —6 -4 36. 24 16 3 2 4 ae 16 12, 9 4 a 3 =t 9 3 L 6 4 =1 41 1 1 1 8 3 i 0 L 0 oO 9 7 2 2 4 4 4 u 8 4 3 16 12 9 14 a T 4 4a 28 16 yx = 56 yy=40 n X= 56/8 ¥=40/8=5 er {412. Para los datos del Problema 14.11, hallar (a) la desviacion Hpled de X, (b) la desviacion tipica de Y, (o) la varianza de X, (d) la varianza de ¥ y (@) fa covarianzs de Xe ¥. Solucién x *F (a) Desviacion tipica de X= a8 = | ESR = (8) Desviacion tipica de ¥ = sy = |v fe = (ce) Varianza de X = 1650 (a) Varianza de ¥ = 3 = 7.00 a) 340 ESTADISTICA 14.13. 14.14, 14.15. * Para los datos del Problema 14.11, verificar la formula _ oe SiS Solucion Del Problema 14.12 sii 10.50 p= = 0976 Sxsy 4.06)2.65) que, salvo por errores de redondeo, coincide con el resultado del Problema 14.11 Obtener, mediante la formula momento-producto, el coeficiente dé correlacion lineal para los dat Problema 14.1. Solucién Se puede organizar el trabajo como en la Tabla 143 del Problema 14.2. Entonces Dy 40.34 MEME) V18468)(38.92) que esti de acuerdo con el método mas largo del Problema 14.9 = 0.7027 Demostrar que el coeficiente de correlacion lineal viene dado por VINE — EINE YF — LPT Solucién Haciendo x = ¥ — ¥ey = ¥ — Fenced resultado del Problema 14.10, tenemos ye@e-yr- 7 VEG ~ XID — F1 Pero D(X — Ky — %) = Vay — Fy — P+ ¥%) = Vxy — PLY — PY + wr = Y.XY — NYP — NYY + WEY = D.xy — NXY vey Steere (34) ya que ¥ = (¥ XW e ¥ = (Y YVAN. Andlogamente, Vala Sy ae ~ ae + 4 = x — ay x + wet 2 2 => exe oe =o oy pale ¥ yar Ff =F? - iy TEORIA DE LA CORRELACION 341 Asi pues, la ecuacion (34) se convierte en of ExY- ONE NN wyxY- OEY VOL PND 7 — (YIN TNS 7 =O MVE Y? - ov 14.16. Mediante le formula del Problema 14.15, hallar cl coeficiente de correlacion lineal pari los datos del Problema 14.1 Solucién Seguin la Tubla 14.2 del Problema 14.1 se tiene yEXY - EEN —OxvINE YF - 2 (12)(54.107) — (800)(811) (800)*] [(12)(54,849) — (B11)"] = 0.7027 como en los Problemas 149 y 14.14. Otro métode E! valor de r es independiente de la eleccidn del origen de X ¢ ¥. Asi pues, podemos usar los resultados del segundo método del Problema 14.2, con lo que se obtiene Nyx SEY) (12)(647) — (BOV91) r= 0.7027 VINDX? —(EYVIEND ?-OYV) VU 618) — BOP IEMA — OF] COEFICIENTE DE CORRELACION PARA DATOS AGRUPADOS 14.17. La Tabla 149 da las distribuciones de frecuencias de las notas finales de 100 estudiantes en Matemiti- cas y Fisica. Con referencia a esa tabla, determinar: (a) El nimero de estudiantes que sacd notas entre 70-79 en Matematicas y entre 80-89 en Fisica (6) Fl porcentaje de estudiantes con nota de Matemiiticas menor que 70, (c)_ El mimero de estudiantes que obtuyo 70 o mas en Fisica y menos de 80 en Matemiticas. {d) El porcentaje de estudiantes que aprobé al menos una de las dos materias, si se exigian 60 puntos para uprobar. Tabla 14.9 Calificacién en Matematicas 40-49 | 5059 | 6069 | 7079 | so89 | 90-99 [ Total 90-99 2 a 4 10 3 | 8089 1 4 6 5 16 7079 3 10 g T 2A g 00-09 E 4 9 5 2 2 2 | 5059 3 6 6 2 7 = 40-49 3 3 4 12 ei Total 7 15 2 23 20 10 100 342 ESTADISTICA Solucién (@) En Ja Tabla 14.9, miramos hacia abajo en la columna encabezada con 70-79 (nota de Matemati- cas} & la fila con rétulo 80-89 (nota de Fisica), donde la entrada es 4, que es el miimero de estudiantes pedido. (6) Elnimero total de estudiantes con nota de Matematicas inferior a 70 es la suma de los que tienen 40-49, 50-59 y 60-69 = 7 + 15 + 25 = 47. Luego el porcentaje pedido es 47/100 = 47% (c) El namero pedido es el total de las entradas de la Tabla 14.10 (que representa parte de la Tabla 14.9}, Por tanto, el nimero de estudiantes requerido es 1+ 5+ 2 +4 + 10 = 22 (2) La Tabla 14.11 (sacada de la Tabla 149), dice que el numero de estudiantes con notas menores que 60 en ambas asignaturas es 3 + 3 + 6 + 5 = 17. Luego cl mimero de los que tienen al menos una nota de 60.0 mass 100 ~ 17 = 83, y el porcentaje requerido es 83/100 = 83%. Tabla 14.10 Tabla 14.11 eee Calificacion en Calificacion en Matemiaticas Matemiticas 60-69 | 70-79 40-49 | 50-59 90.99 50-59 3 6 cect et atl Calificacion Califieacion en Fisica en Fisica | "08? ‘ is 40-49 3 5 | 70-79 5 10 14.18. La Tabla 14.9 se llama a veces una tabla de frecuencias de dos variables. Cada cuadrado de ese tabla se tlama una celda y corresponde a un par de clases intervalos de confianza. El numero indicado en la celda se lama freewencia de celda, Asi, en la parte (a) el numero 4 es la frecuencia de la celda correspondiente al par de intervalos de confianza 70-79: en Matematicas y 80-89 en Fisica. Los totales indicados en la iltima fila y en la ultima columna’se llaman totales marginales © frecuencias marginales. Cotresponden, respectivamente, las frecuencias de clase de las distribuciones de frecuencias separadas de las notas de Matemiticas y Fisica Mostrar como modificar la formula del Problema 14.15 para el caso de datos agrupados como en la tabla de frecuencias de dos variables (Tabla 14.9). Solucién, Para datos agrupados, podemos considerar los diversos valores de las variables ¥ e Y como, coincidentes con las marcas de clase, mientras f y fy son las correspondientes frecuencias de clase, 0 frecuencias marginales, que se recogen en la iiltima fila y columna de Ja tabla de frecuencias de dos variables, Si denotamos por flas diversas frecuencias de celda asociadas a los pares de marcas de clase (X, ¥), podemos sustituir la formula del Problema 14.15 por po Ee = ene VINDAX? — CHAPIN DAY? — OY Si hacemos ¥ = A + cyty © ¥ = B+ cyty. donde cy y ¢y son las anchuras de intervalos de clase By TEORIA DE LA CORRELACION 343 (supuestas constantes) y A y B son marcas de clase arbitrarias correspondientes a las variables, la formula (35) se convierte en la (21) NY fexty = fete S frtty) en TNS Tee — Cia WN Shed — Chon Este es el método de compilacién empleado en capitulos precedentes como metodo abreviado para caleular medias, desviaciones tipicas y momentos superiores. Tabla 14.12 Califeacién en Mateméticas x 445 | S45 | 64.5 | 745 | 845 | 94.5 Suma de = = los nume- Uy fy fity | Sut | 008 de tas y Se lea | | er. 3 Jesquinas e: by. cada fila 94.5 2 2 4 4 10 20 40 44 7] [i fe & 84.5 1 1 4 6 5 16 16 16 31 if 7] fe zi ” =| 745 0 10 8 1 4 oO 0 0 F mw 64.5 at 4 + a 3 2 2 21 21 =3 8 A_FeFeEE 54.5 —2 3 6 6 a 7 68 20 Re] fa] pl fe 445 -3 3 5 4 12 ~36 108 33 P| fF Fy [Sfx = Df | Lier | Lfouek |S fiyaty ite DY NS 25 glee se] 80. | ae eee) eee fate [14 [-15 | 0 [93 | ao | 30 | Liar % = 64 2 Dhak fuk 2% | 15 | 0 | 23 | 8 | 90 | Un ‘Suma de los nameros de iis Vftytty las esquinas en oe a o Q ae ee = 125 cada columna I 344 ESTADISTICA 14.19, Hallar el coeficiente de correlacién lineal de las notas del Problema 14.17 Solucién Usamos la formula (21). El proceso se resume en la Tabla 14.12, que se llama una tabla de correlacion. Las sumas 3 fy, fquxs fates fre Y fatty ¥ Df] se obtienen mediante el método de compilacion, como en capitulos anteriores. El niimero cn la esquina de cada celda en lé Tabla 14.12 representa el producto ftytty, donde fes la frecuencia de celda, Su suma en eada fila se indica en la fila cortespondiente de la fitima columna. ¥ su suma en cada colurnna se indica en la correspondiente columna de la ultima fila. Los totales finales de la iitima fila y columna son iguales y representan NY fuer — (faux) Av) THe — (LSaux PN LA — (Lee) z (100)(125) — (64){—55), (11000236) — (64777 (1001253) — (—55)7] 16,020 0.7686 0 vt (032? (2) Usando un contraste unilateral con la distribucién de Student en el nivel 0.05, rechazariamos la hipétesis Hy sit > fog = 1.75 para (18 — 2) = 16 grados de libertad. Luego no podemos rechazar H al nivel 0,05, (5) Puesto que no podemos rechazar H al nivel 0.05, ciertamente, tampoco al 0.01 14.32, {Cual es el minimo tamafio de muestra necesario para poder concluir que un coeficiente de cortelacion de 0,32 difiere significativamente de cero al nivel 0.05? Solucion Con un contraste de una cola de la distribucion de Student en el nivel 0,03, el minimo valor de N debe ser tal que 032/N = 2 : Vi - aay?” pura N — 2 grados de libertad. Para un numero infinito de grados de libertad, ¢g5 = 1.64 y por tanto. N = 256 Para N = 26: fos = 171 = 032/244, /1 — (0327 = Les Para N = 27: tos = LTE ¢ = 032,/25/,/1 — (0327 = 1.69 Para N = 28: foe = 1 _ 932 A/T = ODF = 1.72 Asi que el tamaiio minimo de la muestra es N = 28 350 14.33, 1434, 14.35. ESTADISTICA Un coeficiente de cortelacidn de una muestra de tamaito 24 resulta ser r = 0.75. Al significacion 0.03, gpodemos rechazar Ia hipétesis de que el coeficiente de correlacion de la es tan pequeiio como (a) p = 0.60 y (6) p = 0.502 Solucién 1 + 0.75 1 + 0.60 Z = 11519 tog( 2) = a des 00) ta) G 2 a7) 09730 jy 11513 oe( = a) 0.0932 1 y a= isc a DZTEE JNo3 fa Por tanto Se OT ET og. ‘ay 02182 Usando un contraste de una cola con la distribucioa normal al nivel 0.05, rechazariam hipdtesis slo si = fuera mayor que 1.64. Luego no podemos rechazar la hipdtesis de qi Coeficiente de correlacién de la poblacion es tan pequefio como 0.60. (6) Sip = 0.50, entonces wz = 1.1513 log 3 = 0.5493 y 2 = (0.9730 — 0.5493/0.2182 = 1.94, podemos rechazar la hipétesis de que el coeficiente de correlacion de la poblacion sea pequefio como p = 0.50, al nivel 0.05. El coeficiente de correlacién entre las notas en Fisica y Mateméticas para un grupo de 21 estudi resulla ser 0.80. Hallar los limites de confianza 95% para este cocficiente. Solucién Como r = 0.80 y N = 2I, los limites de confianza 95% para pz vienen dados por Z + 1960, = 1.1513 log| 5) = hoon #04620 Asi pues, 4, tiene ¢l intervalo de confianza 95% desde 0.5366 a 1.5606. Ahora bien, si fy = 1.1513 tr(| it #\ 0.5366 entonces 0.4904 ~e 1 ysi by = 1.1513 we(; +2) = 15606 entonces. — p = 0.9155 Lucgo los limites de confianza 95% para p son 0.49 y 0.92. Dos coeficientes de correlacion obtenidos de muestras de tamafios N, = 28 y N, = 35 han resultac ser r, = 050 y r, = 0.30, respectivamente, {Hay diferencia significativa entre los das coeficientes al nivel 0.05? Solucién L+r, T- eel 1513 oe +4) SPREAD ge i 1 a a Jy a 0.2669 1513 te es 0.3095 TEORIA DE LA CORRELACION 351 Queremos decidir entre dos hipétesis Hg: jt) = stg ¥ Hs thes # tz. Bajo la hipétesis Ho, Zi = Zs = (zr — baa) _ 0.5493 = 0.3095 — 0. 72659 = 08985 On 22 Con un conitaste bilateral mediante 1a distribucién normal, rechazariamos H solo si z > 1.96 0 siz < —196, Por tanto, no podemos rechazar H, y concluimos que los resultados no son significativamente diferentes al nivel 0.06. TEORIA MUESTRAL DE LA REGRESION 1436, 1437. En el Problema 14.1 hallamos como ecuacién de regresién de Y sobre ¥ la que signe: ¥ = 35.82 + + 0.476%. Contrastar la hipétesis, al-nivel de significacion 0.05, de que el coeficiente de correlacin de la ecuacién de regresion de la poblacion es 0.180, Solucién wea ise 050 EL fat as co = EO ams Be Roe Tae Nee como sy. = 1.28 (calculado en el Problema 14.5) y sy = \/(Yx°/N = \/84.68/12 = 2.66 (del Problema 14.2) Usando un contraste de una cola con Ia distribucion de Student al nivel 0.05, rechazariamos la hipotesis de que ¢l coeficiente de regresién es tan bajo como 0.180 sit > fog = 181 para (12 — 2) = 10 grados de libertad. Luego no podemos rechazar la hipétesis, Hallar los limites de confianza 95% para el coeficiente de regresién del Problema 14.36. Solucion. aor Ay = ay ~ JN = 2\% Luego los limites de confianza para A (obtenidos haciendo r = 4 147, = + 2.23 para 12 — = 10 grados de libertad) vienen dados por ee (2) iis foe G3) = 0476 + 0.340 Jd = 2 se v/10 \2-66, Es decir, tenemos 95% de confianza de que 4 esta entre 0.136 y 0.816. En cl Problema 14.1, hallar los limites de confianza 9% para las alturas de los hijos cuyos padres miden (a) 65.0 y (6) 70.0 in Solucién Como t.o75 = 2.23 para (12 — 2) = 10 grados de libertad, los limites de confianza 95% para Yp (véase pig, 330) vienen dados por a fv 142 352 ESTADISTICA donde Yo = 3582 + 0.476%» (Problema 14.1), sy. = 1.28, ty (a) SiXy = 65.0, entonces ¥, = 66.76 in. Ademas (Ny — ¥)? los limites de confianza al 95% son 2.66 (Problema 14.36) y N = 12 (65.0 — 800/12)? = 2.78. Asi pues 66.76 + cel (1.28) 10 v 66.76 + 331 in Esto es, podemos tener un 95% de confianza de que las alturas de los hijos estin entre 63.4 y 70.1. (8) SiX, = 700, entonces¥, = 69.14 in. Ademés, (Yq — XY)? = (70.0 — 800/12)? = 11.11. Lucgo los limites de confianza 95% resultan ser 69.14 + 3.45 in; ¢s decir. con un 95% de confianza las alturas de los hijos estan entre 65.7 y 72.67in, Notese que pata los valores grandes de W, los limites de confianza 95% vienen dados aproximada- mente por Yo + 196sy y 0.s¢a Yy + 2sy.,, supuesto que (Xq — ¥) no sea demasiado grande. Eso coincide con los resultados aproximados mencionados en la pagina 210. Los métodos de este proble- ma son vilides con independencia del valor de No de (Yq — X); esto es, los métodos de muestreo som exacts 14.39. En el Problema 14.1 hallar los limites de confianza 95% para las alturas medias de los hijos cuyos padres miden (a) 65.0 in y (6) 70.0 in, Solucién Ya que fo75 = 2.23 para 10 grados de libertad, los limites de confianza 95% para P, (véase pie gina 330) vienen dados por 2.23 Tg Me ¥y + Snax = Ji a donde Y¥y = 35.82 + 0.476%, (Problema 14.1), syy = 1.28 y sy — 2.66 (Problema 14.36). (a) Si Xo = 650, vemos que los limites de confianza 95% son 66.76 + 1.07 in [eomparar con el Problema 14.38(al]. Es decir, podemos tener 95% de confianza de que la altura media de todos los hijos cuyos padres miden 65.0 in esta entre 65.7 y 67.8 in. {h) Si Xp = 70.0, vemos que los limites de confianza 95% son 69.14 + 1.45 in [eomparar con el Problema 14.38(b)]. Es decir, podemos tener 95% de confianza de que la altura media de todos los hijos cuyos padres miden 70.0 in estara entre 67.7 y 70.6 in. TEE Mi REGRESION LINEAL Y CORRELACION (4) Hallar la recta de regresion de mink LINEAL mos cuadrados de Y sobre ¥. {c) Hallar la recta de regresién de mini mos cuadrados de ¥ sobre Y. (d) Representar las dos rectas de las partes (8) y © en el diagrama de dispersion (a) Construir un diagrama de dispersion. de la parte (a 14.40. La Tabla 14.18 presenta las notas de dos examenes de Biologia, ¥ e Y, de 10 estu- diantes. Tabla 14.18 Calificaciones en el | Ci primer examen (¥) | segundo examen (¥) lificaciones en el TEORIA DE LA CORRELACION 353 lo) Estima la presion sanguinea de una. mujer de 45 afios, Tabla 14.19 ee Souwxnn oxcoxeunSi48 1441, 14.42. 14.46, Hallar (a) sy,y ¥ (61 Sy. para los datos de la Tabla 14.18. Calcular (a) la variacién total en ¥. (5) la variacion inexplicada en ¥ y (e) la variacidn explicada en Y, para los datos del Proble- ma 14.40. Usar fos resultados del Problema 14.4? pa ra hallar el cocficiente de correlacion entre los dos conjuntos de notas del Proble- ma 1440 (a) Hallar el.coeficiente de cortelacion en tre los dos conjuntos de notas del Pro. blema 14.40 usando la formula _mo- mento-producto, y comparar con el re- sultado del Problema 14.45. () Obtener ef coeficiente de correlacién sclamente & partir de las pendientes de las rectas de regresin del Proble- ma 14.42, partes (6) y (¢). Hallar la covarianza para los datos del Pro- blema 14.40 (a) directamente y (4) usando la formula sxy = rsysy y-¢l tesultado del Pro- blema 14.43 6 14.44 La Tabla 14.19 da las edades X y las presio- nes sanguineas (en sistole) ¥ de 12 mujeres (a) Hallar el coeficiente de correlacion en- tre ¥e }. |) Determinar la eouacion de regresion de minimos cuadrados de ¥-sobre ¥ Edad (4) Presion sanguinea 56 147 a 1s R 36 63 47 55 49 38 2 68 60 1447. 14.48, 1449, 1452. Hullar el coeficiente de correlucian para los datos del (a) Problema 13.32 y (b) Proble- ma 13.35. El coeficiente de correlacién entre las varia: bles ¥¢ Yes 7 = 0.60. Sisy = 1.50.5 = = 2.00, P= 10e P= 20. hallir la ecuacion de la recta de regresion de (a) ¥ sobre Vy (0) X sobre ¥, Caleular (4) sy. 5 ¥ (6) sy.» para los datos del Problema 1448 Si ty.¢ = dy sy = 3. caloular r os Sie coeficiente de correlacion entree 25 0.50, qué porcentaje de la variacion total queda inexplicudo por la eeuaciGn de repre (a) Probar que la ecuacidn de Ia recta de regresion de ¥ sobre ¥° puede escri- birse -2e-2 (h) Escribir una ccuacton analoga pare la recta de regresion de X sobre Y 354 ESTADISTICA 1453, 14.54. 1455. | 14.56. (a) Calculat el coeficiente de correlacion entre los valores correspondientes de ¥ ¢ ¥ dados en la Tabla 14.20. (8) Multiplicar cada valor de ¥ en la table por 2 y sumar 6. Multiplicar cada va- lor de ¥en la tabla por 3 y restar 15. Hallar el cosficiente de correlacion en- tre los dos nuevos conjuntos de valo- res, explicando por qué se obtiene o por qué no se obtiene el mismo resul- lado que en (a). ‘Tabla 14.20 x 1 2 18 4 12 5 10 6 8g "1 5 (@) Hallar las eouaciones de regresion de ¥ sobre ¥ para los datos considerados en cl Problema 14.53, partes (a) y (b). (6) Discutir la relacion entre estas ecua- ciones de regresion. {a) Probar que el coeficiente de correla- cin entre We ¥ puede expresarse aR fe See ey (6) Usando ese métado, resolver el Pro- blema 14.1, Probar que un Coeficiente de correlacién es independiente de la eleccion de origen de fas variables o de las unidades en que se expresan. (Ayuda: Supéngase que X° = =X +Ae¥’ =, ¥ + B.donde cy, cy Ay Bson constantes arbitrarias, y pruebese que el coeficiente de correlacién entre X° ¢ ¥ es el mismo que entre ¥¢ Y), (2) Probar que, para regresion lineal, (6) GBs valido el resultado para regresi no lineal? COEFICIENTE DE CORRELACION PARA DATOS AGRUPADOS 1458. Hallar el cocficiente de correlacién entre alturas y pesos de los 300 hombres adult de EB.UU recogidos en la tabla de frecuem cias dada en la Tabla 14.21 Tabla 14.21 Pesos Alturas X (in) ¥ (Ib) |59-62 63-66 |67-70] 71-74) 75-78) go-109 | 2 | 1 110-129) 7 | 8] 4] 2 130-149) 5) 45 |22 | 7] 4 130-169 | 2 | 12 | 63 | 19 | s 170-189 TP 2g" poses | 12 190-209 2} 10°} } 7 210.229 fa fe 1459. (a) Hallar la recta de regresion de mini mos cuadrados de ¥ sobre X para los datos del Problema 14.58. (6) Estimar los pesos de dos hombres cu- yas alturas son 64 y 72 in 14.60, Hallar (a) s).y ¥ (4) sy.y para los datos del Problema 14.58. 1461, Establecer la formula (21) de este capitulo para el coeficiente de correlacién de datos agrupados. CORRELACION DE SERIES EN EL TIEMPO. 1462. La Tabla 14.22 muestra los precios al por menor del cine en EE.UU- y los correspon- dientes indices de precios al consumo en los afios 1978-1985, Hallar el coeficiente de co- rrelacién. 14.63, La Tabla 14.23 da la temperatura media y la precipitacién en una ciudad durante el mes de julio de fos aos 1975-1984. Hallar el coeficiente de correlacion TEORIA MUESTRAL DE LA CORRELACION 14.64. Un coeficiente de correlacién basado en una muestra de tamafio 27 resulté ser 0.40. @Se puede concluir que el coeficiente de c: rrelacion de la poblicién correspondiente, al nivel de significacién (a) 0.05 y (6) 0.01, TEQRIA DE LA CORRELACION 355, Tabla 14.23. (Continuaci6n) dificre de cero? ta tebe stutt Peepiaete 1977 756 3.42 1978 22 284 | 1979 78.3 1.83 1980 Be 2.82 1981 7A 4.04 1982 753 2.56 1983 BS 118 1984, 704 419 Tabla 14,22 Precio de cine |Indice de precios Afio | (centavos por | al consumo libra) (1967 = 100) 1978 310 195.4 1979 373 2174 1980 374 268 1981 446 2724 1982 385 289.1 1983 414 298.4 1984 48.6 BILL 1985 403 3222 Fuente: U.S. Bureau of Labor Statistics and Bu: reau of Mines ‘Tabla 1423 ae Tones rena 1975 Wl 6.23 1976 18 3.64 14.65. Un coeficiente de correlacion basado en una muestra de tamale 35 ha dado 0.50, Al nivel de significacion 0.05, ;podemos rechit- zar la hipétesis de que el coeficiente de co- rrelacion de li poblacidn es (a) tan pequeio como 0.30 y (A) tan grande como 0,702 14.66. Hallar los limites de confianza (a) 95% y (6) 99% para un cocficiente de correlacién que se ha calculado como 0.60 a partir de una muestra de tamaio 28 14.67. Resolver el Problema 14.66 con una mues- tra de tamafio 52, 14.68. Hallar los limites de confianza 98% para el coeficiente de correlacién calculado en (a) el Problema 14.46 y (h) el Problema 14.58 14.69. Dos coeficientes de curcelacién obtenidos de muestras de tamafios 23 y 28 resultan ser 0.80 y 0.95 respectivamente. ;Podemos con- cluir a nivel de significacién (a) 0.05 y (6) 0.01 que hay una diferencia significativa en- tre ellos? TEORIA MUESTRAL DE LA REGRESION 14.70. Con una muestra de tamaiio 27 se ha en- contrado una ccuacién de regresion de ¥ 356 ESTADISTICA sobre X dada por ¥ = 250 + 2.00%, Si Syx = 1,50, s¢ = 300.9 X = 7.50, hallar los limites de confianza (a) 95% y (6) 99% para cl coeficiente de regresion. 14.71. En el Problema 14.70, contrastar la hipd= tesis de que cl cocficiente de regresion de la poblacion al nivel de significacion 0.01 es {a) tan bajo como 1.70 y (6) tan alto co- mo 2.20. 14.72. En el Problema 14.70, hallar los limites de 1473, 14.74, confianza (a) 95% y (b) 99% para ¥ cu: X = 6.00. En el Problema 14.70, hallar los limites confianza (a) 95% y (b) 99% para la medi de toxins los valores de ¥ correspondient aX = 6.00. Con referencia al Problema 14.46, hallar los limites de confianza del 95% para (a) Coeficiente de regresion de ¥ sobre ¥. (b) presiones sanguineas de las mujeres de 45 afios y (c) la media de las presiones sangui- neas de las mujeres de 45 aifos. CAPITULO 1 5 Correlacion multiple y parcial CORRELACION MULTIPLE El grado de cortelacién existente entre tres o mas variables se llama correlacién nniltiple. Los principios fundamentales implicados en los problemas de correlacion miltiple son andlogos a los de la correlacion simple, tratados en el Capitulo 14. NOTACION DE SUBINDICES Para permitir generalizaciones a niimeros grandes de vatiables, conviene adoptar una notacion de subindices. Denotaremos por X;, ¥3, X3, .. las variables bajo consideracién. Entonces denotaremos por X12 X34 los valores que toma la variable Xy, y X31.¥22, X23, los que toma la variable >, eteétera. Con esta notacién, una suma tal como ¥3, + V2 + X35 + -- + Xan se escribira 58, X24 Ly Xa» 0 simplemente )) ¥;, Cuando no haya ambigiiedad, usaremos la iiltima notacion, En tal caso, la media de Y, se escribe ¥. DIN. ECUACIONES DE REGRESION Y PLANOS DE REGRESION Una ecuacion de regresion es una ecuacién para estimar una variable dependiente, digamos X,. a partir de las variables independientes X>, ¥3, ... y se llama una ecuaciér de regresion de X, sobre X,, X, .. En notacién funcional eso se escribe a veces brevemente como ¥, = FUXs X «) (lease «¥, es una funcion de X2, ¥5, etc). Para el caso de tres variables, la ecuacion de regresion mas simple de X, sobre X, y ¥, tiene la forma a) X= boas + PrasXa + PisoXy donde 6, 53 12.5, ¥ fy3,.2 son constantes. Si mantenemos 4’, constante en la ecuacidn (1), el grafico de ¥, versus ¥, es una recta con pendiente 4,, 5. Si mantenemos constante X;, el grafico de ¥, versus X; es una recta con pendiente fr, ). Es claro que los subindices tras el punto indican las variables que se manticnen coustantes en cada caso. Debido al hecho de que ¥, varia parcialmente a causa de la variacién en ¥, y parcialmente a 357 358 ESTADISTICA causa de la de ¥3, se llama a 4,3. ¥ 13.2 los coeficientes de regresion parcial de X, sobre dejando X, constante, y de ¥, sobre ¥3 dejando ¥, constante, respeetivamente. La ecuacion (1) se Tama una ecuaciin de regresion lineal de X, sobre X; y X3. En un sis rectangular tridimensional de coordenadas representa un plano llamado plano de regresién y generalizacion de la recta de regresién en dos variables, tal como se considerd en el Capitulo ECUACIONES NORMALES PARA EL PLANO DE REGRESION DE MINIMOS CUADRADOS Asi como existen rectas de regresién de minimos cuadrados que aproximan un conjunto de puntos dato (X, Y) en un diagrama de dispersion, existen también planos de regresion de min cuadradas que ajustan un conjunto de N puntos dato (X;, X;. ¥3) en un diagrama de dispersio tridimensional. El piano de regresion de minimos cuadradas de X,, sobre Xz y X5 tiene ecuacion (1) donde hy, bras ¥ By3.2 Se determinan resolviendo simultineamente las ecuaeiones normales DM sbaN tbs DM + sah DK, = Oras 0X2 + ins DXF + bing DM @ DGXs = bras DMs + brag Ks + by EG Estas pueden obtenerse formalmente multiplicando ambos lados de la ecuacién (1) por l, ¥, y X; sucesivamente y sumando en ambos lados. A menos que se especifique lo contrario, siempre que nos refiramos a una ecuacién de regresion se supondra que se habla de la ecuacion de regresién de minimog cuadrados. Six, =, — Xx, =X) — ¥yy xy = Vy — Wy, la ecuacioh de regresin de ¥, sobre XY; y X, pueden escribirse mas sencillamente como Ny = Disks + by3.2%3 (3) donde 41,3 y by3,2 se obtienen resolviendo simultineamente las ecuaciones Dx = Ios y 3 + Piya E XaXy Yt = baa Deve t baa Dd Estas ecuaciones que son equivalentes a las ecuaciones normales (2) se pueden obtener formalmente multiplicando (3) por x; y x, sucesivamente y sumando (véase Prob. 15.8) 4) PLANOS DE REGRESION Y COEFICIENTES DE CORRELACION Si los coeficientes de correlacién entre variables X, y V3,.¥, y Vs y Xz y Xs.tal como se calculaban en el Capitulo 14, se denotan respectivamente por r,, 74 y Fy, (Ilamados a veces caeficientes de correlacién de orden cero), entonces el plano de regresion de minimos cuadrados tiene la ecuacién + ( = ryt) = (5) | ef Ss CORRELACION MULTIPLE Y PARCIAL 359 donde x, = ¥ — Bx, =, — By x, = Xy — Py y donde s,, s; y.s5 son la desviacion tipica de X,, Xz y X;, respectivamente (véase Prob. 15.9). Notese que si la variable X; no existiese y si ¥, = Y¥ y Xj = X, entonces la ecuacion (5) se reduce a la ecuacién (25) del Capitulo 14. ERROR TIPICO DE ESTIMACION Por una generalizacion obvia de la ecuacién 8 del Capitulo 14, podemos definir el error tipico de estimacién de X, sobre X> y X, como tas = fo 6) donde X_.« indica los valores estimados de X, tal como se calculan mediante las ecuaciones de regresion (1) 0 (5) En términos de los coeficientes de correlacin r4>, 713 ¥ r2s. el error tipico de estimacion se puede calcular también a partir del resultado + 2ryaistas Vai — fy 1290598), ond =k La interpretacion muestral del error tipico de estimacion para dos variables, vista en la pagi- na 324 para el caso en que N es grande, puede extenderse a tres dimensiones sustituyendo las rectas paralelas a la de regresion por planos paralelos al plano de regresion, Una estimacién mejor del error tipico de estimacion de la poblacion viene dada por $,5 = NAN — 3), 25 COEFICIENTE DE CORRELACION MULTIPLE Fl coeficiente de correlacion miltiple se define por extension de la ecuacién (12) 0 (14) del Capi tulo 14, En el caso de dos variables independientes, por ejemplo, el coeficiente de correlacién miiltiple viene dado por Fas Rus = ft 8) donde s, es la desviacion tipiea de X; y.s,,., viene dado por la ecuacién (6) 0 (7). La cantidad R? », se llama coeficiente de determinacién multiple ‘Cuando se usa una ecuacion de regresion lineal, el coeficiente de correlacién miltiple se llama caeficienie de correlacién miltiple lineal. Salvo que se especifigue lo contrario, siempre que nos refiramos a correlacion multiple querremos decir correlacién miiltiple lineal. En términos de r)9, 113 y ros, fa ecuacion (8) se puede expresar (9) 360 ESTADISTICA Un coeficiente de correlacion milltiple, tal como R, 23, esté entre 0 y 1. Cuanto mas cerca de 1, mas precisa es la relacién lineal entre las variables. Cuanto mas cerca de 0, peor es fa relacidn lineal. Si el coeficiente de correlacién multiple es 1, la correlacién se dice perfecta. Aunque un coeficiente de correlacion igual 2 0 indica que no hay relacion lineal entre las variables, puede haber una relacién no lineal. CAMBIO DE VARIABLE DEPENDIENTE Los resultados anteriores son validos cuando se considera a X, como variable dependiente. Sin embargo, si queremos considerar aX, (por ejemplo) como la variable dependiente en vez de Xy, s6lo tendriamos que reemplazar los subindices 1 por 3 y 3 por 1 en las formulas ya obtenidas. Por ejemplo, la ecuacion de regresion de ¥3 sobre ¥, y X; seria fos. = Prati 22 Mia = Vashi2\ X1 as M2 (3 5 Mahia) 10) ope a eee eri mt que se deduce de (5) haciendo uso de ry2 = ras fs) = Mis Yn = he GENERALIZACIONES A MAS DE TRES VARIABLES Estas se obtienen por analogia con los resultados precedentes. Asi, las ecuaciones de regresion lineales de X, sobre X,, Xz y X4 pueden escribirse X= Prose + PizaeX2 + by3.04Xa + raarXa )) y representan un hiperplano en el espacio de cuatro dimensiones. Multiplicando ambos miembros de (11) por 1, ¥,, ¥, y X, sucesivamente y sumando, se llega a las ecuaciones normales para determinar /y 354,612.34 613.34 ¥ $14.25; Sustituyendo estas en la ecuacién (11) nos da la ecuacién de regresion de minimos cuadrados de X, sobre ¥,, X, y X,. Esta ecuacién de regresién de minimos cuadrados se puede escribir de moda similar a la (5). (Véase Prob. 15.41.) CORRELACION PARCIAL A menudo es importante medir la correlacion entre una variable dependiente y una variable independiente particular, cuando todas las demas variables se suprimen (indicado con frecuencia con la frase «quedando iguales las restantes»), Esto se consigue definiendo un coeficiente de correlacion parcial, como en ta ecuacion (12) del Capitulo 14, excepto que hemes de considerar la variacion explicada y la variacian inexplicada que aparecen tanto con como sin la variable independiente particular Si denotamos por r)2.4 €l coeficiente de correlacion parcial entre X, y X; manteniendo %4 constante encontramos que Pia = Thatas (12) Me Ali aNd oe CORRELACION MULTIPLE ¥ PARCIAL 361 De la misma manera, sir, 34 €8 el coeliciente de correlacidn parcial entre X, y X, manteniendo X, y ¥, constante, entonces = tiga = tases a Sara 26 = ae : J rial — 3a) fl — ries) — ras) Estos resultados son utiles porque por su mediacion cualquier coeficiente de correlacién parcial se puede hacer depender en ultima instancia de los coeficientes de correlacion r,>. rsa, etc. (0 sea, los coeficientes de corretacién de orden cero), En el caso de dos variables We Y, si las dos rectas de regresion tienen ecuaciones ¥ = ay + aX y X = by + by Y, hemos visto ques? = a,b, (veuse Prob, 14.22). Este resultado admite generali- zacion. Asi, si (13) X= Pyasa + PrageXa + Pia aaXa + Pra asks (4) Xa = Pairs + ParasXs + baa ia¥s + basaaXs (15) son ecuaciones de regresién lineales de ¥, sobre X,, ¥, y Yq y de Ny sobre Xj, > y My respectivamente, entonces aaa = brsaibar.za (16) (véase Prob, 15.18). Esto se puede adoptar como punto de partida para una definieion de los coe- ficientes de correlacion parcial lineales. RELACIONES ENTRE COEFICIENTES DE CORRELACION PARCIAL Y MULTIPLE Hay interesantes resultados que conectan los coeficientes de correlacion multiple. Como ejemplo. T= Revs = (Ll — tl ~ Fis) a7) 1 Reayg =U — FED = Fg = rae) 18) Es facil generalizar estos resultados. REGRESION MULTIPLE NO LINEAL Los resultados anteriores para regresin multiple tineal se pueden extender a la regresion multiple no lineal. Se pueden definir coeficientes de correlacion parcial y multiple por métodos similares a los ya vistos. 362 ESTADISTICA EE EGRESION EN TRES VARIABLES ECUACION DE 15.1. Usando notacion de subindices adecuada, escribir la ecuacién de regresion de (a) X, sobre X, y Xx (OY Xy sobre Xy. Xs y Xp ¥ (€) Ns sobre Xj, Xp Xyy Xe. Solucion, (a) X2 = bras + bai aXy + baa iXs (0) Xy = Os saat bar 2aXy + Pan saXa + Osa aXe fe) Ns = bssssa + Py aves + bsaasky + Psar2a¥s + bsarrsXe 15.2, Escribir las ecuaciones normales correspondientes @ la ecuacién de regresin (a) Xy = Ay,, + 4 sy 2¥y + yz Mo y (BVH, = by aga + PraaeX2 + OisceXs + brs.aaXs Solucion (a) Multiplicar la ecuacién sucesivamente por 1, X, y X>, y sumar en ambos lados. Las ecuaciones normales son Dey = byN Fhya DMF Osa DME EMM = bs EM + bana DM + Pra DMM Pas Os99 D Ka + by DK, + 32.1 Y X9 (6) Multiplicar la ecuacion sucesivamente por 1, X3, Xs y Xs, y sumar en ambos lados. Las ecuacio- nes normales son EM: = bis + Bane Xa # bie SX + raaa EX DAN, = ise DX + Presa DKF + Brae D ¥e¥a + bias V XGXs Dae = teed a + besa Daas be PS DMs = rasa Da + Pina D Me + Oran DMM + Prwas EVE Nétese que esto no es una demostracion de las ecuaciones normales, sino solo un medio de acordarse de ellas, EI nimero de ecuaciones normales es igual al niimero de constantes desconocidas. 153. La Tabla 15.1 da los pesos ¥, redondeados en libras (Ib), las alturas ¥, redondeadas en pulgadas (in), y las edades 1, redondeadas en afios. de nifios. (a) Haltar ta ecuacién de regresion de minimos cuadrados de X, sobre X; y X53 (@) Determinar los valores estimados de 4’, a partir de los valores dados de X, y (c)Estimar el peso de un nifio de 9 afios que mide 54 in Tabla 15.1 Peso (¥;) e4 | a | 53 | 67 | ss | 58 ] 77 | 57 | 56 | 1 | 76 ] 68 Altura (4) 57 | 59 | 49 | 62 | sy | so | 55 | a8 | 52 | 42 | 61 | 57 Edad (¥4) 8] to} 6] un} 8] 7} 0] 9} 0} 6] 2] 9 CORRELAGION MULTIPLE Y PARCIAL 363 Solucion (a) La ecuacion de represion lineal de ¥, sobre X, y ¥ puede expresarse a ast bir sXa + bisaXs Las ecuaciones normales de la ecuacion de regresién de minimos cuadrados son EX = binN +basl¥e + Pad Xs DMN = Pras DX t+ Maa DAP t bias DMs ay) DMM = bias DMs + bray DNs + big DT El camino a seguir se indica en la Tabla 15.2. (Aunque la columna encabezada por X} no se nevesita ahora, se ha aftadido para referencia posterior) Tabla 15.2 x Hy % NR xe se KX, BX ca 64 57 8 4096 3249 64 3648 ‘S512 456 7m 59 10. S041 3481 100 4189 m0 590, 53 49 6 2809 2401 36 2597 318 294 67 62 i 4439 3844, 121 4S 7 682 55 51 & 3025 2601 64 2805 440 408 58 50 7 3364 2500 49 2900 406 350 WW 55 10 $929 3025 100 4235 770 550 57 43, 9 3249 2304 BL 2736 S13, 432 56 52 10 3136 2704 100 2912 560 $20 51 42 6 2601 1764 36 2142 306 252 76 61 12 5776 3721 144 4636 912 732 68 57 9 4624 3249 81 3876, 612 S13 ya, | ox | om | Sat | Be | Ext | oom | Eee | Ee = 153 = 643 = 106 | = 48,139 | = 34.843 = 976 = 40,830 | = 6796 = STH: Usando la Tabla 15.2, las ecuaciones normates (19) pasan a scr 12bj3 + 6433.4 + 106byy9 = 753 40.830 20) 643, 93 + 348430y2.5 + 5.77% 3.2 106.2; + 5.77963. + 976b;3, = 6,796 Resolviendo, b, .5 = 3.6512, biz 5 = 08546 y bys.» = 1.5063, y Ia ecuaciin de regresion pedida serd X, = 3.6512 + 0.8846X, + 1.5063¥, 0 sea Ky = 3.65 + 0.855, + 1.506 X, (21) Para otro metodo, que evita resolver ecuaciones simultaneus. véase el Problema 15.6. [d) Usando la ecuacién de regresion (21), obtenemos los valores estimados de X\, denctados por

You might also like