You are on page 1of 19
Wie Unigeridad waco UNIVERSIDAD DEL ATLANTICO FACULTAD DE CIENCIAS BASICAS MAESTRIA EN CIENCIAS MATEMATICAS, TEMA: ANALISIS DE CORRESPONDENCIA SIMPLE TAREA 2 Docente: SVETLANA RUDNYKH Hecho por: CLAUDIA LILIANA GARCIA MADRID MODELOS DE REGRESION Andlisis Multivariado Barranquilla, 2 de mayo de 2020 Unigeridad waco TAREA 2 1. Datos de la comida francesa El conjunto de datos consiste de los promedios de gastos en alimentos para diferentes tipos de familias en Francia (obreros = OB, empleados = EM, directivos DR) con diferentes nimeros de los nifios (2, 3, 4 6 5 nifios). Los datos se obtienen de Lebart, Morineau y Fenelon (1982) Tabla 1. Lista de alimentos en diferentes familias w Fomiia | Pan | Verdures | Fosse | Came | Aves ce | Leche | Vino t 02 332 428 354 | 37 526 2a? a7 2 EMe 293 559 388 | 1527 567 239 258 3 R2 372 767 562) 1948 927 235 433 + (083 406: 563 3a) 1507 564 326 407, 5 Ma 386 608 396 | 1501 558 319) 362 é OR: 438 43 ao | 2345, 188 263 34 7 OB 334) 660 367) 1620, 638 414 407, 3 Ma 460 639 ae |—1856 762 400 416 3 ora 385 789 621) 2366 | 149 304 232 10 (085 655 776 4231848 758 495 486 7 EMS 584 995 548 | 2056 593 518 319 2 ORS 515 1097 87 | 2630 167, 561 284 Objetivo del estudio: comparar y seleccionar las familias francesas segin sus gastos en alimentos, aplicando el andlisis de componentes principales. Solucién: De la informacién suministrada por la tabla 1, obtenemos de la canasta familiar 0 mejor el consumo de alimentos hechos por las diferentes familias tenemos: Un grupo de carbohidratos, conformados por el pan, las frutas, el vino y la leche. Un grupo de proteinas conformado por la carne y aves del coral segin la tabla 1 Y un grupo de verduras Para presentacién y realizacién del trabajo utilizamos la herramienta estadistica del paquete Statgraphics; como primera medida a los datos entregados por las observaciones realizadas a 12 familias diferentes en cuanto al consumo de alimentos, se generé un analisis multivariado (de correlaciones), Tomamos cada familia y rescribimos su informacién cualitativa en una cuantitativa como representacién para observar el andlisis de correlacién, de la siguiente manera: Unigeridad waco Tabla 2. ista de alimentos en diferentes familias cy Fait | Pan | Verturas | Fras | Came | Aves oe | leche | Vino T ope-1 | 332 228 354 | 437 526 2a? ar 2 Ema-2 | 293 559 388 | 1527 567 239 258 3 DR2-3| 372, 767 562 | 1948 927 2 433 4 oss-4 | 406 563 341) 1507 544 324 407, 5 ema=5 | 386 608 396 | 150% 558 319) 363 6 438 a3 ea) 2345, 188 243 34 7 oB4=7_| 534 660 367] 1620 638 414 407, @ Eas | 460 688 ea) 1856 762 400) 416 3 bras | 385 789 @ 2366 | 149 304 282 70 | Oas-10 | 655 776 a3) 1848 759 495 486 | eMs=m | 584 995 548 | 2056 393 518 319 | orsei2 | 515 097 387_| 2630 | 1167 561 284 De lo anterior mencionado se puede ver reflejado en la tabla 2, donde por ejemplo la familia 1 es igual a decir, la familia OB2; de la misma manera la familia EM2, ahora es la familia 2, y asi sucesivamente, esto con la finalidad que el paquete Statgraphics; nos genere bien la primera informacion de correlacién. Obteniendo asi Tabla 3. Resumen Estadistico de los diferentes alimentos consumidos por cada familia Fania | Pan | vertu | Frtas | come | M82 | teche | vino tae | 2 | » |» |» |» |» |» |» Promedio | 6s | armen | aa | sos | se,75 | ooa.ae7 | as.25 | sonsta Varanca [| 13 | s14806 | serena | pases | asseie | cameos | aa7iee | 5152.9 oon 3,60555 | 107,148 | 189,18 | 165,092 | 395,75 | 249,561 | 117,127 | 71,7818 oeicens de | ssarx | 2a90% | asean | azo | ogee | anor | azco% | r9,0% Varicén Minmo_[ a [3 | ae | aa] aay [ oes wixino [32 [055 | 4007 | ea” | 2030 [67 [sea as La informacién suministrada por la tabla 3, nos muestra que en evidencia las mayores desviaciones estandares se encuentra en correspondencia con las variables Verduras (189,18), Carne (395,75) y Aves del coral (249,561) y las de menor desviacién estdndar son las variables de pan (107,148) y de Vinos (71,782). Indicando lo anterior, de que es probablemente que los individuos son mas consumidores de proteinas y verduras y no tanto en cuanto de carbohidratos como el pan y el vino. Unigeridad wetAnco Sin embargo, Io visto por los datos entregados por la varianza y el coeficiente de variacién (visto ena tabla 3) observamos que si bien las variables de Frutas y Leche son las de mayor coeficiente de variacién (32,69%), para la variable Aves de corral su coeficiente de variacién es del 31,1%, para las variables Pan, Came y Verduras el coeficiente de variacién se mantiene dentro de la tendencia de las demas variables, con excepcién de la vatiable de Vino tiene un coeficiente de variacién que se aleja de la tendencia (19,5%) Se puede concluir de acuerdo a la informacion suministrada por la tabla 3, que las variables de mayor relevancia son las proteinas, verduras y carbohidratos de Frutas. Esto podra ser confirmado o desvirtuado a medida que el analisis avance. También se puede observar la siguiente informacién descrita en la siguiente tabla 4 Tabla 4. Correlaciones de los alimentos consumido por las diferentes familias Familia [Pan | Verduras | Frutas | Came [Aves de-coral] Leche [ Vino Familia oom | 08374 05859 | 06951 06030 | 08717 | 0.1849 @) [a a) ay) (a2) (02) 0.0017 | 0,007 | 0,0453 | 0,012 | 0.0380 | 0,0002 | 0.5650 Pan | goat 0.5931 | 0.1961 | 03213 | 0.2480 | 0.8556 | _0,3038 (22) (2) ay fay) (2) (2) 0.0017 oo42i | 05412 | 03086 | 04370 | 0.0004 | 0,371 Verduras_| 0.8374 | 0.5931 0.8563 | 0811 | 0.8268 | 0,628 | -0.3565 (ay (a2) (aa) (22) (2) aay) 0.0007 | 0,042 @,0008_| 60002 | 0,0003 | o,0188 | 0.2554 Frutas_| o5as9 | 0.1961 | 0.8563 0.9595 | 0.9255 | 0.3322 | -0,4863 (Ta |) (2) (2) (aa) [02 0453 | 05412 | 0,0004 | [2.0000 0,000 |~02915_| 0.1089 Came | 06951 | 0,3213 | 0.8811 | 0.9595 | [osais | 0.3746 | -0,4372 (a) ay fay) (22) (a2) (02) 0121 | 0.3086 | 0,0002 | 0,0000_| [0.0000 | 0.2303 | 0,1552 ‘Aves de coral | 0,6030 | 0.2480 | 0,8268 | 0,9255 | 0.9818 0.2329 | -0,4002 a Tay fay ayy (ay 0) 10,0380 | 0,4370_| 0.0003) 0,0000| 6.0000 0.4663_[ 0.1974 Teche [08717 | 0.8556 | 0.6628 | 0,322 | 0.3746 | 0.2828 0.0069) a Tay fay ayy (2) (2) 0.0002 | 0.0004 | o,0188 | 0,2015 | 0.2303 | _0,4663 0.9831 Vino | -0,1849 | 03038 | -0,3565 | -0,486a | -04372 | -0,4002 | 0,069, (fay fa) a) (22) (22) 0.650 | 03371 | 02554 | 0,1089 | 01552 | 01974 | 09831 De acuerdo a la informacién presentada en la tabla 4, nos muestra la matriz de correlacién de las variables en cuestién que se tuvieron en cuenta en el momento de suministrar la informaci6n en la tabla 2, se observa que las variables con mayor relacién son Carne-Aves del coral (0,9818) y la de Carne-Frutas (0.9595), aunque también es relevante la de Aves del corral-Frutas (0,9255) y Frutas-Verduras (0,8563) Mientras tanto, que las variables con menor relacién se dan entre las variables Vino- Fruta (-0,4863) y Vino-Leche (0.0069). En la variable Pan-Leche es la que menor correlacién presenta con las otras variables Para todas las duplas de variables el p-Valor es menor que 0.05, por lo tanto, podemos afirmar que para todas las duplas de variables las correlaciones son significativamente diferentes de cero. Ahora, observemos la siguiente tabla 5. Que nos presente el paquete Statgraphics cuando se generé el analisis multivariado. Tabla 5. Covarianzas del consumo de alimentos en las diferentes familias Familia | Pan | Verduras | Frutas | Carne Aves de Leche Vino Familia 33,0__| 310,273 | 571,182 | 348727 | 991,73 | 542,545 | 368,136 | 47,8636 (aya) | 2) (12) (22) (ay) 2) (12) Pan 310,273 | i14a0,6 | 120225 | 3469.55 | 136230 | 6531,7 | 10737,4| 23363 (af a2) (1) (22) (12) (2) | (02) (22) Verduras | 571,182 | 12022,5 | 35789,1 | 267425 | 659648 | 390337 | 14686,4| 480,73 aay a2) | a2) (12) (22) (12) (12) Frutas | 348,727 | 3469.55 | 267425 | 272555 | 626877 | 38132,8 | 6423.45 | 5762.73, (a2) ay |) (2) (22) (a2) | 32) (22) Came | 991,773 | 13623,0 | 659648 | 626877 | 156618, | 969648 | 173634 | -124208 (a2) a) | a2) (2) (22) (a2) 2) (22) ‘Aves de coral | 542,545 | 6631,7 | 39033,7 | 381328 | 969648 | 622805 | 6807,5 | -7168,38 ay a2) | a2) (2) (22) (12) [2) (12) leche | 368,136 | 107374 | 146864 | 6423,45 | 173634 | 68075 | 137188 | 57,8403 (aq ay |) (a2) (a2y__| 2) (12) Vino__| 47,8636 | 2336, | -4840,73 124208 | -7168,38 | $7,8409 | 5152.63 (ayy Ja) (2) (22) (ay |) (12) Como ya hemos destacado en la informacién suministradas por las tablas 3 y 4, en esta tabla 5 que nos presenta el paquete de informacién, se observa que lo relevante es el valor ms alto en la dupla de variables Carne y Aves del corral (96964,8) y la menor covarianza en la dupla Fruta y Vino. Siendo, estos datos lo mas destacado de acuerdo a la interpretacién que hemos realizado a las diferentes tablas en esta primera parte que fue el andlisis de datos multivariados. La generacién de las componentes principales se hace por medio de la matriz de correlacién y de la matriz de covarianzas, siguiendo las indicaciones de la tarea en Unigeridad wtAtneo esta primera parte, que dentro de las variables tomada excluyéramos la de las familias, ya que, la variable familias es una variable complementatia; veamos el comportamiento de las demas variables en cuanto a estas matrices mencionadas. A continuacién, se obtienen las componentes principales, mediante la matriz de correlacién Analisis de componentes principales (ACP) ACP mediante la matriz de correlacién En el reporte del paquete Statgraphics se obtiene la tabla 6; donde se tiene la mattiz de varianzas (D) y covarianzas y la matriz de correlaciones (E). Los valores propios para esta ultima se indican por (C). (ver tabla 6) La suma de los valores propios es igual a siete (raza de R). En (F) estan los vectores propios. Las componentes de los vectores propios suministran las ponderaciones 0 grados de importancia de cada variable con el respectivo componente principal. (ver tabla 7) Tabla 6. Analisis de Componentes Principales (valore propios) [Componente| Porcentaje de | Porcentaje ‘Nimero | Eigenvalor(€) | Varianza(O) | Acumulado (E) 1 433324 | __61,903 61,903 2 1,83029 26,147 88,050 3 0,630836 | _-9,012 97,062 4 0,128328 1,833 98,896 5 0,0575562 0,822 99,718 é 0,0188486 0,269 99,987 7 (0,000903797 0,013 100,000) De acuerdo a la informacién obtenida en la tabla 6, el valor propio ligado con cada componente principal indica la cantidad de varianza retenida respecto ala varianza total. Asi, con la primera componente se retiene: La componente 1 (Pan) explica el 62% de los datos y la segunda componente con mas relevante en la explicacién de los datos es el componente 2 (Verdura) con un 26,2% y una tercera componente, que es la componente 3 (Frutas) con un 9% y asi, sucesivamente (en la tabla 6 como se indica con (D) en la salida de Statgraphics) En la tltima linea, rotulada con (E), esta la contribucién acumulada hasta cada componente. Es inmediato, para estos datos, que la primera componente es mas importante que las demas, pues como se observa en C ésta retine casi las tres cuartas partes (61,903%) de la variabilidad total. Entre estos dos componentes esta explicado el 88,050% de los datos de covarianza. Si, se incluye la informacin de lig covarianza con la tercera componente estamos hablando de la totalidad de 97,062%. Unigeridad nt Ateo De lo anterior, (ver tabla 7 de vectores propios) la primera componente con las variables normalizadas esta dada por Y; = 0,239583 + Pan + 0,465856 + Verduras + 0446345 = Frutas + 0,462181 + Carne + 0,437755 « Aves de coral + 0,280713 » Leche — 0,205703 * Vino Y%, es un indicador del consumo de pan. Nétese que los coeficientes de la combinacién lineal que definen a ¥, son todas en su mayoria son positivos, con excepcién del vino que hay una gran discrepancia, y ademds, alrededor del 62% de la variacién en los datos esta relacionada con diferencias de tamaiio; es decir, la primera componente retine las variables que determinan el alimento Pan La segunda componente principal Yq = —0,0622095 * Pan — 0,0983814 = Verduras + 0,205422 + Frutas + 0,141232 + Carne + 0,19654 + Aves de coral — 0,522511 * Leche = 0,479091 + Vino En consecuencia, ¥; rene las variables que registran el indicador del consumo de verduras. El valor tan bajo del Pan, de la Verdura, de la Leche y del Vino; en ¥, significa que Las verduras afecta poco a ¥;. Se puede inferir que la segunda componente se relaciona con las proteinas y Frutas. Similarmente se pueden hacer interpretaciones para ¥3, ¥4, Ys. Ye. ¥ Yo. Tabla 7. de Pesos de los Componentes (Vectores propios) [componente [Componente [Componente [Componente [Componente [Componente [Componente h 2 3 no 5 6 7 Pan fo2a9583 _|-0,620095 _|-oo70ase _|-0543678 _[o,oaeaaae [0507085 _|-0023775 Iverduras _|o.assass _|-0,0983814 _|-o,osz1aee |-0,0230009 _|-0,g08712 |-0,301009 [0.155839 Frutas fosesas [0.205422 _[0,14s307 ___|0,547573 0668805 0.625461 | -0,204762 [came foasa1ei [0.181732 [o,207aa1 |-o,0sa28s1 [o,a110s1__|-0,0925498 |0,73602 lAves de coral foa37755___ 0.19658 [0.358697 __|.o,324387 [0.223787 __|-0,349677 __|-0,604565 Leche lozgoria_|-o,s2a511 _|-0.443539 0.4496 logaria4 —_|-0.332051 _|-0,150617 vino [0.205703 |-0,478081 [0.780064 0.306338 _|-0.0688598 _-0,138156 _[0,0445646 Unigeridad wt Atnco En la siguiente tabla 8, se muestran los datos de consumo de alimentos de las 12 diferentes familias respecto a los siete ejes factoriales, las cuales se pueden calcular como se hizo anteriormente. Tabla 8. Componentes Principales [componente [Componente [Componente [Componente [Componente [Componente [Componente Fila_|1 2 3 la 5 6 Z 1 |-2.8587 _|o,a6a876 [0403709 __Joaei0as [0.226003 _|o,06asa2a_|-0,0244001, 2 |-1,88924 |1,79224 _|-1,30606 _|-0,161571 __|-0,0918877_|0,0694747__|0,0236269 3 |-0.117899 _|o,725509__[1,42171 __|o,19626 __|-0,4aa13__|-0,156114 _|-0,0127507, la __|-2,04076 _|-0,323306 _|-0,106172 _0,103425 _|0,011612 _|-0,0701053 _|0,0618189. 5 |-1,69431 [0.162704 0.512888 |0,1575, -0,175853__[0,0524991 _|-0,0308649 6 __[2,6943 135489 0.994991 _|-0,42927 __|-0,0759584_|0,268876 __|0,0141598, 7_[-o9a2ea1__|-1,3717 _|-0,275668 _|-0,263546 __|0,093637 ___|0,0675733__|-0,0519605, ja__-0,252167 _|-0,632497 __|0,273362 __|o,286972 _|0,161353 _|.0,108593 _|0,014122 9 [2,60052 _|1,73601___|0,0984842__|-0,401082 0.421424 _|-0,219767 __|-0,0126126, j10_|0,221028 _|-2,77682 _|0,567067 __|0,245788 0.121585 _|0,064235 _|0,0236069 az [a,95116 _|-1,aa119 [0.989434 0.324147 _|-0,228@11 _|-0,12742 _|-0,00583158 12 [431801 [0.100593 _|-0,569097 _|0,720202 _|0,0780852 _|0,0948073 _|0,00108599 De acuerdo con la interpretacién que se les ha dado a los dos primeros factores, se puede afirmar que las observaciones tienen una estatura y forma cercana al origen de las coordenadas del primer plano factorial. Es interesante observar las tendencias de estas medidas en vista a las observaciones registrada. Como una estrategia para la interpretacién se puede suponer el plano factorial de los individuos al de las variables, para apreciar una clasificacién de las familias de acuerdo con su consumo de alimentos. Sobre esto tiltimo se advierte acerca del cuidado que debe tenerse con la interpretacidn, ya que se trata de dos subespacios de espacios diferentes (familias y alimentos) En la ejecucién de los componentes principales, obtenemos del paquete Statgraphics las siguientes graficas de acuerdo a la informacion adquirida de las componentes trabajadas, entre ellas: Unigeridad eRe Granca de Seaimentacion se 4 ak \ 4 B sk 4 5 go 2b ‘s q ab 4 oF * : + + 4 ° 2 4 6 3 ‘Componente La grafica de sedimentacién creada por Statgraphies muestra el comportamiento de los componentes en la explicacién de los datos. Siendo el primer componente el de mayor importancia. Se concluye que como los dos primeros componentes explican cerca del 88% de los datos, entonces, los otros cinco componentes restantes no aportan mayor explicacién y pueden ser excluidos. Por consiguiente, destacando la informacién obtenida en la tabla 7 y 8; obtenemos las siguientes graficas ‘raica de Pesos dol Componeeto os on Componente 2 ows os Unigeridad waco eres aa ” ave de coral Frutes q : tame Bowe : . 4 i . Bose 4 aah 4 a “28 34 Componente En la grafica de pesos de! componente (vectores propios), se observa que existe una fuerte relacién entre los alimentos de consumo de las distintas familias en carne-aves del coral y frutas y que la variable no relacionada es la variable del vino que tiene una tendencia particular. Ahora, la gréfica Bigréfica, corrobora lo indicado por la grafica de pesos de los componentes: mientras la variable del vino es una variable no relacionada con las otras, las variables que conforman el consumo alimenticio mantienen una fuerte relacién entre si. 2. Las Cataratas del Iguazti Tema del ejercicio: Estudio de un aspecto de la estructura del mercado de un grupo de operadores de turismo de las Cataratas de Iguazu. Tabla 2.1. Estudio de mercadeo de turismo de las cataratas de Iguazi Paises_| En | Feb | Mar | Abr | May | Jun | Jul Aug | Sep | Oct | Nov | Dic Capred_| 29 | 29 | 37 | 41 | 23 | 29 | 68 30 | 33 | 28 | 17 | 17 BueAir | 143 | 143 | 83 | 76 | 47 | 40 [195 71 | 71 | 70 | 68 | 56 Mesopota| 52 | 30 | 11 | 51) 5 | a | 41 21 | 17 | 28 | 16 | 17 RestPais | 61 | 53 | 20 | 62 | 26 | 13 | 93 34 | 27 | 34 | 18 | 27 BrazPar | 15 | 16 | 22) 43 8 | 4 | 15 42 | 6 | 12 | 13 | 13 UsaCanad | 29 | 34 | 11 | 2 | a2 | 17 | 16 42 | 12 | 13 | 13 | 44 Resttmer| 3 | 9 | 6 | 16) 5 | 3/13 4|8)4f[r2is lig tunnel oe | us Tar Par Pw Te Tas a{olutate| Unigeridad wt neo Overs | 9 | 4) 8) 3) 7/3 /3 8|6)4]3 10 El flujo anual de turistas que visitan el sitio presenta una intensidad variable en cada mes de afio y por otra parte depende del lugar de procedencia. A fin de conocer las condiciones de acogida del contingente de turistas a esa doble vatiabilidad mensual del flujo, los operadores de turismo desean conocer esa distribucidn bivariada para establecer las “temporadas preferenciales’ correspondientes a las diversas regiones de procedencia de turistas. El analisis de Correspondencias simples de esa tabla permite hacer esa doble comparacién. Solucion: De [a informacién suministrada por la tabla 2.1, obtenemos el flujo de turista de diferentes paises que visitan las cataratas de Iguazii en los distintos meses del aiio, vamos a observar el comportamiento de la fluencia de esos visitantes y destacando en especial de que paises provienen mas. Para presentacién y realizacién del trabajo utilizamos la herramienta estadistica del paquete Statgraphics; como primera medida a los datos entregados por la tabla 2.1, se generara un andlisis de correspondencia simple e interpretaremos sus resultados y sus ilustraciones; obteniendo lo siguiente: Este procedimiento ilustra la correspondencia entre filas y columnas de una tabla de contingencia de doble entrada (ver tabla 2.2) Tabla 2.2. Contingencia Paises [En | Feb [ Mar | Abr | May [Jun | Jul | Aug [Sep | Oct | Nov | Dic [ TOTAL CapFed | 29 | 29 | 37 | a1 | 23 | 29 | 6s | 30 | 33 | 28 | 17 [a7 | 381 Buenir [143] 143] 83 | 76 | 47 | 40 [195] 71 | 71 | 70 | 68 | s6 | 1069 Mesopota| 52 | 30 | 11 | si | 5 | 8 | ai | 21 [a7 | 28 | a6 [a7 | 297 RestPais | 61 | 53 | 20 | 62 | 26 | 13 | 93 | 34 | 27 | 34 | 18 | 27 | 468 Braxpar | 15 | 16 | 22 | 13| 8 | 4 |15| 12] 6 | 12) 13 | 13] 149 UsaCanad| 29 | 34| 11 | 2 | 41 | 47 | 16| 12 | a2| 13) 13 | 14] 184 Restamer| 3/9 | 6 |16| 5 | 3 |13|4|s8|4)22|5| #8 Europade | 39 | 15 | 54 | 26 | 34 [8 | 31 | 60 | 40] 37 | 62 | 36] 4az OrroPais| 9 | 4|e)|3]7)3|3|a|s6|4|3 |10| 68 ToraL | 380 333 | 252 | 290 | 166 | 125] 475| 252 | 220 | 230 | 222 [95] 3140 De la tabla 2.2, se obtiene que | total de personas encuestadas de este turismo es de 3140, la nacionalidad de mayor afluencia es Buenos Aires y otras nacionalidades al igual que el resto de América son los de menor a fluencia visitar este lugar 0 no esta en su ruta turistica, es poca atractiva. También, el mes con mayor numero de turista es en julio y el mes con poco turista en junio. Unigeridad ‘ene cap Buesir RestPs erezPar usacanad Restamer Europade otroPais De acuerdo a la Gratico de mosaico, se puede destacar que los meses de enero y febrero tiene un comportamiento similar en cuanto a las visitas de turista, de la misma forma septiembre y octubre tiene ese mismo comportamiento; ahora para observar mejor esta informacién realizamos los mismos datos, pero en grafica de barras obteniendo asi Grafico de Correspondencia Jul Aug Sep Como veniamos concluyendo ya con esta grafica de correspondencia se puede observar que el mes de enero y febrero tienen el mismo comportamiento, de igual manera, y algo similar ocurre para el mes de julio; los meses de agosto y septiembre llevan algo de informacién similar, y los meses que son completamente diferentes son abril y noviembre, del resto, eso es en cuanto al flujo de visitas. Unigeridad waco La herramienta estadistica del paquete Statgraphics, en el analisis de correspondencia simple nos permite derivacién de un niimero pequeiio de dimensiones importantes que caracterizan las diferencias primarias ente categorias de filas y columnas, lo que ayuda a identificar factores importantes que explican diferencias y similitudes entre las categorias. (ver las tablas 2.3 y 2.4) Tabla 2.3. Contribuciones de fila im #t im #2 Golidad ‘asa [nero [coord [Corr [Contr [coord Core [Contr E_[Capred [0,007 0.321 [0,080 (0,020 [0,005 [0,001 (0.013 [0.002 |0,001 2 [auenir [0.680 Tose oo7e 0,103 |0,386 [0,062 -0.090 |o,294 |o,108 B_[Mesopota _|0,648 0,095 [0,127 10,222 [0310 [0,081 (0232 0,338 [0,203 la |RestPais —[o,a29 [0.149 [0,09 ‘0217 [0,645 [o.121 [oa16 [0.184 [0,080 5 [BrazPar [0.374 (0.047 [0,043 fo202|o,373 [0.033 0,012 [0,001 [0,000 [5_|UsaCanad_ [0,799 0,059 [0,123 10,016 [0,001 [0,000 0.447 [0,798 [0,468 7 [Restamer [0,315 0.028 [0,058 0043 |o,007 [0.001 fo27s [0.307 |o,oaa [5_[Europade [0,978 0241 [0,329 sie _[o,954 [0,616 o.083 [0,025 |0,039 9[otraPais 10.483 0,022 [0,062 0.362 [0,429 [0.054 -0,136 [0,054 |o,016 Tabla 2.4, Contribuciones de columnas Dit Dim aided oso inersia (Coord Core [Contr (Goord Com —— [Contr A 0.369 o.121 [0,073 0,152 [0.318 [0,048 0.061 [0,051 0,038 2 0.865 0,106 [0.121 0.264 |o.s10 [0,128 0,220 [0,355 ]0,205 B 0.745 0,080 [0,098 (019 |o,693__[o.sat 0,057 [0,022 0.010. ls 0.933 0,092 [0,166 0224 [0.233 (0388 [0,700 0,554 5 o,s02 (0,053 [0,007 fa2as [0.570 |o.0ss: 9,058 [0,032 |o,007 6 0.426 0,080 [0,082 0,112 [0,046 0,008, 0.324 (0,382 |0.167 7 0.697 0,151_[0,129 0265 [o.6s9 |o.tea (0.927 —|o,007 0,004 fs 0.838 0,080 [0,062 fo271 |o,s01__ [0.102 (0.057 [0,036 _Jo.012, js |sep [0.398 0,070 [0,024 lo.z6 0,395 [0.019 0,011 [0,003 0,000, 10 oct [0.225 0.073 [0,012 [o.029 —Jo,043 — |o,001 .060 [o,1a2—_fo.o10 a1 [Nev 0.725 0,071 [0.132 [0397 |o.711 [0.198 0,056 |o,014 0,009 32 [oie [0,480 0,062 [0,084 [o197 [o,asa[o,0a2 -0.038 [0,017 0,004 En estas tablas, nos muestran la informacién mas importante acerca de cada categoria de fila y columna. La columna masa muestra la proporcién de frecuencia total en cada fila y columna, mientras la inercia representa la proporcién de la variabilidad total en la tabla de filas o columnas. En este caso, la fila con la mayor inercia (EuropaOc) representa el 32,86% de la variabilidad total, mientras que la columna con la mayor inercia (Abr) representa el 16,64%. Medidas de la calidad de cémo las dimensiones extraidas representan cada fila y columna. Categorias con alto grado de calidad, tales como EuropaOc filas y Abr columnas, estan mejor representadas que las de calidad inferior. La contribucién de columna es también bastante importante, ya que representa la contribucién de una fila o columna simple auna dimensién particular. Por ejemplo, fila EuropaOc y columna Nov contribuye mas a la primera dimension Unigeridad waco Ahora, observando la tabla 2.5, que se genera de la informacién obtenida anteriormente Tabla 2.5. Inercia y Descomposicién Chi-cuadrado Singular Chi (acumulativa [Bimensién [Valor inercia |Cuadrado |Porcentaje |Porcentaje Histograma q 0.2406 _]0,0579_|1s1,8163 [48,5179 (48,5179 oserevserensere 2 jo.aseafo.o2s1_|78,7423 [21,0125 [69.5303 I 3 0.1390 fo,o142 [44,5015 [11,8753 _|81,4056 4 0.0914 |0,0084_|26,2236 [69978 (88,4034 5 0.079 Jo.o0s1_|19,0638 [5.0887 __/93,4921 o 0.0612 ]o,0037_|13,7529 [3.1363 __|96,6283 g i 0.0574 |o.0033|10.3312 _|2,7569 [99,3852 ia is 0.0271 ]0,0007_|2,3038 [0.6148 | 100,0000, Fe IToTA foarsa [374,741 1 I Por lo tanto, a tabla 2.5, se utiliza para ayudar a determinar cudntas dimensiones se necesitan para explicar la mayor parte de las diferencias entre filas y columnas. Siendo, el interés principal es la columna de porcentajes acumulativos, que muestra el porcentaje de la variabilidad total explicado por la primera dimension, el primer par de dimensiones y asi sucesivamente. En este caso, las primeras 2 dimensiones explican el 69,5303% de la variabilidad y si, se tiene en cuenta las tres 3 dimensiones explican el 81,41% de la variabilidad. De las siguientes tablas 2.6 y 2.7, se obtiene la informacion de los perfiles Tabla 2.6. Perfiles fila Feb [Mar [Abr [May [lun [lul [Avg [Sep [Oct [Nov [Die eapred_—_[o.076 0,076 [0,097 [0,108 [0,060 [0,076 [0,178 [0,079 [0,087 [0073 |o,045_]o,035 uevir |oa35 (0,135 [0,078 [0,071 [0,044 [0,038 |0.183 0,067 [0,067 [0,066 |o,064 0,053 IMesopota [0,175 e101 [0,037 [0,172 |o,017_[0,027_|0138 [0.071 [0.057 [0,034 [0,054 0,057, RestPais [0,130 (0113 J0.013 [0,132 [0,056 [0,028 |0,199 0,073 [0.058 [0073 |o,038_|o.0s8 BrazPar —[o,ao1 (0,107 [0,148 [0,087 [0,084 [0,027 [0,101 [0,081 [0,090 [0,081 _|o,087 [0,087 lusacanad [0,158 0,185 [0,060 0,011 _|0,060_|0,092 0,087 0,065 [0,065 [o,071_|o,071._]0,076, Restamer [0,034 (0,02 [0,068 [0,182 [0,057 [0,034 lose 0,045 [0,001 [0,045 |o136 [0,057 Europade [0,088 0,034 [0,122 0,058 _|0,07_|0,018 0,070 [0,136 [0,090 [o,084_|o,140_[o,081 lorroPais [0.132 0,059 [0.118 0,044 [0,103 [0,044 |o,0s4_fo.118 [0,088 [0,059_|o,044_|o,147 Masa [o,izi 0.106 [0,080 [0,082 [0,053 [0,040 0,151 Jo.080 [0.070 [0,073 _|o,071_[o,062 Tabla 2.7. Perfiles columna Feb [Mar [Abr [May [lun [Jul [Aug [Sep [Oct [Nov [Bie eapred [0,076 (0087 [0.147 [0,141 [0,139 ]o232 [0,43 _[o,13 [0,30 [0,122 |o,077_[o,0a7 uesir [0,376 (0.429 [0.329 0,262 [0,283 [0,320 |o11 0.282 [0.323 [0.304 |o,306_|0.287 Mesopota [0,137 0,090 [0,014 [0,176 |0,030_[o,064_]o,086 [0,083 [0.077 0,122 |o,072_[o,087 RestPais —_[o.a61 (0,159 [0,079 [0,214 [0,157 [0,104 |0,196 Jo,135 [0,123 [0.148 [o,o8i _|0,138 BrazPar —_|o,039 (0.048 |0,087 [0,045 |o,0¢8 [0,032 |o,032 0,048 [0,027 [0.052 _|o,0s9_|o,os7 lusacanad [0,076 0,102 [0,044 [0,007 [0,066 _|0,136_|0,034 ]0,048 [0,055 [0,057 _|0,059_]0,072 Unigeridad we) wet Aneo Restamer [o,008 (o027 Joora [oss [opa0 [ooo Jooe7 Joois [ose [oir [oosa [ooze [ooze Europade [0,103 0.045 [0.214 [0,080 [0,205 [0,068 _|o,065_]0.238 [0,162 [0.161 [0,279 _|o,185 [0.141 fowroPais [0,024 (0.012 [0,032 [0,010 [0,042 [0,028 [0,006 0,032 [0,027 [0,017 {0,014 0,051 [0,022 Masa Jozi 0.106 [0,080 [0,082 |o,053 [0,040 ]o,151 0.080 [0.070 [o,073_|o,071_[o,062 En estas tablas anteriormente, expuestas muestran los perfiles de la distribucién de la masa a través de la tabla. Rn los perfiles fila, los valores de cada fila suman 1. En los perfiles columna los valores de cada columna suman 1. primera celda (fila CapFed y columna En) representan el 7,61% de la masa en la primera fila y un 7,63% de la masa en la primera columna 05 02 as. oa 905 ° Frecuencia Relativa Feb Mar Grafico Perfiles fila ii 4 | i lh Abr May sun sul I uid ul wl ul Aug sep Nacionalidad de turistas por mes oct Por ejemplo, la mCapred mBueAic mMesopota MRestPais Mm BrazPar mUsaCanad MRestAmer mEuropaCe m OtroPais En el grafico de perfile fila, se puede destacar que el mes de julio es donde se sefiala la mayor nacionalidad de turista visitando las cataratas de Iguazu, de la misma manera y menos impactante como el mes de julio esta los mese enero y febrero, pero se puede observar influencia de turistas de distintas nacionalidades; y el mes de junio que diriamos que es un mes de reservados 0 receso de turistas. ° Frecuencia Relativa il th L Lik, Grafico Perfiles columna Abe lid ku May | aug sep Nacionalidad de turistas por mes 14 MBueAir m Mesopota mRestPais Mm BrazPar m Us dil L bk 1 {Ii bie 1ad MRestAmer mEuropade mOtroPais Del grafico de perfiles columnas las que mas se destacan en su parecido son enero, febrero y julio, aunque este ultimo en algunos puntos de nacionalidades son mas relevantes que otras, pero en los tres mese se destaca la nacionalidad de argentina. Ene esa misma correspondencia que se ha descrito en los graficos anteriores se es evidente en la siguiente ilustracién generada por el paquete de Statgraphics de acuerdo con la informacién de las tablas 2.6 y 2.7 Mapa de correspondencias ‘as: principal, columnas: princi 085 = = 038 ~ 4 ons sre 4 008 Dimension 2 a5 45 “0.25 “0.05 0.16 036 055 Dimension 4 Como se puede observar lo que hemos mencionado anteriormente, en los graficos anteriores, se destaca que buenos aires esta cerca la influencia en los meses de eneros febrero y julio, y muy alejado del mes de junio. También, los de nacionalidad de Europa occidental estan completamente a alejados de las fechas de turismo indicando la muy poca participacion de nacionales de esos paséis en esta clase de turismo y de la misma forma los de RestAmer; aunque se destaca, en esa misma linea los de nacionalidad estadunidenses o americanos del norte son poca su asistencia. Esta informacion descrita se puede ver con claridad también en las siguientes ilustraciones de grafico de lineas para cada componente principal tanto de fila como de columna y destacando asi la conclusion suministrada desde el principio. Realizando una correlacién de la informacién en dos dimensiones que son las mas relevantes segiin la informacién de la tabla 2.5, 0.35 os: 0.05 ‘Coordenada principal 028 Grifico de coordenadas de fla Dimension aay 3 “Grice de coordenadas de columna oar oor J on 933 [| _ Dimension ae 2 ESPECIALIZACION EN ESTADISTICA APLICADA ANALISIS MULTIVARIADO PROFESOR: SVETLANA I. RUDNYKH EXAMEN FINAL Nombre y Apellido del estudiante CLAUDIA L. GARCIA MADRID 1. En el Analisis de Componentes Principales (ACP) las variables originales son de tipo: a) Nominales ©) Ordinales d) Cuantitativas 2. En el Analisis de Correspondencias Simples (ACS) la distancia ente las categorias se mide con: a) La medida euclidiana c) Chi-cuadrado d) Lamedida de Minkovski 3. El objetivo del Analisis de Correspondencias Miltiples (ACM) es: a) Obtener un modelo de regresién lineal con las distintas variables originales b) Establecer proximidades entre categorias de las variables c) Clasificar i eines los individuos sib las crane 4. Escribir 4 métodos de formacién de grupos del Analisis de Conglomerados: 5, Un bidlogo quiere clasificar una “nueva” planta en una de varias especies conocidas. {Qué técnica es la mas apropiada para utilizar en este caso: b) ACM ©) Cluster d) Analisis Discriminante lo 6. El propésito del Analisis Factorial consiste en Unigeridad waco b) Buscar el numero minimo de dimensiones capaces de explicar el maximo de informacién contenida en los datos ©) Obtener un modelo lineal entre distintos grupos de variables d) Establecer tipologia de individuos y mostrar en un plano factorial

You might also like