ESB Cap.5 PDF

You might also like

You are on page 1of 61
Capitulo V. Estadistica descriptiva univariada Una matrix o hase de datos normalmente se compone de varlables no méticas y variables imétreas, La rama de a BstadstcaBisica est compuesta por una serie de procedimientas que buscanresumir ysistematizar ia informacién conten en una base de datos. fst fue el norte ‘que orients 2} desaroli de es cpftulos anteriores para el caso de Jas variables no métricas (cstadistica de stributos). Este capitulo lo dedicaremos al estudio de os procedimlentos que afrece la Estadistca ‘Bisiea para resumiry sistematiar la nformactén de una variable métrea. omensaremos en 8 seccién que sigue exponiendo e uso de un instrumento ya utlizado: a tabla de disrbucién de frecuencia. Distingulrsmos la situaclén en que la variable puede asumir slo unos poroe valores distintes, de aquella en que précticamente todos los valores son diferentes Inteoducimos las nocones nuevas de intervala de case, limite superior ¢ inferior, marca de tlase Sin embargo, voremes que aungue I tabla do distrbuciin de frecuoncias resulta un Instrumento sugerente en el conocimiento de la distibucién de una variable métrica, le Instrumentos principales dela Estadstica Deseriptiva tienen que ver con el resumen de las es Aimensiones que caractrizan a una distribucién: la posiclén, la dspersién y la forma. A estos aspectos se dedica el tratamiento de las siguientes secciones. Tal como en los capitals anteriores, al final de éteincluimos un breve resumen de los principales concepts tratados Sl blen nuestro objeto son las varables métrcas tal como las hemos defnido en el capitulo I presentamos casos instrumentos que pueden ser apicados a variables, ques bien teéricamente miden conceptos meéricos, se les aplies una recodiiacién para formar agrapamientos de valores denominados "intervals". Esto es, son variables ordinals, Esta situacén es comin en varias encuestas donde, por ejemplo, no se registra el ingresopercibide ‘or el hogar, sino través de una pregunta yor “tramos de ngreso” que podrian estar definidos primero como “de cero @ $ 2500" el segundo “de $ 2501 2 $ S000" y asi sucesivaments, terminando con un intervalo que dice "$100 mil y ms". Veremas que con estas variables se pueden generar tablas de frecuencia y gréficas, pero que presentan singularidades.y Jimutaciones a momenta de computarestadisticos de posicié ydispersié. Con el estudio de la Estadistica Descriptiva univariaday bivaviada en el préximo ‘opitulo, completamos la presentacién de los intrumentas mis generaes que proporclona esta rea de la estadistica para deserbir,resumiry sistematizar Ia informacion contenida en los datos, En conjunto con la Estadetica de Atibutos, contamos ya con los elementos Imprescindlbles para trata los cuatro tipos de variables (nominal, ordinal, de intervalo y de azn) que se sueleninlulr en las matrices de datos. Vt- Tablas de distribuctones de frecuencias® Como vimos en el Capitulo I, para casfcar (0 tabular) variables no-métricas contamos e rnimero de observaciones que Wenen el mismo atrbuto (frecuencias absolutas). En te "esc Fei ydapne por Tabac erin Lata Noe Estedistice Saciel Bi h07 sistemstizacin de las variables métricas seguicemos el mlsmo procedlmient. Sin embargo, tendremes que diferencia cuando traalamos con una variable que adopts pocos valores (por ‘empo, aos de estudio), de cuando In variable métricatlene un recorrido amplio 0 bien el -nimero valores es grande (por elemplo, ngresos de los hogares en un pals). Las razones que ‘orillanaintrodcir exe ciferenca serdn evidentes un poco més adelante va. TTabulacin de variables métricas con pocos valores Una tabla de distrbuelin de freevencas debe ser fide leery analiza. Por esto, realizar una tabulacén dena variable mtrica cobra sentido cuando ésta ine pocos valores (por ejemplo de hasta 10 012 valores), Para ello, coma en todo procedimlento de construccién de una tabla de frecueneas, se procede a ealelar lor tipar de distribucién que sean de Interés para cl nalista -frecuoncis simples y/o acumnladas, absolutes y/o relativas. de mode similar al que ‘se caleula para varables de atribatos de nivel ordinal “Tomaremos como ejemplo la loclidad de Las Palmas: est fue la localidad mas pequeha ‘dentifcada en el Cenzo de Poblaién de 2011 en el departamento de Durazno. Est stvada a 170 kllmetros de a ciudad de Durzzno, en las proximidades de la localidad de Blanqullo, 12° Secciin judicial de! departamento, sobre la Cuchlla Grande. Tenia 24 habitants, 15 de eos eran mujeres, ditribaldos en 9 viviendas ocapadas, La Matez V.1 generada a partir del Coso fe Poblaciin de 2011 presenta los datos relatives a las mujeres que team 12 y ms afios de ‘edad y resdian en la localidad. Incluye las variables de denticaclén ('d"), el “nimero de hijos nacidos vivos* (*hijos"), la edad ("edad"), ta situacion conjugal ('stado"), méximo nivel ‘educative cursado ("educacié)y aos de escolaridad (“adescol), warm Natre de datos de mujeres de £2y mans ea aida de Las Patnas Darezo, ao mr wo | Mesetos | ca | stacincmpin | Wisse | saree 1 a me a 2 7 4 7 apo 7 ao = rae x ‘ eto = o 7 2 M o = a é 4 [ « ‘No oxresponde Primers comin 5 & [a ‘No comresponde ‘Primaria coma s 7 = ca | Pc z wt a Sous [ Pimaiseamin 3d Fore: FBS opis par de Cn 207, INE ‘A partir de esta matt de datos generaremos la tala de frecuencias para la variable résrca ies. Tal come se mostré en el capitulo Il para obtener la frecuencia absolute simple se procede a identificar cada valor que puede tomar la variable en cuestién desde el menor 108] fscodiscica Social Basic hasta el mds alto registrado en la columna respectiva de la matria: en este caso desde cero hasta 8. luego se generals tabla dedicando un renglon a cada valor de Ia variable, Eta ser la primera columna del tabla Hecho esto, se procede a contar el nimera de veces que se repite ‘ada valor de variable en la poblacin de estudio y se anot este valor en el renglén respective, EH resultado de esta operacin se despigga en la segunda columns de ls tablabaj el tale de ‘reouenlasabsolutas simples. En la taba Vt se puede observar que tes mujeres no han tenido |ljosnacids vvos, tres mujeres tuviron un hij, yas sucesvament, TABLA VA. Distribucién de trecuencias de nimero de hijos de mujeres de 12 afosy mis residentes en Las Palmas, Durazno. 2011 ture | Fesmete | Focus | Francie | Pacis | Fetiechs | Frconaae ‘Momero de |“ sbaohitas relatives. relatives a hen i 08 | iar) | stm | ser | sh | aii | amin x z or] Bae ar —— : ta} — eae oa] — a = eet} —— 5 ae} — a 5 test se eer — ae : 2 tr] bas} se z Siar —Sne | ——b} 1s : ti tse i St —— i £ oat es a te * Mientras la matrz de dates contiene la informaci6n del valor que adopta cada variable on cada unidad de Is poblacin, la tabla univariada de distribuetdn de frecuencias resume Ia Informacion de ona variable (en este caso una variable métrca) En una tabla unWvariad, la primera columns representa cada valor de a variable, ya slgulentescolumaas infarman sobre fl nmero de casos, tanto en términos absolutes come relatives (en muestra tabla, la Aistribucién de recuencas absolutas simples yacumuladas,y las frecuencasrelativas simples y _acumuladasexpresidas en proporciony en porcentje) las terera y cuara clamnas de a tabla V.1 muestran las frecuentes relatvas simples ‘expresadas en proporcones y porcentajes respectivamente, que tene cada categoria sobre el total de fa poblacion. As, un 25% de as mujeres de 12 0 més af de Las Palmas no han tendo ‘jos nacidosvivs; del mismo modo un 25%, tuvo 1 hijo: asi sucesvamente hasta lara un 8.3% dela poblacibn que tvo 8 hijos. a quinta columna de la tabla presents las /recuencas absoltas acumuladas. Estas ‘uestran la cantidad de mujeres de a poblacién que tuveron un nimero determinado de hljos {el que corresponde al valor de variable) 0 menos, Com areglo a esta definieén, la primera Frecuencia absoluta acumlaa (3) indica el nimero de meres con hasta 0 hijos. Siempre Ia primera frecuencia absolutaacumulada conediré con la primera frecuencia absolta, de modo ‘que tenen la misma interpretacon. La segunda frecuencia absolutaacurmulada muestra que 6 eas mujeres de Las Palmas tuvieron 1 jo o menos, es decir, ningun hijo 0 uno, yes la sua {elas mujeres que no tuvieronhijosy aquellas que tuvieron 1 hj. Por spare, as mujeres con hijs o menos (23,00 hijos) ascienden 27, yas sucesivamente Es convenientenotar que Ia frecuencia acumalada en la dima categoria es igual al nimero total de observaciones (12 Ertedistica Sociui @asica [209 imac mujeres), pues el nimero de mujeres con 8 hijos menos resulta de sumar todas las stuacones posiblesanteriores,hastalegar a8 hijos En las columnas 6 y 7 tenemos las frecvenclas relatives acumuladas,expresudas en proporcién y en porcentaje respectvamente. tas muestran la proporcién o porcentaje de ‘casos que tienen un valor determinade dela varlable, menos. De acuerdo con estadefinlcién el 25% de las mujeres de 12 y mas aflos de Las Palmas (equivalent a una proporeién de 0.25) tienen 0 hijes o menos, porcentaje que es igual ala primera frecuencia relative. La segunda ‘reeueniaretativa acumulada dice que un 50% (05 en proporeién) de las mujeres se acumulan alllegar a 1 hijo o menos, resulta de Ia sums de las frecuenciasrelativa correspondientes 3 aquellas con 0 hijos y aquellas con 1 hijo (25% y 25%, respectivamente). Las frecuenclas ‘elatvas acumuladas correspondientes alos restantes valores de variable se Interpretan de ‘manera andloga Sin embarg, vale Ia pena destacar qua iltima frecuencia relative acumulada debe ser igual a 10a 100% porque inluye a todos los casos! Toda ver que tengamos un nimero rlativamentelimtado de valores diferentes de una variable podremos construir una tabla de distribucl6n de frecuenclas como la que hemos presentado. Son innumerables las stuaciones en que podrfames construirtabulados con la misma estructura que la del elemplo. Estas estruturas se pueden representar por una tabla de Aistribucion de freeuencias con ‘casos y la varable presenta ‘valores ditintos BSQUEMA Vat. Presentacién estindar de una tabla de distribucién de frecuencias ‘dena varlable métrica con un mimero pequefo de valores Frecerene Fence Frecnncae Frecuencia aoe de vai ‘aoa Relves Absoktan(n) | lates OM | peice) | Acuna) x rm 7 Ne cm = i fe We cs = cy fe Ne Hi ie ie me 1 BEL Tar i Bn el esquema Vl se sintetizan las carateristicasbisias de las tabulaiones cuando la varlable presenta pocos valores distinos. Las frecuenciasabsolutas siempre serdn nimeros enteros; ademas a suma de las frecuenclasabsolutas es igual al mimero de casos, es deci: © Sav qe enna alpun minima diferencia por redone 3 detamos porx el nimero de hijo, har tor valores dex como cass hima obsevado (Por supoeuo ls valves pale rept) Usimer nice pars referimor a orm valores iret des, ‘endo mah nro menor 9216 sumo igual qu En ao parle qo oss Secuencia bltae Nate ue miontas on el capa de varias po métict se wtiin Ia Irs "p” para If blag de frmsecing, en la de a ald cscs de varies metros tii lah inns. te cambio tienes rain de ser: lap" viene de probabil, dado qu paral eso dewrbls no macs cweein ‘els er ufos deposi a “pobbiin” del evento sind. Eo noe a en can ss "ibis canta De gu que wn es dit pre qe oe conan en rms de proba MO|Estadistice Scie! Basice fom WY man ft Por definicén las recwoncas reatvasslempre sorén menoresolgualesque!aunidad y rmayores. iguales que cero, O Véas ms abajo en cat capitlo, la seccén conepoaet al ang Ba sent de desguida ena db del ingore empl lio dees par fri fos Inara de ings que contenen a 10% de a poblacin. Atel primer des, st compu pr toe lot alors de varable que ncoyen al primer 10% das observant revit desde segundo de Tove siguente yx sucesnameat. De ete mod ca dese del miso ta, 10 Ge is bseracione. sir Francis Gal (16 de ober de 182217 de enero de 191), fm antropsogs, gst, explora, Inver, meetings, esto, pitog>brisio eon vn amplio espero de intr, No vo tet ‘nies reais a mayors de as inestigcones ors cuenta Sis milpes contibciones reabieen recone fomal cuando, lad de 87 as, ele concede le de Sr etl de Rein, De inreses muy vad, Gan contibyS dfrenes rear dei denis como la pioog I lg, e ‘ecolol Iagogafl estudio metarog. A menado au nvesianciner ron comin ands Inpara miva dil Pro de Cares Darwin, pli su inp x mamerosos campos, isle al esto del ser humano y de ls diferencias individuals. En 190), fs, junto om Kat Peon 3 Wale ‘Weldon, cofunador dea revista cinta Biometrika. labo ea ue owls por primes vere ino Fae pblicato como “Some results ofthe Antepometic Labora” enJoual of the Roy Antropol Intute nie 1, pips, 275 «287 Tomado dehy. wikipedia Fanci akon, 138|Frtadiseica Social Bésica Va- Medidas de dispersién. emos visto ya que la stata Bésica para variables métricascontempla medidas para ana ‘segunda dimensién onl que sees posible y necesarto deserbi Ie distibucién de una variable: la dispersién,heterogeneidad o variabilidad de los valores, nesta seclin prasentamos ses el ‘angola vaienz, la desviacién medi, a desvscién mediana el desvto estindary el coeiiente ‘devariabildado variacién. Nuestra formacin escolar, a través de los programas de Matemdtica, la nodién de promedio e incluso de moda, se introduce muy temprano y se trabaja en forma reiterada. No sucede lo mismo con el concepto de dispersién y sus medidas. Sin embargo, en las Ciencas Sociales, ef ardiss de la desigualdad y la heterogeneidad en Ja distrbucién de bienes, posiciones, partunidades y logras estén presents tranaversalmente en casi todos los temas. Piénsese en los estudlos sobre el desarrollo, las clases sociales, et género, el ingzeso, ly ‘eductién las cudades, ol medio rural, ee, Aprenderemos en esta seccin los radimentos pra el uso de estas medidas de tl forma nfatzar a importanca que tiene su uso en forma conjunta con las medidas de posi, V4.1- Elrangoy el rango intercuartlico ‘Una primera medida de dlspersién 2 ser consdorada es la que lamamos range 0 recorrdo, que ‘ela distancia que separa alos valores mibdmo y mine deta variable, (V.14) RG) = max(x)) ~ ming) ‘si, si querems estudiar cémo se distrtbuye la poblacién del Departamento de Durazno entre sus dltintaslcalldades, una aproximacion podria ser tomar las loclidades més y menos poblada (respecivamente, Durazno con 34.368 habitantes y Las Palmas, con tan s6lo 24 hnaitantes,segin el Censo 2011) y obtener el rango de la variable eantidad de habitantes 2 partir del eilelo de diferencia entre ambas (en este caso, 34.344 habitants), tal como a comtinuacién se presenta RG) 4346 4368-24 {cuanto mayor sea el valor del estadstico (en este caso, 34344), mayor seed la Aispersién: en tanto, cuanto més cercano a0 se hale el rango, menor ser In dispersion de Ia Alseituelén. Aunque tlene wn limite inferior Bjo (0), el rango mo presenta wn valor mixin ‘inico,dependiendo tanto dela unidad de medida dea variable, como de Ia dstribucin de que ste estadistico muestra un alcance mltada, No toma en cuenta el conjunto de la Informacién disponible sino sto ls valores maximo y minima de Is distbcién los cuales, dems, poten ser atipces. En e ejomplo, al ealeular el rango s6lo hemos tenido en cuenta as os localidades extremas por su poblacién (Durszne y Las Palmas, obviando las restates ‘quince Iocalidades que conforman el Departamento. Por su pate los volémenes poblacionales {ens dos niasloclidades que hemos considerado posiblemente no sean buenos indieadores Fitodistiea Social Bisice (139 del comportamiento de a disrbuelén Size observa la marl VA se iene que la capital nuciea ‘cnco veces ms poblaign que la segunda localidad, Sarena del Vi, por lo cual el rango se hubiera computado con esta ciudad, su valor serfa 7152, Bl rango resulta entonces muy sensible alos datos atipicos en a distribucln, ‘Otra manera en que ce expresa Ia limitacon del rango, podria ser el caso de dos istibuciones que presentan el mismo rango, aunque una de ellasesté més cercana al valor ‘mdmo y Ia ota haca el valor minim. Seria dil sostener, aun intultvamente, ue ambas distibucionestenen le misma dspersin, ‘Acfectos de superar algunas de las deblldades del rango, en ocaslones seuss el rango 0 recuerdo Intereuarlca que ee define como la diferencia entre eltercery primer cuartil dela istibucién: (V.18) R(z) = QQ Recordemos que el tercercuaril es aquel valor de ls varlabla que deja por dobsj al 759% de las observaciones, mientras que el primer cuarll deja por debajoel 25% de as mismas. De esta forma, et rangointercuartico tiene Ia ventaja sobre el rango de dejar por fuera de su consideracin el S0% ms extzemo de las observaciones, tomar soe 50¥ central. De esta forma, es menos genaibie que el rngo las observacione tiles. ‘nel caso del Departamento de Dursuno, mientras el rang era de 34.344 habitants, rango intercuartfco es d¢ 1.050 habftanes. El valor de la dspersién queda claramente stenado al no haber considerado la mitad de at valores (Jos mAs extremes), I(a) = 1136-86 =1050 ‘Veamas otro ejemplo de construcelén de ranges. Hl Programa Internacional de [valuacién de Estudiantes (PISA por su sgla en inglés) que implementa cada tres aos la Organizacién para la Cooperacén y el Desarrollo Econémico desde el afo 2000 y en el que partcipa Uruguay, ha generalizado una medida de la heterogeneldad de los canocimientos dentro de cada pals Con base ena ides del rango intercvarlico, PISA ha creado esta medida de rango interpercenticorestando al valor del percent 95, et percent § de la distibucion La tabla V8 muestra los resultados para la prueba de Matemétia apcada en PISA® 2012. La variacién en los puntajes ha sido propuesta como Indleadar de desigualdad de los sistemas ‘educativos, Se puede spreciar que en América Latina las pases particpantes de PISA no s6lo differen en su promedio sino también en su varzcén. ‘Sin embargo una forma alterativa de superar los problemas de epresentatividad que 4» generan al tomar s6lo los valores extremos, consiste en medi la dispersidn con base & Injana o cercania dels valores dela variable respecto a una medida de tendencia central, como Programa interacold Ealaci de Eines e 1S afl de ead PISA por usa en ings st ‘nordimaoporel Consejo Attained nveigasién Eves, ACER, y aunt vole ede os faites de ls Orsini prs Ia Copeaciény ol Desrolo Ezanico, OCDE, y aleddoe de os 40 aie ned oe los cotnentes So evant e elian cada ues os pa del 200m as ies de Materia, Lect y Cieneis, Ungoy pricipe & PISA dede 203. Pusde amps iafomaci ea someplace IO |Escadistico Social Basico or ejemplo el promedio. sta Wea convenientemente desarollada da origen ala varianzay a los demésestadaticos que acontinuacién se presentan. TABLA ‘Puntaes en Matemética por percent sein pais. América Latina, 2012 rs aaa Peas aS om 7 ot Ea Bast aa 30 2 Cae Ed a it Comb oa me 2 se a ef 3 Pa i ar a7 7 ag “ar 58 a Foci: bin pi AF de ISATOECD, 2 ¥.42-La varianza La varianza es una de fas medidas de disprsién ma empleadas en la Sstastica, Aungus, como se verd, resulte poco prietico presentar sus resultados en loz estudlos deserptves, y st lnterpretacén puede ser poco intutiva, a pesar de elo es ulizada als hora de la construc, e otros estaisticas com el desva estindary el coefcente de varlabildad, cuyosresultadae 5 son pasibles de una interpretacin directa. En esta secclén desarzallamos primero la nota {general aplicada a datos que no esti tabuados, par lego extenderiaa est az, Couto deta varionza a partir de una matria de datos. i contamos con los datos originales (x) podramos comenaar a evaluar su dspersin calealando la distancia que separe a cada valor de variable del promesio. Ese operacién consistria en clear} para tdosy cada uno de los valores de le varable. Ast shay nobservaciones lclcuo arignaria.n dstanclas: Ger 95 (2-2); Be - F}; o5 a FZ) Supongemos que contamos con la siguiente matriz de datos refer x dies localdades del Departamenta de Duraano (Matra V.8) y que nos propanemas anallzar su dsperién, Si sabemes que el promedia de Is poblaclin de las Jocalidades es de 3.066.647 Inabitants (meonpop en ls Mata V4), el primer paso sr cleular las diferencias entre cada ‘uno de los valores (p0b20211) y el promedia. Tendvemos dex y siete distancias entre los ‘valores yla media, las cuales han sido Ineluidas en ln cuarta columns de a mati ifr) Excagrstsen Soztei Bésica [1460 MaTRIZ VA, ‘Base de datos de localidades. Departamento de Durazo, 201. Fie: Ceo dePblain 2011, INE. Pero como queremes generar una medida resumen, habré que combinar estos resultados parciles. Una solveén podria consistir en sumaros y lego diva este valor entre fe nimero de observaciones (ef decir tomar un promedio de las distaneas entee las ‘observaconesy el promedio) ‘No obstantes se recuerdala primera propiedad! de la media, segin la cual la suma de las desviaciones dela variable respeco a ia media se iguala acer, féciimente se conciuiré que asf planteada esta medida no es de uid, pues el numerador de nuestra formula steropre ser a Sin embargo, para nuestros propésitos, dos desviaciones dele sina magntud, una por debajo y otra por encima de la media (es dest, una postiva y otra negativa, se encuentran Igualmentealejadas de la mela, por lo que no necesitames diferenciarlas Lo que en cambio, i nos inteesa, es ln magnitud de los desvios. Podremos entonceselevar los desvios al cuadrado, 4e forma tal de considerarsu magnitud, haciendo caso miso desu signo. Est solucién se apcya nla propiedad que reza que por defiaiion son iguales el cuairao de un nimero postive y ‘er Propiedad 1 et Capi V, ci 43 UB |estodistice Soetu! Basice

You might also like