You are on page 1of 49
Capitulo VII Las muestras estadisticas: teoria y disefio este capitulo se introduce el estudio de la realidad social mediante el uso de muestras y se nde a la pregunta de cémo es posible conocer el todo a través de la parte. Es decir, de manera podemos garantizar que las muestras puedan emplearse para conocer conjuntos grandes. En primer lugar, se expone qué es una muestra para, a continuacién, explicar fundamentos que permiten considerar a las muestras aleatorias como muestras represen- del conjunto poblacional. Por ultimo, se desarrollan las distintas alterativas practicas ra la realizacién de muestras representativas. El capitulo se complementa con un anexo ‘explica la estimacién de las varianzas muestrales, cuestién muy importante para las ope- es de estimaci6n que se expondran en el siguiente capitulo. 1, Las muestras en investigaci6n social {Qué es una muestra? 2.1. Universo y muestra 2.2. Error y sesgo 2.3. Nivel de confianza Muestreo aleatorio 3.1. Pardmetro y estadistico 3.2. La distribucién muestral 3.3. Nivel de confianza, error y tamafio muestral 3.4. Teoria muestral 3.5. Calculo del tamafio muestral 3.6. Poblaciones finitas ¢ infinitas 3.7. Muestras grandes y pequefias 3.8. El conocimiento de la varianza poblacional Disefio de muestras 4.1. Marco 4.2. Procedimientos de muestreo 4.3. Muestreo estratificado 4.3.1. Disefio estratificado uniforme 4.3.2. La cuestion de la ponderaci6n en disefios no proporcionales al tamafio 4.3.3. Disefio estratificado proporcional al tamafio y disefio de Neyman 4.4. Disefios de conglomerados 4.5. El muestreo por cuotas ANEXO |. La estimaci6n de las varianzas Bibliogratia comentada = 202 Estadistica para la investigacion social 1. Las muestras en investigacién social En la investigacién socioldgica, al igual que en todo tipo de investigacién, el objeto inves gado contiene cantidades ingentes de informacién. Por ejemplo, si queremos conocer los bitos alimentarios de los adolescentes espafioles, aunque fuera unicamente en el Ambito d un solo municipio de tamafio medio, la informacién que podrfamos obtener resulta inm jable. Simplemente con que registremos la alimentacién a lo largo de una semana de ‘adolescentes residentes en ese municipio, las horas, los tipos de alimento, las cantic forma de elaboracién, el lugar de procedencia o compra, las combinaciones de los alimen los lugares de consumo, etc., obtendrfamos tal volumen de datos que probablemente no diéramos ni almacenarlos ni posteriormente tratarlos de una forma agil. Una forma de abordar el problema es mediante la obtencién de una muestra. Es deci renunciamos a obtener informaciones sobre todos los elementos para investigar s6lo una p te del conjunto. Si seleccionamos una muestra, por ejemplo s6lo investigamos el consumo: 100 adolescentes, las ventajas son claras. El trabajo se hace asequible, en la medida en los costes de obtencién de la informacién pueden resultar muy pequefios en comparaci con la totalidad. No es lo mismo recoger informacién sobre 3.000 personas que sobre 10 Los tiempos de recogida de informacién son menores. El tratamiento de Ja informacién simplifica. Pero ademés de todas estas ventajas, podemos dotar a la informacién de may significacién, es decir, de calidad analitica. Por ejemplo, mediante una muestra, en vezd recoger la alimentaci6n de toda la poblacién durante una semana, podrfamos recoger la al mentacién de una muestra de 100 personas durante dos semanas en el mismo afio. Los h tos alimentarios no son iguales en verano que en invierno, por ello el recurso a una mues en dos momentos del afio nos permitirfa acercarnos de forma precisa a estas variaciones, nuestro anlisis serfa de una mayor riqueza. Ademés, la utilizacién de muestras permite ducir la redundancia informativa. Por ejemplo, es probable que dos hermanos tengan habit muy parecidos, o que las variaciones dentro de ciertos grupos sociales no sean grand que no haya variaciones de interés entre los lunes y los martes. Si investigdsemos total ala poblacién y en todo el Ambito temporal, muchos de los datos, por repetitivos, no rian informacion. En la préctica, la investigacin sociolégica se realiza mediante muestras. El principi parece claro: reducir la informacién para conseguir significacién. La cuestién siguiente q se le plantea al investigador es por tanto: {qué es una muestra? y {qué condiciones satisfacer para que permita producir conocimiento? 2. Qué es una muestra? Una muestra es un conjunto de elementos de un conjunto mayor. En términos matemitia una muestra es un subconjunto perteneciente a un conjunto. Sin embargo, a partir de ¢ definicién no se deduce la utilidad de las muestras como instrumento de investigacién, subconjuntos que podemos obtener de un conjunto cualquiera son innumerables. Lo que interesa es saber, de todos los subconjuntos posibles que podemos realizar, cudles prodi conocimiento y cudles no, y evidentemente utilizar los primeros. Los subconjuntos que ducen conocimiento sobre otros més amplios se denominan muestras representativas. Capitulo Vill. Las muestras estadisticas: teoria y disefio 203 En la investigacién mediante muestras, las operaciones a realizar son: ‘A. Definir el universo, 0 especificar cul es el conjunto o poblacién a la que nos refe- rimos. B. Fijar unas condiciones para la estimacién, es decir, delimitar el nivel de representati- vidad de la muestra. Especificar qué criterios de error y de confianza vamos a mane- jar para poder hablar del todo a través de la parte. C. Utilizar un método de seleccién de la muestra, de una parte del universo. Sefialar cémo vamos a extraer la parte que observamos de forma que nos permita, cumplien- do los criterios anteriores, referirnos al todo. D. Inferir los resultados para el universo. Se trata de presentar los datos de forma que puedan contener los valores reales que tiene la poblacién. Eneste capitulo nos centraremos en las tres primeras fases que producen muestras repre- tativas; la cuarta fase, que es el procedimiento de andlisis de los resultados, se estudiaré el capitulo siguiente. 1. Universo y muestra universo, también llamado poblacién, es el conjunto de todas las unidades que queremos westigar. La muestra es la parte del universo sobre a que vamos a obtener informacién con la finalidad de conocer la poblacién. Con la informacién recogida en la muestra vamos, posteriormente a describir el universo mediante la distribucién de las variables y a explicag) también las relaciones existentes entre distintas variables. Por ejemplo, para conocer el ntvy mero de parados de la poblacién espafiola, no vamos a preguntar a todos y a cada uno de las espafioles si esta trabajando 0 buscando empleo, Seleccionamos sélo un conjunto de éstos, pe~” 1 no seleccionamos un conjunto cualquiera, sino que utilizamos algtin procedimiento que nos asegure que los resultados de haber preguntado, por ejemplo s6lo a 400 espafioles, nos permita sefialar, bajo ciertas condiciones, cual es el total de parados de los aproximadamente 25 millo- nes de personas que se encuentran en edad activa, y también que nos permita sefialar cudles son las variables que més inciden sobre la condicién de parado. Por ejemplo: ,existe alguna relacién entre el nivel de estudios y el paro? ghay mas paro entre hombres que entre mujeres? La definicién del universo debe ser lo mas precisa posible. Esta tarea no es senta ciertas dificultades. Por ejemplo, para conocer la «tasa de paro de la poblacién espafio- la'», primero tendremos que definir cual es la poblacin espafiola. Esta, esta compuesta s6lo por quienes tienen nacionalidad espafiola o incluye a todos los residentes en Espaia? Evidentemente, parece que en este caso, la definicién debe incluir al conjunto de los residen- tes en Espafia y excluir a los nacionales espafioles que no residen en Espafia. Pero atin asf nuestro universo sigue siendo impreciso: la residencia y la situacién de ocupacién estan liga- das a un momento del tiempo. Deberemos fijar una fecha de referencia: por ejemplo, la ter~ cera semana de noviembre del afio en curso. Por lo tanto, nuestros datos estaran referidos a dicho momento. El dato que queremos obtener seré la tasa de paro en dicha semana de la poblacién residente en Espafia. Con esto, el problema de definicién del universo no esta totalmente cerrado. Debemos aclarar también qué significa el término «residente». Una per- ' Proporcién de la poblacién activa que se encuentra en paro. 204 Estadistica para la investigacion social sona podrfa estar habitualmente residiendo en Espajia pero por encontrarse de vacaciones visitando a un pariente, podria encontrarse fuera durante esa semana. Pero también p suceder al revés, que durante esa semana resida en Espafia cuando habitualmente lo hace! el extranjero”. También deberfamos acotar la edad de la poblacién que compone el unive No tiene sentido preguntar a un menor de 16 afios si se encuentra trabajando. Ejercicio1 _ os Consutte en la pagina del INE las definiciones de universo que realiza la Encuesta de P Activa (EPA) y la Encuesta Nacional de Inmigracién (ENI, 2007). Una vez definido el universo estamos en condiciones de obtener una muestra del mis y seleccionar las unidades que vamos a investigar. Las formas de seleccién de la mu discutirén mds adelante. Esta seleccién tiene que hacer frente al compromiso de repres vidad, es decir, que la informacién obtenida en la muestra sea lo mds parecida posible que hipotéticamente obtendriamos si investig4semos toda la poblacién. Para obtener esta presentatividad necesitamos establecer unas condiciones que nos permitan realizar aproximacién. Para establecer dichas condiciones necesitamos primero presentar y disci dos conceptos: error y nivel de confianza. 2.2. Error y sesgo Toda medida contiene o admite un error. Cuando decimos que la distancia entre Madrid’ Vitoria-Gasteiz es de 350 km, este no es un dato preciso, es un dato aproximado pero p co y titil. Conocer la distancia entre ambas poblaciones de forma més precisa resultaria d tiva. En la investigaci6n cientifica, toda medida se acompafia de un margen de error. ejemplo, podemos decir que la distancia entre Madrid y Vitoria es de 350 km con un errord mas/menos 10 km. Resulta claro que nuestros datos serén mejores cuando nuestro error a- misible sea menor, pero también mds dificiles (y caros) de obtener. Por ejemplo, si queremd conocer la edad media de emancipacién de los jévenes espafioles con un error de +2 afio sera més facil que hacerlo con un error de +6 meses. Pero también debemos tener present que si empleamos mérgenes de error amplios, la informacién que obtenemos, aunque senci lla de conseguir, pierde precisién. Por ejemplo, si para la edad de emancipacién admitimo un error de +5 afios, nuestro intervalo estar4 compuesto por una década y los resultados qu obtengamos, por ejemplo, entre 25 y 35 afios, aportaran poca informacién si queremos dis fiar un plan de vivienda joven. Con 25 afios probablemente sean solteros y con 35 proba mente ya tengan hijos, situaciones que implican demandas de tipos de vivienda muy dife tes y, por lo tanto, actuaciones también distintas. Ademis del error de precisién de una medida, es decir, del hecho de que nuestra medi se encuentre dentro de unos m4rgenes establecidos en relacién al valor real, existen Bs decir, en este caso residente no es equivalente a nacional Capitulo VIII. Las muestras estadisticas: teoria y disefio 205 $ que afectan a las medidas. Por ejemplo, que nuestro metro no mida exactamente 100 sino 103 cm, es decir, que nuestro instrumento de medida produzca errores. También que scondiciones de medida no sean adecuadas, por ejemplo, las temperaturas se miden a la a mientras que muchos termémetros urbanos toman medidas al sol. En estadistica dis- imos dos tipos de error: el error estadistico y los errores no estadfsticos. El error estadistico es aquel que procede del hecho de utilizar observaciones muestra- es decir, de no observar la totalidad de los datos. Este error, como veremos més adelante, ser conocido e incorporado en nuestros resultados a través de un intervalo. Los erro- no estadisticos proceden de defectos de los instrumentos de medida (preguntas ambi- , no legibles por todos los grupos sociales) y de las condiciones en las que se establece medida (referir el paro a agosto), asf como de otro conjunto de errores en la transmisién de datos (grabacién, codificacién, etc.). Estos errores pueden (y deben ser) evitados median- una correcta preparacién de las encuestas y una correcta revisién de todas las fases de la isma. Entre los errores no estadfsticos existe uno especialmente complejo que es el sesgo. El sesgo es la desviacién sistematica de nuestras observaciones respecto a lo que estamos nidiendo. En investigacién mediante muestras, el sesgo se produce al obtener muestras que se adectian a la poblacién, es decir, por el desfase que existe entre la poblacién objetivo quélla a la que hace referencia la definiciGn de universo) y la poblacion de la que obtene- os la muestra. Entre las causas del sesgo podemos destacar problemas de cobertura, cuan- p la poblacién definida no coincide con la poblacién utilizada para la extraccién de la muestra, y problemas de respuesta, que provienen de unidades que no son localizadas ausencias) 0 que no responden (negativas). Por ejemplo, si queremos conocer las opiniones los j6venes espafioles y realizamos tinicamente encuestas en centros universitarios, nues- muestra sera sesgada. Los j6venes universitarios, aunque son muchos, son un colectivo muy concreto, probablemente con opiniones distintas del resto de los jévenes en muchas suestiones. En este caso estamos ante un problema de cobertura, el universo —los jévenes spafioles— es distinto de la poblacidn de la que se obtiene la muestra (jvenes universita- El sesgo es muy frecuente en encuestas radiofénicas: sélo contestan quienes estén es- hando el programa a esa hora y ademés les interesa el tema. Para evitar el sesgo resulta mprescindible una buena planificacién de las operaciones muestrales. . Nivel de confianza | trabajar con errores, y decir por ejemplo, que la distancia entre Barcelona y Santiago de ompostela es de 1.100 km con un error de 50 km, tendremos que sefialar la confianza que lenemos en que sea asi. En este caso la confianza es muy alta, pero serfa mayor si dijéramos que la distancia es de 1.100 con un error de 200 km, y muy pequefia si dijéramos que la distancia es de 1.100 km con un error de 2 km. Evidentemente, cuanto mayor es el error que podemos asumir nuestra confianza seré mayor, pero también nuestra precisién menor. Mas delante discutiremos sobre cémo conciliar el error con la confianza de la medida. Establecido el error estadistico que podemos asumir y el nivel de confianza con el que amos a trabajar, tenemos las condiciones para estimar, para extrapolar la informacién obte- nida en la muestra al conjunto de la poblacién. Es decir, podemos saber cul es el grado de ‘fepresentatividad de nuestra muestra. 206 _ Estadistica para la investigacion social 3. Muestreo aleatorio Las formas de obtener una muestra de una poblacién son innumerables. Por ejemplo, en el caso de querer conocer la tasa de paro, podemos preguntar a nuestros vecinos si se encuen- tran trabajando. Nuestros vecinos son una parte de la poblacién espafiola, y por tanto son una muestra. Sin embargo, parece evidente que procediendo asf no podemos garantizar de forma alguna que los datos que obtenemos representen al conjunto de la poblacién espaiiola. No es. lo mismo preguntar a una muestra de 100 personas que viven en el Ensanche de Barcelon que a 100 personas que viven en el barrio de Lavapiés 0 a 100 personas que residen en Pale ma de Mallorca. Estas son muestras sesgadas. Existen dos estrategias para la obtencién de muestras representativas: muestreo aleatorio y muestreo por cuotas. En la practica, dadas las dificultades para utilizar el muestreo aleato- rio y las carencias del muestreo por cuotas en la investigaci6n social, se utiliza por lo gener una mezcla de ambos. En primer lugar se expondrd el muestreo aleatorio y al final del capi- tulo el muestreo por cuotas. El muestreo aleatorio se define como la extraccién de una muestra de una poblacié utilizando procedimientos probabilisticos. Esto quiere decir que la probabilidad de extrac cién de cada uno de los elementos que componen la muestra es conocida. Generalmente, en lo que sigue, nos referiremos tinicamente al caso en el que la probabilidad de seleccién d cada uno de los elementos es igual. Por ejemplo, si tenemos una poblacién compuesta po 100 personas, cada una de las personas puede ser seleccionada para pertenecer a la muestt con una probabilidad de 1/100. Para exponer la teoria que fundamenta el uso del muestreo aleatorio como muestra rep sentativa realizaremos primero un ejercicio practico. Supongamos la siguiente poblaci compuesta por seis elementos (Tabla 1). El nimero de elementos de la poblacién lo denom naremos «N»; asi en este caso N = 6. Tabla 1. Elementos de la Poblacién Ejemplo. Edades de emancipacién. Elemento (i) Edad en aiios (x) Antonio a 30 Felipe b 24 Margarita c 28 Alicia d 22 Francisco e 32 Lucia if 26 La poblacién que vamos a estudiar es un conjunto de seis personas, que denominare con las seis primeras letras del alfabeto. De cada elemento conocemos el valor que tom variable «edad de emancipacién del domicilio paterno». Por ejemplo, Antonio se indep 26 con 30 afios mientras que Alicia lo hizo con 22. Capitulo Vill. Las muestras estadisticas: teoria y disefio 207 De esta poblacién podemos calcular la edad media a la que se independizaron las distin- tas personas que la componen. Los célculos nos sefialan que ésta fue de 27 afios: epee Me = So = Go = 27 alos También podemos calcular cualquier otra medida estadfstica de resumen, por ejemplo la desviacién tépica de la distribucién poblacional, que es: = 3,416 afios Y la varianza: o? = 11,7. En esta poblacién vamos a seleccionar muestras de dos elementos’. El ntimero de ele- mentos de la muestra lo denominaremos con «n», asi para este caso n = 2. Todos los ele- mentos tienen la misma probabilidad de ser seleccionados. La probabilidad de seleccién de un elemento es 1/N; en este caso p = 1/6. Observemos ahora también que todas las muestras tienen la misma probabilidad de ser seleccionadas. {Cudntas muestras distintas* podemos seleccionar siendo N = 6 y n = 2? Es decir, para una poblacién de 6 elementos {cudntas muestras de tamafio 2 podemos extraer sin que se repita alguno de sus elementos? La respuesta nos la da el ntimero de combinacio- nes de seis elementos tomados de 2 en 2: c 6 62 \, Una de las muestras posibles es Antonio y Lucia; la probabilidad de seleccién de dicha muestra es 1/15. Otra muestra posible es Alicia y Margarita, que tiene también una probabi- lidad de seleccién de 1/15. Sin embargo, observemos que el hecho de obtener una u otra muestra produce resultados muy distintos. La muestra compuesta por la seleccién de Anto- nio y Lucfa nos conduce a pensar que la edad media de emancipacién son (30 + 26)/2 = 28 afios, mientras que la muestra Alicia y Margarita nos lleva a otra conclusién (22 + 28)/ 2= 25 afios. Es decir, procediendo de la misma forma un investigador obtendria unos resul- tados, mientras que otro investigador Ilegarfa a otros distintos; y, ademas, probablemente ninguno de ellos «acertarfa» con el resultado real, como sucede en este caso. Sin embargo, como se ir exponiendo progresivamente, precisamente por proceder asf, mediante el uso del muestreo aleatorio podemos conocer las diferencias que se establecen entre distintas muestras y, lo que es mas importante, la diferencia que puede existir entre una muestra y el valor real de la poblacién, aun cuando éste no lo conozcamos. * Seleccionamos muestras sin reposicién, es decir, una vez seleccionado un individuo, éste no puede volver a seleccionarse por segunda vez. Asf las muestras (a, a}; (b, b]; .. no se consideran. * Nétese que la muestra (Antonio, Lucia} y (Lucfa, Antonio) no son muestras distintas, porque el orden en que han sido seleccionados los elementos no altera ta informacién. 208 _ Estadistica para la investigacion social 3.1. Pardmetro y estadistico Antes de continuar necesitamos aclarar dos términos: pardmetro y estadistico. Paraémetro el valor que toma la poblacién respecto a un indicador utilizado para resumir la informaci que nos interesa de dicha poblacién —y que puede ser la media, la varianza de una distr cién, la proporcién de un valor, el total, etc.—. Por ejemplo, en el caso de la poblacisn qi estamos considerando, el valor 27 constituye el valor del parémetro de la media. Es el v «teal» de la media de la poblacién. Este, el valor del parémetro, es el que queremos esti Como puede apreciarse, es un valor fijo que define a la poblacién: es una constante de poblacién. Estadistico es el valor que obtenemos a partir de una muestra y que representa pardmetro. Por ejemplo, en la primera muestra obtenemos una edad media de 28 afios y en segunda de 25 afios. Se trata, de un valor variable en el conjunto de las muestras posibl cada muestra de la misma poblacién puede producir un valor distinto para el mismo indic: Por convencién, los pardmetros suelen indicarse con letras griegas, por ejemplo, la medi con ji, la varianza con 0”. Mientras que los estadisticos se indican con letras latinas, la medi de una muestra con ¥ 0 su varianza con s*. A continuacién vamos a calcular todas las muestras posibles de tamafio 2 y el valor estadistico de la media para cada una de ellas (Tabla 2). Tabla 2. Muestras de tamafio 2 de la Poblacién Ejemplo. Medias de cada muestra. Valor del Valor del Muestra Elemento 1 Elemento 2 Media elemento 1 elemento 2 {a, b} a b 30 24 27 {a,c} a c 30 28 29 {a, d} a d 30 22 26 {a,e} a e 30 32 31 {a, f} a f 30 26 28 {b, c} b c 24 28 26 {b, d} b d 24 22 23 {b, e} b e 24 32 28 {b, f} b if 24 26 25 {c,d} ¢ d 28 22 25) {c, e} c e 28 32 30 {c, f} c f 28 26 27 {d, e} d e 22 32 27 {d, f} d f 22 26 24 fe, f} e f 32 26 29 Si observamos los resultados, podemos apreciar cémo las distintas muestras ofrecen di tintos resultados (27, 29, 26, ...) para el estadistico de la media, observandose valores que repiten varias veces: por ejemplo, 27 aparece 3 veces, en las muestras {a, b}, {c, f} y {de Ordenamos las medias de todas las muestras de tamafio 2 en la siguiente tabla de cuencias: Capitulo VIII. Las muestras estadisticas: teoria y disefio 209 Tabla 3. Distribucién de frecuencias de las medias de las muestras de tamaiio 2 de la Poblacién Ejemplo. Edad media Niimero de emancipacién de muestras 22 0 23 1 24 1 25 2 26 2 27 3 28 2 29 2 30 1 31 1 32 0 2. La distribucién muestral 10s ante una distribucién muestral: distribucién de un estadistico en todas las mues- posibles de tamafio n. Los valores de la distribucién muestral son las medias de las uestras que podemos obtener dentro de una poblacién®. En este caso la distribucién mues- est4 compuesta por las medias —edad media de emancipacién— de todas las diferentes uestras posibles de tamajio 2. La tabla anterior (Tabla 3) podemos representarla mediante grafico de barras. Gratico 1. Distribucién de las medias de las muestras de tamafio 2 de la Poblacién Ejemplo. | | | 22 23" 24 28" 28 27's 28 ec9 5 a0" at ae Edades medias de emancipacién * Tenemos una distribucién muestral para cada tamafio de muestra. 210 Estadistica para la investigacion social Como puede apreciarse en el Grdfico 1, los valores que toma el estadfstico (la media’ las muestras) se concentran en toro al valor del pardmetro (la media de 1a poblaci es 27). Si obtenemos la media de los estadfsticos de la media podemos observar que el tado es el valor del pardmetro. Es decir, la media de todas las medias de las muestras tamafio 2 tiene como media la propia media poblacional. Esto es, la media del conjunto estadfsticos que podemos obtener (de las muestras de 2 elementos) es igual al par poblacional. La media de la distribucién muestral (para un determinado tamafio muestral) igual a la media de la poblacién. Tabla 4. C4lculo de la media muestral de las medias de las muestras de tamaiio 2 de la Poblacién Ejemplo. x = 0 1 1 2 2 3 2 2 1 1 0 Podemos comprobarlo facilmente mediante unos sencillos célculos (Tabla 4): Ean; _ 405 pg = t= — = 27 afios Ne 15 Notese que estamos utilizando tres tipos de distribuciones distintas: La distribucién de la poblacién. Es el conjunto de todos los datos de la poblaciény cuyos indicadores de resumen los denominamos pardmetros. Generalmente esta bucién es desconocida, por ello recurrimos a muestras. La distribucién de la muestra. Es el conjunto de los datos pertenecientes a la mt seleccionada. Generalmente s6lo obtenemos una muestra de una poblacién. En este hemos obtenido todas las posibles. Sus indicadores de resumen se denominan est cos. En el caso anterior, la distribucién de la muestra tnicamente contiene 2 element © La distribucién muestral. Es la expresada en la Tabla 3 y Gréfico ). La distribucit muestral es, en este caso, la distribucién de las medias de todas las muestras posit de tamafio n que proceden de una poblacién. Es una distribuci6n te6rica. ;Por Capitulo VIII. Las muestras estadisticas: teoria y disefio 211 decimos que es te6rica? Porque no la desarrollamos en forma de tabla ya que necesita- tiamos conocer todos los elementos de la poblacién; sin embargo, como se verd mas adelante, aunque no conozcamos el valor de todos los elementos de la poblacién, po- demos construirla a través de sus parémetros®. icio 2 siguiente poblacién compuesta por 8 elementos: Elemento —_Valor (x) za-ca0cD Calcule la media de la poblacién. Construya la distribucién muestral de medias para n = 2. Represente graficamente dicha distribucién. En la préctica, no conocemos la poblacién: por eso utilizamos el muestreo; y ademas jlo vamos a obtener una muestra (de todas las posibles). La obtencién de todas las muestras posibles necesitaria del conocimiento de toda la poblacién y, si ése fuera el caso, entonces no haria falta obtener una muestra. Realmente lo que hacemos es obtener una muestra de una poblacién desconocida. Como hemos visto anteriormente, cada muestra puede ofrecer unos resultados distintos. De mo- mento, parece que el procedimiento de trabajar con muestras no tiene mucho sentido. Sin embargo, también hemos observado que parece existir una Idgica en la distribucién mues- tral. Hemos observado cémo los valores de la misma se concentran en el entorno del valor —pardmetro— que buscamos: en este caso, la media. Veamos ahora qué sucede cuando introducimos el error de medida. Es decir, si en vez de empefiarnos en conocer con total exactitud el valor poblacional admitimos algun tipo de aproximaci6n. Por ejemplo, en el caso que nos ocupa, {qué sucede si establezco la edad me- dia de emancipaci6n permitiéndome un error de mas/menos un aiio? Si no admito ningun error, en este caso, tengo 3 muestras cuyo estadistico coincide con el valor del parémetro (Tabla 5). Hay tres muestras con media 27. Por lo tanto, como hay 15 muestras posibles, en un 3/15 = 0,2, 0 20% de los casos acertaré completamente el valor real —valor del parametro de la media— al extraer una muestra al azar. Si admito un error de +1 afio, tengo una probabilidad de acertar de 7/15 = 0,467. Obsérvese que hay 7 mues- © Notese que hablamos de pardmetros de la distribucién muestral porque realmente es una poblacién y no una muestra: es la poblacién de todas las muestras de tamafio n. 212 Estadistica para la investigacion social tras que producen valores entre 26 y 28 0, lo que es lo mismo, que estén dentro del interv: u + 1. Es decir, la probabilidad que tengo de obtener una muestra «buena» que esté del margen de error preestablecido es de casi el 50%. En el caso que estamos examinando, extraer una muestra, aproximadamente la mitad de las veces obtendré un resultado dentro los limites de error preestablecidos. Evidentemente, si amplfo el error las probabilidades acertar serén mayores. Por ejemplo, con un error de +2 afios obtendré buenos resultados el 73,3% de los casos (11/15). La tabla siguiente nos indica las muestras que se encuentran dentro del intervalo de establecido: Tabla 5. Muestras de tamafio 2 de la Poblacién Ejemplo cuyas medias se encuentran dentro de los margenes de error prefijados. Margenes de error x 1, £0,5 +1 +2 2 0 2B 1 24 1 5 2 2 26 2 2 2 27 3 3 3 3 28 2 2 2 29 2 2 30 1 31 1 32 0 Total 15 3 7 i 20,0% 46.7% 73,3% Como puede apreciarse, acabamos de expresar de forma intuitiva dos conceptos que habjamos adelantado al principio del tema: error y nivel de confianza. Elerror es la medida de la distancia entre el valor del estadistico obtenido en la m y el valor del par4metro en la poblacién. El nivel de confianza es la probabilidad que exi de que esa distancia, 0 error, no sea mayor que la preestablecida. Por ejemplo, con los del ejemplo anterior puedo afirmar con un nivel de confianza del 73,3% que el error menor de 2 afios. {Qué hubiera sucedido si en vez de obtener muestras de tamafio 2, seleccionamos mt tras de tamafio 3 (n = 3)? En este caso las muestras posibles son: (GN ols Co2 = 3 “sai. Capitulo Vill. Las muestras estadisticas: teoria y diseho 213 arrollamos la distribucién muestral para n = 3 en la Tabla 6. Tabla 6. Medias de las muestras de tamaiio 3 de la Poblacién Ejemplo. Valor del Valor del Valor del mento 1 Elemento 2 Elemento 3 otemento 1 elemento 2 elemento 3 Media 27,3333333 25,3333333 28,6666667 26,6666667 29,3333333 24,6666667 28 26 26 24 27,3333333 27,3333333 25,3333333 28,6666667 26,6666667 540 214 Estadistica para la investigacion social EI Grafico 2 vuelve a confirmar que la media de las medias de las muestras coincide con el pardmetro de la media poblacional. Los cAlculos lo confirman también asf: 540 2 27 afi _ - a, Nétese que también la desviacién tipica de la distribucién muestral ha disminuido cuan- do n = 3 respecto an = 2. Paran = 2, 6 = 2,16. Paran = 3, 6 = 1,53. Es decir, al aumentar n disminuye la varianza de la distribucién muestral. Dicho de forma, cuando n aumenta los resultados de las distintas muestras se concentran atin més torno al valor del pardmetro. Este efecto se puede comprobar en el siguiente grafico (Gréfi- co 3), que compara las distribuciones muestrales para n = 2 y n = 3. Gratico 3. Comparacién de las distribuciones muestrales de las medias (n = 2 y n= 3) de las muestras de la Poblacién Ejemplo. i228 24 ee ee e728 28 0 1 aa Edad media 1 | | | | j | | | | | | | | | | | | | | J La implicacién de este hecho es inmediata. Para un mismo nivel de error, el nil confianza mejora con tamafios muestrales mayores. Como vemos en la Tabla 7 para n = 2, tres de las quince muestras posibles tenfé media que se diferenciaba en menos de 0,5 de la media poblacional. Es decir, el ni confianza era de un 20%. Cuando n = 3, seis de las 20 muestras posibles cumplen condicién (tener un error menor de 0,5). Es decir, en esta situacién el nivel de confi de un 30%. Capitulo VIII. Las muestras estadisticas: teoria y disefio 215 Tabla 7. Niveles de confianza para distintos errores. Muestras de tamaiio 2 y tamaiio 3. Error n=2 n=3 +05 3/15 = 20% +1 INS = 46,7% 12/20 = 60% +2 LIS = 73,3% 16/20 = 80% . Nivel de confianza, error y tamaio muestral s de continuar vamos a definir con mayor precisién los términos utilizados. © Tamajio muestral: es el ntimero de elementos que extraemos para la observacién de una poblacion. Error: es la diferencia maxima (en valor absoluto) que admitimos entre el valor del estadistico y el del parémetro. * Nivel de confianza: es la probabilidad de que la muestra seleccionada no supere el error prefijado. Como puede verse en las tablas anteriores, los tres términos estén totalmente relaciona- sy la variacidn de uno produce variaciones en los otros dos. Por ejemplo, si aumentamos tamafio muestral y mantenemos fijo el error, el nivel de confianza aumenta. Si aumenta- nos el error, para un tamafio muestral fijo, el nivel de confianza se hace mayor. La relacidn es directa entre tamafio muestral y nivel de confianza, e inversa entre estos dos términos y el error. Estas relaciones nos ofrecen una pista sobre la forma de relacionar dichos términos mediante una relacién funcional. Y la siguiente pregunta es: existe alguna forma de relacionar matematicamente los tres jinos? La respuesta es si; podemos relacionarlos mediante una funcién. Y qué utilidad e dicha funcidn? Tiene dos utilidades. Por una parte, nos permite, una vez extraida una Muestra, ofrecer un intervalo en el que se encontrar el valor real de la poblacién: es decir, permite construir un estimador, aspecto que se detallard en el capitulo siguiente. Y, por parte, antes de realizar una muestra, nos permite calcular qué tamafio muestral podemos lizar, de forma que se satisfagan las condiciones de error que estamos dispuestos a admitir el nivel de confianza que queremos cumplir. Hasta ahora hemos utilizado un ejemplo concreto, ahora vamos a generalizar dichos re- sultados a todo tipo de poblaciones y muestras aleatorias mediante el desarrollo de la teoria tuestral. N6tese que mediante los ejemplos anteriores hemos conseguido mostrar, que los disticos de las medias muestrales tienen una distribucién cuya media tiende al valor del parémetro, y cuanto mayor es el tamafio muestral mds se concentran los estad{sticos en torno dicho valor y también més se aproximan a una distribucién normal. . Teoria muestral Como hemos dicho, la distribucién muestral es la distribucién de los estadfsticos considera- jos, en este caso, de las medias del conjunto de muestras de tamaiio n. Dicha distribucién es continua y tiene, l6gicamente, ademas de una media, también una varianza. En el caso de las 216 Estadistica para la investigacién social distribuciones muestrales, la desviacidn tfpica se denomina error tfpico o error estandar’ Es importante notar que error tfpico no es el error estadistico al que nos hemos referi Error tipico es la medida de dispersion (varianza) de la distribucién muestral. Para el es tico de la media, el error tfpico lo representamos como a;. La distribucién muestral de los estadfsticos de tendencia central tiene una serie de Ppiedades que se enuncian mediante el siguiente teorema: Teorema del limite central La distribucién muestral de las medias de una poblacién grande con media ,: y desvia- cién tipica o se aproxima, segun aumenta n, a una distribucién normal con media yy desviacién tipica =. Vn En definitiva, podemos afirmar que con poblaciones grandes (N > 30) la distrib muestral de la media® ser una distribucin normal cuya media seré el propio valor del metro de la media y su desviacién tfpica, o error t{pico, ser: El desarrollo y exposicién de este teorema supera con creces el contenido de este Sin embargo, en el ejemplo anterior hemos Ilegado intuitivamente a sus resultados. (En apartado del Anexo I se puede encontrar cémo nuestro ejemplo también cumple con el ¥; del error tipico.) Este teorema nos permite aclarar la relacién entre tamafio de la muestra (n), error ( nivel de confianza —expresado en unidades Z— que buscdbamos anteriormente. Co distribucién normal es una distribucién conocida, podemos observar cémo funciona la cién entre error estadfstico, tamafio muestral y nivel de confianza. Primero, recordet férmula de la distancia tipificada de una distribucién normal, en unidades Z: xH oy Z= El error, como hemos dicho, es la distancia entre el valor del pardmetro poblacional estadistico obtenido en nuestra muestra: e=|x- al El error es una constante que prefijamos antes de la seleccién de la muestra. La desviacién a anteriormente —= ica de la distribucién muestral, 0 error tipico, es como hemos. 7 En castellano, generalmente se ha utilizado el término error tipico, procedente del francés, sin muchos textos herederos del inglés se traduce como error estandar o, simplemente, como SE acr6nimo de Error. * Como yeremos més adelante, dicho teorema puede adaptarse también a otro estadistico como es la ci6n, Pero conviene tener en cuenta que cada estadistico tiene una distribucién propia. Como habré mostrar en el anexo I, la distribucién muestral de la varianza no tiene de media el pardmetro de la varianza, co la distribucién muestral de las varianzas sigue una distribucién normal, sino que sigue una distribucién ji. do de n — 1 grados de libertad. Capitulo VIII. Las muestras estadisticas: teoria y disefio 217 Sustituyendo en la f6rmula anterior x por ¥, tenemos: va Jn {Qué nos expresa aqui Z? Z nos indica el nivel de confianza o la probabilidad de que la dia (%) de una muestra se separe de la media (1) de la poblacién menos que «e». A cada jalor Z de la distribucién muestral le corresponde un nivel de confianza, que no es otra cosa la probabilidad de que la diferencia entre el estadistico y el parametro sea menor que El nivel de confianza que corresponde a un determinado valor Z es el porcentaje de (de medias muestrales) que se encuentran entre mas/menos (+) ese valor de Z alrede- de la media la distribucién muestral, que, como hemos visto, es una distribucién normal. nivel de confianza, como el error, también lo prefijamos con anterioridad. En la practica iempre utilizamos niveles de confianza superiores al 95%. Es decir, s6lo admitimos proba- ilidades de equivocarnos menores al 5%. Como sabemos, entre Z = ~ 1,96 y Z= +1,96 lrededor de la media de la poblacién encontramos el 95% de las medias de las muestras que podemos extraer de tamajio n. Por lo tanto, a un nivel de confianza del 95% le corresponde valor Z = + 1,96. El grafico de la distribucién muestral nos ayuda a comprender mejor esta relacién (Gréfi- 4). Se trata de igualar el error al nivel de confianza. Grafico 4. Relacion entre el error tipico, el nivel de confianza, y el error estadistico en una distribucién muestral. Probabilidad 218 — Estadistica para la investigacion social La tabla siguiente (Tabla 8), muestra los niveles de confianza més usuales y los valores Z asociados. Dichos valores estan extrafdos de la tabla de Areas bajo la distribucién normal. Tabla 8. Valores Z para los niveles de confianza mas usuales. Nivel de confianza 4 95% +1,96 95.45% +2 99% £2,58 99,7% +3 Esta es la relaci6n entre error, nivel de confianza y tamafio muestral que buscébamos: e zZ=— 7 yr Reordenando dicha formula podemos responder a las cuestiones planteadas anterior mente: en primer lugar, ,cudl es el tamafio n, que satisface las condiciones del nivel de fianza y del error? Si de la expresién anterior despejamos n, Como podemos observar, casi todos los términos son conocidos. El error (e) y el nivel confianza (Z) han sido establecidos anteriormente. El tamafio muestral (n) es el valor queremos calcular. S6lo necesitamos conocer la varianza de la poblacién. Mas adelante dis cutiremos sobre cémo resolver el conocimiento de la varianza poblacional. Obsérvese que, si hemos extrafdo una muestra, «rm» ser4 conocido; y la expresién rior nos permite conocer el error estadfstico (¢) de nuestros datos, una vez fijado el nivel confianza. Es decir, para un tamafio muestral establecido, la fijacién previa del nivel de fianza nos determina el error estadfstico asumido 0, viceversa, prefijado el error, éste determina el nivel de confianza. Esto lo veremos en el siguiente capitulo en el que di mos la construccién de un intervalo para la estimacién de pardmetros. 3.5. Calculo del tamafio muestral Si en una investigacién contamos con el error y el nivel de significacién ya prefijados (i pendientemente el uno del otro), podemos calcular el tamafio de la muestra correspon siempre, claro est4, que utilicemos muestras aleatorias de una poblacién. Capitulo Vi Las muestras estadisticas: teoria y disefio 219 Supongamos, por ejemplo, que deseamos conocer la edad media al matrimonio de la po- jin que se ha casado durante los tiltimos cinco afios. Deseamos conocer dicha edad con error de +2 afios y un nivel de confianza del 95,45%°. Podemos aplicar la férmula ante- for y encontrar el tamafio muestral mfnimo a partir del cual se verifican dichas condiciones. ‘a ello también necesitamos conocer a”, la varianza poblacional. Por lo general, ésta es conocida. Sin embargo, podemos estimar la misma a través de varios métodos. Normal- ite tenemos alguna informacién al respecto, porque ya se han realizado encuestas ante- $ 0 estudios que nos permiten tener alguna informacién previa. Por ejemplo, en el caso nos ocupa de las edades al matrimonio, éstas llevan muchos afios registrandose. Asi, a és del Movimiento Natural de la Poblacién podemos conocer de forma aproximada la varianza de las edades al matrimonio. Grafico 5. Primer matrimonio entre cényuges de distinto sexo por edad (2006). Fuente: MNP. INE, 2008. Observando el grafico de la distribucién (Grafico 5), vemos cémo ésta es una variable con una distribucin préxima a la normal con unas edades medias en torno a los 28 afios. Podemos apreciar también que la desviacién tipica estaré en torno a 5 afios. ;Cémo podemos Yer esto? Si suponemos que es una distribucién normal, sabemos que en dicho supuesto entre +26 se concentra el 95% de los casos: asf vemos en el grafico que entre los 20 y los 40 afios estén casi todos los matrimonios. Por lo tanto, la desviacién tipica ser aproximadamente la cuarta parte de los veinte afios que hay entre las edades 20 y 401°. ° Recordemos que estas condiciones (el error y el nivel de confianza) las fija de antemano el investigador. '® Si consultamos Jos datos en la pagina web del INE podemos comprobar que las edades medias son: espo- ‘80s = 31,05 y esposas = 29,26. Y las desviaciones tipicas: esposos = 5,42 y esposas = 5,38. 220 Estadistica para la investigaci6n social Si utilizamos como desviacin tipica 5 afios, podemos observar que el tamafio mue: necesario seria: Es decir, simplemente con una muestra aleatoria de 25 personas podriamos conocer edad media al matrimonio, con un error de +2 afios y un nivel de confianza del 95,5%, Grdfico 6 nos permite observar cudl serfa el efecto sobre el tamafio muestral si modific mos alguno de los requerimientos de error o de nivel de confianza, para estimar una vari con desviacién tipica S = 5,5. Por ejemplo, si quisiéramos un error de +6 meses equivale a un error de 0,5 afios— y un nivel de confianza més alto, 99,7%, el tamafio tral resultarfa superior a 1.000, aproximadamente el doble que si con el mismo error util ramos un nivel de confianza del 95,5%. Grdfico 6. Tamafios muestrales para distintos errores y niveles de confianza. S = 5,5. Esta observaci6n resulta importante. Es evidente que cuanto mayor sea el tamafio tral utilizado, los resultados obtenidos son de mayor precisién, sin embargo el coste se incrementa de forma exponencial. Resulta por ello muy importante conciliar las das de informacién con los niveles de error. Por ejemplo, en el caso que nos ocupa, de error cercanos a 12 meses —un error de un afio- resultarfan asequibles con presyj pequefios, sin embargo errores menores podrfan condicionar mucho las necesidades puestarias. No debe olvidarse que el tamafio muestral est4 también determinado por el puesto de la investigacién. Hasta ahora nos hemos ocupado del caso en el que querfamos conocer una para variables de tipo nominal podemos conocer la proporcién de un valor en la Por ejemplo, el porcentaje de poblacién que votard al partido ZXY, el porcentaje de Capitulo Vill. Las muestras estadisticas: teoria y disefio 221 ticantes, el porcentaje de personas que reciclan residuos domésticos, etc. Los porcenta- (que oscilan entre 0 y 100) nos indican, al igual que las proporciones (que oscilan entre 0 1), el peso relativo de un grupo en el conjunto de una poblacién. Habitualmente nos referi- $ a éste en términos de porcentaje mds que de proporcién, término este tiltimo algo mas ico. Para referirnos a la poblacién, el pardametro de la proporcién lo representamos con y su complemento (1 — P) = Q. Cuando nos referimos a una muestra, el estadfstico lo sentamos con mintisculas: «p» y «q». El error tipico o error estandar en distribuciones binomiales es andlogo al de la media. inicamente se diferencia que el término de la varianza poblacional, en vez de a’, es ahora 0. En el Cuadro 1 se detallan las expresiones de los errores tipicos de medias y propor- jones. CuapRo 1. Errores tipicos y formula del tamaiio muestral para los estadisticos de la media y la proporcién. Media Proporcién Error tipico Error estandar La distribucién puede considerarse normal cuando: n> 30 ZP n= e En el caso de la proporcién, cuando desconocemos la varianza PQ, podemos situarnos en el caso mas desfavorable, en el que la varianza es maxima, cuando P = Q = 0,5. Es decir, cuando la mitad de la poblacién posee el atributo investigado y la otra mitad no. Véase el Grafico 7. Por ejemplo, queremos conocer la proporcién de personas que reciclan los residuos do- mésticos. Si tuviéramos informaci6n anterior de otra encuesta podrfamos incorporar alguna estimacién de la varianza. Si no hay informacién previa nos situamos en la peor situacién respecto al tamafio muestral que es la de maxima varianza. El nivel de confianza es el habi- tual, ae, y el error lo podriamos fijar (esto depende de los objetivos de la investigacién) en el 3%". ZPQ _ 1,96°-0,5-0,5 _ 0,9604 a. 0,037 -0,0009 = 1,067,11 El tamajio es superior a 1.067. Como los tamafios muestrales los redondeamos siempre por exceso, asf obtenemos n = 1.068. \" Notese que en las formulas se utiliza la proporcién, no los porcentajes, por ello el error es 0,03. 222. Estadistica para la investigacién social Gratico 7. Tamafio muestral para el estadistico de la proporcién para distintos valores de P. Nivel de confianza 95,45%. 10.000 9.500 9.000 8.500 8.000 7.500 7.000 6.500- 6.000 5.500 4.000. Tamafio muestral (n) 3.500 —— 98,000 0 02. 08 04 05 O6 OF. 08 60: 2am Valor de P Si tuviésemos alguna informacién previa que nos indicase, por ejemplo, que la cién de reciclaje es de alrededor del 25%, entonces podemos considerar P = 0,25 Q=0,75. ?PQ _ 1,967-0,2-0,75 _ 0,7203 _ ree ar: 0037 «0.0009 Es decir, en este caso con n = 801 podrfamos conocer la proporcién de recicladores con error inferior al 3% y un nivel de confianza del 95%. Capitulo VIII. Las muestras estadisticas: teoria y disefio 223 Como puede observarse hasta el momento, el tamafio de la poblacién no ha intervenido nel célculo del tamafio muestral. El tamafio muestral depende fundamentalmente de la va- nza poblacional: cuanto mas diversa es la poblacién respecto a la caracteristica que quere- 0s investigar, mds unidades habré que muestrear, con independencia del tamajio de la po- blacién. En el caso anterior necesitamos entrevistar 1.068 personas para estimar el greentaje de recicladores. Y esto es asf tanto si quisiéramos conocer esta proporcién para la ovincia de Ciudad Real, como si lo quisiéramos hacer para el conjunto de Espajia o incluso a toda la Unidn Europea. e el tamario muestral necesario para estimar, con un error del 5%, el porcantaje de votan- que apoyan el Si en un referéndum nacional para un nivel de confianza del 95%. cicio 4 le el tamafio muestral necesario para estimar, con un error del 2%, el porcentaje anterior a.un nivel de confianza del 99%. : Unicamente hemos detallado las distribuciones muestrales de los estadisticos mas usua- es, la media y la proporcién, En el Anexo I, se discute la distribucién de otro estadistico de importancia como es la desviacién tipica. Poblaciones finitas e infinitas s explicaciones anteriores estén basadas en el caso de poblaciones infinitas. Una pobla- cifn infinita es un conjunto de elementos que no pueden definirse mediante enumeracién. Por ejemplo, el ntimero de vehiculos que pueden circular por las carreteras de Europa. Gene- jente en investigacién social nos referimos a poblaciones finitas. Por ejemplo, personas esidentes en una ciudad, que es un conjunto de cardinal definido. En el caso de poblaciones fnitas, las formulas anteriores (que aplicarfamos para poblaciones infinitas) varfan porque incorporan el tamajio poblacional a través del término que se denomina factor de corteccién blaciones finitas (“—" ie poblaciones fintas ("—"). CUADRO 2. Errores tipicos y formula del tamafio muestral para los estadisticos de la media y la proporcién. Poblaciones finitas. Media Proporcion “ 7 Error tipico IPQ (N Error estandar 2oN Z°NPQ e(N — 1) + Zo? e(N- 1) + Z?PQ 224 Estadistica para la investigacion social Cuando la relacién entre N y n (N/n), es grande, podemos despreciar el factor de con cién de poblaciones finitas para el célculo del error tipico o error esténdar. En la préet cuando N es igual 0 mayor que 20n, podemos despreciar dicho factor. Si N = 20n, N= - 19) 1 n _ 20n n 19n weet 2 5 095 wet 20n=1, 2n=1 20n 20 Esto quiere decir que cuando N > 20n, el factor se aproxima a 1 y, por lo tanto, pue despreciarse. En la Préctica, cuando N > 100.000 podemos considerar la poblacién com infinita. En el caso de poblaciones pequefias, si calculamos el tamafio muestral consideréndola como poblaciones infinitas, «n» ser4 algo mayor que si las consideramos finitas. Es decir, hecho de no considerar el tamafio de la poblacién, que es lo que hacemos para poblacione infinitas, tiene como efecto que el tamafio muestral resultante seré algo mayor que el mente necesario. Para tamafios superiores a N = 100.000, las diferencias resultan france mente despreciables. Supongamos que en una localidad de 1.200 hogares queremos conocer la proporcién d viviendas que tienen acceso a internet, con un error de +5% (expresado en proporcién d +0,05) y un nivel de confianza del 95,5%. Como no tenemos informacién anterior, nos sé tuamos en el caso de varianza més desfavorable P = Q = 0,5. Si no consideramos que la poblacién es finita (NV = 1.200), nuestros célculos sefid que: 2rg_ 2-05:05- “1 @.. 005 — 0.0025 Si tenemos en cuenta el tamafio poblacional (N = 1.200), entonces: _ ZNPQ . 2?-1.200-0,5-0,5 -_120_ _ ae ~ &(N—1)+ ZPQ 0,05°(1.200 — 1) + 27-0,5-0,5 2,9975 +1 i Es decir, con 301 entrevistas, casi 100 menos que la cifra obtenida si no hubiéramos consi derado el tamaiio de la poblacién, podemos obtener la estimacién deseada. Ejercicio 5 En una ciudad de 100.000 habiantes queremos conocer la proporcién de habitantes que licencia para conducir automéviles. Para un error del 5% y un nivel de confianza del 95,5% : a) El tamafio muestral suponiendo que la poblaci6n es finita. b) El tamafio muestra! suponiendo que la poblacion es infinita. 3.7. Muestras grandes y pequefias En el cuadro anterior (Cuadro 1) se ha sefialado que la distribucién muestral puede conside- rarse una distribucién normal para muestras mayores de 30 elementos (n > 30). ;Qué sucede para tamafios menores? En muestras pequefias (m < 30), la distribucién muestral puede ajus- Capitulo Vill. Las muestras estadisticas: teoria y disefio 225 mediante la distribucién «f de Student. Es decir, en vez del valor Z, utilizamos el valor correspondiente a la distribucién de Student. Esto se veré con més detalle en el capitulo liente. El conocimiento de la varianza poblacional 10 hemos sefialado, para el célculo del tamagio muestral necesitamos conocer Ia varianza lacional. Generalmente es un dato desconocido pero podemos aproximarnos al mismo. a) Si tenemos informaci6n anterior de encuestas 0 censos anteriores, y podemos supo- ner que no hay grandes variaciones, podemos utilizar la misma. b) Siempre, en todo caso, podemos suponer una varianza que sea mayor que la exis- tente. © Si se trata de proporciones, el caso més desfavorable, el de mayor varianza (PQ), se da cuando P = Q = 0,5. © Si se trata de medias, la varianza no tiene un limite superior. Podemos estimar la varianza de forma amplia, baséndonos en estudios 0 supuestos teéricos. Por ejem- plo, si queremos investigar la distancia media de los desplazamientos entre resi- dencia y trabajo, podemos decir que la desviacién tfpica es de 100 km. (Bajo el supuesto de una distribucién normal esto equivaldria a decir que el 95% de los desplazamientos estan entre 0 y 200 km.) El inconveniente de proceder asf es que se pueden suponer varianzas mucho mayores que las reales, los tamafios mues- trales que obtenemos son demasiado grandes y encarecemos el coste de la inves- tigacién. No obstante, aun cuando desconozcamos la distribucién de la variable que queremos investigar, podemos establecer de forma aproximada el recorrido de la misma. Por ejemplo, en las edades de la madre al primer nacimiento de su hijo podemos sefialar que el recorrido estard entre 15 y 50 afios. Estos datos nos permi- ten establecer que la desviacién tipica sera la cuarta parte del recorrido. En este caso (50 — 15)/4 = 8,75 afios. Procedemos asf porque si la variable fuera normal entre + 2c estard el 95% de los casos. Si la variable se alejara mucho de una dis- tribucién normal, el Teorema de Chebyshev nos asegura que como minimo esto sucedera en mas del 75% de los casos'. Por ello, como regla, podemos pensar Recorrido 4 ¢) Otra estrategia para la estimacién de la varianza es hacer una encuesta piloto y a partir de ella estimar la varianza poblacional. Antes de calcular el tamafio muestral necesario, realizamos una seleccién aleatoria de un nimero pequefio de casos (entre que ~ a. La desviacién tipica siempre ser realmente menor. ? Recuérdese que el Teorema de Chebyshev sefiala que la probabilidad de que un valor se separe de su media en més de ko es menor que ( Por tanto si k = 2, tenemos que entre la media y 2a estard el 75% de los casos. Y entre la media y 3¢ estaré el 89% de las observaciones. Notese que el recorrido es el 100% de los casos, por lo tanto si estimamos @ de esta manera su valor real sera siempre seré menor. 226 Estadistica para la investigacion social 30 y 120) y utilizamos el valor de la varianza obtenida (el Ifmite superior del inter- valo que obtengamos) como varianza poblacional. (A este respecto conviene tener en cuenta lo dicho en el Anexo I de este capftulo sobre el empleo de la cuasivarianza como estimador de la varianza.) d) Otra posibilidad es comenzar la encuesta sin un tamafio prefijado e ir extrayendo elementos uno a uno anotando las observaciones hasta comprobar que la seleccién de nuevos elementos no modifica de forma significativa los valores de los estadisti- cos que estamos investigando. Se trata de una técnica que en investigacién social resulta dificil, dado que no permite una planificacién con antelacién del trabajo de campo. Eercicio6 ee En une determpinada Cominklad Autonoma queramios estimal la proporcier de perados, cord error del 2,5% y un nivel de confianza del 95%, Sabemos que en el trimestre anterior el paro un 12% de la poblacién activa. Calcule el tamafio muestral necesario. Blercicio7 ie : En una determinada Comunidad Auténoma estamos pribrssaioe en conocer el tiempo el que los parados encuentran empleo. El error esta establecido en 3 meses y el nivel de co! za en el 95,5%. Antes de hacer el estudio realizamos 90 entrevistas aleatorias y obtenemos una desviacidn tipica del tiempo de ae de 4 meses. Calcule el tamafio muestral. (Epo: que! Poblacion es infinita.) 4. Disefio de muestras Una vez que hemos definido la poblacién y hemos calculado el numero de elementos a se leccionar, segin el error y el nivel de confianza prefijados, estamos en disposicién de selec cionar la muestra. Ello no es tarea facil, porque para realizar una extracci6n al azar necesita mos previamente un listado de todos los elementos que componen la poblacién. Aunque él tamafio muestral necesario para investigar una variable sea el mismo para Ciudad Real 0 para el conjunto de la Unién Europea, resulta evidente que ambas situaciones requieren es trategias de seleccidn diferentes. Se diferencian, no s6lo por el distinto tamafio y compost cién de sus poblaciones, sino sobre todo porque probablemente tengamos objetivos muy di ferentes cuando investigamos una poblacién y otra. Probablemente si investigamos caracteristica de la Unién Europea deseemos conocer dicha caracterfstica con algtin gradod detalle, por ejemplo, de manera diferenciada y representativa para cada uno de los 27 pafse miembros. Asi, aunque con una muestra aleatoria de 400 elementos podamos conocer un proporcién, en el peor de los casos con un error del 5% (Nc = 95%), resulta imposible deci nada por paises, o utilizar cruces por edad y nivel de estudios respecto a cualquier caracterls tica estudiada. Capitulo Vill. Las muestras estadisticas: teoria y disefio 227 4.1. Marco Como decimos, para extraer una muestra necesitamos primero conocer los elementos que componen la poblacién. El registro fisico de los elementos de la poblacién se denomina marco. En algunos casos es un listado, pero también adquiere otros formatos como fichas, para seleccionar pacientes de un hospital o fotograffas aéreas —para seleccionar viviendas en la selva—. Por lo general, en la mayorfa de las situaciones no puede obtenerse un marco completo y actualizado de la poblacién, 0 la elaboracién de éste es costosa o presenta pro- blemas de manipulado. Imaginemos que queremos encuestar a la poblacién residente en Barcelona a fecha de hoy. Resulta muy dificil obtener un listado actualizado: el tiltimo censo electoral o padrén ha podido hacerse hace varios meses 0 incluso afios, pero en el caso de disponer del mismo, incluso en soporte informatico, realizar una seleccién aleatoria sobre millones de registros no resulta tampoco sencillo. Aun cuando pudiéramos hacerlo nos en- contramos con el problema, nada despreciable, de tener que localizar fisicamente a los 400 seleccionados. En la prdctica, para sortear este problema se utilizan otros procedimientos de muestreo que detallaremos a continuacién. 4.2. Procedimientos de muestreo Dadas las dificultades de realizar muestras aleatorias simples, en las que todos los elemen- tos de una poblacién tienen la misma probabilidad de ser seleccionados, se han desarrollado distintos sistemas de muestreo que tienen en cuenta el conocimiento que ya tenemos de la poblacién a investigar. Al incorporar informacién existente vamos a poder realizar disefios muestrales més eficientes 0, dicho de otra forma, podremos obtener la misma informacién que usando métodos aleatorios puros, con menor coste. Pero, ademas, al incorporar informa- cién podemos incluso mejorar la representatividad de la muestra. Entre los distintos procedimientos de disefio muestral basados en muestras probabilisti- cas detallaremos dos: muestreo estratificado y muestreo por conglomerados. Muestras pro- babilisticas son muestras que se definen por la seleccién aleatoria de los elementos 0 unida- des que las componen. En éstas, es conocida la probabilidad que tienen todos los elementos de la poblacién de ser seleccionados en ellas. Esto quiere decir que el error (estadistico) muestral es conocido. Finalmente, afiadiremos el muestreo por cuotas dadas las ventajas y la difusién que tiene en la investigacién social. 4.3, Muestreo estratificado Por lo general, una poblacién se encuentra dividida en varios grupos. Por ejemplo, la pobla- cién de una Comunidad Auténoma estd dividida en distintas provincias, los alumnos de una universidad en distintos campus, los trabajadores de una empresa en diferentes departamen- tos. Otras veces la divisién de la poblacidn en grupos puede ser tedrica, por ejemplo, en una poblacién podemos diferenciar a la misma por grupos de edad 0 por sexo, aunque estos ele- Mentos no se encuentren fisicamente juntos. 228 _ Estadistica para la investigacion social Los estratos son subconjuntos 0 grupos del universo, de forma que todos los element pertenecen a uno de los grupos y sdlo a uno. En el disefio de encuestas estratificadas tenel dos situaciones distintas. En unos casos deseamos conocer resultados para cada uno de estratos, y en otros, nos interesa aprovechar las ventajas de la estratificacién para reducit numero de entrevistas necesarias para la estimacién del conjunto. La primera estrategia conoce como disefio uniforme y la segunda como disefio proporcional. El reparto de elementos de la muestra entre los distintos estratos se denomina afijacién. Para la aplicacién del disefio estratificado necesitamos definir los distintos estratos y ner informaciones que nos permitan estimar las varianzas en cada uno de ellos. En lo q sigue tinicamente vamos a preocuparnos del caso en el que queremos conocer una p cidn, que es el més usual en la investigacién social y politica’®. La siguiente figura ( co 8) muestra de forma gréfica la formacién de estratos en una poblacién. EI ntimero de estratos lo denominamos L. L Nes la poblacién en el estrato «i». YN; =N W, es la proporcién de la poblacién en el estrato «i» 0 peso’ del estrato W; = n, es el tamafio de la muestra en el estrato «i». )) nj =n w; es la proporci6n de la poblacin en el estrato «i». w, Observemos el siguiente ejemplo: Supongamos una provincia en la que podemos diferenciar tres comarcas: La zona n con importantes centros mineros y pequefia industria asociada a la explotacién minera, zona litoral, muy vinculada al turismo y la capital donde residen los centros administratit La zona minera tradicionalmente vota a partidos de izquierda, la capital a partidos de cha, y la zona turistica vota casi por igual a partidos de derecha y de izquierda. Los rest dos para el partido de izquierdas en las tltimas elecciones fueron: Tabla 9 Ejemplo de poblacién estratificada. Comarca Poblacién Peso del estrato % votos al. partido W, de izquierda Minera 150.000 0,23076923 65,0% Capital 300.000, 0,46153846 25,0% Turistica 200.000 0,30769231 45,0% Total 650.000 1 40.4% 13 Las formulas que se presentan a continuacién pueden adaptarse r4pidamente al caso de la media, aparece el término pq que es la varianza de la proporcién lo sustituimos por s que es la varianza de una continua. 14 «Wo es la abreviatura de «weight», peso en inglés. Capitulo Vill. Las muestras estadisticas: teoria y disefio 229 Gréfico 8. Descomposicién esquematica de una poblacién en estratos. yu ra "a 0 230 Estadistica para la investigacion social Si utilizéramos un muestreo aleatorio simple la proporcién de votantes al partido de la izquierda, para el total, con e = 5% y Ne = 95,45%, sera!: _ Zpq _ 2?-0,404-0,596 7 2 Z 0,057 = 385,25 = 386 Nétese que la varianza total, si no hubiera estratos, de la poblacién es: pq = 0,404 x (1 — 0,404) = 0,241 Sin embargo, cuando estamos ante un disefio de estratos, las muestras de cada estrato independientes entre sf. El procedimiento es equivalente a seleccionar no una, sino L mues tras. Por ello podemos considerar la varianza total como la suma ponderada de las varian: de cada estrato. Llamamos (pq), a la varianza de la poblacién estratificada. Y como podemos comprol vz L Dn =H x pig x Pig; (Pq): = 0,215 Tabla 10. CaAlculo de la varianza estratificada de la pobiacién de la Tabla 9. % votos al partido _ Peso del estrato de izquierda W, Minera 150.000 65,0% 0,23076923 Capital 300.000 25,0% 0,46153846 Turfstica 200.000 45,0% 0,30769231 Comarca Poblacién PigiW; Total 1 Como podemos observar (pq). < pq. Al haber agrupado las unidades homogéneas entre sf y realizar «L» muestras ini dientes conseguimos reducir la variabilidad del conjunto de las posibles muestras. Obs de nuevo el Gréfico 7, al introducir un criterio de orden en la poblacién se reduce la varis muestral. Por ejemplo, en el caso que estamos analizando, si realizamos 200 entrevis aunque es poco probable, una muestra aleatoria simple hubiera podido seleccionar 150 dades del estrato «Capital» (las tres cuartas partes de n), otra muestra de las posibles hul podido no contener ningtin elemento del estrato «Capital»... Lo que hemos hecho es it la aparicin de ciertas muestras, especialmente aquéllas que se alejan del valor del p: tro y que se encuentran en los extremos de la distribucién muestral. Es decir, hemos "> Utilizamos pq en vez de PQ, porque la varianza es desconocida y la estimamos a través de estadisticos trales. Véase en detalle en el Anexo I de este capitulo. Capitulo Vill. Las muestras estadisticas: teoria y disefio 231 las muestras en torno al valor real. Es facil entender que entonces el error tipico, va- de la distribucién muestral, sera menor. Si en vez de pq utilizamos (pq),,, el tamafio muestral ser4 ahora: ZODn _ 2: nee Como puede verse el tamafio muestral necesario, para las mismas condiciones de error y vel de confianza, se ha reducido en algo més de un 10%. La reducci6n resulta, desde el ito de vista de los costes, de interés. Una vez obtenido el tamafio muestral, el siguiente paso es la distribucidn de las encues- entre los distintos estratos. El procedimiento se denomina afijaci6n. Existen distintas for- de realizarlo. Las exponemos todas juntas a continuacién sobre este mismo ejemplo y detallaremos en cuanto a sus beneficios e inconvenientes en los apartados siguientes. CUADRO 3. Procedimientos de afijacién. Nimero de entrevistas en el estrato « por | peso de cada conjunto de categorfas. Asf a los hombres de 18 a 34 afios con estudios | primarios 0 menores les corresponderan: | nw; = 800: 0,01539 = 12,3 | De la misma forma para las mujeres de 18 a 34 afios con estudios de tercer grado: i | nw; = 800-0,04994 = 39,9 I : Los resultados se encuentran en la tabla siguiente. Nétese que el total es «n». ' i : Tabla 26. i Afijacién por cuotas segtin niveles educativos, edad y sexo. ' | Primarios Segundo Tercer Tout i © menos grado grado | 18.34 123 74,9 30,7 | Hombres 35-64 39,6 88,5 45,5 ' 65 y mas 45.8 23,7 89 i 18-34 8,6 66,4 39,9 | Mujeres 35-64 54,9 94,5 43,7 I 65 y més 89,5 21.6 48 i Total 800 | Acontinuacién redondeamos las cifras, y obtenemos el mimero de entrevistas que de: __ beremos realizar en cada conjunto de categorfas. Nétese que finalmente la muestra seré © de 804 entrevistas. Capitulo Vill. Las muestras estadisticas: teoria y disefio 245 Tabla 27. Afijacién por cuotas segiin niveles educativos, edad y sexo. Datos redondeados. Primarios Segundo Tercer ‘Total 0 menos grado grado 18-34 12 75 31 Hombres. 35-64 40 89 46 65 y mas 46 24 Ds 18-34 9 66 40 Mujeres 35-64 55 95 44 28 5 246 — Estadistica para la investigacién social ANEXO I. La estimacién de las varianzas Como se ha dicho, las distribuciones muestrales del estadistico de la media tienen como dia el parémetro o media poblacional. Es decir, la media es un estadistico insesgado, embargo, la distribucién del estadfstico de las desviaciones tfpicas de las muestras no ti como media el valor del pardmetro. Es una estimacién sesgada. El valor del sesgo, no tante, es conocido y nos permite construir un estimador insesgado de la desviaci6n tipica través de la cuasivarianza. Definimos la cuasivarianza muestral como: r@— 3? n-1 La tinica diferencia entre la varianza y la cuasivarianza est4 en el denominador. La cuase varianza, en vez de hacer la media de las distancias al cuadrado sobre el ntimero de (n), la hace sobre los grados de libertad (n — 1) de la distribucién. Generalmente, los paquetes de célculo estadfstico realmente calculan las cuasivarianzas y no las varianzas. Para tamafios grandes de n (n > 90) la diferencia de cAlculo entre la va- rianza y la cuasivarianza resulta totalmente despreciable. La media de las cuasivarianzas del conjunto de todas las muestras de un determinado tamafio tiene como media la varianza poblacional multiplicada por el factor 5 ) Vee mos a comprobarlo a continuacién volviendo a la Poblacién Ejemplo (Tabla 1, Apartado 3) en el caso de la distribucién muestral como se indica en la Tabla 28. En nuestro ejemplo anterior (n = 3) calculamos las varianzas de cada muestra y también las cuasivarianzas. La media de la distribucién muestral para las varianzas es 9,3 y para las cuasivarianzas es 14. Recordemos que la varianza poblacional era 11,7. La media de la dis- tribucién muestral de ambos estadfsticos, varianza y cuasivarianza, resulta alejada del valor del pardmetro. Sin embargo, podemos observar que al multiplicar el estadfstico de la cuasivarianza por el factor ( lumna de la tabla). ). el valor de éste produce el valor de la varianza poblacional (tltima co- Por ello, podemos estimar la varianza muestra a partir del estadfstico de la cuasivarianza de la siguiente manera: Como por lo general desconocemos Ia varianza de la poblacién, podemos estimar la mis: ma de forma insesgada mediante la cuasivarianza. Para el célculo del error tipico o error estdndar, si en vez de la varianza poblacional utilizamos la cuasivarianza de la muestra obie- nida, adaptamos la f6rmula del mismo como detallamos a continuacién. Capitulo VIII. Las muestras estadisticas: teoria y diseio 247 Tabla anexo 1. CAlculo de las varianzas y cuasivarianzas en las muestras de tamafio 3 de la Poblacién Ejemplo (Apartado 3 en Tabla 1). Media de Varianza de Cuasivarianza a an Muestra Valores la muestra la muestra de la muestra z rs 3 a (al mt El ay a bc 30 24 28 27,3333333 6,22222222 9,33333333 _7,77777778 a b d 30 24 22 253333333 11,5555556 17,3333333 14,4444444 a b © 30 24 32 28,6666667 11,5555556 17,3333333 14,4444444 a b f 30 24 26 26,6666667 6,22222222 9,333333337,77777778 a cd 30 28 22 26,6666667 11,5555556 173333333 14,4444444 Bc 6 30 28°32) 30 266666667 4 3,33333333 mc: f 30 28 26°28 2,66666667 4 3,33333333 mis 0 18,6666667 28 23,3333333 df 0 2 2 2 10,6666667 16 13,3333333 ae f 30 32 26 293333333 6,22222222 9,333333337,77777778 b cd 24 28 22 246666667 6,22222222 933333333. 7.777778 bc c 4 2% 32 28 10,6666667 16 133333333 Bc of 24.28 .26...26 2,66666667 4 3,33333333 mods M2 6 18,6666667 28 23,3333333 Sit woe 2,66666667 4 333333333 b ec f 24 32 26 27,3333333 115555556 17,3333333 14,4444aag c d © 28 22 32 273333333 16,8888889 253333333 21,1111111 c df 28 22 26 25,3333333 6,22222222 9,33333333 7.777778 ce f 28 32 26 286666667 6,222222229,33333333_7,77777778 d ec f 22 32 26 266666667 16,8888889 25,3333333 211111111 Media 27 9,33333333 14 11,6666667 El error tipico al cuadrado de la media es: tituyendo la varianza poblacional por el valor estimado a partir de la muestra s cs) CIS aan) 8) (028) (an (presin que nos permite calcular el error tipico utilizando la cuasivarianza muestral, tanto poblaciones finitas como infinitas. 248 Estadistica para la investigacién social Error tipico, cuando estimamos la varianza a través de la propia muestra: De manera andloga podemos también expresar el error tipico de la proporcién cuando estimamos la varianza a partir de la muestra: Precisamente, en el siguiente capitulo dedicado a la estimacién utilizaremos esta formu- lacién de los errores tipicos. Recuérdese que por lo general la varianza de la poblacién es desconocida, pero una vez obtenida la muestra podemos utilizar los propios datos de la muestra para estimar dicha varianza. Comentarios al apartado de Teoria muestral (Apartado 3.4) CaAlculo del error tipico de la distribucién utilizada como ejemplo (Tabla 1) Ahora estamos en condiciones de observar si nuestro ejemplo cumple la relacién de varianza especificada por el teorema del limite central. Como muestra poblacién (N = 6) el error tipico de la distribucién muestral de muestras de tamafio 3, es o [=n 3416" B VavN-1 Jays La desviacién tipica de la distribucién de las medias de la tabla anterior es también 1,527. Como puede apreciarse, el teorema del limite central funciona muy bien, incluso con pobla- ciones pequefias que no tienen siquiera una distribucién normal. Notese que la distribucién dela poblacién utilizada como ejemplo es uniforme. Bibliografia comentada Azorin, F. y Sanchez Crespo, J. L. (1986): Métodos y aplicaciones del muestreo. Madrid, Alianza torial. Se trata de un magnifico texto que abunda en la teorfa muestral para disefios complejos. autores cuentan con una amplia experiencia en el INE. Sigue el planteamiento de los textos sicos de muestreo. Necesita de conocimientos algo elevados de mateméticas. Capitulo VIII. Las muestras estadisticas: teoriay disefio 249 vaffer, R. L.; Mendenall, W. y Ott, L. (2007): Elementos de Muestreo. Madrid, Thompson-Para- ninfo. Este texto resulta muy didéctico y util para quien esté interesado en aplicaciones pricticas de aplicacién de las técnicas muestrales, Rico en ejemplos. Sin excesiva complejidad matemética. iguez Osuna, J. (1991): Métodos de Muestreo. Madrid, CIS. Texto pensado especialmente para socidlogos y politélogos. Realiza una breve introduccién al uso de muestras, asf como una discusi6n sobre los principales problemas practicos y alternativas de soluci6n.

You might also like