Concepto de población y muestra El concepto de población en estadística va más allá de lo que comúnmente se conoce como tal.

Una población se precisa como un conjunto finito o infinito de personas u objetos que presentan características comunes. Destacamos algunas definiciones: "Una población es un conjunto de todos los elementos que estamos estudiando, acerca de los cuales intentamos sacar conclusiones". Levin & Rubin (1996). "Una población es un conjunto de elementos que presentan una característica común". Cadenas (1974). El tamaño que tiene una población es un factor de suma importancia en el proceso de investigación estadística y en nuestro caso social, y este tamaño vienen dados por el número de elementos que constituyen la población, según el número de elementos la población puede ser finita o infinita. Cuando el número de elementos que integra la población es muy grande, se puede considerar a esta como una población infinita, por ejemplo; el conjunto de todos los números positivos. Una población finita es aquella que está formada por un limitado número de elementos, por ejemplo; el número de habitantes de una comarca. Cuando la población es muy grande, es obvio que la observación y/o medición de todos los elementos se multiplica la complejidad, en cuanto al trabajo, tiempo y costos necesarios para hacerlo. Para solucionar este inconveniente se utiliza una muestra estadística.

Spiegel (1991).. por ello. la estadística nos dota de una herramienta que es la muestra para extraer un conjunto de población que represente a la globalidad y sobre la muestra realizar el estudio. entendemos que sería de gran dificultad poder analizar los valores sociales de todos ellos. Muestra: La muestra es una representación significativa de las características de una población. Murria R. "Se llama muestra a una parte de la población a estudiar que sirve para representarla". que bajo. Los expertos en estadística recogen datos de una muestra. Levin & Rubin (1996). se examina una pequeña parte del grupo denominada muestra. Cadenas (1974). y las conclusiones que se obtengan de dicha muestra solo podrán referirse a la población en referencia". "Una muestra debe ser definida en base de la población determinada. sobre todos si estos son muchos.Evolución de la población española Es a menudo imposible o poco práctico observar la totalidad de los individuos. Utilizan esta información para hacer referencias sobre la población que está representada por . "Una muestra es una colección de algunos elementos de la población. pero no de todos". En lugar de examinar el grupo entero llamado población o universo. Por ejemplo estudiamos los valores sociales de una población de 5000 habitantes aprox. la asunción de un error (generalmente no superior al 5%) estudiamos las características de un conjunto poblacional mucho menor que la población global. Una muestra representativa contiene las características relevantes de la población en las mismas proporciones que están incluidas en tal población.

Tipos de muestreo Existen dos métodos para seleccionar muestras de poblaciones. Las muestras de juicio evitan el análisis estadístico necesario para hacer muestras de probabilidad. el muestreo es una técnica que sirve para obtener una o más muestras de población. tales que cada elemento de una muestra está emparejado con un elemento de la otra. Algunas veces una muestra de juicio se usa como guía o muestra tentativa para decidir como tomar una muestra aleatoria más adelante. Este se realiza una vez que se ha establecido un marco muestral representativo de la población. Técnicas de Muestreo: Esto no es más que el procedimiento empleado para obtener una o más muestras de una población.la muestra. se procede a la selección de los elementos de la muestra aunque hay muchos diseños de la muestra. Al tomar varias muestras de una población. En consecuencia muestra y población son conceptos relativos. y lo más probable es que variaran de una muestra a otra. Una población es un todo y una muestra es una fracción o segmento de ese todo. En este último todos los elementos de la población tienen la oportunidad de ser escogidos en la muestra. Una muestra seleccionada por muestreo de juicio se basa en la experiencia de alguien con la población. las estadísticas que calculamos para cada muestra no necesariamente serían iguales. el muestreo no aleatorio o de juicio y el muestreo aleatorio o de probabilidad. PRUEBAS PARA DOS MUESTRAS RELACIONADAS Estos contrastes permiten comprobar si hay diferencias entre las distribuciones de dos poblaciones a partir de dos muestras dependientes o relacionadas. de tal forma que los componentes de cada pareja se parezcan entre sí . es decir.

Cuando n > 15 la distribución muestral de T bajo el supuesto de que H0 es cierta se aproxima a una normal de parámetros: . T. sino también la magnitud de la diferencia. Si la hipótesis nula es cierta. la de signos y la de McNemar. de forma que el tamaño de la muestra es n. por tanto. X e Y tienen el mismo valor central y es de esperar que los rangos se distribuyan aleatoriamente entre las diferencias positivas y negativas y. teniendo en cuenta no sólo el signo. El estadístico de prueba. Sea la diferencia entre las puntuaciones de la pareja i-ésima. A continuación se asignan rangos desde 1 hasta n atendiendo únicamente al valor absoluto de las di y se suman los rangos correspondientes a las diferencias positivas y a las diferencias negativas por separado. El contraste se basa en el comportamiento de las diferencias entre las puntuaciones de los elementos de cada par asociado. la hipótesis alternativa establece que hay diferencias respecto a la tendencia central de las poblaciones y puede ser direccional o no. La hipótesis nula del contraste postula que las muestras proceden de poblaciones con la misma distribución de probabilidad. el número de diferencias no nulas. Algunas de las pruebas que pueden realizarse con el programa SPSS son: la prueba de Wilcoxon. PRUEBA DE SUMA DE RANGOS DE WILCOXON Cuando se trata de variables medibles en por lo menos una escala ordinal y pueden suponerse poblaciones contínuas la prueba no paramétrica más potente es la de Wilcoxon.lo más posible por lo que hace referencia a un conjunto de características que se consideran relevantes. si alguna de estas diferencias es nula la pareja correspondiente se elimina del análisis. que ambas sumas de rangos sean aproximadamente iguales. Tambén es posible que cada elemento de una muestra actúe como su propio control. es la menor de las dos sumas de rangos.

y cuántas negativas. S+. es de esperar que aproximadamente la mitad de las diferencias sean positivas y la otra mitad negativas. La hipótesis alternativa puede ser direccional. Si H0 es cierta.El estadístico de prueba es el valor Z: que se distribuye según una normal tipificada. PRUEBA DE SIGNOS La prueba de los signos permite contrastar la hipótesis de que las respuestas a dos ''tratamientos'' pertenecen a poblaciones idénticas. cuando postula que X es estocásticamente mayor (o menor) que Y. . Para el nivel de significación deseado se rechazará la hipótesis nula si Z pertenece a la región crítica localizada en las dos colas o en una cola de la normal tipificada. según la naturaleza de la hipótesis alternativa. cuando no predice la dirección de la diferencia. S-. Para realizar el contraste se hallan los signos (+ o -) de las diferencias no nulas entre las respuestas de los dos componentes de cada par y se cuenta cuántas son positivas. Para la utilización de esta prueba se requiere únicamente que las poblaciones subyacentes sean contínuas y que las respuestas de cada par asociado estén medidas por lo menos en una escala ordinal. La hipótesis nula puede expresarse como: Siendo Xi la respuesta del elemento i-ésimo al primer ''tratamiento'' e Yi la respuesta del elemento i-ésimo al segundo ''tratamiento''. o no direccional.

Si el contraste se realiza a una cola dicho nivel de significación se reduce a la mitad. S tiene distribución binomial de parámetros n= nº de diferencias nulas y = 0'5. y es aplicable a los diseños del tipo ''antes-después'' en los que cada elemento actúa como su propio control. de forma que el estadístico de prueba es: Z se distribuye según una normal tipificada.+ a b + c d . Si n es grande. Si H0 es cierta.se utilizan para representar las diferentes respuestas. Los resultados correspondientes a una muestra de n elementos se disponen en una tabla de frecuencias 2 x 2 para recoger el conjunto de las respuestas de los mismos elementos antes y después. PRUEBA DE MCNEMAR La prueba de McNemar se utiliza para decidir si puede o no aceptarse que determinado ''tratamiento'' induce un cambio en la respuesta dicotómica o dicotomizada de los elementos sometidos al mismo. Para mejorar la aproximación se realiza una corrección de continuidad. dando el nivel de significación a partir del cual se rechaza H0 en un contraste de dos colas. S-]. la distribución de S puede aproximarse mediante una normal de parámetros y la decisión dependerá del valor tipificado de S. El aspecto general de dicha tabla. es el siguiente: Antes/Después . Cuando el número de diferencias no nulas es pequeño la aproximación de la distribución de S mediante la normal no es buena y en este caso el SPSS realiza directamente la prueba binomial. en la que los signos + y .El estadístico de prueba es S= mín [S+.

El estadístico de prueba que permite contrastar si existen diferencias significativas entre las frecuencias esperadas y las observadas es: Oi= frecuencia observada en la i-ésima celda Ei = frecuencia esperada en la i-ésima celda si H0 es cierta k = número de celdas Para contrastar la significación de los cambios interesan sólo las celdas que recogen cambios. y son los únicos que intervienen en el contraste. y des el número de elementos que mantienen la respuesta +.a +.tiene distinta probabilidad que un cambio de a +. y (b+c)/2 hayan pasado de . La hipótesis alternativa puede ser no direccional. Así pues.En las celdas de la tabla.antes del ''tratamiento'' y + después de éste. por tanto el estadístico puede expresarse como . es decir. La hipótesis nula es que el ''tratamiento'' no induce cambios significativos en las respuestas.a +. cuando postula que la probabilidad de un cambio de + a . b+c es el número total de elementos cuyas respuestas han cambiado. la frecuencia esperada en las correspondientes celdas es (a+b)/2. si H0 es cierta.a + es más (o menos) probable que un cambio de + a -.que un cambio de . de forma que es igualmente probable un cambio de + a . de los b+c elementos cuya respuesta ha cambiado es de esperar que (b+c)/2 hayan pasado de + a -. los cambios observados en la muestra se deben al azar. Por tanto. -. b es el número de elementos cuya respuesta es . cuando predice que un cambio de . a es el número de elementos cuya respuesta es la misma. c es el número de elementos que han cambiado de + a -. si H0 es cierta. En otras palabras. o direccional.

5. el SPSS no calcula el estadístico anterior. El nivel de significación para una prueba de dos colas es y se rechazará H0 para niveles de significación iguales o superiores a éste. La aproximación es más precisa si se realiza la corrección de continuidad de Yates. de que ambos tipos de cambio son igualmente probables. sino que realiza la prueba binomial. .Si H0 es cierta. en tal caso. se rechaza si el valor del estadístico se encuentra en la región crítica. Si la hipótesis alternativa es direccional el nivel de significación a partir del cual se rechazará H0 es la mitad del nivel de significación bilateral. El contraste se plantea en este caso de la siguiente forma: supongamos que c<b. en este caso la hipótesis nula es que c es un valor de una variable X con distribución binomial de parámetros n=b+c y =0. el estadístico tiene distribución aproximadamente chi-cuadrado con 1 grado de libertad. Cuando la frecuencia esperada (b+c)/2 es pequeña la aproximación de la distribución del estadístico de prueba a la chi-cuadrado no es buena y. quedando el estadístico: La hipótesis nula.

Ejemplo. Medidas de Posición: Cuartiles Los cuantiles son valores de la distribución que la dividen en partes iguales. el percentil de orden 15 deja por debajo al 15% de las observaciones. y por encima queda el 85% • CUARTILES: son los tres valores que dividen al conjunto de datos ordenados en cuatro partes iguales. los deciles y los percentiles.Medidas descriptivas Las medidas descriptivas son valores numéricos calculados a partir de la muestra y que nos resumen la información contenida en ella. es decir. en intervalos. son un caso particular de los percentiles: . Los más usados son los cuartiles. que comprenden el mismo número de valores. PERCENTILES: son 99 valores que dividen en cien partes iguales el conjunto de datos ordenados.

Primer cuartil: 2.El primer cuartil Q 1 es el menor valor que es mayor que una cuarta parte de los datos . Segundo cuartil: Ni 14 24 39 65 85 100 ..El segundo cuartil Q 2 (la mediana).El tercer cuartil Q 3 es el menor valor que es mayor que tres cuartas partes de los datos DECILES: son los nueve valores que dividen al conjunto de datos ordenados en diez partes iguales. Ejemplo: Dada la siguiente distribución en el número de hijos (Xi) de cien familias. xi ni 0 14 1 10 2 15 3 26 4 20 5 15 n=100 Solución: 1. calcular sus cuartiles. es el menor valor que es mayor que la mitad de los datos . son también un caso particular de los percentiles.

Por orden de importancia. son: MEDIA: (media aritmética o simplemente media). Tercer cuartil: Medidas de Centralización Nos dan un centro de la distribución de frecuencias. es un valor que se puede tomar como representativo de todos los datos. Si el número de datos es impar la mediana será el valor central. de tal forma que el 50% de estas son menores que la mediana y el otro 50% son mayores. es decir. si es par tomaremos como mediana la media aritmética de los dos valores centrales. . el cociente entre la suma de todos los datos y el número de ellos. Hay diferentes modos para definir el "centro" de las observaciones en un conjunto de datos. MEDIANA (Me): es el valor que separa por la mitad las observaciones ordenadas de menor a mayor. tenemos que: Si los datos están agrupados utilizamos las marcas de clase. Si xi es el valor de la variable y ni su frecuencia.3. es decir ci en vez de xi. es el promedio aritmético de las observaciones.

MODA (M0): es el valor de la variable que más veces se repite. la variabilidad de los valores de la distribución respecto al valor central. No tiene porque ser única. Haciendo operaciones en la fórmula anterior obtenemos otra fórmula para calcular la varianza: Si los datos están agrupados utilizamos las marcas de clase en lugar de Xi. que no son comparables entre diferentes muestras y las relativas que nos permitirán comparar varias muestras. Distinguimos entre medidas de dispersión absolutas. la dispersión. aquella cuya frecuencia absoluta es mayor. . las medidas de dispersión nos dicen hasta que punto estas medidas de tendencia central son representativas como síntesis de la información. MEDIDAS DE DISPERSIÓN ABSOLUTAS VARIANZA (s2): es el promedio del cuadrado de las distancias entre cada observación y la media aritmética del conjunto de observaciones. Medidas de Dispersión Las medidas de tendencia central tienen como objetivo el sintetizar los datos en un valor representativo. es decir. Las medidas de dispersión cuantifican la separación.

Medidas de Forma Comparan la forma que tiene la representación gráfica. . Es la diferencia entre el valor de las observaciones mayor y el menor.xmin MEDIDAS DE DISPERSIÓN RELATIVAS COEFICIENTE DE VARIACIÓN DE PEARSON: Cuando se quiere comparar el grado de dispersión de dos distribuciones que no vienen dadas en las mismas unidades o que las medias no son iguales se utiliza el coeficiente de variación de Pearson que se define como el cociente entre la desviación típica y el valor absoluto de la media aritmética CV representa el número de veces que la desviación típica contiene a la media aritmética y por lo tanto cuanto mayor es CV mayor es la dispersión y menor la representatividad de la media. con la distribución normal. para evitar este problema podemos usar como medida de dispersión la desviación típica que se define como la raíz cuadrada positiva de la varianza Para estimar la desviación típica de una población a partir de los datos de una muestra se utiliza la fórmula (cuasi desviación típica): RECORRIDO O RANGO MUESTRAL (Re). bien sea el histograma o el diagrama de barras de la distribución.DESVIACIÓN TÍPICA (S): La varianza viene dada por las mismas unidades que la variable pero al cuadrado. Re = xmax .

Se definen 3 tipos de distribuciones según su grado de curtosis: . Una de ellas es el Coeficiente de Asimetría de Pearson: Su valor es cero cuando la distribución es simétrica. su moda y su media aritmética coinciden.MEDIDA DE ASIMETRÍA Diremos que una distribución es simétrica cuando su mediana. MEDIDA DE APUNTAMIENTO O CURTOSIS Miden la mayor o menor cantidad de datos que se agrupan en torno a la moda. Si las frecuencias descienden más lentamente por la izquierda que por la derecha diremos que la distribución es asimétrica a la izquierda. Diremos que una distribución es asimétrica a la derecha si las frecuencias (absolutas o relativas) descienden más lentamente por la derecha que por la izquierda. positivo cuando existe asimetría a la derecha y negativo cuando existe asimetría a la izquierda. Existen varias medidas de la asimetría de una distribución de frecuencias.

60. Distribución platicúrtica: presenta un reducido grado de concentración alrededor de los valores centrales de la variable.Distribución mesocúrtica: presenta un grado de concentración medio alrededor de los valores centrales de la variable (el mismo que presenta una distribución normal). SOLUCIÓN: La media: suma de todos los valores de una variable dividida entre el número total de datos de los que se dispone: La mediana: es el valor que deja a la mitad de los datos por encima de dicho valor y a la otra mitad por debajo. Calcular la media. moda. EJEMPLO 1 El número de días necesarios por 10 equipos de trabajadores para terminar 10 instalaciones de iguales características han sido: 21. Distribución leptocúrtica: presenta un elevado grado de concentración alrededor de los valores centrales de la variable. Si ordenamos los datos de mayor a menor observamos la . 61. 59. y 80 días. 60. 64. varianza y desviación típica. 32. mediana. 15. 71.

67 El rango: diferencia entre el valor de las observaciones mayor y el menor 80 . Sx2= La desviación típica S: es la raíz cuadrada de la varianza.67/52.3 = 0. La moda: el valor de la variable que presenta una mayor frecuencia es 60 La varianza S2: Es la media de los cuadrados de las diferencias entre cada valor de la variable y la media aritmética de la distribución. 71. los dos valores que se encuentran en el medio son 60 y 60. 80. 59.61.61 = 20.39 EJEMPLO 2 El precio de un interruptor magentotérmico en 10 comercios de electricidad de una . 21. S = √ 427.secuencia: 15. Si realizamos el cálculo de la media de estos dos valores nos dará a su vez 60. Como quiera que en este ejemplo el número de observaciones es par (10 individuos).15 = 65 días El coeficiente de variación: cociente entre la desviación típica y el valor absoluto de la media aritmética CV = 20. 60. 64. que es el valor de la mediana. 60. 32.

26.ciudad son: 25. 24. bigotes el recorrido] . SOLUCIÓN: (Utilizar la calculadora de debajo) [El diagrama de cajas: caja desde Q1 a Q3 (50% de los datos). Hallar la media. 26. 29. moda. 28. más abajo) diagrama de barras y el diagrama de caja. y 27 Euros. 25. 25. (abrir la calculadora estadística. 30. mediana.