You are on page 1of 42

UTILIZACIÓN DE LAS TÉCNICAS

ESTADÍSTICAS
EN LA INVESTIGACION

DR CARLOS A CALDERON CABADA

UTILIZACIÓN DE LAS TÉCNICAS ESTADÍSTICAS EN
LA INVESTIGACION

Es necesario enfatizar que no Podemos utilizar :
todos los datos que se -Técnicas de
obtienen en un estudio son estadística descriptiva.
susceptibles de tratamiento -Técnicas para analizar
estadístico. relaciones
Cuando es posible, pueden (asociaciones) entre
usarse diferentes métodos de variables.
cuantificación. -Procedimientos de
muestreo.

TÉCNICAS DE LA ESTADÍSTICA
DESCRIPTIVA

 Son los métodos que se usan en investigación para tener un
nivel de análisis cuantitativo.

 El procesamiento de datos requiere técnicas para describir las
características de las variables.

TÉCNICAS DE LA ESTADÍSTICA DESCRIPTIVA

Entre estas técnicas destacan

Ladistribución
La distribuciónde
defrecuencias
frecuencias

Lasmedidas
Las medidasdedetendencia
tendencia
central
central
(media,mediana,
(media, mediana,moda).
moda).

Lasmedidas
Las medidasde devariación
variaciónoo
dispersión(desviación
dispersión (desviaciónmedia,
media,
relativayyestándar)
relativa estándar)

cada clase está asociada a cada uno de los diferentes valores que puede tomar la variable.  Desde el punto de vista conceptual. Para la confección de una distribución de frecuencias debe determinarse:  Cantidad de clases.  Asignar los datos a cada clase y contarlos. DISTRIBUCIÓN DE FRECUENCIA Es la relación entre una o más características de las variables o las unidades de observación y las veces (frecuencia) que ella aparece. y que puede expresarse en forma de tablas o de gráficos. .

Ejemplo: Pregunta de una encuesta para evaluar la calidad de al atención en el Hospital Municipal. TIPO DE CLASES EN QUE SE AGRUPARÁN LOS DATOS Cada clase está asociada a cada uno de los diferentes valores que puede tomar la variable. Total de Encuestados = 100 Calidad del Trato Valores de la Escala Frecuencia  Excelente 5 = 8  Muy Bueno 4 = 10  Bueno 3 = 22  Regular 2 = 39  Malo 1 = 18  Anulados = 3 Total 100 .

Distribución de Frecuencias resultante sobre la base de los datos anteriores: Calidad del Trato Frecuencia Excelente 8 Muy Bueno 10 Bueno 22 Regular 39 Malo 18 Anulados 3 Total 100 .

TIPOS DE DISTRIBUCIONES DE FRECUENCIAS Se distinguen 2 tipos de distribuciones: Numéricas Categóricas .

TIPOS DE DISTRIBUCIONES DE FRECUENCIAS Es aquella en la que el criterio de agrupación es una magnitud numérica.  Tamaño de la muestra = 120. agrupadas por la cantidad de cigarrillos que consumen diariamente.  Criterio de agrupación = cantidad de cigarrillos consumidos diariamente. Ejemplo:  Número de personas con hábito de fumar. Cantidad de cigarrillos Cantidad de personas encuestadas 1–5 5 6 – 10 10 11 – 15 50 16 – 20 15 21 – 25 20 26 – 30 10 Más de 30 10 .

Las marcas de clase son los puntos medios entre los límites de los intervalos y se calculan como el promedio de ellas.. El tamaño del intervalo se define mejor en intervalos de igual tamaño. Por ejemplo: 5+1 3 = 2 10 + 6 8 = 2 .. DISTRIBUCION NUMERICA  La cantidad de clases: Determinada por los objetivos de la investigación y las variables que se pretende describir. es igual a 4. Por ejemplo: 5–1=4 10 – 6 = 4 El tamaño del intervalo.”  El tamaño del intervalo. Según Freund (1988): “Pocas ocasiones requieren el uso de menos de 6 clases o más de 15.. en ambos casos. que es la distancia entre sus extremos.

Clases abiertas: son aquellas en las que no están definidos los límites mayor o menor del intervalo Ejemplo: 21 .33 .33 Más de 30 8.67 16 – 20 12.25 Clase cerrada 26 .17 6 – 10 8. Por ejemplo: Cantidad de cigarrillos 1 – 10 10 – 20 20 – 30 30 – 40 b) Asegurar que todos los datos puedan ser incluidos en la distribución c) Una distribución numérica puede presentarse en %(distribuciones porcentuales) Ejemplo: Cantidad de cigarrillos Cantidad de personas encuestadas (%) 1–5 4.50 21 – 25 16.30 Clase cerrada Más de 30 Clase abierta Reglas importantes: a) Evitar la utilización de intervalos en los que coincidan los extremos de cada clase.67 26 – 30 8.33 11 – 15 41.

Cantidad de Cigarrillos . una población. REPRESENTACIÓN GRÁFICA  Debe transmitir el mensaje de forma más rápida y clara.  El histograma es la representación gráfica más utilizada para distribuciones numéricas. como promedio. Ejemplo: Histograma utilizado para representar la cantidad de cigarrillos que consume diariamente. Mejor con intervalos iguales y No para clases abiertas.

REPRESENTACIÓN GRÁFICA Otra forma alterna de presentar las distribuciones numéricas son los polígonos de frecuencia. Ejemplo: Polígono de frecuencias utilizado para el mismo ejemplo Cantidad de Cigarrillos .

17 San Gabán 10 8.50 La Esperanza 5 4.00 . Ejemplo:  Número de personas con hábito de fumar. de acuerdo con algún criterio cualitativo.00 Los Álamos 15 12. Tamaño de la muestra = 120.00 Total 120 100. agrupados por distrito de residencia. DISTRITO DE RESIDENCIA CANTIDAD DE ENCUESTADOS Absoluta (%) Buena Vista 30 25. TIPOS DE DISTRIBUCIONES DE FRECUENCIAS Distribuciones categóricas Son aquellas en las cuales los datos se agrupan en categorías.33 Banes 60 50.

Las clases deben ser excluyentes.  La distribución gráfica más usual es el "pie" o "pastel".  Debe ser clara la definición conceptual de las clases.  Debe evitarse ambigüedades.  Categoría “Otros” (para categorías poco significativas). Ejemplo Pastel utilizado para la muestra de fumadores por distrito de residencia Buena Vista Banes 25% 50% Los Alamos 13% La Esperanza 4% San Gabán 8% .

 LA MEDIA  LA MEDIANA  LA MODA .

n = Cantidad de observaciones. •Siempre existe. . Juan = 25 años María = 30 años José = 35 años Carmela = 20 años Luisa = 20 años Edad Promedio = (25 + 30 + 35 + 20 +20) /5 = 26 años es la edad promedio del grupo. •Toma en cuenta todos los valores individuales. •Es fácil de calcular. La media Se representa mediante el símbolo "X". Se calcula mediante la siguiente expresión: X= xi n Donde: x i = Valor de las observaciones individuales. •En intervalo: Calcular la marca de clase para obtener la media ponderada. Ejemplo: Cálculo de la edad promedio de los miembros de un grupo. CARACTERISTICAS: •Es fácil de entender su significado.

xi = Marca de clase X fi = Frecuencia de clase Calculo de marca de clase y la media en un intervalo: La fórmula para el cálculo de datos agrupados. es la siguiente : X = Media para datos x= xi = Marca de clase fi = Frecuencia de clase Ejemplo: .

La mediana Se utiliza para describir el centro o medio de una distribución o de un grupo de datos. en este caso 30. •Es fácil de calcular. CARACTERISTICAS: •Siempre existe y puede calcularse para cualquier conjunto de datos numéricos. •Menos representativa que la media. (o promedio de 2 valores centrales). •Es única. lo cual haremos de forma ascendente: 5 10 15 30 50 75 90 Dado que hay 7 valores el 4º sería la mediana. menos confiable . Ejemplo: Dados los siguientes valores: 15 50 30 75 10 5 90 Para calcular la mediana primeramente habría que ordenarlos. •No se ve afectada por valores extremos. •Requiere el ordenamiento previo de los datos.

carecería de sentido decir que todas son modas porque tienen la misma frecuencia La principal ventaja de la moda consisten en que no requieren de ningún cálculo. La moda Se define como el valor de mayor frecuencia en la distribución o aquel que más veces aparece. Por ejemplo. Ejemplo: En la serie 2 2 2 4 6 7 7. más allá del conteo. el resto aparece sólo una vez. Una distribución puede tener varías modas o no tener ninguna. mientras que la segunda no tiene moda. dadas las siguientes series: a) 2 5 5 6 7 9 9 12 b) 2 4 6 11 21 50 75 2000 La primera tiene dos modas: 5 y 9. . (es bimodal). pues aparece tres veces. Desventaja: No siempre existe y puede no ser única. la moda sería 2.

 Son indicadores estadísticos utilizados para calcular la dispersión de los datos. • la desviación y • la desviación estándar . • la desviación media. en torno a las medidas de tendencia central.  Las más conocidas son: • la amplitud.

DESVENTAJA : No considera los otros valores Se ve afectada por valores extremos .LA AMPLITUD: Definición: Es la diferencia entre el valor más alto y más bajo de la serie. Ejemplo: Dada la siguiente serie de valores: 5 12 18 24 47 72 74 82 96 100 La amplitud sería = 100 – 5 = 95 VENTAJA : Fácil de calcular.

S= DESVIACION ESTÁNDAR: Se obtiene elevando al cuadrado las desviaciones y promediando sus cuadrados. . Ss = . Se define como la raíz cuadrada positiva de la varianza. . Es una medida de variabilidad de las observaciones respecto a la media aritmética .

el Coeficiente por rangos de Spearman y el Coeficiente de Correlación de-Kendall. • Para datos de tipo nominal u ordinal: la prueba de Chi o Ji Cuadrado. B y C? o ¿ De que manera influye A en B? Existen pruebas estadísticas que permiten el tratamiento de este tipo de problemas. . PRUEBAS ESTADÍSTICAS PARA DETERMINAR LAS RELACIONES ENTRE LAS VARIABLES En algunas investigaciones se desea determinar: ¿ Qué relación existe entre A y B? o ¿ Qué relación existe entre A. las pruebas estadísticas más usadas: • Para datos de tipo intervalo o proporcional: el análisis de regresión lineal y no lineal y el coeficiente de correlación lineal y no lineal. el Coeficiente de Contingencia.

var. una unaparábola. Además permite predecir o estimar el valor de Y para un valor dado de X. La ecuación de una recta. parábola. var. que es la que representa una regresión lineal. másbien.independiente independiente bb==pendiente pendientedederecta recta .más semejan.ya yaque quelos lospuntos puntos semejan.dependiente dependiente aa==constante constante xx==var. lineal.El análisis de regresión consiste en medir el grado de dependencia de una variable dependiente denotada por Y respecto a una variable independiente X mediante una función matemática. bien. se puede representar mediante la siguiente fórmula: y = a + bx yy==var. Laflecha flechailustra ilustralalafalta faltade desentido sentido Por ejemplo: La deregresión de regresiónlineal.

x = Valores de la variable "x" x i =i Valores de la variable "x" yyi =i =Valores Valoresde delalavariable variable"y" "y" nn==Cantidad Cantidaddedevalores valoresdede"x" "x"ee"y" "y" . correlación. ¿en qué medida la ecuación de la función obtenida. Las fórmulas para calcular b y a son las siguientes:  Se calcula “ r ” para saber ¿Cuán confiables son los resultados obtenidos?. refleja realmente la relación entre nuestros datos? En la que: En la que: r r==Coeficiente Coeficientede decorrelación.

. El coeficiente de correlación determina el grado de correlación entre las variables X e Y en la población que es objeto de estudio. indica una relación positiva: “A mayor x.  Una correlación estadística no implica una relación CAUSA-EFECTO entre las variables.  “r” es un número situado entre -1 y 1.  A medida que se acerca más a -1.  A medida que se acerca más a 1. El estimador del parámetro es el coeficiente de correlación muestral “r”. menor y”. indica una relación negativa: “A mayor x. mayor y”.

10 2. .50 1. tomando una muestra de 11 pacientes. Determinación de la relación entre: índice de obesidad (x) e índice de PA (y) Medidas x y x* x2 y2 Juan 1.44 2.81 a = 0. de acuerdo a la talla. El coeficiente de determinación" r2" .85 0.60 2.57 20.72 1.60 20.25 1.53 21.20 1.40 0.26 1.60 4.55 Karla 0.50 2.50 1.88 3.00 3.84 1.15 1.24 b = 0.40 2.84 14.90 1.80 1.74 Angel 1.20 1. Mario 1.81 1. Definición de obesidad "x“ es la relación entre el peso real y el ideal.25 TOTAL 14.00 y = Relación PA real / PA normal.00 0.20 1.00 1.Toma valores entre 0 y 100%.90 0.53756378 Carlos 1. Ejemplo: Determinar la relación entre obesidad e HTA.25 r2 = 0. Definición de HTA: a través de un índice "y".44 Pedro 1. Los valores obtenidos se presentan en la tabla.20 1.39 2.32 1.20 .44 Angela 1.00 x = Relación peso real / peso ideal según talla Juana 0.56 José 2. que relaciona la tensión real y la normal.38 1.50 1.25 Josefa 1.80 1.85 1.80 1.44 2.00 1.Indica como el porcentaje de la variabilidad total de los valores de Y que está siendo explicado por la regresión lineal simple.00 0.60205032 r = 0.96 0.00 1.24 2.96 María 1.20 1.76 3.90 1.80 3. a continuación.

• Prueba utilizada para análisis de relación entre dos variables categóricas. permite determinar si dos variables cualitativas nominales son independientes (No relacionadas). • Se calcula mediante una tabla de contingencia o tabulación cruzada. Ejemplo: (tabla de contingencia 2x2 categorías excluyentes): . • Las tablas tienen 2 dimensiones (c/u de las variables) y c/u con 2 o más categorías. es decir. en una población “X” Variables: Sexo y Hábito Objetivos: Determinar la relación entre el sexo y el hábito de fumar TABLAS DE FRECUENCIAS REALMENTE OBSERVADAS SEXO/HÁBITO FUMA NO FUMA TOTAL M 1520 8744 10264 F 723 9584 10307 TOTAL 2243 18328 20571 . por sexo.Análisis del hábito de fumar.

0 20571 . tomando los datos de la tabla de frecuencias observadas: fe = (Total frecuencias de la fila)* (Total frecuencias de la columna) Total General de frecuencias Aplicando la fórmula para cada celda resultaría: fe =2243*10264 = 1119.8 9183.2 9144.2 10307 TOTAL 2243.0 18328.2 20571 fe11 =18328*10264 = 9144.8 20571 fe22 = 18328*10307 = 9183.8 20571 fe12 = 2243*10307= 1123.2 20571 De aquí resulta la tabla de frecuencias esperadas: SEXO/HÁBIT FUMA NO FUMA TOTAL O M 1119. Los valores de cada celda de la tabla de frecuencias esperadas se calcula mediante la siguiente fórmula.8 10264 F 1123.

F21 723 1123.1 143.5 TOTAL 321.2 400. para cada celda se calcula la diferencia entre las frecuencias observadas y esperadas.6 en una tabla tal como se presenta a continuación.1 143.1 17.0 F22 9584 9183.8 160676.fe)2 / fe F11 1520 1119.8 -400.6 .fe)2 (fo .8 160676. CELDA Fo Fe fo – fe (fo .2 400.8 160676.6 Para el cálculo podemos apoyarnos F12 8744 9144.8 160676. la Chi – Cuadrado (x2) se calcula mediante la siguiente fórmula: X2 =  (fo . se eleva al cuadrado y se divide entre las frecuencias esperadas.1 17.8 -400. Por último. La suma de todas las celdas es la c2.fe )2 En la que: fo = frecuencia observada en cada celda fe fe= frecuencia esperada en cada celda Es decir.

Tal como se puede apreciar en la tabla. .6. eligiendo el nivel de confianza 0. debemos comparar en la Tabla de Distribución de la X2.1) (c – 1) r = número de filas Por lo que: c = número de columnas G = (2 – 1) (2 – 1) = 1  Luego de realizados los cálculos. esto quiere decir que las variables están relacionadas.  Si el valor calculado es igual o mayor al de la tabla. el cual se calcula mediante la siguiente fórmula: G = (r .  Para interpretar el resultado obtenido debemos utilizar el concepto de “grados de libertad” (G). el valor de x2 es de 321.01 el valor correspondiente a los grados de libertad obtenidos.05 ó 0.

a través de procedimientos de muestreo. que deben ser incluidas en la muestra.Determinación los miembros de la población. 2... . Para obtener la muestra. EL MÉTODO MUESTRAL Población o universo: conjunto de todas las observaciones posibles que caracterizan al objeto. el investigador debe resolver dos tareas básicas: 1. Se pueden usar: muestras probabilísticas y no probabilísticas.Determinación del tamaño de la muestra.

MA. c/urequiere c/u requiereun untto. Muestraestratificada Muestra estratificada Laselección La selecciónvavaprecedida precedidadedelala clasificacióndel clasificación delconjunto conjuntoen enpartes parteshomogéneas homogéneas (entresi) (entre si)denominadas denominadasestratos. Seusan Se usantablas tablasde denúmeros númerosaleatorios. Selecciónmediante Selección medianteintervalo intervaloKKde delalalista. Muestreoaleatorio Muestreo aleatoriosimple: simple: Todaslas Todas lasunidades unidadesdedeobservación observacióntienen tienen lasmismas las mismasprobabilidades probabilidadesdedecaer caeren enlalamuestra.etc. etc. muestra. Sedistinguen: Se distinguen:lalaselección seleccióncon conyysin sinreemplazo. tto. MarcoMuestral: Marco Muestral:listas. listas. diferentes.índices índicesalfabéticos. reemplazo. . aleatorios. estratos. sistemático. MUESTREO MUESTREO PROBABILÍSTICO PROBABILÍSTICO Muestrapor Muestra porconglomerados: conglomerados:Las Lasunidades unidadesdede selecciónson selección sonseries seriesestadísticamente estadísticamentediferentes.Muestral: Muestral:MAS MASoosistemático. Muestreosistemático: Muestreo sistemático:variante variantedel delMA. alfabéticos. lista.

Utilizando la tabla de números aleatorios procedemos así: Como el universo tiene tres cifras.  El proceso de selección de los números aleatorios puede comenzarse por cualquier lado de la tabla y en cualquier dirección (por filas o por columnas). Se obtendrían las siguientes unidades de observación para la muestra: 149 329 052 492 067 068 368 239 139 100 331 408 145 132 008  Este tipo de muestreo también requiere de la asignación de números de orden a cada unidad de observación. De una población de 500 se desea seleccionar una muestra de 15. se anota sólo una vez y se continúa con el siguiente. o seleccionar sólo columnas. . Si algún valor se repite. deben seleccionar unidades dentro del rango desde 001 a 500.

51. 81.En la práctica. 81. 56. K depende del tamaño de la población (N) y del tamaño de la muestra (n). 46. 76. 76. 66. 86. 56. 96 En el caso de que el valor inicial sea mayor que K. 61. 91. 71. 6. 11. 86. 96. 61. 41. 11. 66. 71. 16. K = N/n Para N = 100 n = 20 K = 100/20 K = 5 Ello implicaría tomar como muestra las unidades con las siguientes numeraciones: 1. 41. 46. 31. 36. 36. 91. 51. 1. 26 . es frecuente seleccionar el valor medio de la lista. y hay que continuar hasta completar el procedimiento. 21. 21. Ejemplo: 31. 16. entonces no se puede completar la muestra. 6. 26.

variables. población. Setoman Se toman"cuotas” "cuotas”de delaslasunidades unidadesdede análisis.de análisis. total. . Muestraespontánea: Muestra espontánea:cuando cuandono no setienen se tienenreferencias referenciasprecisas precisasacerca acercadede lalapoblación poblacióntotal. deacuerdo acuerdoaalaslascaracterísticas características delas de lasvariables.de demanera maneraqueque representenaproximadamente representen aproximadamente lalacomposición composiciónreal realdedelalapoblación. cc. Porello Por ellosu suescaso escasovalor valorpredictivo predictivo MUESTREO MUESTREO NOPROBABILÍSTICO NO PROBABILÍSTICO Muestrapor Muestra porcuotas: cuotas:SeSecuenta cuentacon conreferencias referencias encuanto en cuantoalaltamaño tamañode delalapoblación poblaciónyysus suscc.

Con muestras grandes (n ≥ 30) se trabaja con los valores "Z" de la distribución normal. Muestras para poblaciones infinitas o muestreo con reemplazo y para muestreo sin reemplazo o poblaciones finitas. . .Para muestras pequeñas (n ≤ 30) se trabaja con los valores de la distribución “t”. DETERMINACIÓN DEL TAMAÑO DE LA MUESTRA Para la determinación del tamaño de la muestra debe diferenciarse entre: Muestras grandes y muestras pequeñas. .

.5 kg.5 kg. En la que: n= tamaño de la muestra n= Z2 * σ2 μ= media de la muestra (X -μ)2 m= media de la población σ= desviación estándar de la población Z= números determinados según la tabla de valores críticos de la distribución normal estándar.5 kg n= 1.52 0. Ejemplo 1 : Se desea conocer el peso promedio de los niños RN cuyas madres tienen antecedentes alcohólicos recientes. Z de 95% es igual a Z de 0.962 * 1.5 kg Δ = 0.5 Kilogramos ¿Qué tamaño debe tener la muestra para calcular el promedio con un nivel de confianza del 95% y que el error de estimación no exceda a 0.57 Interpretación: Se requiere una muestra de 35 niños para calcular el peso promedio de los niños.5 2 n = 34.4750 = 1. con un nivel de confianza del 95% y un error de estimación de 0.96 σ = 1. Estudios anteriores demuestran que la desviación estándar de los pesos de estos niños es de alrededor de 1.

se obtengan los resultados con un 95% de confianza? n= 1.052 * 44999 + 1.962 * 32 n = 10 579 alumnos deben ser analizados. para que con un error de estimación del 5%. Se sabe por experiencia que la calificación fluctúa entre 06 a 18 puntos*. n= Z2 * N* σ2 (X – μ)2 * (N – 1) + Z2 * σ2 En la que: N = tamaño de la población Ejemplo: Se desea conocer la calificación promedio de alumnos.962 * 32 * 45000 0. Si la universidad tiene 45000 alumnos ¿Cuántos alumnos deben ser incluidos en la muestra. .

. Ejemplo: Un laboratorio desea conocer que proporción de la población se inclinaría por un nuevo medicamento que va a lanzar al mercado ¿Qué muestra debería tomar para el estudio con un nivel de confianza del 95% y un error de estimación del 5%? n= 1. de unidades de análisis con igual valor de la variable. de unidades de análisis en las que la variable no se pta. n= Z2 pq 2 ∆ p = proporc. q = (1-p) proporc.52 * 0.5 0. con una confianza del 95% y error del 5%. Cuando no hay referencias sobre p y q se toman ambas como 0.962 * 0.052 n = 384.5.16 se requiere una muestra de 385 personas para conocer la proporción de la población se inclinaría por el nuevo medicamento.

GRACIAS POR SU ATENCION .