You are on page 1of 19

Bioestadística

Tema 1: Introducción a la estadística
Tema 1: Introdución 1

.] enseña y ayuda a investigar en todas las áreas de las Ciencias de la Vida donde la variablidad no es la excepción sino la regla” Carrasco de la Peña (1982)    Tema 1: Introdución 2 .. formulando leyes que los explican y realizando experimentos para validar o rechazar dichas leyes Los modelos que crea la ciencia son de tipo determinista o aleatorio (estocástico) La Estadística se utiliza como tecnología al servicio de las ciencias donde la variabilidad y la incertidumbre forman parte de su naturaleza “La Bioestadística [.¿Para qué sirve la estadística?   La Ciencia se ocupa en general de fenómenos observables La Ciencia se desarrolla observando hechos.

con objeto de • • P b ro a li bi d ad deducir las leyes que rigen esos fenómenos. ordenación y a i v presentación de los datos referentes a un fenómeno t rip que presenta variabilidad o incertidumbre para su sc De estudio metódico.Definición La Estadística es la Ciencia de la Sistematización. recogida. n • Tema 1: Introdución 3 . tomar decisiones u obtener conclusiones. In r fe e y poder de esa forma hacer previsiones sobre los a c i mismos.

 Realizar una inferencia sobre la población  Los fumadores están de baja al menos 10 días/año más de media que los no fumadores..  Cuantificar la confianza en la inferencia   Nivel de confianza del 95% Significación del contraste: p=2% Tema 1: Introdución 4 . Criterios de exclusión ¿Cómo se eligen? ¿Descartamos los que padecen enfermedades crónicas? Número de bajas Tiempo de duración de cada baja ¿Sexo? ¿Sector laboral? ¿Otros factores?  Qué datos recoger de los mismos (variables)     Recoger los datos (muestreo)  ¿Estratificado? ¿Sistemáticamente? No tenéis que entenderlo (aún)  Describir (resumir) los datos obtenidos   tiempo medio de baja en fumadores y no (estadísticos) % de bajas por fumadores y sexo (frecuencias)... gráficos.Pasos en un estudio estadístico  Plantear hipótesis sobre una población   Los fumadores tienen “más bajas” laborales que los no fumadores ¿En qué sentido? ¿Mayor número? ¿Tiempo medio?  Decidir qué datos recoger (diseño de experimentos)  Qué individuos pertenecerán al estudio (muestras)   Fumadores y no fumadores en edad laboral.

Método científico y estadística Plantear hipótesis Diseñar experimento Obtener conclusiones Recoger datos y analizarlos Tema 1: Introdución 5 .

 Muestra (‘sample’) es un subconjunto suyo al que tenemos acceso y sobre el que realmente hacemos las observaciones (mediciones)  Debería ser “representativo”  Esta formado por miembros “seleccionados” de la población (individuos.Población y muestra  Población (‘population’) es el conjunto sobre el que estamos interesados en obtener conclusiones (hacer inferencia). Tema 1: Introdución 6 . unidades experimentales).  Normalmente es demasiado grande para poder abarcarlo.

Numérica discreta {1’62 .  En los individuos de la población española.1.3..Variables  Una variable es una característica observable que varía entre los diferentes individuos de una población. Ordinal {0. Numérica continua Su nivel de felicidad “declarado”  El número de hijos  La altura  Tema 1: Introdución 7 . . de uno a otro es variable:     El grupo sanguíneo  {A. La información que disponemos de cada individuo es resumida en variables. Cualitativa {Deprimido... 1’74.}  Var..2. B. Muy Feliz}  Var.}  Var. Ni fu ni fa. O}  Var. AB..

Num. Fumar (Sí/No)  Ordinales: Si sus valores se pueden ordenar  Mejoría a un tratamiento. Intensidad del dolor  Cuantitativas o Numéricas Si sus valores son numéricos (tiene sentido hacer operaciones algebraicas con ellos)  Discretas: Si toma valores enteros  Número de hijos. Religión. Presión intraocular.Tipos de variables  Cualitativas Si sus valores (modalidades) no se pueden asociar naturalmente a un número (no se pueden hacer operaciones algebraicas con ellos)  Nominales: Si sus valores no se pueden ordenar  Sexo. Nacionalidad.  Altura. edad Tema 1: Introdución 8 . Grupo Sanguíneo. Número de cigarrillos. son posibles infinitos valores intermedios. Grado de satisfacción. de “cumpleaños”  Continuas: Si entre dos valores. Dosis de medicamento administrado.

....  Sexo (Cualit: Códigos arbitrarios)   1 = Hombre 2 = Mujer 1 = Blanca 2 = Negra.  Estas situaciones deberán ser tenidas en cuentas en el análisis. Datos perdidos (‘missing data’) Tema 1: Introdución 9 . Es conveniente asignar “etiquetas” a los valores de las variables para recordar qué significan los códigos numéricos.  Raza (Cualit: Códigos arbitrarios)    Felicidad Ordinal: Respetar un orden al codificar..  Es buena idea codificar las variables como números para poder procesarlas con facilidad en un ordenador.    1 = Muy feliz 2 = Bastante feliz 3 = No demasiado feliz  Se pueden asignar códigos a respuestas especiales como   0 = No sabe 99 = No contesta.

No todo está permitido con cualquier tipo de variable. debemos recordar siempre el verdadero tipo de las variables y su significado cuando vayamos a usar programas de cálculo estadístico.  Aunque se codifiquen como números. Tema 1: Introdución 10 .

cine) Bien: Le gusta el deporte: (Sí.  Los posibles valores de una variable suelen denominarse modalidades. de 20 a 50 años. Moreno)? Bien: ¿Cuál es su grupo sanguíneo?  Excluyente: Nadie puede presentar dos valores simultáneos de la variable  Estudio sobre el ocio     Mal: De los siguientes. Más de 2) Tema 1: Introdución 11 . Las modalidades pueden agruparse en clases (intervalos)  Edades:  Menos de 20 años. más de 50 años Menos de 3 hijos. qué le gusta: (deporte. No) Mal: Cuántos hijos tiene: (Ninguno. No) Bien: Le gusta el cine: (Sí. 6 o más hijos  Hijos:   Las modalidades/clases deben forman un sistema exhaustivo y excluyente  Exhaustivo: No podemos olvidar ningún posible valor de la variable   Mal: ¿Cuál es su color del pelo: (Rubio. Menos de 5. De 3 a 5.

4 6 6 5 4 3 2 1 0 Hombre Mujer  Las tablas de frecuencias y las representaciones gráficas son dos maneras equivalentes de presentar la información.Presentación ordenada de datos 7 Género Hombre Mujer Frec. Tema 1: Introdución 12 . Las dos exponen ordenadamente la información recogida en una muestra.

1 100.4 3.0 Válido s Ho mbre Mujer To tal Válido s Nivel d e felicid ad Frecuencia Po rcentaje Válido s Muy feliz 467 30.1 100.0 11.5 1.3% .0 100.3 98.8 44.5% Número de hijos Po rcentaje válido 41.9 58.0 100.6 16.2 8.83.7 69.2 8. Soluc 2ª: 97.1 58.6 1.4 3.Tablas de frecuencia  Exponen la información recogida en la muestra.5 .6 1.6%+1.0 Frecuencia 0 419 1 255 2 37 5 3 215 4 127 5 54 6 24 7 23 Ocho o más 17 To tal 1509 No co ntes ta 8 1517 Po rcentaje 27 .9 14.9 To tal 1504 99.8 97 .1 89.6%. de forma que no se pierda nada de información (o poca). pero dividido por el total Frecuencias acumuladas: Sólo tienen sentido para variables ordinales y numéricas  Muy útiles para calcular cuantiles (ver más adelante)   ¿Qué porcentaje de individuos tiene menos de 3 hijos? Sol: 83.2 95.5 1.8% = 13.6 1.8 24.1 Perdido s No co ntes ta 13 .6 1.0 Po rcentaje acumulado 31.8 Bas tante feliz 87 2 57 .0 Po rcentaje acumulado 27 .0 Perdido s To tal Tema 1: Introdución 13 .5 83.9 58.8 92.0 Po rcentaje válido 27 .5 100.0 Po rcentaje válido 31.5 No demas iado feliz 165 10.7 14.8 ¿Entre 4 y 6 hijos? Soluc 1ª: 8.9 100.9 To tal 1517 100.4%+3.0 Sexo del encues tado Frecuencia 636 881 1517 Porcentaje 41.    Frecuencias absolutas: Contabilizan el número de individuos de cada modalidad Frecuencias relativas (porcentajes): Idem.1 99.9 24.1 100.6%= 13.8 16.

6=60% H = Hombre M = Mujer  Muestra: MHHMMHMMMH  equivale a HHHH MMMMMM Tema 1: Introdución 14 .Datos desordenados y ordenados en tablas  Variable: Género  Género Frec.4=40% 6/10=0. porcentaje 4/10=0. Hombre 4 Mujer 6 10=tamaño muestral Modalidades:   Frec. relat.

0 Po rcent.8 92.8 97 .1 100. (válido ) 27 . indiv. sin hijos + frec.5 83.2 8. 419 255 37 5 215 127 54 24 23 17 1509 Po rcent.0   0 1 2 3 4 5 6 7 Ocho + To tal ≥50% Tema 1: Introdución 15 .8 16.8 44. 27 .Ejemplo  ¿Cuántos individuos tienen menos de 2 hijos?  frec.9 14.5 1.3% ¿Qué cantidad de hijos es tal que al menos el 50% de la población tiene una cantidad inferior o igual?  2 hijos Número de hijos Frec.9 100.7 69.9 24.2 95.3 98. indiv. con 1 hijo = 419 + 255 = 674 individuos ¿Qué porcentaje de individuos tiene 6 hijos o menos?  97.6 1.6 1.4 3. acum.

¿De los dos. cuál es incorrecto?.)  Pictogramas   Fáciles de entender. polares)   No usarlo con variables ordinales. El área de cada sector es proporcional a su frecuencia (abs. cualitativas  Diagramas de barras   Alturas proporcionales a las frecuencias (abs.Gráficos para v. Tema 1: Introdución 16 . o rel.) Se pueden aplicar también a variables discretas  Diagramas de sectores (tartas. El área de cada modalidad debe ser proporcional a la frecuencia. o rel.

Gráficos diferenciales para variables numéricas 419 400 375 Recuento  Son diferentes en función de que las variables sean discretas o continuas. absolutas o relativas. continuas 150 100 50 20 40 60 80 Edad del encuestado Tema 1: Introdución 17 . Recuento Histogramas para v. Valen con frec.  300 255 215 200 127 100 54 24 0 1 2 3 4 5 6 Diagramas barras para v. discretas  23 17 7 Ocho o más Se deja un hueco entre barras para indicar los valores que no son posibles 250 200 Número de hijos   El área que hay bajo el histograma entre dos puntos cualesquiera indica la cantidad (porcentaje o frecuencia) de individuos en el intervalo.

Indican.Diagramas integrales  Cada uno de los anteriores diagramas tiene su correspondiente diagrama integral. No los construiremos en clase. Se pasan de los diferenciales a los integrales por integración y a la inversa por derivación (en un sentido más general del que visteis en bachillerato. la cantidad (frecuencia) de individuos que poseen un valor inferior o igual al mismo.) Tema 1: Introdución 18 . para cada valor de la variable. Se realizan a partir de las frecuencias acumuladas.

¿Qué hemos visto?     Definición de estadística Población Muestra Variables   Cualitativas Numéricas Tablas de frecuencias     Presentación ordenada de datos  absolutas relativas acumuladas Cualitativas Numéricas    Representaciones gráficas   Diferenciales Integrales Tema 1: Introdución 19 .

0254                  2:.. 930..//048089./:48 903048420348   ":F.039.39/. 8348  170.3974/:../:48 .203480 /0.74! 840/4702            . 930. 54-.. 3/. 48               4/E..07 . .        _  %02.0/03/.74!  ":F547. 6:0.O39030:3./ 3107474:.O3 :E39483/. 3/.94% 4.39/.434   3/./:4890303 20348/048 170.

485.8 54..2.79./0.708 4:8.94708 9.8574547.24/..8 .7.8/080./.9.7.43.5.-0847/3.:03.43..3974/:.:E083..8170.74.:03.08.:.8 E..7.43.08/003903/07 E70.8/0-.43.7E1.8 9:7... .709.8: 170.2-F3.77.4770.-8 470 !.170.79.-08/8.7.:03.. .2.94 %02.-8 4 70 $05:0/03.8 ...08 E70./..//0-0807574547.947.8 .80..2.  048/48 . .7./.9..O3  ..94708574547./0.

-0880.3974/:.8         /.7 48.7E1.-083:2F7.4393:.:0394 8947.7..77...408947.-84:9../:4803 03907..8    $43/10703908031:3.8-.3/.-.2.:0394                 .8 4.:089.086:07.9.:.2.7.6:0.442E8 2074/048  E70... /8.3/8.709.:03..8470.O3/06:0. .2..39/..48/10703.8 .85.O3  . /03/./4 %02.//003.8 './ 547.. ..03.3/.4393:.7..7.:3:0.039..7..77.085.4 #0.85..7.43170.03970 /485:3948.403970-.709.7.85.8 $0/0.04170.8 .47086:034843548-08  #0.

O3  .3/048/10703..:03.3 5.483907.39074708/.890308:.:03.07..47708543/0390/.2.3 .3974/:.7.2.08 .80 $05.078.:2:. .7../..8 3/./.5.47/0..O3./06:0..8.94 %02.-0 .../.2824 448.3./:486:0548003:3.8170..O3 03:38039/42E80307...085473907.7.08.473107474:..2...890803-.43897:70248 03.797/0./ 170.. $070.83907.:34/048...7..3907.8...547 /07. /03/.7.39/...

":F0248..-84:9./J89..3974/:.8 ./.9.O3  ..O3 :0897.8 :. '.....8 #05708039.08 %02.8 :2F7.O3/0089.8 !708039.8 70..9.8 10703.43087E1..:03..8 :2F7.948 %./.-..08 3907.:2:..9.8/0170.. !4-.O347/03.8 .7./0/.894 013.9.-08 :.9.