Parte Segunda Tema 5 Estadística Variables Continuas y Discretas

Médicos Titulares del Estado
PARTE SEGUNDA
TEMA 5. ESTADÍSTICA. VARIABLES CONTINUAS Y DISCRETAS.

MEDIDAS DE CENTRALIZACIÓN Y DE DISPERSIÓN. INFERENCIA
ESTADÍSTICAS. CONTRASTE DE HIPÓTESIS Y EL VALOR DE “P”. LA
CORRELACIÓN LINEAL. LA REGRESIÓN LINEAL.
Si las observaciones corresponden a cantidades, las variables pueden

distinguirse entre discretas y continuas. Se dice que una variable es discreta cuando
no puede tomar ningún valor entre dos consecutivos, y que es continua cuando puede
tomar cualquier valor dentro de un intervalo.
Ejemplos de variable discreta: número de empleados de una fábrica; número de
hijos; número de cuentas ocultas en Suiza.
Ejemplos de variable continua: temperaturas registradas en un observatorio;
tiempo en recorrer una distancia en una carrera; contenido de alcohol en un cuba -
libre; estatura; tiempo de discurso de un político en las cortes insultando a los del
partido contrario.
En la práctica, todas las variables son discretas debido a la limitación de los
aparatos de medida. Pensemos en el ejemplo de la estatura: quizá podría detectarse
una diferencia de una cienmilésima de metro, o de una millonésima pero, dados dos
individuos que se diferencien en una millonésima, seguramente ya no existe otro qu e
tenga una estatura intermedia. De la misma forma, por insignificante que sea la
diferencia entre la llegada de dos corredores olímpicos a una meta, la limitación de la
precisión en la medida siempre puede acabar produciendo un posible (aunque
improbable) empate. Obviando este tipo de limitaciones, las variables continuas se
elegirán, desde un punto de vista teórico, con toda la precisión que deseemos
(decimales), de manera que siempre podamos escribir un valor que esté entre
cualesquiera otros dos.
Por ejemplo, hasta hace unos años, cuando uno se subía a una báscula, lo máximo
solían ser dos o tres decimales: (50.35: 50 kilos y 350 gramos…). Realmente, usar más
de dos o tres decimales para el peso en kilos de una persona no ofrece ningún interés.
Sin embargo, está claro que podrían construirse básculas de baño con mucha mayor
precisión, ofreciendo un número mayor de decimales (otra cosa es que se vendieran).
De manera general, consideraremos que una variable continua toma valores en
un intervalo (por ejemplo: el peso de un grupo de personas varía entre 40 y 100 kilos),
y un dato podrá ser cualquier número entre esos dos.
1
Las medidas de tendencia central son medidas estadísticas que pretenden
resumir en un solo valor a un conjunto de valores. Representan un centro en torno al
cual se encuentra ubicado el conjunto de los datos. Las medidas de tendencia central
más utilizadas son: media, mediana y moda. Las medidas de dispersión en cambio miden
el grado de dispersión de los valores de la variable. Dicho en otros términos las medidas
de dispersión pretenden evaluar en qué medida los datos difieren entre sí. De esta
forma, ambos tipos de medidas usadas en conjunto permiten describir un conjunto de
datos entregando información acerca de su posición y su dispersión.
Los procedimientos para obtener las medidas estadísticas difieren levemente

dependiendo de la forma en que se encuentren los datos. Si los datos se encuentran
ordenados en una tabla estadística diremos que se encuentran “agrupados” y si los datos
no están en una tabla hablaremos de datos “no agrupados”.
Según este criterio, haremos primero el estudio de las medidas estadísticas para datos
no agrupados y luego para datos agrupados.
Medidas estadísticas en datos no agrupado

Medidas de tendencia central
Promedio o media
La medida de tendencia central más conocida y utilizada es la media aritmética o
promedio aritmético. Se representa por la letra griega µ cuando se trata del promedio
del universo o población y por Ȳ (léase Y barra) cuando se trata del promedio de la
muestra. Es importante destacar que µ es una cantidad fija mientras que el promedio
de la muestra es variable puesto que diferentes muestras extraídas de la misma
población tienden a tener diferentes medias. La media se expresa en la misma unidad
que los datos originales: centímetros, horas, gramos, etc.
Una propiedad interesante de la media aritmética es que la suma de las desviaciones es

cero.
Mediana
Otra medida de tendencia central es la mediana. La mediana es el valor de la variable
que ocupa la posición central, cuando los datos se disponen en orden de magnitud. Es
decir, el 50% de las observaciones tiene valores iguales o inferiores a la mediana y el
otro 50% tiene valores iguales o superiores a la mediana.
2
Si el número de observaciones es par, la mediana corresponde al promedio de los dos
valores centrales. Por ejemplo, en la muestra 3, 9, 11, 15, la mediana es (9+11)/2=10.
Moda
La moda de una distribución se define como el valor de la variable que más se repite. En
un polígono de frecuencia la moda corresponde al valor de la variable que está bajo el
punto más alto del gráfico. Una muestra puede tener más de una moda.
Medidas de dispersión
Las medidas de dispersión entregan información sobre la variación de la variable.
Pretenden resumir en un solo valor la dispersión que tiene un conjunto de datos. Las
medidas de dispersión más utilizadas son: Rango de variación, Varianza, Desviación
estándar, Coeficiente de variación.
Rango de variación
Se define como la diferencia entre el mayor valor de la variable y el menor valor de la
variable.
La mejor medida de dispersión, y la más generalizada es la varianza, o su raíz
cuadrada, la desviación estándar. La varianza se representa con el símbolo σ² (sigma
cuadrado) para el universo o población y con el símbolo s2 (s cuadrado), cuando se trata
de la muestra. La desviación estándar, que es la raíz cuadrada de la varianza, se
representa por σ (sigma) cuando pertenece al universo o población y por “s”, cuando
pertenece a la muestra. σ² y σ son parámetros, constantes para una población particular;
s2 y s son estadígrafos, valores que cambian de muestra en muestra dentro de una
misma población. La varianza se expresa en unidades de variable al cuadrado y la
desviación estándar simplemente en unidades de variable.
La interpretación de la varianza (válida también para la desviación estándar): un
alto valor de la varianza indica que los datos están alejados del promedio. Es difícil
hacer una interpretación de la varianza teniendo un solo valor de ella. La situación es
más clara si se comparan las varianzas de dos muestras, por ejemplo varianza de la
muestra igual 18 y varianza de la muestra b igual 25. En este caso diremos que los datos
de la muestra b tienen mayor dispersión que los datos de la muestra a. esto significa
que en la muestra a los datos están más cerca del promedio y en cambio en la muestra
b los datos están más alejados del promedio.
3
Coeficiente de variación
Es una medida de la dispersión relativa de los datos. Se define como la desviación

estándar de la muestra expresada como porcentaje de la media muestral.
Medidas de tendencia central y de dispersión en datos agrupados

Se identifica como datos agrupados a los datos dispuestos en una distribución de
frecuencia. En tal caso las fórmulas para el cálculo de promedio, mediana, modo, varianza
y desviación estándar deben incluir una leve modificación. A continuación se entregan
los detalles para cada una de las medidas.
Donde ni representa cada una de las frecuencias correspondientes a los
diferentes valores de Yi.
Consideremos como ejemplo una distribución de frecuencia de madres que asisten
a un programa de lactancia materna, clasificadas según el número de partos. Por
tratarse de una variable en escala discreta, las clases o categorías asumen sólo ciertos
valores: 1, 2, 3, 4, 5.
Entonces las 42 madres han tenido, en promedio, 2,78 partos.
Si la variable de interés es de tipo continuo será necesario determinar, para cada

intervalo, un valor medio que lo represente. Este valor se llama marca de clase (Yc) y se
calcula dividiendo por 2 la suma de los límites reales del intervalo de clase. De ahí en
adelante se procede del mismo modo que en el ejercicio anterior, reemplazando, en la
formula de promedio, Yi por Yc.
Mediana en datos agrupados

Si la variable es de tipo discreto la mediana será el valor de la variable que corresponda
a la frecuencia acumulada que supere inmediatamente a n/2. En los datos de la tabla 1
Me=3, ya que 42/2 es igual a 21 y la frecuencia acumulada que supera inmediatamente
a 21 es 33, que corresponde a un valor de variable (Yi) igual a 3.
Moda en datos agrupados

Si la variable es de tipo discreto la moda o modo será al valor de la variable (Yi)
que tenga la mayor frecuencia absoluta ( ). En los datos de la tabla 1 el valor de la moda
es 3 ya que este valor de variable corresponde a la mayor frecuencia absoluta =16.
4
Más adelante se presenta un ejemplo integrado para promedio, mediana, varianza y
desviación estándar en datos agrupados con intervalos.
Varianza en datos agrupados

Para el cálculo de varianza en datos agrupados se utiliza la fórmula
Percentiles
Los percentiles son valores de la variable que dividen la distribución en 100 partes
iguales. De este modo si el percentil 80 (P80) es igual a 35 años de edad, significa que
el 80% de los casos tiene edad igual o inferior a 35 años.
Su procedimiento de cálculo es relativamente simple en datos agrupados sin intervalos.
La inferencia estadística es el conjunto de métodos que permiten inducir, a

través de una muestra estadística, el comportamiento de una determinada población.
La inferencia estadística, estudia entonces como, a través de la aplicación de dichos
métodos sobre los datos de una muestra, se pueden extraer conclusiones sobre los
parámetros de la población de datos. De la misma manera estudia también el grado de
fiabilidad de los resultados extraídos del estudio.
Para entender el concepto es importante entender tres conceptos:
1. Inferencia: Inferir significa, literalmente, extraer juicios o conclusiones
a partir de ciertos supuestos, sean estos generales o particulares.
2. Población: Una población de datos, es el conjunto total de datos que
existen sobre un variable.
3. Muestra estadística: Una muestra es una parte de la población de datos.
Teniendo claro a lo que nos referimos con el concepto de inferir, una de las dudas
fundamentales recae en el hecho de elegir una muestra en lugar de una población.
Normalmente, en estadística, se trabaja con muestras debido a la gran cantidad
de datos que tiene una población. Por ejemplo, si queremos sacar conclusiones, esto es,
inferir, los resultados de las elecciones generales, es imposible preguntar a toda la
población del país. Para solventar ese problema se escoge una muestra variada y
representativa. Gracias a la cual se puedan extraer una estimación del resultado final.
Escoger una muestra adecuada corre a cargo de las distintas técnicas de muestreo.
La otra gran rama de la estadística es la estadística descriptiva.
5
Métodos de la inferencia estadística
Los métodos y técnicas de la inferencia estadística se pueden dividir en dos:
métodos de estimación de parámetros y métodos de contraste de hipótesis.
 Métodos de estimación de parámetros: Se encarga de asignar un valor al
parámetro o al conjunto de parámetros que caracterizan el campo sujeto a estudio.
Claro que al ser una estimación existe cierto error. Para obtener estimaciones
adaptadas a esa realidad, se crean intervalos de confianza.
 Métodos de contraste de hipótesis: Su objetivo es comprobar si una
estimación corresponde con los valores poblacionales. En todo contraste de hipótesis
existen dos supuestos. La hipótesis nula (H0) que recoge la idea de que un valor tiene
un valor predeterminado. Si se rechaza la hipótesis nula (H0), entonces se acepta
la hipótesis alternativa (H1).
En estadística general y contrastes de hipótesis, el valor p (conocido también

como p, p-valor, valor de p consignado, o directamente en inglés p-value) se define como
la probabilidad de que un valor estadístico calculado sea posible dada una hipótesis nula
cierta. En términos simples, el valor p ayuda a diferenciar resultados que son producto
del azar del muestreo, de resultados que son estadísticamente significativos.
Si el valor p cumple con la condición de ser menor que un nivel de significancia
impuesto arbitrariamente, este se considera como un resultado estadísticamente
significativo y, por lo tanto, permite rechazar la hipótesis nula.
Es fundamental reforzar que el valor p está basado en la presunción de que una
hipótesis nula (o hipótesis de partida) es cierta. El valor p es por tanto una medida
de significación estadística.
El valor p es un valor de probabilidad, por lo que oscila entre 0 y 1. El valor p nos

muestra la probabilidad de haber obtenido el resultado que hemos obtenido suponiendo
que la hipótesis nula H0 es cierta. Se suele decir que valores altos de p no permiten
rechazar la H0, mientras que valores bajos de p sí permiten rechazar la H0.
En una prueba estadística, se rechaza la hipótesis nula H0 si el valor p asociado
al resultado observado es igual o menor que un nivel de significación establecido

arbitrariamente, convencionalmente 0,05 o 0,01. En otras palabras, si el resultado
obtenido es más inusual que el rango esperado de resultados dada una hipótesis nula Es
importante recalcar que un contraste de hipótesis no permite aceptar una hipótesis;
simplemente la rechaza o no la rechaza, es decir que la tacha de verosímil (lo
que no significa obligatoriamente que sea cierta, simplemente que es más probable de
serlo) o inverosímil.
6
Advertencia sobre error por observación atípica
Aunque cuando el valor de p es inferior al nivel de significación , lo más

verosímil es que la hipótesis de partida sea falsa, también es posible que estemos ante
una observación atípica. Por eso, estaríamos cometiendo el error estadístico de
rechazar la hipótesis nula cuando ésta es cierta, basándonos en que hemos tenido la mala
suerte de encontrar una observación atípica. Este tipo de errores se puede subsanar
siendo más estrictos y rebajando el máximo valor p esperado; un de 0,05 es usado
en investigaciones habituales sociológicas mientras que un más bajo de 0,01 se

utiliza en investigaciones médicas, en las que cometer un error puede acarrear
consecuencias más graves. También se puede tratar de subsanar dicho error
aumentando el tamaño de la muestra obtenida, lo que reduce la posibilidad de que el
dato obtenido sea casualmente raro.
La correlación lineal y la regresión lineal simple son métodos estadísticos que

estudian la relación lineal existente entre dos variables. Antes de profundizar en cada
uno de ellos, conviene destacar algunas diferencias:
 La correlación cuantifica como de relacionadas están dos variables,
mientras que la regresión lineal consiste en generar una ecuación (modelo) que,
basándose en la relación existente entre ambas variables, permita predecir el
valor de una a partir de la otra.
 El cálculo de la correlación entre dos variables es independiente
del orden o asignación de cada variable a XX e YY, mide únicamente la relación
entre ambas sin considerar dependencias. En el caso de la regresión lineal, el
modelo varía según qué variable se considere dependiente de la otra (lo cual no
implica causa-efecto).
 A nivel experimental, la correlación se suele emplear cuando
ninguna de las variables se ha controlado, simplemente se han medido ambas y
se desea saber si están relacionadas. En el caso de estudios de regresión lineal,
es más común que una de las variables se controle (tiempo, concentración de
reactivo, temperatura…) y se mida la otra.
 Por norma general, los estudios de correlación lineal preceden a la
generación de modelos de regresión lineal. Primero se analiza si ambas variables
están correlacionadas y, en caso de estarlo, se procede a generar el modelo de
regresión.
7
Correlación lineal
Para estudiar la relación lineal existente entre dos variables continuas es

necesario disponer de parámetros que permitan cuantificar dicha relación. Uno de
estos parámetros es la covarianza, que indica el grado de variación conjunta de dos
variables aleatorias.
La covarianza depende de las escalas en que se miden las variables estudiadas,
por lo tanto, no es comparable entre distintos pares de variables. Para poder hacer
comparaciones se estandariza la covarianza, generando lo que se conoce
como coeficientes de correlación. Existen diferentes tipos, de entre los que destacan
el coeficiente de Pearson, Rho de Spearman y Tau de Kendall.
 Todos ellos varían entre +1 y -1. Siendo +1 una correlación positiva
perfecta y -1 una correlación negativa perfecta.
 Se emplean como medida de fuerza de asociación (tamaño del
efecto):
o 0: asociación nula.
o 0.1: asociación pequeña.
o 0.3: asociación mediana.
o 0.5: asociación moderada.
o 0.7: asociación alta.
o 0.9: asociación muy alta.
Las principales diferencias entre estos tres coeficientes de asociación son:
 La correlación de Pearson funciona bien con variables cuantitativas
que tienen una distribución normal. En el libro Handbook of Biological
Statatistics se menciona que sigue siendo bastante robusto a pesar de la falta
de normalidad. Es más sensible a los valores extremos que las otras dos
alternativas.
 La correlación de Spearman se emplea cuando los datos son
ordinales, de intervalo, o bien cuando no se satisface la condición de normalidad
para variables continuas y los datos se pueden transformar a rangos. Es un
método no paramétrico.
 La correlación de Kendall es otra alternativa no paramétrica para
el estudio de la correlación que trabaja con rangos. Se emplea cuando se dispone
de pocos datos y muchos de ellos ocupan la misma posición en el rango, es decir,
cuando hay muchas ligaduras.
Además del valor obtenido para el coeficiente de correlación, es necesario
calcular su significancia. Solo si el p-value es significativo se puede aceptar que existe
8
correlación, y esta será de la magnitud que indique el coeficiente. Por muy cercano que
sea el valor del coeficiente de correlación a +1+1 o −1−1, si no es significativo, se ha de
interpretar que la correlación de ambas variables es 0, ya que el valor observado puede
deberse a simple aleatoriedad.
El test paramétrico de significancia estadística empleado para el coeficiente
de correlación es el t-test. Al igual que ocurre siempre que se trabaja con muestras,
por un lado está el parámetro estimado (en este caso el coeficiente de correlación) y
por otro su significancia a la hora de considerar la población entera. Si se calcula el
coeficiente de correlación entre XX e YY en diferentes muestras de una misma
población, el valor va a variar dependiendo de las muestras utilizadas. Por esta razón
se tiene que calcular la significancia de la correlación obtenida y su intervalo de
confianza.
Para este test de hipótesis, H0H0 considera que las variables son
independientes (coeficiente de correlación poblacional = 0) mientras que, la HaHa,
considera que existe relación (coeficiente de correlación poblacional ≠≠ 0)
La correlación lineal entre dos variables, además del valor del coeficiente de
correlación y de sus significancia, también tiene un tamaño de efecto asociado. Se
conoce como coeficiente de determinación R2R2. Se interpreta como la cantidad de
varianza de YY explicada por XX. En el caso del coeficiente de Pearson y el
de Spearman, R2R2 se obtiene elevando al cuadrado el coeficiente de correlación

Parte Segunda Tema 5 Estadística Variables Continuas y Discretas

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Parte Segunda Tema 5 Estadística Variables Continuas y Discretas

Uploaded by

Copyright:

Available Formats

Médicos Titulares del Estado

TEMA 5. ESTADÍSTICA. VARIABLES CONTINUAS Y DISCRETAS.

Si las observaciones corresponden a cantidades, las variables pueden

Los procedimientos para obtener las medidas estadísticas difieren levemente

Medidas estadísticas en datos no agrupado

Una propiedad interesante de la media aritmética es que la suma de las desviaciones es

Es una medida de la dispersión relativa de los datos. Se define como la desviación

Medidas de tendencia central y de dispersión en datos agrupados

Si la variable de interés es de tipo continuo será necesario determinar, para cada

Mediana en datos agrupados

Moda en datos agrupados

Varianza en datos agrupados

La inferencia estadística es el conjunto de métodos que permiten inducir, a

En estadística general y contrastes de hipótesis, el valor p (conocido también

El valor p es un valor de probabilidad, por lo que oscila entre 0 y 1. El valor p nos

al resultado observado es igual o menor que un nivel de significación establecido

Aunque cuando el valor de p es inferior al nivel de significación , lo más

siendo más estrictos y rebajando el máximo valor p esperado; un de 0,05 es usado

en investigaciones habituales sociológicas mientras que un más bajo de 0,01 se

La correlación lineal y la regresión lineal simple son métodos estadísticos que

Para estudiar la relación lineal existente entre dos variables continuas es

You might also like