Professional Documents
Culture Documents
Resumen R Commander
Resumen R Commander
En caso de que las variables no estén definidas de forma correcta en R Commander,hacerlo así:
Datos > Modificar variables > Convertir variable numérica en factor > Seleccionar factor (poner
significado a los números) > Guardar
Crear variable:
Datos > Modificar variables > Recodificar variables
Ej: FUMAORD:
0=”No fuma”, 1:19=”1-19 cigarrillos”, 20:29=”20-29 cigarrillos”, 30:hi=”30 o más cigarrillos”
1
TALLER 2.3. INFERENCIA ESTADÍSTICA PARA UNA POBLACIÓN
Contraste de hipótesis
1. Establecer la hipótesis nula y la alternativa (cuanto mayor sea el estadístico t menor será el
pvalue (el t estará en la región crítica, por lo que rechazaremos H0)):
H0: ____ es igual a _____
H1: ____ es distinto a ____
● si pvalor >0.05 aceptamos la hipótesis nula (no podemos rechazarla). Valor estadísticamente
no significativo (no va a haver diferencias entre las variables).
○ el estadístico pivote t va a estar cerca de 0
2
4. En algunos casos vamos a tener que recodificar variables para que nos tenga en cuenta lo
que queremos solo (ej. solo fallecidos SI)
● Datos → conjunto de datos → recodificar variables
○ “Si”=”aSi” → esto lo hacemos para que lea primero el Sí por la a (orden alfabético)
Lo 1ero que tenemos que pensar es si las 2 poblaciones que estamos estudiando son independientes
(ej. niños vs niñas) o están relacionadas (es decir, que son las mismas en ambos casos).
Primero comprobamos cuántas poblaciones tenemos (tenemos que tener 2 a comparar y suele ser
variables cualitativas politómicas/factor), si son independientes y la variable explicada es una
variable cuantitativa contínua.
1. Lo primero que vamos a tener que hacer es hacer un análisis descriptivo para ver los
resultados a priori, aunque todavía no vamos a saber si son estadísticamente significativos
Estadísticos > resúmenes numéricos > … (porque estamos hablando todo el rato de
variables numéricas contínuas)
3. Antes de calcular las medias vamos a tener que hacer un contraste preliminar de igualdad
varianzas para saber si la varianza es igual o distinta
Estadísticos > varianzas > test F para 2 varianzas
○ Planteamiento del contraste: bilateral
■ H0 → Varianza ____ = Varianza _____
■ H1 → Varianza ____ diferente a Varianza _____
○ Variables → van a ser 2
■ Variable explicada → lo que queremos medir
■ Grupos → para comparar la variable explicada entre 2 poblaciones
independientes.
○ Estadístico pivote F
○ pvalue
■ pvalue<0.05 → rechazamos H0 asumiendo que las varianzas son distintas
■ pvalue>0.05 → aceptamos H0 asumiendo que las varianzas son iguales → al
aplicar test t para muestras independientes, vamos a marcar la casilla de
que asumimos varianzas iguales
3
4. Estadísticos > medias > test t para muestras independientes
● Planteamiento del contraste: bilateral
○ H0 → Media de ____ = Media de _____
○ H1 → Media de ____ diferente a media de _____
● Variables → van a ser 2
○ Variable explicada → lo que queremos medir
○ Grupos → para comparar la variable explicada entre 2 poblaciones independientes.
● Estadístico pivote t
● pvalor
○ si pvalor <0.05 rechazamos la hipótesis nula. Valor estadísticamente significativo
(aceptamos que hay diferencias significativas entre los niveles medios de las 2
variables).
■ Estadístico pivote t va a estar en regiones críticas
○ si pvalor >0.05 aceptamos la hipótesis nula (no podemos rechazarla). Valor
estadísticamente no significativo (no va a haber diferencias significativas entre los
niveles medios de las 2 variables).
■ Estadístico pivote t va a estar cerca de 0
● IC
○ si contiene al 0 → aceptamos H0 (el resultado no va a ser significativo)
○ si no contiene al 0 → rechazamos H0 (el resultado va a ser significativo)
Primero comprobamos cuántas poblaciones tenemos (tenemos que tener 2 a comparar y suele ser
variables cualitativas politómicas/factor), si están relacionadas y la variable explicada es una variable
cuantitativa contínua.
1. Lo primero que vamos a tener que hacer es hacer un análisis descriptivo para ver los
resultados a priori, aunque todavía no vamos a saber si son estadísticamente significativos
Estadísticos > resúmenes numéricos > … (porque estamos hablando todo el rato de
variables numéricas contínuas)
3. Antes de calcular las medias vamos a tener que hacer un contraste preliminar de igualdad
varianzas para saber si la varianza es igual o distinta
Estadísticos > varianzas > test F para 2 varianzas
○ Planteamiento del contraste: bilateral
■ H0 → Varianza ____ = Varianza _____
■ H1 → Varianza ____ diferente a Varianza _____
4
○ Variables → van a ser 2
■ Variable explicada → lo que queremos medir
■ Grupos → para comparar la variable explicada entre 2 poblaciones
independientes.
○ Estadístico pivote F
○ pvalue
■ pvalue<0.05 → rechazamos H0 asumiendo que las varianzas son distintas
■ pvalue>0.05 → aceptamos H0 asumiendo que las varianzas son iguales → en
este caso vamos a aplicar test t para muestras independientes y vamos a
marcar la casilla de que asumimos varianzas iguales
OPCIÓN A
Lo primero que hacemos es mirar qué variables tenemos, si es cuantitativa continua la variable
explicada y si se comparan más de 2 poblaciones (variables cualitativas politómicas/factor).
Si hay más de 1 variable explicada hacemos la comparación por grupos individualmente. (variable
explicativa: cualquier factor que puede influir en la variable de respuesta)
5
1. Análisis descriptivo
● Estadísticos > resúmenes numéricos >
a. Observamos las medias + las desviaciones típicas + Pr (>F) → con el pvalue vamos a
ver si hay diferencias entre las medias que sean estadísticamente significativas.
1. Planteamiento de contraste
a. H0: media variable ___ = media variable ___ = media variable ___
b. H1: media variable ___ diferente a media variable ___ diferente a media variable ___
2. Variables
a. Variable explicada
b. Grupos
3. Estadístico pivote → Fp
a. Variabilidad total = Variabilidad INTER + VARIABILIDAD INTRA
4. pvalue
a. pvalue<0.05 → rechazamos H0 → Var. INTER grande Fp grande p-valor pequeño
→ va a haber diferencias estadísticamente significativas entre al menos 2 de los
grupos → Para saber cuáles→ habrá que hacer comparaciones múltiples
Nos va a comparar los diferentes grupos y nos va a dar pvalues diferentes. Aceptamos o rechazamos
cada uno de ellos. Concluimos cual es el mejor grupo mirando la gráfica que nos va a salir y mirando
las medias del principio.
Si vemos que otro e infiltración no tienen diferencias estadísticamente significativas, vamos a asumir
que la intervención.
Tenemos que identificar si las variables del enunciado son todas categóricas/cualitativas.
A continuación, valoramos si podemos hacer una tabla 2x2 o 2x2xk.
6
CUESTIONES A VALORAR
*Antes de todo→ recodificar: “Si”=”Asi”/”No”=”Bno” para que salga primero el si. Escribirlo igual
que en la base de datos.
1. Planteamos hipótesis
a. H0: ____ variable y ____ variable son independientes (no asociación)
b. H1: ____ variable y ____ variable están relacionadas (asociación)
*CUIDADO
- para tablas 2x2 → seleccionamos test exacto de Fisher
- para tablas más grandes → seleccionamos el test de independencia Chi-Cuadrado
3. Verificamos que las frecuencias esperadas sean todas >5 en las tablas de contingencia
● Si todas son >5 → Chi cuadrado
● Si alguna frecuencia esperada es <5 → reagrupar categoría fusionando por filas
● pvalue:
○ pvalue<0.05 → rechazamos H0, por lo que al aceptar H1, ____ y ____ no van a ser
independientes (van a ser dependientes), es decir, van a estar asociados. Por lo
tanto, va a ser estadísticamente significativo.
○ pvalu>0.05 → no rechazamos H0, por lo que al aceptar H0, ____ y ____ van a ser
independientes , es decir, no van a estar asociados. Por tanto, no va a ser
estadísticamente significativo.
7
5. El OR solo nos lo da la prueba de Fisher. Para sacar el RR y OR tenemos que tener la tabla
bien colocada, esto es, evento arriba a la izda y no evento a la dcha. Exposición arriba y no
exposición abajo. Hay que calcularlo con el contaje (no con los porcentajes).
𝑎/𝑎+𝑣
a. RR = 𝑐/𝑐+𝑑
i. RR>1 → factor de riesgo
ii. RR<1 → factor protector
iii. RR=1 → no asociación entre el factor de exposición y la enfermedad
Interpretación RR → si nos da 1,26, los pacientes más expuestos van a tener 1.26
veces más riesgo de padecer el evento.
𝑎*𝑑
b. OR= 𝑣*𝑐
- OR>1 → factor de riesgo
- OR<1 → factor protector
- OR=1 → no asociación entre el factor de exposición y la enfermedad
8
TALLER 2.8. CORRELACIÓN Y REGRESIÓN LINEAL
2. Establecer hipótesis H0 y H1
H0 → B1fumar si=0 → OR=1
H1 → B1fumar si≠ 0 → OR ≠ 1
→ Observamos el valor. Si:
- < 0.05→ Rechazamos H0, por lo que es estadísticamente significativa y fumar afecta
directamente en la mortalidad.
- > 0.05→ No rechazamos H0, por lo que no es estadísticamente significativa y fumar no
afecta directamente en la mortalidad.
9
3. Calcular el Odds ratio y el intervalo de confianza
Modelos > Intervalos de confianza > Estadístico de Wald
→ Si B1/B2… es positivo, decimos que hay una asociación positiva entre las variables ____ y ____
→ Si B1/B2… es negativo, decimos que hay una asociación negativa entre las variables ____ y ____
10
Y: Dicotómica 1. Plantear la recta de regresión, estimar los parámetros de la recta
X: Continua
(Ej: fallece y tensión)
→ logit(p) = β0 + β1*Tensión
→ Sacamos los valores de B0 (Y) y de B1 (X)
Estadísticos > Ajustes de modelo > Modelo lineal generalizado (Binomial y logit)
→ Si B1 es positivo, decimos que hay una asociación positiva entre las variables ____ y ____
→ Si B1 es negativo, decimos que hay una asociación negativa entre las variables ____ y ____
2. Establecer hipótesis H0 y H1
H0 → B1fumar si=0 → OR=1
H1 → B1fumar si≠ 0 → OR ≠ 1
→ Observamos el valor. Si:
- < 0.05→ Rechazamos H0, por lo que es estadísticamente significativa y fumar afecta
directamente en la mortalidad.
- > 0.05→ No rechazamos H0, por lo que no es estadísticamente significativa y fumar no
afecta directamente en la mortalidad.
Ej: OR = 1.035 (1.01 - 1.06) → Como es > 1 y el 1 no entra en el intervalo de confianza, está
directamente relacionado (fact riesgo) con la mortalidad (Hay que mirar IC) y es estadísticamente
significativo.
1.035-1=0.035x 100=3.5% → A medida que aumenta una unidad en la tensión arterial, el riesgo
de mortalidad aumenta un 3.5%.
→ Si B1/B2… es positivo, decimos que hay una asociación positiva entre las variables ____ y ____
→ Si B1/B2… es negativo, decimos que hay una asociación negativa entre las variables ____ y ____
11
→ Observamos el valor. Si:
- < 0.05→ Rechazamos H0, por lo que es estadísticamente significativa y fumar afecta
directamente en la mortalidad.
- > 0.05→ No rechazamos H0, por lo que no es estadísticamente significativa y fumar no
afecta directamente en la mortalidad.
(Tensión) → 1.04-1 = 0.04 x 100 = 4% → A medida que aumenta una unidad en la tensión
arterial, el riesgo de mortalidad (probabilidad de fallecer) aumenta un 4%. (ajustado por el hábito
tabáquico).
(Fumar) → 2.12-1 = 1.12 x 100 = 112% (Esto no hay que hacer cuando sea 2 o más)→ El hecho
de fumar aumenta el riesgo de mortalidad 2.12 veces (un 112%) respecto a los no fumadores,
ajustado por la tensión.
IMPORTANTE: La variable resultado(evento) tiene que estar codificado como 1 y el no evento como
0(si no nos saldrá todo al revés)
12
1. FICHERO DE DATOS
Principales funciones:
• Importar: Datos > Importar datos (de un archivo excel)
• Fusionar: Datos > Fusionar conjunto de datos
→ por filas: diferentes personas mismas variables→ las columnas tienen que llamarse iguales
→ por columnas: mismas personas diferente información → el ID tiene que ser igual→ esa variable
se queda en gris porque hemos clicado la opción del medio también
• Cargar: Datos > Cargar conjunto de datos (cuando ya está en formato RD)
• Guardar (.Rdata): Datos > Conjunto de datos activo > Guardar el conjunto de datos activo (tenemos
que guardar cada vez que: importamos, creamos variables, fusionamos ficheros etc.)
• Ordenar: Datos > Conjunto de datos activo > Ordenar el conjunto de datos activo… (para comprobar
que se haya hecho bien la recodificación o cuando piden valor mayor y menor de una variable )
• Seleccionar datos: Datos > Conjunto de datos activo > Filtrar el conjunto de datos activo… (doble
signo igual). Cuando cambiemos de ariketa→ cambiar a la base de datos anterior para no trabajar
con la filtrada (normalmente da igual pero por si acaso)
• Cambiar el tipo de variables: Datos > Modificar variables del conjunto de datos activo > Convertir
variable numérica en factor…
→ hay que decirle al ordenador cuáles son cualitativas y cuales numéricas
→ cuando convertimos una numérica en factor→ se puede mantener el número o ponerle etiquetas
Ejemplos:
• Calcular la variable IMC a partir de la Altura y Peso: IMC = Peso (kg) / Altura2(m2)
• Calcular la variable Altura en metros a partir de la Altura en cm: Altura (m) = Altura (cm) / 100
Ejemplos:
• A partir de una variable TABACO que mide en número de paquetes/año en 4 categorías: 0 = “No
fumador”, 1 = “1-11 paquetes/año”, 2 = “11-20 paquetes año” y 3 = “>20 paquetes año”, calcular una
variable dicotómica que clasifica los pacientes en 0 = “No fuma” y 1 = “Si fuma”
13
También se puede poner:
0=”NO FUMADOR” 1=” FUMADOR” 2=” FUMADOR” 3=” FUMADOR”
*Evitar los signos <|> porque dan problemas→ poner texto en su lugar
El que lleve un igual→ siempre el primero
3. ANÁLISIS DESCRIPTIVO
14
Resumen de todas las variables: > Estadísticos > Resúmenes > Conjunto de datos activo…
El programa ya sabe qué tiene que hacer porque tiene en cuenta el tipo de variable que es
Variables categóricas:
• Gráfico de barras: > Gráficas > Gráficas de barras…
• Gráfico de sectores: > Gráficas > Gráficas de sectores…
*en el examen no entra pero sí: ¿Qué gráfico utilizarías para…?
Variables cuantitativas:
• Histograma: > Gráficas > Histograma…
• Diagrama de caja: > Gráficas > Diagrama de caja…
→ raya horizontal gruesa→ mediana
→ la caja de q1 a q3
→ los bigotes son: o el mínimo y el máximo o 1.5 por el rango
intercuartílico (cuando hay puntitos por encima o debajo del bigote)
4. ANÁLISIS DE LA NORMALIDAD
La parte descriptiva con el histograma nos puede dar pistas pero hacemos Prueba de
Kolmogorov-Smirnov.
Análisis descriptivo:
• Histograma: forma acampanada.
• Estadísticos de tendencia central: Media, Mediana, Moda similares
• Estadísticos de distribución: Coeficiente de Kurtosis y Asimetría
próximos a 0.
15
5. INFERENCIA PARA UNA POBLACIÓN
Contraste para una proporción: > Estadísticos > Proporciones > Test de proporciones para una
muestra
Ejemplo: Queremos contrastar la hipótesis de si el porcentaje de individuos de 9 años o menores es
del 50%. Cuando son porcentajes
• Si la variable no sigue una distribución normal: >Estadísticos > Test no paramétricos >Test de
Wilcoxon para una muestra
16
→Homogeneidad→ si la distribución de una de las variables es homogénea según la otra
*cuando hay que agrupar→ solo cuando no haya gente suficiente en un grupo
Herramientas:
• Si la variable cuantitativa sigue una distribución normal: (por grupos: en casos y controles)
1. Prueba preliminar de igualdad de varianzas: > Estadísticos > Varianzas > Test F para dos
varianzas (hay un clic en opciones de varianza para poner SI o NO)
Ejemplo: comparar el nivel de homocisteína dependiendo del hábito tabáquico considerado como
fumador, no fumador o exfumador.
Herramientas:
● Si la variable cuantitativa sigue una distribución normal:
○ Análisis de la varianza (ANOVA) + Comparaciones múltiples (Tukey, …)
○ > Estadísticos > Medias > ANOVA de un factor
*con que sea distinta en algún caso→ suficiente para rechazar H0→ comparaciones múltiples
17
Influencia de una o más variables sobre una variable cuantitativa
Ejemplo: analizar si la edad (X) y nivel de vitamina B12(X) influyen sobre el nivel de homocisteína (Y)
→Herramienta: Modelo de regresión lineal
→R Commander: >Estadísticos > Ajustes de modelos > Regresión lineal
Ejemplo: analizar si la edad (X) y el sexo (X) influye sobre el nivel de homocisteina (Y)
→Herramienta: Modelo lineal general
→R Commander: >Estadísticos > Ajustes de modelos > Modelo lineal
Ejemplo: analizar si la edad (X) y el fumar (X) (si/no) influyen en la mortalidad (Y)
Herramientas:
• Modelo de regresión logística
• R Commander: >Estadísticos > Ajustes de modelos > Modelo lineal generalizado
18