Resumen R Commander

RESUMEN R COMMANDER
TALLER 2.1. VARIABLES Y FICHEROS DE DATOS
Importar base de datos:

Datos > Importar datos > Desde excel > (Nombre: INFARTO_A) > Marcar la casilla del medio
Crear única base de datos/fusionar conjunto de datos:

Datos > Fusionar conjunto de datos > Seleccionamos INFARTO_A y luego INFARTO_B > Seleccionamos
fusionar columnas > Fusión únicamente de filas o columnas comunes
En caso de que las variables no estén definidas de forma correcta en R Commander,hacerlo así:
Datos > Modificar variables > Convertir variable numérica en factor > Seleccionar factor (poner
significado a los números) > Guardar
Crear variable:
Datos > Modificar variables > Recodificar variables
Ej: FUMAORD:
0=”No fuma”, 1:19=”1-19 cigarrillos”, 20:29=”20-29 cigarrillos”, 30:hi=”30 o más cigarrillos”
Crear variable (utilización de variables para hacer cálculos):

Datos > Modificar variables > Calcular nueva variable
Ej: IMC= peso/altura^2
TALLER 2.2. ESTADÍSTICA DESCRIPTIVA
➔ Realice un análisis descriptivo de la variable …

◆ Si es una variable categórica
● Estadísticos > resúmenes > distribución de frecuencias (¿Qué % de
individuos…?)
◆ Si es una variable cuantitativa
● Estadísticos > resúmenes > resúmenes numéricos
➔ Realice la representación gráfica que mejor se adecúe

◆ Para variables categóricas (edad3c)
● Gráfica de barras
● Gráfica de sectores (¿Qué % de individuos…?)
◆ Para variables cuantitativas contínuas
● Histograma
◆ Para variables cuantitativas discretas (0,1,2,...)
● Dibujar una variable numérica discreta (ej.altura)
● Diagrama de cajas (bigotes) → para representar dispersión/asimetría
➔ Para obtener todas las variables basales

◆ Estadísticos > resúmenes > conjunto de datos activos
1
TALLER 2.3. INFERENCIA ESTADÍSTICA PARA UNA POBLACIÓN
Contraste de hipótesis
1. Establecer la hipótesis nula y la alternativa (cuanto mayor sea el estadístico t menor será el
pvalue (el t estará en la región crítica, por lo que rechazaremos H0)):
H0: ____ es igual a _____
H1: ____ es distinto a ____
2. Contraste de hipótesis para la media

a. Medias > test t para una muestra…
b. Sacamos el valor del estadístico t (pivote)
c. Sacamos pvalor
● si pvalor <0.05 rechazamos la hipótesis nula. Valor estadísticamente significativo (aceptamos

que hay diferencias entre las variables).
○ el estadístico pivote t va a estar en regiones críticas
● si pvalor >0.05 aceptamos la hipótesis nula (no podemos rechazarla). Valor estadísticamente
no significativo (no va a haver diferencias entre las variables).
○ el estadístico pivote t va a estar cerca de 0
d. Sacamos el valor medio→ El valor medio siempre va a estar dentro del IC

e. Nos fijamos en la hipótesis alternativa y vemos si ese valor está o no dentro del IC
● si está dentro no podemos rechazar H0 (hay que aceptarla)
● si está fuera rechazamos H0
3. Contraste de hipótesis para la proporción (nos lo pueden pedir o no)

*Acordarse antes de realizar el test de proporciones para una muestra, tenemos que recodificar:
“Si”=”Asi”/”No”=”Bno”
● Estadísticos > proporciones > test de proporciones para una muestra > … SELECCIONAMOS
aproximación normal
○ Sacamos la proporción (probability of success)
○ Sacamos pvalor
■ si pvalor <0.05 rechazamos la hipótesis nula. Valor estadísticamente
significativo (aceptamos que hay diferencias entre las variables).
● estadístico pivote t va a estar en regiones críticas
■ si pvalor >0.05 aceptamos la hipótesis nula (no podemos rechazarla). Valor

estadísticamente no significativo (no va a haber diferencias entre las
variables).
● estadístico pivote t va a estar cerca de 0
○ La p del suceso siempre va a estar dentro del IC
○ Nos fijamos en la hipótesis alternativa y vemos si ese valor está o no dentro del IC
■ si está dentro no podemos rechazar H0 (hay que aceptarla)
■ si está fuera rechazamos H0
2
4. En algunos casos vamos a tener que recodificar variables para que nos tenga en cuenta lo
que queremos solo (ej. solo fallecidos SI)
● Datos → conjunto de datos → recodificar variables
○ “Si”=”aSi” → esto lo hacemos para que lea primero el Sí por la a (orden alfabético)
TALLER 2.4. INFERENCIA ESTADÍSTICA PARA DOS POBLACIONES → Variables

continuas/cuantitativa
Lo 1ero que tenemos que pensar es si las 2 poblaciones que estamos estudiando son independientes
(ej. niños vs niñas) o están relacionadas (es decir, que son las mismas en ambos casos).
1. Inferencia para 2 medias independientes (variables cuantitativas)
Primero comprobamos cuántas poblaciones tenemos (tenemos que tener 2 a comparar y suele ser
variables cualitativas politómicas/factor), si son independientes y la variable explicada es una
variable cuantitativa contínua.
Procedemos a comparación de 2 medias independientes
1. Lo primero que vamos a tener que hacer es hacer un análisis descriptivo para ver los
resultados a priori, aunque todavía no vamos a saber si son estadísticamente significativos
Estadísticos > resúmenes numéricos > … (porque estamos hablando todo el rato de
variables numéricas contínuas)
2. Test de normalidad→ si la distribución es normal hacemos las varianzas y luego media y si

no es normal test no paramétrico. En este taller, la distribución va a ser normal.
Hipótesis:
○ Ho: Proviene de una distribución normal
○ H1: No proviene de una distribución normal
Estadísticos > Resúmenes > Test de normalidad
3. Antes de calcular las medias vamos a tener que hacer un contraste preliminar de igualdad
varianzas para saber si la varianza es igual o distinta
Estadísticos > varianzas > test F para 2 varianzas
○ Planteamiento del contraste: bilateral
■ H0 → Varianza ____ = Varianza _____
■ H1 → Varianza ____ diferente a Varianza _____
○ Variables → van a ser 2
■ Variable explicada → lo que queremos medir
■ Grupos → para comparar la variable explicada entre 2 poblaciones
independientes.
○ Estadístico pivote F
○ pvalue
■ pvalue<0.05 → rechazamos H0 asumiendo que las varianzas son distintas
■ pvalue>0.05 → aceptamos H0 asumiendo que las varianzas son iguales → al
aplicar test t para muestras independientes, vamos a marcar la casilla de
que asumimos varianzas iguales
3
4. Estadísticos > medias > test t para muestras independientes
● Planteamiento del contraste: bilateral
○ H0 → Media de ____ = Media de _____
○ H1 → Media de ____ diferente a media de _____
● Variables → van a ser 2
○ Variable explicada → lo que queremos medir
○ Grupos → para comparar la variable explicada entre 2 poblaciones independientes.
● Estadístico pivote t
● pvalor
○ si pvalor <0.05 rechazamos la hipótesis nula. Valor estadísticamente significativo
(aceptamos que hay diferencias significativas entre los niveles medios de las 2
variables).
■ Estadístico pivote t va a estar en regiones críticas
○ si pvalor >0.05 aceptamos la hipótesis nula (no podemos rechazarla). Valor
estadísticamente no significativo (no va a haber diferencias significativas entre los
niveles medios de las 2 variables).
■ Estadístico pivote t va a estar cerca de 0
● IC
○ si contiene al 0 → aceptamos H0 (el resultado no va a ser significativo)
○ si no contiene al 0 → rechazamos H0 (el resultado va a ser significativo)
2. Inferencia para 2 medias relacionadas (variables cuantitativas)
Primero comprobamos cuántas poblaciones tenemos (tenemos que tener 2 a comparar y suele ser
variables cualitativas politómicas/factor), si están relacionadas y la variable explicada es una variable
cuantitativa contínua.
Procedemos a la comparación de 2 medias relacionadas:
1. Lo primero que vamos a tener que hacer es hacer un análisis descriptivo para ver los
resultados a priori, aunque todavía no vamos a saber si son estadísticamente significativos
Estadísticos > resúmenes numéricos > … (porque estamos hablando todo el rato de
variables numéricas contínuas)
2. Test de normalidad→ si la distribución es normal hacemos las varianzas y luego media y si

no es normal test no paramétrico. En este taller, la distribución va a ser normal.
Hipótesis:
○ Ho: Proviene de una distribución normal
○ H1: No proviene de una distribución normal
Estadísticos > Resúmenes > Test de normalidad
3. Antes de calcular las medias vamos a tener que hacer un contraste preliminar de igualdad
varianzas para saber si la varianza es igual o distinta
Estadísticos > varianzas > test F para 2 varianzas
○ Planteamiento del contraste: bilateral
■ H0 → Varianza ____ = Varianza _____
■ H1 → Varianza ____ diferente a Varianza _____
4
○ Variables → van a ser 2
■ Variable explicada → lo que queremos medir
■ Grupos → para comparar la variable explicada entre 2 poblaciones
independientes.
○ Estadístico pivote F
○ pvalue
■ pvalue<0.05 → rechazamos H0 asumiendo que las varianzas son distintas
■ pvalue>0.05 → aceptamos H0 asumiendo que las varianzas son iguales → en
este caso vamos a aplicar test t para muestras independientes y vamos a
marcar la casilla de que asumimos varianzas iguales
OPCIÓN A
4. Estadísticos → medias → test t para datos relacionados

● Planteamiento del contraste: bilateral
○ H0 → Media de ____ = Media de _____
○ H1 → Media de ____ diferente a media de _____
● Variables → van a ser 2
○ Primera variable
○ Segunda variable
● Estadístico pivote t
● pvalor
○ si pvalor <0.05 rechazamos la hipótesis nula. Valor estadísticamente significativo
(aceptamos que hay diferencias significativas entre los niveles medios de las 2
variables relacionadas) → Estadístico pivote t va a estar en regiones críticas
○ si pvalor >0.05 aceptamos la hipótesis nula (no podemos rechazarla). Valor
estadísticamente no significativo (no va a haber diferencias significativas entre los
niveles medios de las 2 variables relacionadas) → Estadístico pivote t va a estar cerca
de 0
○ La media de la diferencia nos la va a indicar Rcommander
● IC
○ si contiene al 0 → aceptamos H0 (el resultado no va a ser significativo)
○ si no contiene al 0 → rechazamos H0 (el resultado va a ser significativo)
OPCIÓN B (si no nos deja con la opción A aplicamos ésta)
3. Estadísticos → medias → test t para muestras independientes
Le damos a suponer varianzas iguales en caso de que hayamos aceptado H0.
TALLER 2.5. INFERENCIA ESTADÍSTICA PARA MÁS DE 2 POBLACIONES: VARIABLES CONTINUAS
Lo primero que hacemos es mirar qué variables tenemos, si es cuantitativa continua la variable
explicada y si se comparan más de 2 poblaciones (variables cualitativas politómicas/factor).
Si hay más de 1 variable explicada hacemos la comparación por grupos individualmente. (variable
explicativa: cualquier factor que puede influir en la variable de respuesta)
5
1. Análisis descriptivo
● Estadísticos > resúmenes numéricos >
a. Observamos las medias + las desviaciones típicas + Pr (>F) → con el pvalue vamos a
ver si hay diferencias entre las medias que sean estadísticamente significativas.
Una vez identificado el caso, vamos a aplicar el contraste Anova:

Estadísticos → Medias → Anova de un factor (no clicamos nada)
1. Planteamiento de contraste
a. H0: media variable ___ = media variable ___ = media variable ___
b. H1: media variable ___ diferente a media variable ___ diferente a media variable ___
2. Variables
a. Variable explicada
b. Grupos
3. Estadístico pivote → Fp
a. Variabilidad total = Variabilidad INTER + VARIABILIDAD INTRA
4. pvalue
a. pvalue<0.05 → rechazamos H0 → Var. INTER grande Fp grande p-valor pequeño
→ va a haber diferencias estadísticamente significativas entre al menos 2 de los
grupos → Para saber cuáles→ habrá que hacer comparaciones múltiples
b. pvalue > 0.05 → aceptamos H0 → Si H0 es cierta → Var. INTER pequeña Fp

pequeño p-valor grande (diferencias estadísticamente no significativas)
5. Comparaciones múltiples → sólo se utilizan si se rechaza al menos un H0 en el contraste

Anova
Estadísticos → Medias → Anova de un factor (+clicamos comparaciones 2 a 2 de las
medias)
Nos va a comparar los diferentes grupos y nos va a dar pvalues diferentes. Aceptamos o rechazamos
cada uno de ellos. Concluimos cual es el mejor grupo mirando la gráfica que nos va a salir y mirando
las medias del principio.
P.e tenemos este suceso:

● infiltración-intervención → diferencias est. significativas
● otro-intervención → diferencias est. significativas
● otro-infiltración → no diferencias est.
Por tanto, solo queda intervención que tenga diferencias estadísticamente significativas. Lo podemos
comprobar mirando las medias obtenidas previamente. Veremos qué intervención era la más alta.
Si vemos que otro e infiltración no tienen diferencias estadísticamente significativas, vamos a asumir
que la intervención.
TALLER 2.6. INFERENCIA ESTADÍSTICA PARA 2 O + POBLACIONES: VARIABLES CUALITATIVAS
Tenemos que identificar si las variables del enunciado son todas categóricas/cualitativas.
A continuación, valoramos si podemos hacer una tabla 2x2 o 2x2xk.
6
CUESTIONES A VALORAR
● Las variables A y V son independientes o están asociadas?

● ¿Cómo evaluar la asociación entre A y V?
● Si lo están, cuál es su medida de asociación y magnitud?
○ OR
○ RR
● Para saber qué variable va en columna y cual en fila, hay que saber que variable influencia en
cual. Las de riesgo van a ir en las filas.
*Antes de todo→ recodificar: “Si”=”Asi”/”No”=”Bno” para que salga primero el si. Escribirlo igual
que en la base de datos.
1. Planteamos hipótesis
a. H0: ____ variable y ____ variable son independientes (no asociación)
b. H1: ____ variable y ____ variable están relacionadas (asociación)
2. >Estadísticos > Tablas de contingencia > Tabla de doble entrada

a. Variable de fila → explicativa
b. Variable de columna → explicada (la que nos interesa
estudiar)
Elegimos porcentaje por filas o por columnas dependiendo de donde

coloquemos las variables.
*CUIDADO
- para tablas 2x2 → seleccionamos test exacto de Fisher
- para tablas más grandes → seleccionamos el test de independencia Chi-Cuadrado
3. Verificamos que las frecuencias esperadas sean todas >5 en las tablas de contingencia
● Si todas son >5 → Chi cuadrado
● Si alguna frecuencia esperada es <5 → reagrupar categoría fusionando por filas
4. De esta tabla tenemos que interpretar lo siguiente:
● De toda la muestra cuántos presentan características normales (ej. TA normal)

○ De esos cuantos presentan el evento (ej. apnea)
● De toda la muestra cuántos presentan el factor de riesgo (ej. HTA)
○ De esos cuantos presentan el evento (ej.apnea)
Podemos interpretarlo tanto en números como en porcentajes.
● pvalue:
○ pvalue<0.05 → rechazamos H0, por lo que al aceptar H1, ____ y ____ no van a ser
independientes (van a ser dependientes), es decir, van a estar asociados. Por lo
tanto, va a ser estadísticamente significativo.
○ pvalu>0.05 → no rechazamos H0, por lo que al aceptar H0, ____ y ____ van a ser
independientes , es decir, no van a estar asociados. Por tanto, no va a ser
estadísticamente significativo.
7
5. El OR solo nos lo da la prueba de Fisher. Para sacar el RR y OR tenemos que tener la tabla
bien colocada, esto es, evento arriba a la izda y no evento a la dcha. Exposición arriba y no
exposición abajo. Hay que calcularlo con el contaje (no con los porcentajes).
𝑎/𝑎+𝑣
a. RR = 𝑐/𝑐+𝑑
i. RR>1 → factor de riesgo
ii. RR<1 → factor protector
iii. RR=1 → no asociación entre el factor de exposición y la enfermedad
Interpretación RR → si nos da 1,26, los pacientes más expuestos van a tener 1.26
veces más riesgo de padecer el evento.
𝑎*𝑑
b. OR= 𝑣*𝑐
- OR>1 → factor de riesgo
- OR<1 → factor protector
- OR=1 → no asociación entre el factor de exposición y la enfermedad
Si los IC del OR en la prueba de Fisher contienen al 1, no va a ser estadísticamente significativo el OR.
TALLER 2.7. PRUEBAS DE AJUSTE Y PRUEBAS NO PARAMÉTRICAS
1. Gráficas > Histograma

2. Hipótesis:
● Ho: Proviene de una distribución normal
● H1: No proviene de una distribución normal
3. Estadísticos > Resúmenes > Test de normalidad
4. Hipótesis:
● Mediana de______= Mediana de______
● Mediana de______≠ Mediana de______
5. Si:
● Proviene de distribución normal: Estadísticos > Medias > Test t para una muestra,
Test t para muestras independientes, ANOVA. *Antes de realizar medias, calcular
varianzas.
● No proviene de distribución normal: Test no paramétrico
8
TALLER 2.8. CORRELACIÓN Y REGRESIÓN LINEAL
1. Gráficas de dispersión de las variables:

Gráficas > Diagrama de dispersión > Variables X e Y
2. Coeficiente de correlación entre variables:

H0: Coeficiente de correlación igual a 0. No hay relación entre variables
H1: Coeficiente de correlación distinto de 0. Hay relación entre variables
Estadísticos > Resúmenes > Matriz de correlaciones → pvalues pareados
3. Recta de regresión lineal (Y=B0+B1X)

Estadísticos > Ajuste de modelos > Regresión lineal > Variable explicada (y) y variable
explicativa (x) + Modelos > IC
CUIDADO REGRESIÓN LINEAL MÚLTIPLE
4. Efecto estadísticamente significativo (pvalues):

H0: B1 = 0→ No efecto estadísticamente significativo
H1: B1 ≠ 0→ Efecto estadísticamente significativo
5. R^2: Si R^2 es negativo, lo consideramos como 0 y no se puede explicar su variabilidad

Ej interpretación: Si R^2=0,0344=3,44% → El IMC explica un 3,44% de la variabilidad de la
tensión arterial.
TALLER 2.8. CORRELACIÓN Y REGRESIÓN LINEAL
Podemos tener 4 escenarios:

Y: Dicotómica 1. Plantear la recta de regresión, estimar los parámetros de la recta
X: Dicotómica
(Ej: fallece y fumar)
→ logit(p) = β0 + β1*FUMACAT
→ Sacamos los valores de B0 (Y) y de B1 (X)
Estadísticos > Ajustes de modelo > Modelo lineal generalizado (Binomial y logit, asegurarnos que
están puestos)
→ Si B1 es positivo, decimos que hay una asociación positiva entre las variables ____ y ____
→ Si B1 es negativo, decimos que hay una asociación negativa entre las variables ____ y ____
2. Establecer hipótesis H0 y H1
H0 → B1fumar si=0 → OR=1
H1 → B1fumar si≠ 0 → OR ≠ 1
→ Observamos el valor. Si:
- < 0.05→ Rechazamos H0, por lo que es estadísticamente significativa y fumar afecta
directamente en la mortalidad.
- > 0.05→ No rechazamos H0, por lo que no es estadísticamente significativa y fumar no
afecta directamente en la mortalidad.
9
3. Calcular el Odds ratio y el intervalo de confianza
Modelos > Intervalos de confianza > Estadístico de Wald
Si el OR es >2 nos olvidamos del % y utilizamos en número tal cual.

→ Interpretar juntos OR e IC
Ej: OR = 1.89 (1.02 - 3.53) → Como es > 1 y el 1 no entra en el intervalo de confianza, está
directamente relacionado (factor riesgo) con la mortalidad (Hay que mirar IC) y es
1.89-1=0.89x 100=89% → Fumar aumenta un 89% la probabilidad de mortalidad.

X: Categórica (>=3 cat)
(Ej: fallece y salud)
En el caso de la salud,
→ logit(p) = β0 + β1*SALUD regular + β2* SALUD mala
tiene 3 categorías: muy
buena, regular y mala→ → Sacamos los valores de B0 (Y) y de las B1 (X) (dependiendo de la cantidad de categorías que
Tomamos de referencia haya, si hay 3, tomamos 1 de referencia y escribimos las otras 2 en la ecuación)
la que es muy buena Estadísticos > Ajustes de modelo > Modelo lineal generalizado (Binomial y logit)
→ Si B1/B2… es positivo, decimos que hay una asociación positiva entre las variables ____ y ____
→ Si B1/B2… es negativo, decimos que hay una asociación negativa entre las variables ____ y ____
2. Establecer hipótesis H0 y H1 (por cada X, escribir una H0 y una H1)



Ej: OR (SALUDregular)= 0.8 (0.42 - 1.54) → Como es < 1 y el intervalo de confianza incluye al 1, NO
está directamente relacionado (esta inversamente relacionado) con la mejoría (Hay que mirar IC) y
NO es estadísticamente significativo.
0.8 - 1 = -0.2 x 100 = -20% → Una salud regular disminuye la probabilidad de de mejoría un
20%, PERO NO ES ESTADÍSTICAMENTE SIGNIFICATIVO.
OR (SALUDmala)= 0.25 (0.07 - 0.95) → Como es < 1 y el intervalo de confianza no incluye al 1, NO

está directamente relacionado (es una asociación inversa) con la mortalidad (Hay que mirar IC) y SI
es estadísticamente significativo.
0.25 - 1 = -0.75 x 100 = -75% → Una salud mala disminuye la probabilidad de mejoría en un
75%, respecto a aquellos con una salud muy buena.
10
X: Continua
(Ej: fallece y tensión)
→ logit(p) = β0 + β1*Tensión
→ Sacamos los valores de B0 (Y) y de B1 (X)
Estadísticos > Ajustes de modelo > Modelo lineal generalizado (Binomial y logit)
→ Si B1 es positivo, decimos que hay una asociación positiva entre las variables ____ y ____
→ Si B1 es negativo, decimos que hay una asociación negativa entre las variables ____ y ____
2. Establecer hipótesis H0 y H1


→ Interpretar juntos OR e IC (Ejemplos de interpretación)
Ej: OR = 1.035 (1.01 - 1.06) → Como es > 1 y el 1 no entra en el intervalo de confianza, está
directamente relacionado (fact riesgo) con la mortalidad (Hay que mirar IC) y es estadísticamente
significativo.
1.035-1=0.035x 100=3.5% → A medida que aumenta una unidad en la tensión arterial, el riesgo
de mortalidad aumenta un 3.5%.
Mezcla: 1. Plantear la recta de regresión, estimar los parámetros de la recta

Y: Dicotómica
X: Continua
X Categórica
→ logit(p) = = β0 + β1*FUMACATfumar si + β2*TENSIÓN
(Ej: fallece, tensión y
fumar) → Sacamos los valores de B0 (Y) y de las B1 (X) (dependiendo de la cantidad de categorías que
haya, si hay 3, tomamos 1 de referencia y escribimos las otras 2 en la ecuación)
Estadísticos > Ajustes de modelo > Modelo lineal generalizado (Binomial y logit, asegurarnos
que están puestos)
→ Si B1/B2… es positivo, decimos que hay una asociación positiva entre las variables ____ y ____
→ Si B1/B2… es negativo, decimos que hay una asociación negativa entre las variables ____ y ____
2. Establecer hipótesis H0 y H1 (por cada X, escribir una H0 y una H1)

11


Ej: OR:
● (Tensión) 1.04 (1.01 - 1.06) → Como es > 1 y el 1 no entra en el intervalo de confianza,
está directamente relacionado (factor riesgo) con la mortalidad (Hay que mirar IC) y es
● (Fumar si) 2.12 (1.12-4.07)→ Como es > 1 y el 1 no entra en el intervalo de confianza,
está directamente relacionado (factor riesgo) con la mortalidad (Hay que mirar IC) y es
(Tensión) → 1.04-1 = 0.04 x 100 = 4% → A medida que aumenta una unidad en la tensión
arterial, el riesgo de mortalidad (probabilidad de fallecer) aumenta un 4%. (ajustado por el hábito
tabáquico).
(Fumar) → 2.12-1 = 1.12 x 100 = 112% (Esto no hay que hacer cuando sea 2 o más)→ El hecho
de fumar aumenta el riesgo de mortalidad 2.12 veces (un 112%) respecto a los no fumadores,
ajustado por la tensión.
IMPORTANTE: La variable resultado(evento) tiene que estar codificado como 1 y el no evento como
0(si no nos saldrá todo al revés)
Si el IC contiene al 1, NO ES ESTADÍSTICAMENTE SIGNIFICATIVO

Si el IC NO contiene al 1, SÍ ES ESTADÍSTICAMENTE SIGNIFICATIVO
Filtrado especial: Ej. queremos quitar “otro” en infarto.

Filtrar datos → infarto (quitamos no y otro, porque nos interesa dependiendo del tipo de infarto,
esto es, solo los infartados)
infarto==”leve”|infarto==”agudo”|infarto==”muerte”
→ *Sobreescribimos variable (no hay que renombrarla).
Para mirara valores perdido en cada variable→ Estadísticos> Resúmenes> Nº de observaciones

Seleccionar individuos que…→ Datos > Conjunto de datos activo > Filtrar conjunto de datos activo
Ej: Nombre: INFARTADOS→ INFARTOC==”Si”
Acordarse de poner AJUSTADO POR ____→ OR no ajustado → 1 variable/ OR ajustado → 2 o +
variables (ej. ajustado por …)
12
1. FICHERO DE DATOS
Principales funciones:
• Importar: Datos > Importar datos (de un archivo excel)
• Fusionar: Datos > Fusionar conjunto de datos
→ por filas: diferentes personas mismas variables→ las columnas tienen que llamarse iguales
→ por columnas: mismas personas diferente información → el ID tiene que ser igual→ esa variable
se queda en gris porque hemos clicado la opción del medio también
• Cargar: Datos > Cargar conjunto de datos (cuando ya está en formato RD)
• Guardar (.Rdata): Datos > Conjunto de datos activo > Guardar el conjunto de datos activo (tenemos
que guardar cada vez que: importamos, creamos variables, fusionamos ficheros etc.)
• Ordenar: Datos > Conjunto de datos activo > Ordenar el conjunto de datos activo… (para comprobar
que se haya hecho bien la recodificación o cuando piden valor mayor y menor de una variable )
• Seleccionar datos: Datos > Conjunto de datos activo > Filtrar el conjunto de datos activo… (doble
signo igual). Cuando cambiemos de ariketa→ cambiar a la base de datos anterior para no trabajar
con la filtrada (normalmente da igual pero por si acaso)
• Cambiar el tipo de variables: Datos > Modificar variables del conjunto de datos activo > Convertir
variable numérica en factor…
→ hay que decirle al ordenador cuáles son cualitativas y cuales numéricas
→ cuando convertimos una numérica en factor→ se puede mantener el número o ponerle etiquetas
2. CREACIÓN DE NUEVAS VARIABLES
Calcular nueva variable:

Cuando hacemos operaciones aritméticas entre variables de la base de datos
Ejemplos:
• Calcular la variable IMC a partir de la Altura y Peso: IMC = Peso (kg) / Altura2(m2)
• Calcular la variable Altura en metros a partir de la Altura en cm: Altura (m) = Altura (cm) / 100
Recodificar una variable:
Ejemplos:
• A partir de una variable TABACO que mide en número de paquetes/año en 4 categorías: 0 = “No
fumador”, 1 = “1-11 paquetes/año”, 2 = “11-20 paquetes año” y 3 = “>20 paquetes año”, calcular una
variable dicotómica que clasifica los pacientes en 0 = “No fuma” y 1 = “Si fuma”
13
También se puede poner:
0=”NO FUMADOR” 1=” FUMADOR” 2=” FUMADOR” 3=” FUMADOR”
Categorizar una variable:
En una variable cuantitativa establecemos puntos de corte para categorizarla en X categorías

Ejemplos:
• Categorizar la variable cuantitativa EDAD en dos grupos ≤ 9 años y > 9 años
*Evitar los signos <|> porque dan problemas→ poner texto en su lugar
El que lleve un igual→ siempre el primero
3. ANÁLISIS DESCRIPTIVO
Análisis descriptivo numéricamente:
Dependiendo del tipo de variable

- Variables cualitativa/categóricas: > Estadísticos > Resúmenes > Distribución de frecuencias…
• Tablas de frecuencias: n (frecuencia), %
- Variables cuantitativas: > Estadísticos > Resúmenes > Resúmenes numéricos
• Estadísticos de centralización: media, mediana.
• Estadísticos de dispersión: desviación estándar, rango, rango intercuartílico,...
• Estadísticos de posición: percentiles, cuartiles, deciles.
• Estadísticos de forma: asimetría y kurtosis. (usamos poco)
14
Resumen de todas las variables: > Estadísticos > Resúmenes > Conjunto de datos activo…
El programa ya sabe qué tiene que hacer porque tiene en cuenta el tipo de variable que es
Análisis descriptivo gráficamente
Variables categóricas:
• Gráfico de barras: > Gráficas > Gráficas de barras…
• Gráfico de sectores: > Gráficas > Gráficas de sectores…
*en el examen no entra pero sí: ¿Qué gráfico utilizarías para…?
Variables cuantitativas:
• Histograma: > Gráficas > Histograma…
• Diagrama de caja: > Gráficas > Diagrama de caja…
→ raya horizontal gruesa→ mediana
→ la caja de q1 a q3
→ los bigotes son: o el mínimo y el máximo o 1.5 por el rango
intercuartílico (cuando hay puntitos por encima o debajo del bigote)
4. ANÁLISIS DE LA NORMALIDAD
Para analizar cuantitativas, inferencias para una media, comparación etc

Hay que mirar la normalidad para decidirnos por paramétricas o no paramétricas.
Análisis normalidad variables continuas
La parte descriptiva con el histograma nos puede dar pistas pero hacemos Prueba de
Kolmogorov-Smirnov.
Análisis descriptivo:
• Histograma: forma acampanada.
• Estadísticos de tendencia central: Media, Mediana, Moda similares
• Estadísticos de distribución: Coeficiente de Kurtosis y Asimetría
próximos a 0.
Contraste de hipótesis: > Estadísticos > Resúmenes > Test de normalidad

● Prueba de Kolmogorov-Smirnov (siempre usamos esta)
o que la distribución de la variable es igual a la normal

o que la distribución de la variable no es la normal
p-value< 0,05→ no sigue una distribución normal

p-value> 0,05→ sigue una distribución normal
15
5. INFERENCIA PARA UNA POBLACIÓN
Para comparar 2 o más medias

Contraste para una proporción o una media/mediana
Contraste para una proporción: > Estadísticos > Proporciones > Test de proporciones para una
muestra
Ejemplo: Queremos contrastar la hipótesis de si el porcentaje de individuos de 9 años o menores es
del 50%. Cuando son porcentajes
Contraste para una media/mediana:

Ejemplo: queremos contrastar la hipótesis de si el FEV es de 2 litros
• Si la variable sigue una distribución normal: >Estadísticos > Medias >Prueba T para una muestra.
• Si la variable no sigue una distribución normal: >Estadísticos > Test no paramétricos >Test de
Wilcoxon para una muestra
6. INFERENCIA PARA 2 O MÁS POBLACIONES
Asociación entre 2 variables categóricas/cualitativas
Ejemplo: relación de la mortalidad y los hospitales (A, B y C)

→ mortalidad: cualitativa dicotómica
→ hospital→ cualitativa politómica
Herramientas: >Estadísticos> Tablas de contingencia> Tabla de doble entrada.

*da igual que en filas y que en columnas→ hay que saber qué porcentaje es el que nos interesa
Tablas de contingencia
Pruebas de independencia / homogeneidad
Test Chi-cuadrado / Test exacto de Fisher→ nos da el OR
*clicamos: frecuencias esperas y Fisher también
Chi-cuadrado→ cuando en una 2x2 las frecuencias esperadas sean > 5
Test exacto de Fisher → cuando en una 2x2 las frecuencias esperadas sean < 5
→Independencia→dos variables son independientes entre sí
16
→Homogeneidad→ si la distribución de una de las variables es homogénea según la otra
*cuando hay que agrupar→ solo cuando no haya gente suficiente en un grupo
Asociación variable cuantitativa y variables categórica dicotómica
Ejemplo: comparar el nivel de homocisteína entre casos y controles
Herramientas:
• Si la variable cuantitativa sigue una distribución normal: (por grupos: en casos y controles)
1. Prueba preliminar de igualdad de varianzas: > Estadísticos > Varianzas > Test F para dos
varianzas (hay un clic en opciones de varianza para poner SI o NO)
2. Prueba t de comparación de medias: >Estadísticos > Medias >Prueba T para muestras

independientes.
• Si la variable cuantitativa no sigue una distribución normal:

Prueba no-paramétrica de la suma de los rangos de Wilcoxon / Mann Whitney: >Estadísticos > Test
no paramétricos > Test de Wilcoxon para dos muestras
Asociación variable cuantitativa y variables categórica politómica
Ejemplo: comparar el nivel de homocisteína dependiendo del hábito tabáquico considerado como
fumador, no fumador o exfumador.
Herramientas:
● Si la variable cuantitativa sigue una distribución normal:
○ Análisis de la varianza (ANOVA) + Comparaciones múltiples (Tukey, …)
○ > Estadísticos > Medias > ANOVA de un factor
*con que sea distinta en algún caso→ suficiente para rechazar H0→ comparaciones múltiples
● Si la variable cuantitativa no sigue una distribución normal:

○ Prueba no-paramétrica de Kruskal-Wallis
○ >Estadísticos > Test no paramétricos >Test de Kruskal-Wallis
17
Influencia de una o más variables sobre una variable cuantitativa
Regresiones. La Y es de tipo cuantitativa.

Los ejemplos→ multivariantes
1. Influencia de una o más variables cuantitativas sobre una variable cuantitativa:
Ejemplo: analizar si la edad (X) y nivel de vitamina B12(X) influyen sobre el nivel de homocisteína (Y)
→Herramienta: Modelo de regresión lineal
→R Commander: >Estadísticos > Ajustes de modelos > Regresión lineal
2. Influencia de variables cuantitativas y categóricas sobre una variable cuantitativa:
Ejemplo: analizar si la edad (X) y el sexo (X) influye sobre el nivel de homocisteina (Y)
→Herramienta: Modelo lineal general
→R Commander: >Estadísticos > Ajustes de modelos > Modelo lineal
Influencia de una o más variables sobre una variable dicotómica
Ejemplo: analizar si la edad (X) y el fumar (X) (si/no) influyen en la mortalidad (Y)
Herramientas:
• Modelo de regresión logística
• R Commander: >Estadísticos > Ajustes de modelos > Modelo lineal generalizado
18

Resumen R Commander

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Resumen R Commander

Uploaded by

Copyright:

Available Formats

RESUMEN R COMMANDER

TALLER 2.1. VARIABLES Y FICHEROS DE DATOS

Importar base de datos:

Crear única base de datos/fusionar conjunto de datos:

Crear variable (utilización de variables para hacer cálculos):

TALLER 2.2. ESTADÍSTICA DESCRIPTIVA

➔ Realice un análisis descriptivo de la variable …

➔ Realice la representación gráfica que mejor se adecúe

➔ Para obtener todas las variables basales

2. Contraste de hipótesis para la media

● si pvalor <0.05 rechazamos la hipótesis nula. Valor estadísticamente significativo (aceptamos

d. Sacamos el valor medio→ El valor medio siempre va a estar dentro del IC

3. Contraste de hipótesis para la proporción (nos lo pueden pedir o no)

■ si pvalor >0.05 aceptamos la hipótesis nula (no podemos rechazarla). Valor

TALLER 2.4. INFERENCIA ESTADÍSTICA PARA DOS POBLACIONES → Variables

1. Inferencia para 2 medias independientes (variables cuantitativas)

Procedemos a comparación de 2 medias independientes

2. Test de normalidad→ si la distribución es normal hacemos las varianzas y luego media y si

2. Inferencia para 2 medias relacionadas (variables cuantitativas)

Procedemos a la comparación de 2 medias relacionadas:

2. Test de normalidad→ si la distribución es normal hacemos las varianzas y luego media y si

4. Estadísticos → medias → test t para datos relacionados

OPCIÓN B (si no nos deja con la opción A aplicamos ésta)

3. Estadísticos → medias → test t para muestras independientes

Le damos a suponer varianzas iguales en caso de que hayamos aceptado H0.

TALLER 2.5. INFERENCIA ESTADÍSTICA PARA MÁS DE 2 POBLACIONES: VARIABLES CONTINUAS

Una vez identificado el caso, vamos a aplicar el contraste Anova:

b. pvalue > 0.05 → aceptamos H0 → Si H0 es cierta → Var. INTER pequeña Fp

5. Comparaciones múltiples → sólo se utilizan si se rechaza al menos un H0 en el contraste

P.e tenemos este suceso:

TALLER 2.6. INFERENCIA ESTADÍSTICA PARA 2 O + POBLACIONES: VARIABLES CUALITATIVAS

● Las variables A y V son independientes o están asociadas?

2. >Estadísticos > Tablas de contingencia > Tabla de doble entrada

Elegimos porcentaje por filas o por columnas dependiendo de donde

4. De esta tabla tenemos que interpretar lo siguiente:

● De toda la muestra cuántos presentan características normales (ej. TA normal)

Si los IC del OR en la prueba de Fisher contienen al 1, no va a ser estadísticamente significativo el OR.

TALLER 2.7. PRUEBAS DE AJUSTE Y PRUEBAS NO PARAMÉTRICAS

1. Gráficas > Histograma

1. Gráficas de dispersión de las variables:

2. Coeficiente de correlación entre variables:

3. Recta de regresión lineal (Y=B0+B1X)

CUIDADO REGRESIÓN LINEAL MÚLTIPLE

4. Efecto estadísticamente significativo (pvalues):

5. R^2: Si R^2 es negativo, lo consideramos como 0 y no se puede explicar su variabilidad

TALLER 2.8. CORRELACIÓN Y REGRESIÓN LINEAL

Podemos tener 4 escenarios:

Si el OR es >2 nos olvidamos del % y utilizamos en número tal cual.

Y: Dicotómica 1. Plantear la recta de regresión, estimar los parámetros de la recta

2. Establecer hipótesis H0 y H1 (por cada X, escribir una H0 y una H1)

3. Calcular el Odds ratio y el intervalo de confianza

Si el OR es >2 nos olvidamos del % y utilizamos en número tal cual.

OR (SALUDmala)= 0.25 (0.07 - 0.95) → Como es < 1 y el intervalo de confianza no incluye al 1, NO

3. Calcular el Odds ratio y el intervalo de confianza

Si el OR es >2 nos olvidamos del % y utilizamos en número tal cual.

Mezcla: 1. Plantear la recta de regresión, estimar los parámetros de la recta

2. Establecer hipótesis H0 y H1 (por cada X, escribir una H0 y una H1)

3. Calcular el Odds ratio y el intervalo de confianza

Si el OR es >2 nos olvidamos del % y utilizamos en número tal cual.

Si el IC contiene al 1, NO ES ESTADÍSTICAMENTE SIGNIFICATIVO

Filtrado especial: Ej. queremos quitar “otro” en infarto.

Para mirara valores perdido en cada variable→ Estadísticos> Resúmenes> Nº de observaciones

2. CREACIÓN DE NUEVAS VARIABLES