You are on page 1of 11

GENERALIDADES, ESTADSTICA DESCRIPTIVA Y GRFICOS.

1.- Generalidades sobre R.-

Para instalar R accedemos a la pgina web del Proyecto R-UCA.

Para ejecutar R, tecleamos el icono correspondiente. La ventana R console trabaja en modo


intrprete, introducimos un comando y R devuelve la respuesta. Las teclas de movimiento de
cursor permiten movernos en la lnea donde escribimos el comando (teclas izquierda/derecha)
y recuperar comandos ya utilizados (arriba/abajo).

Se pueden guardar varias instrucciones en un archivo (script) para en otra sesin recuperarlas.

La opcin Cambiar dir nos sita en el directorio en el que queramos trabajar.

Acceso y manipulacin de Datos.-

Para manejar R podemos hacerlo mediante opciones de men o introduciendo comandos. Lo s


datos podrn almacenarse en vectores, matrices o ficheros tipo data.frame.

Escalares.

Los escalares se almacenan en variables. Los nombres de variables distinguen entre


maysculas y minsculas. Se pueden guardar y posteriormente recuperar mediante la opcin
de guardar rea de trabajo. Se crean asignando un valor a un nombre, siendo el operador de
asignacin, =. Los nmeros se introducen tal cual. Los valores no numricos deben ir entre
comillas. Para conocer el valor de una variable basta teclear su nombre. Se puede asignar
valores a varias variables en la misma lnea separndolos por ;.

Las operaciones bsicas para la manipulacin de datos numricos son:

Suma +, a + b. Resta , a b. Multiplicacin *, a * b.

Divisin /, a/b. Potencia ^, a^b.

Tambin pueden utilizarse las funciones matemticas habituales:

sqrt(x) (raz cuadrada de x);

sin(x) (seno de x); cos(x) (coseno de x); tan(x) (tangente de x);

exp(x) (exponencial de x); log(x) (logaritmo neperiano de x);

mean(x) (media aritmtica de x); sd(x) (desviacin tpica de x);

var(x) (varianza de x);

Las funciones trigonomtricas operan en radianes. Las funciones se pueden aplicar a la


siguiente estructura de datos, los vectores

La ayuda puede utilizarse mediante la orden help(nombre de funcin).


Operadores de comparacin : > (mayor), < (menor), >= (mayor o igual), <= (menor

o igual), == (igual), != (distinto).

Operadores lgicos : & (conjuncin), | (disyuncin), ! (negacin).

Vectores.

Tenemos varias formas de crear vectores:

Introduciendo entre parntesis los valores deseados separados por comas.

> x < c(1, 2, 3,4) asocia a la variable x el vector (1, 2, 3,4).

Mediante la notacin dos puntos, x < -0 : 15 crea un vector almacenado en x, que

comienza en cero, incrementa 1 sus componentes y finaliza en 15.

Mediante la funcin seq(from = a, to = b, by = c), crea un vector que empieza

en a, termina en b, y forma las distintas componentes del vector aadiendo a la

ltima cantidad obtenida el valor c. a,b y c son variables numricas

Mediante la funcin rep(c(. . . , . . . , . . .), n) se repite el vector c tantas veces como

indique n.

x = rep(c(1, 2, 3), 3) Nos da como resultado el vector x = (1, 2, 3, 1, 2, 3, 1, 2, 3).

Para acceder a las componentes de un vector:

x[3] nos da la tercera componente del vector x

x[c(2, 4)] Nos da un vector formado por la segunda y cuarta componentes de x,

x*c(2, 4)+ Nos da un vector que omite las componentes segunda y cuarta de x,

x < 2 Nos devuelve un vector con valores TRUE (cierto) o FALSE (falso) segn si la
componente verifica que es o no menor de 2.

x[x < 2] Nos devuelve un vector con las componentes de x que son menores de 2.

Para las operaciones matemticas elementales entre escalares y vectores se aplica la


operacin a todos los elementos del vector.

Cuando dos vectores tienen la misma longitud y orientacin, la suma, resta, multiplicacin y
divisin se aplican elemento-a-elemento.

Usando el operador transpuesta (t(x)) de R, podemos pasar de vector fila a vector columna, y
viceversa.
Para multiplicar dos vectores escalarmente, se utiliza el comando %* %. Hay que tener en
cuenta que, para realizar dicho producto, un vector debe ser fila y otro columna, y tener
ambos la misma dimensin. La orden length(x) nos devuelve el nmero de elementos del
vector x.

Ejemplos.-

> a < 1 : 5; b < seq(from = 1, to = 9, by = 2)

Crea dos vectores, a =(1, 2, 3, 4, 5) y b = (1, 3, 5, 7, 9).

> c < c(b, a)

Crea un array de los elementos de b seguidos de los elementos de a.

> a 2 Disminuye cada elemento de a en 2 unidades.

> a * b Multiplica a por b elemento a elemento.

> a%* %t(b) Se efecta el producto escalar de a por b

Matrices.

La creacin de matrices sigue la misma estructura de los vectores fila y columna, aunque tras
haber introducido los elementos de la matriz hay que indicar el nmero de filas o columnas
que tiene la misma.

> X < matrix(c(1, 2, 3, 4, 5, 6, 7, 8, 9), nrow = 3)

Crea una matriz con 3 filas, cuya primera columna es (1, 2, 3).

Si deseamos crear una matriz por filas, hay que incluir el comando byrow = TRUE

Una matriz puede tener mltiples filas, pero cada fila debe tener un nmero igual de
columnas.

Al igual que ocurra con los vectores, para operar con matrices se utilizan los notaciones
habituales de suma, resta, producto. . ., cuando se desea realizar la operacin trmino a
trmino.

Para efectuar el producto matricial de dos matrices, se usa la notacin %* %, la transpuesta de


una matriz, con el comando t(X), y la inversa de una matriz, con el comando solve(X), el
determinante, con det(X), y el comando diag(X) nos da la diagonal de la matriz X. Para obtener
los autovalores y autovectores de una matriz A, se usa el comando eigen(A).

Si A es una matriz y b es un vector fila compatible (resp. columna), entonces A \ b dar como
resultado una matriz cuya primera fila es dividida por la primera componente de b, la segunda
es dividida por la segunda componente de b, ...

> X < matrix(c(1, 2, 3, 4, 5, 6, 7, 8, 9), nrow = 3)


> b < c(2, 4, 6)

Y < X/b Da como resultado la matriz

Y < matrix(c(0.5, 0.5, 0.5, 2, 1.25, 1, 3.5, 2, 1.5), nrow = 3)

Ejemplos.-

> A < matrix(c(1, 4, 7, 2, 5, 8, 3, 6, 9), nrow = 3)

Introducirnos la matriz A.

> A[3, 3] = 0 Cambia a cero el elemento de la tercera fila y tercera columna.

> B < A*3 : 1 : 1, 1 : 3+ Crea una matriz B tornando las filas de A en orden
inverso, sin alterar el orden de las columnas.

> C < c(1, 3)

> B = A[C,C] B es la submatriz de A formada por las intersecciones de sus filas 1 y 3


as como sus columnas 1 y 3.

> D = t(B) Transpone la matriz B.

> A < matrix(c(1, 2, 3, 4, 5, 6, 7, 8), nrow = 2, byrow = TRUE)

> B = seq(form = pi, to = 2* pi, by = 0.01)

>A

>B

> s = dim(A)

>s

> length(A)

Devuelve el mximo entre el nmero de filas y el nmero de columnas.

> dim(B)

> length(B)

Conjuntos de Datos.

Los ficheros data.frame son matrices que pueden contener cualquier tipo de datos distribuidos
en forma matricial donde, habitualmente, las filas representan individuos o casos, y las
columnas las distintas variables. Los crearemos desde R-Commander mediante la opcin:
Datos Crear conjunto de Datos
Para guardar el conjunto de datos en un fichero cerramos el fichero mediante la opcin
Archivo de R-console. En este momento el fichero se convierte en conjunto de datos activo
para R.Commander y mediante la opcin Datos se puede guardar. Los ficheros de datos se
guardan con extensin .dat.

Para abrir fichero de datos, se usa en la opcin Datos de R-Commander, el apartado Abrir.

Ejemplo.- Crear el dat.frame:

Nombre Cdigo Ncasos NTotal Casos FRelativa FAbsoluta


Cara 1 1 3 3 0,3 0,3
Cara 2 2 2 5 0,2 0,5
Cara 3 3 1 6 0,1 0,6
Cara 4 4 2 8 0,2 0,8
Cara 5 5 1 9 0,1 0,9
Cara 6 6 1 10 0,1 1
Desde R-Console haramos:

> nombre = c("Cara 1","Cara 2","Cara 3","Cara 4","Cara 5","Cara 6")

> codigo = c(1,2,3,4,5,6)

> Ncasos = c(3,2,1,2,1,1)

> Totalcasos = c(3,5,6,8,9,10)

> FRelativas = c(0.3,0.2,0.1,0.2,0.1,0.1)

> FAbsolutas = c(0.3,0.5,0.6,0.8,0.9,1)

Con esta secuencia, creamos un fichero que almacena la tabla anterior que representa los
resultados de 10 lanzamientos de un dado.

> datos < data.frame(nombre,codigo,Ncasos,Totalcasos,FRelativas,FAbsolutas)

La orden anterior visualiza la tabla

>edit(datos)

Con esta otra orden, adems de verla, nos deja manipularla de manera directa, cambiando
datos o aadiendo u eliminando variables o datos.

Tambin se podra haber trabajado desde R-Comamander tal como se dijo anteriormente.

2.- R Commander.

En la ventana Rcmdr hay tres subventanas, para instrucciones, para resultados y para
mensajes. Se distinguen las siguientes opciones:
Fichero: Cargar y guardar archivos de instrucciones. Cargar y guardar resultados y rea de
trabajo. Salir.

Editar: Editar (cortar, copiar, pegar) contenido de la ventana de instrucciones y resultados.


Tambin se accede con botn derecho.

Datos: Opciones para leer y manipular datos.

Permite introducir nuevos datos (opcin Nuevo conjunto de datos).

Cargar datos propios del R (opcin Cargar datos en paquetes -> leer conjunto de datos desde
paquete adjunto).

Cargar datos de otras aplicaciones (opcin Importar datos -> desde)

Trabajar con un fichero cargado (opcin Conjunto de datos activo)

Estadsticos: Opciones para anlisis estadsticos. El anlisis es numrico, clculo de medidas


centrales, de dispersin, etc.

Grficas: Anlisis grficos.

Modelos: Opciones para resmenes, intervalos de confianza, contrastes, etc.

Distribuciones: Distribuciones de variables aleatorias.

Herramientas: Entre otras opciones, permite cargar datos guardados en otros paquetes
distintos del Rcmdr. Tambin se permite importar datos de otro software, como SPSS, Hojas de
Clculo, etc.

Ayuda: Acceso a manuales.

Cuestiones tiles en relacin con estas opciones de la ventana Rcmdr:

Se distingue entre maysculas y minsculas.

Cambiar de carpeta para guardar archivos de datos y de instrucciones.

>?nombre de comando, >help(comando) nos dan ayuda sobre comandos R

Borrar subventana: opcin del botn derecho del ratn.

Lo tecleado en RConsole tambin es vlido en RCommander.

Trabajaremos con el fichero RCars.sav del SPSS. Para practicar con estas y otras opciones de R
Commander, se proponen los siguientes ejercicios:

1.- Para comenzar creemos un archivo:

Nombre Precio Tipo


P40 60.4 A
P40 40.8 B
SAL 70.2 A
SAL 50.7 B
ADI 50.7 A
ADI 50.2 B
ADI 70.3 C
RM1 70.1 A
RM2 70 B
RM3 75 C

Opcin de Men: Datos Nuevo Conjunto de Datos

Damos nombre al fichero e introducimos datos. Opcionalmente, se puede poner


nombre a las variables. Los tipos de variable son carcter (primera y tercera columna) y
numrica (segunda columna). Para guardar el archivo,

Datos Conjunto de datos activo Guardar Conjunto de datos activo

2.-Obtener informacin sobre el archivo RCars: Orden summary (nombre archivo).

Si no se especifica nombre de archivo, se toma el conjunto de datos activo. Obsrvese la


diferencia de informacin entre variables tipo carcter y numricas.

3.- Direccionamiento. Utilizar las rdenes para seleccionar elementos, filas y/o columnas de
matrices.

3.- Estadstica Descriptiva.


Para realizar esta prctica se trabajar con el archivo RCars.sav.

3.1.- Estadstica descriptiva para variables numricas.

Opcin de Men: Estadsticos Resmenes Conjunto de datos activos


Proporciona una descripcin de las variables del conjunto de datos activo.
Cargar (importar) el archivo RCars.sav y comprobar el resultado de esta accin. Anotar
las caractersticas de cada variable, observando las diferencias segn la variable se
cuantitativa o cualitativa.

Opcin de men Estadsticos Resmenes Resmenes numricos


Nos permite obtener estadsticos descriptivos de una o ms variables, con la
posibilidad de obtenerlos segn las modalidades definidas por otra variable.
Ejercicio.- Determinar la media y el percentil 70 de la potencia en c.v. y el peso de los
coches de cada uno de los orgenes definidos en el fichero.
Estadsticos Resmenes Resmenes numricos desmarcamos la desviacin
tpica y para incluir el percentil 70, incluimos en el cuadro de cuartiles , 0.7.
Estudiar la diferencia segn se active o no, la opcin Resmenes por grupo.
Nota.- Los casos no disponibles (indicados con NA) pueden eliminarse de los clculos
incluyendo la opcin na.rm=TRUE en la correspondiente funcin. Los clculos se
realizan sin tener en cuenta los datos NA.
Opcin de men: Estadsticos Resmenes Nmero de Observaciones ausentes
Proporciona el nmero de observaciones no disponibles de las variables del
conjunto de datos.

Nota.- R calcula la cuasivarianza en vez de la varianza.


Ejercicio.- Calcular la varianza de Consumo.
Estadsticos Resmenes Resmenes numricos nos calcula la
desviacin tpica
Varianza=valor calculado de desviacin tpica* valor calculado de desviacin
tpica
Varianza
En realidad hemos calculado la cuasivarianza. Si se desea se puede afinar ms
utilizando la relacin entre varianza y cuasivarianza.

Clculo de coeficientes de curtosis y de asimetra.


De los tres valores para el argumento type=n, con n=1,2,3, se elige type=1 que ser el
que usaremos habitualmente .
Ejercicio.- Calcular e interpretar los coeficientes de kurtosis y de asimetra de la
variable potencia para cada uno de los orgenes.

3.2.- Manipulacin de datos.-


Opcin de men: Datos Conjunto de datos activos Filtrar el conjunto de datos
activo.
Permite seleccionar registros, que cumplan una determinada condicin, de un fichero
de datos.
Ejercicio.- Crear ficheros con los coches de EE.UU., de Europa, Japn.

Opcin de men: Datos Modificar variables del conjunto de datos activo


Convertir variable numrica en factor.
Permite transformar una variable numrica en cualitativa.
Ejercicio.- Obtener e interpretar el resumen de los datos contenidos en el fichero
RCars. Determinar la moda de las variables origen y cilindros.
Para calcular la moda de la variable origen, Estadsticos Resmenes
Conjunto de datos activos
Como origen es cualitativa nos da cada modalidad y el nmero de
observaciones de cada modalidad. A partir de ah determinamos la moda de la variable
origen. No pasa lo mismo para la variable cilindros por ser numrica. Convertimos
entonces esta variable en cualitativa y despus observamos su moda.

Opcin de men: Datos Modificar variables del conjunto de datos activo Calcular
una nueva variable: Crea una variable en el conjunto de datos activos a partir de la
expresin de la expresin de clculo.
Ejercicio.- Crear la variable autonoma que nos d el nmero de Km que tecorre cada
coche con 30 l de combustible.

Opcin de men: Datos Modificar variables del conjunto de datos activo


Recodificar Variables: Permite cambiar el contenido de una variable o crea una
nueva variable a partir de las directrices de recodificacin.
Ejemplo.- Crear una variable llamada consumoag con los valores consumo bajo,
consumo medio y consumo alto, a partir de la variable consumo segn el
consumo de cada ckche est entre 3 y 12 l, 12 y 19 l y 19 y 26 l.
Las directrices de recodificacin son: 3:12 = consumo bajo
12:19 = consumo medio
19:26 = consumo alto

3.3.- Estadstica descriptiva para variables no numricas.

Opcin de men: Estadsticos Resmenes Distribucin de frecuencia


Esta opcin calcula para variables cualitativas, el porcentaje y los totales de
observaciones de cada modalidad.
Ejercicio.- Calcular los porcentajes de coches segn su cilindrada (ya convertida en
variable cualitativa)
Estadsticos Resmenes Distribucin de frecuencia

Opcin de men: Estadsticos Resmenes Tabla de estadsticas


Calcula el valor de estadsticos para variables numricas segn 1 o ms variables
cualitativas

Ejercicio.- Determinar media, mediana y deviacin tpica para la variable aceleracin


segn el nmero de cilindros (convertido en variable cualitativa)
Estadsticos Resmenes Tabla de estadsticas seleccionando media
Estadsticos Resmenes Tabla de estadsticas seleccionando mediana
Estadsticos Resmenes Tabla de estadsticas seleccionando desviacin
tpica

Ejercicio.- Determinar media, mediana y deviacin tpica para la variable aceleracin


segn el nmero de cilindros y el origen.
Igual que el anterior, pero seleccionando las dos variables cualitativas.

Opcin de men: Estadsticos Tablas de contingencia Tabla de doble entrada


Calculan frecuencias absolutas y porcentajes de las modalidades de variables
cualitativas.
Ejercicio.- Con el fichero RCars.sav (se importa de SPSS), construir una variable
cualitativa, a partir de la variable ao (Datos Modificar variables del conjunto de
datos activo Convertir variable numrica en factor.
Con la nueva variable y la variable origen, construir la tabla de doble entrada y estudiar
totales y porcentajes de los distintos orgenes y las distintas modalidades de la nueva
variable.
1.- Decir el nmero de coches europeos del ao 75.
2.- Decir el nmero de coches americanos del ao 82.
3.- Porcentajes de los distintos orgenes en los aos 72, 77 y 82.
Realizar un estudio similar con la variable origen y el cilindr .

4.- Grficos en R

Histograma. Para variables numricas. Se accede mediante:


Grficos Histograma
Tiene tres opciones: recuento de frecuencias, porcentajes y densidades.

Ejercicio.- Construir histogramas para las distintas variables numricas del archivo
RCars.

Grfica de sectores. Para variables no numricas. Se accede mediante:


Grficos Grfica de sectores
Ejercicio.- Construir grfica de sectores para las distintas variables no numricas del
archivo RCars.

Grfica de Medias. Representa el efecto de una o varias variables cualitativas sobre


una variable cuantitativa. Se accede mediante:
Grficos Grfica de medias

Ejercicio.- Construir grficas de medias para las variables peso y motor segn el
origen.

Grfica XY. Permite relacionar dos variables cuantitativas. Opcionalmente se puede


construir la relacin anterior segn los valores de una variable cualitativa. Se accede
mediante: Grficos Grfica XY
Ejercicio.- Construir grficas XY para las variables peso y motor segn el origen.

5.- Recta de regresin.

Estadsticos Resmenes Matriz de correlaciones


Nos da una matriz con los coeficientes de correlacin entre 2 o ms variables.
Ejercicio.- Calcular los coeficientes de correlacin entre las variables, acel", "ao", "cilindr",
"consumo". Interpretar los resultados.
Nota.- En la ventana de instrucciones, cambiando cor (correlacin) por cov (covarianza)
calculamos la matriz de covarianzas.
Ejercicio.- Repetir el ejercicio anterior calculando las covarianzas.

Estadsticos Ajuste de modelos Regresin lineal


Permite calcular la recta de regresin de una variable en funcin de 1 o ms variables.
Ejercicio.- Estudiar la dependencia lineal de la variable acel de las variables "cilindr", cv y
motor.
De los resultados obtenidos:

Call:
lm(formula = acel ~ cilindr + cv + motor, data = Datos)
Residuals:
Min 1Q Median 3Q Max
-5.7953 -1.1916 -0.2468 1.0831 7.1962

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 21.8114350 0.5664731 38.504 < 2e-16 ***
cilindr -0.1054886 0.1845581 -0.572 0.56794
cv -0.0775973 0.0057509 -13.493 < 2e-16 ***
motor 0.0007459 0.0002254 3.309 0.00102 **
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1.925 on 395 degrees of freedom


(7 observations deleted due to missingness)
Multiple R-squared: 0.5324, Adjusted R-squared: 0.5289

La expression del ajuste, acel ~ cilindr + cv + motor tiene los coeficientes:


acel = 21.8114350 -0.1054886*cilindr -0.0775973*cv + 0.0007459*motor
La bondad del ajuste la da Multiple R-squared: 0.5324, que nos indica que el ajuste explica el
53,24% de la variable acel.

You might also like