Professional Documents
Culture Documents
Practica2 Descriptiva 2012 2013
Practica2 Descriptiva 2012 2013
Objetivo:
En esta práctica veremos cómo obtener medidas descriptivas asociadas a un conjunto de datos así
como realizar representaciones gráficas que nos permitan mostrar de una manera sencilla características
asociadas al conjunto de datos observado.
En primer lugar debemos introducir o recuperar el conjunto de datos sobre el que deseamos trabajar.
Por tanto, lo primero que haremos será recuperar el fichero Insulina.txt que hemos utilizado en la práctica
anterior mediante la opción:
Una vez recuperado el fichero obtendremos una ventana de R Commander semejante a la siguiente
en la que el conjunto de datos activo es Insulina (recordar que ese nombre se lo hemos asignado al conjunto
de datos en el momento de recuperar el fichero):
Una vez que tenemos un conjunto de datos activo ya podemos comenzar a analizarlo.
El cálculo de otros parámetros, como por ejemplo el coeficiente de variación (CV), deben efectuarse
desde la ventana de instrucciones de R Commander. Por ejemplo, si queremos calcular el coeficiente de
variación asociado a la variable carne del conjunto insulina introduciremos las siguientes sentencias en la
ventana de instrucciones:
sd_carne=sd(Insulina$carne) -> Calcula la desviación típica de la variable carne del conjunto Insulina.
media_carne=mean(Insulina$carne) -> Calcula la media de la variable carne del conjunto Insulina.
cv_carne=sd_carne/media_carne -> Calcula el C.V. como el cociente entre la desviación típica y la media.
cv_carne -> Muestra el valor obtenido.
Una vez introducidos estos comandos en la ventana de sentencias, las seleccionamos con el raton y
pulsamos sobre Ejecutar.
• Histogramas.
• Diagramas de Cajas.
• Diagramas de barras.
• Diagramas de sectores.
Histogramas
Gráficas → Histograma
y seguidamente seleccionaremos la variable sobre la que deseamos trabajar y el tipo de histograma que
deseamos construir:
(1) Recuentos de frecuencias: La altura de cada barra se corresponde con el número de datos presentes
en cada clase.
(2) Porcentajes: La altura de cada barra se corresponde con el porcentaje de datos respecto del total
presentes en cada clase.
(3) Densidades: La altura de las barras se reescala para que el área total de todas ellas sea igual a la
unidad.
En el ejemplo con el que estamos trabajando, si trabajamos con 5 clases, obtendríamos el siguiente
histograma:
Nota.-
Por defecto R construye las clases tomando los intervalos abiertos a la izquierda - cerrados a la
derecha (a,b], salvo la primera clase que toma ambos extremos cerrados.
Tablas de frecuencias
R Commander no calcula la tabla de frecuencias observadas en el caso de que nos encontremos con
datos de tipo cuantitativo, pero podemos subsanar esta deficiencia de una manera sencilla utilizando la
ventana de instrucciones y la sentencia que crea el histograma.
2.- Una vez construido el histograma, en la ventana de instrucciones nos aparecerá un comando
parecido al siguiente:
3.- Lo que haremos será almacenar este objeto en una variable, para ello modificaremos la
instrucción para almacenarla, por ejemplo, en una variable llamada tabla:
4.- Seguidamente pediremos los extremos de las clases y el número de observaciones que caen en
cada una de ellas introduciendo los siguientes comandos en la ventada de instrucciones:
5.- Seleccionamos las tres sentencias con el ratón y damos a Ejecutar y nos aparecerá la siguiente
información en la ventana de resultados:
Los diagramas de cajas resultan muy útiles cuando se trabaja con datos de tipo cuantitativo. No solo
permiten detectar los llamados datos atípicos, también dan información sobre la simetría y distribución de
los datos si estos se dividen en cuatro clases con idéntico número de observaciones. Por último permiten
comparar la distribución de varios conjuntos de datos y su posición relativa.
Seguidamente seleccionaremos la variable con la que deseamos trabajar y si deseamos identificar las
posibles observaciones atípicas con el ratón:
Observamos una distribución un poco asimétrica con una cola a la derecha (zona superior) más larga
que la izquierda y sin presencia de atípicos.
Para apilar dos o más variables presentes en el conjunto de datos activo seleccionaremos la opción:
En este ejemplo apilamos las variables carne y pescado, el nombre del nuevo conjunto de datos será
Apilado, el nombre de la variable de destino, es decir, la variable que contendrá las observaciones de los dos
conjuntos será variable y la variable de tipo categórico que indica la procedencia de cada dato será factor.
Una vez apilados los datos ya podemos realizar el gráfico de cajas de ambos conjuntos de manera
simultánea. Para ello seleccionamos como conjunto activo el que contiene los datos apilados (Apilados en
este ejemplo), la variable que contiene las observaciones (variable), que deseamos hacer una gráfica para
cada factor (Gráfica según factor) y la variable categórica (factor, en este ejemplo):
Seguidamente le indicaremos a R Commander que se trata de datos categóricos, para ello seleccionaremos:
Datos → Modificar variables del conjunto de datos activo → Convertir variable numérica en factor
Una vez transformados los datos ya los tratará R Commander como una característica categórica en lugar de
numérica. Por tanto, ya podremos utilizar opciones que con conjuntos cuantitativos no podíamos usar:
Tras lo cual obtendremos en la ventana de resultados las frecuencias de cada dato y el % repecto al
conjunto total:
Gráfica de barras:
En este caso se representan en unos ejes unas barras de altura igual a la frecuencia de cada dato. Para ello
seleccionaremos:
y obtendremos un gráfico similar al siguiente en el que se observa la frecuencia absoluta de cada uno de los
datos:
En este caso se representan en una tarta (ciclograma) unos sectores de área proporcional a la
frecuencia de cada dato. Para ello seleccionaremos:
y obtendremos un gráfico similar al siguiente en el que se observa que el área de cada sector es igual a la
frecuencia relativa de cada uno de los datos:
Nota.- Es importante destacar que desde R Commader no es posible hacer que se coloque una etiqueta con
la frecuencia relativa correspondiente a cada valor.