You are on page 1of 11

Prácticas de Estadística Aplicada con R y R Commander.

Práctica 2: Estadística Descriptiva.

Objetivo:
En esta práctica veremos cómo obtener medidas descriptivas asociadas a un conjunto de datos así
como realizar representaciones gráficas que nos permitan mostrar de una manera sencilla características
asociadas al conjunto de datos observado.

A.- Parámetros descriptivos asociados a un conjunto de datos unidimensional

En primer lugar debemos introducir o recuperar el conjunto de datos sobre el que deseamos trabajar.
Por tanto, lo primero que haremos será recuperar el fichero Insulina.txt que hemos utilizado en la práctica
anterior mediante la opción:

Datos → Importar datos→ desde archivo de texto

Una vez recuperado el fichero obtendremos una ventana de R Commander semejante a la siguiente
en la que el conjunto de datos activo es Insulina (recordar que ese nombre se lo hemos asignado al conjunto
de datos en el momento de recuperar el fichero):

Una vez que tenemos un conjunto de datos activo ya podemos comenzar a analizarlo.

Escuela Técnica Superior de Ingenieros Industriales


Universidad Politécnica de Cartagena
1
La obtención de los parámetros descriptivos más usuales se encuentran en el siguiente submenú de R
Commander:

Estadísticos → Resúmenes → Resúmenes Numéricos

El cálculo de otros parámetros, como por ejemplo el coeficiente de variación (CV), deben efectuarse
desde la ventana de instrucciones de R Commander. Por ejemplo, si queremos calcular el coeficiente de
variación asociado a la variable carne del conjunto insulina introduciremos las siguientes sentencias en la
ventana de instrucciones:

sd_carne=sd(Insulina$carne) -> Calcula la desviación típica de la variable carne del conjunto Insulina.
media_carne=mean(Insulina$carne) -> Calcula la media de la variable carne del conjunto Insulina.
cv_carne=sd_carne/media_carne -> Calcula el C.V. como el cociente entre la desviación típica y la media.
cv_carne -> Muestra el valor obtenido.

Una vez introducidos estos comandos en la ventana de sentencias, las seleccionamos con el raton y
pulsamos sobre Ejecutar.

y obtendremos en la ventana de resultados el valor correspondiente

Escuela Técnica Superior de Ingenieros Industriales


Universidad Politécnica de Cartagena
2
B.-Representaciones gráficas

A la hora de estudiar el comportamiento de un conjunto de datos resulta fundamental representar


gráficamente su distribución con el fin de visualizar posibles simetrías, valores o clases dominantes, etc. Así
en esta sección veremos dos tipos de gráficos para características cuantitativas:

• Histogramas.
• Diagramas de Cajas.

Y otros dos tipos de gráficos para características cualitativas:

• Diagramas de barras.
• Diagramas de sectores.

Representaciones gráficas para datos cuantitativos

Histogramas

El histograma es la representación gráfica más importante para características (conjuntos de datos) de


tipo cuantitativos. Se trata de representar en unos ejes de coordenadas el número de observaciones presentes
en cada una de las clases en las que se ha dividido el conjunto de datos con el que trabajamos. Como
sabemos el número de clases juega un papel fundamental en la forma del histograma, de ahí que podamos
modificar este valor desde la ventana de R Commander.

Para construir un histograma seleccionaremos la opción:

Gráficas → Histograma

y seguidamente seleccionaremos la variable sobre la que deseamos trabajar y el tipo de histograma que
deseamos construir:

Escuela Técnica Superior de Ingenieros Industriales


Universidad Politécnica de Cartagena
3
Número de clases: Si seleccionamos <auto, se aplica la llamada regla de Sturges, es decir, el número de
clases (k) que se construirán serán:

k =Redondeo(1+log2(n)) (siendo n el número de datos).

Escala de los ejes: En este caso tenemos tres opciones:

(1) Recuentos de frecuencias: La altura de cada barra se corresponde con el número de datos presentes
en cada clase.
(2) Porcentajes: La altura de cada barra se corresponde con el porcentaje de datos respecto del total
presentes en cada clase.
(3) Densidades: La altura de las barras se reescala para que el área total de todas ellas sea igual a la
unidad.

En el ejemplo con el que estamos trabajando, si trabajamos con 5 clases, obtendríamos el siguiente
histograma:

Nota.-
Por defecto R construye las clases tomando los intervalos abiertos a la izquierda - cerrados a la
derecha (a,b], salvo la primera clase que toma ambos extremos cerrados.

Tablas de frecuencias

R Commander no calcula la tabla de frecuencias observadas en el caso de que nos encontremos con
datos de tipo cuantitativo, pero podemos subsanar esta deficiencia de una manera sencilla utilizando la
ventana de instrucciones y la sentencia que crea el histograma.

Los pasos para ver la tabla de frecuencias sería la siguiente:

Escuela Técnica Superior de Ingenieros Industriales


Universidad Politécnica de Cartagena
4
1.- Construir el histograma correspondiente con las clases que estimemos.

2.- Una vez construido el histograma, en la ventana de instrucciones nos aparecerá un comando
parecido al siguiente:

Hist(Insulina$carne, scale="frequency", breaks="Sturges", col="darkgray")

3.- Lo que haremos será almacenar este objeto en una variable, para ello modificaremos la
instrucción para almacenarla, por ejemplo, en una variable llamada tabla:

tabla= hist(Insulina$carne, scale="frequency", breaks="Sturges", col="darkgray")

Nota.- Observar que se ha modificado la instrucción Hist por hist.

4.- Seguidamente pediremos los extremos de las clases y el número de observaciones que caen en
cada una de ellas introduciendo los siguientes comandos en la ventada de instrucciones:

tabla$breaks -> (presenta los extremos de cada clase)

tabla$counts -> (presenta el número de observaciones presente en cada clase).

5.- Seleccionamos las tres sentencias con el ratón y damos a Ejecutar y nos aparecerá la siguiente
información en la ventana de resultados:

Escuela Técnica Superior de Ingenieros Industriales


Universidad Politécnica de Cartagena
5
Diagramas de Cajas:

Los diagramas de cajas resultan muy útiles cuando se trabaja con datos de tipo cuantitativo. No solo
permiten detectar los llamados datos atípicos, también dan información sobre la simetría y distribución de
los datos si estos se dividen en cuatro clases con idéntico número de observaciones. Por último permiten
comparar la distribución de varios conjuntos de datos y su posición relativa.

Para realizar un diagrama de cajas seleccionaremos la opción:

Gráficas → Diagrama de cajas

Seguidamente seleccionaremos la variable con la que deseamos trabajar y si deseamos identificar las
posibles observaciones atípicas con el ratón:

y obtendremos un gráfico similar al que se muestra a continuación:

Observamos una distribución un poco asimétrica con una cola a la derecha (zona superior) más larga
que la izquierda y sin presencia de atípicos.

Escuela Técnica Superior de Ingenieros Industriales


Universidad Politécnica de Cartagena
6
Comparación de varios conjuntos mediante diagramas de cajas

La comparación de varios conjuntos de datos mediante diagramas de cajas con R Commander se


puede realizar únicamente si tenemos los datos “apilados”, esto es una columna con todas las observaciones
y otra columna que indica la clase a la que pertenecen.

Para apilar dos o más variables presentes en el conjunto de datos activo seleccionaremos la opción:

Datos → Conjunto de datos activo → Apilar variables del …

Seguidamente seleccionaremos las variables que queremos “apilar”:

En este ejemplo apilamos las variables carne y pescado, el nombre del nuevo conjunto de datos será
Apilado, el nombre de la variable de destino, es decir, la variable que contendrá las observaciones de los dos
conjuntos será variable y la variable de tipo categórico que indica la procedencia de cada dato será factor.

Una vez apilados los datos ya podemos realizar el gráfico de cajas de ambos conjuntos de manera
simultánea. Para ello seleccionamos como conjunto activo el que contiene los datos apilados (Apilados en
este ejemplo), la variable que contiene las observaciones (variable), que deseamos hacer una gráfica para
cada factor (Gráfica según factor) y la variable categórica (factor, en este ejemplo):

Escuela Técnica Superior de Ingenieros Industriales


Universidad Politécnica de Cartagena
7
Tras Aceptar obtendremos una gráfica en la que se muestran en la misma escala los diagramas de caja de
ambos conjuntos de observaciones:

Gráficas para conjuntos de tipo cualitativo (categóricos)

Consideremos un conjunto de 40 observaciones de tipo cualitativo, por ejemplo la puntuación


obtenida en un test en una escala de 1 a 10 discreta almacenados en el fichero calificaciones.txt.

En primer lugar lo recuperaremos en un conjunto que llamaremos Test:

Datos → Importar datos→ desde archivo de texto

y si visualizamos el fichero en cuestión observamos que no lleva el nombre de ninguna variable en la


cabecera. Tras introducir esta información en la ventana de R Commader correspondiente:

Seguidamente le indicaremos a R Commander que se trata de datos categóricos, para ello seleccionaremos:

Datos → Modificar variables del conjunto de datos activo → Convertir variable numérica en factor

Escuela Técnica Superior de Ingenieros Industriales


Universidad Politécnica de Cartagena
8
Y seleccionaremos la variable que deseamos convertir (V1 en este caso) y como deseamos representar los
niveles, en una escala nominal (nombres) o numérica (nosotros seleccionaremos en este caso una escala
numérica)

Una vez transformados los datos ya los tratará R Commander como una característica categórica en lugar de
numérica. Por tanto, ya podremos utilizar opciones que con conjuntos cuantitativos no podíamos usar:

1.- Tablas de frecuencias:

Estadísticos → Resúmenes → Distribución de frecuencias

Tras lo cual obtendremos en la ventana de resultados las frecuencias de cada dato y el % repecto al
conjunto total:

Escuela Técnica Superior de Ingenieros Industriales


Universidad Politécnica de Cartagena
9
2.- Gráficas para datos cualitativos:

Tenemos dos tipos de gráficos de Barras y de sectores:

Gráfica de barras:

En este caso se representan en unos ejes unas barras de altura igual a la frecuencia de cada dato. Para ello
seleccionaremos:

Gráficas → Gráfica de barras..

indicaremos el nombre de la variable con la que deseamos trabajar:

y obtendremos un gráfico similar al siguiente en el que se observa la frecuencia absoluta de cada uno de los
datos:

Escuela Técnica Superior de Ingenieros Industriales


Universidad Politécnica de Cartagena
10
Gráfica de sectores:

En este caso se representan en una tarta (ciclograma) unos sectores de área proporcional a la
frecuencia de cada dato. Para ello seleccionaremos:

Gráficas → Gráfica de sectores..

indicaremos el nombre de la variable con la que deseamos trabajar:

y obtendremos un gráfico similar al siguiente en el que se observa que el área de cada sector es igual a la
frecuencia relativa de cada uno de los datos:

Nota.- Es importante destacar que desde R Commader no es posible hacer que se coloque una etiqueta con
la frecuencia relativa correspondiente a cada valor.

Escuela Técnica Superior de Ingenieros Industriales


Universidad Politécnica de Cartagena
11

You might also like