You are on page 1of 15

ESTADÍSTICA DESCRIPTIVA:

REPRESENTACIONES GRÁFICAS
Objetivos

• Resumir, ordenar y analizar conjuntos de datos


• Calcular medidas de posición, de dispersión y de forma de un conjunto
de datos
• Representar gráficamente la distribución de frecuencias
• Realizar análisis exploratorios de datos.
Introducción al Análisis Descriptivo
En estadística, el análisis de datos es una mezcla de conocimientos estadísticos
y sentido común. No existen unas pautas constantes para obtener unos
resultados óptimos ya que cada base de datos es un problema diferente, con
variables y objetivos diferentes. Sin embargo, cuando se abarca un análisis de
cualquier base de datos es obligatorio estudiar la estructura de los datos, un
análisis descriptivo, tanto analítico como gráfico, de los datos, etc.
El análisis exploratorio de datos es fundamental en cualquier estudio
estadístico, por encima de análisis de aprendizaje de modelos estadísticos que
sean capaces de predecir valores futuros, ya que si este paso no se hace con
cautela no se tendrán datos de calidad y, por tanto, el modelo aprenderá de
forma ineficiente.
En esta práctica tomaremos un primer contacto con las técnicas estadísticas
que se utilizan para ordenar, analizar y representar un conjunto de datos, con
el fin de describir apropiadamente sus características. El primer paso en el
análisis de datos, una vez introducidos los mismos, es realizar un análisis
descriptivo o análisis exploratorio de datos. Los principales objetivos de un
análisis descriptivo o análisis exploratorio de datos son la descripción y la
síntesis de los datos. Para ello, los datos se organizan en tablas, se calculan
medidas que describen sus características más importantes y se realizan
representaciones gráficas.
Este análisis inicial proporciona una idea de la forma que tiene la distribución
de las observaciones y permite obtener estadísticos de tendencia central (media,
mediana y moda), de dispersión (varianza, desviación típica, rango), de forma
(asimetría, curtosis), de posición (percentiles), así como gráficos de barras, de
sectores e histograma.
R y RStudio disponen de un amplio conjunto de herramientas para el análisis
descriptivo de un conjunto de datos.
Estadísticos descriptivos con R-Studio

Tabla de Frecuencias
ara crear tablas de frecuencia en R y R Studio se emplea la función table o la
función prop.table, dependiendo de si la tabla muestra las frecuencias
absolutas o las frecuencias relativas. La sintaxis de estas órdenes es la
siguiente:
> table(x) # para frecuencias absolutas
> prop.table(tab) # para las frecuencias relativas
La principal diferencia entre las dos funciones reside en el tipo de los
argumentos que necesita cada una.

• table construye la tabla de frecuencias absolutas a partir de la variable


que recibe como argumento
• prop.table recibe como argumento una tabla o una matriz que
representa una tabla de frecuencias absolutas, y a partir de ella
construye la tabla de frecuencias relativas asociada. Es decir, prop.table
recibe como argumento el resultado que devuelve la función table.

Ejemplo1:
En la siguiente tabla se recogen 14 datos sobre el peso, altura, edad, sexo y
nombres.

Tabla1. Datos del ejemplo 1

En el menú principal de RStudio elegir Session/Set Working


Directory/Choose Directory o bien con las teclas Ctrl+Shift+H, elegir el
directorio de trabajo donde están los datos.
Y en la Consola de RStudio se muestra el comando

>setwd(“E:\Estadistica Descriptiva”)
A continuación, seleccionamos el fichero de trabajo, al que llamo datos. Para
ello en el editor de RStudio escribimos.
Figura 1: read.table("E:/Estadistica Descriptiva/ejemplo 1-RStudio.txt", header = TRUE)

Ejecutar la sentencia, para ello Click en la tecla Run o bien presionar las teclas
Ctrl+ Enter y se ejecuta, mostrándose en la Consola de RStudio.

Figura 2: datos <- read.table("E:/Estadistica Descriptiva/ejemplo 1-RStudio.txt", header = TRUE)


Nota: Se aconseja trabajar en el Editor de RStudio y ejecutar con el comando
Run o bien con Ctrl+ Enter

Calculamos las frecuencias absolutas y relativas de las variables peso y nombre

Representaciones gráficas
RStudio y R ofrecen una gran variedad de gráficos, el comando demo(graphics)
muestra dichos gráficos. Atendiendo al tipo de datos vamos a utilizar varios
tipos de gráficos.
• Variables cualitativas o variables cuantitativas de tipo discreto: Se
pueden considerar gráficos de sectores o gráficos de barras, los cuales se
obtienen en R mediante las funciones pie y barplot, respectivamente. Los
argumentos más importantes de estas funciones son:
pie(x, labels = names(x), clockwise = FALSE, init.angle = if(clockwise) 90 else 0,
col = NULL, main = NULL)
barplot(x, horiz = FALSE, height, col = NULL, width space, names.arg, beside,
main = NULL, sub = NULL, xlab = NULL, ylab = NULL)
donde:
x: es un vector con las frecuencias de las observaciones. Igualmente, puede ser
una tabla de frecuencia (de las obtenidas con table o prop.table)
labels: es un vector de cadenas de caracteres que indican los nombres de cada
una de las categorías que aparecen en el gráfico de sectores
clockwise: es un argumento lógico que indica si los sectores se dibujan en
sentido horario (clockwise = TRUE) o en sentido antihorario (clockwise = FALSE,
que es la opción por defecto).
init.angle: es un valor numérico que indica el ángulo (en grados) en el que se
sitúa el primer sector. Por defecto, el primer sector empieza a dibujarse a los 90
grados (- a las 12 en punto -, cuando clockwise es igual a TRUE) o a los 0 grados
(- a las 3 en punto -, cuando clockwise es igual a FALSE)
horiz: es un argumento lógico que indica si las barras del gráfico de barras se
dibujan de forma vertical (horiz = FALSE, que es la opción por defecto) u
horizontal (horiz = TRUE)

height: vector de frecuencias para cada valor


width: especifica mediante un vector el ancho de las barras

space: fija el espacio entre las barras


names.arg: vector de nombres para colocarlos bajo las barras
beside: valor lógico, FALSE indica barras apiladas y TRUE yuxtapuestas
col: es un vector en el que se indican los colores de las barras o los sectores del
gráfico
main y sub son cadenas de caracteres en la que se especifican el título y el
subtítulo del gráfico
xlab e ylab son cadenas de caracteres en las que se especifican los nombres de
los ejes X e Y.

• Variables cuantitativas: Los gráficos que se suelen emplear con más


frecuencia son el histograma, el diagrama de tallos y hojas y el
diagrama de caja y bigotes. En R, se utilizan las órdenes hist, stem y
boxplot para la obtención de histogramas, de diagramas de tallos y hojas
y de diagramas de caja y bigotes, respectivamente. Éstas son las
principales opciones de estas funciones:
hist(x, breaks = “Sturges”, freq=TRUE, right = TRUE, col = NULL, main =
paste(“Histogram of” , xname))

stem(x)
boxplot(x, range = 1.5, col = NULL, main = NULL)

donde, en este caso,


x es el vector de valores de la variable a partir de los cuales se dibujará el gráfico.
breaks indica la forma en la que se calcularán los intervalos en el histograma.
Las opciones disponibles para este parámetro son “Sturges” (que es la opción
por defecto) “Scott” y “FD” “Freedman-Diaconis“. Para más información sobre
estos métodos, así como la fórmula que emplea cada uno de ellos para
determinar el número de intervalos, se puede consultar el siguiente enlace (en
inglés): http://www.mas.ncl.ac.uk/~nlf8/teaching/mas1343/notes/chap4-
5.pdf
freq si es TRUE determina que el intervalo se represente con las frecuencias
absolutas
range es un valor numérico que determina la extensión de los bigotes de la caja.
Para un valor positivo de range, los bigotes se extienden hasta el último dato
que no supere 1.5 veces la longitud de la caja (el rango intercuartílico). Para un
valor de 0, los bigotes se extienden hasta el dato más lejano
right es un argumento lógico que indica si los intervalos son cerrados por la
izquierda y abiertos por la derecha (en cuyo caso, right = TRUE, que es la opción
por defecto) o viceversa (right = FALSE).
Las opciones col y paste funcionan igual que en los gráficos de barras y
sectores.
Ejemplos:
Figura 2: Diagrama de sectores para la variable edad

Se muestra la siguiente gráfica

Figura 3: Diagrama de barras para la variable Edad


Se muestra la siguiente gráfica

Figura 4: Diagrama de barras para las variables Sexo y Edad

Figura 5: Histograma para la variable Edad


Figura 6: Caja y bigotes para la variable Edad
En el Editor de RStudio hemos realizado las siguientes instrucciones

Características o Medidas de una variable estadística


En las secciones anteriores se han planteado técnicas gráficas, tablas
estadísticas y representaciones gráficas, que han proporcionado una
representación visual de las variables estadísticas. Dichas técnicas gráficas nos
dan una idea de la composición de la población en estudio. En esta sección
vamos a resumir todos los datos recogidos en una tabla estadística en unos
valores, medidas numéricas, llamadas Características o Medidas que
representen o sinteticen el conjunto de datos. Son medidas que proporcionan
información sobre puntos importantes de la distribución, completando la
información que nos ha proporcionado las tablas estadísticas y las
representaciones gráficas.
Estudiaremos las Características o medidas de posición, de dispersión, y de
forma.
En muchas ocasiones el interés reside en localizar el centro de la distribución
(para lo cual se calculan las medidas de tendencia central), existen casos en los
que los puntos que se desean estudiar distan mucho de este centro (en cuyo
caso se recurre al cálculo de las medidas de tendencia no central).
Algunas de las medidas más populares dentro del grupo de medidas de
tendencia central son la media, la mediana y la moda. Las funciones que
calculan las dos primeras medidas en R son mean y median.

mean (x, na.rm = FALSE)

median (x, na.rm = FALSE)


donde:

x: vector con los valores de la variable


na.rm: un argumento lógico que indica si hay que eliminar los valores
faltantes del conjunto de datos.
Las observaciones faltantes o no disponibles de un conjunto de datos son
codificadas en R como NA (que son las iniciales de Not Available). Cuando una
función de R encuentra algún NA entre los valores de las observaciones que
trata de analizar devuelve como resultado NA, indicando así que los cálculos no
se han podido realizar. No obstante, asignando el valor TRUE al argumento
na.rm se pueden eliminar los valores faltantes y obtener así un valor para la
media o la mediana, basado en las observaciones restantes.

En cuanto a la moda, R y RStudio no tienen implementada ninguna función


que la calcule. Por lo que vamos a definir una función que calcule la moda de
un conjunto de datos. Así, tendremos que copiar y pegar el siguiente código en
el Editor de RStudio y pulsamos Run

Una vez hecho esto, podremos calcular la moda de un conjunto de datos tal y
como sigue:
Mode (x)
En el caso de que existan varias modas (es decir, cuando estemos ante una
distribución plurimodal), esta función mostrará únicamente la menor de ellas
(o la primera en orden alfabético, si se está analizando una variable cualitativa).
Entre las medidas de posición de tendencia no central, los cuantiles figuran
entre las más utilizadas. Para obtener los cuantiles de una variable en R se
emplea la función quantile.

quantile(x, probs = seq(0, 1, 0.25), na.rm = FALSE)


donde:

x: vector que incluye los valores de la variable


seq: Argumento que indica los cuantiles que se van a calcular. Por defecto, se
muestran los siguiente cuantiles:

• 0, que coincide con el valor mínimo


• 25, que coincide con el primer cuartil
• 50, que coincide con el segundo cuartil y con la mediana
• 75, que coincide con el tercer cuartil
• 100, que coincide con el valor máximo
na.rm: un argumento lógico que indica si hay que eliminar los valores faltantes
del conjunto de datos.

El mínimo y el máximo de un conjunto de datos, además de poder calcularse


como los cuantiles 0 y 100, pueden obtenerse utilizando las funciones de R min
y max.
min (x, na.rm = FALSE)
max (x, na.rm = FALSE)

Medidas de dispersión
Tratan de cuantificar la variabilidad o esparcimiento de los datos informando
acerca de la mayor o menor representatividad de las medidas de tendencia
central.
Entre las medidas de dispersión más utilizadas se encuentran la cuasi-
varianza, la cuasi-desviación típica y el rango intercuartílico, que en R y
RStudio se calculan a través de las funciones var, sd e IQR, respectivamente.

var(x, na.rm = FALSE)


sd(x, na.rm = FALSE)

IQR(x, na.rm = FALSE)


Los dos argumentos principales de estas funciones son x, que es el vector con
los valores de la variable que se está estudiando y na.rm que, como ya se ha
comentado, indica si los valores faltantes han de ser eliminados antes del
análisis.
Como se ha especificado, las funciones var y sd no calculan la varianza y la
desviación típica de una variable, sino su cuasi-varianza y su cuasi-desviación
típica. En caso de necesitar la varianza o la desviación típica, basta con
multiplicar el resultado de las funciones var y sd por (n – 1)/n, siendo n el
número total de datos con el que se está trabajando.

A partir de las funciones anteriores se pueden calcular otras medidas, como el


coeficiente de variación de Pearson o el rango. El coeficiente de variación se
emplea para comparar la representatividad de la media entre distintas variables
y se obtiene dividiendo la desviación típica de una variable entre su media. Por
su parte, el rango es una medida de dispersión muy sencilla que se obtiene
como la diferencia entre los valores máximo y mínimo.

Para ordenar los datos en forma creciente o decreciente se utiliza el comando


sort
sort(x, decreasing = FALSE, …)

donde sus posibles argumentos son:

• x vector numérico
• na.rm valor lógico que indica si los valores de NA deben ser despojados
antes de que continúe la computación
• decreasing se utiliza para indicar orden decreciente o creciente

Medidas de forma
Como su propio nombre indica, estas medidas se centran en el estudio de la
forma que presenta una distribución a través del análisis de la simetría y la
curtosis o el apuntamiento de la distribución en cuestión.
Para determinar la simetría de una distribución se emplea la función skewness,
contenida en el paquete moments. En R y RStudio, un paquete no es más que
un conjunto de funciones con un propósito común. Para poder utilizar las
funciones incluidas en un determinado paquete, es necesario instalar el paquete
y, posteriormente cargarlo.
Para instalar el paquete, seleccionamos en el menú principal Tools/Install
Packages, y se muestra la siguiente ventana donde escribimos moments

Figura 6: Instalación del paquete “moments”


y pulsamos Install
También podemo escribir en el Editor de RStudio
install.packages(“moments”) y pulsamos Run
trying URL
‘https://cran.rstudio.com/bin/windows/contrib/3.2/moments_0.14.zip’

Content type ‘application/zip’ length 40696 bytes (39 KB)


downloaded 39 KB

package ‘moments’ successfully unpacked and MD5 sums checked


The downloaded binary packages are in

C:\Users\Usuario\AppData\Local\Temp\RtmpEXGVQk\downloaded_package
s

Una vez que el paquete se ha instalado de forma correcta en nuestro ordenador


no será necesario volver a instalarlo nunca más, siempre que no cambiemos la
versión de R. Tras instalar el paquete, procederemos a cargarlo para ello desde
el panel de paquetes simplemente se selecciona dicho paquete
Figura 7: Cargar el paquete “moments”
o bien utilizar la función library.
> library(“moments”)
A diferencia de la instalación, la carga de los paquetes es necesaria cada
vez que se inicia una nueva sesión de R o de Rstudio. Una vez instalado y
cargado el paquete moments, ya podemos utilizar la función skewness. Su
sintaxis es:
skewness(x, na.rm = FALSE)

donde
x: es el vector que incluye los valores de la variable
na.rm: es un argumento lógico que indica si hay que eliminar los valores
faltantes del conjunto de datos.

De forma análoga, para estudiar la curtosis de un conjunto de datos


emplearemos la función kurtosis que también está contenida en el paquete
moments.
kurtosis(x, na.rm = FALSE)

donde los parámetros x y na.rm se definen forma similar al caso anterior.

Algunas funciones resumen


Existen funciones en R que calculan, a la vez, algunas de las medidas que se
han descrito hasta ahora, summary es un buen ejemplo de este tipo de
funciones, ya que cuando se aplica a una variable cuantitativa devuelve el
mínimo, el máximo, la media, la mediana y los cuartiles primero y tercero de la
variable. La sintaxis de esta función es la siguiente:
summary(object)
object: es el objeto (la variable en nuestro caso) del cual queremos obtener el
resumen.

En el Editor de RStudio hemos realizado las siguientes instrucciones

You might also like