You are on page 1of 8

- ISFD51 - Eje temático 1.1.

| Estadística descriptiva
- Probabilidad y Estadística - Nota de clase 1 | Elementos de la Estadística

ESTADÍSTICA Y PROBABILIDAD ELEMENTALES | ESTADÍSTICA DESCRIPTIVA


Notas de clase 01 | Elementos de la Estadística

La primera pregunta que tenemos que hacernos es ¿qué es la estadística?


La Estadística es el área de la Matemática que se ocupa de la recolección, organización,
realización de inferencias y extracción de conclusiones a partir de un conjunto de datos.
Algunas técnicas de análisis de datos suelen ser sorprendentemente simples y fácil de
utilizar, más allá del hecho que la teoría matemática que las sustentan puede ser muy
compleja.
Existen muchos métodos estadísticos cuyo propósito es ayudarnos a poner de
manifiesto las características sobresalientes e interesantes de un conjunto de datos que
pueden ser usados en casi todas las áreas del conocimiento.

Etapas de una investigación estadística

Una investigación estadística, se puede dividir en tres etapas:


▪ Diseño: Es una actividad crucial. Consiste en definir como se desarrollará la
investigación para dar respuesta a las preguntas que motivaron la misma. La
recolección de los datos requiere, en general, de un gran esfuerzo. Dedicar especial
cuidado en la planificación de la investigación, ahorra trabajo en las siguientes
etapas.
▪ Descripción: Los métodos de la Estadística Descriptiva, los cuales comenzaremos a
trabajar en esta clase, ayudan a presentar los datos de tal modo que sobresalga sus
características principales. Hay varias formas simples e interesantes de organizar los
datos en gráficos que permiten detectar tanto las características sobresalientes
como las inesperadas. El otro modo de describir los datos es resumirlos en ciertos
valores que pretenden representar el conjunto con la menor perdida de información
posible.
▪ Inferencia: La inferencia estadística hace referencia a un conjunto de métodos que
permiten hacer predicciones acerca de las características de un fenómeno en base a
información parcial acerca del mismo. Los métodos de inferencia nos permiten
proponer el valor de una cantidad desconocida (estimación puntual o por intervalos
de confianza) o decidir entre dos teorías cuál de ellas explica mejor los datos
observados (test de hipótesis).
La finalidad de cualquier estudio estadístico es analizar ciertas características de una
determinada población. Sin embargo, usualmente el estudio se realiza, por una cuestión
de practicidad, a través de una muestra.
Población y muestra

Definiciones | Población y muestra.


Una población es la colección completa de elementos o resultados de la
información buscada.
Una muestra constituye un subconjunto de una población, que contiene
elementos o resultados que realmente se observan.

- Lic. Pablo Viveros - -1-


- ISFD51 - Eje temático 1.1. | Estadística descriptiva
- Probabilidad y Estadística - Nota de clase 1 | Elementos de la Estadística

Una muestra aleatoria simple de tamaño 𝑛 es una muestra elegida por


un método en el que cada colección de 𝑛 elementos de la población tiene
la misma probabilidad de ser elegido para formar parte de la muestra.

Como hemos mencionado en el apartado anterior, los métodos estadísticos están


basados en la idea de analizar una muestra tomada de una población. Para trabajar con
esta idea, la muestra se debe elegir de manera adecuada para que sea representativa
de la población.
Por ejemplo, digamos que queremos conocer a qué hora se despiertan los estudiantes
de una escuela en Pilar, al considerar una muestra de 100 estudiantes. ¿Cómo se deben
elegir los 100 estudiantes? Algunos métodos son malos. Por ejemplo, si elegimos a los
estudiantes solamente del turno mañana, queda claro que esta muestra
indudablemente no representaría a la población total. Podríamos pensar que sería
razonable usar alguna muestra convenientemente obtenida; por ejemplo, todos los
estudiantes que vivan en un determinado barrio (podríamos suponer que no hay razón
para pensar que la hora en que se levanten estos estudiantes esté vinculado al barrio
donde viven). Sin embargo, muestras así no son ideales, porque pueden volverse
engañosas en formas no previstas (por ejemplo, la presencia de una fábrica en el barrio
que comienza a operar a las 06:00 am y cuyos ruidos hacen que los vecinos se despierten
alrededor de ese horario).
Los mejores métodos del muestreo son, sin dudas, los que implican una aleatoriedad a
la hora de selección los datos que formaran parte de la muestra. Hay muchos métodos
diferentes de muestreos aleatorios, el más básico es el muestreo aleatorio simple. En
nuestro ejemplo, podríamos utilizar algún software que genere números aleatorios de
tres cifras (por ejemplo, Excel), los cuales representaran las tres últimas cifras del DNI
de los estudiantes que formaran parte de la muestra.
Además del muestreo aleatorio simple, existen otros métodos de muestreo que son
útiles en diversas situaciones. Por ejemplo, el muestreo ponderado donde se le da
mayor oportunidad a algunos elementos para ser seleccionados. O el muestreo
aleatorio estratificado, la población se divide en subpoblaciones, llamadas estratos y se
extrae una muestra aleatoria simple de cada estrato.
En otras palabras, el muestreo aleatorio simple no es el único método válido para
seleccionar muestras, pero es el más importante. A menos que se indique otra cosa,
consideraremos que los términos “muestra” y “muestreo aleatorio” significan “muestra
aleatoria simple”.

Tipos de datos

Una vez definida la muestra a analizar, es crucial determinar la variable o característica


a registrar. Esta puede ser de dos tipos diferente:

- Lic. Pablo Viveros - -2-


- ISFD51 - Eje temático 1.1. | Estadística descriptiva
- Probabilidad y Estadística - Nota de clase 1 | Elementos de la Estadística

Definición | Tipos de datos


Un dato es categórico o cualitativo cuando registra un atributo no
numérico de cada individuo de la muestra. Si este atributo puede
ordenarse de manere ascendente por algun criterios, se dice que es
cualitativo ordinal. En caso contrario, se dice que es cualitativo nominal.
Un dato es numérico o cuantitativo cuando el resultado de la observación
o medición es un número. A su vez, se clasifican en discreto (cuando sólo
puede tomar un cierto conjunto de valores posibles) o continuo (puede
tomar un conjunto infinito de valores posibles dentro de un rango).

Algunos ejemplos para datos cualitativos podrían ser: genero, nacionalidad, grados de
satisfacción con respecto a un producto (muy aceptable, aceptable, poco aceptable,
nada aceptable), etc.
En cuanto a los datos cuantitativos discretos, número de miembros de un hogar,
cantidad de líneas de celulares, cantidad de materias pendientes, etc. son algunos
ejemplos. Para las continuas, habitualmente están asociadas al proceso de medición
(altura, peso, nivel de colesterol en sangre, distancia entre el hogar y la escuela, etc.)
Pero hay que tener cuidado, la distinción entre datos discretos y continuos es
importante para decidir qué método de análisis estadístico utilizar, ya que hay métodos
que suponen que los datos son continuos. Por ejemplo, la variable edad. La edad es
continua, pero si se la registra en años resulta ser discreta. En estudios con adultos, en
que la edad va de 20 a 70 años, por ejemplo, no hay problemas en tratarla como
continua, ya que el número de valores posibles es muy grande. Pero en el caso de niños
en edad preescolar, si la edad se registra en años debe tratarse como discreta, en tanto
que si se la registra en meses puede tratarse como continua.
Los datos numéricos (discretos o continuos) pueden ser transformados en cualitativos y
ser tratados como tales. Aunque esto es correcto, no necesariamente es eficiente y
siempre es preferible registrar un valor numérico, ya que esto permite un análisis
estadístico más potente.
Después de la recopilación de los datos, es necesario resumirlos y presentarlos de tal
manera que sea posible su comprensión y su posterior análisis. Para este motivo, se
determinan cuadros numéricos y luego se representa la información en diversos
gráficos.

Organización de datos para variables cualitativas

Definiciones | Frecuencias relacionadas a una variable cualitativa.


Sea una muestra de 𝑛 datos estadísticos. Se observan 𝑘 categorias
diferentes 𝐶1 , 𝐶2 , … , 𝐶𝑘 de una variable cualitativa 𝑋.
La frecuencia absoluta 𝒇𝒂 (𝑪𝒊 ) es el número de datos observador que
cumplen con la categoria 𝐶𝑖 . La suma de todas las las frecuencias
absolutas es igual al total 𝑛 de la muestra. Es decir,
∑ 𝑓𝑎 (𝐶𝑖 ) = 𝑛

- Lic. Pablo Viveros - -3-


- ISFD51 - Eje temático 1.1. | Estadística descriptiva
- Probabilidad y Estadística - Nota de clase 1 | Elementos de la Estadística

La frecuencia relativa 𝒇𝒓 (𝑪𝒊 ) es la proporción con respecto del total 𝑛 de


la muestra que cumplen con la categoría 𝐶𝑖 . En forma simbólica:
𝑓𝑎 (𝐶𝑖 )
𝑓𝑟 (𝐶𝑖 ) =
𝑛
Además, se cumple que suma de todas las frecuencias relativas de los
datos dan como resultado al uno. Es decir,
∑ 𝑓𝑟 (𝐶𝑖 ) = 1
La frecuencia porcentual 𝒇% (𝑪𝒊 ) es el porcetaje del total 𝑛 de la muestra
que cumple con la categoría 𝐶𝑖 . En forma simbólica:
𝑓% (𝐶𝑖 ) = 𝑓𝑟 (𝐶𝑖 ) · 100%
Como es de esperar, la sumatoria de todas las frecuencias porcentuales
es igual a 100%.
∑ 𝑓% (𝐶𝑖 ) = 100%

Todos estos parámetros se organizan en las denominadas tablas de distribución de


frecuencias o simplemente tabla de frecuencias, las cuales tienen la siguiente
disposición,
Categorías de la
𝑓𝑎 𝑓𝑟 𝑓%
variable 𝑋
𝐶1 𝑓𝑎 (𝐶1 ) 𝑓𝑟 (𝐶1 ) 𝑓% (𝐶1 )
𝐶2 𝑓𝑎 (𝐶2 ) 𝑓𝑟 (𝐶2 ) 𝑓% (𝐶2 )
⋮ ⋮ ⋮ ⋮
𝐶𝑘 (𝐶
𝑓𝑎 𝑘 ) (𝐶
𝑓𝑟 𝑘 ) 𝑓% (𝐶𝑘 )
Totales 𝑛 1 100%
En cuanto a la presentación de gráficas para la distribución de frecuencias de variable
cualitativa, existen una gran variedad. Las más comunes son la de barras y la de sectores
circulares.
En una gráfica de barras los datos de cada una de las categorías 𝐶𝑖 se representan por
una barra rectangular vertical (u horizontal), cuya altura (o largo) es proporcional a su
frecuencia. Generalmente, las barras se dibujan dejando un espacio entre ellas.
En una gráfica circular, los datos de cada categoría 𝐶𝑖 , se representan por un sector
circular cuyo ángulo en el centro es igual a 𝑓𝑟 (𝐶𝑖 ) · 360°. Generalmente, cada sector
viene acompañado por la frecuencia porcentual de cada categoría. Si la gráfica por
sectores circulares es tridimensional es denominada de grafica de pastel o de torta.

Ejemplicio 1
Para cada una de las siguientes situaciones, clasifica el tipo de dato
obtenido, diseña una tabla de frecuencia y represéntalo con una gráfica
de barras y/o circular:

- Lic. Pablo Viveros - -4-


- ISFD51 - Eje temático 1.1. | Estadística descriptiva
- Probabilidad y Estadística - Nota de clase 1 | Elementos de la Estadística

Situación 1: Se está analizando las opiniones de los estudiantes sobre la


calidad de la comida que ofrece el buffet. Las opiniones pueden ser: Muy
mala (MM), Mala (M), Regular (R), Buena (B) y Muy buena (MB). A
continuación, se presenta la opinión de 20 estudiantes:
R, B, M, B, M, R, MB, R, B, M, R, M, MB, R, B, M, MB, R, B, M
Situación 2: Se consultó a 20 estudiantes sobre su materia favorita. Estas
fueron sus respuestas: Biología, Biología, Biología, Física, Física, Historia,
Historia, Historia, Historia, Inglés, Inglés, Inglés, Inglés, Matemática,
Matemática, Matemática, Matemática, Química, Química, Química.

Organización de datos para variables cuantitativas discretas

Supongamos que ahora hemos recolectado 𝑛 valores de alguna variable discreta 𝑋. El


procedimiento más simple de organizar estos 𝑛 datos, consiste en ordenarlos en forma
ascendente. Si todos los registros son distintos entre sí, obtendremos una distribución
de frecuencias de 𝑛 valores de la variable 𝑋, donde cada uno de estos valores tienen
frecuencia absoluta igual a uno.
Si algunos valores se repiten, al terminar el ordenamiento obtendremos 𝑘 < 𝑛 valores
distintos de 𝑋 (𝑥1 , 𝑥2 , … , 𝑥𝑘 ) con frecuencias absolutas correspondientes
(𝑓𝑎 (𝑥1 ), 𝑓𝑎 (𝑥2 ), … , 𝑓(𝑥𝑘 ) ). Nuevamente, los datos se presentan en tablas de
frecuencias, debemos incorporar una columna para un nuevo tipo de frecuencia:

Definición | Frecuencias acumulada de una variable cuantitativa


discreta.
Sea la variable discreta 𝑋 con 𝑘 valores distintos 𝑥1 , 𝑥2 , … , 𝑥𝑘 con
frecuencias absolutas respectivas 𝑓𝑎 (𝑥1 ), 𝑓𝑎 (𝑥2 ), … , 𝑓(𝑥𝑘 ). La frecuencia
absoluta acumulada (o simplemente frecuencia acumulada) 𝑭(𝒙𝒊 ) del
valor 𝑥𝑖 es la suma de las frecuencias absolutas de los valores menores o
iguales a 𝑥𝑖 . En forma simbólica
𝑖

𝐹(𝑥𝑖 ) = ∑ 𝑓𝑎 (𝑥𝑗 )
𝑗=1

Observemos que la frecuencia acumulada para una variable cualitativa nominal no tiene
ningun sentido. Por esta razón, no se suele utilizar esta frecuencia para variables
cualitativas generales.
Ahora si, la tabla de frecuencia para variables cuantitativas discrestas pasa a tener la
siguientes estructura

- Lic. Pablo Viveros - -5-


- ISFD51 - Eje temático 1.1. | Estadística descriptiva
- Probabilidad y Estadística - Nota de clase 1 | Elementos de la Estadística

Valores de la
𝑓𝑎 𝑓𝑟 𝑓% 𝐹
variable 𝑋
𝑥1 𝑓𝑎 (𝑥1 ) 𝑓𝑟 (𝑥1 ) 𝑓% (𝑥1 ) 𝐹(𝑥1 )
𝑥2 𝑓𝑎 (𝑥2 ) 𝑓𝑟 (𝑥2 ) 𝑓% (𝑥2 ) 𝐹(𝑥2 )
⋮ ⋮ ⋮ ⋮ ⋮
𝑥𝑘 𝑓𝑎 (𝑥𝑘 ) 𝑓𝑟 (𝑥𝑘 ) 𝑓% (𝑥𝑘 ) 𝑛
Totales 𝑛 1 100%

La frecuencia acumulada del último valor posibles de la variable es igual al tamaño de la


muestra.
La representación gráfica más común de una distribución de frecuencias de variable
discreta es el denominado gráfico de línea o de bastón, que consiste en trazar en cada
valor distinto de la variable, segmentos proporcionales a su frecuencia. Si se unen los
extremos superiores de estos segmentos, obtenemos el denominado polígono de
frecuencia que sirve para plasmar la tendencia de la distribución.
También se puede realizar una gráfica para las frecuencias acumuladas, denominada
ojiva, que se construye como un polígono de frecuencia, pero en el eje de ordenadas se
presentan las frecuencias acumuladas.

Ejemplicio 2
Teniendo en cuenta la siguiente situación, organiza los datos en una tabla
de frecuencia y representa su polígono de frecuencia y ojiva.
Situación 3: Un docente ha tomado notas de la cantidad de preguntas que
20 estudiantes respondieron correctamente en una prueba de
matemáticas de 15 preguntas. Los resultados fueron los siguientes:
10, 12, 9, 10, 11, 10, 7, 13, 10, 8, 12, 9, 10, 11, 9, 8, 10, 7, 10, 8

Organización de datos por intervalos de clase

La distribución de frecuencias por intervalos de clases se utiliza cuando la variable


estadística es continua o cuando el número de valores distintos de una variable discreta
es muy grande.

Definiciones | Intervalos de clase


Se denomina rango de variación 𝑹 de los datos a la diferencia entre el
valor máximo y mínimo de la muestra. En forma simbólica:
𝑅 = 𝑋𝑚𝑎𝑥 − 𝑋𝑚𝑖𝑛
donde 𝑋𝑚𝑎𝑥 es el dato máximo y 𝑋𝑚𝑖𝑛 es el dato mínimo.
Los intervalos de clases 𝑰𝒊 de una muestra son una serie de interalo en
que se puede subdividir los 𝑛 datos de la muestra. Para determinar el
número de intervalos 𝒌 se suelen utilizar dos reglas:
▪ Cuando 𝑛 ≥ 10, se utiliza la regla de Sturges, la cual afirma que
𝑘 = 1 + 3,3 · log(𝑛)

- Lic. Pablo Viveros - -6-


- ISFD51 - Eje temático 1.1. | Estadística descriptiva
- Probabilidad y Estadística - Nota de clase 1 | Elementos de la Estadística

aproximado al entero superior más proximo.


▪ Cuandao 𝑛 ≥ 25, se puede utilizar
𝑘 ≅ √𝑛
Cada intervalo de clase tendrá un tamaño o amplitud 𝑨, dividiendo al
rango por la cantidad de intervalos.
𝑅
𝐴=
𝑘
La marca de clase 𝒎𝒊 de un intervalo de clase 𝐼𝑖 es le valor central de
dicho intervalo. Es decir, es el promedio de los extremos de dicho
intervalo.

Tengamos en cuenta las siguientes observaciones:


▪ Si la división 𝐴 = 𝑅 ⁄𝑘 no es exacta en el número de decimales de los datos,
entonces, la amplitud se aproxima por exceso de manera que se cubra todo el rango.
Es decir, que se cumpla 𝑘𝐴 > 𝑅. Por otro lado, si los datos son enteros, entoces 𝐴
tiene que ser entero, si los datos tiene un decimal, 𝐴 tiene que tener un decimal, etc.
Por ejemplo, si los datos de una muestra tiene dos decimales y si 𝐴 = 5,3416,
debemos elegir 𝐴 = 5,35.
▪ Para determinar los extremos de los intervalos 𝐼𝑖 procedemos de la siguiente
manera:
𝐼1 = [𝑋𝑚𝑖𝑛 ; 𝑋𝑚𝑖𝑛 + 𝐴)
𝐼2 = [𝑋𝑚𝑖𝑛 + 𝐴; 𝑋𝑚𝑖𝑛 + 2𝐴)
𝐼3 = [𝑋𝑚𝑖𝑛 + 2𝐴; 𝑋𝑚𝑖𝑛 + 3𝐴)

𝐼𝑘 = [𝑋𝑚𝑖𝑛 + (𝑘 − 1)𝐴; 𝑋𝑚𝑖𝑛 + 𝑘𝐴]
Todos son intervalos semiabiertos, excepto el último que es cerrado.
▪ Las marcas de clase son los números que representa a cada intervalo de clase. Es
decir, representan a todos los datos tabulados en un intervalo, por lo que se pierde
información. Por tanto, el cálculo de los estadísticos descriptivos, que veremos las
próximas notas de clase, será aproximado.
Teniendo en cuenta todo lo anterior, la tabla de frecuencia para una muestra organizada
por intervalos de clase tiene la siguiente estructura:

Intervalos 𝐼𝑖 𝑚𝑖 𝑓𝑎 𝑓𝑟 𝑓% 𝐹
𝐼1 𝑚1 𝑓𝑎 (𝐼1 ) 𝑓𝑟 (𝐼1 ) 𝑓% (𝐼1 ) 𝐹(𝐼1 )
𝐼2 𝑚2 𝑓𝑎 (𝐼2 ) 𝑓𝑟 (𝐼2 ) 𝑓% (𝐼2 ) 𝐹(𝐼2 )
⋮ ⋮ ⋮ ⋮ ⋮ ⋮
𝐼𝑘 𝑚𝑘 𝑓𝑎 (𝐼𝑘 ) 𝑓𝑟 (𝐼𝑘 ) 𝑓% (𝐼𝑘 ) 𝑛
Totales 𝑛 1 100%

Vale aclarar que, para esta organización, las frecuencias se computan a partir de la
cantidad de datos de la muestra que pertenecen a un determinado intervalo.
En cuanto la representación gráfica de las distribuciones de frecuencias por intervalos
de clase, se emplean los histogramas y/o los polígonos de frecuencia.

- Lic. Pablo Viveros - -7-


- ISFD51 - Eje temático 1.1. | Estadística descriptiva
- Probabilidad y Estadística - Nota de clase 1 | Elementos de la Estadística

Los histogramas son gráficas de barras rectangulares verticales juntas. Las bases de cada
barra es la amplitud del intervalo, y la altura es la frecuencia relativa absoluta. En el eje
horizontal se colocan las escalas de la variable. En el eje vertical se colocan las escalas
de las frecuencias absolutas.
Los polígonos de frecuencia se obtienen con segmentos, que unen los puntos que tienen
como abscisa a la marca de clase de cada intervalo y como ordenada a la frecuencia
absoluta respectiva. Se cierra en ambos extremos en las marcas de clase adyacentes de
frecuencia cero.

Ejemplicio 3
Situación 4: Un profesor de educación física ha medido el tiempo (en
segundos) que tardaron 20 estudiantes en completar una carrera de 100
metros. Los resultados fueron:
10.2, 10.5, 10.7, 11.2, 11.3, 11.5, 11.7,
11.9, 12.1, 12.3, 12.6, 12.8, 12.9, 13.1,
13.3, 13.7, 13.8, 14.1, 14.2, 14.6
(a) Confecciona una tabla de frecuencia.
(b) Presenta su histograma y polígono de frecuencia.

Para profundizar:
Devore, J. (2008). Probabilidad y Estadística para Ingeniería y
Ciencias. México D.F.: Cengage Learning.
- Sección 1.1 | Población, muestra y procesos (2 - 10).
- Sección 1.2 | Métodos pictóricos y tabulares en la estadística
descriptiva (10 - 24).

- Lic. Pablo Viveros - -8-

You might also like