You are on page 1of 7

UNIVERSIDAD DEL

MAGDALENA
Centro para la Regionalización de la Educación y las
Oportunidades CREO
Asignatura: Estadística I Fecha: 31 Oct 2022
Tema/Actividad: Guía No 1. Conceptos básicos de Estadística y Grupo:
organización de datos

Docente: Ing. M.Sc. Francisco Narváez M.

CONCEPTOS BÁSICOS DE ESTADÍSTICA Y ORGANIZACIÓN DE DATOS


ESTADÍSTICA:
Es la técnica o método científico usado para recolectar, organizar, resumir, presentar, analizar, interpretar,
generalizar y contrastar los resultados de las observaciones de los fenómenos reales.
Llinás Solano, H., & Rojas Álvarez, C. (2006)
¿Por qué usted necesita conocer estadística?
• Para presentar y describir la información en forma adecuada.
• Para inferir conclusiones sobre poblaciones grandes basándose solamente en información obtenida de
subconjuntos de ellas.
• Utilizar modelos para obtener pronósticos confiables.

ESTADÍSTICA DESCRIPTIVA VS ESTADÍSTICA INFERENCIAL.


La estadística descriptiva se compone de aquellos métodos que incluyen técnicas para recolectar, presentar,
analizar e interpretar datos. Por su parte, la estadística inferencial abarca aquellos métodos y conjunto de
técnicas que se utilizan para obtener conclusiones sobre las leyes del comportamiento de una población
basándose en datos de muestras tomadas de esa población

TÉRMINOS COMÚNMENTE USADOS EN ESTADÍSTICA


Población. Es el conjunto total de objetos que son de interés para un problema dado. Los objetos pueden ser
personas, animales, productos fabricados, etc. Cada uno de ellos recibe el nombre de elemento o individuo.
Por ejemplo, todos los niños nacidos en determinado año pueden constituir una población.
Muestra. Es un subconjunto de la población. Por ejemplo, si todos los niños nacidos en determinado año
constituyen una población, entonces los niños nacidos en febrero pueden constituir una muestra.
Datos u Observaciones. Son números o denominaciones que podemos asignar a un individuo o elemento de
la población. Son ejemplos de datos la edad de una persona, la respuesta a la pregunta: “¿usted fuma?”, el tipo
de sangre, salario mensual de un trabajador, etc.
Parámetro. Cualquier característica medible de una población. Por ejemplo, el ingreso promedio de todos los
trabajadores de una determinada empresa es un parámetro, si todos los trabajadores se consideran como
población.
Estadístico. Es cualquier característica medible de una muestra. Por ejemplo, el ingreso promedio de todos los
asalariados de una sección de la empresa (viendo a los trabajadores de ésta como una muestra de todos los
trabajadores de esta empresa).
Aleatoriedad y representatividad de la muestra: La muestra asociada a un estudio debe ser representativa
y aleatoria. Representativa, pues debe estar formada por un número razonable de elementos y aleatoria porque
debe ser escogida al azar, de tal manera que quien realiza el estudio no pueda influir en la elección de los
individuos por encuestar.
Variable estadística: es una característica o atributo que se observa en cada elemento de la población. Pueden
ser: Cuantitativas (Discretas o Continuas) y Cualitativas.
ACTIVIDAD 1.
1. Describa una posible muestra de tamaño 5 de cada una de las siguientes poblaciones:

a. Todos los periódicos publicados en Colombia.


b. Todas las empresas importantes en Colombia.
c. Todos los estudiantes de su curso.
d. Todos los promedios de calificaciones de los alumnos de su universidad.

2. Utilizando como población los estudiantes de mi plantel, identifico 10 características. Digo cuáles son
cuantitativas y cuáles cualitativas. En las variables cuantitativas distingo las discretas y las continuas.

ORGANIZACIÓN DE LOS DATOS.


Estudiaremos cuatro formas para organizar los datos: por el tipo de dato, de acuerdo a las escalas de medidas,
mediante tablas y mediante representaciones gráficas.
Organización de datos de acuerdo al tipo. Existen dos tipos de datos: categóricos (o cualitativos) y numéricos
(o cuantitativos). Los datos categóricos o cualitativos representan categorías o atributos (como, por ejemplo,
“SI” o “NO”) que pueden clasificarse como un criterio o cualidad. Los datos numéricos o cualitativos producen
respuestas numéricas como el peso en kilogramos, o el número de universidades que hay en la costa Atlántica.
Estos datos son de dos tipos:
• Discretos que producen respuestas numéricas que surgen de un conteo, como por ejemplo; la cantidad
de universidades que hay en la costa atlántica, en número de estudiantes de la universidad del
Magdalena en el 2021, la cantidad de hermanas que tiene un estudiante de profesional en deportes,
número de estudiantes que hacen ejercicios.
• Continuos producen respuestas numéricas que surgen de un proceso de medición, donde la
característica que se mide puede tomar cualquier valor numérico en un intervalo. Ejemplos de datos
continuos son el peso (en kilogramos) de una persona, el tiempo que usted tarda en llegar a la
universidad del Magdalena.

ACTIVIDAD 2.
1. Señalo con una (A) las series constituidas por datos cualitativos y con una (V) las que son cuantitativas:
• Nacionalidad.
• Número de tornillos producidos
• Temperatura
• Filiación política
• Estado civil
• Gastos en alimentación
• Profesión
• Llamadas diarias

2. En cada uno de los casos señalados, en la siguiente lista, indico si la variable es cuantitativa o cualitativa.
• Biología: Peso de un ser vivo
• Agricultura: Cultivo de legumbres
• Economía: ventas efectuadas por una empresa
• Transporte: Transporte en ferrocarril (en Km.)
• Demografía: número de hijos de una familia
• Estado civil
Organización de los datos de acuerdo a escalas de medidas. Según la escala de medición o el
procedimiento que los generó los datos se pueden clasificar en cuatro tipos: nominal, ordinal, de intervalo, y de
razón.
• Datos de nivel nominal. Se crean cuando se utilizan nombres para establecer categorías con la
condición de que cada uno pertenezca única y exclusivamente a una de estas categorías. Existen
escalas nominales tanto para datos numéricos como categóricos. Por ejemplo, entre los datos
numéricos que son nominales, se incluyen los números en las camisetas deportivas, los números
telefónicos, etc. Una escala nominal para datos categóricos es un agrupamiento no ordenado de los
datos en categorías discretas, donde cada dato puede incluirse solamente en uno de los grupos. Por
ejemplo los datos nominales que son cualitativos incluyen el género, la raza, el tipo de sangre y la
religión.
• Datos de nivel ordinal. Los datos medidos en una escala nominal ordenada de alguna manera se
denominan datos ordinales. Una escala ordina coloca las medidas en categorías, cada una de las cuales
indica un nivel distinto respecto a un atributo que se está midiendo. La lista de datos ordinales
comprende:
ü Clasificaciones por letras A, B, C y D; estos grados indican categorías de perfeccionamiento, así
como los niveles alcanzados
ü Rangos académicos: Doctor, magister, especialista, licenciado
ü La evaluación de un maestro: insuficiente, aceptable, bueno, excelente
ü Los grados de la escuela: primero, segundo, tercero.
No es posible determinar la diferencia o distancia entre los valores medidos en una escala ordinal. Aun cuando
codifiquemos las letras A como 4, B como 3, C como 2, y D como 1, esto no quiere decir que con A el estudiante
sabe el doble que un estudiante con C. Todo lo que podemos decir es que la calificación A es mejor o de un
grado superior a la de C, ya que una escala ordinal no admite unidad de distancia.
• Datos de Nivel de Intervalo. Los datos medidos en una escala ordinal para los cuales pueden
clasificarse las distancias entre valores se llaman datos de intervalos. La distancia entre dos valores es
importante y los datos de intervalo son numéricos por necesidad; una escala de intervalo no siempre
tiene un punto cero (es decir, un punto que indique la ausencia de los que se quiere medir). La lista de
datos de intervalo comprende:
ü Puntajes en las pruebas de inteligencia: Un puntaje de la prueba de inteligencia de 110 es cinco
puntos superior a uno de 105 (datos ordinales). En este caso, no solo podemos decir que un
puntaje de 110 es superior a uno de 105; sino que también podemos decir, que es cinco puntos
más alto; pero no podemos decir que una persona con un puntaje de inteligencia de 180 es
doblemente inteligente que una persona que tiene uno de 90.
ü Temperatura Celsius: una temperatura Celsius de 80˚ es 40˚ más caliente que una de 40˚, pero
no es correcto decir que 80˚ es el doble de caliente que 40˚. Nótese también que una temperatura
de 0 no implica que la energía interna del sistema sea igual a 0. El punto de cero en la escala de
temperatura Celsius fue escogido arbitrariamente como el punto de congelación e indica que está
presente algo de calor.
ü Fechas: Supongamos que un determinado joven nació en el 2000, 31 años después de su padre.
Podemos especificar la distancia entre estos dos sucesos ordenados, 31 años, pero si existiera
el año 0 no representaría la ausencia de tiempo.

• Datos de nivel de razón. Los datos medidos en una escala de intervalo con un punto cero que significa
“ninguno” se llaman datos de razón. Con datos medidos en una escala de razón podemos determinar
cuántas veces es mayor una medida que otra. Las escalas de razón incluyen salarios, unidades de
producción, peso, altura, etc. El dinero nos da una buena ilustración. Si usted tiene cero pesos, entonces
no tiene dinero. El peso es otro ejemplo. Si la aguja marca cero en la escala, (entonces hay una completa
ausencia de peso (sin importar si se utiliza distintas escalas de razón, como kilogramos, gramos o libras).
Las escalas de razón también incluyen escalas, como, por ejemplo, pies, libras, centímetros, etc., usadas
comúnmente para medir unidades. Los resultados de contar objetos también son datos de razón, como,
por ejemplo, diez peras es el doble de cinco.
Organización de datos mediante tablas. En esta forma de organización de los datos es importante el concepto
de frecuencia de un dato.
• Frecuencia Absoluta. De un dato, simbolizado con la letra f es el número de veces que aparece ese
dato en una colección de datos. Por ejemplo En el conjunto de datos 4 5 5 3 2 6 7 7 7 2, el cuatro solo
aparece una vez (por lo tanto tiene frecuencia f=1), el cinco aparece dos veces (o sea, frecuencia f=2),
etc.
Existen dos tipos generales de tablas para reportar datos usando frecuencias: tablas de frecuencia no
agrupadas y tablas de frecuencia agrupadas.
• Tabla de frecuencias no agrupadas. Son aquellas donde aparecen básicamente dos informaciones:
los datos y sus correspondientes frecuencias. Los datos organizados en tablas de frecuencias no
agrupadas se denominan usualmente datos no agrupados. Ejemplo la tabla de frecuencias (no
agrupadas) para el conjunto de datos 3 5 7 6 4 3 7 6 6 7 5 7 es

Datos 3 4 5 6

2 1 2 3
Frec.

• Frecuencia de un dato: Sean 𝑥! , 𝑥" , 𝑥# …, 𝑥$ un conjunto de datos distintos. La frecuencia de un dato


i, denotada como 𝑓% , se define como el número de veces que aparece el dato en el conjunto.

• Frecuencia acumulada hasta un dato: Sean 𝑥! , 𝑥" , 𝑥# …, 𝑥$ un conjunto de datos con frecuencias 𝑓! ,
𝑓" , 𝑓# ,…, 𝑓$ respectivamente, se define la frecuencia acumulada hasta el dato 𝑥% , i=1,…,n denotada 𝐹%
así:
!

𝐹! = # 𝑓" = 𝑓# + 𝑓$ + ⋯ + 𝑓! 𝑖 = 1,2, … , 𝑛
"%#
Ejemplo: Se tienen los siguientes datos sobre las edades de un grupo de adultos.
Edades={54, 53, 49, 57, 61, 62, 60, 66, 67, 49, 53, 50, 53, 61, 70, 53, 54, 50, 65, 61}. Calcule las frecuencias y
las frecuencias acumuladas.

Edades 49 50 53 54 57 60 61 62 65 66 67 70

Frecuencia 2 2 4 2 1 1 3 1 1 1 1 1

Edades 49 50 53 54 57 60 61 62 65 66 67 70

F. Acumulada 2 4 8 10 11 12 15 16 17 18 19 20

Con el ejemplo de las edades calcule frecuencias relativas y frecuencias relativas acumuladas.
Edades={54, 53, 49, 57, 61, 62, 60, 66, 67, 49, 53, 50, 53, 61, 70, 53, 54, 50, 65, 61}.
• Frecuencia relativa de un dato: Sean 𝑥! , 𝑥" , 𝑥# …, 𝑥$ un conjunto de datos con frecuencias 𝑓! , 𝑓" , 𝑓# ,…,
𝑓$ respectivamente, se define la frecuencia relativa de un dato 𝑥% , i=1,…,n , denotada como 𝑓&% así:

𝑓!
𝑓&! = 𝑖 = 1,2, … , 𝑛
∑!"%# 𝑓"

• Frecuencia relativa acumulada hasta un dato: Sean 𝑥! , 𝑥" , 𝑥# …, 𝑥$ un conjunto de datos con
frecuencias 𝑓! , 𝑓" , 𝑓# ,…, 𝑓$ respectivamente, se define la frecuencia relativa acumulada hasta el dato 𝑥% ,
i=1,…,n denotada 𝐹&% así:

𝐹&! = # 𝐹" = 𝑓&# + 𝑓&$ + ⋯ + 𝑓&! 𝑖 = 1,2, … , 𝑛


"%#

Edades 49 50 53 54 57 60 61 62 65 66 67 70

FR 0,10 0,10 0,20 0,10 0,05 0,05 0,15 0,05 0,05 0,05 0,05 0,05

Edades 49 50 53 54 57 60 61 62 65 66 67 70

FRA 0,10 0,20 0,40 0,50 0,55 0,60 0,75 0,80 0,85 0,90 0,95 1

• Tablas de frecuencia Agrupadas. Otra forma de organizar los datos es agruparlos en intervalos
(llamados intervalos de clase o, simplemente, clases) y determinar la llamada frecuencia de clase de
cada clase, es decir, el total de los datos que hay en cada clase. Posteriormente, las clases y las
frecuencias de clase se ubican en una tabla que llamaremos tabla de frecuencias agrupadas. Los datos
que se organizan en las tablas de frecuencias agrupadas se denominan generalmente datos agrupados.
En ciertos casos es de interés para el investigador identificar los patrones en un conjunto de datos, por lo tanto
se agrupan las observaciones en intervalos que llamaremos “Intervalo de Clase” los cuales no deben
superponerse entre si, y deberemos calcular sus frecuencias las cuales llamaremos “Frecuencias de clase”.
Las definiciones presentadas para los datos no agrupados son válidas también para los datos agrupados. Las
tablas de frecuencias agrupadas se realizan cuando se tienen tamaños de muestra grandes o datos continuos.
Las tablas de frecuencia para datos agrupados son el insumo de los histogramas.
• Rango: Sean 𝑥! , 𝑥" , ..., 𝑥$ , el conjunto de todos los datos distintos en una población y sean 𝑓! , 𝑓" ,
..., 𝑓$ , las respectivas frecuencias. Se define el rango, denotado por r, así:
r = 𝒙𝑴 − 𝒙𝒎
donde 𝒙𝑴 y 𝒙𝒎 son el mayor y el menor de los datos respectivamente.
• Intervalo de clase: Es cada uno de los intervalos en que se han decidido agrupar parcialmente los datos
con el propósito de hacer un resumen de ellos.
• Número de intervalos: Se denotará como K y para determinarlo utilizaremos el criterio de la regla de
Sturges, la cual viene dada así:
K ≈ 1 + 3, 3(log10n).
No existe un acuerdo general entre los estadísticos acerca del número de clases.
• Amplitud: Sea r el rango de un conjunto de datos y K el número de intervalos de clase de igual
longitud, se define la amplitud de un intervalo, denotada a, así:
𝒓
a=
𝒌

• Marca de clase: Sean 𝐿% y 𝐿+ el límite inferior y el superior respectivamente de un intervalo de


clase. Se define la marca de clase para el intervalo [𝐿% , 𝐿+ ), como la semisuma de 𝐿% y 𝐿+ .
Para la construcción de tablas de frecuencia manualmente se recomienda ordenar los datos de
forma ascendente.

Ejemplo: Se tienen las siguientes estaturas de un grupo de personas seleccionadas al azar en una compañía.
Organice los datos en una tabla de frecuencia agrupada.
Estaturas{150,150,153,155,157,157,157,158,158,158,160,160,160,163,163,164,165,165,165,166,168,169,169
,169,169,170,170,170,170,173,174,175,175,177,178,180,180,183,185,185}
Solución:
El cálculo del rango viene dado por la ecuación,
r = 𝒙𝑴 − 𝒙𝒎
r = 185 − 150 = 35
El número de intervalos lo calculamos mediante la regla de Sturges.
K ≈ 1 + 3, 3(𝒍𝒐𝒈𝟏𝟎 n)
K ≈ 1 + 3, 3(𝑙𝑜𝑔!. 40) ≈ 1 + 5, 2868 ≈ 7
Para el calcular la amplitud utilizamos,
𝒓
a =𝒌
#/
a= =5
0

K Li Ls Marca de clase frecuencia F. A F.R. F.R.A.

1 150 155 152.5 3 3 0.075 0.075

2 155 160 157.5 7 10 0.175 0.25

3 160 165 162.5 6 16 0.15 0.4

4 165 170 167.5 9 25 0.225 0.625

5 170 175 172.5 6 31 0.15 0.775

6 175 180 177.5 4 35 0.1 0.875

7 180 185 182.5 5 40 0.125 1

ACTIVIDAD 3.
1. Los siguientes datos son las calificaciones obtenidas en una asignatura por un grupo de 30 alumnos.
7-5 -4 -7 -2 -5 -4 -3 -6 -4 -5 -6 -2 -3 -7 -5 -6 -5 -4 -3 -4 -5 -3 -7 -6 -5 -4 -2 -3 -1
Construya una tabla de distribución de frecuencias no agrupadas y obtenga por lo menos 3 conclusiones.
2. Una agencia de noticias quiere saber cuál es el medio de comunicación por el cual se informan las
personas, sobre las noticias del país. Para ello, realizó un estudio a un grupo de personas a quienes se
les preguntó por su medio de información de noticias preferido. Se obtuvo la siguiente lista de datos.

Realice la tabla de frecuencia y determine cuál es el medio de comunicación que más prefieren y cuál es el
menos utilizado.

TRABAJO EN GRUPO. El trabajo es en grupos de tamaño 4 y deberán subirlo al


campus virtual en asignaciones.

1. Realice las actividades 1, 2 y 3 de la presente guía de trabajo.

BIBLIOGRAFIA.
Llinás Humberto, Estadística descriptiva y distribuciones de probabilidad, Universidad del Norte, 2005, 408p.

You might also like