You are on page 1of 22

Universidad Rural de Guatemala

Ciencias Jurídicas y Sociales

Rabinal, Baja Verapaz – 069

González Chavarría, José Vitelio – 170690024

Cuarto Semestre – 2018

Licda. Itsmania Dubón de Solís

Texto Final de Estadística I

Rabinal, 09 de Noviembre de 2018


¿Qué es estadística? Tipos y objetivos

La estadística podría definirse como la ciencia que se encarga de recopilar, organizar,

procesar, analizar e interpretar datos con el fin de deducir las características de una población

objetivo, pero esta sería solo una visión estrecha de lo que comprende esta rama del saber. A

continuación se hace una muy breve introducción teórica al amplio concepto de la estadística.

¿Qué es estadística?

La estadística es la ciencia que estudia cómo debe emplearse la información y cómo dar una

guía de acción en situaciones prácticas que entrañan incertidumbre. (Gutiérrez, p.23)

La estadística es la ciencia de los datos, la cual implica su recolección, clasificación, síntesis,

organización, análisis e interpretación, para la toma de decisiones frente a la incertidumbre

(Ángel, p. 28)

La estadística es la rama del conocimiento humano que tiene como objeto el estudio de ciertos

métodos inductivos aplicables a fenómenos susceptibles de expresión cuantitativa. (López,

p.1)

La estadística es el arte de aprender a partir de los datos. Está relacionada con la recopilación

de datos, su descripción subsiguiente y su análisis, lo que nos lleva a extraer conclusiones.

(Ross, p.3)

La estadística es una ciencia exacta cuyo objetivo fundamental es el estudio de diversas forma

de comportamiento de la sociedad, para lo cual se fundamenta en el uso de diversos métodos


y procedimientos matemáticamente demostrables de manera formal y rigurosa. (Cóndor,

p.10)

La estadística es una ciencia que facilita la toma de decisiones mediante la presentación

ordenada de los datos observados en tablas y gráficos estadísticos, reduciendo los datos

observados a un pequeño número de medidas estadísticas que permitirán la comparación

entre diferentes series de datos y estimando la probabilidad de éxito que tiene cada una de

las decisiones posibles. (Fernández et.al, p.18)

Objetivo de la estadística

El objetivo de la estadística es mejorar la comprensión de hechos a partir de datos. (Moore,

p.267)

El principal objetivo de la estadística es hacer inferencias acerca de una población, con base

en la información contenida en una muestra. (Pérez, p.172)

¿Cuáles son los tipos de estadística?

Básicamente se tienen dos tipos de estadística, a saber:

Estadística descriptiva

Se puede definir como un método para describir numéricamente conjuntos numerosos. Por

tratarse de un método de descripción numérica, utiliza el número como medio para describir

un conjunto, que debe ser numeroso, ya que las permanencias estadísticas no se dan en los

casos raros. No es posible sacar conclusiones concretas y precisas de los datos estadísticos.

(Vargas, p.33)

Objetivo de la estadística descriptiva


La finalidad última de la estadística descriptiva es resumir la información de conjuntos más

o menos numerosos de datos. Para ello se asienta en un concepto inmediato a la tarea de

recuento: la frecuencia, medida empírica de la ocurrencia de los distintos estados que puede

presentar una variable. (SGT, p.16)

Estadística inferencial, analítica o deductiva

Estudia la probabilidad de éxito de las diferentes soluciones posibles a un problema en las

diferentes ciencias en las que se aplica y para ello utiliza los datos observados en una o varias

muestras de la población. Mediante la creación de un modelo matemático infiere el

comportamiento de la población total partiendo de los resultados obtenidos en las

observaciones de las muestras. (Fernández et.al, p.17)

Objetivo de la estadística inferencial

La inferencia estadística intenta tomar decisiones basadas en la aceptación o el rechazo de

ciertas relaciones que se toman como hipótesis. Esta toma de decisiones va acompañada de

un margen de error, cuya probabilidad está determinada. (Vargas, p.33)

La estadística inferencial tiene dos objetivos básicos; a) obtener conclusiones válidas acerca

de una población sobre la base de una muestra, es decir, que las conclusiones que obtengamos

de una muestra se puedan extrapolar a la población que dio origen a esa muestra y b) poder

medir el grado de incertidumbre presente en dichas inferencias en términos de probabilidad.

(Díaz, p.287)

Otras definiciones

A continuación se definen algunos de los términos más usados en estadística:


Población. Es el conjunto de todos los posibles elementos que intervienen en un experimento

o en un estudio. La hay de dos tipos

Población finita. Es aquella que indica que es posible alcanzarse o sobrepasarse al contar. Es

aquella que posee o incluye un número limitado de medidas y observaciones.

Población infinita. Es infinita si se incluye un gran conjunto de medidas y observaciones que

no pueden alcanzarse en el conteo. Son poblaciones infinitas porque hipotéticamente no

existe límite en cuanto al número de observaciones que cada uno de ellos puede generar.

Muestra. Un conjunto de medidas u observaciones tomadas a partir de una población dada.

Es un subconjunto de la población.

Muestra representativa. Un subconjunto representativo seleccionado de una población de la

cual se obtuvo.

Muestreo. Al estudio de la muestra representativa.

Censo. Al estudio completo de la población.

Parámetro. Lo constituyen las características medibles en una población completa. Se le

asigna un símbolo representado por una letra griega.

Estadístico o estadígrafo. Es la medida de una característica relativa a una muestra. La

mayoría de los estadísticos muestrales se encuentran por medio de una fórmula y suelen

asignárseles nombres simbólicos que son letras latinas.


Datos estadísticos (Variables). Los datos son agrupaciones de cualquier número de

observaciones relacionadas. Para que se considere un dato estadístico debe tener 2

características: a) Que sean comparables entre sí. b) Que tengan alguna relación.

Variable. Una característica que asume valores.

Clases de datos

Variable cuantitativa o escalar

Será una variable cuando pueda asumir sus resultados en medidas numéricas.

Variable cuantitativa discreta

Es aquella que puede asumir sólo ciertos valores, números enteros. Ejemplo: El número de

estudiantes (1,2,3,4)

Variable cuantitativa continúa

Es aquella que teóricamente puede tomar cualquier valor en una escala de medidas, ya sea

entero o fraccionario. Ejemplo, Estatura: 1.90 m

Variables cualitativas nominales

Cuando no es posible hacer medidas numéricas, son susceptibles de clasificación. Ejemplo:

Color de autos: rojo, verde, azul.

Experimento

Es una actividad planificada, cuyos resultados producen un conjunto de datos. Es el proceso

mediante el cual una observación o medición es registrada. Ejemplo: ¿Cuál será la


preferencia del consumidor ante dos marcas de refresco con similares características en un

ambiente armónico y sin publicidad?

Histograma

Una gráfica de la distribución de un conjunto de medidas. Un Histograma es un tipo especial de

gráfica de barras que despliega la variabilidad dentro de un proceso. Un Histograma toma datos

variables (tales como alturas, pesos, densidades, tiempo, temperaturas, etc.) y despliega su

distribución. Los patrones inusuales o sospechosos pueden indicar que un proceso necesita

investigación para determinar su grado de estabilidad.

Diagrama de frecuencia acumulada

Se utilizan cuando se interesa conocer el número de individuos que hay antes de un cierto valor de la

variable.
La media aritmética

La media aritmética es el valor obtenido por la suma de todos sus valores dividida entre el número de

sumadores.

Por ejemplo, las notas de 5 alumnos en una prueba:

Niño nota

1 6,0 ·Primero, se suman las notas:

2 5,4 6,0+5,4+3,1+7,0+6,1 = 27,6

3 3,1 ·Luego el total se divide entre la cantidad de alumnos:

4 7,0 27,6/5=5,52

5 6,1

La media aritmética en este ejemplo es 5,52

La media aritmética es, probablemente, uno de los parámetros estadísticos más extendidos. Se le

llama también promedio o, simplemente, media.

Definición formal

Dado un conjunto numérico de datos, x1, x2, ..., xn, se define su media aritmética como
Esta definición varía, aunque no sustancialmente, cuando se trata de variables continuas, esto es,

también puede calcularse para variables agrupadas en intervalos.

Propiedades

Las principales propiedades de la media aritmética son:3

Su cálculo es muy sencillo y en él intervienen todos los datos.

Su valor es único para una serie de datos dada.

Se usa con frecuencia para comparar poblaciones, aunque es más apropiado acompañarla de una

medida de dispersión.

Se interpreta como "punto de equilibrio" o "centro de masas" del conjunto de datos, ya que tiene la

propiedad de equilibrar las desviaciones de los datos respecto de su propio valor:.

Este resultado se conoce como Teorema de König. Esta propiedad permite interpretar uno de los

parámetros de dispersión más importantes: la varianza.

Se ve afectada por transformaciones afines (cambios de origen y escala), esto es, si

Entonces , donde es la media aritmética de los , para i = 1, ..., n y a y b números reales.

Es poco sensible a fluctuaciones muéstrales, por lo que es un parámetro muy útil en inferencia

estadística.

Inconvenientes de su uso

Este parámetro, aun teniendo múltiples propiedades que aconsejan su uso en situaciones muy

diversas, tiene también algunos inconvenientes, como son:

Para datos agrupados en intervalos (variables continuas) su valor oscila en función de la cantidad y

amplitud de los intervalos que se consideren.

La estatura media como resumen de una población homogénea (abajo) o heterogénea (arriba).

Es una medida a cuyo significado afecta sobremanera la dispersión, de modo que cuanto menos

homogéneos sean los datos, menos información proporciona. Dicho de otro modo, poblaciones muy

distintas en su composición pueden tener la misma media.4 Por ejemplo, un equipo de baloncesto con

cinco jugadores de igual estatura, 1,95 m, evidentemente, tendría una estatura media de 1,95 m, valor
que representa fielmente a esta población homogénea. Sin embargo, un equipo de jugadores de

estaturas más heterogéneas, 2,20 m, 2,15 m, 1,95 m, 1,75 m y 1,70 m, por ejemplo, tendría también,

como puede comprobarse, una estatura media de 1,95 m, valor que no representa a casi ninguno de

sus componentes.

En el cálculo de la media no todos los valores contribuyen de la misma manera. Los valores altos

tienen más peso que los valores cercanos a cero. Por ejemplo, en el cálculo del salario medio de una

empresa, el salario de un alto directivo que gane 10.000 € tiene tanto peso como el de diez empleados

"normales" que ganen 1.000 €. En otras palabras, se ve muy afectada por valores extremos.

No se puede determinar si en una distribución de frecuencias hay intervalos de clase abiertos.

Media aritmética ponderada

A veces puede ser útil otorgar pesos o valores a los datos dependiendo de su relevancia para

determinado estudio. En esos casos se puede utilizar una media ponderada.

Si son nuestros datos y son sus "pesos" respectivos, la media ponderada se define de la siguiente

forma:

Media muestral

Esencialmente, la media muestral es el mismo parámetro que el anterior, aunque el adjetivo

"muestral" se aplica a aquellas situaciones en las que la media aritmética se calcula para

un subconjunto de la población objeto de estudio.

La media muestral es un parámetro de extrema importancia en la inferencia estadística, siendo de

gran utilidad para la estimación de la media poblacional, entre otros usos.

Moda

La moda es el dato más repetido de la encuesta, el valor de la variable con mayor frecuencia absoluta.5

En cierto sentido la definición matemática corresponde con la locución "estar de moda", esto es, ser

lo que más se lleva.


Su cálculo es extremadamente sencillo, pues solo necesita un recuento. En variables continuas,

expresadas en intervalos, existe el denominado intervalo modal o, en su defecto, si es necesario

obtener un valor concreto de la variable, se recurre a la interpolación.

Por ejemplo, el número de personas en distintos vehículos en una carretera: 5-7-4-6-9-5-6-1-5-3-7.

El número que más se repite es 5, entonces la moda es 5.

Hablaremos de una distribución bimodal de los datos, cuando encontremos dos modas, es decir, dos

datos que tengan la misma frecuencia absoluta máxima. Cuando en una distribución de datos se

encuentran tres o más modas, entonces es multimodal. Por último, si todas las variables tienen la

misma frecuencia diremos que no hay moda.

Cuando tratamos con datos agrupados en intervalos, antes de calcular la moda, se ha de definir el

intervalo modal. El intervalo modal es el de mayor frecuencia absoluta.

La moda, cuando los datos están agrupados, es un punto que divide el intervalo modal en dos partes

de la forma p y c-p, siendo c la amplitud del intervalo, que verifiquen que:

Siendo la frecuencia absoluta del intervalo modal y las frecuencias absolutas de los intervalos

anterior y posterior, respectivamente, al intervalo modal.

Las calificaciones en la asignatura de Matemáticas de 39 alumnos de una clase vienen dada por la

siguiente tabla (debajo):

Calificaciones 1 2 3 4 5 6 7 8 9

Número de alumnos 2 2 4 5 8 9 3 4 2

Propiedades

Sus principales propiedades son:

Cálculo sencillo.

Interpretación muy clara.

Al depender solo de las frecuencias, puede calcularse para variables cualitativas. Es por ello el

parámetro más utilizado cuando al resumir una población no es posible realizar otros cálculos, por
ejemplo, cuando se enumeran en medios periodísticos las características más frecuentes de

determinado sector social. Esto se conoce informalmente como "retrato robot".6

Inconvenientes

Su valor es independiente de la mayor parte de los datos, lo que la hace muy sensible a variaciones

muestrales. Por otra parte, en variables agrupadas en intervalos, su valor depende excesivamente del

número de intervalos y de su amplitud.

Usa muy pocas observaciones, de tal modo que grandes variaciones en los datos fuera de la moda, no

afectan en modo alguno a su valor.

No siempre se sitúa hacia el centro de la distribución.

Puede haber más de una moda en el caso en que dos o más valores de la variable presenten la misma

frecuencia (distribuciones bimodales o multimodales).

Mediana

La mediana es un valor de la variable que deja por debajo de sí a la mitad de los datos, una vez que

éstos están ordenados de menor a mayor.7 Por ejemplo, la mediana del número de hijos de un conjunto

de trece familias, cuyos respectivos hijos son: 3, 4, 2, 3, 2, 1, 1, 2, 1, 1, 2, 1 y 1, es 2, puesto que, una

vez ordenados los datos: 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 4, el que ocupa la posición central es 2:

En caso de un número par de datos, la mediana no correspondería a ningún valor de la variable, por

lo que se conviene en tomar como mediana el valor intermedio entre los dos valores centrales. Por

ejemplo, en el caso de doce datos como los siguientes:

Se toma como mediana

Existen métodos de cálculo más rápidos para datos más numerosos (véase el artículo

principal dedicado a este parámetro). Del mismo modo, para valores agrupados en intervalos, se halla

el "intervalo mediano" y, dentro de éste, se obtiene un valor concreto por interpolación.

Cálculo de la mediana para datos agrupados


Primero hallamos las frecuencias absolutas acumuladas Fi (ver tabla del margen xi fi Fi

derecho).
1 2 2
Así, aplicando la fórmula asociada a la mediana para n impar, obtenemos X(39+1)/2
2 2 4
= X20 y basándonos en la fórmula que hace referencia a las frecuencias absolutas:

Ni-1< n/2 <Ni = N19 < 19.5 < N20 3 4 8

Por tanto la mediana será el valor de la variable que ocupe el vigésimo lugar. En 4 5 13

nuestro ejemplo, 21 (frecuencia absoluta acumulada para Xi = 5) > 19.5 con lo


5 6 19 = 19
que Me = 5 puntos (es aconsejable no olvidar las unidades; en este caso como estamos
6 9 28
hablando de calificaciones, serán puntos)

La mitad de la clase ha obtenido un 5 o menos, y la otra mitad un 5 o más. 7 4 32

Ejemplo (N par) 8 4 36

Las calificaciones en la asignatura de Matemáticas de 38 alumnos de una clase vienen


9 2 38
dada por la siguiente tabla (debajo):

Calificaciones 1 2 3 4 5 6 7 8 9

Número de alumnos 2 2 4 5 6 9 4 4 2

Cálculo de la Mediana:

Primero hallamos las frecuencias absolutas acumuladas Fi (ver tabla margen derecho).

Si volvemos a utilizar la fórmula asociada a la mediana para n par, obtenemos X(38/2) = X19 y

basándonos en la fórmula que hace referencia a las frecuencias absolutas --> Ni-1< n/2 < Ni = N18 <

19 < N19

Con lo cual la mediana será la media aritmética de los valores de la variable que ocupen el

decimonoveno y el vigésimo lugar.

En nuestro ejemplo, el lugar decimonoveno lo ocupa el 5 y el vigésimo el 6, (desde el vigésimo hasta

el vigésimo octavo)
con lo que Me = (5+6)/2 = 5,5 puntos.

Propiedades e inconvenientesLas principales propiedades de la mediana son:8

Es menos sensible que la media a oscilaciones de los valores de la variable. Un error de transcripción

en la serie del ejemplo anterior en, pongamos por caso, el último número, deja a la mediana inalterada.

Como se ha comentado, puede calcularse para datos agrupados en intervalos, incluso cuando alguno

de ellos no está acotado.

No se ve afectada por la dispersión. De hecho, es más representativa que la media aritmética cuando

la población es bastante heterogénea. Suele darse esta circunstancia cuando se resume la información

sobre los salarios de un país o una empresa. Hay unos pocos salarios muy altos que elevan la media

aritmética haciendo que pierda representatividad respecto al grueso de la población. Sin embargo,

alguien con el salario "mediano" sabría que hay tanta gente que gana más dinero que él, como que

gana menos.

Sus principales inconvenientes son que en el caso de datos agrupados en intervalos, su valor varía en

función de la amplitud de estos. Por otra parte, no se presta a cálculos algebraicos tan bien como la

media aritmética

oda

La moda de un conjunto de datos es el dato que más veces se repite, es decir, aquel que tiene

mayor frecuencia absoluta. Se denota por Mo. En caso de existir dos valores de la variable

que tengan la mayor frecuencia absoluta, habría dos modas. Si no se repite ningún valor, no

existe moda.

- Ejemplo1:
¿Cuál es el dato que más se repite en el ejemplo anterior?

El dato que más se repite es el 1, es el que tiene mayor frecuencia absoluta (4 veces).

La moda del número de hermanos es 1

- Ejemplo 2:

2, 3, 4, 5 , 6 , 9

En este conjunto de datos no existe ningún valor que se repita, por lo tanto, este conjunto de

valores no tiene moda.

- Ejemplo 3:

1, 1, 1, 4, 4, 5, 5, 5, 7, 8, 9, 9, 9 Mo= 1, 5, 9
Si en un grupo hay dos o varias puntuaciones con la misma frecuencia y esa frecuencia es la

máxima, la distribución es bimodal o multimodal, es decir, tiene varias modas.

- Ejemplo 4:

0, 1, 3, 3, 5, 5, 7, 8 Mo = 4

Si dos puntuaciones adyacentes tienen la frecuencia máxima, la moda es el promedio de las

dos puntuaciones adyacentes.

3- La mediana

La mediana es el valor que ocupa el lugar central entre todos los valores del conjunto de

datos, cuando estos están ordenados en forma creciente o decreciente.

La mediana se representa por Me.

Calculo de la mediana:
1° Ordenamos los datos de menor a mayor.

- La mediana de un conjunto con un número impar de datos es, una vez ordenados los datos,

el dato que ocupa el lugar central.

Ejemplo:

Calcular la mediana del conjunto de datos:

mediana_aritmetica_impar.jpg (386×426)

- También podemos usar la siguiente fórmula para determinar la posición del dato central:

(n + 1) /2 = mediana datos impares.

- La mediana de un conjunto con un número par de datos es, una vez ordenados, la media de

los dos datos centrales.

Ejemplo:
Calcular la mediana del conjunto de datos:

mediana_aritmetica_par.jpg (392×505)

4- Rango

El rango da la idea de proximidad de los datos a la media. Se calcula restando el dato menor

al dato mayor.

Este dato permite obtener una idea de la dispersión de los datos, cuanto mayor es el rango,

más dispersos están los datos de un conjunto.

Ejemplo:

Se preguntó a 9 familias cuántas bicicletas tenían en total, dieron las respuestas ordenadas en

la siguiente tabla:

rango_estadistico_1.jpg (384×67)
- ¿Cómo hallarías el rango?

Se resta el dato mayor al dato menor: 3 - 0 = 3; Por lo tanto el rango sería 3 en este caso.

Si el conjunto de datos que se recolecta es muy numeroso, o bien, si el rango es muy amplio,

es conveniente agruparlos y ordenarlos en intervalos o clases.

La amplitud o tamaño de cada intervalo se puede calcular dividiendo el valor del rango por

la cantidad de intervalos que se desean obtener.

4- Ejercicios:

1- Se le pregunta a un grupo de personas acerca de la cantidad de libros que leyó durante el

año 2015, y las respuestas son: 4; 3; 2; 7; 10; 8; 2; 9; 3; 6; 8; 1; 1; 9; 2. La moda de la muestra

es:

a) 2 b) 3 c) 4 d) 5 e) 9
2- Halla la mediana de las siguientes series estadísticas.

a) 1, 7, 3, 2, 4, 6, 2, 5, 6

b) 4, 2, 1, 3, 8, 5, 3, 1, 6, 7

3- Se tienen dos distribuciones cuyos datos son los siguientes:

Distribución A: 9, 5, 3, 2, 1, 2, 6, 4, 9, 8, 1, 3, 5, 4, 2, 6, 3, 2, 5, 6, 7

Distribución B: 1, 1, 3, 2, 5, 6, 7, 2, 5, 4, 3, 1, 2, 1, 5, 7, 8, 9, 9, 2, 1

a) Halla el rango de ambas distribuciones.

4- Se tiene el siguiente conjunto de datos:

10, 13, 4, 7, 8, 11, 10, 16, 18, 12, 3, 6, 9, 9, 4, 13, 20, 7, 5, 10, 17, 10, 16, 14, 8, 18
a) Obtén la mediana

You might also like