You are on page 1of 15

1.

1 Conceptos de estadística y su
clasificación.

Rama de las matemáticas que se ocupa de reunir,


organizar y analizar datos numéricos y que ayuda a
resolver problemas como el diseño de experimentos y la
toma de decisiones.
La estadística es una ciencia con base matemática
referente a la recolección, análisis e interpretación de
datos, que busca explicar condiciones regulares en
fenómenos de tipo aleatorio. Es transversal a una amplia
variedad de disciplinas, desde la física hasta las ciencias
sociales, desde las ciencias de la salud hasta el control
de calidad, y es usada para la toma de decisiones en
áreas de negocios e instituciones gubernamentales.
La Estadística se divide en dos ramas:
La estadística descriptiva, que se dedica a los métodos
de recolección, descripción, visualización y resumen de
datos originados a partir de los fenómenos en estudio.
Los datos pueden ser resumidos numérica o
gráficamente. Ejemplos básicos de parámetros
estadísticos son: la media y la desviación estándar.
Algunos ejemplos gráficos son: histograma, pirámide
poblacional, clusters, etc.
La inferencia estadística, que se dedica a la generación
de los modelos, inferencias y predicciones asociadas a
los fenómenos en cuestión teniendo en cuenta la
aleatoriedad de las observaciones. Se usa para modelar
patrones en los datos y extraer inferencias acerca de la
población bajo estudio. Estas inferencias pueden tomar
la forma de respuestas a preguntas si/no (prueba de
hipótesis), estimaciones de características numéricas
(estimación), pronósticos de futuras observaciones,
descripciones de asociación (correlación) o
modelamiento de relaciones entre variables (análisis de
regresión). Otras técnicas de modelamiento incluyen
ANOVA, series de tiempo y minería de datos.
Ambas ramas (descriptiva e inferencial) comprenden la
estadística aplicada. Hay también una disciplina llamada
estadística matemática, la cual se refiere a las bases
teóricas de la materia. La palabra estadísticas también se
refiere al resultado de aplicar un algoritmo estadístico a
un conjunto de datos, como en estadísticas económicas,
estadísticas criminales, etc.

1.2 Recopilación de datos


Se les llama datos sueltos a los datos recolectados
que no han sido organizados numéricamente.

Un ejemplo es el conjunto de las estaturas de 10


estudiantes hombres, obtenidas del registro
universitario, que está ordenado en forma
alfabética.
Una ordenación es un conjunto de datos
numéricos en orden creciente o decreciente de
magnitud. A la diferencia entre el número mayor y
el menor se le conoce como rango de los datos.
Por ejemplo si la estatura mayor de los 10
estudiantes es 74 cent. Y la menor es 60 cent. El
rango es 74–60=14 cent.

1.3 DISTRIBUCION DE FRECUENCIA


Si se reúnen grandes cantidades de datos sueltos es útil
distribuirlos en clases o categorías y determinar el
número de individuos que pertenecen a cada categoría, a
lo que se le llama frecuencia de clase. A una disposición
tabular de los datos por clases, con sus
correspondientes frecuencias de clase, se le conoce
como distribución de frecuencia o tabla de frecuencias.

INTERVALOS DE CLASE Y LÍMITES DE CLASE


El símbolo que define una clase, como el 60–62 se llama
intervalo de clase. A los números 60 y 62 se les conoce
como limites de clase; el numero mas pequeño (60) es el
limite inferior de clase, mientras que el numero mas
grande (62) es el limite superior de clase. Se acostumbra
usar los términos clase e intervalo de clase
indistintamente, aunque el intervalo de clase es en
realidad un símbolo de la clase.
A un intervalo de clase que, por lo menos teóricamente,
no tiene límite de clase inferior o límite de clase superior
se le llama intervalo de clase abierto. Por ejemplo, en
grupos de edades de individuos, el intervalo de clase “65
años a mas” es un intervalo de clase abierto”
FRONTERAS DE CLASE
Si se miden estaturas con exactitud de 1 pulg., en teoría
el intervalo de clase 60–62 incluye todas las medidas
desde 59.5000 hasta 62.5000 pulg. Estos números,
indicados brevemente por los números exactos 59.5 y
62.5 se llaman fronteras de clase o limites verdaderos de
clase; el numero menor (59.5) es la frontera inferior de
clase y el numero mayor (62.5), la frontera superior de
clase.
En la práctica, las fronteras de clase se obtienen
promediando los límites superior e inferior de un
intervalo de clase. Algunas veces se emplean las
fronteras para simbolizar clases. Por ejemplo, las clases
en la primera columna de la tabla 2–1 se podrían indicar
mediante 59.5–62.5, 62.5–65.5, etcétera.
TAMAÑO O AMPLITUD DE UN INTERVALO DE CLASE.
El tamaño o la amplitud de un intervalo de clase es la
diferencia entre las fronteras de clase inferior y superior
y se le conoce como amplitud, tamaño o longitud de
clase. Si todos los intervalos de una distribución de
frecuencia son de la misma amplitud, a esta amplitud
común se le denota por c. En tal caso, c es igual a la
diferencia entre dos limites inferiores (o superiores) de
clases sucesivas. Para los datos de la tabla 2–1, por
ejemplo, la amplitud del intervalo de clase es c = 62.5–
59.5=65.5–62.5=3.
MARCA DE CLASE
La marca de clase, que es el punto medio del intervalo de
clase, se obtiene promediando los límites inferior y
superior de clase. De este modo, la marca de clase del
intervalo 60–62 es (60+62)/ 2 = 61. A la marca de clase
también se le denomina punto medio de clase.
REGLAS GENERALES PARA CONSTRUIR
DISTRIBUCIONES DE FRECUENCIA.
1. Determinar el número mayor y el menor en los datos
sueltos con el fin de especificar el rango (la diferencia
entre ambos).
2. Dividir el rango en un número adecuado de intervalo de
clase del mismo tamaño. Si esto no es posible, usar
intervalos de clase de distintos tamaños o intervalos de
clase abiertos. Se suelen tomar entre 5 y 20 intervalos de
clase, según los datos. Los intervalos de clase se eligen
también de modo tal que las marcas de clase (o puntos
medios) coincidan con los datos realmente observados.
Ello tiende a disminuir el llamado error de agrupamiento
que se produce en análisis matemáticos posteriores. No
obstante, las fronteras de clase no debieran coincidir con
los datos realmente observados.
3. Determinar el número de observaciones que
corresponden a cada intervalo de clase; es decir, hallar
las frecuencias de clase.

1.3.1 Histograma
En estadística, un histograma es una representación
gráfica de una variable en forma de barras, donde la
superficie de cada barra es proporcional a la frecuencia
de los valores representados. En el eje vertical se
representan las frecuencias, y en el eje horizontal los
valores de las variables, normalmente señalando las
marcas de clase, es decir, la mitad del intervalo en el que
están agrupados los datos.
Se utiliza cuando se estudia una variable continua, como
franjas de edades o altura de la muestra, y, por
comodidad, sus valores se agrupan en clases, es decir,
valores continuos. En los casos en los que los datos son
cualitativos (no-numéricos), como sexto grado de
acuerdo o nivel de estudios, es preferible un diagrama de
sectores.
Los histogramas son más frecuentes en ciencias
sociales, humanas y económicas que en ciencias
naturales y exactas. Y permite la comparación de los
resultados de un proceso.
Tipos de histograma
Diagramas de barras simples
Representa la frecuencia simple (absoluta o relativa)
mediante la altura de la barra la cual es proporcional a la
frecuencia simple de la categoría que representa.
Diagramas de barras compuesta
Se usa para representar la información de una tabla de
doble entrada o sea a partir de dos variables, las cuales
se representan así; la altura de la barra representa la
frecuencia simple de las modalidades o categorías de la
variable y esta altura es proporcional a la frecuencia
simple de cada modalidad.
Diagramas de barras agrupadas
Se usa para representar la información de una tabla de
doble entrada o sea a partir de dos variables, el cual es
representado mediante un conjunto de barras como se
clasifican respecto a las diferentes modalidades.
Polígono de frecuencias
Es un gráfico de líneas que se usa para presentar las
frecuencias absolutas de los valores de una distribución
en el cual la altura del punto asociado a un valor de las
variables es proporcional a la frecuencia de dicho valor.
Ojiva porcentual
Es un gráfico acumulativos, el cual es muy útil cuando se
quiere representar el rango porcentual de cada valor en
una distribución de frecuencias.
En los gráficos las barras se encuentran juntas y en la
tabla los números poseen en el primer miembro un
corchete y en el segundo un paréntesis, por ejemplo: (10–
20]

1.4.1 Media Media Ponderada


Es un caso especial de la media aritmetica. Se presenta
cuando hay varias observaciones del mismo valor que
pueden ocurrir si los datos se han agrupado en una
distribución de frecuencias. Para determinar la media
ponderada multiplicamos casa observación por el
numero de veces que aparece.

1.4.2 Mediana
En Estadística una mediana es el valor de la variable que
deja el mismo número de datos antes y después que él.
De acuerdo con esta definición el conjunto de datos
menores o iguales que la mediana representarán el 50%
de los datos, y los que sean mayores que la mediana
representarán el otro 50% del total de datos de la
muestra. Un intervalo mediano será el intervalo que
contiene dicho dato

1.4.3 Moda Estadistica


la moda en terminos estadisticos, son los numeros que
se repiten;puede haber 2 modas y se le llama:bimodal.
la moda es el valor que cuenta con una mayor frecuencia
en una distribucion de datos, es decir, el numero que
tenga mas valor, ya sea de forma repetida o simplemen•
Ordena los números según su tamaño.
• Ordena los números según su tamaño. • Determina la
cantidad de veces de cada valor numérico : y esa es la
moda

1.4.4 Relacion Entre Media Mediana Y Moda


Cuando una distribución de frecuencia es simétrica, la
media, mediana y moda coinciden en su valor (X = Me =
Mo). En el caso de una distribución binomial simétrica, es
necesario calcular el promedio de las modas.

1.5 Medidas de dispersión para un conjunto


de datos y datos agrupados
1.5.1 Rango Estadistico
Rango
Algo que responde a la identificación de la dispersión de
los datos de una muestra es el rango, el cual se define
como la diferencia entre el dato mayor menos el dato
menor de un conjunto de datos. Su obtención es
sumamente sencilla, sin embargo se considera que no es
una medida muy significativa, su aplicación es más útil
en la llamada estadística no parámetrica. Una expresión
para el rango puede ser vista como:
Podemos retomar el ejemplo planteado en el se
observaba que las muestras tienen diferente dispersión,
aunque su media y mediana eran iguales, por lo que una
forma de marcar su diferencia es a través del rango.
Para la primera muestra (0, 45, 50, 55, 100), el dato menor
es 0 y el dato mayor es 100, por lo que sus valores se
encuentran en un rango de:
Rango = 100 – 0 =100
Mientras que para la segunda muestra (47, 49.5, 50, 51.5,
52), el dato menor es 47 y el dato mayor es igual a 52 por
lo que su rango correspondiente es igual a:
Rango = 52 – 47= 5
Lo que indica que la segunda muestra es más
homogénea ya que sus datos están dispersos en un
menor rango.
Es también común identificar el rango como recorrido.

1.5.2 Desviacion Media
La desviacion media es la media de las diferencias en
valor absoluto de los valores a la media.
Este valor estad¨ªstico no es de mucha utilidad en
estad¨ªstica debido a que no es f¨¢cil manipular dicha
funci¨®n al no ser derivable.
Siendo m¨¢s formales, la desviaci¨®n media deber¨ªa
llamarse desviaci¨®n absoluta respecto a la media, para
evitar confusiones con otra medida de dispersi¨®n, la
desviaci¨®n absoluta respecto a la mediana, DM , cuya
f¨®rmula es la misma, sustituyendo la media aritm¨¦tica
por la mediana M. Pero tal precisi¨®n no es relevante,
porque la desviaci¨®n absoluta respecto a la mediana es
de uso todav¨ªa menos frecuente.
La desviaci¨®n absoluta respecto a la media, Dm, la
desviaci¨®n absoluta respecto a la mediana, DM, y la
desviaci¨®n t¨ªpica, ¦Ò, de un mismo conjunto de valores
verifican la desigualdad:
Siempre ocurre que
donde el Rango es igual a
Rango = valor m¨¢ximo − valor m¨ªnimo
Dm = 0 cuando los datos son exactamente iguales (e
iguales a la media aritm¨¦tica)

1.5.3 Varianza
Varianza (S2 o 2): Es el resultado de la división de la
sumatoria de las distancias existentes entre cada dato y
su media aritmética elevadas al cuadrado, y el número
total de datos.
Distinguimos dos símbolos para identificar la varianza:
S2 para datos muestrales, y σ2 para datos poblacionales.
Note que la fórmula para la varianza muestral presenta en
su denominador al tamaño de la muestra menos uno,
tendencia adoptada por los estadísticos para denotar una
varianza más conservadora.
1.5.4 Desviacion Estandar
La desviación estándar (o desviación típica) es una
medida de dispersión para variables de razón (ratio o
cociente) y de intervalo, de gran utilidad en la estadística
descriptiva. Es una medida (cuadrática) de lo que se
apartan los datos de su media, y por tanto, se mide en las
mismas unidades que la variable.
Para conocer con detalle un conjunto de datos, no basta
con conocer las medidas de tendencia central, sino que
necesitamos conocer también la desviación que
representan los datos en su distribución, con objeto de
tener una visión de los mismos más acorde con la
realidad a la hora de describirlos e interpretarlos para la
toma de decisiones.

1.6 Coeficiente de Variacion
El coeficiente de dispersión es útil para comparar
dispersiones a escalas distintas pues es una medida
invariante ante cambios de escala. Por otro lado presenta
problemas ya que a diferencia de la desviación típica este
coeficiente es variable ante cambios de origen. Por ello
es importante que todos los valores sean positivos y su
media de por tanto un valor positivo.
Exigimos que:
Se calcula:
Donde S es la desviación típica. Se puede dar en tanto
por ciento calculando:

1.7 Coeficiente Asimetria de Pearson


Medidas de Dispersión
Las medidas de tendencia central tienen como objetivo el
sintetizar los datos en un valor representativo, las
medidas de dispersión nos dicen hasta que punto estas
medidas de tendencia central son representativas como
síntesis de la información. Las medidas de dispersión
cuantifican la separación, la dispersión, la variabilidad de
los valores de la distribución respecto al valor central.
Distinguimos entre medidas de dispersión absolutas, que
no son comparables entre diferentes muestras y las
relativas que nos permitirán comparar varias muestras.
MEDIDAS DE DISPERSIÓN ABSOLUTAS
u VARIANZA ( s2 ): es el promedio del cuadrado de las
distancias entre cada observación y la media aritmética
del conjunto de observaciones.
Haciendo operaciones en la fórmula anterior obtenemos
otra fórmula para calcular la varianza:
Si los datos están agrupados utilizamos las marcas de
clase en lugar de Xi.
u DESVIACIÓN TÍPICA (S): La varianza viene dada por las
mismas unidades que la variable pero al cuadrado, para
evitar este problema podemos usar como medida de
dispersión la desviación típica que se define como la raíz
cuadrada positiva de la varianza
Para estimar la desviación típica de una población a partir
de los datos de una muestra se utiliza la fórmula (cuasi
desviación típica):
u RECORRIDO O RANGO MUESTRAL (Re). Es la
diferencia entre el valor de las observaciones mayor y el
menor. Re = xmax - xmin
MEDIDAS DE DISPERSIÓN RELATIVAS
u COEFICIENTE DE VARIACIÓN DE PEARSON: Cuando
se quiere comparar el grado de dispersión de dos
distribuciones que no vienen dadas en las mismas
unidades o que las medias no son iguales se utiliza el
coeficiente de variación de Pearson que se define como
el cociente entre la desviación típica y el valor absoluto
de la media aritmética
CV representa el número de veces que la desviación
típica contiene a la media aritmética y por lo tanto cuanto
mayor es CV mayor es la dispersión y menor la
representatividad de la media.
Medidas de Forma
Comparan la forma que tiene la representación gráfica,
bien sea el histograma o el diagrama de barras de la
distribución, con la distribución normal.
MEDIDA DE ASIMETRÍA
Diremos que una distribución es simétrica cuando su
mediana, su moda y su media aritmética coinciden.
Diremos que una distribución es asimétrica a la derecha
si las frecuencias (absolutas o relativas) descienden más
lentamente por la derecha que por la izquierda.
Si las frecuencias descienden más lentamente por la
izquierda que por la derecha diremos que la distribución
es asimétrica a la izquierda.
Existen varias medidas de la asimetría de una
distribución de frecuencias. Una de ellas es el Coeficiente
de Asimetría de Pearson:
Su valor es cero cuando la distribución es simétrica,
positivo cuando existe asimetría a la derecha y negativo
cuando existe asimetría a la izquierda.
MEDIDA DE APUNTAMIENTO O CURTOSIS
Miden la mayor o menor cantidad de datos que se
agrupan en torno a la moda. Se definen 3 tipos de
distribuciones según su grado de curtosis:
Distribución mesocúrtica: presenta un grado de
concentración medio alrededor de los valores centrales
de la variable (el mismo que presenta una distribución
normal). Distribución leptocúrtica: presenta un elevado
grado de concentración alrededor de los valores
centrales de la variable. Distribución platicúrtica:
presenta un reducido grado de concentración alrededor
de los valores centrales de la variable.
EJEMPLO 1
El número de diás necesarios por 10 equipos de
trabajadores para terminar 10 instalaciones de iguales
características han sido: 21, 32, 15, 59, 60, 61, 64, 60, 71, y
80 días. Calcular la media, mediana, moda, varianza y
desviación típica
SOLUCIÓN:
La media: suma de todos los valores de una variable
dividida entre el número total de datos de los que se
dispone:
La mediana: es el valor que deja a la mitad de los datos
por encima de dicho valor y a la otra mitad por debajo. Si
ordenamos los datos de mayor a menor observamos la
secuencia:
15, 21, 32, 59, 60, 60,61, 64, 71, 80.
Como quiera que en este ejemplo el número de
observaciones es par (10 individuos), los dos valores que
se encuentran en el medio son 60 y 60. Si realizamos el
cálculo de la media de estos dos valores nos dará a su
vez 60, que es el valor de la mediana.
La moda: el valor de la variable que presenta una mayor
frecuencia es 60
La varianza S2: Es la media de los cuadrados de las
diferencias entre cada valor de la variable y la media
aritmética de la distribución.
Sx2=
La desviación típica S: es la raíz cuadrada de la varianza.
S = √ 427,61 = 20.67
El rango: diferencia entre el valor de las observaciones
mayor y el menor
80 - 15 = 65 días
El coeficiente de variación: cociente entre la desviación
típica y el valor absoluto de la media aritmética
CV = 20,67/52,3 = 0,39
EJEMPLO 2
El precio de un interruptor magentotérmico en 10
comercios de electricidad de una ciudad son : 25, 25, 26,
24, 30, 25, 29, 28, 26, y 27 Euros. Hallar la media, moda,
mediana, (abrir la calculadora estadística, más abajo)
diagrama de barras y el diagrama de caja.
SOLUCIÓN:
Utilizar la calculadora de debajo)
El diagrama de cajas: caja desde Q1 a Q3 (50% de los
datos), bigotes el recorrido]
COEFICIENTE DE ASIMETRÍA DE PEARSON
El coeficiente de asimetría de Pearson mide la desviación
respecto de la simetría expresando la diferencia entre la
media y la mediana en relación con la desviación
estándar del grupo de medidas. Las fórmulas son:
En una distribución simétrica, el valor del coeficiente de
asimetría será siempre de cero, porque la media y la
mediana son iguales entre sí en valor En una distribución
asimétrica positiva, la media siempre es mayor que la
mediana; en consecuencia, el valor del coeficiente es
positivo. En una distribución asimétrica negativa, la
media siempre es menor que la mediana; por lo tanto, el
valor del coeficiente es negativo. EJEMPLO En relación
con los datos de ventas de equipos de aire
acondicionado presentados en el ejemplo anterior, la
media es 10.5 unidades, la mediana 11.0 unidades (con
base en las secciones 2.2 y 2.4) y la desviación estándar
3.3 unidades. El coeficiente de asimetría es
Así, la distribución de cantidades de ventas es en cierto
modo asimétrica negativa, o sesgada a la izquierda.

You might also like