Estatistics

Agenda
• Que es la Estadística. • Distribuciones de Probabilidad

 Para que nos sirve la Estadística  Concepto de Distribución.
 Tipos de Escuelas  Momentos.
• Medidas descriptivas. • Gráficos

 Tendencia Central.  Boxplot
 Histogramas
 Variabilidad.
 Ojiva
 Localización.
 Torta
 Asociación Lineal.
 Medidas de Tabulación.
Que es la Estadística
• La estadística es usada como una herramienta de análisis, que utiliza una
muestra representativa de una población, que se representa a través de datos
que no es sinónimo de información útil.
• En las escuelas de estadísticas existen dos grandes, como la frecuentista y la
bayesiana, el cual nos centraremos principalmente en la frecuentista, pero no
quita el hecho de que ambas son igualmente importante de implementar en un
estudio.
o La escuelas frecuentista se basa en el análisis de datos para hacer una inferencia a
posteriori.
o La escuela bayesiana, se basa en un view (mirada) a priori el cual con los datos se
comprueba y se corrobora la mirada a posteriori.
• En resumen, la estadística nos sirve para describir e inferir datos para ser
utilizados como ventajas competitivas, estudios particulares, o simplemente para
conocer características de individuo.
Que es la Estadística (cont.)
Como se menciono, existen dos tipos de tópicos estadísticos importante, la
descriptiva y la inferencial.
1. Estadística Descriptiva: Aquella que describe las características de una serie
de datos pertenecientes a una población o a una muestra (recogida,
descripción, análisis y sumatorio de datos).
2. Estadística Inferencial: Dado el desconocimiento de la población, en la
práctica, el profesional buscará hacer inferencias para la toma de decisiones,
es decir, predicciones sobre ciertas características de la población, basándose
en la información contenida en una muestra al azar (o aleatoria) de la
población entera.
La estadística inferencial puede utilizarse para explicar un fenómeno o para
comprobar la validez de una proposición. En el primer caso, se denomina análisis
exploratorio de datos y, en el segundo, análisis confirmatorio de datos.
Factor de Expansión
• Cuando se trabaja con muestras de datos que representan una población, esta
generalmente fue obtenida con un diseño muestral apropiado para lograr la
representatividad de la población bajo estudio. Normalmente las bases de datos
gubernamentales o bases de datos de estudios de mercado presentan una
variable llamada expand para representar el factor de expansión, quiere decir,
cuanta observación poblacional representa cada observación muestral.
• La manera de trabajar con el factor de expansión en STATA se divide en dos
formas:
1. Expandiendo la base de datos, es decir, modificar por completo la base de datos (.dta)
aplicando el factor de expansión [Command Expand].
2. Utilizando comando que tiene STATA refiriéndose al factor de expansión para hacer cálculos
puntuales, el cual se subdivide en cuatro categorías (Frequency, Sample, Analitycal e
Importance).
• Para entender un poco mas, describiremos cada uno de ellos.
Medidas Descriptivas
• Tendencia Central
Las medidas de tendencia central permiten resumir información de un vector de
datos (variable), el cual cada estadígrafo: media, mediana y moda se interpreta de
diferente forma pero su utilidad es la misma (resumir).
o Media (promedio): Es una de las técnicas mas usada, permite saber el valor central
de la variable, siendo esta sensible a datos extremos.
𝑥1 + 𝑥2 + 𝑥3 + ⋯ + 𝑥𝑛 σ𝑛𝑖=1 𝑥𝑖 (1)
𝑥෤ = =
𝑛 𝑛
o Mediana: Esta medida permite saber el valor de en-medio de los datos, ordenados
de forma ascendente. Donde la diferencia con el promedio es que no es sensible a
los datos extremos y es análoga al percentil 50 en una medida de localización.
Medidas Descriptivas (cont.)
• Medidas de Variabilidad
Esta medida nos permite saber la variación que tienen los datos de una variable
con respecto su media, en ciertas materias como finanzas esta medida es
sinónimo de riesgo, el cual se requiere que sea lo menos variable posible.
o Desviación Estándar (𝜎): Es un estadígrafo de dispersión, el cual dice que tan
disperso son los datos con respecto a su media, el cual tiene unidades de medidas.
σ = σ2
o Varianza (𝜎 2 ): Es un estadígrafo adimensional, no representa ninguna interpretación,
el cual es usado como estadígrafo de calculo, por ejemplo, riesgo de portafolios.
2
෤ 𝟐
σ(𝑥𝑖 −𝑥)
𝜎 = (2)
𝑛−1
o Coeficiente de Variación: Cuando se necesita comparar dos variables

descriptivamente, no se puede comparar por desviación estándar dado la escala de
cada variable, por lo que se ajusta por media o en relación a la media.
𝜎 (3)
𝐶𝑉(%) = ∗ 100
𝑥෤
• Medidas de Localización
En algunas literaturas definen de forma semejante medidas de tendencia central y
localización. Se define como localización las medidas de cuantiles.
Se define como una medida de localización dentro del vector de datos, donde
quiere definir la ubicación de un dato 𝑥𝑖 dentro de la variable, por ejemplo, no dice
nada que un estudiante tuvo 62 punto de 120 en el examen de estadística en
comparación de otros estudiantes, pero si dice que ese puntaje se ubico en el
percentil 82%, es decir, el 82% de los estudiantes tuvieron un puntaje menor a 62
puntos y 18% de los estudiantes tuvieron un puntaje mayor al 62 puntos.
Por otra parte, el percentil 50% es igual a la mediana.
En Excel se puede trabajar con rango.percentil (devuelve la ubicación en %) y el
percentil (devuelve el valor dado ese %)
• Medidas de Asociación Lineal
Covarianza
a) Sensible a la magnitud de los datos.
b) Medida de asociación entre dos variables.
ത 𝑖 − 𝑦)
σ(𝑋𝑖 − 𝑋)(𝑦 ത
𝑆𝑥𝑦 = ó COV X; Y = 𝜌𝑥𝑦 · 𝜎𝑥 𝜎𝑦
𝑛−1
Correlación de Pearson
a) Acotada entre un rango de [-1;1].
b) No es sensible a la magnitud de los datos.
𝑛 σ 𝑥𝑖 𝑦𝑖 − σ 𝑥𝑖 σ 𝑦𝑖 𝜎𝑥𝑦
𝑟𝑥𝑦 = ó 𝜌𝑥𝑦 =
𝑛 σ 𝑥𝑖 2 − (σ 𝑥𝑖 )2 · 𝑛 σ 𝑦𝑖 2 − (σ 𝑦𝑖 )2 𝜎𝑥 𝜎𝑦
• Medidas de Tabulacion
En una distribución de frecuencias se aprecia el numero (frecuencia) de los
elementos de cada una de las diversas clases. Esta definición es tanto para datos
datos cualitativos como cuantitativos. Sin embargo, cuando se trata de datos
cuantitativos se debe tener mas cuidado al definir las clases disyuntivas que se va
a usar en la distribución de la frecuencia. Entonces para definir los pasos cuando
se trabaja con datos cuantitativos son:
1. Determinar el numero de clases: Son los intervalos que se usaran para agrupar los datos.
Para determinar la cantidad de intervalos se puede utilizar entre 5 a 20 clases o utilizando el
Criterio de Sturges (CS). Cuando se usa el Criterio de Sturges cuando los intervalos, no
utilizando el CS , supera las 10 clases. Esto proviene mas bien por la gran cantidad de
registros.
2. Determinar el ancho de cada clase: El ancho de clase, es la distancia entre los intervalos
de cada clase (o ideal que entre clases sean iguales). Lo que se calcula (Máximo –
Mínimo)/Numero de Clase. Si es que termina en numero decimal, Habrá que redondear al
numero mayor.
3. Determinar los limites de clase: Los limites se deben elegir de manera que cada dato
pertenezca a una y solo una de las clases. El limite inferior indica el menor valor de los datos
Distribuciones de Probabilidad
• Cuando existe una variable bajo estudio; variable aleatoria (v.a), esta presenta
un comportamiento que se puede representar por una distribución de
probabilidad, donde el eje de la abscisa presenta los valores v.a y el eje de la
ordenada la probabilidad.
• Cuando se calcula la probabilidad este puede ser tomando un valor fijo de la
distribución (función de densidad) o la probabilidad acumulada hasta el valor a
considerar (función de distribución acumulada).
• Por otro lado, las distribuciones tienen características que las diferencian de
otras distribuciones y esto se denominan: momentos de la distribución, lo mas
conocidos son:
o Primer Momento: Esperanza.
o Segundo Momento: Varianza.
o Tercer Momento: Asimetría (Skewness).
o Cuarto Momento: Kurtosis (Apuntalamiento) Mesocurtico, Platicurtica y Leptocurtico.
𝑀𝑥 𝑇 = 𝔼(𝑒 𝑡𝑥 ) (4)
o Función Generadora de Momento:
Distribuciones de Probabilidad (cont.)
• Tercer Momento
Las comparaciones de los momentos
se hacen en base al a función de
distribución normal, donde el tercero
momento de una distribución normal es
cero (𝑠𝑘𝑒𝑤 = 0). 𝑆𝑘𝑒𝑤 < 0
Lo que dice el tercer momento, para

que lugar esta la concentración datos
que tiene la distribución; donde puede
ser positiva ( 𝑠𝑘𝑒𝑤 > 0) o negativa 𝑆𝑘𝑒𝑤 = 0
𝑠𝑘𝑒𝑤 < 0 .
Ex. Si se esta analizando la serie de 𝑆𝑘𝑒𝑤 > 0
ventas con estructura mensual, se
espera que esta presente una simetría
negativa, dado que la concentración se
encuentra en el lado (+).
Distribuciones de Probabilidad (cont.)
• Cuarto Momento
La Kurtosis es el cuarto momento de una
distribución, el cual representa el nivel de
apuntalamiento que presenta esta, en
comparación con la distribución normal, esta
debe presentar 𝐾𝑢𝑟 = 3 o en algunos
programas presenta exceso de Kurtosis
𝐾𝑢𝑟 = 0 , el cual puede representar tres tipos
Si interpretamos en forma conjunta la de características
asimetría y la Kurtosis, en base al ejemplo o Leptocurtica ( 𝐾𝑢𝑟 > 0) : Presenta colas gruesas,
de ventas, esperamos que la distribución quiere decir que ocurren con mayor probabilidad
datos extremos.
de la venta presente asimetría negativa y o Platicurtica (𝐾𝑢𝑟 < 0): Presenta una estructura mas
un nivel de apuntalamiento Leptocurtico; achatada (plana), donde la concentración de datos
mas probabilidad que ocurran ventas se ve mas distribuida.
monetariamente mas grandes. o Mesocurtica ( 𝐾𝑢𝑟 = 0) : Representa a una
distribución normal tradicional.
• Cuando se presentan este
tipo de casos, los estadígrafo
como media y mediana son
de utilidad para poder
analizar la variable. Se puede
observar que el Hist.B tiene
un sesgo positivo (derecha)
donde la media es mayor que
la mediana, no muy
significativo como en el Hist.D
(sesgo=1,62).
• Por otro lado, tenemos el
Hist.C que tiene sesgo=0
donde la mediana y la media
son iguales.
La diferencia que radica entre
los Histograma A, B y C son
principalmente la existencia
de datos extremos (outliers)
Figura: Ventas de vestuario Femenino.
Fuente: Estadística para Administración y Econometría.
Gráficos
• Grafico de Caja
Esta es una medida de resumen grafico para estudiar la variable (mediana,
percentiles 25 y 75%) y sus datos extremos que están sobre el rango intercuartilico.
Para la creación de este grafico se necesitan: mediana, percentil 25 y 75% y rango
intercuartilico.
Limite Inferior: 𝑄1 25% − 1.5(𝑄3 − 𝑄1)
Limite Superior: 𝑄3 75% + 1.5(𝑄3 − 𝑄1)
• Histogramas
Es una presentación grafica usual para datos cuantitativos. Este grafico se hace
con los datos previamente resumidos mediante una distribución de frecuencias
relativa o relativa porcentual.
Gráficos (cont.)
• Ojiva
La ojiva es un grafico que se construye mediante las frecuencias acumuladas
absolutas (#) o porcentual (%). Estas nos permiten saber cuantas observaciones
se hallan por debajo de ciertos intervalos. Esta grafica es análoga al Histograma,
donde el histograma se hace con las frecuencias absolutas o relativas, en cambio
la ojiva es para las frecuencias absolutas o relativas pero acumuladas.
• Torta
Este grafico nos permite dar a conocer en forma de superficie las frecuencias
relativas o absolutas que tiene la variable. En comparación el histograma, esta la
entrega en forma de longitud. En otras palabras, su insumo es lo mismo pero
mostrado de diferente forma.
Observaciones.
• En resumen, esta medidas que se analizaron son para analizar la validez de los
datos, dado que un dato extremo pudo estar ahí por varias razones, por ejemplo:
o Mala digitación.
o Una observación que se incluyo indebidamente al conjunto de datos.
o Dato inusual anotado correctamente.
• Por lo tanto, al tener una situación así, habrá que averiguar a que categoría
corresponde y que procedimiento habrá que tomar dependiendo las políticas de
la empresa o del departamento, usualmente se utilizan ±3𝜎.
• Una gráfica de barras y un histograma son en esencia lo mismo; ambas son
representaciones gráficas de una distribución de frecuencia. Un histograma es
sólo una gráfica de barras sin separación entre las barras. Para algunos datos
cuantitativos discretos, también se puede tener separación entre las barras.
Preguntas Típicas
• ¿En cuántos intervalos conviene dividir los datos para construir un histograma?
¿Qué otros aspectos hay que tener en cuenta?.
• ¿Cuándo conviene utilizar Boxplots para analizar o describir datos?.
• ¿Qué hay que hacer cuando nos encontramos con valores atípicos?.
• ¿Qué diferencia existe entre datos atípicos y datos extremos?.
Literatura
• Anderson, Sweeney & Williams (10ª).(2008), “Estadística para Administración y
Economía”. CENGAGE.
• Beharm & Grima (2º)(2011). “55 Respuestas a dudas tipicas de Estadistica”. Diaz
De Santos.
Franco A. Mansilla Ibañez
Ingeniero Civil Industrial & MSc. en Finanzas ©
email. franco.mansilla@software-shop.com

Estatistics

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Estatistics

Uploaded by

Copyright:

Available Formats

Agenda

• Que es la Estadística. • Distribuciones de Probabilidad

• Medidas descriptivas. • Gráficos

o Coeficiente de Variación: Cuando se necesita comparar dos variables

Lo que dice el tercer momento, para

You might also like