Professional Documents
Culture Documents
Probabilidad y Estadística
Probabilidad y Estadística
Temario
Unidad 1. “Estadística Descriptiva”
Unidad 2. “Elementos de probabilidad”
Unidad 3. “Variables aleatorias discretas y continuas”
Unidad 4. “Estimación de parámetros estadísticos”
Bibliografía
A todos los datos reunidos para un determinado estudio se les llama conjunto de
datos para el estudio.
Una variable es una característica de los elementos que es de interés. Los valores
encontrados para cada variable en cada uno de los elementos constituyen los
datos. Al conjunto de mediciones obtenidas para un determinado elemento se le
llama observación.
El S&P consta de
500 empresas
elegidas por
Standard & Poor’s.
Estas empresas
representan 76% de
la capitalización de
mercado de todas
las acciones de
Estados Unidos. Las
acciones de S&P
500 son
estrechamente
observadas por los
inversionistas y por
los analistas de
Wall Street.
Datos cualitativos y cuantitativos
Los datos cualitativos comprenden etiquetas o nombres que se usan para identificar un
atributo de cada elemento.
Los datos cuantitativos requieren valores numéricos que indiquen cuánto o cuántos.
Ejercicio
Unidad 1. ESTADISTICA DESCRIPTIVA
Una de las principales contribuciones de la estadística es emplear datos de una muestra para
hacer estimaciones y probar hipótesis acerca de las características de una población
mediante un proceso al que se le conoce como inferencia estadística.
Cuando se estudia el comportamiento de una variable hay que distinguir los siguientes
conceptos:
Individuo: Cualquier elemento que aporte información sobre el fenómeno que se estudia.
Población: Conjunto de todos los individuos que aporten información sobre el elemento
que se estudia.
Muestra: Cualquier subconjunto de los elementos que forman la población.
Estadística descriptiva:
presentaciones tabulares y gráficas
Resumen de datos cualitativos
1. Ordenar
2. Agrupar
3. Resumir información
Tabla de frecuencias
El formato general de una tabla estadística, también llamada tabla de frecuencias es la
siguiente:
Tipos de Frecuencias:
Ejercicio
Presentación de datos
La representación gráfica de los datos puede realizarse a través de las siguientes gráficas:
• Tabla de frecuencias
• Gráfico de barras
• Gráfico circular
• Histograma
•Gráfico de líneas
•Polígono de frecuencias
Gráficas de barra y gráficas de pastel
Una gráfica de barras o un diagrama de barras, es una gráfica para representar datos
cualitativos de una distribución de frecuencia, de frecuencia relativa o de frecuencia
porcentual.
Ejemplo 1
Resumen de datos cuantitativos
Número de clases. Las clases se forman especificando los intervalos que se usarán para
agrupar los datos. Se recomienda emplear entre 5 y 20 clases. Cuando los datos son pocos,
cinco o seis clases bastan para resumirlos. Si son muchos, se suele requerir mas clases. La
idea es tener las clases suficientes para que se muestre la variación en los datos, pero no
deben ser demasiadas si algunas de ellas contienen sólo unos cuantos datos.
El ancho aproximado de clase que se obtiene se redondea a un valor más adecuado con las
preferencias de la persona que elabora la distribución de frecuencia.
En la práctica el número de clases y su ancho adecuado se determinan por prueba y error.
Una vez que se elige un determinado número de clases, se emplea la ecuación anterior para
determinar el ancho aproximado de clase.
Límites de clase. Los límites de clase deben elegirse de manera que cada dato pertenezca a
una y sólo una de las clases. El límite de clase inferior indica el menor valor de los datos a
que pertenece esa clase. El límite de clase superior indica el mayor valor de los datos a que
pertenece esa clase.
Tabla de frecuencias
Tabla de frecuencias de datos agrupados. En ocasiones, al agrupar los datos en
intervalos, nos puede ayudar para realizar un mejor análisis de ellos.
Límite de clases = 4
Tabla de frecuencias
Ejemplo:
En la siguiente tabla se presenta el motivo de la consulta médica, durante una semana en un
consultorio particular. Ampliar la tabla con frecuencias relativa, porcentual, absoluta
acumulada y porcentual acumulada.
3.2 4.2 5.6 6.0 2.8 3.9 4.2 4.2 5.0 5.0 3.9 3.9 3.2 3.2
4.2 5.6 6.0 6.0 3.2 6.0 4.2 5.0 5.6 5.0
24
Tabla de frecuencias
Ejemplo de datos agrupados con intervalo
Sueldo ($) Marca de frecuencia Frecuencia Frecuencia Frecuencia
Clase Absoluta Relativa % Absoluta Relativa
Acumulada Acumulada %
200,000 – 300,000
300,000 – 400,000
400,000 – 500,000
500,000 – 600,000
600,000 – 700,000
700,000 – 800,000
Tabla de frecuencias
Ejemplo de datos agrupados con intervalo
Sueldo ($) Marca de frecuencia Frecuencia Frecuencia Frecuencia
Clase Absoluta Relativa % Absoluta Relativa
Acumulada Acumulada %
Ejercicio
Tabla de frecuencias
Peso fi fr% fiA frA
(50-60) 8 12 8 12
(60-70) 10 15 18 27
(70-80) 16 25 34 52
(80-90) 14 22 48 74
(90-100) 10 15 58 89
(100-110) 5 8 63 97
(110-120) 2 3 65 100
Histograma
Una presentación gráfica usual para datos cuantitativos es el histograma. Esta gráfica se
hace con datos previamente resumidos mediante una distribución de frecuencia. A
diferencia de las gráficas de barras, en un histograma no hay separación natural entre los
rectángulos de clases adyacentes.
Polígono de frecuencias
Ejemplos
Medidas de resumen
Sirven para describir en forma resumida un conjunto de datos que constituyen una muestra
tomada de alguna población.
Mediana.- Es el punto dentro del recorrido de una variable que supera a no más de la mitad
de los datos y es superado por no más de la otra mitad.
Donde:
Li = límite inferior de la clase donde se encuentra la mediana
N/2 = es la semisuma de las frecuencias absolutas
Fi-1= es la frecuencia acumulada anterior a la clase mediana
fi = es la frecuencia absoluta del intervalo mediano
ti = es la amplitud de los intervalos. Se calcula restando el extremo superior menos el
inferior del intervalo
Ejemplos
Sean los números 3,4,4,5,6,8,8,8,10 su mediana es 6.
Sean los números 5,5,7,9,11,12,15,18 su mediana es el promedio de los dos datos centrales,
por lo tanto es 10.
Ejemplo:
El sistema 2,2,5,7,9,9,9,10,10,11,12,18 tiene moda 9
El sistema 3,5,8,10,12,15,16 no tiene moda
El sistema 2,3,4,4,4,5,5,7,7,7,9 tiene dos modas, 4 y 7 y se llama bimodal
Donde:
Li = extremo inferior del intervalo modal (intervalo que tiene mayor frecuencia absoluta)
fi = frecuencia absoluta del intervalo modal
fi-1 = frecuencia absoluta del intervalo anterior al modal
fi+1 = frecuencia absoluta del intervalo posterior al modal
ti = amplitud de los intervalos
Medidas de Tendencia Central
Ejemplos:
Calcular la media, moda y mediana de los siguientes datos:
xi 61 64 67 70 73
fi 5 18 42 27 8
Medidas de Tendencia Central
Ejemplos:
Calcular la media, moda y mediana de los siguientes datos:
Media: xi 61 64 67 70 73
Moda: 67
Mediana: 67
Medidas de Tendencia Central
Ejercicio:
Con los siguientes datos realiza una tabla de frecuencias con datos agrupados y calcula la
media, la mediana y la moda:
5, 3, 6, 5, 4, 5, 2, 8, 6, 5, 4, 8, 3, 4, 5, 4, 8, 2, 5, 4.
Medidas de Tendencia Central
Media: 4.8
Moda: 5
Mediana: 5
2 2 10 2 10
3 2 10 4 20
4 5 25 9 45
5 6 30 15 75
6 2 10 17 85
8 3 15 20 100
Total 20 100
Medidas de Tendencia Central
8,900,000
Sueldo ($) Marca de fi fiA fr% frA xifi 20
Clase
Xi
N/2 = 20/2 = 10
200,000 – 300,000 250,000 5 5 25 25 1,250,000
8,900,000
Medidas de Posición
Las medidas de posición dividen un conjunto de datos en grupos con el mismo número de
individuos. Para calcular las medidas de posición es necesario que los datos estén ordenados
de menor a mayor.
Q1, Q2 y Q3 determinan los valores correspondientes al 25%, al 50% y al 75% de los datos.
Q2 coincide con la mediana.
Medidas de Posición
Deciles.-
Los deciles son los nueve valores que dividen la serie de datos en diez partes iguales. Los
deciles dan los valores correspondientes al 10%, al 20%... y al 90% de los datos. D 5
coincide con la mediana.
Percentiles.-
Los percentiles son los 99 valores que dividen la serie de datos en 100 partes iguales. Los
percentiles dan los valores correspondientes al 1%, al 2%... Y al 99% de los datos. P 50
coincide con la mediana.
Medidas de Dispersión
Las medidas de dispersión cuantifican la separación, la dispersión, la variabilidad de los
valores de la distribución respecto al valor central.
• Rango
• Varianza
• Desviación
Medidas de Dispersión
Rango.-
El rango de un conjunto de números es la diferencia entre el mayor y el menor de ellos.
Ejemplo:
El rango de los números 2, 3, 3, 5, 5, 5, 8, 10, 12
es 12-2 = 10
Medidas de Dispersión
Varianza.-
La varianza es la media aritmética del cuadrado de las desviaciones respecto a la media de
una distribución estadística.
Varianza muestral para datos agrupados: Varianza poblacional para datos agrupados:
Medidas de Dispersión
Ejemplo:
Xi
σ2= 11.75
19
27
20
22
S2= 13.43
18
21
27
18
Media = 21.5
s2= 27,440.91
Medidas de Dispersión
Ejemplo Datos Agrupados:
X = 43.33
Medidas de Dispersión
Desviación estándar.-
Se define como la raíz cuadrada de la varianza. La desviación estándar es una medida
cuadrática que informa de la media de distancias que tiene los datos respecto a su media
aritmética. La desviación estándar se mide en las mismas unidades que los datos originales.
Xi σ2= 11.75
19
σ = 3.427
27
20
22 S2= 13.43
18
S = 3.664
21
27
18
Media = 21.5
s2= 27,440.91
s= 165.65
Medidas de Dispersión
Ejemplo Datos Agrupados:
S2=223.98
S=14.96
Medidas de Forma
Los medidas de forma permiten comprobar si una distribución de frecuencia tiene
características especiales como simetría, asimetría, nivel de concentración de datos y nivel
de apuntamiento que la clasifiquen en un tipo particular de distribución. Se divide en dos
opciones:
• Sesgo
• Curtosis
Medidas de Forma
Sesgo.-
Es el grado de simetría o asimetría de una distribución.
En el caso de las puntuaciones entre 60 y 80 observe que 60 está dos desviaciones estándar
debajo de la media y que 80 está dos desviaciones estándar sobre la media. Mediante el teorema
de Chebyshev encuentre que por lo menos 0.75, o por lo menos 75%, de las observaciones deben
tener valores dentro de dos desviaciones estándar de la media. Así que por lo menos 75% de los
estudiantes deben haber tenido puntuaciones entre 60 y 80.
En el caso de las puntuaciones entre 58 y 82, se encuentra que (58-70)/5= -2.4, por lo que 58 se
encuentra 2.4 desviaciones estándar debajo de la media, y que (82/70)/5=+2.4, entonces 82 se
encuentra 2.4 desviaciones sobre la media. Al aplicar el teorema de Chebyshev con z=2.4, se
tiene:
Por lo menos 82.6% de los estudiantes deben tener puntuaciones entre 58 y 82.
Regla empírica
Una de las ventajas del teorema de Chebyshev es que se aplica a cualquier conjunto de
datos, sin importar la forma de la distribución de los datos. Sin embargo, para aplicar la
regla empírica, los datos deben tener una distribución aproximadamente normal para
determinar el porcentaje de los valores de los datos que deben encontrarse dentro de un
determinado número de desviaciones estándar de la media.
Ejemplo:
Los envases con detergente líquido se llenan
en forma automática en una línea de
producción. Los pesos de llenado suelen
tener una distribución en forma de campana.
Si el peso medio de llenado es de 16 onzas y
la desviación estándar de 0.25 onzas, la
regla empírica es aplicada para sacar las
conclusiones siguientes: