You are on page 1of 29

Probabilidad y Estadística

Alexis Rojas Pineda
Lic. en Matemática PUC Magíster en Estadística PUC Doctor(c) en Estadística PUC

¿Qué es la Estadística? Originalmente la palabra estadística ha estado
asociada al procesamiento de datos, entendiéndose por esto la representación gráfica, la tabulación y el cálculo de medidas resumen, que permiten analizar e interpretar un conjunto de datos. La estadística es una disciplina que se preocupa de desarrollar técnicas y modelos que permitan estudiar la forma como la incertidumbre sobre un fenómeno es es alterada por la información disponible.

¿Qué es Población? P Conjunto formado por TODAS las unidades (personas. La población debe ser listada en lo que llamaremos Marco Muestral. . animales o cosas) que tienen algo en común.

. Ella debe cumplir con ser REPRESENTATIVA.P ¿Qué es una muestra? M Una muestra es un subconjunto de la población.

Ocupa menos tiempo que un censo. Tiene menos error que un censo. . Técnicas de Muestreo Las más comunes son: • Muestreo Aleatorio Simple.¿Porqué una muestra? Es de menor costo que un censo. • Muestreo Estratificado.

¿Qué es una variable? Característica que cambia de sujeto a sujeto. ¿Qué es Información? Llamaremos información al conjunto de datos. al ser evaluada en un sujeto. . ¿Qué es un dato? Es una realización de una característica o variable.

Tipos de Variables Variable Cualitativa: Variable Cuantitativa: Nominal Ordinal Discreta Continua .

B.B.S.M.B.M.B.M.M.M.S.M.Tabulación La información que a continuación se muestra representa el nivel de instrucción de 20 personas: B.S.B.M.M.B Nivel de Instrucción Básico Medio Superior Total Frecuencia Absoluta 7 8 5 20 Porcentaje 35 40 25 100 .S.S.

Supongamos que tenemos una muestra de 110 fumadores y se examina la marca del cigarrillo. Tenemos la siguiente tabla: Marca de Cigarros Advance Belmont Derby Viceroy Total 35 Frecuencia Absoluta 22 27 31 30 110 G ráfic o de B arras para la prefe re nc ia de m arca de cigarrillo Porcentaje 20.00 30 25 Frecuencia Absoluta 20 15 10 5 0 A dvance B elm ont M arca de C igarrillo D erby V iceroy .27 100.18 27.55 28.00 24.

Porcentaje de fumadores según marca de cigarro Advance 20% Viceroy 27% Belmont 25% Derby 28% .

4. 5. 6.0 .9 = 0 .1= 3.2.6.8.3 ⋅ log10 (n )] En este ejemplo K=1+[4.0.3. 6. 5.8.4. 4.8. 4. 78 C i= = K 5 . 3.Tabulación caso contínuo Considere las notas de 20 alumnos: 6.1.4.1. 4. 5.29]=5 R=Rango=Máximo . 4. 3. 3.8.9 R 3.9.2 Formula de Sturger: K = 1+ [3. 5.7.7. 4.5.5. 4.Mínimo=7.3. 4. 5. 7. 6.8.

30 0.00 1. Relativa Relativa Acumulada Acumulada 0.15 0.20 16 0.44 5.00 Marca de Clase 3.61 Frecuencia Absoluta 3 3 6 4 4 20 Frecuencia Frec.05 5.Tabla de Frecuencia Nota 3.66-5.83 6.88-4.27 5.49 4. Absoluta Frec.10-3.00 .66 4.22-7.80 0.15 6 0.30 12 0.20 20 1.15 3 0.60 0.88 3.22 6.44-6.

.

Diagrama de Tallo y Hoja 3 4 5 6 7 1 2 1 2 0 8 4 4 3 8 6 7 8 8 9 5 5 7 4 8 3 3 4 4 5 5 6 6 7 1 8 2 6 1 5 2 8 0 8 4 7 8 8 9 4 5 7 3 4 0 | 3444455555566666677 2| 4| 6| 8| 10 | 0 Si a los datos anteriores agregamos un dato más digamos 100 .

.

.

Medidas Tendencia Central Moda Mediana Promedio Percentiles Dispersión Rango Rango Intercuartílico Varianza Coeficiente de Variación Forma Asimetría .Medidas Resúmenes Llamaremos medidas resúmenes a aquellas cantidades que resumen y describen la información de manera que sean representativos del conjunto de datos.

18 27. En caso de existir más de una moda hablaremos de multimodalidad.MODA (MO): Es la realización que tiene mayor frecuencia.27 100.00 24.55 28. Para datos agrupados en intervalos se adopta como moda la marca de clase del intervalo con mayor frecuencia. Ejemplo: Marca de Cigarros Advance Belmont Derby Viceroy Total Frecuencia Absoluta 22 27 31 30 110 Porcentaje 20.00 Medidas de Tendencia Central .

Moda En el caso de datos agrupados en intervalo. la moda se calculara como:  ∆1  Moda = LI i +   ∆ +∆   ⋅ ci 2   1 OBSERVACION: La moda puede existir o no existir La moda puede ser única o existir mas de una moda .

xn los datos ⇒ X = k ∑x i=1 n i n ∑ X ⋅n i i En el caso de datos agrupadosen intervalos ⇒ X = i=1 n .Promedio o Media Aritmetica PROMEDIO (X ) : Sean x1 .… .

dec): Pα = X (m+1) .PERCENTIL-α Llamaremos percentil α% a aquel valor de la variable en estudio. 1) Calcular la posición: n⋅α 100 X + X ( m ) ( m+1) 2) Si posición es un entero (m): Pα = 2 En caso contrario (m. Necesariamente no es una medida de tendencia central. que acumula el α% de la información.

ci .PERCENTIL-α En el caso de datos agrupados en intervalo: 1) Calcular la posición: n ⋅ α 100 2) Determinar en que intervalo cae la posición obtenida en 1) 3) Del intervalo obtenido en 2): LI i . N i −1 4)  n⋅α  ci Pα = LI i +  − N i −1  ⋅  100  ni . ni .

20 16 0.49 4. moda.44 5.15 6 0.61 Frecuencia Absoluta 3 3 6 4 4 20 Frecuencia Frec.20 20 1.22-7.00 Marca de Clase 3.10-3.88 3.30 0.80 0.66 4.60 0.44-6.15 0.00 1.88-4.83 6.66-5. mediana. Absoluta Frec.22 6. Relativa Relativa Acumulada Acumulada 0.MEDIANA Me = P50 En el ejemplo de las notas de los 20 alumnos: Nota 3.27 5. P25 y P75. .00 Calcular el promedio.30 12 0.05 5.15 3 0.

Q2= P 50 y Q3= P 75 .Cuartiles Q1= P 25 .

Medidas de Dispersión R= Máx− Mín RI = Q3 − Q1 S= S S CV = X 2 ∑ (x S = 2 i=1 n i − X) 2 n −1 .

2034 .Medidas de Dispersión Para datos agrupados la varianza es calculada como: ∑ n ⋅(X i k i − X) 2 S = 2 i=1 n −1 2 En el ejemplo de las notas de 20 alumnos: R = 3 . 0518 CV = 0 .63 S = 1. 9 RI = 1 . 1063 S = 1 .

Cajón con Bigotes .

5 6.0 4.1 8.0 5.5 6.0 7.1 5.9 7.0 2.0 6.3 5.8 Dieta B: 2.77 7.05 3.6 3. Los datos fueron: Dieta A: -1.8 4.2 7.3 4.1 3.1 3.1 6.1 Dieta Min Q1 Me Promedio Q3 Máx R RI 2 S CV A -1.6 3.7 6.5 3.2 5.3 8.05 6.0 0.14 0.45 5.5 3.43 5.0 1.0 5.8 7.Se realizó un experimento para comparar el efecto de dos dietas (A y B) sobre el aumento de peso en 20 sujetos que son distribuidos al azar en dos grupos.8 3.8 0.72 B 2.33 .