1

Curso de estadística
inferencial aplicada al análisis
de la educación superior
LUZ KARINE ARDILA VARGAS
2015

2

1. Contenido
1.

Introducción a la estadística

2.

Análisis Univariado

3.

i.

Distribuciones discretas y continuas

ii.

Distribución normal y el teorema de límite central

iii.

Pruebas de hipótesis

iv.

Análisis de varianzas: ANOVA

Análisis Multivariado
i.
ii.

Coeficiente de correlación de Pearson
Estudio de las pruebas no paramétricas de correlación y análisis
de tablas cruzadas

3

1. Contenido

4.

iii.

Análisis Factorial

iv.

Construcción de Indicadores Sintéticos

v.

Análisis multivariado

Análisis de bases de datos de las pruebas SABERPRO del ICFES,
y del Observatorio Laboral OLE del Ministerio de Educación

4 1. los profesores. Muestra: Recolección de unidades que representan apropiadamente a la muestra.   Ejemplos: Los estudiantes. etc. . los graduados. Introducción a la estadística  Definiciones  Población: Conjunto de unidades que comparten alguna característica.  Ejemplos: La muestra de estudiantes calculada para el Estudio de Satisfacción de Estudiantes.

5^2 : Margen de error :1.96 Infraestructura   . Introducción a la estadística Satisfacción   Servicios académicos Servicios administrativos   Servicios estudiantiles Apoyos   :muestra auxiliar :Población : Peso Varianza=0.5 1.

datos ordinales. pueden ser variables cualitativas o categóricas o cuantitativas.  Los datos provienen de la unidad de análisis que constituye la muestra. Introducción a la estadística  Definiciones  Tipos de mediciones: Datos nominales. y datos en tasas.  Además las variables cuantitativas pueden ser continuas o discretas. datos en intervalos.6 1. .

Esta fase se le conoce como la construcción de las estadísticas descriptivas tal que se pueda relacionar un proceso generador de datos. que los datos siguen una función de distribución probabilística. las encuestas a o estudiantes? . ¿Sobre qué medición o es nuestro proceso generador de datos en La probabilidad del espacio muestral es 1. es decir. El siguiente propósito es describir de forma apropiada las características esenciales de la muestra. Introducción a la estadística  Una  vez se identificó la población. y está acotada entre 0 y 1.7 1. y se recolectaron los datos.

Histograma de frecuencias relativas % 80.0 - 54.5 1 2 3 4 5 Satisfacción Satisfacción con el programa (%) Investigación (%) Cafetería (%) 6 .0 30.0 50.0 60.2 28.9 12.0 20. Dos de ellos son muy conocidos: la media y la varianza.8 0. Introducción a la estadística Las distribuciones tienen formas o características sobre el proceso generador de datos.8 1.4 - 0 0.0 40.3 3.0 10.0 70.

9 1. Dos de ellos son muy conocidos: la media y la varianza. Introducción a la estadística Las distribuciones tienen formas o características sobre el proceso generador de datos.     .

Introducción a la estadística  Además de las anteriores medidas.10 1. Es muy importante conocer otros momentos de las distribuciones: Asimetría Curtosis .

6 0.8 0.5 0.71 0.3 0.29 0.1 0 Éxito No Éxito .4 0.7  Bernoulli 0.2 0.11 1. Introducción a la estadística     Funciones de distribución Discretas Distribución Bernoulli (6 en la satisfacción con el programa) 0.

Binomial negativa) Distribuciòn binomial (6 en la satisfacciòn con el programa. N=10) 0 1 2 3 4 5 6 7 8 9 10 .12 1. Introducción a la estadística     Binomial (Geométrica.

15 0.13 1.1 0.25 0.05 0 1 2 3 4 5 6 7 8 9 10 11 .2 0.89) 0. Introducción a la estadística     Poisson Distribución Poisson (Tasa =2.

Introducción a la estadística 1 0 0   1 1 2 3 4 5 6 0 0   1 2 3 4 5 6   .14 1.

15 Técnicas univariadas .

16 Distribuciones de muestras Continuas  Normal  T –student  Chi cuadrado .

        .  Es la piedra angular de la inferencia estadística porque las distribuciones de muchas estadísticas muestrales tienden a esta distribución a medida que crece el tamaño de la muestra.17 Distribución normal  Su importancia:  Es una distribución útil porque se aproxima a la distribución binomial y esto va a ser muy importante en las prueba de hipótesis.

18 Distribución normal    los eventos tienen una distribución normal con media (a) y Si varianza . entonces:   .

19 Distribución normal estándar       .

Cuando N es muy muy grande se cumple que   . cada una de ellas con la misma media y varianza.20 Teorema de los grandes números  Cada sucesión de eventos o realizaciones son independientes e idénticamente distribuidas.

21 Teorema de límite central  Cada sucesión de eventos o realizaciones son independientes e idénticamente distribuidas. Cuando N es muy muy grande se cumple que   . cada una de ellas con la misma media y varianza.

22 Teorema  Sea X una variable aleatoria binomial con media np y varianza np(1-p). Se cumple que Y tiene una distribución normal     .

vemos son las realizaciones y debemos es estimar su distribución para hacer algún tipo de inferencia. Cuando asumimos que las realizaciones que vemos siguen alguna distribución debemos estimar sus parámetros. Sin embargo. A este método nos referimos como estimación paramétrica. . por ende su media y su varianza.23 Pruebas de hipótesis Las funciones de probabilidad nos permitían saber con que ocurrencia podría ocurrir un evento. en la realidad lo que vemos es lo contrario. De ella sabemos cómo está definida.

24 Estimación puntal  Hay dos tipos de estimación paramétrica:  Puntual: Método de momentos y de Máxima verosimilitud         - V .

25 Estimación puntal  Algunos estimadores comúnmente usados son. si X se distribuye normal: Dos de los momentos muestrales más comúnmente usados para caracterizas un proceso generador de datos:  Si no se conoce la media    Si no se conoce la varianza      Si X se distribuye binomial       ) .

26 Estimación por intervalo   Lo más importante de la estimación por intervalo es la siguiente condición   =0.         . Para ello necesitamos saber como se distribuye .99999999999999 Para solucionar este hecho debemos saber sobre qué intervalo es cierta la anterior afirmación. Pero antes necesitamos definir dos conceptos: Error tipo 1 y el error tipo 2.

27 Estimación por intervalo  El intervalo de confianza de la estadística será    A continuación algunos estimadores y su distribución: Cuando la varianza es conocida     En realidad la varianza no es conocida .

y en su lugar la estimamos   .28 Estimación por intervalo La varianza     Como en realidad no conocemos la varianza.

     La comparación de varianzas será   .29 Estimación por intervalo  Otros estimadores útiles para comparar momentos muestrales son las diferencias de medias y la comparación de varianzas.

30 Estimación por intervalo Ahora sí los intervalos de confianza de cada estimador mencionado anteriormente:     .

31 Estimación por intervalo     .

32 Estimación por intervalo     .

33 Pruebas de hipótesis  Algunos conceptos básicos de las pruebas de hipótesis: Hipótesis nula (): Es la hipótesis que se considera como verdad hasta que se demuestre lo contrario. Según los dos tipos de errores (I y II)   Rechazar   No rechazar En muchas ocasiones se considera más grave cometer el error I al error II. Hipótesis alternativa (: Es la hipótesis contraria a la nula que la rechaza. .

34

Pruebas de hipótesis

 Si el nivel de confianza es la probabilidad de cometer el error tipo I En el
caso más general:
 

y/o

 

 

Por ejemplo: el promedio se distribuye normal, si se conoce la varianza;
sino, se distribuye t student. En consecuencia, los estadísticos de prueba
respectivamente son:
 

Vs

 

Vs

 
 

35

Pruebas de hipótesis

En este caso se
conoce la
varianza. Si no
fuese así, sería la
distribución t.

36

Pruebas de hipótesis
Por ejemplo:

 

Vs

 

 

Vs

 

Vs

 

Equivalente
 

Vs

 

 

37 Análisis de varianza (Anova) Es comúnmente utilizado en:  Análisis de los datos de una variable  Análisis de un estudio observacional  Se usa para comparar las propiedades muestrales de conjuntos de datos de experimentos  También se usa en análisis en las regresiones multivariadas Intuitivamente se trata de analizar y explotar la variabilidad .

se considera que la fuente de variación de es la variable categórica (Programa académico).38 Análisis de varianza (ANOVA)    Por simplicidad diremos que buscamos explicar la variable (Puntaje de la prueba saber pro). . Cada una de las categorías es independiente. Además.

la variable dependiente tiene distribución normal.  La varianza de la variable dependiente es la misma en cada categoría.  Las observaciones son independientes.     Diferencias de las medias .39 Análisis de varianza (ANOVA) Supuestos:  En la población.

tenemos que hay un término de error entre la medición y la media   poblacional Entonces:  +()+(-) ()+(-) Grupo Error .2.40 Análisis de varianza (ANOVA) Particionamos la variación De los 3 grupos tenemos que la desviación de la media respecto a la poblacional es(j=1.3):   Por otro lado.

41 Análisis de varianza (ANOVA)  En términos conocidos:  ()+(-)  El análisis de la variación será por cuenta de una función de la desviación     + Suma de cuadrados Totales (SCT) Suma de cuadrados Tratados(S CTR) Suma de cuadrados de los errores .

42 Análisis de varianza (ANOVA)  En términos conocidos:  ()+(-)  El análisis de la variación será por cuenta de una función de la desviación     + Grados de libertad Suma de cuadrados Totales (SCT) Suma de cuadrados Tratados(SCT R) Suma de cuadrados de los errores N-1 J-1 N-J .

43 Análisis de varianza (ANOVA)    Nuestro propósito será identificar si la variación corresponde al grupo o no. la hipótesis nula a probar es si . Si lo es. es decir. la mayor fuente de explicación será motivado por la suma de los errores.  En ese caso construimos un estadístico para la comparación de las varianzas. . que dará lugar a la tabla Anova.

44 Análisis de varianza (ANOVA) .

45 Técnicas multivariadas .

46 Correlación de Pearson  El estadístico de Pearson es una medida común para establecer a relación entre varias variables continuas. Es definido como: .

Revelando si existe una relación positiva o negativa entre las variables. .47 Correlación de Pearson  El estadístico muestra qué tanta relación existe entre las dos variables: Su rango está entre -1 y 1.  Usualmente si la correlación estimada es superior al 50% se supone que hay una correlación fuerte.

 En este caso (de a pares):    Se basa en la comparación de la distribución acumulada de ambas distribuciones. sin asumir ninguna distribución.  Por ejemplo es útil para contrastar la distribución de los puntajes del ICFES según Instituciones de Educación Superior.Métodos no paramétricos de correlación MÉTODO KOLMOGOROV – SMIRNOV  Es una técnica usada para contrastar las distribuciones de dos variables. 48 .

49 .  En este caso (de a pares):    Se basa en la comparación de la distribución acumulada de ambas distribuciones.Métodos no paramétricos de correlación KOLMOGOROV – SMIRNOV  Es una técnica usada para contrastar distribuciones.  También es útil para contrastar la distribución de los puntajes del ICFES según Instituciones de Educación Superior.

0323 0.0000 1.2500 0.1532 Ni satifecho o insatisfecho 13 28 0.2419 0.2177 0.0323 0.1613 0.0484 Muy satisfecho 41 47 0.1532 Valor Cr 0.6210 0.2258 0.5081 0.1221316 1 (1.3306 0.1048 0.1452 0.50 Métodos no paramétricos de correlación Frecuencia relativa Frecuencia acumulada Distancia Categorías F(1) F(2) F(1) F(2) F(1) F(2) F(1) .4758 0.0000 D 0.1613 0.0000 Total 124 124 1.36/Raíz( N)) .1613 0.0000 0.0000 1.6694 0.4032 0.1290 Insatisfecho 30 27 0.3790 1.F(2) Muy insatisfecho 20 4 0.0323 Satisfecho 20 18 0.

51 .Métodos no paramétricos de correlación TABLA DE CONTINGENCIA  Se emplea usualmente sobre variables categóricas.  Su objetivo es probar si las dos características son independientes.

entonces nuestro estadístico nos debe decir si: 52 .  Intuitivamente queremos probar la independencia. y la B.Métodos no paramétricos de correlación  Como no contamos con la probabilidad poblacional de cada categoría. la estimamos como la proporción de observaciones que cumplen las condiciones sobre la característica A.

Métodos no paramétricos de correlación El estadístico de prueba será:   53 .

.  Usualmente usa de ponderaciones.  Según la OECD es la combinación de los indicadores que representan distintos componentes del concepto que se pretende evaluar a partir de un contexto multidimensional.  Implica un método de agregación.  Las críticas más grandes es sobre la decisión de las ponderaciones.54 Indicadores sintéticos  Es una medida analítica muy utilizada en las ciencias sociales y útiles en las tomas de decisiones.

55 Indicadores sintéticos Los elementos importantes de los indicadores son:  El rango  La normalización  La transformación para hacer de él un indicador multidimensional Ejemplo: Indicador compuesto de eficiencia Deserción consta de 3 indicadores   % de estudiantes en los 3 primeros deciles de la prueba SaberPro   Indicador de eficiencia de programas académicos   .

56 Análisis factorial  Conjunto de métodos  Analiza la relación entre “factores” o componentes.  El análisis puede ser exploratorio o confirmatorio.  No exige la condición dependencia o independencia.  Como supuestos: La parsimonia y la interpretabilidad. .

57 Pasos .

58 Pasos .

.El análisis factorial  Pueden incluirse más 59 variables a explicar. U corresponde a los factores únicos. Los coeficientes son conocidos como cargas factoriales.        F son los factores comunes que el investigador considera que están relacionados con las variables a explicar. Todo comienza con la siguiente representación para la explicación de dos variables. Ese número debe ser menor a los factores.

El análisis de componentes principales es el más usado en un ejercicio práctico y exploratorio.60 Análisis factorial as variables deben estar estandarizadas tal que: Supuestos:     l término u debe ser independiente a los factores. . e independiente entre sí. Sobretodo por el carácter de los supuestos.

Ese número debe ser menor a los factores. .El análisis factorial  La representación:  Entonces:       Pueden incluirse más 61 variables a explicar.

62 Pasos .

63 El análisis factorial  matriz La   de correlación de los factores permitirá determinar si hay alguna relación débil o redundante entre los factores. El test de Barlett prueba si la matriz de varianza de los datos (R) es la identidad.   El estadístico de prueba se distribuye chi cuadrado con grados de libertad .

64 Pasos .

.65 Análisis factorial   método común para saber si el Análisis factorial es indicado es Un mediante al análisis de las covarianzas de los factores. La variable con el menor índice es a candidata a ser eliminada. Una de sus medidas es el análisis de adecuación muestral. Medida de adecuación muestra para cada i En la práctica hay que tener cuidado con la eliminación de variables por medio de este método.

en la práctica. La matriz de varianza y   Objetivo Al determinar el peso de los factores sobre la explicación de las variables. Podremos saber que factores tienen un peso nulo en el modelo.66 Análisis factorial Recordemos que   covarianza poblacional es: . .

67 Pasos .

La experiencia. y eliminar aquellas variables con un valor p superior a 0.68 Análisis factorial Se pueden utilizar varias estrategias para determinar los factores a utilizar: 1. 2. El cálculo de los valores propios de la matriz de varianza y covarianza poblacional. Fraccionar la muestra y evidenciar si los factores son igualmente importantes es ambas. La matriz de varianza y covarianza. 3. 4.7. .

69 Pasos .

70 Análisis factorial La rotación (transformación) elimina ambigüedades de las conclusiones en las etapas previas. No se pierden las propiedades matemáticas de la matriz. Es decir. Identificando la relación entre las variables no incluidas y las incluidas. encontrar un método más simple. De esa forma con la rotación algunos pesos (a) serán mayores o nulos en las variables. .

71 Pasos .

72 Regresión lineal  Es un método ampliamente usado para identificar variables determinantes en la explicación de la trayectoria de una variable dependiente. se asume alguna causalidad.  Asume una estructura lineal por definición.  Asume que la variable dependiente (y) es explicada por un conjunto de variables (x) . En consecuencia. . y un término de error (se distribuye normal).

.  No se están omitiendo variables relevantes.  No hay endogenidad.73 Regresión lineal Los supuestos en la versión “ideal”  La normalidad del término de error  La varianza del error es constante.  No hay una relación muy fuerte entre los regresores.  El error es independiente a los regresores. y la media es cero.

74 Regresión lineal .