Professional Documents
Culture Documents
Apuntes de clases-ESTADIST-1
Apuntes de clases-ESTADIST-1
- Población son todos y cada uno de los elementos que se quieren analizar.
Puede ser finita o infinita (en realidad las poblaciones infinitas no existen, pero
cuando se trata de un número grande se trata como si lo fuera).
- Variable continúa cuando entre dos valores cualesquiera siempre puede haber
otro. Ejemplo: peso, edad,
En Economía son muchos más importantes las variables (toman valor numérico))
que los atributos.
ESCALAS DE MEDIDA
- Distribución unidimensional está formada por los valores que toma la variable
que se estudia acompañados de sus respectivas frecuencias.
[li-1 , li ].
Tablas de frecuencias
Antes de aprender a construir una tabla de frecuencias, debemos conocer los tipos de
frecuencias que existen y cómo se calcula cada una de ellas. Existen frecuencias absolutas
y relativas, así como frecuencias absolutas y relativas acumuladas.
Vamos a ver cada una de ellas más despacio:
Frecuencia absoluta
Frecuencia relativa
La frecuencia relativa de un dato es el número que se repite ese dato en relación al número
total de datos, o en otras palabras, es la proporción de veces que aparece ese dato con
respecto al total.
Se representa como «ni», siendo «i» el número de dato. y se calcula dividiendo la
frecuencia absoluta de cada dato entre el número total de datos:
O también, como la suma de la frecuencia relativa de un dato más la frecuencia relativa del
dato anterior. Así que, la frecuencia relativa acumulada del primer dato coincide con su
frecuencia relativa y la frecuencia relativa acumulada es igual a 1.
MEDIDAS DE POSICIÓN
1. Media
2. Mediana
3. Moda
1. Cuantiles.
Las medidas de posición tienen que cumplir que intervengan todos los valores de la
variable, que se puedan calcular y que su valor sea único para cada distribución de
frecuencias.
1.- MEDIA
Se suman de todos los valores de la variable y dividida todo ello por el número total de
observaciones
Datos sueltos
Ejemplo : 2,4,5,6
Números de hijos 0 x1 1 x2 2 x3
Frecuencia 6 f1 4 f2 2 f3
000000
1111
22
Media para tabla de frecuencias
1.- Cuando a los valores de la variable se les suma una constante, la nueva media
es la antigua más la constante.
Demostración
2.- Si a los valores de la variable se les multiplica por una constante, la nueva
media es la antigua multiplicada por la constante.
Demostración
3.- Como consecuencia de las dos anteriores si a los valores de una variable se les
multiplica por constante y se les suma un número, la media aritmética queda
multiplicada por la constante y sumado el número.
Es decir si:
Es igual que la media aritmética simple, pero se pondera cada valor de la variable
por un coeficiente distinto de la frecuencia absoluta.
= frecuencia de la clase
= desviación de la clase
= cantidad total de datos =
= amplitud de la clase =
2.- MEDIANA
Para poder hallar la mediana, lo primero que hay que hacer es ordenar los valores de la
variable de forma creciente, y escribir los valores de las frecuencias acumuladas F i.
Datos sueltos
Ejemplo:
3, 5, 7, 9, 10, 12 , 3, 5,7
la mediana = 10
= número de datos
3.- MODA
Ejemplo:
24278944
=2
= 2 y 4 bimodal
Si los intervalos tienen todas las mismas amplitudes el intervalo modal es el de mayor
frecuencia absoluta.
CUANTILES
Son medidas de posición que no tiene porqué ser central. Hay varios tipos de cuantiles:
2.- Deciles Son valores e la variable que dividen a la distribución en diez partes iguales, por
lo tanto los deciles son nueve, D1 deja al 10% antes, D2 al 20% y así sucesivamente hasta D9
que deja al 90% antes y al 10% después de él.
3.- Percentiles.- Son valores de la variable que dividen a la distribución en cien partes
iguales, por lo tanto los percentiles son 99.
P1
P2
P3
P10…………………………….D1
P25…………………………………………………………….Q1
P30……………………………..D3
P50……………………………..D5……………………………Q2
P60…………………………….D6
P75……………………………………………………………..Q3
P100………………………….D10…………………………….Q4
Para calcular cualquiera de ellos se utiliza por lo tanto el mismo procedimiento que
el descrito en el cálculo de la Mediana.
= + )*
= Percentil de orden k
= número de percentil
= número de datos
= frecuencia percentil
= amplitud de la clase
Las medidas de dispersión nos indican el mayor o menor alejamiento de los valores
de una variable respecto a un promedio. Casi siempre acompañando a un promedio
debe ir una medida de dispersión que nos indica la mayor o menor representatividad
del promedio.
Recorrido
Recorrido Intercuartílico
Desviación Media
Varianza s^2
Desviación Típica
RECORRIDO
R = Pmayor – Pmenor
RECORRIDO INTERCUARTÍLICO
RI = Q3 – Q1 = P75-P25
DESVIACIÓN MEDIA
Es la suma de los valores en valor absoluto de la diferencia entre cada valor de la variable
y la media aritmética por su frecuencia y dividido por el número de datos.
Propiedades:
1.-La varianza siempre es mayor o igual que cero. Tan solo hay un caso en que es cero y es
cuando todos los valores de la variable son iguales.
2.- Si a los valores de la variable le sumo una constante, la varianza de la nueva variable es
la misma que la que tenía antes.
3.- Si a los valores de la variable se les multiplica por una constante, la varianza de la
nueva variable es la que tenía por el cuadrado de la constante.
Ejemplo
2, 6, 8 4
= 2+6+8+4= 20/4 = 5
=5
La ventaja de utilizar este tipo de diagramas es que al hacerlo se tiene una comprensión
más profunda del problema planteado.
La relación entre dos variables se representa mediante una gráfica de dos dimensiones en
la que cada relación está dada por un par de puntos (uno para cada variable).
La variable del eje horizontal x normalmente es la variable causa, y la variable del eje
vertical y es la variable efecto.
La relación entre dos variables puede ser: positiva o negativa. Si es positiva, significa que
un aumento en la variable causa x provocará una aumento en la variable efecto y y si es
negativa significa que una disminución en la variable x provocará una disminución en la
variable y.
Por otro lado se puede observar que los puntos en un diagrama de dispersión pueden
estar muy cerca de la línea recta que los atraviesa, o muy dispersos o alejados con
respecto a la misma. El índice que se utiliza para medir ese grado de cercanía de los
puntos con respecto a la línea recta es la correlación. En total existen cinco grados de
correlación: positiva evidente, positiva, negativa evidente, negativa y nula.
• • •
•
•
•
• Correlación
• •
• •
•
• • positiva,
•
•
•
•
•
•
posible
• • •
• • •
•
• •
Diagrama de dispersión
Diferentes tipos de correlación
Tipos de correlación
15 15
10
Y
Y 10
5
5
0
0 5 10 15 20 25 Sin Correlación 0
0 5 10 15 20 25
X 25 X
20
15
Correlación 10
Y
5
Correlación
25
Positiva 0 Negativa
0 5 10 15 20 25 25
20
X 20
15
15
Y
10
Y
10
5
5
0
0 5 10 15 20 25 0
0 5 10 15 20 25
X
X
Si todos los puntos estuvieran completamente sobre la recta la ecuación lineal sería y = a +
bx. Como la correlación no siempre es perfecta, se calculan a y b de tal forma que se
minimice la distancia total entre puntos y la recta. Los cálculos son:
Método de Mínimos Cuadrados
SCxy xy
x y
n
SCx x
x
2
2
SCy y
y
2
2
n
Donde:
r = Coeficiente de correlación lineal
SCxy = Suma de cuadrados de xy
SCx = Suma de cuadrados de x
SCy = Suma de cuadrados de y
x 2
Sumatoria de los valores de la variable x al cuadrado
y 2
Sumatoria de los valores de la variable y al cuadrado
y 2
Cuadrado de la sumatoria de la variable y
Es un índice que sirve para describir la variación que experimenta una variable o grupo de
variables, a través del tiempo o de algún otro aspecto., por ejemplo el IPC, índice de
rendimiento escolar, índice de desempleo, etc
En general in índice nos servirá para comparar la evolución, que experimenta una variable
en un periodo con respecto a otro
Índice Simple
Índice Agregado
Encadenamiento
Sea X una variable que se refiere a un cierto ítem y supongamos que disponemos del
siguiente conjunto de enlace relativo entre todos los periodos 1, 2, 3…..es decir
, ,
Este Índice, describe la evaluación en dos periodos de tiempos, de una variable que está
relacionada con un grupo de Ítems o con un Ítem compuesto de dos o más variables
Supongamos que:
Estos sirven para describir la evolución de una variable, que tiene que ver con un grupo de
ítems, en un cierto periodo respecto de otro.. Sin embargo acá se considera la importancia
relativa o el “peso” que tiene cada ítem dentro del grupo, esto implica que a cada ítem es
asignada una ponderación.
Sea