Professional Documents
Culture Documents
Conceptos
Un individuo (i) es un elemento de la población (P) aunque en caso de no poder acceder a esta,
se estudia un subconjunto representativo, o muestra (M).
i∈M⊂P
Las modalidades (xi) son las diferentes valores que posee un carácter o característica (X),
aunque de forma general, las llamaremos variables.
x i ∈X
Hay dos tipos de variables:
1. Cualitativas las que no se pueden medir
1. Atributos: las variables son de tipo nominal (que sólo se describen con palabras)
2. Cuantitativas, las que son medibles, que se subdividen en:
1. Discretas: cuando entre dos valores no se puede tomar otro x i ∈ℕó xi ∈ℤ
2. Continuas: cuando entre dos valores siempre existe un valor intermedio x i ∈ℚ ó x i ∈ℝ
Las variables cuantitativas pueden pertenecer a 4 escalas:
1. Nominal: solo tiene sentido las comparaciones x.e (Hombre/Mujer)
x A =x B∨x A≠x B
2. Ordinal: tienen orden. x.e (Mat, Sob, Not, Apr, Sus)
x A ≤x B∨x A≥x B
3. Intervalo: tiene sentido la diferencia x.e (Calendario)
x A −x B=x C
4. Razón: tiene sentido la proporción y la división. x.e (Distancia)
x A /x B =x C
-1-
Tabla de Frecuencias
Es la tabla donde se representan los valores que se quieren estudiar.
Notación
El tamaño es n, y representa la cantidad de valores que hemos recogido.
X es la variable, xi la modalidad de la variable.
La cantidad de modalidades es k por lo que xi se mueve para i∈[1, k ]⊂ℕ .
Datos discretos
Frecuencia [Absoluta] ni
Es la cantidad de veces que se repite una modalidad, y cumple esta propiedad:
∑ n i=n
Frecuencia [Absoluta] Acumulada Ni
Es la cantidad de veces que se repite una modalidad, y cumple esta propiedad:
i
N i =∑ n a Nk =n N 0=0
a=1
Frecuencia Relativa fi
ni
f i=
n
∑ f i =1
Frecuencia Relativa Acumulada Fi
Ni
F i=
n
-2-
Tabla Unidimensional Continua
Ii ai ci ni Ni di fi Fi hi ni c i ni ci2
[e0,e1[ ... ... ... ... ... ... ... ... ... ...
i
[ei-1,ei[ ei-ei-1 (ei-1+ei )/ 2 ni Σ ni ni / ai ni / n Ni / n fi / ai ni ci (ni ci)·ci
[ek-1,ek] ... …. ... n ... ... 1 ... ... ...
n 1 Σi nici Σi nici2
x = Σnici/n σx2 = Σnici2/n – x2
Las columnas fi, Fi y hi no son necesarias para hacer los cálculos, pues se puede calcular todo a
partir de ni, Ni y di y realizando la división al final, lo que conlleva acumular menos errores de
redondeo.
Marcas de clase ci
Representa a los xi continuos:
ei −1ei
c i=
2
Amplitud ai
a i=ei−ei−1
Densidad di
ni
d i=
ai
d 0=d n1=0
Densidad Relativa hi
f d
hi = i = i
ai n
Representación Gráfica
Dependiendo de la naturaleza de la variable, los valores se pueden representar utilizando un tipo
u otro de gráficos.
-3-
Gráficas para Variables Cualitativas
Diagrama de sectores
Es un círculo que representa la proporción de cada uno de las variables. Se utiliza para variables
cualitativas.
Pictograma
Asocia un dibujo a cada categoría, es muy poco preciso, y intenta mostrar una proporción que no
se ve tan clara como en el diagrama de sectores
Diagrama de Rectángulos
Ayuda visualmente a ver los máximos y los mínimos de la distribución
Poligonal de frecuencias
Ayuda a ver los máximos y los mínimos.
Media [Aritmética]
k
1
x= ∑ x i n i
n i
Para variable continua, los xi se sustituyen por los ci.
-4-
Ventajas
• Se pude calcular para cualquier valor cuantitativo
• Es fácil de calcular, y tiene en cuenta todos los valores de la distribución.
• Es el centro de gravedad de la distribución, es decir, es el punto que dista menos de todas las
observaciones de la distribución. ∑ n i x i−x=0
• Es una medida única y definida de forma objetiva en cada distribución de frecuencias
Inconvenientes
• Es poco representativa si hay mucha dispersión de datos, ya que es muy sensible a los
valores extremos.
• Depende de los cambios de origen y de unidad.
Otras Medias
Armónica Geométrica Cuadrática
k
ni
∏
k k
H=n / ∑
n ni 1
i xi G=
i
x i ⇔ Q= ∑
n i
n i x 2i
k
condiciones xi ≠ 0 1
G=e ^ ∑ n log x
n i i e i
condiciones: xi > 0
Además se cumple que:
H≤G≤x
-5-
Aproximación para variable continua
Las medidas en variable continua, como se puede haber visto en la media, deberían de ser la
suma de todos los datos que tenemos xi sin importar al intervalo que pertenezcan. Hoy en día los
ordenadores lo pueden hacer perfectamente y con grandes cantidades de datos, pero para realizar
cualquier aproximación, nosotros en vez de coger cada dato, lo aproximaremos a el valor medio del
intervalo ci (su marca de clase).
Así las fórmulas de la media, quedarán aproximadas de la siguiente forma (lo que nos permitirá
realizar los cálculos con facilidad):
n k
1
x= ∑a ≈1∑n c
n j=1 j n i=0 i i
Cuantiles Qp
Son las medidas que dividen la distribución en un número de partes iguales (p).
El valor de p siempre se encuentra entre 0 y 1. p∈[ 0,1]
Mediana Me
Divide en dos partes iguales, así deja el mismo número de observaciones a su izquierda y a su
derecha. (es igual a Q1/2 )
Cuartil Cs
Divide la distribución en 4 partes iguales. (C1 = Q1/4, C2 = Q1/2, C3 = Q3/4)
Decil Ds
Divide la distribución en 10 partes iguales (Ds = Qs/10)
Percentil Ps
Divide la distribución en 100 partes iguales (Ps = Qs/100)
Discreta
{ }
x Ax A1
si n · p=N A
Qp = 2
xA si n · p∈( NA −1 , N A )
Continua
{ }
eA si n · p= N A
Qp = n · p−N A−1
e A−1a A si n · p∈( NA −1 , N A )
nA
La fórmula del cuantil para variable continua se saca a partir de la fórmula de semejanza de
triángulos:
-6-
Qp−e A −1 n · p−N A−1
= , n · p∈( N A−1 , NA )
e A−e A −1 N A −NA −1
Moda
Es el valor de la variable que tiene mayor frecuencia. Si hay más de una moda es bimodal,
trimodal o plurimodal:
Discreta
Mo=x A , n A=max { n i }
Continua
d A−d A−1 dA
Mo=e A −1a A = eA −1a A , I A =max { d i }
d A−d A−1 d A−d A 1 d A d A 1
La fórmula de la Moda continua se saca también a partir de la semejanza de triángulos:
Mo−eA−1 d A−d A−1
= , I A =max { d i }
Mo−eA e A1−Mo d A−d A−1 d A−d A1
A veces la moda se aproxima con esta fórmula:
d A1
Mo≈e A−1a A
d A−1d A 1
Medidas de Dispersión
Rango (o Recorrido)
R=x k −x 1
Recorrido Intercuártílico
R I =Q3−Q1
Varianza
La varianza mide la dispersión que presentan los valores de la variable respecto de la media.
1 1
Var x= 2x= n x −x2= ∑ n i x 2i −x 2
n∑ i i n
La varianza no depende de los cambios de origen, pero sí de los cambios de unidad.
Cuasi-Varianza
2 n 2
x −1= ·x
n−1
-7-
Desviación Absoluta Media (DAM)
Desviación Típica
Es la DAM respecto de la media
1
n ∣n −x∣= 2
n∑ i i
Dx = x=
MEDA
Es la DAM respecto de la mediana
1
n∑ i i
DMe = n ∣n −Me∣
Recorrido relativo
x k−x 1
RR=
x
Recorrido semi-intercuartílico
Q3−Q1
R SI=
x
Momentos
1 r
a m r=
n ∑ n i xi −a
-8-
Momentos ordinarios (ó respecto del origen)
a=0
1 r
n∑ i i
0 m r =m r = nx
m 0=1 , m 1=x
Características de Forma
si x≥Me≥Mo Asimétrica por la derecha
si x≤Me≤Mo Asimétrica por la izquierda
γ1 x=
3 1
3
n
= ∑ ni
x i−x
-9-
Coeficiente de Curtosis de Fisher
k
4 1
γ 2 x =
4
−3 = ∑
n i=1
n i x i−x4 −3
si γ 2 x 0 Leptocúrtica
si γ 2 x =0 Mesocúrtica
si γ 2 x 0 Platicúrtica
Estadística Bidimensional
Sean dos características X,Y de la forma {(xi, yi), i=i, ..., k ; j=1, …, p}
Distribuciones Marginales
Frecuencia [Absoluta] de x e y ni· n·j
Es la cantidad de veces que se repite la modalidad i,j, y cumple esta propiedad:
ni · =∑ n ia n· j=∑ naj
a a
N k ·=N ·p =n N 0 · =N·0 =0
-10-
Frecuencia Relativa Acumulada de x e y Fi· F·j
Ni · N· j
F i ·= F· j =
n n
Tabla Bidimensional
X\Y y1 yj yp ni· Ni· ni· xi ni· xi2
x1 n11 ... ... ... ... ... ...
i
xi ... nij ... Σj nij Σ na· a ni· xi xi (ni· xi)
xk ... ... nkp ... n ... ...
n·j ... Σi nij ... n Σi ni· xi Σi ni· xi2
N·j ... Σaj n·a n x = Σi ni· xi/n σx2 = Σi ni· xi2 /n – x2
n·j yj ... n·j yj ... Σj ni·yj y = Σj n·j yj /n
n·j yi2 ... yj (n·j yj) ... Σj n·jyj2 σy2 = Σj n·j yj2/n – y2
Σi xi nij ... Σi xi nij ...
yj Σi xi nij ... yj (Σi xi nij) ... σxy = Σj yj Σi xi nij
En la tabla bidimiensional no incluimos frecuencias relativas porque además de que pueden ser
calculadas directamente desde las absolutas, es mejor trabajar para calcular todo con las absolutas
para evitar errores de redondeo.
Momentos Bidimensionales
1
ab m rs = ∑ ∑ n ij x i−a r y j−bs
n
m 00=1, m 10=x , m 01 =y
-11-
Momentos centrales
a=x , b=y
1
n x −xr y j−y s
n ∑ ∑ ij i
xy m rs =rs=
2 2
00=1, 01=10=0, 20 = x , 02= y
1
n ∑ ∑ ij i j
xy = n x y −x y
Función Exponencial
y=ba x
Se hace un cambio de variable donde x' = log x, y se calcula de nuevo a media, desviación típica
y covarianza de x'
x log y
log y= x−xlog y
2x
-12-
Demostración:
y=ba x ⇔ log y=log b a x ⇔
⇔ log y=x log alog b ⇔ y '=cxd ⇔
⇔ e y '=ecxd ⇔ elog y =e cxd ⇔ y=e d · ec x
Función Potencia
a
y=bx
Se hace un cambio de variable donde x' = log x, y se calcula de nuevo a media, desviación típica
y covarianza de x'
logx logy
logy= 2
logx−log x logy
logx
Demostración:
y=bx a ⇔ logy=log b x a ⇔ logy=log ba · log x ⇔
⇔ logy=a · log xlog b ⇔ y '=c x 'd ⇔
⇔ ey '=e cx 'ed ⇔ elog y =ec log xe d ⇔ y=x c e d
Residuos eij
e ij=y j−f xi
Media Residual e
1 1
e=
n ∑ ∑ n ij e ij=y− ∑ n i · f x i
n
Varianza Residual
1
2ry= ∑ ∑ n ij e ij−e 2 2y− 2ey
n
-13-
Razón de Correlación de y sobre x:
2ey
η2y / x=
2x
Análisis de Atributos
Coeficiente de contingencia
1
χ 2= I ∑∑
n ij −n Iij 2
nij
2
χ ≈0 esindependiente
Coeficiente de Tschuprow
2 χ2
T=
n k−1 p−1
T 2∈[0,1] , T2≈0 es independiente
Coeficiente τ de Kendall
n
2
τ= ∑ sg y j−y i
n n−1 i=1, ji
τ∈[−1,1] , τ≈0 es concordante
sg es la función signo, que le da el valor 1 si es positivo, 0 si es 0, y -1 si es negativo.
-14-