You are on page 1of 13

Criteri de mesura:

Variables qualitatives o categòriques: els diferents valors indiquen classificació d’individus.


Hi ha una sèrie de valors discrets i limitats.
Nominal:
- Dicotòmica: hi ha 2 categories. Si la codificació és 0 i 1, és binària.
Exemple: ALTURA (alt/baix), SEXE (dona/home), etc.
- Policotòmica: hi ha més de 2 categories.
Exemple: Grup A, B, C, D.
Ordinal: també són valors limitats, però es poden ordenar de menor a major o
viceversa.
Exemple: estat evolutiu (nen, adolescent, adult, avi)

Variables mètriques, quantitatives o numèriques: tenen unitats de mesura.


- Contínua: poden prendre valors entre dos valors contigus. Valors amb decimals.
Exemple: pes, alçada, etc.
- Discreta: els valors que pot prendre la variable són limitats.
Exemple: nombre de fills, nombre d’assistents, etc.
Anàlisi exploratoris de dades
● Relació entre una variable qualitativa i una variable qualitativa
○ Taules de contingència
○ Coeficient V de Crámer
○ Contrastd’hipòtesi χ² de Pearson.

● Respon aquestes 3 preguntes


○ com estan relacionades x i y?
○ examinem visualment la relació
○ Anàlisi exploratòria de dades

Quantificació de les relacions entre les variables en la mostra

● Relacióentre una variable quantitativa i una variable qualitativa


○ Diagrama de caixes en paral·lel
○ Coeficient η
○ Contrast d’hipòtesi F de Fisher o Brown-Forsythe/ t-Student o robusta

● Respon les 3 següents preguntes


○ Fins quin punt estan relacionades?
○ Quantifiquem la relacionades
○ Mesura d’associació

Inferència estadística
● Relacióentre una variable quantitativa i una variable quantitativa
○ Diagramade dispersió per punts
○ Coeficientde correlació lineal de Pearson
○ Contrastd’hipòtesi F de Fisher

● Respon les 3 preguntes següents


○ Estan relacionades també a la població
○ Fem inferència estadística
○ Contrats d’hipòtesis
RELACIÓN ENTRE DOS VARIABLES CUALITATIVAS (CUALI-CUALI)

PASO 1. ANÁLISIS EXPLORATORIO DE LOS DATOS. TABLAS DE CONTINGENCIA.

Recuento esperado: Se calcula el total de recuento esperado x el % total de la


columna/100.
Pej: Recuento esperado de botiga especializada Hombre: 91x23,1/100=21,021 Mujer:
91x76,9/100=69,979
% dentro de via de compra: Restando 100- el valor que te de por columna. P ej: Altres
Mujer: 100-53,1= 46,9

% dentro de género: sumando todos los valores de % dentro de genero de cada uno de
los géneros y lo que de restarlo a 100.

PASO 2. RELACIÓN VARIACIÓN / MUESTRA

-Cálculo de la V.CRAMER (Medida de asociación)


Fórmula:
2
𝑆𝑢𝑚𝑎 𝑑𝑒 𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑐𝑖𝑎𝑠 (𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑎−𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑎)
𝑉. 𝐶𝑟𝑎𝑚𝑒𝑟 = 𝑛 𝑥 (𝑞−1)
→ 𝑑𝑖𝑓 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑎

1.(con todas las frecuencias)


2. Se suman todas las diferencias y se
sustituye en la fórmula.

n= número total de individuos de la muestra


q= mínimo de número de filas y columnas (sin contar la fila/columna del total)
Frecuencias esperades = las que deberiamos esperar si la hipotesisi fuera nul·la
(ei)

Interpretar el resultado:
Si se aproxima a 0, la relación entre variables es floja a la muestra, por lo que hay poca
relación.
Si se aproxima a 1, la relación entre variables es fuerte a la muestra, por lo que hay relación.

PASO 3.CONTRASTE DE HIPÓTESIS χ² DE PEARSON.


H0: V.Cramer a la població = 0

H1: V.Cramer a la població ≠0 → RECHAZAMOS?

- Cálculo del X2 de Pearson


2
X2 = V.Cramer · n· (q-1)

- Valor crítico
X2= ? →Risc 5%= 0,05
Gl (grados de libertad)= (𝑓𝑖𝑙𝑎𝑠 − 1) · (𝑐𝑜𝑙𝑢𝑚𝑛𝑎𝑠 − 1) (sin contar la
fila/columna del total)
Mirar en la tabla del Chi Cuadrado (0,05, gl) para saber el Valor Crítico.

- Interpretación: X2 > Valor Crítico, rechazamos la hipótesis, por lo tanto hay relación
significativa entre las variables.
X2 < Valor Crítico, no rechazamos la hipótesis , no existe relación significativa entre
las variables.
RELACIÓN ENTRE UNA VARIABLE CUANTITATIVA Y UNA VARIABLE
CUALITATIVA (CUANTI-CUALI)

PASO 1. ANÁLISIS EXPLORATORIO DE DATOS. (Gráficos Bivariantes de


dispersión o diagrama de cajas en paralelo)

Suponemos 3 variables numéricas

Y1 salari mensual

Y2 edat

Y3 antiguitat a la feina

Que las queremos relacionar con una variable cualitativa


de m=3 categorías

1. Solter

2. Casat

3. Altres

- Gráfica bivariante de dispersión.

-Poca variación en la gráfica entregrupos.


-Bastante variación en la gráfica intragrupos.
- Relación débil entre variables, medias similares pero la
dispersión del grupo es grande.

-Poca variación en la gráfica entre grupos.


-Bastante variación en la gráfica intra grupos.
-Relación débil entre variables, medias similares y dispersión del
grupo pequeña.
-Bastante variación en la gráfica entregrupos.
-Poca variación en la gráfica intragrupos.
-Relación fuerte entre variables, valores muy altos para el grupo B y
valores bajos para el grupo A y C.

Conclusiones del análisis exploratorio:


- A más variación entregrupos o variación intergrupos es más alta la relación entre las
dos variables.
- A menos variación dentro de los grupos o variación intragrupos más alta será la
relación entre las dos variables.

PASO 2.Síntesis numérica de la relación. ANOVA. η


1. Variación intragrup.
2 2 2
𝑆𝑄𝑖𝑛𝑡𝑟𝑎 = (𝑛1 − 1) · 𝑠 1
+ (𝑛2 − 1) ·𝑠 2
+ (𝑛3 − 1) · 𝑠 3
+…..
(tantos x nombres de grupos tengamos)

-Ejemplo (tabla):
2 2 2
𝑆𝑄𝑖𝑛𝑡𝑟𝑎 = (10 − 1) · 3, 723 + (10 − 1) · 3, 901 + (10 − 1) · 4, 085 = 411, 76

2. Variación entregrups.
2 2 3
𝑆𝑄𝑒𝑛𝑡𝑟𝑒 = 𝑛1 · (𝑥1 − 𝑥) + 𝑛2 · (𝑥2 − 𝑥) + 𝑛3 · (𝑥3 − 𝑥) ……
(tantos x nombres de grupos tengamos)

-Ejemplo (tabla):
2 2 2
𝑆𝑄𝑒𝑛𝑡𝑟𝑒 = 10 · (11 − 12, 33) + 10 · (14 − 12, 33) + 10 · (12 − 12, 33) = 46, 67

3. Variación total:
𝑆𝑄𝑡𝑜𝑡𝑎𝑙 = 𝑆𝑄𝑒𝑛𝑡𝑟𝑒 + 𝑆𝑄𝑖𝑛𝑡𝑟𝑎

-Ejemplo (tabla):
𝑆𝑄𝑡𝑜𝑡𝑎𝑙 = 46, 67 + 411, 76 = 458, 43
MEDIDA DE ASOCIACIÓN : ETA η

𝑆𝑄𝑒𝑛𝑡𝑟𝑒
η= 𝑆𝑄𝑡𝑜𝑡𝑎𝑙

Ejemplo (tabla):
46,67
η= 458,43
= 0, 320
La relación entre salarios y estado civil es débil ( η = 0, 320) a nivel de la muestra.

-Si η es próximo a 0, la relación entre las variables es débil a nivel de la muestra.


-Si η es próximo a 1, la relación entre las variables es fuerte a nivel de la muestra

PASO 3. Grado de relación a la población. Contraste F de Fisher o F de Brown-Forsythe.

(1) Planteamos hipótesis:


H0: Eta a la població = 0
H1: Eta a la població ≠0

RECHAZAMOS?

(2) Seleccionamos el Contraste:

-F.fisher

-F.Brown

-T.student

-T.student robusta.

Significación (SPSS) > 0,05 VARIANZAS IGUALES


Significación (SPSS) < 0,5 VARIANZAS DIFERENTES
Cajas iguales= varianzas iguales
Cajas más grandes y cajas más pequeñas= varianzas diferentes.
(3) Cálculo Contraste.

Contraste de Fisher (sig>0,05 , var =) :


2
η /(𝑚−1) 𝑆𝑄𝑒𝑛𝑡𝑟𝑒/(𝑚−1)
𝐹= 2 = 𝑆𝑄𝑖𝑛𝑡𝑟𝑎/(𝑛−𝑚)
(1−η )/(𝑛−𝑚)

𝑉𝑎𝑙𝑜𝑟 𝐶𝑟í𝑡𝑖𝑐𝑜 = α(𝑟𝑖𝑠𝑐) = 5% = 0, 05


→ 𝑔𝑙 = 𝑛𝑢𝑚𝑒𝑟𝑎𝑑𝑜𝑟 (𝑚 − 1)
→ 𝑔𝑙 = 𝑑𝑒𝑛𝑜𝑚𝑖𝑛𝑎𝑑𝑜𝑟 (𝑛 − 𝑚)
m: número de grupos de la variable cualitativa
n: tamaño de la muestra total

Conclusiones:
F.Fisher > Valor Crítico, rechazamos Ho (hipótesis nula). Por tanto, podemos
generalizar la relación entre las dos variables a nivel de la población.
F.Fisher < Valor Crítico, no podemos rechazar Ho, no tenemos suficientes
datos para evaluar la relación de las variables.

Ejemplo: Escogemos F.Fisher, porque tiene varianzas iguales (sig. >0,05) y


+2 grupos.

Cálculo F.Fisher:
2 2
η /(𝑚−1) 0,320 /(3−1)
𝐹= 2 = 2 = 1, 54
(1−η )/(𝑛−𝑚) (1−0,320 )/(30−1)

𝑉𝑎𝑙𝑜𝑟 𝐶𝑟í𝑡𝑖𝑐𝑜 = α(𝑟𝑖𝑠𝑐) = 5% = 0, 05


gl=numerador (m-1)= (3-1)=2
gl=denominador (n-m)= (30-3)= 27
Mirar tabla de F.Fisher (2,27)
Valor crítico= 2,511

Conclusión F.fisher<Valor crítico 1,54<2,511 , no podemos rechazar


Ho, no tenemos suficientes datos para evaluar la relación de las
variables.

Contraste de Brown-Forsythe (sig<0,05, var ≠).

𝑆𝑄𝑒𝑛𝑡𝑟𝑒
𝐹. 𝐵𝑟𝑜𝑤𝑛 − 𝐹𝑜𝑟𝑠𝑦𝑡ℎ𝑒 = 𝑛1 2 𝑛2 2 𝑛𝑚 2
(1− 𝑛
)𝑠 1+(1− 𝑛
)𝑠 1+...+(1− 𝑛
)𝑠 𝑚
m: número de grupos de la variable cualitativa
n: tamaño de la muestra total
𝑉𝑎𝑙𝑜𝑟 𝐶𝑟í𝑡𝑖𝑐𝑜 = α(𝑟𝑖𝑠𝑐) = 5% = 0, 05
→ 𝑔𝑙 = 𝑛𝑢𝑚𝑒𝑟𝑎𝑑𝑜𝑟 (𝑚 − 1)
→ 𝑔𝑙 = 𝑑𝑒𝑛𝑜𝑚𝑖𝑛𝑎𝑑𝑜𝑟 (𝑛 − 𝑚)

F.Brown > Valor Crítico, rechazamos Ho (hipótesis nula). Por tanto, podemos
generalizar la relación entre las dos variables a nivel de la población.
F.Brown < Valor Crítico, no podemos rechazar Ho, no tenemos suficientes
datos para evaluar la relación de las variables.

Contraste de t-Student.
Cálculo t-student (significación >0,05 var.=):
(𝑥1−𝑥2)
𝑡= 2 2
(𝑛1−1)𝑠 1
+ (𝑛2−1)𝑠2 1 1
(𝑛1−1) + (𝑛2−1)
· 𝑛1
+𝑛
2

𝑉𝑎𝑙𝑜𝑟 𝐶𝑟í𝑡𝑖𝑐𝑜 = α(𝑟𝑖𝑠𝑐) = 5% = 0, 05


→ 𝑔𝑙 = (𝑛1 − 1)+((𝑛2 − 1) = 𝑛 − 2= ?
Mirar tabla t student (0,05,?)

-Interpretación: T-student > Valor Crítico, rechazamos Ho (hipótesis nula). Por


tanto, podemos generalizar la relación entre las dos variables a nivel de la
población.
t-student <Valor Crítico, no podemos rechazar Ho, no tenemos suficientes
datos para evaluar la relación de las variables.

Contraste t-Student Robust


Cálculo t-Student Robust (sig <0,05 var ≠):
(𝑥1−𝑥2)
𝑡𝑟𝑜𝑏𝑢𝑠𝑡𝑎 = 2 2
𝑠 𝑠
𝑛1
+𝑛
2

𝑉𝑎𝑙𝑜𝑟 𝐶𝑟í𝑡𝑖𝑐𝑜 = α(𝑟𝑖𝑠𝑐) = 5% = 0, 05


→ 𝑔𝑙 = (𝑛1 − 1)+((𝑛2 − 1) = 𝑛 − 2= ?
Mirar tabla t-student robusta (0,05, ?)

-Interpretación: T-student robusta > Valor Crítico, rechazamos Ho (hipótesis


nula). Por tanto, podemos generalizar la relación entre las dos variables a
nivel de la población.
T-student robusta < Valor Crítico, no podemos rechazar Ho, no tenemos
suficientes datos para evaluar la relación de las variables.
RELACIÓN ENTRE DOS VARIABLES CUANTITATIVAS (CUANTI-CUANTI)

PASO 1.Diagrama dispersión de puntos.

Representar el diagrama.
- No parábolas
- No valores atípicos
- Correlación positiva o negativa

PASO 2. Cuantificación del grado de relación a la muestra. Coeficiente de


correlación de Pearson.

x Y Zx Zy Zx·Zy

6 526 -0,239 -0,409 0,098

3 421 -1,434 -1,484 2,128

9 630 0,956 0,655 0,626

6 581 -0,239 0,154 -0,037

9 672 0,956 1,085 1,037

𝑥 (media) = 6,6 566 Total:3,85


2

sx (desv)= 2.510 97,701

𝑥1−𝑥 6−6,6
zx= 𝑠1
ej: 𝑧1= 2,510
=− 0, 239 (así con todos los números de la x)
𝑦1−𝑦 526−566
zy= 𝑠1
ej: 𝑧1= 97,701
=− 0, 239 (así con todos los números de la y)

𝑆𝑢𝑚𝑎𝑡𝑜𝑟𝑖𝑜 𝑑𝑒 (𝑍𝑥·𝑍𝑦) 3,852


γ𝑥𝑦 = (𝑛−1)
= 5−1
= 0, 963

Interpretación: Si el índice de correlación de pearson se acerca a 1, la


relación entre variables es fuerte y positiva al nivel de la muestra .
Si se acerca a 0 es débil al nivel de la muestra.
Si se acerca a -1, la relación entre variables es fuerte y negativa al nivel de la
muestra.
ej: =0,963 se acerca a 1, por lo tanto la relación entre los m de estatería y los
cafés es fuerte y positiva al nivel de la muestra.

Fórmula de recta de regresión: Y=B1+B2·X


ej: Y(numero de cafes)=B1+B2·x (m de estantería)

-Ajustar la recta de regresión:

x Y x.y 𝑥
2

6 526 3156 36

3 421 1263 9

9 630 5670 81

6 581 3486 36

9 672 6048 81

SUMA 33 2830 19623 243

Media 6,6 566

∑(𝑥)·∑(𝑦)
∑(𝑥·𝑦) − 𝑛
𝐵2 = 2
∑(𝑥)
2
∑(𝑥 )− 𝑛

33·2830
19623 − 5
ej: 𝐵2 = (33)
2 = 37, 5 Interpretación: A cada m de estantería, de
243− 4
media vendemos 37,5 cafés de más.

𝐵1 = 𝑦 − 𝐵2 · 𝑥
ej: 𝐵1 = 566 − 37, 5 · 6, 6 = 318, 5 Interpretación: A 0 m de estantería
venderemos 318,5 cafés. No tiene sentido la hipótesis.
Y=B1+B2·X →(sustituimos valores) Y=318,5+37,5·X
-volver a representar en una gráfica con los puntos anteriores,
dándole 3 valores diferentes a la x.
Medida de Bondad:
2 2
𝑅 = (γ𝑥𝑦)
2 2
ej: 𝑅 = (0, 963) = 0, 927 = 92, 7%
Interpretación: Teniendo en cuenta los metros lineales de estanterías podemos
predecir un 92,7% de la varianza de los cafés vendidos. Por tanto las predicciones
serán muy altas y buenas.

PASO 3. Grado de relación a la población. Contraste F.Fisher.

(1) Planteamos hipótesis:


H0: γ𝑥𝑦 a la població = 0

H1: γ𝑥𝑦 a la població ≠0

RECHAZAMOS?

(2) Cálculo F.Fisher y Valor Crítico

2
γ𝑥𝑦
𝐹 = 2
(1−γ𝑥𝑦 )/(𝑛−2)

Valor Crítico 5% risc

→gl numerador= 1

→gl denominador= (n-2)

Mirar la tabla de F.Fisher para saber el Valor Crítico.

Interpretación:

F>Valor Crítico, sig<0,05: Rechazamos la hipótesis nula, por tanto existe relación
significativa entre las variables a la población.

F<Valor Crítico, sig>0,05: No rechazamos Hipótesis nula por tanto no tenemos


suficientes datos para generalizar la población.

You might also like