You are on page 1of 23

TEMA 4.

ANÀLISIS ESTADISTIC DESCRIPTIU BIVARIANT


4.1. Taula de distribució de freqüències conjuntes i marginals
Aprendrem a resumir la informació de les dos variables que estem analitzant
conjuntament en taules de distribució de freqüències conjuntes i marginals, quan les
dos variables són quantitatives es pot parlar també de taules de correlació, en cas
contrari es coneixen per el nom de taules de contingència.
Per exemple si fem un estudi sobre la opinió de un grup
de persones format per homes i dones i la seva opinió
sobre l’avortament sent C en contra, I indiferent i F a
favor.
Es fa un recompte en un taula a part de les diferents
opinions, a cada un del recompte l’anomenarem
freqüència absoluta conjunta o nij són absolutes perquè són número d’individu i
conjuntes perquè es refereix a les dos variables simultàniament. Per exemple, N sub 1,
3 es refereix al valor de la primera fila i de la tercera columna. En aquest cas n13 ens
indica que hi ha dos persones que són homes i que estan a favor de l’avortament.
Si hem fet bé el recompte, la suma per totes les files i de
totes les columnes de les freqüències absolutes
conjuntes, que en aquest cas és dos files i 3 columnes
hauria de ser igual al número d’individus. Si fem
1+1+2+2+1+3 ens ha de dona 10.
Si dividim cada una de les freqüències absolutes conjuntes per el número
d’observacions tindrem les freqüències relatives conjuntes, o fij. La suma de totes els
valors de fij ha de donar 1. Fij = nij/N.
Exercici
Apart també podem calcular la freqüència absoluta
marginal per files, en el cas de per exemple la fila 2, es
representarà així n2. , amb un punt final.
Per les columnes farem el mateix però ho
representarem, en el cas de
la columna 3, n.3 , amb un punt intercalat. Es diran
freqüències absolutes marginals columna.
Pel cas de les freqüències realtives marginals, farem el
matiex però es representaran, les files (fi.) i les columnes
(f.j).

4.2. Distribucions condicionades


Aprendrem a concebre la taula de perfils per fila i per columna.
Seguim amb l’exemple anterior de l’opinió de l’avortament. Suposem que només ens
interessa el comportament de X però només per als individus amb Y = Y2 = indiferent.
En aquest cas hi ha un home i una dona que l’avortament els hi és indiferent. Per tant
agafarem la freqüència absoluta marginal de la fila 2 o la
n2. Si calculem la frequencia relativa marginal de la fila 2
o dels indiferents, trobem que el 50% són homes i el
50% són dones.

Exemple. Tenim les dades d’un grup d’estudiants dels


quals tenim el sexe i el número de pitis que es fuma cada
un al dia i disposem de la següent taula.
Hem de trobar el valor de f 2 condicionat a x1. La condició x és pel que fa al sexe, la x1
serà doncs el sexe que surti primer a la taula, per tant home. Com que la x és el sexe, el
2 s’ha de referir a l’altre variable, en aquest cas el número de pitis fumats al dia, la
segona de les categories és a dir entre 1 i 10 pitis al dia. Per tant volem trobar d’entre
els homes quant és el tant per 1 que fumen entre 1 i 10 pitis al dia. El total d’homes és
12 i hi ha 4 que fumen entre 1 i 10 pitis. Per tant fem 4/12 = 0,333, el 33,3% dels
homes fumen entre 1 i 10 pitis al dia.
Si ens demanen interpretar el valor de f 2/y3, en el
que y és el número de pitis al dia, serà per tant la
tercera categoria, els individus que fumen entre 11 i
20 pitis al dia. Com que la y ja s’identifica a la variabñe
`pitis per dia, el 2 ha de ser el sexe, la segona
d’aquestes categories, per tant de les dones. La
pregunta que hem de resoldre és dels individus que fumen entre 11 i 20 pitis al dia
quin tant per 100 en són dones. A partir de la informació de les freqüències relative ,
hem d’agafar la frequencia relativa conjunta pel que fa a les dones que fumen entre 11
i 20 i dividit entre la frequencia relativa marginal de tota la columna, en aquest cas
0’17. Ho dividim i fem 0’10/0’17ens dona que de entre els individus d’aquest grup que
fumen entre 11 i 20 pitis al dia, el 59% són dones.
Amb les mateixes dades ens demanen obtenir una taula que ensenyi les freqüències
relatives de y condicionades a cada un dels valors de x i les freqüències relatives
marginals corresponents a cada categoria de y.

Exercici 5.
Calculem el valor que pren Y mitja condicionada a X2.
Això vol dir que ens referim únicament a x2, la segona
categoria de la variable x, és a dir les dones. I ens
interessem en la media de Y i hem de busacr la media de
pitis fumats al dia però només de les dones.
Calculem la media i fent les marques de classe ( c).
4.3. Independència estadística
Dos variables són independents si els comportament de qualsevol de les dos es manté
constant sigui quin sigui el comportament de l’altre
variable.
Suposem les dades de l’empresa A on X són els gastos de
publicitat i Y són els ingressos per ventes. Durant 114
mesos.
Però són independents x i y? Per a fer-ho hem de veure com es el
comportament de x per cada un dels valors de y.
Fem la columna de freqüències relatives marginals de x, és a dir dels gastos en
publicitat, per el primer valor agafarem els 60 mesos en que l’empresa a s’ha
gastat mil euros en publicitat i ho dividirem entre el total de 114 mesos. Ens
dona la taula següent. Si fem el mateix però per els
ingressos per ventes en la resta de columnes ens dona els
mateixos valors. Per tant veiem que els valors dels ingressos
per ventes no canvien encara que ho faci els gastos de publicitat per tant podem dir
que X i Y són independents.
Si ens centrem en els valors de y relacionat amb el
comportament de x, ens donaria el mateix.
Quan 2 variables x i y són independents, es verifiquen les següents igualtats.
La freqüència relativa de i condicionada a j coincideix amb
la sequencia relativa mariganl de i, per tota la i i per tota la
j. La frequencia relativa marginal de j condicionada a i
coincideix amb la seqüència relativa marginal de j, per a
tota la i i tota la j. I que la freqüència relativa conjunta de ij
coincideix amb el producte de frequencia relatives
marginals. En el cas de que la dos variables siguin independents, la frequencia absoluta
(n) conjunta coincideix amb el rpdocute de freqüències
absolutes marginals dividit entre N per a totes les files i
columnes. En cas de que no es compleixin aquestes formules, no podem parlar de dos
variables independents.
Exemple.
En aquest cas ho comporvarem fent servir la formula
de nij = (1/114)n1. n.1
Ho podem comprovar per la primera filia i la primera
columna: n11= (1/114) n1. n.1  20 = (1/114) (60)(39) (=
20’52). No són iguals i per tant no podem parlar de
variables independents i per tant x i y estan associades.
Exercici 1.
El primer pas, serà fer la taula de les freqüències absolutes
marginals , tant la nj- com la n.j
El següent pas, presentar la taula de
freqüències relatives conjuntes i
marginals.

Comparem la taula de freqüències relatives

Les taules són diferents per tant les


variables x i y són independents per aquest
col·lectiu.

4.4. Anàlisis de la associació existent entre dos variables


4.4.1. Determinació de l’estructura de l’associació mitjançant les taules
de perfils.
En el cas de que dos variables estiguin associades ens interessa saber quina és
l’estructura i la intensitat o el grau d’aquesta associació. Veurem la determinació de
l’estructura i el grau de l’associació per qualsevol tipus de variable i per qualsevol tipus
d’associació.
Exemple, tenim informació sobre 750 individus que ens
han informat sobre el seu estat civil i el gasto setmanal en
oci. El primer que hem de fer es veure si les dos variables
són independents o estan associades. Fem per la primera casella per exemple, 300 x
270 dividit entre 750 = 180, diferent a 40. Per aquest col·lectiu les dos variables no són
independents i per tant, X i Y estan associades. Ara que ja sabe, que les variables etsan
associades per aqeust collectiu, hem de saber quian estructure tenen i quin grau. Per
l’estructura hem de saber quin és el sentit de l’associació, quines són les relacions entre
les categories de les files (estat civil) i les categories de les columnes (gasto setmanal
amb oci). Si per exemple els solters tendeixen a gastar entre 50 o 100, etc. A part
també hem d’estudiar la relació entre les categories que estan a les files es ad ir quins
estat civils tenen un comportament similar pel que fa al gasto i quina és la relació entre
les catehories que estan a les columnes, és a dir quins intervals de gasto tenen un
comportament més similar pel que fa a l’estat civil.
Per determinar el sentit de l’associació i quines
categories fila tenen un comportament més similar a les
categories columna, recorrem a la taula de perfils fila.
Començarem per determinar el sentit de l’assocaició,
pensem en si les variables estat civil i gasto en oci fossin
independents per aquest col·lectiu passaria que per a
els solters per exemple, els percentatges corresponents
al seu perfil correspondrien al marginal. Per tant en aquest cas hipotètic, veuríem que
dels 300 solters que hi ha, tindríem els percentatges a la fila (f.j) i per tant el 36% dels
solters gastaria entre 0 i 10, el 9% entre el 10 i el 20, etc. El mateix passaria amb els
casats i viudos. Per tant només caldira guiar-nos per els percentatges generals, però en
aquest cas no és així. Dels solters hi ha un 13% que gasta entre el 0 i el 10, això ens
indica que els solters no tendeixen a gastar entre 0 i 10. Si les variables fossin
independents entre els solters hi hauria un 9% que gastaria entre 10 i 20 i en tenim
més, un 13%, això ens indica que hi ha una tendència per a els solters a gastar entre 10
i 20. Ho comparem amb els percentatges marginals per tal de veure la tendència. Hi ha
un 23 % de solters que gasten entre 20 i 50, menys que el el 29% que tindirem en un
cas de independència de les dos variables, per tant no tendeixen a aquest gasto.
Marquem els casos en que els percentatges són
superiors que els percentatges marginals i aquestes
en seran les tendències.
Amb això hem identificat quin és el sentit de l’associació. Els solters tendeixen a gastar
entre 10 i 20 o 50 i 100, o que és el mateix que dir que els intervals de gasto de 10 i 20 i
de 50 i 100 tendeixen a situar-se en solters. Els casats tendeixen a gastar entre 0 i 10 i
20 i 50 i els viudos tendeixen a gastar entre 0 i 10 i 10 i 20.
A part d’aixó, si comparem entre si les diferents categories fila, si comparem els perfils
veiem que el més similars són els perfils de casat i viudo. Encara no tenim complert
l’estrucutra de l’associació, ja que ens falta determinar quins són els perfils columna
que tenen un comportament més similar pel que fa a les perfils fila.
Per fer-ho hem de recorrer a la taula de perfils
columna. Començarem, igual que amb els perfils
fila, per determinar el sentit d’associació. Si les
variables fossin independents, ens hauríem de
guiar per els percentatges marginals, és a dir que totes les categories es guiarien per
els percentatges de la columna (fi.). Com que les variables estan associades, hem
d’anar columna per columna, dels 270 individus que gasten entre o i 10, tindirem si les
variables fossin independents un 40%, però en canvi
hi ha un 15% per tant no hi ha tendència. Hem de
marcar les tendències dels percentatges superiors
als seus respectius percentatges marginals i ho fem a
totes les columnes. Arribem a les mateixes conclusions que a
les que hem arribat per a els perfils fila.
Si volem determinar el sentit de l’associació només cladra fer-ho amb una de les taules.
Però fent les dos podem completar l’informació, i determinem que a part de que casats
i viudos són els estats civils amb un perfil més similar entre si, els intervals de 10 i 20 i
50 i 100 s’assemblen entre si i que 0 i 10 i 20 i 50 tenen també un perfil similar entre si.
Estructura de l’associació completa.

Importància sobretot en el sentit. Es a dir de la relació entre les categories fila i


columnes. Quan es demana trobar el sentit de l’associació el podem trobar a partir de
la taula de perfils fila, la taula de perfils
columna i tambñe a partir de la comparació
ente les freqüències absolutes conjuntes
observades i les freqüències absolutes
conjuntes esperades.
Agafem per exemple la primera casella,
tenim 40 individus solters que gasten entre
0 i 10, si les variables fossin independents i
en canvi a les esperades en tindríem 108,
com que en la realitat en tenim menys, això ens indica
que no és una tendència. Hem de marcar les diferents
tendències a la taula de freqüències observades.
Arribarem a les mateixes conclusions que hem arribat abans. Però arribarem també a
conèixer el grau de l’associació. Si les freqüències observades conicideixen totes amb
les esperades, serà que les variables són independents, quan més diferencia hi hagi en
general les freqüències observades i les esperades, major serà el grau o intensitat
d’associaicó entre les dos variables.
(m’ha dit la claudia que la taula de freqüències esperades, és la relativa)

4.4.2. Avaluació del grau d’associació: la V de Cramer.


Una de les mesures que es poden utilitzar per avaluar el grau
d’associació és el coeficient V de Cramer, amb la formula següent.
Dins de l’arrel quadrada hi trobem el
coeficient X2 de Pearson, es comparen les freqüències
absolutes conjuntes observades i les esperades. La K, és el valor més petit entre el
número de files i de columnes de la taula. Si tenim 3 files i 4 columnes, serà el valor 3.
Per interpretar aquests valors, hem de tenir compte que si X i Y són independents la
resta entre nij – eij, donarà 0, les freqüències absolutes conjuntes observades (n ij)
coincidiran amb les esperades (eij). Com que serà 0, el coeficient X2 de Pearson també
serà 0 i per tant la V de Cramer també serà 0.
Quan més grau d’associació hi hagi, hi haurà més diferencies entre la nij i la eij. Per tant
més valor en el x2 i més valor a la V de Cramer.
Però llavors perquè no utilitzar directament el valor de x2 de Pearson? Perque és més
fàcil analitzar la V de Cramer ja que pren valors entre el 0 i 1, en canvi el X2 té un valor
màxim que depèn del número d’observacions i del número de files i columens i per
tant més difícil d’interpretar.
Exemple:
Primer de tot calculem el coeficient X2 de
Pearson, ho haurem de fer per a cada una de les
caselles. Restem el valor de la freqüència
observada menys el valor de la freqüència
esperada, elevat a quadrat i ho dividim per el
valor de la esperada de la mateixa casella. Ho
sumem tot, en aquest cas dona 223,27.
Haurem de substituir-ho a la formula de la V de Cramer.
A dalt de la divisió el coeficient X2 de Pearson, a sota la
N el número total de individus, en aquest cas 750, i la K, en aquest cas 3 (3 files menys
de 4 columnes) i menys 1. El resultat és 0,386, com que la V pot prendre valors entre el
0 i el 1, sent 0 que les variables són independents i 1 que estan perfectament
associades i que són de grau màxim, el 0,386 vol dir que el grau d’associço entre les dos
variables per a aquest col·lectiu, és baix o mitjà baix.

4.4.3. Coeficient de correlació de Pearson (primera part)


Cas concret on les dos variables són quantitatives, quan això passa a la pràctica el que
ens interessa és saber si existeix entre elles algun tipus concret d’associació, la relació
lineal. Si aquesta relació lineal existeix en volem saber el sentit i el grau.
Seguirem interessats en el grau i el sentit de l’associació existent entre dos variables,
però com dèiem aquestes dos variables ara seran quantitatives. Això permetrà realitzar
operacions matemàtiques amb els valors que agafen les variables i a més podrem
parlar de que una variable augmenta o disminueix de valor. (abans no podíem, per
exemple l’esta civil ni augmenta ni disminueix).
Podrem contestar a, si la relació entre les variables és lineal ( si una de les variables
augmenta de valor, l’altre tendeix a augmentar o disminuir?). En cas afirmatiu el sentit
de larelació lineal és directe (l’altre tendeix a augmentar) o inversa (la altre tendeix a
disminuir). També podrem veure el grau de la relació lineal.
Plantegem unes dades de dos empreses. En relació als
gastos en publicitat i els ingressos per ventes durant 12
mesos.

Són variables
independents. Com que les dos variables són
quantitatives, podem dibuixar un gràfic de
dispersió.
Amb el diagrama de dispersió podem entendre la
relació i com se situen les dos variables.
Per l’empresa D, tenim les dades següents.
Les dos variables en el cas de l’empresa D, no són
independents i per tant podem dir que X i Y estan
associades. Utilitzant els mètodes ja explicats, calculem
el sentit i el grau.

Com que la V de Cramer és de 0 ’71, podem dir que el


grau d’associació és fort. Fem el diagrama de dispersió.
El sentit de la relació el
podem expressar dient que
a mesurea que augmenta x
(els gastos per publicitat),
augmenta Y (o els ingressos) i després si segueix
augmentant x, acaba disminuint la Y.
Ara estudiem les dades de l’empresa E. Veiem que amb la taula
de distribució de freqüències que a mesura que augmebta el
gasto de publicitat augmenten els ingressos per ventes.
Fem la taula de perfils fila per determinar sentit i grau.
Veiem que l’associació és perfecta (V
de Cramer
= 1).
Grau, associació perfecta i
sentit, relació lineal entre X i Y,
ja que quan augmenta el gasto
de publicitat,
augmenten els ingressos per ventes.
Empresa F.
Fem la taula de perfils fila,
veiem que a mesura que
augmenten els gastos en
publicitat, no augmenten els
ingressos per venta de
manera fixa però is que tendeix a augmentar. Si
calculem la V de Cramer, és 0’87, per tant associació forta.
Si fem el diagrama de dispersió, ho podem veure
més clar, el punt de dalt el fem més gran ja que són 4
punts.

Per últim tenim la empresa


G.
El grau és de V = 0’71, per
tant és fort.

Extsieix una tendència a


augmentar els ingressos per venda a mesura que
augmenten els gastos per publicitat per tant diem que
és una relació lineal entre X i Y però no és del tot fixe.

Existeix relació lineal entre les dos variables analitzades? Pot ser que les
dos variables estiguin associades, però que la relació no sigui lineal, per
eexemple en el cas de l’empresa D podem parlar de una relació quadràtica
entre X i Y. Primer augmenta i després disminueixen els ingressos per
vendes.
Una altre pregunta que volíem contesar, és quin és el sentit
de la relació lineal.
Pot ser directe, en el cas de que augmenten i és inversa en
el cas de que una de les variables augemnta i l’altre tendeix
a disminuir o disminueix.
Una altre pregunta era el grau de la relació lineal. Això ho mesurarem de la sgeuent
manera, si mentre una variable augmenta l’altre també augmenta de manera fixe,
parlem d’un grau de relació lineal màxim, els punts en un diagrama de dispersió estan
alineats.
En el primer cas, veiem que els punts no estan del tot
alineats però estan molt junts i podem parlar d’una
relació lineal directe i amb un grau fort. En canvi per
exemple el segon cas parlem d’una relació lineal directe i
de grau màxim. En el tercer cas, parlem d’una relació
lineal inversa però de grau més dèbil.

(segona part)
Aquestes tres eren les úniques que tenien relació lineal.
Com podem obtenir una mesura que ens permeti saber si
existeix o no relació lineal i en cas d’existir, que ens informi
del seu sentit, del seu grau o intensitat?
Per contestar això veurem el seguent.
Dibuixem un gràfic on es marquin l’eix de les Y i l’eix de les X,
marcarem també la posició de la mitjana de la Y i la mitjana de la
X i marquem les rectes que ens queden, deixant quatre
quadrants.
Si X i Y són independents, els punts se situaran pel centre on
convergeixen les dos rectes que expressen les mitjanes. Si no hi ha
cap relació entre x i y els punts se situaran entre tots els
quadrants.
Si la relació entre la X i la Y és quadràtica, els punts prendran
forma de paràbola i ja sigui còncava o convexa. De tota manera els
punts se situaran per tots els quadrants. No hi ha més punts en
uns quadrants que en uns altres.
Si la relació entre x i y és lineal, els punts
estaran situats de diferent manera depenent del sentit.
Si la relació es lineal i directe, els punts se situaran
majoritàriament entre els quadrant 2 i 3.
Si la relació és lineal i inversa, els punts se situaran
majoritàriament entre els quadrants 1 i 4.
Directe = quadrants 2 i 3
Inversa = quadrants 1 i 4
Hem de trobar una mesura de síntesis que ens permeti saber en quins quadrants se
situen els quadrants.
Suposem que la mitjana de y és 6 i la mitjana de x és 8, suponem un punt qualsevol per
exemple al quadrant 2 i que pren els valors (10,9). Al valor correponent a les x (en
aquest cas 10) li restem la mitjana de les x (8), i al valor de y (en aquest cas 9) li restem
la mitjana y (6). Per tant (10-8)(9-6) = (2)(3) = 6 > 0. Al
multiplicar obtenim un valor positiu. En canvi si agafem per
exemple el valor (6,9) i fem (6-8)(9-6) = -6 < 0 i per tant
negatiu. Per qualsevol punt situat al quadrant 1 fent aquesta
operació donarà negatiu, el mateix passa al quadrant 4 i ens
donarà positiu en els quadrant 2 i 3.
Si realitzem aquesta operació per a tots els punts que ens donen, podrem saber quins
dels quadrants ocupen els punts de la recta i per tant sabrem si és una lineal directa o
inversa.
Covarianza que s’escriu com a S i els símbols de les dos
variables que haguem utilitzat. En aquest cas SXY
Sumem els
productes de tots els punts i la seva
diferencia respecte la mitjana i els dividirem
entre el número d’observacions.
Si la covarianza pren valor 0, no existeix
relació lineal entre x i y i per tant els punts estan situats de manera indiferent per als
quatre quadrants i als umar les diferencies ens donarà valor 0.
Si la covarianza té un valor positiu, els punts es troben entre els quadrants positius, per
tant 2 i 3, per tant existeix una relació lineal directe entre X i Y.
Si la covarianza té un valor negatiu, serà una lineal inversa.
La covarianza també la podem interpretar
amb aquestes altres formules.
Si tenim les dades en una taula de
freqüències absolutes, sumarem per a totes
les files i les columnes i les multiplicarem
per la freqüència absoluta conjunta.
Si disposem de la frequencia relativa conjunta la fromula passarà a ser així.

Càlcul de la Covarianza.
A la última columna ja surten expressats els resultats, els hem de sumar tots que dona
-5. HO dividim pel número d’individus, en aquest cas 4 i per tant -5/4 = -1’25.
Si volem fer la formula simplificada, hem de multiplicar tots els valors (3x6 =18) +
(5x5=25) + (etc.) que dona un valor de 115, dividit entre 4 , 115/4 =28’75 – 6x5
(mitjanes) = -1,25.
Calculem la covarianza per les empreses que hem posat d’exemple,
Empresa C.
Sent la mitjana de X = 1’5 i la mitjana de Y =287’5.

Per tant podríem dir que per la empresa C i per els mesos considerats, entre X i Y no
existeix una relació lineal. Ja que tenim resultat 0 i ho podem afirmar mirant el gràfic.
Empresa D.
Per l’empresa D i els mesos considerats, al tenir un
resultat = 0, podem dir que entre la X i la Y no
existeix relació lineal.

Empresa E.
La covarianza dona 16’67, podem dir doncs, que
per a l’empresa E al fdonar un valor positiu,
podem afirmar que per a l’empresa e i per als
mesos considerats existeix una realció lineal
directa entre les dos variables, a mesurea que
incrementen els gastos per publicitat, tendeixen a
augmentar els ingressos per ventes.
Si mirem el gràfic però, veurem que no és un
tendència i que augmnetaran segur, són fixes.
Empresa F.
La covarianza dona 29’16, un valor positiu i per tant
podem dir que per a l’empresa F i per als mesos
considerats, entre X i Y existeix una relació lineal directe
és a dir, a mesura que augmenten els gastos en
publicitat, els ingressos per ventes tendeixen a
augmentar, al contrari de l’altre però, si mirem el
diagrama de dispersió veeim però que no és fixe, no és
perfecte i parlarem d’una tendència.
Exercici 1.
Determinem primer si estan associades, és evident
que són associades, si agafem la primera casella,
amb un valor 0, i la comparem amb la esperada, (17
x 8 / 59 ), no són iguals i per tant estan associades.
Determinem el sentit i el grau de l’associaicó
existent entre x i y per aquest col·lectiu. Ho farem
amb la comparació entre les freqüències absolutes
conjuntes observades i les esperades.
Esperades entre parèntesis i les observades les que no
estan entre parèntesis. Comparant, marquem les
caselles en que les observades són superiors a les
esperades i determinem que.

Calculem la V de cramer uq epren un valor de 0’66, que ens indica que l’associació
entre les variables és de grau fort.
Com que tenim les dades agrupades en intervals
haurem de tenir les marques de classe.

El resultat és -29’31, per tant la reposta és que existeix una relació lineal inversa entre
les hores setmanals d’estudi i el gasto setmanal en oci. Tenint en compte que la V de
Cramer pren el valor de 0’66, podem
Tot i que la V de Cramer és 0’66 i per tant és forta, no podem dir uqe la relació lineal
també ho sigui, ja que la V de Cramer només medeix el grau d’associaicó en general
però no de la línia. Necessitem una altre mesura per poder saber el grau d’associació
de la línia.

Tercera part
Amb la covarianza podem saber si la relació és lineal i si és directa o inversa. Ens falta
saber com trobar el grau o intensitat, amb una mesura de síntesis.
Agafem aquest exemple en que la covarianza ens dona un
valor negatiu de -29’31. A mesura que augmenten les hores
d’estui dismibueix el gasto en
oci.
Si haguessim calculat enlloc de
hores, en minuts, tindríem la seguent taula.
Si calculem la covarianza amb minuts passaria a ser -1758’6.

Tot i que prengui un valor superior tampoc ho podríem interpretar com que ha canviat
la relació entre les variables.
A la covarianza no li afecten els
canvis d’origen però si que li afecten
els canvis d’escala.
Per mesurar el grau necessitem una mesura que no li
afectin els canvis d’escala.
Aquest és el coeficient de correlació de Pearson.
Es calcula com la covarianza entre les dos variables dividit entre el producte de
desviacions típiques. S’escriu amb una r minúscula, rXY.
Propietats.
El seu valor absolut no es veu afectat ni per canvis d’origen ni d’escala. Però pot afectar
els canvis de signe.
(aquí fa uns càlculs uqe ensenya els canvis d’origen i escala amb unes lletres que no he
entès).
En el cas de correlació o relació lineal perfecte.
Per exemple si Y fos funció lineal de X i igual a 2 +
0,5X, només hem de dibuixar el diagrama de dispersió
hem d’inventar-nos valors per a x i veure a quins valors correponen a
Y. Amb aquests 4 punts fem un diagrama de dispersió
Deduïm quina és l’expressió de la covarianza en el cas
de correlació perfecte, a la fórmula de la covarianza
substituirem Y per a+bXi . La mitjana de Y la
canviarem per a + b X media. (la x amb el pal a dalt). Com que a
està sumant i restan s’eliminia i en treiem factor comú de la b.
Al final el que tenim és b multiplicat per la varianza de x.
En el cas de correlació perfecte, la covarianza entre x i y serà igual a b multiplicat per la
varianza de x.
Per un altre cantó tindrem que la desviació típica de y serla la b en
valor absolut multiplicat per la desviació típica de x.
Haurem de substituir les aquestes expressiona en el coeficient de correlació.
Si b és més gran que 0, el coeficient de correlació
tindrà valor 1 i si b és menor de 0 el coeficient de
correlació tindrà valor -1.
coeficient de relació 1, ascendent, -1 = decendent.

Si no estan alineats de manera perfecte, el coeficient de correlació prendrà valor


superior a 0 però menys que 1 (en el cas de que sigui ascedent) si es descedent serà
major que -1 però menor que 0.
Interpretació del valor que pengui el coeficient de correlació de pearson.
Exemple anterior de les hores d’estudi i el gasto setmanal d’oci. La V de Cramer donava
0’66 i el coeficient de correlació de Pearson ens dona -0’262. D’una banda sabem que
hi ha relació lineal i que és inversa i que a la que augmenta una de les variables l’altre
disminueix i també sabem que la relació lineal és de grau dèbil, encara que la V de
Cramer ens indiqui que el grau d’associació sigui forta.
Empresa E.

Desviació típica de Y i de x.

El coeficient de correlació de Pearsons ens dona 1.

Per tant amb això podem saber que entre la X i la Y existeix una relació lineal directa
perfecte. Per aquests 12 mesos a mesura que augmenten els gastos en publicitat
augmenten sgeur els ingressos per ventes.
Empresa F.
Coeficient de correlació de Pearosn ens dona 0’936,
sabem que per l’empres F i per a els mesos considerats,
entre x i y existeix una relació lineal directa de grau fort.

Empresa G.
El coeficient de correlació de Pearosn ens dona 0’56, per
tant per l’empresa G i per els mesos considerats, existeix
una relació lineal directa de grau mitjà.
(falten els exercicis a partir del minut 26).

Exercici 3.

Està clar que el coeficient de correlació prendra valor positiu pe`ro no prendrà valor 1
ja que no estan els punts alineats.
Extisteix una relació lineal directa entre x i y, és a dir que a
mesura que augmenta e, valor de x, tendeix a augmentar el
valor de y, el grau de la relació lineal és mitjà-alt.

4.4.4. Coeficient de correlació de rangs de Spearman


Seguirem centrats en la relació lineal entre dos variables, però en aquest cas o be les
dos variables seran qualitatives ordinals o bé una serà qualitativa ordinal i l’altra
quantitativa. A les variables qualitatives ordinals hi ha un ordre natural entre els valors
que es prenen i per tant podem parlar de relació lineal i podem dir que augmenta o
disminueix el valor de la variable. El problema que tindrem és que al ser qualitativa no
tindrem valors amb els que poder fer operacions.
Exemple. Estudiants dels que tenim l’edat i la seva opinió
al respecte de l’avortament, a favor, indiferent o en
contra.
Fem una taula on hi posarem les freqüències absolutes,
conjuntes i marginals.
Fem la taula de perfils fila. Per aquest col·lectiu edat i opinió respecte
l’avortament van relacionades, en concret a mesura que augmenta
l’edat, tendeix a empitjorar la opinió respecte l’avortament.
Llavors parlem de relació lineal inversa, però amb quins valors, amb quins punts? Com
avaluem el grau?
Ordenem els rangs entre les dos variables, per exemple a
l’edat, la menor edat és 23,li assignem el rang 1. Al tenir
dos persones amb edat 30, enlloc d’ordenar-los es
reparteixen els dos rangs que els correspondrien (rang 3 i
4) i per tant posen tant per un com per l’altre els rangs
3’5. En el cas de l’opinó sobre l’avortament fem el
mateix, posem rangs, en contra com a rang 1, llavors al haver-hi tres persones que hi
estan indiferents i ocupen les posicions 2, 3 i 4 posem 3 a tots.
A partir d’aquesta taula, podem determinar el grau de la relació lineal. Per mesurar el
grau de relació lineal entre rangs es mesura a partir del coeficient de correlació de
rangs de Spearman. Es simbolitza com a rSXY es calcula com el coeficient de correlació
de Pearosn calculat amb els rangs (rRxRy).
Calculem les mitjanes dels graus, sempre seran iguals,
en aquest cas és de 3’5.
Com ho interpretem però?
El coeficient de Spearman, ens dona un valor de –0’71,
per tant amb això confirmem que és inversa i que té
un grau fort.
En un cas on no es repeteixin cap valor de x ni de
y, coincidiran les mitjanes igual que abans pe`ro
també coincidiran les varianzas tant de x com de
y. Ja que tindrem els mateixos valors. En aquests
casos es pot utilitzar la formula seguent.
Per a fer-la servir,
farem el sumatori de
la resta entre Rxi i Ryi elevat el quadrat.
En aquest exemple, (1-4)2 + (5-2)2 +(2-3)2 , etc.

Exemple 3. Tenim determinat que el coeficient de


correlació de rangs de Spearman es 0’41 però he de
trobar a partir de la taula de distribució de freqüències
arribem a aquest resultat. Se’ns demana construí la taula
de distribució de freqüències absolutes, conjuntes i
marginals. Hem de calcular també el valor del coeficient
de correlació de rangs de Spearman, entre X i Y a partir de la informació proporcionada
per aquesta taula.
Taula de distribució de freqüències absolutes conjuntes i marginals, un individu que es
declara de classes coail baixa i es declara en contra de l’avortament, de classe social
mitja n’hi ha dos un en cintra i un indiferent, etc. Hem de calcular el valor del coeficient
de correlació de rangs de Spearman, entre X i Y a partir de la informació proporcionada
per aquesta taula.
Hem de determinar els rangs, de classe social aixa hi ha
un individu = rang 1, de mitja n’hi ha dos = rangs 2-3 i de
classe alta també n0hi ha dos = rangs 4-5. Fem mitjanes.
Fem el mateix per la variable y, rang 2 per en contra, 4
per indiferent i 5 per a favor.
Hem convertit les dades orginials en intervals de rang i
després n’haguem fet la marca
de classe. Hem de fer la mitjana dels rangs de X, que ens
dona el valor de 3. Fem el mateix per la Y. , que emns dona
també el valor de 3.
Després fem la desviació típica dels rangs de X.
Que ens dona un valor de 1’34. Per a fer-ho, sumarem el producte de la marca de
classe dels rangs de X elevada al quadrat per el número d’individus corresponent a
cada una i ho dividirem entre el total d’’individus i
li restarem la mitjana al quadrat. En farem l’arrel
quadrada.
Calcularem també la desviació típica dels rangs de Y. Que dona un valor de 1’26.
En farem la covarianza.
(Les caselles on hi hagi valor 0, no cal
posar-les).
Dividim la covarianza entre el producte de les desviacions típiques dels rangs i obtenim
el valor 0’41 que és el coeficient de correlació de Pearons.
Exercici.
Per fer les marques de classe dels rangs, podem fer-ho
directament a ull si són pocs valors o podem sinó fer
servir la següent formula.
Simplificada consisteix en sumar el primer valor i el
ultim de l’interval i ho dividim entre 2.
El resultat de fer les marques de classe d etots dos variables, donaria lataula següent.
Fem la mitjana de x, que ens dona un valor de 65’5 que serrà igual que per la y.

Calculem desviació típica tant de x com de y.

I fem la covarianza.

You might also like