Professional Documents
Culture Documents
Exercici 5.
Calculem el valor que pren Y mitja condicionada a X2.
Això vol dir que ens referim únicament a x2, la segona
categoria de la variable x, és a dir les dones. I ens
interessem en la media de Y i hem de busacr la media de
pitis fumats al dia però només de les dones.
Calculem la media i fent les marques de classe ( c).
4.3. Independència estadística
Dos variables són independents si els comportament de qualsevol de les dos es manté
constant sigui quin sigui el comportament de l’altre
variable.
Suposem les dades de l’empresa A on X són els gastos de
publicitat i Y són els ingressos per ventes. Durant 114
mesos.
Però són independents x i y? Per a fer-ho hem de veure com es el
comportament de x per cada un dels valors de y.
Fem la columna de freqüències relatives marginals de x, és a dir dels gastos en
publicitat, per el primer valor agafarem els 60 mesos en que l’empresa a s’ha
gastat mil euros en publicitat i ho dividirem entre el total de 114 mesos. Ens
dona la taula següent. Si fem el mateix però per els
ingressos per ventes en la resta de columnes ens dona els
mateixos valors. Per tant veiem que els valors dels ingressos
per ventes no canvien encara que ho faci els gastos de publicitat per tant podem dir
que X i Y són independents.
Si ens centrem en els valors de y relacionat amb el
comportament de x, ens donaria el mateix.
Quan 2 variables x i y són independents, es verifiquen les següents igualtats.
La freqüència relativa de i condicionada a j coincideix amb
la sequencia relativa mariganl de i, per tota la i i per tota la
j. La frequencia relativa marginal de j condicionada a i
coincideix amb la seqüència relativa marginal de j, per a
tota la i i tota la j. I que la freqüència relativa conjunta de ij
coincideix amb el producte de frequencia relatives
marginals. En el cas de que la dos variables siguin independents, la frequencia absoluta
(n) conjunta coincideix amb el rpdocute de freqüències
absolutes marginals dividit entre N per a totes les files i
columnes. En cas de que no es compleixin aquestes formules, no podem parlar de dos
variables independents.
Exemple.
En aquest cas ho comporvarem fent servir la formula
de nij = (1/114)n1. n.1
Ho podem comprovar per la primera filia i la primera
columna: n11= (1/114) n1. n.1 20 = (1/114) (60)(39) (=
20’52). No són iguals i per tant no podem parlar de
variables independents i per tant x i y estan associades.
Exercici 1.
El primer pas, serà fer la taula de les freqüències absolutes
marginals , tant la nj- com la n.j
El següent pas, presentar la taula de
freqüències relatives conjuntes i
marginals.
Són variables
independents. Com que les dos variables són
quantitatives, podem dibuixar un gràfic de
dispersió.
Amb el diagrama de dispersió podem entendre la
relació i com se situen les dos variables.
Per l’empresa D, tenim les dades següents.
Les dos variables en el cas de l’empresa D, no són
independents i per tant podem dir que X i Y estan
associades. Utilitzant els mètodes ja explicats, calculem
el sentit i el grau.
Existeix relació lineal entre les dos variables analitzades? Pot ser que les
dos variables estiguin associades, però que la relació no sigui lineal, per
eexemple en el cas de l’empresa D podem parlar de una relació quadràtica
entre X i Y. Primer augmenta i després disminueixen els ingressos per
vendes.
Una altre pregunta que volíem contesar, és quin és el sentit
de la relació lineal.
Pot ser directe, en el cas de que augmenten i és inversa en
el cas de que una de les variables augemnta i l’altre tendeix
a disminuir o disminueix.
Una altre pregunta era el grau de la relació lineal. Això ho mesurarem de la sgeuent
manera, si mentre una variable augmenta l’altre també augmenta de manera fixe,
parlem d’un grau de relació lineal màxim, els punts en un diagrama de dispersió estan
alineats.
En el primer cas, veiem que els punts no estan del tot
alineats però estan molt junts i podem parlar d’una
relació lineal directe i amb un grau fort. En canvi per
exemple el segon cas parlem d’una relació lineal directe i
de grau màxim. En el tercer cas, parlem d’una relació
lineal inversa però de grau més dèbil.
(segona part)
Aquestes tres eren les úniques que tenien relació lineal.
Com podem obtenir una mesura que ens permeti saber si
existeix o no relació lineal i en cas d’existir, que ens informi
del seu sentit, del seu grau o intensitat?
Per contestar això veurem el seguent.
Dibuixem un gràfic on es marquin l’eix de les Y i l’eix de les X,
marcarem també la posició de la mitjana de la Y i la mitjana de la
X i marquem les rectes que ens queden, deixant quatre
quadrants.
Si X i Y són independents, els punts se situaran pel centre on
convergeixen les dos rectes que expressen les mitjanes. Si no hi ha
cap relació entre x i y els punts se situaran entre tots els
quadrants.
Si la relació entre la X i la Y és quadràtica, els punts prendran
forma de paràbola i ja sigui còncava o convexa. De tota manera els
punts se situaran per tots els quadrants. No hi ha més punts en
uns quadrants que en uns altres.
Si la relació entre x i y és lineal, els punts
estaran situats de diferent manera depenent del sentit.
Si la relació es lineal i directe, els punts se situaran
majoritàriament entre els quadrant 2 i 3.
Si la relació és lineal i inversa, els punts se situaran
majoritàriament entre els quadrants 1 i 4.
Directe = quadrants 2 i 3
Inversa = quadrants 1 i 4
Hem de trobar una mesura de síntesis que ens permeti saber en quins quadrants se
situen els quadrants.
Suposem que la mitjana de y és 6 i la mitjana de x és 8, suponem un punt qualsevol per
exemple al quadrant 2 i que pren els valors (10,9). Al valor correponent a les x (en
aquest cas 10) li restem la mitjana de les x (8), i al valor de y (en aquest cas 9) li restem
la mitjana y (6). Per tant (10-8)(9-6) = (2)(3) = 6 > 0. Al
multiplicar obtenim un valor positiu. En canvi si agafem per
exemple el valor (6,9) i fem (6-8)(9-6) = -6 < 0 i per tant
negatiu. Per qualsevol punt situat al quadrant 1 fent aquesta
operació donarà negatiu, el mateix passa al quadrant 4 i ens
donarà positiu en els quadrant 2 i 3.
Si realitzem aquesta operació per a tots els punts que ens donen, podrem saber quins
dels quadrants ocupen els punts de la recta i per tant sabrem si és una lineal directa o
inversa.
Covarianza que s’escriu com a S i els símbols de les dos
variables que haguem utilitzat. En aquest cas SXY
Sumem els
productes de tots els punts i la seva
diferencia respecte la mitjana i els dividirem
entre el número d’observacions.
Si la covarianza pren valor 0, no existeix
relació lineal entre x i y i per tant els punts estan situats de manera indiferent per als
quatre quadrants i als umar les diferencies ens donarà valor 0.
Si la covarianza té un valor positiu, els punts es troben entre els quadrants positius, per
tant 2 i 3, per tant existeix una relació lineal directe entre X i Y.
Si la covarianza té un valor negatiu, serà una lineal inversa.
La covarianza també la podem interpretar
amb aquestes altres formules.
Si tenim les dades en una taula de
freqüències absolutes, sumarem per a totes
les files i les columnes i les multiplicarem
per la freqüència absoluta conjunta.
Si disposem de la frequencia relativa conjunta la fromula passarà a ser així.
Càlcul de la Covarianza.
A la última columna ja surten expressats els resultats, els hem de sumar tots que dona
-5. HO dividim pel número d’individus, en aquest cas 4 i per tant -5/4 = -1’25.
Si volem fer la formula simplificada, hem de multiplicar tots els valors (3x6 =18) +
(5x5=25) + (etc.) que dona un valor de 115, dividit entre 4 , 115/4 =28’75 – 6x5
(mitjanes) = -1,25.
Calculem la covarianza per les empreses que hem posat d’exemple,
Empresa C.
Sent la mitjana de X = 1’5 i la mitjana de Y =287’5.
Per tant podríem dir que per la empresa C i per els mesos considerats, entre X i Y no
existeix una relació lineal. Ja que tenim resultat 0 i ho podem afirmar mirant el gràfic.
Empresa D.
Per l’empresa D i els mesos considerats, al tenir un
resultat = 0, podem dir que entre la X i la Y no
existeix relació lineal.
Empresa E.
La covarianza dona 16’67, podem dir doncs, que
per a l’empresa E al fdonar un valor positiu,
podem afirmar que per a l’empresa e i per als
mesos considerats existeix una realció lineal
directa entre les dos variables, a mesurea que
incrementen els gastos per publicitat, tendeixen a
augmentar els ingressos per ventes.
Si mirem el gràfic però, veurem que no és un
tendència i que augmnetaran segur, són fixes.
Empresa F.
La covarianza dona 29’16, un valor positiu i per tant
podem dir que per a l’empresa F i per als mesos
considerats, entre X i Y existeix una relació lineal directe
és a dir, a mesura que augmenten els gastos en
publicitat, els ingressos per ventes tendeixen a
augmentar, al contrari de l’altre però, si mirem el
diagrama de dispersió veeim però que no és fixe, no és
perfecte i parlarem d’una tendència.
Exercici 1.
Determinem primer si estan associades, és evident
que són associades, si agafem la primera casella,
amb un valor 0, i la comparem amb la esperada, (17
x 8 / 59 ), no són iguals i per tant estan associades.
Determinem el sentit i el grau de l’associaicó
existent entre x i y per aquest col·lectiu. Ho farem
amb la comparació entre les freqüències absolutes
conjuntes observades i les esperades.
Esperades entre parèntesis i les observades les que no
estan entre parèntesis. Comparant, marquem les
caselles en que les observades són superiors a les
esperades i determinem que.
Calculem la V de cramer uq epren un valor de 0’66, que ens indica que l’associació
entre les variables és de grau fort.
Com que tenim les dades agrupades en intervals
haurem de tenir les marques de classe.
El resultat és -29’31, per tant la reposta és que existeix una relació lineal inversa entre
les hores setmanals d’estudi i el gasto setmanal en oci. Tenint en compte que la V de
Cramer pren el valor de 0’66, podem
Tot i que la V de Cramer és 0’66 i per tant és forta, no podem dir uqe la relació lineal
també ho sigui, ja que la V de Cramer només medeix el grau d’associaicó en general
però no de la línia. Necessitem una altre mesura per poder saber el grau d’associació
de la línia.
Tercera part
Amb la covarianza podem saber si la relació és lineal i si és directa o inversa. Ens falta
saber com trobar el grau o intensitat, amb una mesura de síntesis.
Agafem aquest exemple en que la covarianza ens dona un
valor negatiu de -29’31. A mesura que augmenten les hores
d’estui dismibueix el gasto en
oci.
Si haguessim calculat enlloc de
hores, en minuts, tindríem la seguent taula.
Si calculem la covarianza amb minuts passaria a ser -1758’6.
Tot i que prengui un valor superior tampoc ho podríem interpretar com que ha canviat
la relació entre les variables.
A la covarianza no li afecten els
canvis d’origen però si que li afecten
els canvis d’escala.
Per mesurar el grau necessitem una mesura que no li
afectin els canvis d’escala.
Aquest és el coeficient de correlació de Pearson.
Es calcula com la covarianza entre les dos variables dividit entre el producte de
desviacions típiques. S’escriu amb una r minúscula, rXY.
Propietats.
El seu valor absolut no es veu afectat ni per canvis d’origen ni d’escala. Però pot afectar
els canvis de signe.
(aquí fa uns càlculs uqe ensenya els canvis d’origen i escala amb unes lletres que no he
entès).
En el cas de correlació o relació lineal perfecte.
Per exemple si Y fos funció lineal de X i igual a 2 +
0,5X, només hem de dibuixar el diagrama de dispersió
hem d’inventar-nos valors per a x i veure a quins valors correponen a
Y. Amb aquests 4 punts fem un diagrama de dispersió
Deduïm quina és l’expressió de la covarianza en el cas
de correlació perfecte, a la fórmula de la covarianza
substituirem Y per a+bXi . La mitjana de Y la
canviarem per a + b X media. (la x amb el pal a dalt). Com que a
està sumant i restan s’eliminia i en treiem factor comú de la b.
Al final el que tenim és b multiplicat per la varianza de x.
En el cas de correlació perfecte, la covarianza entre x i y serà igual a b multiplicat per la
varianza de x.
Per un altre cantó tindrem que la desviació típica de y serla la b en
valor absolut multiplicat per la desviació típica de x.
Haurem de substituir les aquestes expressiona en el coeficient de correlació.
Si b és més gran que 0, el coeficient de correlació
tindrà valor 1 i si b és menor de 0 el coeficient de
correlació tindrà valor -1.
coeficient de relació 1, ascendent, -1 = decendent.
Desviació típica de Y i de x.
Per tant amb això podem saber que entre la X i la Y existeix una relació lineal directa
perfecte. Per aquests 12 mesos a mesura que augmenten els gastos en publicitat
augmenten sgeur els ingressos per ventes.
Empresa F.
Coeficient de correlació de Pearosn ens dona 0’936,
sabem que per l’empres F i per a els mesos considerats,
entre x i y existeix una relació lineal directa de grau fort.
Empresa G.
El coeficient de correlació de Pearosn ens dona 0’56, per
tant per l’empresa G i per els mesos considerats, existeix
una relació lineal directa de grau mitjà.
(falten els exercicis a partir del minut 26).
Exercici 3.
Està clar que el coeficient de correlació prendra valor positiu pe`ro no prendrà valor 1
ja que no estan els punts alineats.
Extisteix una relació lineal directa entre x i y, és a dir que a
mesura que augmenta e, valor de x, tendeix a augmentar el
valor de y, el grau de la relació lineal és mitjà-alt.
I fem la covarianza.