Professional Documents
Culture Documents
QUANTITATIVA III:
ESTADÍSTICA
INFERENCIAL Apunts de classe i resum del manual
Estadística Aplicada Bàsica (David S. Moore)
2
Guillem Sindreu i Cladera Metodologia Quantitativa III: Estadística Inferencial
Índex
1. ANÀLISI DE DISTRIBUCIONS .......................................................................................................4
INTRODUCCIÓ ......................................................................................................................................................... 4
GRÀFICS DE DISTRIBUCIONS ....................................................................................................................................... 5
DESCRIPCIÓ DE LES DISTRIBUCIONS NUMÈRIQUES ........................................................................................................... 7
DISTRIBUCIONS NORMALS ......................................................................................................................................... 9
2. ANÀLISI DE RELACIONS ............................................................................................................ 10
RELACIÓ ENTRE VARIABLES QUANTITATIVES................................................................................................................. 10
3. OBTENCIÓ DE DADES ................................................................................................................ 13
DISSENY DE MOSTRES ............................................................................................................................................. 13
DISSENY D'EXPERIMENTS......................................................................................................................................... 14
4. DISTRIBUCIONS MOSTRALS I PROBABILITAT ........................................................................... 16
ALEATORIETAT ...................................................................................................................................................... 16
MODELS DE PROBABILITAT ...................................................................................................................................... 17
DISTRIBUCIÓ DE LA MITJANA MOSTRAL ...................................................................................................................... 18
5. INFERÈNCIA I: INTERVALS DE CONFIANÇA................................................................................ 19
ESTIMACIÓ AMB CONFIANÇA: VARIABLES BINÀRIES (0/1) .............................................................................................. 19
ESTIMACIÓ AMB CONFIANÇA: VARIABLES NUMÈRIQUES ................................................................................................. 20
6. INFERÈNCIA II: SIGNIFICACIÓ, CONTRAST D’HIPÒTESIS ........................................................... 21
CONTRAST D’UNA MITJANA ..................................................................................................................................... 22
7. INFERÈNCIA III: COMPARACIÓ DE POBLACIONS ........................................................................ 23
COMPARACIÓ DE DUES MITJANES ............................................................................................................................. 23
COMPARACIÓ DE DUES PROPORCIONS ....................................................................................................................... 24
8. INFERÈNCIA IV: PROVA D’INDEPENDÈNCIA ............................................................................... 25
PROVA D’INDEPENDÈNCIA AMB TAULES DE CONTINGÈNCIA ............................................................................................ 25
RESIDUS .............................................................................................................................................................. 26
9. INFERÈNCIA V: CORRELACIÓ I REGRESSIÓ LINEAL .................................................................... 27
CORRELACIÓ: COEFICIENT DE PEARSON ...................................................................................................................... 27
REGRESSIÓ LINEAL SIMPLE: RECTA DE MÍNIMS QUADRÀTICS ......................................................................................... 28
Cada tema correspon a una classe teòrica i no necessàriament coincideix amb un capítol del
manual de David Moore.
3
Guillem Sindreu i Cladera Metodologia Quantitativa III: Estadística Inferencial
1. Anàlisi de distribucions
Introducció
L'estadística és la ciència de les dades. Qualsevol conjunt de dades conté informació sobre un grup
d'individus, i aquesta informació s'organitza en forma de variables.
− Individus: objectes descrits per un conjunt de dades. Poden ser persones, països…
− Variable: qualsevol característica d'un individu.
− Distribució d'una variable: indica quins valors pren i amb quina freqüència.
Tipus de variables
− Variable categòrica: indica a quin grup o categoria pertany un individu.
o Categòrica nominal: categories que no poden ordenar-se lògicament (e.g.
nacionalitat).
o Categòrica ordinal: categories que poden ordenar-se naturalment (e.g. nivell
d'estudis).
o Categòrica binària: pregunta amb resposta sí/no (e.g. estàs a favor de x?).
− Variable quantitativa (numèrica): presa valors numèrics, permet fer operacions.
o Quantitativa discreta: recompte d'individus/objectes (e.g. nombre de fills, edat…)
o Quantitativa d'interval: els seus valors representen magnituds (e.g. nota d'accés,
temperatura).
o Quantitativa de ràtio: similar a una variable d'interval. El valor 0,0 està definit:
quan la variable és 0,0 no existeix la variable (e.g. salari anual, pes…). Ideal per a
comparar en percentatges.
4
Guillem Sindreu i Cladera Metodologia Quantitativa III: Estadística Inferencial
Gràfics de distribucions
Un conjunt de dades conté informació sobre un nombre d'individus. Per a cada individu les dades
donen valors d'una o més variables. Una variable descriu alguna característica d'un individu, com
pot ser l'altura, el gènere o el salari. Cada variable pot ser representada gràficament de diverses
formes. Segons la mena de variable existeixen millors maneres de representar-la.
La distribució d'una variable descriu quins valors pren i amb quina freqüència ho fa.
total.
Histograma
Quan les variables quantitatives prenen molts valors
(e.g. edat, ingressos…), s'han d'agrupar els valors
pròxims, per franges d'igual amplitud (e.g: dividir la
població en franges d’edat de 5 anys). En l'histograma,
l'eix x representa l'escala de valors de la variable, i en
l'eix y, l'escala de recomptes. Cada barra representa
una franja.
5
Guillem Sindreu i Cladera Metodologia Quantitativa III: Estadística Inferencial
Cada tija (esquerra) conté els primers dígits del valor, les fulles (dreta)
representen l'últim dígit de cada valor.
En aquest cas, els valors són: 52, 88, 99, 102, 105, 110, 110, 112, 112, etc.
Té un aspecte semblant a un histograma, però en vertical.
Gràfic temporal
Representa cada observació en relació amb el moment en què es
va mesurar. El temps se situa en l'eix x.
Per a examinar-ho, hem de fixar-nos en el seu aspecte general i
en les seves desviacions. Especialment, cal buscar tendències
(variacions a llarg termini).
6
Guillem Sindreu i Cladera Metodologia Quantitativa III: Estadística Inferencial
∑𝑥𝑥𝑖𝑖
𝑥𝑥̅ = La mitjana és molt sensible a la influència de valors extrems (obs. atípiques).
𝑛𝑛
La Mediana (M): indica el valor central d'una distribució (el seu punt mitjancer): la meitat dels
valors són menors que M, i l'altra meitat, majors. No és afectada per valors extrems (ja que són
valors de més en un costat de M).
(𝑛𝑛+1)
Per a trobar la mitjana: ordenar les observacions de menor a major, M es troba en:
2
Màx
Q3
Diagrama de Caixa (boxplot): mostra gràficament els cinc números
resum. No proporciona tanta informació com un histograma, s'usa per
a comparar diverses distribucions. També informa sobre la dispersió: M (Q2)
la distribució és simètrica si els quartils estan a la mateixa distància de
la mediana. Si hi ha punts blancs als extrems (no és el cas), és que hi ha
Q1
valors atípics.
Mín
7
Guillem Sindreu i Cladera Metodologia Quantitativa III: Estadística Inferencial
Desviació típica
Desviació típica (s ): mesura la dispersió dels valors respecte a la mitjana. Es calcula fent l'arrel
quadrada de la variància (s 2).
Variància (s 2): suma dels quadrats de les desviacions dels valors respecte a la seva
mitjana dividit per (n – 1).
∑(𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )2
𝑠𝑠 2 =
𝑛𝑛 − 1
Desviació típica: arrel quadrada positiva de la variància.
∑(𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )2
𝑠𝑠 = �
𝑛𝑛 − 1
Aquests “blocs” de paràmetres s’utilitzen junts. No pots mesurar el centre d’una distribució fent
la mitjana aritmètica i la dispersió amb quartils.
8
Guillem Sindreu i Cladera Metodologia Quantitativa III: Estadística Inferencial
Distribucions normals
Corba de densitat: model matemàtic de la distribució (descripció idealitzada). Defineix per sota
una àrea exactament igual a 1. No descriu les observacions atípiques. Pot ser simètrica o
asimètrica.
− Mediana: el punt de l'eix x que divideix la corba en dues àrees iguals. Els quartils la
divideixen en 4.
− Mitjana: el punt en el qual s'equilibraria l'àrea per sota de la corba si estigués constituïda
per un material sòlid.
− En corbes simètriques, la mitjana i la mediana són iguals. En corbes asimètriques, la
mitjana és desplaçada cap a la cua llarga (els valors extrems l’arrosseguen).
Distribucions normals N (𝝁𝝁, 𝝈𝝈): distribucions les corbes de densitat de les quals són simètriques,
amb un sol pic i amb forma de campana.
9
Guillem Sindreu i Cladera Metodologia Quantitativa III: Estadística Inferencial
2. Anàlisi de relacions
Molts estudis busquen relacions entre 2 variables: llargada d'un cotxe vs mortalitat; alçada vs
problemes cardíacs… Sempre hi ha altres variables latents que afecten el resultat (e.g. pes,
esport).
Per a identificar una parella de variables, es dóna un valor a una d'elles i es veu el que passa en
l'altra.
10
Guillem Sindreu i Cladera Metodologia Quantitativa III: Estadística Inferencial
Correlació
La correlació (r ) mesura la força i la direcció de la relació lineal entre dues variables
quantitatives.
𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ 𝑦𝑦𝑖𝑖 − 𝑦𝑦�
∑� �� �
𝜎𝜎𝑥𝑥 𝜎𝜎𝑦𝑦
𝑟𝑟 =
𝑛𝑛 − 1
r és positiva quan existeix una associació positiva entre variables. E.g. la gent que mesura més
que la mitjana tendeix a pesar més que la mitjana (valors estandarditzats positius), i viceversa
(valors estandarditzats negatius).
Regressió mínim-quadràtica
La recta de regressió descriu com
canvia una variable resposta y a
mesura que canvia una variable
explicativa x. Pot ser usada per a
predir el valor d'y a partir d'un valor
donat de x.
Només pot descriure una relació
entre una variable explicativa i una
variable resposta.
11
Guillem Sindreu i Cladera Metodologia Quantitativa III: Estadística Inferencial
La recta de regressió mínim-quadràtica d'y en relació amb x és la recta que fa que la suma dels
quadrats de les distàncies verticals dels punts observats a la recta sigui el més petita possible.
𝑦𝑦� = 𝑎𝑎 + 𝑏𝑏𝑏𝑏
𝜎𝜎𝑦𝑦
Pendent: 𝑏𝑏 = 𝑟𝑟
𝜎𝜎𝑥𝑥
Residus
Un residu és la diferència entre el valor observat de la variable resposta i el valor predit per la
recta de regressió. És la distància vertical dels punts a la recta de regressió mínim-quadràtica.
�
Residu = 𝒚𝒚 observada – 𝒚𝒚 prevista = 𝒚𝒚 – 𝒚𝒚
Si el valor observat es troba per sobre de la recta, el residu és positiu. Si està per sota, és negatiu.
La mitjana dels residus d'una recta de regressió mínim-quadràtica és sempre zero.
Diagrama de residus: diagrama de dispersió dels residus d'una regressió en relació amb la
variable explicativa (x). Els diagrames de residus ens ajuden a valorar l'ajust de la recta de
regressió.
12
Guillem Sindreu i Cladera Metodologia Quantitativa III: Estadística Inferencial
3. Obtenció de dades
− Estudi observacional: mesura les variables d'interès sense influir sobre les respostes. Pot
mesurar l'opinió dels votants, però no és útil per a valorar l'efecte d'un medicament.
− Experiment: sotmet de forma deliberada els individus a algun tractament amb l'objectiu
d'observar les seves respostes. Útil per a analitzar la resposta d'un individu a un canvi
(relació causa-efecte).
− Confusió: dues variables es confonen quan els seus efectes sobre una variable resposta no
es poden distingir entre si. En estudis observacionals, la variable explicativa se sol
confondre amb variables latents. Els experiments ben dissenyats eviten aquest problema.
Disseny de mostres
− Població: grup sencer d'individus sobre el qual volem informació. És impossible conèixer
les característiques de cadascun dels seus individus.
− Mostra: part de la població examinada amb l'objectiu d'obtenir informació.
− Disseny d'una mostra: mètode usat per a triar la mostra de la població.
− Biaix: el disseny d'un estudi és esbiaixat si afavoreix sistemàticament certs resultats. Es
dóna si la mostra no és aleatòria.
o Mostra de voluntaris: mostra de persones que es trien a si mateixes en resposta a
una crida general. Aquest tipus de mostres estan esbiaixades, ja que solen ser gent
molt motivada, especialment de manera negativa.
o Mostra de conveniència: es trien els individus de més fàcil accés (e.g. centres
comercials).
Dissenys mostrals
Mostra probabilística: dóna a cada individu de la població una possibilitat coneguda per a ser
seleccionat.
− Una mostra aleatòria simple de grandària n consta de n individus d'una població triats de
manera que qualsevol conjunt de n individus de la població tingui les mateixes possibilitats
de ser la mostra seleccionada. Fa que cada individu i cada possible mostra tingui la mateixa
probabilitat de ser triada.
− Mostra aleatòria estratificada: en primer lloc, es divideix la població en grups d'individus
similars, anomenats estrats. Després, es trien mostres aleatòries simples independents en
cada estrat i les combina per a formar una mostra completa
o La divisió per estrats es fa basant-se en característiques de la població: població urbana
vs rural, gènere, seccions censals…
o Aporta informació més exacta que una mostra aleatòria simple
− Mostreig en etapes múltiples: elecció de mostres en etapes diferents: (1) províncies, (2)
municipis, (3) barris, (4) llars. Continua sent imprescindible que el mostreig sigui aleatori.
13
Guillem Sindreu i Cladera Metodologia Quantitativa III: Estadística Inferencial
Disseny d'experiments
− Experiment: estudi que exerceix alguna acció sobre els subjectes per a observar les seves
respostes.
− Unitat experimental: individu amb el qual es fa un experiment. Si és humà, és un subjecte.
− Tractament: condició aplicada a les unitats experimentals.
− Factors: variables explicatives. Si es mantenen constants, es pot controlar l'entorn de les
unitats experimentals.
− Grup de control: grup que no rep el tractament (placebo). Usat per a comparar resultats
amb les unitats experimentals.
Experiments comparatius
− S'aplica un tractament i s'observa què passa. Unitats Tractament Resposta
− Es controlen els factors perquè només el tractament influeixi sobre la resposta.
− Ús del grup de control per a comparar amb les unitats experimentals.
14
Guillem Sindreu i Cladera Metodologia Quantitativa III: Estadística Inferencial
Significació estadística
Com a majors siguin les diferències en les respostes, és menys probable que aquestes diferències
apareguin per atzar.
Efecte estadísticament significatiu: efecte observat massa gran per a ser atribuït només a l'atzar.
Precaucions en l'experimentació
− Tractar idènticament a totes les unitats experimentals en qualsevol aspecte excepte en el
tractament.
− Experiment doblement cec: ni els subjectes ni el personal que administra el tractament
sap el tipus de tractament que rep cada subjecte. Evita biaixos inconscients.
− Problema de l'experimentació: falta de realisme: subjectes, tractaments i disposició de
l'experiment pot ser que no repeteixin de manera real les condicions estudiades.
Es trien parells de subjectes tan semblants com sigui possible; a un se li administra el
tractament i a l'altre, el placebo. Tots dos subjectes poden ser la mateixa persona en moments
diferents (amb ordre aleatori).
Disseny en blocs
Un bloc és un grup d'unitats experimentals que són similars en relació amb aspectes que es creu
que influeixen sobre la resposta d'aquests als tractaments. En un disseny en blocs, l'assignació
aleatòria dels subjectes als tractaments es duu a terme de manera independent dins de cada bloc.
15
Guillem Sindreu i Cladera Metodologia Quantitativa III: Estadística Inferencial
Probabilitat
Variabilitat mostral: el valor d'un estadístic
varia en mostres diferents. No és fatal:
Llei de nombres grans: El comportament de
l'atzar és impredictible fent poques
repeticions però presenta un comportament
regular i predictible si es fan moltes
repeticions.
E.g. Cara o creu: La proporció de
llançaments d'una moneda que donen
cara s'acosta a 0,5 a mesura que fem
més llançaments.
L'aleatorietat només apareix després de moltes repeticions.
Un fenomen és aleatori si els resultats individuals són incerts i, no obstant això, existeix una
distribució regular dels resultats després d'un gran nombre de repeticions.
La probabilitat de qualsevol resultat d'un fenomen aleatori és la proporció de vegades que el
resultat es dóna després d'una llarga sèrie de repeticions.
Aleatorietat
La probabilitat matemàtica és una idealització basada a imaginar el que passaria després d'una
sèrie infinita de repeticions. Les simulacions permeten la ràpida exploració.
Requisits:
− Els assajos han de ser independents (el resultat d'un assaig no influeix sobre el següent).
− La probabilitat ha de ser empírica: les simulacions parteixen de probabilitats
predeterminades i imiten un comportament aleatori, quan en la vida real només es poden
estimar probabilitats observant molts resultats d'un fenomen.
16
Guillem Sindreu i Cladera Metodologia Quantitativa III: Estadística Inferencial
Models de probabilitat
Model de probabilitat: descripció matemàtica d'un fenomen aleatori. Consta d'un espai mostral S
i d’un procediment d'assignació de probabilitats als successos.
Regla de Laplace
# 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓 (𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠é𝑠𝑠) Notació: P(A) és la
𝑃𝑃 (𝐴𝐴) =
# 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 (𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚) probabilitat P de que
l’esdeveniment A
Regles de la probabilitat succeeixi
1. 0 ≤ P (A) ≤ 1
2. P(S) = 1 ; (S = espai mostral)
3. P(𝐴𝐴̅) = 1 – P(A) ; (𝐴𝐴̅ = probabilitat que no succeeixi A)
𝑃𝑃{4,5,6} 3 1
P(B) = que el dau sigui major que 3: P {4,5,6} = = =
𝑃𝑃{1,2,3,4,5,6} 6 2
Test d'independència:
P(A ∩ B) = P(A) * P(B)
𝑃𝑃{4} 𝑃𝑃{1,4} 𝑃𝑃{4,5,6} 1 1 1
= ∗ → = ∗
𝑃𝑃{1,2,3,4,5,6} 𝑃𝑃{1,2,3,4,5,6} 𝑃𝑃{1,2,3,4,5,6} 6 3 2
17
Guillem Sindreu i Cladera Metodologia Quantitativa III: Estadística Inferencial
Probabilitat condicional
La probabilitat condicionada explica la probabilitat d'un succés A sota la condició d'un succés B.
𝑃𝑃 (𝐴𝐴 ∩ B)
Probabilitat de A condicionada a B: 𝑷𝑷 (𝑨𝑨 | 𝑩𝑩) =
𝑃𝑃 (𝐵𝐵)
18
Guillem Sindreu i Cladera Metodologia Quantitativa III: Estadística Inferencial
E.g. Esquerrans: Inferir el percentatge d'esquerrans al món a partir d'una mostra (N = 37).
𝛴𝛴𝑥𝑥𝑖𝑖
1. Estimador 𝑝𝑝̂ =
𝑛𝑛
4
p� = = 0.1081 ; 1 - p� = 0.8919
37
E.g. Política i internet: en una mostra, 675/812 persones segueixen la política per internet.
𝛴𝛴𝑥𝑥𝑖𝑖
1. �=
𝐩𝐩 = 675/812 = 0.8313
𝑛𝑛
19
Guillem Sindreu i Cladera Metodologia Quantitativa III: Estadística Inferencial
𝛴𝛴𝑥𝑥𝑖𝑖
1. Estimador x� =
𝑛𝑛
1743
𝑥𝑥̅ = = 174,3
10
1
2. Desviació típica de la mostra 𝑠𝑠 = ⋅ �∑(𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )2
𝑛𝑛−1
s = 7,53
s
3. Error Estàndard SE =
√n
7,53
SE = = 2,38
√10
− 90% 1.3
4. Marge d’error ME (95%) = 1,96 ∗ SE − 95% 1.96
− 99% 3.3
ME (95%) = 1,96 ∗ 2,38 = 4,66
5. Interval de confiança IC = x
� ± ME
E.g. Valoració d’Oriol Junqueras, segons el Baròmetre del CEO), amb 𝑥𝑥̅ = 6,0289 i N = 1347
1. 𝑥𝑥̅ = 6,0289 (dada proporcionada pel CEO)
2. s = 3,3607 (dada proporcionada pel CEO)
𝑠𝑠 3,3607
3. SE = = = 0,0916
√𝑛𝑛 √1347
20
Guillem Sindreu i Cladera Metodologia Quantitativa III: Estadística Inferencial
− Mitjana poblacional 𝜇𝜇 = 0
𝜎𝜎 1
− Desviació típica = = = 0,316
√𝑛𝑛 √10
21
Guillem Sindreu i Cladera Metodologia Quantitativa III: Estadística Inferencial
E.g. Renda disponible. Tenim motius per afirmar que la mitjana de la variable (renda
disponible) és diferent a 30.000 euros? Una enquesta de condicions de vida (ECV) fa una
mostra amb una mitjana 𝑥𝑥̅ = 29.123
El valor-p (1%) és molt inferior al llindar de significació (5%), per tant podem descartar la
hipòtesi nul·la. És a dir, amb un nivell de confiança del 95% podem afirmar que 30.000€ no
és la renda mitjana.
E.g: fumadors. Una enquesta diu que el 22% de la població fuma. Utilitzant la mostra
d’alumnes de la classe, volem saber si aquesta enquesta és correcta.
Variable: fumador o no fumador
p = proporció de fumadors.
Mostra (N = 28). p� = 4/28 = 0.1428
H0: el 22% de la població fuma. p = 0.22 0.1428 0.22
22
Guillem Sindreu i Cladera Metodologia Quantitativa III: Estadística Inferencial
Objectiu: comparar les dues mitjanes poblacionals, calculant un interval de confiança per la seva
diferència 𝜇𝜇1 - 𝜇𝜇2 o contrastant la hipòtesi de que no existeixen diferències, H0 : 𝜇𝜇1 = 𝜇𝜇2
E.g: edat i nacionalitat. Creuament de mitjanes: l’edat de les persones nascudes a Espanya és
superior a l’edat dels nascuts a fora d’Espanya?
Nascuts a Espanya Nascuts a fora
(pob. 1) (pob. 2)
Edat (paràmetre) 𝜇𝜇1 𝜇𝜇2
Mostra (estimador) 𝑥𝑥̅ 1 𝑥𝑥̅ 2
Si és molt gran o molt petit, vol dir que el valor 𝑥𝑥̅ està lluny de 𝜇𝜇 i, per tant, el p-valor serà petit.
T-test: t = -26.47; p-valor ≈ 0 es rebutja H0, això vol dir que Ha es confirma: l’edat dels
nascuts a Espanya és superior a la dels nascuts a fora.
E.g: valoració de polítics segons el seu gènere: es valoren diferent els candidats que les
candidates?
Candidates (dones) Candidats (homes)
Puntuació (paràmetre poblacional) 𝜇𝜇1 𝜇𝜇2
Mostra (estimador) 𝑥𝑥̅ 1 = 4,58 𝑥𝑥̅ 2 = 3,48
23
Guillem Sindreu i Cladera Metodologia Quantitativa III: Estadística Inferencial
E.g: protestes post-sentència i participació electoral. Hi ha alguna relació entre les protestes
i la participació? Els barris que van ser escenari de protestes el passat octubre van presentar
nivells de participació més alts.
Participació (%)
p1 : participació en zones de disturbis 74,5
p2 : participació en zones sense disturbis 73,1
P-valor = 0,012 = 1,2%. Si H0 fos certa, una diferència de 1,4 punts només es donaria en un
1,2% de probabilitat. Com que això no supera el llindar de significació del 5%, rebutgem H0 i
afirmem que l’existència de protestes va afavorir la participació electoral.
24
Guillem Sindreu i Cladera Metodologia Quantitativa III: Estadística Inferencial
Nombre de banys
1 bany 2 banys 3 banys
Matrimoni 1563 1722 278
Parella de fet 400 265 34
Solter/a amb fills 440 300 32
El Khi quadrat mesura la discrepància entre els valors observats i els valors esperats, per tant
indica si hi ha alguna relació entre les dues variables. A partir del Khi quadrat es pot extreure el
valor-p, que determina si aquest resultat és fruit de l’atzar. Seguirem utilitzant el nivell de
significació del 5%, és a dir, si el valor-p és inferior a 0,05 podrem rebutjar la hipòtesi nul·la H0.
Prova Khi Quadrat: χ2 = 71,4 ; valor-p ≈ 0
Com que el valor-p és gairebé 0, podem rebutjar la hipòtesi nul·la i afirmar que existeix una
relació entre el tipus de família i el nombre de banys.
25
Guillem Sindreu i Cladera Metodologia Quantitativa III: Estadística Inferencial
Residus
El residu és la diferència entre el valor observat i el valor esperat.
Residu = valor observat – valor esperat
− Residu positiu: s’han observat més casos dels esperats per la H0.
o Al CEO, els valors amb un residu positiu es marquen amb el símbol > (e.g: >36).
− Residu negatiu: s’han observat menys casos dels esperats per la H0.
o Al CEO, els valors amb un residu negatiu es marquen amb el símbol < (e.g: <36).
Com més s’allunyi el residu respecte zero, més diferent és el valor observat respecte el valor
esperat.
26
Guillem Sindreu i Cladera Metodologia Quantitativa III: Estadística Inferencial
E.g. Relació entre examen parcial i final. Estan relacionades les notes obtingudes per una
mostra d’alumnes a l’examen parcial amb les notes obtingudes a l’examen final?
Correlació = 0,5452. La correlació és positiva i bastant forta. Això vol dir que els alumnes
amb millors notes a l’examen parcial tendeixen a obtenir millors notes a l’examen final.
Correlació no implica causalitat: no podem assumir que els alumnes que hagin tret bona nota
al final sigui perquè van treure bona nota al parcial.
27
Guillem Sindreu i Cladera Metodologia Quantitativa III: Estadística Inferencial
� = 𝒂𝒂 + 𝒃𝒃𝒃𝒃 + 𝒓𝒓𝒓𝒓𝒓𝒓𝒓𝒓𝒓𝒓𝒓𝒓𝒓𝒓
𝒚𝒚 a = ordenada d’origen (punt on la recta creua l’eix y).
b = pendent de la recta.
Residus = valors observats – valors esperats.
Utilitzem 𝑦𝑦� en lloc de 𝑦𝑦 Si volem fer una inferència i per tant desconeixem el residu,
perquè estem fent una
estimació.
el podem ometre (utilitzar residu=0), ja que zero és la
mitjana de tots els residus.
28
Guillem Sindreu i Cladera Metodologia Quantitativa III: Estadística Inferencial
El coeficient de determinació de la recta és del 30%, un nombre força baix. Només el 30% de
la variabilitat de la nota de l’examen final queda explicada per la variabilitat de la nota del
parcial. Per tant, la recta de regressió no és prou fiable per fer inferències.
29
Guillem Sindreu i Cladera Metodologia Quantitativa III: Estadística Inferencial
E.g. Renda mitjana 2015 i 2016. Es poden inferir els ingressos familiars del 2016 en funció
dels ingressos familiars del 2015?
Renda mitjana 2016
Correlació
## renMpers2016 renMpers2015 renMhog2016 renMhog2015
Recta de regressió
## Estimate Std. Error t value Pr(>|t|)
Podem inferir quin serà la renda mitja familiar del 2016 en funció d’un valor de la renda mitja
del 2015 amb l’equació 𝑦𝑦� = 558.96939 + 1.00601𝑥𝑥 , on x és la renda del 2015. Un augment
d’un euro al 2015 correspon a un augment de 1,006 euros al 2016, de mitjana.
Contrast d’hipòtesis
H0 : 𝛽𝛽 = 0 No existeix una correlació lineal entre x i y en la població.
Ha : 𝛽𝛽 ≠ 0 La pendent és significativament diferent de zero i, per tant, les variables x i y
estan relacionades entre si.
Valor-p ≈ 0 Un valor-p tan petit ens permet rebutjar H0 i afirmar que el pendent de la recta
de regressió és significativament diferent de zero. Per tant, existeix una relació entre les
variables “renda familiar 2015” i “renda familiar 2016”.
Coeficient de determinació
## Multiple R-squared: 0.9682, Adjusted R-squared: 0.968
El coeficient de determinació (R2) és del 96,8%, això vol dir que el 96,8% de la variabilitat de
la renda familiar del 2016 es pot explicar a partir de la renda familiar del 2015. Aquest
percentatge tan alt indica que la recta de regressió és molt fiable per a inferir la renda del
2016 a partir de la del 2015.
30