You are on page 1of 30

METODOLOGIA

QUANTITATIVA III:
ESTADÍSTICA
INFERENCIAL Apunts de classe i resum del manual
Estadística Aplicada Bàsica (David S. Moore)

Guillem Sindreu i Cladera

Universitat Pompeu Fabra


Grau de Ciències Polítiques i de l’Administració
2n Curs – 2n Trimestre
2019/2020
Professor: Frederic Udina
Guillem Sindreu i Cladera Metodologia Quantitativa III: Estadística Inferencial

2
Guillem Sindreu i Cladera Metodologia Quantitativa III: Estadística Inferencial

Índex
1. ANÀLISI DE DISTRIBUCIONS .......................................................................................................4
INTRODUCCIÓ ......................................................................................................................................................... 4
GRÀFICS DE DISTRIBUCIONS ....................................................................................................................................... 5
DESCRIPCIÓ DE LES DISTRIBUCIONS NUMÈRIQUES ........................................................................................................... 7
DISTRIBUCIONS NORMALS ......................................................................................................................................... 9
2. ANÀLISI DE RELACIONS ............................................................................................................ 10
RELACIÓ ENTRE VARIABLES QUANTITATIVES................................................................................................................. 10
3. OBTENCIÓ DE DADES ................................................................................................................ 13
DISSENY DE MOSTRES ............................................................................................................................................. 13
DISSENY D'EXPERIMENTS......................................................................................................................................... 14
4. DISTRIBUCIONS MOSTRALS I PROBABILITAT ........................................................................... 16
ALEATORIETAT ...................................................................................................................................................... 16
MODELS DE PROBABILITAT ...................................................................................................................................... 17
DISTRIBUCIÓ DE LA MITJANA MOSTRAL ...................................................................................................................... 18
5. INFERÈNCIA I: INTERVALS DE CONFIANÇA................................................................................ 19
ESTIMACIÓ AMB CONFIANÇA: VARIABLES BINÀRIES (0/1) .............................................................................................. 19
ESTIMACIÓ AMB CONFIANÇA: VARIABLES NUMÈRIQUES ................................................................................................. 20
6. INFERÈNCIA II: SIGNIFICACIÓ, CONTRAST D’HIPÒTESIS ........................................................... 21
CONTRAST D’UNA MITJANA ..................................................................................................................................... 22
7. INFERÈNCIA III: COMPARACIÓ DE POBLACIONS ........................................................................ 23
COMPARACIÓ DE DUES MITJANES ............................................................................................................................. 23
COMPARACIÓ DE DUES PROPORCIONS ....................................................................................................................... 24
8. INFERÈNCIA IV: PROVA D’INDEPENDÈNCIA ............................................................................... 25
PROVA D’INDEPENDÈNCIA AMB TAULES DE CONTINGÈNCIA ............................................................................................ 25
RESIDUS .............................................................................................................................................................. 26
9. INFERÈNCIA V: CORRELACIÓ I REGRESSIÓ LINEAL .................................................................... 27
CORRELACIÓ: COEFICIENT DE PEARSON ...................................................................................................................... 27
REGRESSIÓ LINEAL SIMPLE: RECTA DE MÍNIMS QUADRÀTICS ......................................................................................... 28

Cada tema correspon a una classe teòrica i no necessàriament coincideix amb un capítol del
manual de David Moore.

3
Guillem Sindreu i Cladera Metodologia Quantitativa III: Estadística Inferencial

1. Anàlisi de distribucions
Introducció
L'estadística és la ciència de les dades. Qualsevol conjunt de dades conté informació sobre un grup
d'individus, i aquesta informació s'organitza en forma de variables.

− Individus: objectes descrits per un conjunt de dades. Poden ser persones, països…
− Variable: qualsevol característica d'un individu.
− Distribució d'una variable: indica quins valors pren i amb quina freqüència.

Tipus de variables
− Variable categòrica: indica a quin grup o categoria pertany un individu.
o Categòrica nominal: categories que no poden ordenar-se lògicament (e.g.
nacionalitat).
o Categòrica ordinal: categories que poden ordenar-se naturalment (e.g. nivell
d'estudis).
o Categòrica binària: pregunta amb resposta sí/no (e.g. estàs a favor de x?).
− Variable quantitativa (numèrica): presa valors numèrics, permet fer operacions.
o Quantitativa discreta: recompte d'individus/objectes (e.g. nombre de fills, edat…)
o Quantitativa d'interval: els seus valors representen magnituds (e.g. nota d'accés,
temperatura).
o Quantitativa de ràtio: similar a una variable d'interval. El valor 0,0 està definit:
quan la variable és 0,0 no existeix la variable (e.g. salari anual, pes…). Ideal per a
comparar en percentatges.

− Individus (files): empleats


− Variables: columnes
o Edat: quantitativa discreta
o Sexe: categòrica nominal
o Raça: categòrica nominal
o Salari: quantitativa ràtio
o Tipus de treball: categòrica nominal/ordinal (depèn de si es poden ordenar)

4
Guillem Sindreu i Cladera Metodologia Quantitativa III: Estadística Inferencial

Gràfics de distribucions
Un conjunt de dades conté informació sobre un nombre d'individus. Per a cada individu les dades
donen valors d'una o més variables. Una variable descriu alguna característica d'un individu, com
pot ser l'altura, el gènere o el salari. Cada variable pot ser representada gràficament de diverses
formes. Segons la mena de variable existeixen millors maneres de representar-la.
La distribució d'una variable descriu quins valors pren i amb quina freqüència ho fa.

Variables categòriques: diagrames de barres i de sectors


Una variable categòrica situa a cada individu en una categoria com, per exemple, home o dona. La
distribució d'una variable categòrica llista les categories i el recompte o percentatge d'individus
que cauen en cada categoria. Els diagrames de barres i els diagrames de sectors descriuen la
distribució de variables categòriques.

− Diagrama de barres: compara de manera ràpida les freqüències de cada categoria.


− Diagrama de sectors: representa la importància relativa de cada categoria respecte el

Distribució: tipus de famílies. El


recompte és en xifres absolutes, i el
percentatge, en relatives (%).

Diagrama de barres Diagrama de sectors (pie chart)

total.

Variables quantitatives: histogrames i diagrames de tiges


Una variable quantitativa té valors numèrics que mesuren alguna característica de cada individu
com, per exemple, l'altura en centímetres o el salari anual en euros. Els histogrames i els
diagrames de tiges (stem & leaf) representen gràficament les distribucions de variables
quantitatives.

Histograma
Quan les variables quantitatives prenen molts valors
(e.g. edat, ingressos…), s'han d'agrupar els valors
pròxims, per franges d'igual amplitud (e.g: dividir la
població en franges d’edat de 5 anys). En l'histograma,
l'eix x representa l'escala de valors de la variable, i en
l'eix y, l'escala de recomptes. Cada barra representa
una franja.

5
Guillem Sindreu i Cladera Metodologia Quantitativa III: Estadística Inferencial

Interpretació d'un histograma


Identificar aspecte general (forma, centre i dispersió) i observacions atípiques.

− Forma: distribució simètrica vs asimètrica


o Simètrica: els costats dret i esquerre de l'histograma són aproximadament
imatges especulars.
o Asimètrica cap a la dreta: el costat dret de l'histograma s'estén molt mes lluny que
el costat esquerre, i viceversa.
− Centre: punt mitjà
− Dispersió: s'estudia identificant el valor mínim, el valor màxim i els 3 quartils (pg. 7).
− Desviació atípica: observació individual que queda fora de l’aspecte general de la
distribució.

− Forma: aproximadament simètrica

− Centre: a prop del 13%

− Dispersió: ignorant valors extrems, 10% - 16%

− Observacions atípiques: dos valors es troben en


tots dos extrems.

Diagrama de tiges (stem & leaf)

Cada tija (esquerra) conté els primers dígits del valor, les fulles (dreta)
representen l'últim dígit de cada valor.
En aquest cas, els valors són: 52, 88, 99, 102, 105, 110, 110, 112, 112, etc.
Té un aspecte semblant a un histograma, però en vertical.

Gràfic temporal
Representa cada observació en relació amb el moment en què es
va mesurar. El temps se situa en l'eix x.
Per a examinar-ho, hem de fixar-nos en el seu aspecte general i
en les seves desviacions. Especialment, cal buscar tendències
(variacions a llarg termini).

6
Guillem Sindreu i Cladera Metodologia Quantitativa III: Estadística Inferencial

Descripció de les distribucions numèriques


Un resum numèric d'una distribució ha de donar el seu centre i la seva dispersió o variabilitat.

Mesures de centre: mitjana i mediana


�): indica el valor mitjà d'una distribució. És la suma de valors dividida pel nombre
La Mitjana (𝒙𝒙
d'observacions:

∑𝑥𝑥𝑖𝑖
𝑥𝑥̅ = La mitjana és molt sensible a la influència de valors extrems (obs. atípiques).
𝑛𝑛
La Mediana (M): indica el valor central d'una distribució (el seu punt mitjancer): la meitat dels
valors són menors que M, i l'altra meitat, majors. No és afectada per valors extrems (ja que són
valors de més en un costat de M).
(𝑛𝑛+1)
Per a trobar la mitjana: ordenar les observacions de menor a major, M es troba en:
2

− Si n és imparell, M és l'observació central de la llista ordenada.


− Si n és parell, M és la mitjana de les dues observacions centrals.
� vs M:
𝒙𝒙

− Si la distribució és simètrica, 𝑥𝑥̅ i M seran aproximadament iguals.


− Si la distribució és asimètrica, 𝑥𝑥̅ serà desplaçada cap a la cua més llarga, ja que els valors
extrems l’estiren.

Mesures de dispersió: màx/mín, quartils i desviació típica


𝑥𝑥̅ i M solament indiquen on està el centre d’una població, hi manca informació. E.g: Dues
províncies amb la mateixa mitjana d'ingressos per llar són molt diferents si una d'elles té grans
extrems de pobresa i de riquesa (desigualtat), mentre que l'altra té poca variació entre famílies
(igualtat).

Cinc números resum


Els cinc números resum: Mín, Q1, M, Q3, Màx.
Mínim i màxim: indiquen la dispersió total d'una distribució, però poden ser enganyades per
valors extrems atípics.
Quartils (Q): determinen entre quins valors es troba la meitat central de les observacions. El
primer quartil (Q1) separa el primer 25% de les observacions. El segon quartil (Q2) equival a la
Mediana (M) i separa el primer 50% de les observacions. El tercer quartil (Q3) separa el primer
75% d'observacions.

Màx

Q3
Diagrama de Caixa (boxplot): mostra gràficament els cinc números
resum. No proporciona tanta informació com un histograma, s'usa per
a comparar diverses distribucions. També informa sobre la dispersió: M (Q2)
la distribució és simètrica si els quartils estan a la mateixa distància de
la mediana. Si hi ha punts blancs als extrems (no és el cas), és que hi ha
Q1
valors atípics.
Mín

7
Guillem Sindreu i Cladera Metodologia Quantitativa III: Estadística Inferencial

Desviació típica
Desviació típica (s ): mesura la dispersió dels valors respecte a la mitjana. Es calcula fent l'arrel
quadrada de la variància (s 2).
Variància (s 2): suma dels quadrats de les desviacions dels valors respecte a la seva
mitjana dividit per (n – 1).

∑(𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )2
𝑠𝑠 2 =
𝑛𝑛 − 1
Desviació típica: arrel quadrada positiva de la variància.

∑(𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )2
𝑠𝑠 = �
𝑛𝑛 − 1

Usos de la desviació típica

− Mesura la dispersió en relació amb la mitjana.


− 𝑠𝑠 = 0 quan no hi ha dispersió (tots els valors són iguals).
− A mesura que els valors se separen més de la mitjana, 𝑠𝑠 augmenta.
− 𝑠𝑠 es pot veure afectada per fortes asimetries o observacions atípiques (𝑠𝑠 augmenta)
− 𝑠𝑠 és molt útil per a descriure distribucions simètriques sense observacions atípiques.
− Poc útil per a descriure distribucions asimètriques, ja que un únic número no pot
descriure els dos costats de la distribució si aquests són diferents.

Elecció de mesures de centre i dispersió


− Cinc números resum (Mín, Q1, M, Q3, Màx)
o Útils per a descriure distribucions asimètriques o amb valors atípics extrems i
clars.
 Pot diferenciar les variacions en cada costat del centre (boxplot).
− Mitjana i desviació típica
o Útil per a descriure distribucions relativament simètriques i sense valors atípics.

Aquests “blocs” de paràmetres s’utilitzen junts. No pots mesurar el centre d’una distribució fent
la mitjana aritmètica i la dispersió amb quartils.

8
Guillem Sindreu i Cladera Metodologia Quantitativa III: Estadística Inferencial

Distribucions normals
Corba de densitat: model matemàtic de la distribució (descripció idealitzada). Defineix per sota
una àrea exactament igual a 1. No descriu les observacions atípiques. Pot ser simètrica o
asimètrica.

− Mediana: el punt de l'eix x que divideix la corba en dues àrees iguals. Els quartils la
divideixen en 4.
− Mitjana: el punt en el qual s'equilibraria l'àrea per sota de la corba si estigués constituïda
per un material sòlid.
− En corbes simètriques, la mitjana i la mediana són iguals. En corbes asimètriques, la
mitjana és desplaçada cap a la cua llarga (els valors extrems l’arrosseguen).
Distribucions normals N (𝝁𝝁, 𝝈𝝈): distribucions les corbes de densitat de les quals són simètriques,
amb un sol pic i amb forma de campana.

− 𝝁𝝁: mitjana. Se situa en el centre de la corba.


− 𝝈𝝈: desviació típica. Controla la dispersió de la corba normal. Assenyala el punt d'inflexió
(canvi en la curvatura), en tots dos costats de la mitjana.
Importància de les distribucions normals:

− Descriuen bé algunes distribucions de dades reals (notes d'un examen).


− Bones aproximacions als resultats de molts fenòmens aleatoris (llançament d’una
moneda).
− Molts procediments d'inferència estadística estan basats en distribucions normals.
Regla del 68 – 95 – 99,7: En una distribució normal de mitjana 𝜇𝜇 i desviació típica 𝜎𝜎;

− El 68% de les observacions es troben en l'interval 𝜇𝜇 ± 𝜎𝜎


− El 95,5% de les observacions es troben en l'interval 𝜇𝜇 ± 2𝜎𝜎
− El 99,7% de les observacions es troben en l'interval 𝜇𝜇 ± 3𝜎𝜎

Distribució normal estandarditzada: distribució normal N (0,1) de mitjana 0 i desviació típica 1.


Si x és una observació d'una distribució, el valor estandarditzat de x és:
𝑥𝑥−𝜇𝜇
𝑧𝑧 = , on z indica a quantes desviacions típiques es troba x de la mitjana. Si z és negativa, vol
𝜎𝜎
dir que el valor es troba a l’esquerra de la mitjana. Si és positiva, vol dir que es troba a la dreta.

9
Guillem Sindreu i Cladera Metodologia Quantitativa III: Estadística Inferencial

2. Anàlisi de relacions
Molts estudis busquen relacions entre 2 variables: llargada d'un cotxe vs mortalitat; alçada vs
problemes cardíacs… Sempre hi ha altres variables latents que afecten el resultat (e.g. pes,
esport).

− Variable resposta: mesura el resultat d'un estudi (V Dependent) - y


− Variable explicativa: influeix o explica canvis en la variable resposta (V Independent) - x

Per a identificar una parella de variables, es dóna un valor a una d'elles i es veu el que passa en
l'altra.

Relació entre variables quantitatives


Diagrames de dispersió
Un diagrama de dispersió mostra la relació entre
dues variables quantitatives mesures en els
mateixos individus. Els valors d'una variable
apareixen en l'eix d'abscisses i els de l'altra en l'eix
d'ordenades. Cada individu apareix com un punt en
el diagrama i la seva posició depèn dels valors que
prenen les dues variables en cada individu.
Situa sempre a la variable explicativa, si existeix, en
l'eix de les abscisses. En general, anomenem la
variable explicativa x i a la variable resposta y. Si no Diagrama de dispersió corresponent a les notes
mitjanes de matemàtiques a les probes SAT, en
distingim entre VE i VR, qualsevol de les dues es pot situar relació amb el percentatge d’alumnes que s’hi
en qualsevol eix. presenten. Cada punt correspon a un estat dels
EEUU.
Interpretació de diagrames de dispersió
Identificar aspecte general (forma, direcció i força) i desviacions atípiques.
E.g. SAT: dos grups d'Estats: el de la dreta, més del 45% d'alumnes es van presentar a la
prova, i les mitjanes dels resultats estatals són baixes. Els estats situats a l'esquerra tenen
notes més altes i percentatges menors d'alumnes presentats. No hi ha desviacions atípiques.
Direcció: els Estats on el percentatge d'alumnes que es presenten al SAT és elevat tendeixen
a tenir notes mitjanes més baixes  associació negativa.
* Forma: aspecte general de la dispersió.
* Direcció:
− Dues variables estan associades positivament quan valors superiors a la mitjana d'una
d'elles tendeixen a anar acompanyats de valors també per sobre de la mitjana de l'altra, i
viceversa.
− Dues variables estan associades negativament quan valors superiors a la mitjana d'una
d'elles tendeixen a anar acompanyats de valors inferiors a la mitjana de l'altra variable, i
viceversa.
* Força: determinada per com de prop que queden els punts d'una determinada corba imaginària.
En l'exemple, no és fort. Si una relació és forta, sortirà una relació lineal.
Inclusió de variables categòriques en diagrames de dispersió: Afegim una tercera variable: estats
del Nord/Sud, que és una variable categòrica binària. Per a afegir-la a un diagrama de dispersió,
s'usen colors o símbols diferents per a representar els punts.

10
Guillem Sindreu i Cladera Metodologia Quantitativa III: Estadística Inferencial

Correlació
La correlació (r ) mesura la força i la direcció de la relació lineal entre dues variables
quantitatives.
𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ 𝑦𝑦𝑖𝑖 − 𝑦𝑦�
∑� �� �
𝜎𝜎𝑥𝑥 𝜎𝜎𝑦𝑦
𝑟𝑟 =
𝑛𝑛 − 1
r és positiva quan existeix una associació positiva entre variables. E.g. la gent que mesura més
que la mitjana tendeix a pesar més que la mitjana (valors estandarditzats positius), i viceversa
(valors estandarditzats negatius).

Com interpretar la correlació


1. r no fa distincions entre variables explicatives (x) i
variables resposta (y).
2. Totes dues variables han de ser quantitatives.
3. Com a r usa valors estandarditzats de les
observacions, no varia si canviem les unitats d'una
o totes dues variables: la correlació no té unitat de
mesura, és només un número.
4. Una r positiva indica una associació positiva entre
variables; una r negativa indica una associació
negativa.
5. r sempre pren valors entre -1 i 1. Si r és pròxima a
0, la relació lineal és molt feble. La força de la
relació augmenta a mesura que r s'acosta a -1 o 1.
6. r només mesura la força d'una relació lineal. No
pot descriure relacions curvilínies.
7. r es veu molt afectada per observacions atípiques.
Usar amb precaució.
Per a acompanyar la correlació s'ha de donar la mitjana i la desviació típica de totes dues
variables, ja que són les mesures usades per a calcular la correlació.

Regressió mínim-quadràtica
La recta de regressió descriu com
canvia una variable resposta y a
mesura que canvia una variable
explicativa x. Pot ser usada per a
predir el valor d'y a partir d'un valor
donat de x.
Només pot descriure una relació
entre una variable explicativa i una
variable resposta.

11
Guillem Sindreu i Cladera Metodologia Quantitativa III: Estadística Inferencial

La recta de regressió mínim-quadràtica d'y en relació amb x és la recta que fa que la suma dels
quadrats de les distàncies verticals dels punts observats a la recta sigui el més petita possible.

𝑦𝑦� = 𝑎𝑎 + 𝑏𝑏𝑏𝑏
𝜎𝜎𝑦𝑦
Pendent: 𝑏𝑏 = 𝑟𝑟
𝜎𝜎𝑥𝑥

Ordenada d'origen: 𝑎𝑎 = 𝑦𝑦� − 𝑏𝑏𝑥𝑥̅


→ Per a traçar la recta, trobar 𝑦𝑦� de dos valors de x en dos extrems de l'interval.
→ Per a predir un valor d'𝑦𝑦�, substituir x per un valor concret.

Característiques de la regressió mínim-quadràtica


1. La regressió mínim-quadràtica només considera les distàncies verticals dels punts a la
recta. No es poden intercanviar variables x i y.
2. La regressió està molt relacionada amb la correlació: a un canvi d'una desviació típica de
x li correspon un canvi de r desviacions típiques de y.
3. La regressió mínim-quadràtica sempre passa pel punt (𝑥𝑥̅ , 𝑦𝑦�.

Residus
Un residu és la diferència entre el valor observat de la variable resposta i el valor predit per la
recta de regressió. És la distància vertical dels punts a la recta de regressió mínim-quadràtica.

Residu = 𝒚𝒚 observada – 𝒚𝒚 prevista = 𝒚𝒚 – 𝒚𝒚
Si el valor observat es troba per sobre de la recta, el residu és positiu. Si està per sota, és negatiu.
 La mitjana dels residus d'una recta de regressió mínim-quadràtica és sempre zero.
Diagrama de residus: diagrama de dispersió dels residus d'una regressió en relació amb la
variable explicativa (x). Els diagrames de residus ens ajuden a valorar l'ajust de la recta de
regressió.

− Forma recta al voltant de la recta: la recta descriu bé la distribució.


− Forma corba: la relació no és lineal; la recta no descriu correctament la distribució.
− Creixement o decreixement de la dispersió a mesura que augmenta la x: la predicció serà
menys precisa per a valors grans de x.
− Punts individuals amb residus grans: observacions atípiques.
− Punts individuals que són extrems en l'eix d'abscisses: gran influència sobre la recta

Observació atípica: observació que queda separada de les restants observacions.


Observació influent: observació que, en eliminar-la, canvia el resultat del càlcul.

12
Guillem Sindreu i Cladera Metodologia Quantitativa III: Estadística Inferencial

3. Obtenció de dades
− Estudi observacional: mesura les variables d'interès sense influir sobre les respostes. Pot
mesurar l'opinió dels votants, però no és útil per a valorar l'efecte d'un medicament.
− Experiment: sotmet de forma deliberada els individus a algun tractament amb l'objectiu
d'observar les seves respostes. Útil per a analitzar la resposta d'un individu a un canvi
(relació causa-efecte).
− Confusió: dues variables es confonen quan els seus efectes sobre una variable resposta no
es poden distingir entre si. En estudis observacionals, la variable explicativa se sol
confondre amb variables latents. Els experiments ben dissenyats eviten aquest problema.

Disseny de mostres
− Població: grup sencer d'individus sobre el qual volem informació. És impossible conèixer
les característiques de cadascun dels seus individus.
− Mostra: part de la població examinada amb l'objectiu d'obtenir informació.
− Disseny d'una mostra: mètode usat per a triar la mostra de la població.
− Biaix: el disseny d'un estudi és esbiaixat si afavoreix sistemàticament certs resultats. Es
dóna si la mostra no és aleatòria.
o Mostra de voluntaris: mostra de persones que es trien a si mateixes en resposta a
una crida general. Aquest tipus de mostres estan esbiaixades, ja que solen ser gent
molt motivada, especialment de manera negativa.
o Mostra de conveniència: es trien els individus de més fàcil accés (e.g. centres
comercials).

Dissenys mostrals
Mostra probabilística: dóna a cada individu de la població una possibilitat coneguda per a ser
seleccionat.
− Una mostra aleatòria simple de grandària n consta de n individus d'una població triats de
manera que qualsevol conjunt de n individus de la població tingui les mateixes possibilitats
de ser la mostra seleccionada. Fa que cada individu i cada possible mostra tingui la mateixa
probabilitat de ser triada.
− Mostra aleatòria estratificada: en primer lloc, es divideix la població en grups d'individus
similars, anomenats estrats. Després, es trien mostres aleatòries simples independents en
cada estrat i les combina per a formar una mostra completa
o La divisió per estrats es fa basant-se en característiques de la població: població urbana
vs rural, gènere, seccions censals…
o Aporta informació més exacta que una mostra aleatòria simple
− Mostreig en etapes múltiples: elecció de mostres en etapes diferents: (1) províncies, (2)
municipis, (3) barris, (4) llars. Continua sent imprescindible que el mostreig sigui aleatori.

Biaixos de les enquestes


− Falta de cobertura: alguns grups de la població es deixen fora del mostreig (sensesostre,
presos…)
− No-resposta: situació en què un individu seleccionat no pot ser contactat o no coopera.
− Biaix de resposta: situació en què l'enquestat menteix, especialment si se'l pregunta per
comportaments il·legals o impopulars. Per a evitar-ho, totes les respostes han de ser igual
de ‘desitjables’. També pot ser que l'enquestat no recordi alguns fets llunyans en el
temps.
− Influència del redactat: no han de permetre la confusió o el suggeriment d'una resposta.

13
Guillem Sindreu i Cladera Metodologia Quantitativa III: Estadística Inferencial

Inferència sobre la població


Els resultats mostrals són estimacions de la població. Les mostres dissenyades adequadament
eviten els biaixos sistemàtics, però els seus resultats són rarament exactament correctes, i varien
de mostra a mostra.

− Marge d’error: la probabilitat de cometre un error en treure conclusions sobre una


mostra.
− Interval de confiança: indica entre quines xifres es troba una mesura sobre la població,
amb una determinada probabilitat (confiança).
Com més gran sigui n, més precisos seran els resultats. Així i tot, només les mostres
probabilístiques aleatòries tenen aquesta garantia.

Disseny d'experiments
− Experiment: estudi que exerceix alguna acció sobre els subjectes per a observar les seves
respostes.
− Unitat experimental: individu amb el qual es fa un experiment. Si és humà, és un subjecte.
− Tractament: condició aplicada a les unitats experimentals.
− Factors: variables explicatives. Si es mantenen constants, es pot controlar l'entorn de les
unitats experimentals.
− Grup de control: grup que no rep el tractament (placebo). Usat per a comparar resultats
amb les unitats experimentals.

Experiments comparatius
− S'aplica un tractament i s'observa què passa. Unitats  Tractament  Resposta
− Es controlen els factors perquè només el tractament influeixi sobre la resposta.
− Ús del grup de control per a comparar amb les unitats experimentals.

14
Guillem Sindreu i Cladera Metodologia Quantitativa III: Estadística Inferencial

Disseny d'experiments completament aleatoritzats (RCT)


− Descripció de les variables resposta, els factors i la disposició de tractaments.
− Assignació aleatòria d'unitats experimentals als tractaments.
− Això garanteix que influències diferents a les dels tractaments afectin per igual a tots els
grups.
− Per tant, les diferències en les respostes seran degudes als tractaments o a l'atzar.

Principis del disseny d'experiments


− Control dels efectes de les variables latents en la resposta (comparar tractaments).
− Aleatorització: ús de l'atzar per a assignar subjectes a tractaments
− Repetició de l'experiment amb molts subjectes per a reduir l'efecte de l'atzar sobre
resultats.

Significació estadística
Com a majors siguin les diferències en les respostes, és menys probable que aquestes diferències
apareguin per atzar.
Efecte estadísticament significatiu: efecte observat massa gran per a ser atribuït només a l'atzar.

Precaucions en l'experimentació
− Tractar idènticament a totes les unitats experimentals en qualsevol aspecte excepte en el
tractament.
− Experiment doblement cec: ni els subjectes ni el personal que administra el tractament
sap el tipus de tractament que rep cada subjecte. Evita biaixos inconscients.
− Problema de l'experimentació: falta de realisme: subjectes, tractaments i disposició de
l'experiment pot ser que no repeteixin de manera real les condicions estudiades.

Disseny per parelles


Disseny experimental que combina l'agrupació de subjectes similars amb l'aleatorització.

Es trien parells de subjectes tan semblants com sigui possible; a un se li administra el
tractament i a l'altre, el placebo. Tots dos subjectes poden ser la mateixa persona en moments
diferents (amb ordre aleatori).

Disseny en blocs
Un bloc és un grup d'unitats experimentals que són similars en relació amb aspectes que es creu
que influeixen sobre la resposta d'aquests als tractaments. En un disseny en blocs, l'assignació
aleatòria dels subjectes als tractaments es duu a terme de manera independent dins de cada bloc.

15
Guillem Sindreu i Cladera Metodologia Quantitativa III: Estadística Inferencial

4. Distribucions mostrals i probabilitat


Aleatorietat
Paràmetre: nombre que descriu la població. En la pràctica estadística no és conegut, ja que no
podem examinar tota la població.
Mitjana poblacional: 𝜇𝜇, el valor del qual és desconegut quan usem una mostra per a inferir.
Estadístic: nombre que es pot calcular a partir de dades de la mostra sense usar cap paràmetre
desconegut. Usat per a estimar el paràmetre desconegut.
Mitjana mostral: 𝑥𝑥̅ , mitjana d'observacions de la mostra. Estimació de μ.

Probabilitat
Variabilitat mostral: el valor d'un estadístic
varia en mostres diferents. No és fatal:
Llei de nombres grans: El comportament de
l'atzar és impredictible fent poques
repeticions però presenta un comportament
regular i predictible si es fan moltes
repeticions.
E.g. Cara o creu: La proporció de
llançaments d'una moneda que donen
cara s'acosta a 0,5 a mesura que fem
més llançaments.
L'aleatorietat només apareix després de moltes repeticions.
Un fenomen és aleatori si els resultats individuals són incerts i, no obstant això, existeix una
distribució regular dels resultats després d'un gran nombre de repeticions.
La probabilitat de qualsevol resultat d'un fenomen aleatori és la proporció de vegades que el
resultat es dóna després d'una llarga sèrie de repeticions.

Aleatorietat
La probabilitat matemàtica és una idealització basada a imaginar el que passaria després d'una
sèrie infinita de repeticions. Les simulacions permeten la ràpida exploració.

Requisits:

− Els assajos han de ser independents (el resultat d'un assaig no influeix sobre el següent).
− La probabilitat ha de ser empírica: les simulacions parteixen de probabilitats
predeterminades i imiten un comportament aleatori, quan en la vida real només es poden
estimar probabilitats observant molts resultats d'un fenomen.

16
Guillem Sindreu i Cladera Metodologia Quantitativa III: Estadística Inferencial

Models de probabilitat
Model de probabilitat: descripció matemàtica d'un fenomen aleatori. Consta d'un espai mostral S
i d’un procediment d'assignació de probabilitats als successos.

− Espai mostral S: conjunt de resultats possibles


− Succés: resultat o conjunt de resultats d'un fenomen aleatori. És un subconjunt de S.

Regla de Laplace
# 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓 (𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠é𝑠𝑠) Notació: P(A) és la
𝑃𝑃 (𝐴𝐴) =
# 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 (𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚) probabilitat P de que
l’esdeveniment A
Regles de la probabilitat succeeixi
1. 0 ≤ P (A) ≤ 1
2. P(S) = 1 ; (S = espai mostral)
3. P(𝐴𝐴̅) = 1 – P(A) ; (𝐴𝐴̅ = probabilitat que no succeeixi A)

Regla de la suma de successos disjunts


Si A i B són disjunts (no tenen resultats en comú), la probabilitat que ocorri algun dels dos és la
suma de les seves respectives probabilitats.

Regla de la suma de successos disjunts: P(A ∪ B) = P(A) + Notació:


P(B)
P(A ∪ B): probabilitat
1 1 1 que succeeixi A o B
E.g. Tirem un dau. P{1 ∪ 2} = P{1} + P{2} = + =
6 6 3
(unió).
Intersecció d'esdeveniments independents
P(A ∩ B): probabilitat
Dos esdeveniments són independents si conèixer el resultat d’un
que succeeixi A i B
esdeveniment no canvia la probabilitat que assignarem a l’altre
alhora (intersecció).
esdeveniment.
Dos esdeveniments són independents si P(A ∩ B) = P(A) * P(B)
E.g. Llancem un dau xinès, els costats del qual 1 i 4 són vermells.
𝑃𝑃{1,4} 2 1
P(A) = que el dau surti vermell: P {1,4} = = =
𝑃𝑃{1,2,3,4,5,6} 6 3

𝑃𝑃{4,5,6} 3 1
P(B) = que el dau sigui major que 3: P {4,5,6} = = =
𝑃𝑃{1,2,3,4,5,6} 6 2

Test d'independència:
P(A ∩ B) = P(A) * P(B)
𝑃𝑃{4} 𝑃𝑃{1,4} 𝑃𝑃{4,5,6} 1 1 1
= ∗ → = ∗
𝑃𝑃{1,2,3,4,5,6} 𝑃𝑃{1,2,3,4,5,6} 𝑃𝑃{1,2,3,4,5,6} 6 3 2

 Són esdeveniments independents


Suma d'esdeveniments compatibles (no disjunts)
Si dos processos són compatibles (és a dir, es poden donar els dos alhora):
P (A ∪ B) = P (A) + P (B) – P (A ∩ B)

17
Guillem Sindreu i Cladera Metodologia Quantitativa III: Estadística Inferencial

Probabilitat condicional
La probabilitat condicionada explica la probabilitat d'un succés A sota la condició d'un succés B.
𝑃𝑃 (𝐴𝐴 ∩ B)
Probabilitat de A condicionada a B: 𝑷𝑷 (𝑨𝑨 | 𝑩𝑩) =
𝑃𝑃 (𝐵𝐵)

E.g. Alumnes que vesteixen amb bambes i vaquers.


Texans No Texans Total
Bambes 5 1 6
No bambes 3 1 4
Total 8 2 10
𝑃𝑃 (𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇 ∩ Bambas) 5
P (Vaquers | Bambes) = = = 0,833
𝑃𝑃 (𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵) 6

Multiplicació per a dos successos


𝑃𝑃 (𝐴𝐴 ∩ B) = 𝑃𝑃 (𝐴𝐴 | 𝐵𝐵) ∗ 𝑃𝑃 (𝐵𝐵)
P (Texans ∩ Bambes) = P (Texans | Bambes) * P (Bambes) = 0,833 * 0,6 = 0,5

Distribució de la mitjana mostral


El valor de 𝑥𝑥� (mitjana mostral) permet estimar 𝜇𝜇 (mostra poblacional), encara que 𝑥𝑥� varia de
mostra a mostra.
Llei dels nombres grans: a mesura que el nombre d'observacions augmenta, la mitja 𝑥𝑥̅ dels valors
observats s'acosta més i més a μ, la mostra poblacional que volem estimar. <3
 Simulant moltes mostres petites es pot dibuixar un histograma amb totes les mitjanes mostrals
𝑥𝑥̅ . Aquesta distribució de mitjanes tindrà una forma normal.
Distribució normal: distribució dels valors mitjans de totes les mitjanes possibles d'igual
grandària d'una mateixa població. Distribució ideal que apareixeria si examinéssim totes les
mostres possibles d'una mateixa grandària de la població.
Distribució de l'altura de la població de tots els adults. N (170, 10) amb 𝜇𝜇 = 170 i 𝜎𝜎 = 10

18
Guillem Sindreu i Cladera Metodologia Quantitativa III: Estadística Inferencial

5. Inferència I: Intervals de confiança


La inferència estadística proporciona mètodes que permeten treure conclusions d'una població a
partir de dades d'una mostra. La inferència usa la probabilitat per a indicar la fiabilitat de les
conclusions, i es basa en les regularitats que apareixen en una variable després de moltes
repeticions.

Estimació amb confiança: Variables binàries (0/1)


p: paràmetre poblacional ; p� : paràmetre mostral

E.g. Esquerrans: Inferir el percentatge d'esquerrans al món a partir d'una mostra (N = 37).

𝛴𝛴𝑥𝑥𝑖𝑖
1. Estimador 𝑝𝑝̂ =
𝑛𝑛
4
p� = = 0.1081 ; 1 - p� = 0.8919
37

2. Desviació típica de la mostra 𝑠𝑠 = �𝑝𝑝̂ (1 − 𝑝𝑝̂ )


s = �0.1081 (1 − 0.1081) = 0.3105
* El marge d’error ME es calcula
s multiplicant l’error estàndard SE pel
3. Error estàndard SE = nombre de desviacions típiques que abraci
√n
el nivell de confiança al qual aspirem.
0.3105
SE = = 0.051 − 90%  1.3
√37
− 95%  1.96
4. Marge d'error ME (95%) = 1.96 ∗ SE − 99%  3.3
ME (95%) = 1.96 ∗ 0.051 = 0.1000 Si dones un estadístic amb un interval de
5. Interval de confiança IC = 𝑝𝑝
� ± ME confiança del 95%, voldrà dir que estàs un
95% segur que la informació que dones és
IC = 0.1081 ± 0.1000 = (0.0081 , 0.2081) correcta.
Interpretació: d'acord amb la mostra obtinguda, creiem que el percentatge d'esquerrans de
la població es troba entre el 0,81% i el 20,81%, amb una confiança del 95%.

E.g. Política i internet: en una mostra, 675/812 persones segueixen la política per internet.
𝛴𝛴𝑥𝑥𝑖𝑖
1. �=
𝐩𝐩 = 675/812 = 0.8313
𝑛𝑛

2. 𝐬𝐬 = �𝑝𝑝̂ (1 − 𝑝𝑝̂ ) = �0.8313 (1 − 0.8313) = 0.3745


s 0.3745
3. SE = = = 0.0131
√n √812

4. ME (95%) = 1.96 * SE = 1.96 * 0.0131 = 0.0257


5. IC = p� ± ME = 0.8313 ± 0.0257 = (0.8056 , 0.8570)  D’acord amb la mostra, entre el
80,56% i el 85,70% de la població s'informa de política per internet, amb una confiança del
95%.

19
Guillem Sindreu i Cladera Metodologia Quantitativa III: Estadística Inferencial

Estimació amb confiança: variables numèriques


Exemple: s’examina l’alçada dels estudiants d’una mostra N = 10.
N = {182, 170, 190, 167, 173, 173, 167, 167, 175, 170}

𝛴𝛴𝑥𝑥𝑖𝑖
1. Estimador x� =
𝑛𝑛
1743
𝑥𝑥̅ = = 174,3
10
1
2. Desviació típica de la mostra 𝑠𝑠 = ⋅ �∑(𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )2
𝑛𝑛−1
s = 7,53
s
3. Error Estàndard SE =
√n
7,53
SE = = 2,38
√10
− 90%  1.3
4. Marge d’error ME (95%) = 1,96 ∗ SE − 95%  1.96
− 99%  3.3
ME (95%) = 1,96 ∗ 2,38 = 4,66

5. Interval de confiança IC = x
� ± ME

IC = 174,3 ± 4,66 = (169,64 , 178,97)


Interpretació: d’acord amb la mostra obtinguda, creiem que l’alçada mitjana de la població
està entre 169,63 cm i 178,97 cm, amb una confiança del 95%.

E.g. Valoració d’Oriol Junqueras, segons el Baròmetre del CEO), amb 𝑥𝑥̅ = 6,0289 i N = 1347
1. 𝑥𝑥̅ = 6,0289 (dada proporcionada pel CEO)
2. s = 3,3607 (dada proporcionada pel CEO)
𝑠𝑠 3,3607
3. SE = = = 0,0916
√𝑛𝑛 √1347

4. ME (95%) = 1,96 * SE = 1,96 * 0,0916 = 0,1795


5. IC (95%) = x� ± ME = 6,0289 ± 0,1795 = (5,8494 , 6,2084)

Interpretació: d’acord amb la mostra obtinguda, creiem que la valoració mitjana de la


població respecte Oriol Junqueras és troba entre el 5,8494 i el 6,2084, amb una confiança del
95%.

20
Guillem Sindreu i Cladera Metodologia Quantitativa III: Estadística Inferencial

6. Inferència II: significació, contrast d’hipòtesis


Les proves de significació s’utilitzen per valorar l’evidència proporcionada per les dades a favor
d’alguna hipòtesi sobre la població.

− Error tipus I: fals positiu


− Error tipus II: fals negatiu
E.g. Les begudes light perden la seva dolçor al llarg del temps? 10 tastadors avaluen la pèrdua
de dolçor (els nombres positius signifiquen que noten que ha perdut dolçor):
2,0 0,4 0,7 2,0 -0,4 2,2 -1,3 1,2 1,1 2,3
10,2
�=
𝒙𝒙 = 1,02
10
𝒔𝒔 = 1,196
Per contrastar una hipòtesi, ens hem de preguntar si les dades donen evidència en contra seva.
Hipòtesi nul·la H0: afirmació que s’ha de desmentir per a confirmar una hipòtesi.
Hipòtesi alternativa Ha: afirmació sobre la qual volem trobar evidència a favor.
H0: no hi ha pèrdua de dolçor (𝜇𝜇 = 0). És la hipòtesi a desmentir.
Ha: hi ha pèrdua de dolçor (𝜇𝜇 > 0)

Suposant que la desviació típica de la població de tastadors és 𝜎𝜎 = 1;

− Mitjana poblacional 𝜇𝜇 = 0
𝜎𝜎 1
− Desviació típica = = = 0,316
√𝑛𝑛 √10

Si no hi ha una pèrdua de dolçor, la puntuació mitjana


dels tastadors tindrà aquesta distribució mostral. En
� = 1,02. Aquest valor es troba molt allunat
realitat, 𝒙𝒙
de 𝜇𝜇 = 0 en la distribució normal. Per tant, l’afirmació
“no hi ha una pèrdua de dolçor” és falsa. Conclusió: les
begudes light perden dolçor al llarg del temps.
Valor P: probabilitat, calculada suposant que H0 és certa, de que el resultat prengui un valor com
a mínim tan extrem com l’observat. Com més petit sigui, més forta és l’evidència que
proporcionen les dades en contra de H0.
Valor P: probabilitat d’obtenir 𝑥𝑥̅ = 1,02 si 𝜇𝜇 = 0. En aquest cas, el valor-P = 0,0006. Això vol
dir que hi ha una probabilitat del 0,06% d’obtenir una mitjana mostral de 1,02 si, en realitat,
no existeix cap pèrdua de dolçor.
Valors P petits aporten evidència en contra d’H0, ja que diuen que és poc probable que el resultat
sigui per atzar. Per tant, valors P petits demostren que l’afirmació inicial, Ha, és certa.
En general, un valor-p és petit si és inferior al llindar de significació ⍺ = 5%.

21
Guillem Sindreu i Cladera Metodologia Quantitativa III: Estadística Inferencial

Contrast d’una mitjana


Per analitzar mostres de poblacions normals amb 𝜎𝜎 desconeguda, es substitueix la desviació
𝜎𝜎 𝑠𝑠
típica d’𝑥𝑥̅ , , pel seu Error Estàndard, SE = .
√𝑛𝑛 √𝑛𝑛

Procediments t d’una mostra


Interval de confiança de nivell C per 𝜇𝜇: IC = t * SE; on t és el valor crític superior d’una distribució
normal.
H0: 𝜇𝜇 = 𝜇𝜇0
Aquests valors-P són exactes si la distribució de
la població és normal i són aproximadament
correctes per a mostres grans en altres casos.
El nombre t és similar al nombre z, i a partir
d’aquí, s’ha de calcular l’àrea marcada en gris.
Això serà el valor-P: la probabilitat de quedar
fora.

E.g. Renda disponible. Tenim motius per afirmar que la mitjana de la variable (renda
disponible) és diferent a 30.000 euros? Una enquesta de condicions de vida (ECV) fa una
mostra amb una mitjana 𝑥𝑥̅ = 29.123

La nostra hipòtesi és que la mitjana de la població és diferent a 30.000€


H0: 𝜇𝜇 = 30.000
Ha: 𝜇𝜇 ≠ 30.000
T Test: t = -2.5594, df = 781, p-value = 0.01067
Interval de confiança del 95%: 26684.01, 29562.69

El valor-p (1%) és molt inferior al llindar de significació (5%), per tant podem descartar la
hipòtesi nul·la. És a dir, amb un nivell de confiança del 95% podem afirmar que 30.000€ no
és la renda mitjana.

E.g: fumadors. Una enquesta diu que el 22% de la població fuma. Utilitzant la mostra
d’alumnes de la classe, volem saber si aquesta enquesta és correcta.
Variable: fumador o no fumador

p = proporció de fumadors.
Mostra (N = 28). p� = 4/28 = 0.1428
H0: el 22% de la població fuma. p = 0.22 0.1428 0.22

Ha: el percentatge de la població que fuma és inferior a 22%. p < 0.22


P–valor = 0.2244 = 22,44%. (Zona taronja). És molt superior al llindar de significació del
5%. Això és degut a que la mida de la mostra és massa petita. Per tant, no podem rebutjar H0.

22
Guillem Sindreu i Cladera Metodologia Quantitativa III: Estadística Inferencial

7. Inferència III: Comparació de poblacions


Comparació de dues mitjanes
Comparació de les respostes de dos tractaments o de les característiques de dues poblacions.
Tenim dues mostres aleatòries simples independents entre si. Ambdues distribucions són
normals.

Població Variable Mitjana poblacional Desviació típica


#1 𝑥𝑥̅ 1 𝜇𝜇1 𝜎𝜎1
#2 𝑥𝑥̅ 2 𝜇𝜇2 𝜎𝜎2
Els subíndexs recorden de quina població estem parlant en tot moment.

Objectiu: comparar les dues mitjanes poblacionals, calculant un interval de confiança per la seva
diferència 𝜇𝜇1 - 𝜇𝜇2 o contrastant la hipòtesi de que no existeixen diferències, H0 : 𝜇𝜇1 = 𝜇𝜇2
E.g: edat i nacionalitat. Creuament de mitjanes: l’edat de les persones nascudes a Espanya és
superior a l’edat dels nascuts a fora d’Espanya?
Nascuts a Espanya Nascuts a fora
(pob. 1) (pob. 2)
Edat (paràmetre) 𝜇𝜇1 𝜇𝜇2
Mostra (estimador) 𝑥𝑥̅ 1 𝑥𝑥̅ 2

H0: 𝜇𝜇1 = 𝜇𝜇2


Ha: 𝜇𝜇1 > 𝜇𝜇2
𝑥𝑥̅1 −𝑥𝑥̅ 2
T-test: t =
𝑆𝑆𝑆𝑆

Si és molt gran o molt petit, vol dir que el valor 𝑥𝑥̅ està lluny de 𝜇𝜇 i, per tant, el p-valor serà petit.
T-test: t = -26.47; p-valor ≈ 0  es rebutja H0, això vol dir que Ha es confirma: l’edat dels
nascuts a Espanya és superior a la dels nascuts a fora.

E.g: valoració de polítics segons el seu gènere: es valoren diferent els candidats que les
candidates?
Candidates (dones) Candidats (homes)
Puntuació (paràmetre poblacional) 𝜇𝜇1 𝜇𝜇2
Mostra (estimador) 𝑥𝑥̅ 1 = 4,58 𝑥𝑥̅ 2 = 3,48

H0: 𝜇𝜇1 = 𝜇𝜇2


Ha: 𝜇𝜇1 ≠ 𝜇𝜇2
P-valor = 0,0036 = 0,36%. Es rebutja H0 i es confirma que existeix una diferència en la
valoració dels candidats segons el seu gènere.

23
Guillem Sindreu i Cladera Metodologia Quantitativa III: Estadística Inferencial

Comparació de dues proporcions


La comparació consisteix en agafar dues proporcions i calcular si la seva diferència és
estadísticament significativa o si aquesta només es deu a l’atzar. Considerarem que la diferència
és significativa si el P-valor supera el llindar de significació del 5% (⍺ = 0,05).

E.g: protestes post-sentència i participació electoral. Hi ha alguna relació entre les protestes
i la participació? Els barris que van ser escenari de protestes el passat octubre van presentar
nivells de participació més alts.
Participació (%)
p1 : participació en zones de disturbis 74,5
p2 : participació en zones sense disturbis 73,1

H0: 𝑝𝑝1 = 𝑝𝑝2


Ha: 𝑝𝑝1 ≠ 𝑝𝑝2

P-valor = 0,012 = 1,2%. Si H0 fos certa, una diferència de 1,4 punts només es donaria en un
1,2% de probabilitat. Com que això no supera el llindar de significació del 5%, rebutgem H0 i
afirmem que l’existència de protestes va afavorir la participació electoral.

E.g: relació entre nacionalitat i gènere.


p1 : proporció d’homes nascuts a Espanya, respecte el total d’homes
p2 : proporció de dones nascudes a Espanya, respecte el total de dones
Nascuts/es a Espanya Nascuts/es fora d’Espanya
Homes p1 = 91,4 8,6
Dones p2 = 90,3 9,7

H0: 𝑝𝑝1 = 𝑝𝑝2


Ha: 𝑝𝑝1 ≠ 𝑝𝑝2
P-valor ≈ 0  la diferència de 1,1 punts trobada en la mostra, si H0 fos certa, no passaria
pràcticament mai. Per tant, rebutgem H0 i donem vàlida la hipòtesi alternativa, que diu que
la proporció d’homes nascuts a Espanya, sobre el total d’homes, és diferent a la proporció de
dones nascudes a Espanya, sobre el total de dones.

24
Guillem Sindreu i Cladera Metodologia Quantitativa III: Estadística Inferencial

8. Inferència IV: prova d’independència


Prova d’independència amb taules de contingència
La prova d’independència mitjançant una taula de contingència té l’objectiu d’esbrinar si dues
variables extretes d’una mateixa mostra estan relacionades entre sí o, contràriament, són
independents. Fa servir dues variables categòriques d’una mateixa mostra.

La taula de contingència mostra les observacions referents a dues variables.


E.g. Tipus de família i nombre de banys.

Nombre de banys
1 bany 2 banys 3 banys
Matrimoni 1563 1722 278
Parella de fet 400 265 34
Solter/a amb fills 440 300 32

H0 : les dues variables són independents


Ha : hi ha alguna relació entre les dues variables (*relació no implica causalitat)
Prova Khi quadrat per comprovar si dues variables són independents:

(𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣 𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜−𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒)2


χ2 = 𝛴𝛴 (es calcula amb ordinador)
𝑣𝑣𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒

El Khi quadrat mesura la discrepància entre els valors observats i els valors esperats, per tant
indica si hi ha alguna relació entre les dues variables. A partir del Khi quadrat es pot extreure el
valor-p, que determina si aquest resultat és fruit de l’atzar. Seguirem utilitzant el nivell de
significació del 5%, és a dir, si el valor-p és inferior a 0,05 podrem rebutjar la hipòtesi nul·la H0.
Prova Khi Quadrat: χ2 = 71,4 ; valor-p ≈ 0
Com que el valor-p és gairebé 0, podem rebutjar la hipòtesi nul·la i afirmar que existeix una
relació entre el tipus de família i el nombre de banys.

E.g. Províncies de Catalunya i percepció de la situació política.


Província Bona Ni bona ni dolenta Dolenta Molt dolenta
Barcelona 103 95 534 345
Girona 18 10 67 122
Lleida 13 10 38 80
Tarragona 18 25 72 151

H0 : les dues variables són independents


Ha : hi ha alguna relació entre les dues variables
Prova Khi Quadrat: χ2 = 22,58 ; valor-p = 0,0072 = 0,72%
Com que el valor-p és molt inferior al llindar de significació del 5%, podem rebutjar la
hipòtesi nul·la i afirmar que les dues variables estan relacionades entre elles.

25
Guillem Sindreu i Cladera Metodologia Quantitativa III: Estadística Inferencial

Residus
El residu és la diferència entre el valor observat i el valor esperat.
Residu = valor observat – valor esperat

− Residu positiu: s’han observat més casos dels esperats per la H0.
o Al CEO, els valors amb un residu positiu es marquen amb el símbol > (e.g: >36).
− Residu negatiu: s’han observat menys casos dels esperats per la H0.
o Al CEO, els valors amb un residu negatiu es marquen amb el símbol < (e.g: <36).
Com més s’allunyi el residu respecte zero, més diferent és el valor observat respecte el valor
esperat.

− Més petit de -4: residu molt negatiu


− Entre -4 i -2: residu significativament negatiu
− Entre -2 i +2: residu normal
− Entre +2 i +4: residu significativament positiu
− Més gran de +4: residu molt positiu

26
Guillem Sindreu i Cladera Metodologia Quantitativa III: Estadística Inferencial

9. Inferència V: correlació i regressió lineal


La correlació i la regressió lineal són mètodes per analitzar la relació entre dues variables
quantitatives.

Correlació: coeficient de Pearson


El coeficient de correlació lineal de Pearson és una mesura lineal entre dues variables
quantitatives d’una mateixa mostra. És un índex que permet mesurar el grau de relació de dues
variables numèriques. El coeficient va del -1 al +1. L’ordre de les variables no afecta la correlació:
x i y són intercanviables.
Correlació no implica causalitat: per molt que la correlació entre variables sigui molt forta, no
podem assumir que una variable tingui influència directa sobre l’altra. Podria haver-hi variables
latents invisibles, que afectin les dues variables sense que ens n’adonem.

Interpretar la correlació entre variables


Correlació positiva (r > 0): quan una variable augmenta,
l’altre també.
Com més a prop de +1, la correlació és més forta: les
observacions estan més agrupades.

Correlació negativa (r < 0): quan una variable augmenta,


l’altre disminueix.
Com més a prop de -1, la correlació és més forta: les
observacions estan més agrupades.

Sense correlació (r = 0): les dues variables no estan


relacionades.

E.g. Relació entre examen parcial i final. Estan relacionades les notes obtingudes per una
mostra d’alumnes a l’examen parcial amb les notes obtingudes a l’examen final?
Correlació = 0,5452. La correlació és positiva i bastant forta. Això vol dir que els alumnes
amb millors notes a l’examen parcial tendeixen a obtenir millors notes a l’examen final.
Correlació no implica causalitat: no podem assumir que els alumnes que hagin tret bona nota
al final sigui perquè van treure bona nota al parcial.

27
Guillem Sindreu i Cladera Metodologia Quantitativa III: Estadística Inferencial

Regressió Lineal Simple: Recta de Mínims Quadràtics


La recta de mínims quadràtics d'y en relació amb x és la recta que fa que la suma dels quadrats
de les distàncies verticals dels punts observats a la recta sigui el més petita possible. Permet
predir el valor de y a partir d’un valor determinat de x i dels seus residus. A diferència de la
correlació, aquí l’ordre de les variables afecta el resultat: x i y no són intercanviables.
La fórmula de l’equació de la recta de mínims quadràtics és la següent:

� = 𝒂𝒂 + 𝒃𝒃𝒃𝒃 + 𝒓𝒓𝒓𝒓𝒓𝒓𝒓𝒓𝒓𝒓𝒓𝒓𝒓𝒓
𝒚𝒚 a = ordenada d’origen (punt on la recta creua l’eix y).
b = pendent de la recta.
Residus = valors observats – valors esperats.
Utilitzem 𝑦𝑦� en lloc de 𝑦𝑦 Si volem fer una inferència i per tant desconeixem el residu,
perquè estem fent una
estimació.
el podem ometre (utilitzar residu=0), ja que zero és la
mitjana de tots els residus.

E.g. Parcial i final (cont). Aquest diagrama


de dispersió representa la relació entre les
Notes examen final

notes del parcial i les del final. Cada punt


74,2 x
representa un alumne.
La recta de regressió lineal ens permetrà
estimar quina nota del final traurà algú
que ha tret x nota al parcial.
Podem extreure l’equació de la recta a 65

partir de dades donades per R Studio: Notes examen parcial


## Estimate Std. Error t value Pr(>|t|)

## (Intercept) 37.6154 6.2056 6.062 1.44e-07 ***

## sta500$parcial 0.5633 0.1190 4.735 1.67e-05 ***

� = 𝟑𝟑𝟑𝟑. 𝟔𝟔𝟔𝟔𝟔𝟔𝟔𝟔 + 𝟎𝟎. 𝟓𝟓𝟓𝟓𝟓𝟓𝟓𝟓𝟓𝟓 ; on x és la nota del parcial.


𝒚𝒚
Si volem preveure quina nota a l’examen final traurà algú que ha tret un 65 al parcial,
substituïm x per 65: 𝒚𝒚� = 𝟑𝟑𝟑𝟑. 𝟔𝟔𝟔𝟔𝟔𝟔𝟔𝟔 + 𝟎𝟎. 𝟓𝟓𝟓𝟓𝟓𝟓𝟓𝟓 ∗ 𝟔𝟔𝟔𝟔 = 74.2299. Algú que ha tret un 65 al
parcial tendirà a treure una nota al final al voltant de 74,2 (creu vermella al gràfic).

Marge d’error d’una recta de regressió


El Marge d’Error (ME) d’una recta de regressió es calcula a partir de l’Error Estàndard (SE) del
seu pendent. ME = 1,96*SE. L’Error Estàndard és donat per R Studio (cercle blau).
La fórmula de l’equació de la recta de regressió que té en compte el Marge d’Error és la següent:

𝑦𝑦� = 𝑎𝑎 + (𝒃𝒃 ± 𝟏𝟏, 𝟗𝟗𝟗𝟗 ∗ 𝑺𝑺𝑺𝑺)𝑥𝑥 + 𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟


Tenint en compte l’Error Estàndard (cercle blau) donat per R Studio, l’equació serà:
𝑦𝑦� = 37.6154 + (0.5633 ± 1.96 ∗ 0.1190)𝑥𝑥 → 𝒚𝒚
� = 𝟑𝟑𝟑𝟑. 𝟔𝟔𝟔𝟔𝟔𝟔𝟔𝟔 + (𝟎𝟎. 𝟓𝟓𝟓𝟓𝟓𝟓𝟓𝟓 ± 𝟎𝟎. 𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐)𝒙𝒙

28
Guillem Sindreu i Cladera Metodologia Quantitativa III: Estadística Inferencial

Model de regressió: recta veritable


La regressió lineal simple de la pàgina anterior es calcula a partir de les observacions d’una
mostra (els punts del diagrama de dispersió). La pendent b i l’ordenada d’origen a de la recta
mínim-quadràtica són estadístics.

Recta veritable: 𝑦𝑦 = 𝛼𝛼 + 𝛽𝛽𝛽𝛽 + 𝜀𝜀


Contrast d’hipòtesis amb el valor-p
Es poden contrastar les hipòtesis sobre el valor de la pendent 𝛽𝛽.
H0 : 𝛽𝛽 = 0  No existeix una correlació lineal entre x i y en la població.
Ha : 𝛽𝛽 ≠ 0  La pendent és significativament diferent de zero i, per tant, les variables x i y estan
relacionades entre si.

Si el valor-p és petit (p<0.05) podem rebutjar H0 i afirmar que el pendent és significatiu.


E.g. Parcial i final (cont).
## F-statistic: 22.42 on 1 and 53 DF, p-value: 1.675e-05

Valor-p < 0.0001  rebutgem H0. La pendent de la recta és significativament diferent de


zero. Podem afirmar que existeix una correlació entre la nota obtinguda a l’examen parcial i
la nota obtinguda a l’examen final.

Coeficient de determinació (R2)


El coeficient de determinació (R2) determina la qualitat d’un model de regressió. Mesura el
percentatge de variabilitat de la variable y que es pot explicar mitjançant la variabilitat de la
variable x. Com més gran és aquest coeficient més qualitat té la regressió, ja que els residus són
més petits.

## Multiple R-squared: 0.2973, Adjusted R-squared: 0.284

El coeficient de determinació de la recta és del 30%, un nombre força baix. Només el 30% de
la variabilitat de la nota de l’examen final queda explicada per la variabilitat de la nota del
parcial. Per tant, la recta de regressió no és prou fiable per fer inferències.

29
Guillem Sindreu i Cladera Metodologia Quantitativa III: Estadística Inferencial

E.g. Renda mitjana 2015 i 2016. Es poden inferir els ingressos familiars del 2016 en funció
dels ingressos familiars del 2015?
Renda mitjana 2016

Renda mitjana 2015

Correlació
## renMpers2016 renMpers2015 renMhog2016 renMhog2015

## renMpers2016 1.0000000 0.9872238 0.9465349 0.9365110

## renMpers2015 0.9872238 1.0000000 0.9318682 0.9492134

## renMhog2016 0.9465349 0.9318682 1.0000000 0.9839684

## renMhog2015 0.9365110 0.9492134 0.9839684 1.0000000

Les dues variables estan correlacionades de manera positiva i molt forta.

Recta de regressió
## Estimate Std. Error t value Pr(>|t|)

## (Intercept) 558.96939 434.31577 1.287 0.2

## renMhog2015 1.00601 0.01469 68.468 <2e-16 ***

Podem inferir quin serà la renda mitja familiar del 2016 en funció d’un valor de la renda mitja
del 2015 amb l’equació 𝑦𝑦� = 558.96939 + 1.00601𝑥𝑥 , on x és la renda del 2015. Un augment
d’un euro al 2015 correspon a un augment de 1,006 euros al 2016, de mitjana.

Contrast d’hipòtesis
H0 : 𝛽𝛽 = 0  No existeix una correlació lineal entre x i y en la població.
Ha : 𝛽𝛽 ≠ 0  La pendent és significativament diferent de zero i, per tant, les variables x i y
estan relacionades entre si.
Valor-p ≈ 0  Un valor-p tan petit ens permet rebutjar H0 i afirmar que el pendent de la recta
de regressió és significativament diferent de zero. Per tant, existeix una relació entre les
variables “renda familiar 2015” i “renda familiar 2016”.

Coeficient de determinació
## Multiple R-squared: 0.9682, Adjusted R-squared: 0.968

El coeficient de determinació (R2) és del 96,8%, això vol dir que el 96,8% de la variabilitat de
la renda familiar del 2016 es pot explicar a partir de la renda familiar del 2015. Aquest
percentatge tan alt indica que la recta de regressió és molt fiable per a inferir la renda del
2016 a partir de la del 2015.

30

You might also like