Professional Documents
Culture Documents
S. Forcada
J. Rubiò
part dels continguts, i, de l’altra, la inferència es-
tadística (capítols 6 al 12), que correspon pràc-
ticament a la meitat del llibre, on s’estudien els
estimadors, els intervals de confiança i els con-
trastos d’hipòtesis, i s’hi inclouen alguns con-
trastos no paramètrics i s’hi introdueix el model
Josep Rubió Massegú
de regressió lineal per a una variable.
Elements d’estadística
9 788483 019269
EDICIONS UPC
AULA POLITÈCNICA 130
/ INFORMÁTICA
Elements d’estadística
EDICIONS UPC
AULA POLITÈCNICA
/ MATEMÀTICA I ESTADÍSTICA
Elements d’estadística
EDICIONS UPC
Aquesta obra compta amb el suport de la Generalitat de Catalunya
Són rigorosament prohibides, sense l’autorització escrita dels titulars del copyright, sota les sancions esta-
blertes a la llei, la reproducció total o parcial d’aquesta obra per qualsevol procediment, inclosos la repro-
grafia i el tractament informàtic, i la distribució d’exemplars mitjançant lloguer o préstec públics.
Pròleg
El present llibre està orientat als estudiants de les assignatures semestrals d’introducció a l’es-
tadística que tenen per objectiu posar a l’estudiant en contacte, per primer cop, amb tècniques
bàsiques d’anàlisi de dades enfocades a inferir resultats sobre el total d’una població observant-ne
només una mostra. L’objectiu és proporcionar a l’estudiant un material ajustat als continguts
d’un curs introductori d’aquest tipus.
L’estructura del llibre és clàssica, en el sentit que comença introduint tècniques descriptives
d’anàlisi de dades en un primer capítol, i després, en els capítols que segueixen, s’exposen els
elements de la teoria de la probabilitat necessaris per modelitzar el comportament de les variables
estadístiques, per finalment arribar a l’estimació dels paràmetres que caracteritzen el model i
contrasts d’hipòtesis sobre aquests paràmetres.
Inclou també un capítol amb els contrasts de la bondat d’ajust de la distribució khi-quadrat i
de Kolmogorov-Smirnov, un altre amb nocions d’estadística no paramètrica, i un últim capítol
on es presenta el model de regressió lineal simple. Aquests tres darrers capítols mostren de
forma esquemàtica alguns aspectes imprescindibles de l’estadística com són l’adequació del model
escollit per descriure el comportament d’una variable estadística, les tècniques no paramètriques
necessàries quan no està especificat el model, i el model de regressió.
L’enfoc és aplicat i s’il·lustra amb exemples els diversos conceptes que s’introdueixen. Al final
de cada capítol s’ha afegit una llista d’exercicis a resoldre pel lector, amb la seva solució inclosa.
Els autors volem expressar el nostre agraïment més sincer a la Cristina Muñoz per la seva
col·laboració en el disseny dels gràfics del llibre. També volem fer constar la nostra gratitud
envers els companys de la Secció del Departament de Matemàtica Aplicada III del Campus de
Terrassa, així com a totes les persones que han seguit amb interès el desenvolupament d’aquest
treball.
Índex
1 Estadística descriptiva 13
1.1 Població i mostra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.2 Tipus de variables estadístiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.3 Presentació de les dades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.4 Mesures descriptives numèriques . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.5 Box-plot i detecció de valors anòmals . . . . . . . . . . . . . . . . . . . . . . . . . 36
1.6 Experiments bivariants. Regressió i correlació . . . . . . . . . . . . . . . . . . . . 38
1.7 Variables qualitatives. Taules de contingència . . . . . . . . . . . . . . . . . . . . 49
1.8 Exercicis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
2 Probabilitat elemental 59
2.1 Experiments aleatoris . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
2.2 Probabilitat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
2.3 Exercicis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
3 Models de probabilitat 77
3.1 Models de probabilitat per a variables discretes . . . . . . . . . . . . . . . . . . . 77
3.2 Models de probabilitat per a variables contínues . . . . . . . . . . . . . . . . . . . 82
3.3 Distribució d’una funció d’una variable aleatòria . . . . . . . . . . . . . . . . . . 88
3.4 Variables aleatòries bidimensionals . . . . . . . . . . . . . . . . . . . . . . . . . . 90
3.5 Independència de variables aleatòries . . . . . . . . . . . . . . . . . . . . . . . . . 102
3.6 Operacions amb variables aleatòries . . . . . . . . . . . . . . . . . . . . . . . . . 103
3.7 Esperança matemàtica d’una variable aleatòria . . . . . . . . . . . . . . . . . . . 107
3.8 Variància d’una variable aleatòria . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
3.9 Covariància i coeficient de correlació . . . . . . . . . . . . . . . . . . . . . . . . . 113
10 Índex
Taules 353
Bibliografia 377
Estadística descriptiva
L’objectiu de l’estadística podríem dir que és el de treure conclusions d’un conjunt d’individus a
partir d’observar només una part d’aquests individus. El conjunt complet d’individus o unitats
que es vol estudiar rep el nom de població, i el subconjunt de la població format pels individus
que s’observa és una mostra de la població. El nombre d’individus que conté la mostra és la
mida de la mostra.
Un exemple de població és el total de llums, d’un determinat tipus, fabricats per una determinada
empresa durant el darrer any. Una mostra de la població de llums és un subconjunt del total de
llums escollit per sorteig.
14 Elements d’estadística
Normalment a cada individu d’una població s’associen mesures o atributs d’interès. Per exemple,
en el cas dels llums podem associar a cada llum la mesura numèrica de la seva durada. També
li podem associar l’atribut, per exemple, de llum correcte si el temps de durada supera les 500
hores, i de llum defectuós si el temps de durada no supera les 500 hores.
A vegades la població d’interès no està disponible, com per exemple si considerem la població
dels llums que es fabricaran el proper any. Llavors s’ha de treballar amb una mostra d’una
població equivalent, per exemple amb una mostra dels llums fabricats fins ara, en el supòsit que
les condicions que determinen el producte final siguin les mateixes.
Una variable estadística o aleatòria és qualsevol característica d’interès que es pugui mesurar
sobre cada subjecte d’una determinada població en presència de variabilitat. Entenem que hi
ha variabilitat en aquelles situacions en què dos subjectes equivalents poden diferir en la mesura
d’interès a causa de l’acció de causes que no podem controlar. Per exemple, el nombre d’hores
que duren dos dispositius fabricats en condicions idèntiques i treballant en condicions idèntiques
poden no ser el mateix, és a dir hi ha variabilitat.
Són d’aquests tipus de variables les mesures de pes, longitud, temps, etc.
Per tal de facilitar la percepció de les seves característiques, les dades es presentaran organitzades
en taules de distribució de freqüències, que es representaran gràficament en diagrames de barres
i histogrames.
A l’hora de representar les dades en taules de freqüències es distingirà entre, d’una banda,
dades corresponents a variables qualitatives o quantitatives discretes, i d’una altra, dades que
corresponen a variables contínues.
Dades qualitatives. Les dades corresponents a una variable qualitativa es presenten mit-
jançant una taula en què s’especifiquen els atributs considerats, conjuntament amb les seves
freqüències. La freqüència d’un atribut és el nombre de cops que aquell ha estat observat i es
diu que és la seva freqüència absoluta. S’inclouen també a la taula les freqüències relatives de
cada atribut que s’obtenen dividint la freqüència absoluta de l’atribut pel nombre total d’obser-
vacions. Al multiplicar per 100 la freqüència relativa d’un atribut s’obté un número que expressa
el tant per cent, sobre el total d’observacions, que representa el nombre de cops que s’ha observat
l’atribut. La taula rep el nom de taula de freqüències de la variable.
Exemple 1: Sigui X la variable de classificació de les peces d’un determinat procés de fabricació.
Aquesta variable pren els valors
A = peça acceptable
D = peça descartable
R = peça reciclable
Es pren una mostra de 20 peces (mostra de mida 20) i s’anota el valor que pren la variable X
sobre cada una de les 20 peces. Els resultats obtinguts són: A, A, A, D, A, D, D, R, R, R, A,
R, D, D, A, A, A, D, D, A.
16 Elements d’estadística
En aquest cas, a diferència del cas qualitatiu, es pot calcular la freqüència acumulada de cada
valor de la variable, que mostra directament el nombre de casos de la mostra amb valor inferior o
igual a aquell valor de la variable. Les freqüències acumulades absolutes, per a un valor, s’obte-
nen sumant successivament les freqüències absolutes obtingudes fins aquell valor. Igualment,
les freqüències relatives acumulades s’obtenen sumant successivament les freqüències relatives
corresponents fins al valor corresponent.
Exemple 2: Sigui X la variable discreta que compta el nombre d’avaries diàries que es pro-
dueixen en una certa planta industrial. Es pren una mostra de mida 20 i s’obté 4, 2, 0, 0, 1, 1,
1, 0, 0, 0, 2, 0, 1, 1, 0, 3, 1, 0, 0, 0. És a dir, al llarg de 20 dies s’ha anotat el nombre d’avaries
que s’han produït cada dia. S’observa que el dia en què va haver-hi més avaries se’n van produir
quatre i el dia que menys van ser zero. Per tant els valors possibles de la variable per a aquesta
mostra van de zero a quatre.
valors freq. abs. freq. relat. freq. acum. freq. relat. acum.
0 10 10/20 = 0.5 10 10/20 = 0.5
1 6 6/20 = 0.3 16 16/20 = 0.8
2 2 2/20 = 0.1 18 18/20 = 0.9
3 1 1/20 = 0.05 19 19/20 = 0.95
4 1 1/20 = 0.05 20 20/20 = 1
total 20 1
És a dir, si considerem, per exemple, el valor X = 3, el fet que la seva freqüència sigui 1 significa
que dels 20 dies considerats hi ha hagut únicament un dia en què s’han produït exactament tres
avaries. Aquest únic dia representa el 5% (freqüència relativa igual a 0.05) del total dels 20 dies.
1 Estadística descriptiva 17
En canvi, que la freqüència acumulada del valor X = 3 sigui 19 significa que dels 20 dies va
haver-n’hi 19 en què es van produir tres o menys avaries. De fet 19 = 10 + 6 + 2 + 1, és a dir, 19
és la suma dels deu dies amb cap avaria, més els 6 amb una, més els 2 amb dues més l’un amb
tres.
La freqüència relativa acumulada igual a 0.95 per X = 3 significa que els 19 dies de freqüència
absoluta acumulada corresponen al 95% del total de 20 dies.
Dades contínues. Quan la variable es mesura en una escala contínua es fa necessari agrupar
els valors observats en classes i presentar les freqüències d’aquestes classes en una taula que com
abans s’anomenarà taula de freqüències.
2. Seleccionar els límits que defineixen les classes de manera que cada observació es classifiqui
sense ambigüitat en una única classe.
Exemple 3: Sigui X la variable que mesura la tensió de ruptura d’un tipus de fil. Es pren una
mostra de 21 d’aquests fils i les mesures, expressades en quilograms-força, són les següents:
1.712, 1.735, 1.613, 1.76, 1.87, 1.815, 1.801, 1.765, 1.70, 1.73, 1.68, 1.683, 1.64, 1.62,
1.75, 1.69, 1.74, 1.715, 1.79, 1.77, 1.81
171, 174, 161, 176, 187, 182, 180, 177, 170, 173, 168, 168, 164, 162, 175, 169, 174,
172, 179, 177, 181
El valor inferior és 161 i el més gran 187. Es consideraran classes de longitud cinc entre 160 i
190. Per tal de classificar sense ambigüitat les observacions es prenen com a classes els intervals
18 Elements d’estadística
classes freq. abs. freq. relat. freq. acum. freq. relat. acum.
(160, 165] 3 0.1429 3 0.1429
(165, 170] 4 0.1905 7 0.3333
(170, 175] 6 0.2857 13 0.6190
(175, 180] 5 0.2381 18 0.8571
(180, 185] 2 0.0952 20 0.9523
(185, 190] 1 0.0475 21 1
total 21 1
Que la freqüència acumulada fins a (175, 180] sigui 18 vol dir que, de les 21 observacions, n’hi
ha 18 que són menors o igual que 180. És a dir, la freqüència acumulada en la classe (a, b] es el
nombre d’observacions que són menors o iguals que l’extrem superior, b, de l’interval de classe.
Observació: Una taula de freqüències com les dels exemples anteriors es pot fer servir per
aproximar intuïtivament la “probabilitat” d’obtenir un determinat resultat al repetir l’experiment
que origina les observacions.
Per exemple, en el cas de la variable qualitativa que classifica les peces en A, D i R, la freqüència
relativa de D és, per a la mostra presa, igual a 0.35. Es pot considerar 0.35 com una aproximació
de la probabilitat (probabilitat del 35%) que al fabricar una peça, aquesta sigui descartable.
Un altre exemple és el de la variable nombre d’avaries per dia. En aquell cas, la freqüència relativa
de quatre avaries era de 0.05. Per tant, es considera que la probabilitat que es produeixin quatre
avaries en un dia qualsevol és aproximadament 0.05 (probabilitat del 5%). La freqüència relativa
acumulada en 1 és 0.80, llavors la probabilitat que es produeixi com a màxim una avaria en un
dia és aproximadament 0.80 (probabilitat del 80%).
De forma semblant, en el cas de la variable tensió de ruptura, s’observa que la freqüència relativa
de l’interval (165, 180] (unió dels intervals (165, 170] , (170, 175] i (175, 180]) és 0.7143, suma de
les freqüències relatives dels intervals corresponents. Es diu llavors que, en base a la mostra, la
probabilitat que una unitat de la població tingui una tensió de ruptura superior a 165 decagrams
però no superior a 180 decagrams, és aproximadament del 71.4%.
S’ha de tenir en compte, però, que la probabilitat és un nombre fix que expressa (en percentatge)
les possibilitats d’obtenir un determinat resultat i, en canvi, la freqüència relativa és un número
que varia amb la mostra. Per tant, la bondat de l’aproximació de la probabilitat a partir de la
freqüència relativa mostral dependrà de les característiques de la mostra.
Observació: Encara que aquí s’ha fet servir intervals del tipus (a, b] per definir les classes, hi
1 Estadística descriptiva 19
ha altres opcions igualment vàlides com, per exemple, les dues següents:
classes freq. abs. freq. relat. freq. acum. freq. relat. acum.
[160, 165) 3 0.1429 3 0.1429
[165, 170) 3 0.1429 6 0.2858
[170, 175) 6 0.2857 12 0.5715
[175, 180) 5 0.2381 17 0.8096
[180, 185) 3 0.1429 20 0.9525
[185, 190) 1 0.0475 21 1
total 21 1
classes freq. abs. freq. relat. freq. acum. freq. relat. acum.
[161, 165] 3 0.1429 3 0.1429
[166, 170] 4 0.1905 7 0.3333
[171, 175] 6 0.2857 13 0.6190
[176, 180] 5 0.2381 18 0.8571
[181, 185] 2 0.0952 20 0.9523
[186, 190] 1 0.0476 21 1
total 21 1
En aquesta última taula, des del punt de vista de compatibilitat amb la representació gràfica de
les freqüències, és més convenient definir les classes a partir de [160.5, 165.5] , . . . , [185.5, 190.5].
2. Disposar les dades en una sola taula amb dues columnes separades per una línia de la
manera següent:
a) Per a dades amb dues xifres: les desenes, que constituiran la tija, a l’esquerra de la
línia i les unitats, que són les fulles, a la dreta. Per exemple, 42 s’escriu 4|2
b) Per a dades amb tres xifres, la tija la formaran les xifres que corresponen a les centenes
i a les desenes, i les fulles són les unitats. Per exemple 324 és 32|4
3. Cada tija s’escriu un sol cop. El nombre de fulles dóna la freqüència de la tija.
20 Elements d’estadística
Exemple: Per a les dades de tensió de ruptura arrodonides, que són de tres xifres, es pren 16,
17 i 18 de tija i s’obté
16|188429
17|14670354297
18|7201
16|124889
17|01234456779
18|0127
de manera que les dades de la mostra, ordenades en ordre creixent de magnitud, són
161, 162, 164, 168, 168, 169, 170, 171, 172, 173, 174, 174, 175, 176, 177,
177, 179, 180, 181, 182, 187
En conseqüència, aquest procediment és també útil per ordenar manualment de manera ràpida
una col·lecció de valors.
Diagrames de barres. Els diagrames de barres es construeixen representant els valors obser-
vables (possibles valors de la variable) en una escala horitzontal, els valors de les freqüències en
una escala vertical i dibuixant barres verticals sobre els valors observats, en l’eix horizontal, de
manera que les longituds de les barres representin les freqüències corresponents. L’amplada de
les barres no té, en aquest cas, cap significat.
Per a la variable quantitativa discreta que compta el nombre d’avaries diàries (exemple 2 de la
pàgina 16), el diagrama de barres de les freqüències relatives, en percentatges, és a la figura 1.3.
Histogrames. Els histogrames representen gràficament les taules de freqüències de les variables
estadístiques contínues. En un eix horitzontal s’assenyalen les classes en la seva escala numèrica,
i es representen les freqüències d’aquestes classes mitjançant rectangles amb bases determinades
pels límits de cada classe i amb àrees proporcionals a les freqüències corresponents.
Normalment, al formar la taula de freqüències les classes es prenen d’igual longitud. En tal
cas l’histograma es construeix establint una escala a l’eix vertical i aixecant rectangles sobre els
intervals de classe de manera que les seves alçades siguin iguals a les freqüències (absolutes o
relatives segons sigui el cas) de classe corresponents. En aquest cas el factor de proporcionalitat
entre les àrees dels rectangles i les freqüències és la longitud de classe.
S’observa que les barres s’aixequen sobre cada classe fins a una alçada igual a la freqüència de
la classe, de manera que l’àrea de cada rectangle és proporcional a la freqüència de la classe
corresponent, amb factor de proporcionalitat igual a la longitud de classe, que en aquest cas és
cinc.
Convé advertir que si les classes no es prenguessin d’igual longitud llavors les altures no podrien
coincidir amb les freqüències de classe respectives i s’hauria de construir tenint en compte la
proporcionalitat de les diferents longituds de classe.
Així, a l’histograma de la figura 1.6 en comptes d’agafar l’alçada de cada rectangle igual a la
freqüència relativa de la classe corresponent, s’ha pres igual a la freqüència relativa dividida per
la longitud de classe, de manera que en aquest histograma l’àrea de cada rectangle és igual a la
freqüència relativa, en percentatge, de la classe corresponent i l’àrea total igual a 100.
És possible a partir d’aquí aproximar la probabilitat que un individu de la població tingui una
tensió de ruptura entre 167 i 178 decagrams mitjançant l’àrea corresponent d’aquest histograma.
Això és,
P (tensió entre 167 i 178) ' A = (170 − 167)3.81 + (175 − 170)5.714 + (178 − 175)4.762
= 54.3
24 Elements d’estadística
Observació: S’ha de tenir en consideració que la mostra sobre la qual s’ha operat consta només
de 21 unitats. Al ser una mostra petita l’aproximació de la probabilitat per la freqüència relativa
pot no ser gaire fiable.
Aplicant els mateixos procediments a les distribucions de freqüències acumulades s’obtenen els
histogrames de freqüències acumulades. L’histograma de freqüències acumulades pel nombre
d’avaries està a la figura 1.8, i l’histograma acumulat relatiu de les dades de tensió de ruptura
a la figura 1.9.
Sovint interessa representar un conjunt de dades mitjançant algunes mesures numèriques, que
es converteixen en descriptors del conjunt total de valors. Els números que s’escullin dependran
de les característiques particulars del conjunt de dades que es vol descriure. En un determinat
moment pot per exemple interessar saber els valors més gran i més petit del conjunt de dades,
o el valor que és superat només pel 50% del total dels valors, o la suma total de totes les
observacions, etc. Les mesures de posició són les que en certa manera descriuen d’alguna forma
el “centre” del conjunt de dades.
Mitjana: La mitjana d’un conjunt de dades és la suma de tots els valors observats dividida pel
nombre d’observacions. Si x1 , . . . , xn són les observacions, la mitjana és
n
1X
x= xi
n
i=1
Per exemple, la mitjana dels valors corresponents al nombre d’avaries diàries de l’exemple 2 de
la pàgina 16 és
0+0+0+0+0+0+0+0+0+0+1+1+1+1+1+1+2+2+3+4 17
x= = = 0.85
20 20
26 Elements d’estadística
S’observa que per calcular la mitjana n’hi ha prou amb sumar els productes dels valors de la
variable per les seves freqüències relatives corresponents,
0 · 10 + 1 · 6 + 2 · 2 + 3 · 1 + 4 · 1 10 6 2 1 1
x= =0· +1· +2· +3· +4· = 0.85
20 20 20 20 20 20
En general és
X
x= xi · freq.relat (xi )
xi
Es comprova que la mitjana de les dades de tensió de ruptura de l’exemple 3 de la pàgina 17,
sense arrodonir, és 1.7328, i quan s’agafen arrodonides, expressades en decagrams, és 173.33.
La mitjana es fa servir normalment per indicar el “centre” de les dades. Aquesta mesura té el
desavantatge de venir afectada pels valors extrems. Té en compte cada cas individualment, i, per
tant, quan les dades contenen observacions molt grans o molt petites, que estan tan allunyades
del cos principal de valors que fins i tot és discutible que hi pertanyin, el valor de la mitjana pot
perdre el seu caràcter de descriptor significatiu del centre de les observacions.
La moda per la mostra del nombre d’avaries és zero, ja que és el valor més observat. Per a les
dades de tensió de ruptura arrodonides hi ha tres valors modals: 168, 174 i 177. Hi ha tres
modes.
Per a dades agrupades en classes es parla de classe modal. Per exemple, la classe modal corres-
ponent a la taula de freqüències de l’exemple 3 de la pàgina 17 és la classe (170, 175].
L’avantatge principal de la moda com a mesura de centre radica en poder-la fer servir amb
dades qualitatives. Ara bé, té l’inconvenient que pot no ser única, a diferència de la mitjana que
sempre existeix i és única.
Mediana: La mediana és el valor M tal que quan les dades estan ordenades en ordre creixent de
magnitud hi ha el mateix nombre d’observacions amb valor inferior a M que amb valor superior
a M.
Hem de concretar de forma precisa com determinem la mediana ja que si tenim, per exemple,
les dades 4, 6, 7, 9, 11, 16, qualsevol valor més gran que 7 i inferior a 9 verifica la condició que
caracteritza la mediana.
Exemples:
1. La mediana de 1, 1, 4, 6, 8, 8, 8, 9, 9, 10, 11, 11, 15, 20, 21 és M = 9.
2. La mediana de 4, 4, 5, 5 és M = 4.5.
3. La mediana per les dades del nombre d’avaries de l’exemple 2 de la pàgina 16 és M = 0.5.
4. La mediana per les dades de tensió de ruptura de l’exemple 3 de la pàgina 17, sense
arrodonir, és M = 1.735, i un cop arrodonides, i expressades en decagrams, resulta M =
174.
Quartils i percentils: Els quartils són els valors que classifiquen el conjunt d’observacions en
quatre conjunts amb igual nombre d’elements, quan els valors observats estan ordenats en ordre
creixent de magnitud.
Primer quartil Q1 : aproximadament el 25% dels valors observats són inferiors o iguals que ell.
Tercer quartil Q3 : aproximadament el 75% dels valors observats són inferiors o iguals que ell.
Els quartils i també la mediana són un cas particular de percentil. El percentil 100γ, amb
0 < γ < 1, es defineix com el valor tal que aproximadament el 100γ% de les observacions són
menors o iguals que ell.
Exemple: Suposem que n = 23. Aleshores el percentil p0.20 , el valor que aproximadament el
20% de les observacions són inferiors o iguals que ell, és
p0.20 = x(5)
28 Elements d’estadística
ja que
γn + 0.5 = 0.20 · 23 + 0.5 = 5.1
i 5 és l’enter més pròxim a 5.1. El percentil p0.22 serà
p0.22 = x(6)
x(19) +x(20)
p0.40 = x(16) p0.50 = 2 p0.60 = x(23)
Tal com hem definit els percentils, els quartils i la mediana corresponen als percentils 25, 50 i
75. És a dir,
Q1 = p0.25 Q2 = M = p0.50 Q3 = p0.75
A la pràctica, per calcular els quartils es divideix el conjunt de dades, un cop ordenades en
ordre creixent de magnitud, en dos subconjunts d’igual tamany. Aleshores, el primer quartil és
la mediana de la primera mostra i el tercer quartil la mediana de la segona mostra.
En l’exemple anterior la mida del conjunt de dades era parella. Quan la mida és senar, com
per exemple passa amb 3, 4, 6, 7, 7, aleshores la part dels valors petits és 3, 4, 6 i la dels valors
grans 6, 7, 7. Per tant Q1 = 4 i Q3 = 7.
Exemples:
1. En el conjunt de valors 3, 4, 5, 6, 6, 7, 8, 10, 10, 11, 12, 12, 15, 16, 17 els quartils són
Q1 = 6, Q2 = M = 10 i Q3 = 12.
Observació: La manera que hem adoptat per definir els percentils només és una de les opcions,
ja que hi ha diferents maneres de definir els percentils. Per exemple, una altra opció és definir
1 Estadística descriptiva 29
el percentil pγ com el valor x(i) tal que i és l’enter més pròxim a γ(n + 1) en comptes de
γn + 0.5. Calculat d’aquesta manera el percentil p0.90 per a un conjunt de n = 23 observacions
és x(22) , quan abans ens ha donat x(21) . Convé remarcar, però, que les diferències es donen en
els extrems i són mínimes. Una altra opció és no agafar necessàriament els percentils entre els
valors observats sinó interpolar. Per exemple, si tenim n = 16 observacions, el percentil 20 és
x(γn+0.5) = x(3.7) i de
¡ ¢
s’obté p0.20 = x(3.7) = x(3) + 0.70 x(4) − x(3) .
L’objectiu d’aquestes mesures és el de proporcionar una mesura de fins a quin punt les dades es
dispersen o s’agrupen.
Rang del conjunt de dades: El rang és la diferència entre el valor més gran i el valor més petit
del conjunt d’observacions. Dóna la magnitud de l’interval en què es troben les observacions.
n
1X
2
s = (xi − x)2
n
i=1
Observem que la variància és positiva, i val zero només quan totes les dades de la mostra són
la mateixa (mostra constant). Quan les dades són nombres enters o contenen pocs decimals, el
càlcul de les desviacions xi − x pot ser tediós. Podem obtenir una fórmula més eficient per al
30 Elements d’estadística
Per exemple, la variància de la mostra 8.5, 7, 7.5, 9, 8.5, que té mitjana x = 8.1, és
1¡ 2 ¢
s2 = 8.5 + 72 + 7.52 + 92 + 8.52 − 8.12 = 0.54
5
Més endavant veurem que hi ha motius d’ordre teòric per considerar la variància mostral cor-
regida, que és
n
1 X
s̃2 = (xi − x)2
n−1
i=1
En efecte,
n
1X 1 X 1 X
2
s = (xi − x)2 = (xi − x)2 + (xi − x)2
n n n
i=1 |xi −x|≥ks |xi −x|<ks
i en conseqüència
1
freq. relat { xi | |xi − x| < ks} ≥ 1 −
k2
tal com volíem veure.
La desigualtat de Txebixev assegura que a (x − 2s, x + 2s) es troba com a mínim el 75% de les
dades de la mostra, a (x − 3s, x + 3s) com a mínim el 88% i a (x − 4s, x + 4s) com a mínim el
¡ ¢
93%. En general, a l’interval (x − ks, x + ks) hi ha com a mínim el 100 1 − k12 % de les dades
observades.
Exemples:
i indica la magnitud promig de l’error (desviació típica) com percentatge del valor de la mitjana.
És útil per comparar les dispersions de quantitats expressades en diferents escales.
32 Elements d’estadística
Suposem, per exemple, que en la categoria professional A, el sou mitjà és de 10621 euros anuals
amb una desviació típica de 1009.2 euros mentre que en la categoria professional B el sou mitjà
és de 11 euros per hora amb una desviació típica de 2.3 euros.
Això significa que la desviació típica representa per A el 9.5% del sou mitjà mentre que en B
correspon al 21%, i en conseqüència la dispersió de sous és més gran en la categoria B que en la
categoria A.
Considerarem aquí mesures per diferenciar els conjunts de dades en base a la forma que presenten
les seves representacions gràfiques en histogrames.
Gràfic de simetria
Una manera gràfica de detectar el grau de simetria d’un conjunt de dades és mitjançant el
diagrama de punts de les distàncies dels valors sota la mediana a la mediana, contra les distàncies
dels valors sobre la mediana a la mediana. El gràfic resultant és el gràfic de simetria, i està pensat
per facilitar l’estudi gràfic del nivell de simetria d’un conjunt de dades.
Intuïtivament, un conjunt de mesures diem que es distribueix de forma simètrica quan l’his-
tograma presenta un aspecte simètric com el de la figura 1.10 a). En canvi, quan l’histograma és
del tipus del de Fig. 1.10 b) diem que les observacions presenten un biaix a la dreta. I si és com
el de Fig. 1.10 c) direm que presenten un biaix a l’esquerra. En aquests dos casos es manifesta
un comportament clarament asimètric.
De forma més precisa, un conjunt de dades és totalment simètric quan per cada valor xi superior
1 Estadística descriptiva 33
xi − M = M − xj
La seva mediana és
9.5 + 10.5
M= = 10
2
Les distàncies M − xj per als cinc valors xj inferiors a M , en ordre creixent són
i les distàncies xi − M pels cinc valors xi superiors a M , en ordre creixent són les mateixes
Per tal de construir el gràfic de simetria notarem xi (r−) el valor observat que ocupa la posició
r quan les dades estan ordenades en ordre creixent, començant a comptar des de M cap a
l’esquerra. Anàlogament, notarem xi (r+) el valor que ocupa la posició r quan les dades estan
ordenades en ordre creixent, començant a comptar des de M però cap a la dreta. Per exemple,
en el conjunt de dades que acabem de fer servir és
i
xi (1+) = 10.5, xi (2+) = 11, xi (3+) = 12.5, xi (4+) = 14.5, xi (5+) = 15
El gràfic que acabem de construir, i que en direm gràfic de simetria, el podem construir per a
qualsevol conjunt de dades i la seva forma mostrarà el grau de simetria o asimetria de les dades.
Per exemple, un conjunt de dades amb asimetria cap a la dreta com les que donen l’histograma
de Fig. 1.10 b) presentarà un gràfic de simetria de l’estil del de la figura 1.12. En canvi, un
conjunt de dades amb asimetria a l’esquerra com el de l’histograma de Fig. 1.10 c) tindrà un
gràfic de simetria del tipus de Fig. 1.13.
Per a conjunts de dades no molt asimètriques, amb biaix a la dreta o a l’esquerra com les de
la figura 1.14, l’ordenació entre la moda, la mediana i la mitjana acostuma a ser com la que es
mostra a la mateixa figura. Si les dades són simètriques llavors aquests tres valors coincideixen.
Es té la relació empírica
x − Moda ' 3(x − M )
x − Moda 3(x − M )
a= '
s s
o el nombre
x−M
s
De tota manera, aquesta mesura té poc interès pràctic i com mesura numèrica d’asimetria és
preferible el coeficient d’asimetria definit a continuació.
llavors
n
X
(xi − x)3 = 0
i=1
36 Elements d’estadística
Aquesta situació ideal no és la que normalment es dóna a la pràctica. Fins i tot quan el com-
portament de les dades és força simètric el coeficient d’asimetria és petit però no és exactament
zero.
El coeficient d’asimetria positiu correspon a un biaix a la dreta, i quan és negatiu vol dir que el
biaix és a l’esquerra.
Llavors, per freqüències altes de valors pròxims a la moda l’aspecte de l’histograma és com el
de Fig. 1.15 a). Quan els valors pròxims a la moda tenen freqüències moderadament altes,
l’histograma és com el de Fig. 1.15 b). I quan les freqüències dels valors al voltant de la moda
són només lleugerament més altes que els altres llavors l’histograma presenta un aspecte com
el de Fig. 1.15 c). Com més apuntat és l’histograma, més gran és el coeficient d’apuntament.
Així, dels tres histogrames de la figura 1.15 el que té el coeficient d’apuntament més gran és
l’histograma a), i el que el té més petit és el c).
El box-plot és un procediment gràfic que permet descriure de forma resumida algunes de les
característiques més importants d’un conjunt de dades estadístiques. Aquestes característiques
són essencialment: el centre, la dispersió, les asimetries i la identificació de valors anòmals. La
seva construcció es basa en mesures “resistents” a la presència de valors anòmals.
f1 = Q1 − 1.5(Q3 − Q1 ) F1 = Q1 − 3(Q3 − Q1 )
f3 = Q3 + 1.5(Q3 − Q1 ) F3 = Q3 + 3(Q3 − Q1 )
Les fi delimiten la frontera per a les anomalies moderades i les Fi la frontera per a les anomalies
extremes.
La representació gràfica es realitza, un cop establert un eix de referència, generant una caixa
delimitada per Q1 i Q3 , a què també s’assenyala la mediana, M , i a què s’uneix ADJ1 i ADJ3
amb segments. Els valors situats més enllà de les fronteres d’anomalies es representen de forma
individual.
Exemple: Considerem les dades següents que corresponen al nombre de peces defectuoses
observades en 45 lots de 2000 peces sortides d’un procés de producció,
21, 18, 18, 18, 19, 19, 19, 19, 19, 19, 19, 20, 20, 20, 20, 20, 20, 22, 24, 24, 26, 27, 27,
27, 29, 16, 16, 16, 17, 17, 17, 17, 18, 18, 18, 18, 18, 19, 19, 19, 19, 16, 16, 16, 16
Es té que
M = 19 Q1 = 18 Q3 = 20 Q3 − Q1 = 2
f1 = 18 − 1.5 · 2 = 15 F1 = 18 − 3 · 2 = 12
f3 = 20 + 1.5 · 2 = 23 F3 = 20 + 3 · 2 = 26
i el seu box-plot és a Fig. 1.16. Es detecten com valors anòmals moderats 24 i 26, i com anòmals
extrems 27 i 29.
38 Elements d’estadística
Observació: L’asimetria de les dades pot fer que s’assenyalin com valors extrems valors que en
realitat no ho són. Per tal d’evitar-ho el que s’ha de fer, si l’asimetria de les dades es mostra
de forma prou evident en el box-plot, és simetritzar les dades mitjançant una transformació
adequada.
Quan es mesuren dues o més característiques en una mateixa unitat experimental es diu que es
té un experiment multivariant. En cas de dues mesures es parla d’experiment bivariant.
Exemples:
1. Es vol establir la relació entre la quantitat de vapor en litres que fa servir un bescanviador
i la temperatura assolida pel fluid en graus centígrads. S’han observat les dades següents:
2. Per un determinat model de cotxe s’ha fet un estudi sobre l’evolució del seu valor al llarg
del temps. S’ha registrat el valor del cotxe en termes del percentatge del preu inicial de
venda. Les dades són a la taula següent.
mesos 5 10 15 20 25 30 35 40
% valor inicial 80 78 75 71 69 65 61 56
Per exemple, al cap de 15 mesos el preu de venda és el 75% del preu inicial.
1 Estadística descriptiva 39
3. Es vol establir la relació entre el desgast, per fregament, de l’acer amb la viscositat de
l’oli. Es prenen mesures del volum de desgast en 10−4 mm3 per diferents viscositats. Els
resultats són
visc 14.5 26.4 1.58 20.1 35.7 22.2 41.3 41.5 33.3 8.1 9.38
vol 191 142 239 156 111 173 112 76 95 221 180
4. S’escullen dotze estudiants a l’atzar i s’anota, per a cada estudiant, la nota obtinguda en
estadística, E, i la nota promig, P , en les altres assignatures del curs.
L’objectiu serà esbrinar si existeix algun tipus de relació entre les dues variables que es consideren
i, en cas d’existir, calcular una mesura del grau de relació determinant, si és possible, una equació
que el descrigui, encara que sigui de forma aproximada.
Un primer pas de cara a determinar l’existència d’una relació entre les variables considerades
és el de representar les dades gràficament. Els dos valors mesurats sobre un mateix subjecte
constitueixen el parell (xi , yi ) que es representa com un punt en un pla coordenat. La col·lecció
de tots els punts, que correspon al total del conjunt de casos observats, constitueix l’anomenat
diagrama de dispersió o diagrama de punts de l’experiment o scatterplot. A partir d’aquest
diagrama és possible a vegades intuir certs tipus d’associació entre variables.
Els diagrames de punts corresponents als exemples anteriors són a les figures 1.17, 1.18, 1.19 i
1.20.
Grau de correlació. Normalment s’utiliza el terme correlació per significar relacions entre
variables. Quan els parells de valors (xi , yi ) corresponents a un experiment bivariant verifiquen
una mateixa equació es diu que les variables corresponents estan perfectament correlacionades.
En cas contrari pot existir el que s’anomena un cert grau de correlació que pot ser més o menys
gran, segons la tendència dels punts. Si els punts tendeixen a agrupar-se al voltant d’una recta
es dirà que la correlació és lineal. Si a un valor més gran d’una variable correspon un valor més
gran de l’altra es diu que la correlació és positiva, i es dirà que la correlació és negativa si succeeix
al revés. Si els punts es presenten arbitràriament dispersos es diu que no hi ha correlació i que
les variables no estan correlacionades.
A l’exemple 1 de la pàgina 38 s’observa, a partir del diagrama de punts, una tendència de les
variables a associar-se segons la direcció d’una recta en sentit creixent, és a dir, a més vapor en
el bescanviador, correspon proporcionalment més temperatura. Es dirà llavors que en aquest
cas s’aprecia un cert grau de correlació lineal entre les dues variables. En els exemples 2 i 3
s’aprecia una correlació negativa entre els mesos i % del valor inicial, i desgast i viscositat. A
l’exemple 4 s’observa que no hi ha cap correlació.
El gràfic de la figura 1.21, que manifiesta una associació de tipus parabòlic entre variables,
proporciona un exemple d’associació no lineal entre variables.
Observació: Quan el diagrama de punts no mostra cap tipus de correlació s’haurà de comprovar
que això no es deu a factors subjacents com per exemple a l’estratificació de poblacions o a un
rang de les dades insuficient. En el gràfic de la figura 1.22 no s’observa cap tipus de correlació:
però si es diferencien (estratifiquen) les dades en base a un hipotètic factor diferenciador (punts
en aspa i punts circulars a Fig. 1.23) llavors apareix una certa correlació entre les variables en
cada un d’aquests subconjunts que quedava amagada al no distingir el factor diferencial.
Els gràfics següents exemplifiquen un cas en què l’interval [a, b] és insuficient per detectar l’as-
sociació entre les variables. Suposem que les dades s’observen per valors de X entre a i b i que
el diagrama de punts és el de la figura 1.24, però que quan els valors de X es prenen entre c i d
s’obté un gràfic com el de Fig. 1.25. Aleshores en aquest cas es posa de manifest la correlació
que abans quedava amagada per la limitació a l’interval [a, b].
Determinació del grau d’associació lineal entre dues variables. Per a una col·lecció de
dades bivariants (x1 , y1 ), . . . , (xn , yn ), en què a partir del diagrama de punts s’aprecia un cert
grau de correlació lineal, es planteja el problema d’obtenir una mesura numèrica del grau de
correlació lineal i una equació matemàtica que descrigui de manera prou aproximada la relació
entre les variables. Es plantejarà primerament l’ajust d’una recta al diagrama de punts que
aproximi la relació lineal entre les variables X i Y .
La recta s’ajustarà seguint el criteri de minimitzar errors (se suposa que tots els punts haurien
d’estar sobre una recta de no existir causes desconegudes que originen variacions aleatòries). El
criteri utilizat serà el criteri de mínims quadrats, que consisteix a trobar la recta
y = a + bx
per la que la suma dels quadrats dels errors (vegeu Fig. 1.26) és mínima
n
X n
X
e2i = (yi − (a + bxi ))2
i=1 i=1
Els valors “y” obtinguts a partir dels valors xi de les dades a través d’aquesta recta s’indicaran
yi amb ˆ, això és,
ybi = a + bxi
La conveniència de la utilizació del criteri de mínims quadrats es deu essencialment a dos factors:
un és que les operacions amb sumes de quadrats són molt simples (molt més complexes resulten
les operacions amb valors absoluts, com seria el cas en què es plantegés l’ajust a partir de
la minimització de la suma dels valors absoluts dels errors) i l’altre és que així es dóna més
importància als errors grans ja que a l’elevar al quadrat augmenten més els errors grans que els
petits.
44 Elements d’estadística
El sistema d’equacions ½ ¾
∂F ∂F
= 0, =0
∂a ∂b
proporciona Pn
(yi − y) (xi − x)
b = i=1 Pn 2 a = y − bx
i=1 (xi − x)
on x i y són les mitjanes dels valors observats de X i de Y respectivament.
on
n
1X
s2x = (xi − x)2
n
i=1
és la variància dels valors observats de la variable X, i
n
1X
sxy = (xi − x) (yi − y)
n
i=1
rep el nom de covariància dels valors observats de les variables X i Y .
La recta obtinguda d’aquesta manera es diu que és la recta de regressió dels valors observats
de Y sobre els valors observats de X o, simplement, recta de regressió de Y sobre X. Vegeu la
figura 1.27.
Procedint de manera semblant s’obté la recta de regressió de X sobre Y (vegeu Fig. 1.28). La
seva equació és
sxy
x − x = 2 (y − y)
sy
s2y
y−y = (x − x)
sxy
Evidentment, si els punts observats (xi , yi ) estiguessin situats sobre una recta (cas de correlació
lineal perfecta) les dues rectes de regressió coincidirien. Per tant, el grau de correlació lineal
entre les variables serà més gran quan més a prop estiguin les dues rectes.
Que els punts siguin alineats equival a que les rectes coincideixin, és a dir, que els pendents de
les rectes siguin iguals
sxy s2y
=
s2x sxy
és a dir
sxy
= ±1
sx sy
46 Elements d’estadística
El coeficient
sxy
r=
sx sy
és tal que
−1 ≤ r ≤ +1
i si |r| = 1 aleshores els punts estan alineats1 . Per tant r proporciona una mesura del grau
d’associació lineal entre els valors observats de X i els de Y . La proximitat de r a 1 o a −1
indica un alt grau de correlació lineal entre les dues variables, mentre que la seva proximitat a 0
indica absència de correlació lineal. El coeficient r rep el nom de coeficient de correlació lineal.2
Quan el valor absolut de r és superior a 0.9, aleshores es considera que hi ha un alt grau de cor-
relació lineal entre les dues variables. Si és inferior a 0.75 aleshores no s’aprecia correlació lineal
i s’ha de buscar algun altre tipus de relació entre les variables, com per exemple la parabòlica,
exponencial, . . . En el cas restant 0.75 < |r| < 0.9 la correlació lineal és feble o acceptable,
depenent de la proximitat de |r| a 0.75 o a 0.9 respectivament.
Comentari: Igual que passa amb la variància, el càlcul de la covariància fent servir la fórmula
P
sxy = n1 ni=1 (xi − x) (yi − y) pot ser tediós. Podem obtenir una fórmula més eficient tenint en
compte que
n n
1X 1X
sxy = (xi − x) (yi − y) = (xi yi − yxi − xyi + x y)
n n
i=1 i=1
à n ! à n !
1 X 1 X
= xi yi − y x − x y + x y = xi yi − x y
n n
i=1 i=1
1
En efecte, la covariància mostral sxy és el producte escalar dels vectors √1n (x1 − x, . . . , xn − x) i
√1 (y1 − y, . . . , yn − y), i les desviacions típiques en són els mòduls. El coeficient de correlació és el cosinus
n
de l’angle format per aquests dos vectors i en particular −1 ≤ r ≤ 1. A més a més |r| = 1 equival a que un dels
dos vectors sigui múltiple de l’altre, la qual cosa equival a yi − y = c(xi − x), i = 1, . . . , n, on c és un nombre real.
Això és el mateix que dir que els punts estiguin alineats.
2 Pn 2 Pn 2
La suma d’errors quadràtics és F (a, b) = i=1 ei = i=1 (yi − (a + bxi )) =
Xn µ µ ¶¶ 2 n s2
sxy Pn
2 P xy 2 Pn sxy
yi − y + 2 (xi − x) = (yi − y) + 4
(xi − x) − 2 (yi − y) 2 (xi − x) =
i=1
sx i=1 i=1 sx i=1 sx
s2xy sxy ¡ ¢
ns2y + 4 ns2x − 2 2 nsxy = ns2y 1 − r2 . Així, r = ±1 equival a e2i = 0 per a i = 1, . . . , n, que al seu
sx sx
torn equival a que els punts estiguin sobre la recta. Observem que quan |r| augmenta llavors F (a, b) disminueix i
per tant els punts s’aproximen més a la recta.
1 Estadística descriptiva 47
És a dir, Ã n !
1 X
sxy = xi yi −x y
n
i=1
Intensitat del poder predictiu. La desviació dels valors de la variable Y respecte de la seva
mitjana y es descompon en dues parts, una explicada per l’associació amb la X, i l’altra no
explicada deguda a factors no contemplats per l’equació de regressió.
n n n
1X 1X 1X
s2y = (yi − y)2 = (yi − ybi )2 + (ybi − y)2
n n n
i=1 i=1 i=1
Es demostra, amb un càlcul senzill, que el quadrat del coeficient de correlació lineal és
Pn
2 (ybi − y)2
r = Pi=1n 2
i=1 (yi − y)
Aquest valor rep el nom de coeficient de determinació i dóna una idea del poder predictiu de
l’equació a l’expressar la proporció de la variància total dels valors observats de Y que s’explica
per l’associació lineal dels valors observats de Y amb els de X.
Observacions:
b) Els valors previstos yb només tenen sentit per valors de x dintre de l’interval en què varien
els valors observats xi .
d) Si es detecta correlació estadística entre dues variables, s’ha d’experimentar amb elles i
estudiar a fons el cas abans de concloure relacions de causalitat entre elles.
S’observa que en el darrer cas, el valor del coeficient de correlació quasi nul reflecteix una absència
de correlació lineal entre les variables (les dues variables es mesuren en una mateixa escala) i es
tradueix en una recta de regressió pràcticament de la forma y = a.
Sovint les observacions mostrals es classifiquen segons dues variables o factors, i interessa saber
si aquestes variables són independents estadísticament. Per exemple, en un dispositiu hi ha dues
línies de producció (factor a dos nivells) de manera que a cada línia es poden produir quatre tipus
de falla diferents (factor a quatre nivells). Llavors es vol saber si el tipus de falla és independent
de la línia.
50 Elements d’estadística
Si es tenen dos criteris de classificació amb k i h nivells respectivament, llavors una mostra de
mida n permet construir la taula
Factor 2
1 2 ··· k
1 O11 O12 ··· O1k
Factor 1 2 O21 O22 ··· O2k
.. .. .. .. ..
. . . . .
h Oh1 Oh2 ··· Ohk
on Oij és la freqüència d’individus amb factor 1 igual a i i factor 2 igual a j. Aquest taula
s’anomena taula de contingència.
Suposem que en el cas del dispositiu anterior les línies són L1 i L2 , i que els tipus de falla són
Fi per a i = 1, 2, 3, 4. A més a més, s’han observat 203 dispositius que han fallat de la manera
que expressa la taula
falla
F1 F2 F3 F4
línia L1 31 11 50 53
L2 8 19 10 21
La taula de freqüències per a aquestes dades es construeix calculant les freqüències relatives per
casella, per fila, i per columna.
F1 F2 F3 F4 Total fila
31 11 50 53 145
15.27% 5.42% 24.63% 26.11% 71.43%
L1
21.38% 7.59% 34.48% 36.55%
79.49% 36.67% 83.33% 71.62%
8 19 10 21 58
3.94% 9.36% 4.93% 10.34% 28.57%
L2
13.79% 32.76% 17.24% 36.21%
20.51% 63.33% 16.67% 28.38%
Total 39 30 60 74 203
columna 19.21% 14.78% 29.56% 36.45% 100%
Per exemple, a la casella L2 , F3 , s’han observat 10 dispositius que presenten el tipus de falla
F3 i provenen de la línia L2 . Aquestes deu observacions corresponen al 4.93% de la mida de la
mostra, que és 203, però en canvi aquestes deu observacions corresponen al 17.24% del total de
dispositius observats fets a la línia dos, i que en total són 58. Finalment, aquests deu dispositius
corresponen al 16.67% dels dispositius de la mostra que han fallat per F3 i que són en total 60.
La taula de freqüències es representa mitjançant el gràfic de mosaic de la figura 1.33, en què les
freqüències es representen en àrees que els són proporcionals.
Ara bé, com es veu aquest no és el cas i per tant sembla que el tipus de falla no és independent
de la línia.
Observació: En general, encara que els dos factors que es consideren siguin independents, el
gràfic de mosaic no mostrarà l’aspecte ideal d’igualtat de distribucions de freqüències relatives
i, per tant, aquest gràfic és indicatiu però no proporciona un mètode per decidir de forma
clara sobre la independència. De fet no hi ha seguretat que es negui la dependència de forma
consistent. En el Capítol 11 es veurà com prendre una decisió avaluant el risc d’error.
Exemple: En una planta, en què es treballa en tres torns, es produeixen quatre tipus diferents
d’avaria, A1 , A2 , A3 i A4 . Es vol saber si el tipus d’avaria és independent del torn. Es disposa
de les dades següents, corresponents al darrer any:
avaria
A1 A2 A3 A4
T1 52 30 21 25
torn
T2 41 25 18 23
T3 31 26 17 20
Per exemple, el nombre 25 a la casella corresponent al torn T2 i avaria A2 significa que durant
el segon torn l’avaria A2 es va produir 25 cops. La taula de freqüències és
A1 A2 A3 A4 Total fila
52 30 21 25 128
15.81% 9.12% 6.38% 7.60% 38.91%
T1
40.63% 23.44% 16.41% 19.53%
41.94% 37.04% 37.50% 36.76%
41 25 18 23 107
12.46% 7.60% 5.47% 6.99% 32.52%
T2
38.32% 23.36% 16.82% 21.50%
33.06% 30.86% 32.14% 33.82%
31 26 17 20 94
9.42% 7.90% 5.17% 6.08% 28.57%
T3
32.98% 27.66% 18.09% 21.28%
25.00% 32.10% 30.36% 29.41%
Total 124 81 56 68 329
columna 37.69% 24.62% 17.02% 20.67% 100%
Segons aquest gràfic sembla que el tipus d’avaria sigui independent del torn, encara que per poder
afirmar-ho amb una certa garantia necessitem elements d’inferència que veurem al Capítol 11.
1.8 Exercicis
Problema 1.1 El nombre de dies, al llarg d’un any, que 20 treballadors no han anat a treballar
és
0, 4, 3, 1, 0, 0, 3, 0, 0, 1, 1, 7, 2, 0, 1, 0, 0, 0, 1, 1
54, 67, 60, 78, 42, 85, 77, 59, 82, 96, 51, 72, 64, 69, 55, 40, 66, 45, 61, 84,
57, 73, 50, 41, 35, 67, 61, 32, 58, 73, 19, 65, 68, 80, 71, 58, 64
a) Construïu una taula de freqüències fent servir classes de longitud 10 de la forma [a, b),
començant per 0 i acabant per 100.
c) Feu un esquema de tija i fulles i utilitzeu-lo per ordenar la mostra en ordre creixent de
magnitud.
Problema 1.3 Les resistències (en kN) de 11 tubs circulars amb tapes soldades als extrems són
89, 110, 122, 119, 112, 116, 95, 84, 102, 107, 115.
a) Feu un esquema de tija i fulles i utilitzeu-lo per ordenar la mostra en ordre creixent de
magnitud.
Problema 1.4 Per a les dades del problema 1.1 determineu la moda, el rang, la mediana, els
quartils i el rang interquartil. Finalment construïu-ne el box-plot i determineu si hi ha alguna
anomalia.
Problema 1.5 Per a les dades del problema 1.2 determineu el rang, la mediana, els quartils i
el rang interquartil. Finalment construïu el box-plot i determineu (si s’escau) les anomalies.
Problema 1.6 Sigui X la variable nombre d’avaries que es produeixen en una planta al llarg
d’un dia i es disposa de la taula de freqüències següent:
X 0 1 2 3 4 5
freqüència 7 9 6 2 3 1
Nombre de defectes 0 1 2 3 4 5 6
Freqüència 1 0
Freqüència acumulada 4 7 9 10 11
Problema 1.9 Es mesura el temps de vida de 165 làmpades i els resultats s’exposen a la taula
següent:
Durada (hores) Número làmpades
(300, 400] 6
(400, 500] 74
(500, 600] 68
(600, 700] 15
(700, 800] 2
Problema 1.12 Determineu la mitjana, la variància i la variància corregida de les dades del
problema 1.1.
Problema 1.13 El pes (P ), en Kg, i el consum mitjà (C), en litres cada 100 Km, per a una
mostra de sis cotxes de gasolina de mida urbana, estan recollits a la taula següent:
c) Determineu el consum que correspon a un cotxe de 1000 Kg i al d’un cotxe de 1050 Kg.
d) Quin canvi s’espera en el consum d’un vehicle quan el seu pes incrementa en 1 kg?
a) Aquestes dades recolzen l’afirmació que la velocitat disminueix amb l’augment del nombre
de connexions de forma lineal?
Problema 1.15 Es vol determinar la relació entre el cost de fabricació d’un cert tipus de
producte i el seu temps de producció. Es registren els temps de producció en hores (T ) i els
costos de producció en euros (C) de 30 unitats del producte, i es calculen els valors següents:
30
X 30
X 30
X 30
X 30
X
ci = 450, c2i = 7011, ti = 93, t2i = 305, ci ti = 1440
i=1 i=1 i=1 i=1 i=1
1 Estadística descriptiva 57
Calculeu el coeficient de correlació i la recta de regressió del temps de producció sobre el cost
de fabricació. Hi ha un bon ajust lineal?
Problema 1.16 Determineu la recta de regressió del pes sobre el consum de les dades del
problema 1.11. Utilitzeu aquesta recta per determinar el pes que correspon a un cotxe que
consumeix 8.0 litres cada 100 quilòmetres.
Problema 1.17 Es fabriquen uns fils mitjançant dos procediments A i B. A partir d’observar
les resistències de 50 fils fabricats fent servir A s’ha obtingut xA = 12 i sA = 0.1. En canvi, per
al procediment B en base a 50 fils observats s’ha obtingut una resistència promig de xB = 10
amb una desviació típica de sB = 0.7. Sabem que la distribució de resistències presenta un grau
de simetria notable. Si en un moment donat s’agafa un fil a l’atzar i la seva resistència és 11.2,
amb quin procediment creieu que és més probable que s’hagi fabricat el fil?
Capítol 2
Probabilitat elemental
En aquest capítol introduïm el llenguatge de probabilitat elemental i el fem servir per valorar
les possibilitats que es produeixi un determinat resultat en certes situacions. Descrivim l’espai
de resultats associats a un experiment i veiem com assignar probabilitats als possibles resultats.
També establim les propietats d’una funció de probabilitat, la independència de successos, i
acabem amb els teoremes de probabilitat total i de Bayes.
Experiments aleatoris: Un experiment que pot produir resultats diferents al repetir-lo diver-
sos cops en igualtat de condicions es diu que és un experiment aleatori.
3. Comptar el nombre de partícules radioactives que emet una font radioactiva al llarg d’un
minut.
Aquests experiments es caracteritzen per no poder conèixer el resultat final fins que s’obté,
però en canvi podem descriure tots els resultats possibles de l’experiment i, a més a més, quan
l’experiment es repeteix molts cops, els resultats presenten una certa regularitat.
3. En l’experiment comptar el nombre de partícules radioactives que emet una font radioactiva
al llarg d’un minut l’espai mostral és Ω = {0, 1, 2, 3, . . . }.
Exemples de successos:
1. En l’experiment tirar una moneda, d’espai mostral Ω = {cara, creu}, es té, per exemple,
el succés A = {cara}.
3. En l’experiment comptar el nombre de partícules radioactives que emet una font radioac-
tiva al llarg d’un minut, d’espai mostral Ω = {0, 1, 2, 3, . . . }, es té A = {menys de 5
partícules} = {0, 1, 2, 3, 4} i B = {com a mínim 10 partícules} = {10, 11, 12, . . . }.
El conjunt de tots els successos de Ω s’indica per A. El succés segur és el succés que conté tots
els resultats possibles, és a dir, Ω. El succés impossible és el succés que no conté cap resultat,
i per tant és ∅, el conjunt buit. Els successos que tenen un sol element s’anomenen successos
elementals.
A ∪ B = {ω ∈ Ω | ω ∈ A ó ω ∈ B}
La “o” accentuada significa que passa almenys una de les dues condicions.
2 Probabilitat elemental 61
A ∩ B = {ω ∈ Ω | ω ∈ A i ω ∈ B}
A − B = {ω ∈ Ω | ω ∈ A i ω 6∈ B}
A ∪ A = Ω, A ∩ A = ∅, A−B =A∩B
2.2 Probabilitat
Una funció de probabilitat és aquella que assigna a cada succés un número entre 0 i 1 que mesura,
d’alguna manera, la possibilitat que el succés es produeixi quan es fa l’experiment.
1. P (Ω) = 1
P (1) = 0.1 P (2) = 0.1 P (3) = 0.4 P (4) = 0.15 P (5) = 0.15 P (6) = 0.1
i després assignar al succés A la suma de les probabilitats de cada un dels elements que el
composen defineix una funció de probabilitat.
62 Elements d’estadística
1. P (∅) = 0
En efecte, A ∪ ∅ = A ⇒ P (A ∪ ∅) = P (A) ⇒ P (A) + P (∅) = P (A) ⇒ P (∅) = 0.
2. P (A) = 1 − P (A)
¡ ¢
En efecte, A ∪ A = Ω ⇒ P A) + P (A = P (Ω) = 1 ⇒ P (A) = 1 − P (A).
3. P (A − B) = P (A) − P (A ∩ B)
ja que A = (A − B) ∪ (A ∩ B) ⇒ P (A) = P (A − B) + P (A ∩ B) ⇒ P (A − B) =
P (A) − P (A ∩ B).
4. A ⊆ B ⇒ P (A) ≤ P (B)
En efecte, com que A ∩ B = A, de la propietat 3 es dedueix que P (B − A) = P (B) − P (A),
i per tant P (B) = P (A) + P (B − A) ≥ P (A).
5. P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
Això prové del fet que A ∪ B = (A − A ∩ B) ∪ B ⇒ P (A ∪ B) = P (A − A ∩ B) + P (B) =
P (A) − P (A ∩ B) + P (B).
+ (−1)k−1 P (A1 ∩ · · · ∩ Ak )
Les propietats anteriors justifiquen la representació gràfica de les probabilitats en termes d’àrees
de conjunts en els diagrames de Venn com el de la figura 2.1.
Llavors es verifica
k
P (A) =
n
per a tot A ⊆ Ω, on k és el nombre d’elements de A.
Exemple: Una caixa conté 100 peces de les quals n’hi ha 20 de defectuoses. Si s’agafa
una d’aquestes peces a l’atzar, totes tenen probabilitat 1/100 de ser escollides i el succés
A = {peça defectuosa} conté 20 elements, per tant
20
P (A) =
100
P (A ∩ B)
P (A|B) =
P (B)
S’observa que
P (A ∩ B) = P (A|B)P (B) = P (B|A)P (A)
P ( · |B) : A −→ [0, 1]
A −→ P (A|B)
és una funció de probabilitat i per tant satisfà les propietats corresponents vistes sobre funcions
de probabilitat.
Exemple: De la caixa d’abans, que conté 100 peces de les quals n’hi ha 20 de defectuoses, s’a-
gafen, de forma successiva, dues d’aquestes peces. La probabilitat que la segona sigui defectuosa,
si la primera ha sortit defectuosa, és
19
P (B|A) =
99
on A = {primera defectuosa} i B = {segona defectuosa}. Llavors, la probabilitat que les dues
siguin defectuoses és
19 20 19
P (A ∩ B) = P (B|A)P (A) = · =
99 100 495
Successos independents: Dos successos A i B d’un espai de probabilitat es diu que són
independents quan
P (A ∩ B) = P (A)P (B)
que equival a
P (A|B) = P (A)
ia
P (B|A) = P (B)
Es pot comprovar, com és d’esperar, que si A i B són independents aleshores també ho són A i
B, també A i B i també A i B.
2 Probabilitat elemental 65
Si els successos A1 , . . . , Am són tals que Ai i Aj són independents per a tot parell i, j amb
i 6= j (independents dos a dos) això no implica que siguin conjuntament independents. En
general, a fi d’abreujar, es fa referència als successos conjuntament independents com a successos
independents.
Exemple: Considerem un altre cop la caixa d’abans, que conté 100 peces de les quals n’hi ha 20
de defectuoses. Siguin A = {primera defectuosa} i B = {segona defectuosa}. La probabilitat,
66 Elements d’estadística
Teorema de Bayes: Sigui B1 , . . . , Bk una partició de l’espai mostral Ω d’un cert espai de
probabilitat. Per a tot succés A ⊆ Ω es compleix
P (A|Bi )P (Bi )
P (Bi |A) =
P (A|B1 )P (B1 ) + · · · + P (A|Bk )P (Bk )
Exemple: Considerem un altre cop la caixa de 100 peces amb 20 de defectuoses i siguin A =
{primera defectuosa} i B = {segona defectuosa}. Suposem que només es comprova la segona
peça. La probabilitat, P (A|B), que la primera peça no hagi estat defectuosa si la segona és
defectuosa és
20 80
P (B|A)P (A) 99 · 100
P (A|B) = = 19 20 = 0.80808
P (B|A)P (A) + P (B|A)P (A) 99 · 100 + 2099 ·
80
100
2.3 Exercicis
Problema 2.1 Es disposa de quatre mostres de diferents tipus de fibra. Només un dels quatre
tipus té la resistència que es necessita, però es desconeix quina és. La resistència es determina
mitjançant proves destructives. Si es realitzen proves seleccionant les mostres en ordre aleatori,
quina és la probabilitat que com a mínim siguin necessàries tres proves per detectar el tipus de
fibra adequat?
SOLUCIÓ: Direm que la prova és positiva si en ella es troba el tipus de fibra que es busca, en
cas contrari es dirà que és negativa.
de manera que
¡ ¢ ¡ ¯ ¢ ¡ ¢ 2 3 1
P A1 ∩ A2 = P A2 ¯ A1 P A1 = · =
3 4 2
L’apartat a) demana
P (F ) = P ( F | A1 )P (A1 ) + P ( F | A2 )P (A2 )
Les probabilitats condicionades són
L’apartat b) demana P ( A1 | F )
P (F ∩ A1 ) P ( F | A1 )P (A1 ) P ( F | A1 )P (A1 )
P ( A1 | F ) = = =
P (F ) P (F ) P ( F | A1 )P (A1 ) + P ( F | A2 )P (A2 )
0.5 · 0.5
= = 0.71429
0.35
68 Elements d’estadística
Problema 2.3 Una anàlisi química té per objectiu la presència de l’element A en un determinat
producte. Al dur a terme l’anàlisi, la probabilitat de detectar A en un producte que realment
conté aquest element és 0.8. La probabilitat de no detectar A en un producte que no el conté és
0.9. La probabilitat que un producte qualsevol contingui A és 0.4. Si es realitzen tres anàlisis
independents i en dues d’elles es detecta A, quina és la probabilitat que A sigui present?
P ( D| A) = 0.8
¯
P ( D¯ A) = 0.9
P (A) = 0.4
Sigui C el succés C = {es detecta l’element en exactament dues de tres anàlisis del producte
fetes independentment}.
Aquí sabem que P (A) = 0.4 i per tant P (A) = 0.6 però hem de calcular P ( C| A) i P ( C| A).
2 Probabilitat elemental 69
La seva probabilitat és
¡ ¢ ¡ ¢ ¡ ¢
P (C) = P R1 ∩ R2 ∩ R3 + P R1 ∩ R2 ∩ R3 + P R1 ∩ R2 ∩ R3
que al ser les anàlisis independents resulta
¡ ¢ ¡ ¢ ¡ ¢
P (C) = P (R1 ) P (R2 ) P R3 + P (R1 ) P R2 P (R3 ) + P R1 P (R2 ) P (R3 )
Per tant
Problema 2.4 Una empresa produeix i ven resistències de 10 ohms. No obstant això, els ohms
reals varien. Si el valor real d’una d’aquestes resistències no està comprès entre 9.5 i 10.5 ohms,
la resistència es considera defectuosa. La fabricació es duu a terme mitjançant dos processos
diferents. El 80% de les resistències s’obtenen mitjançant el procés M1 i la resta mitjançant M2 .
Les resistències obtingudes per M1 no superen mai els 10.5 ohms, però el 5% d’elles són inferiors
a 9.5. En canvi amb M2 obtenim resistències que no són mai inferiors a 9.5 ohms, però el 10%
d’elles són superiors a 10.5 ohms.
70 Elements d’estadística
P (D) = 0.06
Aleshores
P (F ) = P ({R1 ≥ 9.5}) P ({R2 ≥ 9.5})
Ara bé, P ({R1 ≥ 9.5}) = P ({R2 ≥ 9.5}) = P ({R ≥ 9.5}) on R és una resistència genèrica,
resultant que
En conseqüència
P (F ) = 0.962 = 0.9216
Sigui ara E = {el sistema funciona però presenta problemes}. Aquest succés és
i la seva probabilitat
Per tant
P (E) = 2P ({R ≥ 10.5}) P ({R ≥ 9.5}) − [P ({R ≥ 10.5})]2
Sabem que P ({R ≥ 9.5}) = 0.96 però necessitem P ({R ≥ 10.5}). Ara bé,
i substituint
¡ ¢
P F = 1 − P (F ) = 1 − 0.9216 = 0.0784
Problema 2.5 En un determinat procés les probabilitats que es produeixin les falles F1 , F2 i F3
són 0.22, 0.33 i 0.45 respectivament. Per tal d’alertar de les falles es disposa de dos sistemes,
A i B, amb tres llums cada un. Dels tres llums de A, dos són de llum blanca, b1 i b2 , i un de
llum vermella, v, mentre que B en té un de llum blanca, b, i dos de llum vermella, v1 i v2 . Quan
es produeix la falla F1 s’encenen a l’atzar dos dels tres llums de A. Si es produeix la falla F2
s’encenen a l’atzar dos llums de B, i quan es produeix la falla F3 s’encenen, a l’atzar, un llum
de A i un llum de B. Si en un moment donat s’encenen dos llums i ambdós són de llum blanca,
quina és la probabilitat que s’hagi produït la falla F3 ?
SOLUCIÓ: Denotarem
El sistema d’alerta dóna dos llums que poden ser ambdós de llum blanca, ambdós de llum
vermella o un de cada color.
Denotarem
D = {els dos llums són blancs}
2 Probabilitat elemental 73
Es demana
P (s’hagi produït la falla F3 si s’ha observat dos llums blancs) = P (F3 |D)
Com que els llums s’encenen a l’atzar, quan es produeix F1 els possibles senyals d’alerta són
{b1 , v}, {b2 , v} i {b1 , b2 } amb la mateixa probabilitat cadascun. Per tant
1
P (D|F1 ) = P ({b1 , b2 }|F1 ) =
3
Quan es produeix F2 els possibles senyals d’alerta són {v1 , b}, {v2 , b} i {v1 , v2 } també equipro-
bables, d’on resulta que
P (D|F2 ) = 0
Finalment, quan es produeix F3 la probabilitat que s’encenguin dues llums blanques és la proba-
bilitat que s’encengui una llum blanca de A i una blanca de B al mateix temps, que per inde-
pendència dels successos és el producte de les seves probabilitats. És a dir,
2 1 2
P (D|F3 ) = P (llum blanca a A|F3 )P (llum blanca a B|F3 ) = · =
3 3 9
2
9 · 0.45
P (F3 |D) = 1 2 = 0.57692
3 · 0.22 + 0 · 0.33 + 9 · 0.45
Problema 2.7 Sigui Ω un espai mostral associat a un experiment aleatori. Si A i B són successos
de Ω tals que P (A) = 0.18, P (B) = 0.49 i P (A ∪ B) = 0.53, són A i B independents? Per què?
Problema 2.8 En el 60% dels motors que fallen es detecten funcionaments defectuosos del
rotor, i en el 50% hi ha funcionaments defectuosos dels compressors. Tenint en compte que en
74 Elements d’estadística
el 65% dels motors que fallen es detecten funcionaments defectuosos o bé del rotor o bé dels
compressors, calculeu la probabilitat que a l’obrir a l’atzar un dels motors que han fallat ens
trobem que:
d) Són els successos “funcionament defectuós del rotor” i “funcionament defectuós dels com-
pressors” independents?
Problema 2.9 La probabilitat que una carta certificada surti puntualment és 0.83, la que arribi
puntualment és 0.82, i la que surti i arribi puntualment és 0.78. Calculeu la probabilitat que:
Problema 2.10 Una empresa compra el 80% del que necessita a un proveïdor que subministra
un 1% dels articles defectuosos. La resta de les compres es fan a un segon proveïdor que
subministra un 2% d’articles defectuosos.
a) Quina és la probabilitat que una peça escollida a l’atzar en el magatzem de l’empresa sigui
defectuosa?
b) Sabent que la peça és defectuosa, quina és la probabilitat que procedeixi del primer proveï-
dor?
Problema 2.11 En un determinat procés industrial s’han de fer unes determinades anàlisis.
Aquesta labor es pot realitzar mitjançant dos procediments: A i B. Normalment A s’utilitza
el doble de cops que B. El 75% de les vegades que es fa servir A, el temps necessari, T , per a
realitzar les anàlisis és com a màxim de tres hores. En canvi fent servir B, el temps necessari és
de tres hores o menys només en el 60% dels cops. Si es fa una anàlisi i el temps emprat ha estat
de tres hores i mitja, quina és la probabilitat que el mètode utilitzat hagi estat B?
Problema 2.12 Es disposa ara de cinc mostres de diferents tipus de fibra. Només un dels cinc
tipus té la resistència que es necessita, però es desconeix quin és. La resistència es determina
2 Probabilitat elemental 75
mitjançant proves destructives. Si es realitzen proves seleccionant les mostres en ordre aleatori,
quina és la probabilitat que no siguin necessàries més de tres proves per detectar el tipus de
fibra adequat?
Capítol 3
Models de probabilitat
Per anar més enllà de les dades observades és necessari l’establiment d’un model de probabilitat
plausible que representi la variabilitat de la població. El model teòric de comportament proba-
bilístic es defineix mitjançant el que es denomina una funció de probabilitat, o distribució de
probabilitat, que assigna probabilitats als valors possibles -descripcions numèriques dels resultats
d’un experiment- d’una variable estadística o aleatòria. En aquest capítol introduirem conceptes
relatius als models probabilístics, com són l’esperança i la variància d’una variable aleatòria, i
en veurem les seves propietats. També estudiarem el cas de vectors aleatoris bidimensionals, i
veurem les propietats dels seus models probabilístics associats.
Si es considera l’experiment de tirar una determinada moneda, els possibles resultats són cara i
creu. Sigui X la variable de codificació que pren el valor 0 quan, al tirar la moneda, s’obté cara
i 1 quan s’obté creu. Si la moneda és equilibrada hi ha les mateixes possibilitats d’obtenir cara
que creu, és a dir, la possibilitat que X = 0 és del 50% i la que X = 1 també és del 50%.
En aquesta situació, i expressant els percentatges en tant per u, es diu que les probabilitats de
0 i de 1 són de 0.5, per cada un d’aquests dos valors. S’assigna, d’aquesta manera, probabilitat
0.5 a 0 i 0.5 a 1. Aquesta assignació de probabilitats constitueix la distribució de probabilitat
de la variable X que correspon al model teòric de comportament probabilístic dels valors, 0 i 1,
que pren X. La distribució de X s’expressa
P (X = 0) = 0.5
P (X = 1) = 0.5
78 Elements d’estadística
En general, un model teòric de comportament probabilístic per a una variable discreta, X, que
pren valors 0 i 1, consisteix en l’assignació de probabilitats a cada un d’aquests dos possibles
resultats:
P (X = 0) = p1
P (X = 1) = p2
amb
p1 + p2 = 1
i rep el nom de distribució de probabilitat de X (vegeu Fig. 3.2).
tal que X
pi = 1
i
F (x) = P (X ≤ x)
La gràfica de la funció de distribució d’una variable aleatòria discreta és com la de la figura 3.4.
P (X = xi ) = F (xi ) − F (xi−1 )
d) F és monòtona creixent
Exemple: Sigui la variable X = resultat obtingut al tirar un determinat dau amb el model de
probabilitat associat definit per
P (X = 1) = 0.10 P (X = 4) = 0.25
P (X = 2) = 0.10 P (X = 5) = 0.20
P (X = 3) = 0.25 P (X = 6) = 0.10
Per variables contínues, l’assignació de probabilitats es definirà per intervals mitjançant una
funció d’àrea. Recordem les aproximacions de les probabilitats dutes a terme mitjançant un
histograma (pàg. 23). Llavors es tractava d’aproximacions que variaven amb la mostra i, en
canvi, ara s’establirà un model teòric de comportament probabilístic.
Observem que el valor concret que pren la funció de densitat en un punt no té importància, ja
que d’aquesta funció només interessen les àrees que delimita amb l’eix OX. En altres paraules,
3 Models de probabilitat 83
D’altra banda, per a les variables aleatòries contínues les probabilitats puntuals són nul·les. És
a dir,
P (X = x) = 0
per a qualsevol nombre real x. En conseqüència, les probabilitats dels intervals [a, b], [a, b), (a, b]
i (a, b) són les mateixes.
És a dir, F (x) és l’àrea sota la funció de densitat a l’esquerra de x (entre −∞ i x). Vegeu la
figura 3.8.
La funció de distribució d’una variable contínua és una funció contínua en tots els punts, monò-
tona creixent, 0 ≤ F (x) ≤ 1 per a tot x ∈ R i a més a més si a, b ∈ R amb a ≤ b aleshores
Z b
F (b) − F (a) = f (x)dx = P (a < X ≤ b) = P (a ≤ X < b) = P (a < X < b) = P (a ≤ X ≤ b)
a
84 Elements d’estadística
La gràfica de la funció de distribució d’una variable contínua és de l’estil del de la figura 3.9.
Exemple: Sigui X una variable contínua amb funció de densitat de probabilitat f definida per
2x2 2x5
− si 0 ≤ x ≤ 3
9 243
f (x) =
0 en cas contrari
2x2 2x5
Figura 3.10 Funció de densitat de probabilitat f (x) = 9 − 243 a 0 ≤ x ≤ 3 i zero a la resta
Figura 3.11 Probabilitat a l’interval [1, 2] de la variable contínua amb funció de densitat de
2 5
probabilitat f (x) = 2x9 − 2x 243 a [0, 3] i zero a la resta
P (X ≤ 4) = F (4) = 1
S’observa que
P (1 ≤ X ≤ 2) = F (2) − F (1) = 0.5048 − 0.072702 = 0.43210
86 Elements d’estadística
Figura 3.12 Funció de distribució de la variable contínua amb funció de densitat de probabilitat
2 5
f (x) = 2x9 − 2x
243 a [0, 3] i zero a la resta
Exemple: Sigui X una variable contínua amb funció de densitat de probabilitat f definida per
2 3 x
x − quan 2 ≤ x ≤ 4
111 74
f (x) =
0 a la resta
essent la seva gràfica la de la figura 3.13. És una funció de densitat de probabilitat, ja que és
no negativa i
Z ∞ Z 4µ ¶ · ¸4
2 3 x 1 4 1 2
f (x)dx = x − dx = x − x =1
−∞ 2 111 74 222 148 2
2 3 x
Figura 3.13 Funció de densitat f (x) = 111 x − 74 a [2, 4] i zero a la resta
3 Models de probabilitat 87
La probabilitat que al realitzar X s’obtingui un valor a l’interval [2.5, 3.5] és l’àrea representada
a la figura 3.14, i ve donada per
Z 3.5 Z 3.5 µ ¶
2 3 x
P (2.5 ≤ X ≤ 3.5) = f (x)dx = x − dx = 0.45946
2.5 2.5 111 74
Figura 3.14 Probabilitat a l’interval [2.5, 3.5] de la variable contínua amb funció de densitat
2 3 x
f (x) = 111 x − 74 a [2, 4] i zero a la resta
La funció de distribució és
Z x
F (x) = P (X ≤ x) = f (u)du
−∞
0 per a x ≤ 2
Z xµ ¶
2 3 u 1 4 1 2 5
= u − du = x − x − per a 2 < x ≤ 4
2 111 74 222 148 111
1 per a x > 4
2.54 2.52 5
P (X ≤ 2.5) = F (2.5) = − − = 0.088682
222 148 111
3.54 3.52 5
P (X ≤ 3.5) = F (2.5) = − − = 0.54814
222 148 111
de manera que
Figura 3.15 Funció de distribució de la variable contínua amb funció de densitat de probabilitat
2 3 x
f (x) = 111 x − 74 a [2, 4] i zero a la resta
En alguns casos es pot deduir fàcilment la distribució de probabilitat d’una variable aleatòria
quan és funció d’una variable de distribució coneguda.
Aleshores
√ √
FY (y) = P (Y ≤ y) = P (X 2 ≤ y) = P (− y ≤ X ≤ y)
√ √ √ √
= P (X ≤ y) − P (X ≤ − y) = FX ( y) − FX (− y)
Per tant
√
FY (y) = FX ( y)
3 Models de probabilitat 89
i la funció de densitat de Y és
¡√ ¢
dFY dFX y
fY (y) = (y) =
dy dy
√
per a 0 < y < 3, essent zero a la resta.
En general, sigui X una variable aleatòria contínua que pren valors dintre un interval I (finit
o infinit, tancat, obert o semiobert), i amb funció de densitat de probabilitat fX (x). Sigui
g : I → J una funció bijectiva amb derivada contínua i tal que g 0 (x) 6= 0 per a tot x ∈ I, i on J
és un altre interval. Aleshores la funció de densitat de la variable Y = g(X) és
¯¡ ¢0 ¯
¯ ¯
fY (y) = fX (g −1 (y)) ¯ g −1 (y)¯
¯¡ ¢0 ¯
¯ ¯
per a y ∈ J i fY (y) = 0 per a y ∈ / J, on ¯ g −1 (y)¯ és el valor absolut de la derivada del canvi
¡ ¢0
invers x = g −1 (y). En efecte, si per exemple és g −1 (y) > 0 per a tot y ∈ J, aleshores
¡ ¢0
El cas que g −1 (y) < 0 per a tot y es resol de manera anàloga.
A l’exemple de la pàgina 88, en què Y = X 2 , només cal considerar la funció g : (0, 3) → (0, 9)
definida per g(x) = x2 i obtenim que si 0 < y < 9 llavors
¯ ¯ µ √ ¶ √
√ ¯¯ 1 ¯¯ 2y 2y 2 y 1 y y2
fY (y) = fX ( y) ¯ √ ¯ = − √ = −
2 y 9 243 2 y 9 243
i que efectivament coincideix amb el càlcul directe que havíem fet. Quan U = 5X − 7 llavors
prenent g(x) = 5x − 7 per a 0 < x < 3, s’obté que si −7 < u < 8 llavors
µ ¶ ¡ ¢2 ¡ ¢5 µ ¶ µ ¶
u+7 1 2 u+7
5 2 u+7
5 2 u+7 2 2 u+7 5
fU (u) = fX = − = −
5 5 45 1215 45 5 1215 5
i que, després de desenvolupar les potències, també coincideix amb el càlcul directe que havíem
fet.
(X1 , X2 , . . . , Xm ), encara que per no sobrecarregar la notació nosaltres ens restringirem al cas
bidimensional. De totes maneres, els conceptes i propietats que veurem aquí són fàcilment
generalitzables al cas multidimensional.
Cas discret: Un vector aleatori (X, Y ) es diu que és discret si les variables X i Y són discretes.
Sigui (X, Y ) un vector aleatori discret que pren valors (xi , yi ), i = 1, 2, . . . La distribució de
probabilitat de (X, Y ) la defineixen les equacions
P (X = xi , Y = yi ) = pi
amb
X
pi = 1
i
Exemple: Siguin X i Y les variables que donen el nombre d’avaries per mes que es produeixen
en les màquines A i B respectivament. La variable bidimensional (X, Y ) és un vector aleatori
discret. Suposem que la taula següent correspon a la distribució de probabilitat de (X, Y ):
X
0 1 2 3
0 0.05 0.08 0.10 0.15
Y 1 0.12 0.01 0.14 0.07
2 0.16 0.08 0.03 0.01
Llavors escrivim
P (X = 3, Y = 2) = 0.01
La probabilitat que 1 ≤ X ≤ 2, Y ≤ 1 s’obté sumant les probabilitats dels valors (x, y) que estan
a la regió A = {(x, y) | 1 ≤ x ≤ 2, y ≤ 1}. És a dir,
P ((X, Y ) ∈ A) = P (1 ≤ X ≤ 2, Y ≤ 1)
= P (X = 1, Y = 0) + P (X = 2, Y = 0) + P (X = 1, Y = 1) + P (X = 2, Y = 1)
= 0.08 + 0.10 + 0.01 + 0.14 = 0.33
92 Elements d’estadística
Exemple: Considerem el vector aleatori discret (X, Y ) amb distribució de probabilitat definida
per
Cas continu: Un vector aleatori (X, Y ) es diu que és continu si la seva distribució de proba-
bilitat es pot donar en termes d’una funció f (x, y) tal que f (x, y) ≥ 0 per a tot (x, y) ∈ R2 i
Z Z
f (x, y)dxdy = 1
R2
Llavors, per a A ⊆ R2 es té
Z Z
P ((X, Y ) ∈ A) = f (x, y)dxdy
A
En particular
Z bZ d
P (a ≤ X ≤ b, c ≤ Y ≤ d) = f (x, y)dxdy
a c
La funció f s’anomena funció de densitat de probabilitat del vector aleatori (X, Y ), o també
funció de densitat conjunta de X i Y .
150 2 50
Figura 3.16 Funció de densitat de probabilitat f (x, y) = 82 x y − 82 x a 1 ≤ x ≤ 2,
3/5 ≤ y ≤ 1; zero a la resta
xy
Figura 3.17 Funció de densitat de probabilitat f (x, y) = x2 + 3 a 0 ≤ x ≤ 1, 0 ≤ y ≤ 2; zero a
la resta
94 Elements d’estadística
R 1 ³R 2 ¡ 2 xy ¢
´
Figura 3.18 Probabilitat P (1/2 ≤ X ≤ 1, 1 ≤ Y ≤ 2) = 1/2 1 x + 3 dy dx
x2 xy
Figura 3.19 Funció de densitat de probabilitat f (x, y) = 8 − 8 a 0 ≤ x ≤ 2, −x ≤ y ≤ x; zero
a la resta
R 2 ³R x ³ x2 xy
´ ´
Figura 3.20 Probabilitat P (1 ≤ X ≤ 2, −X ≤ Y ≤ X) = 1 −x 8 − 8 dy dx
96 Elements d’estadística
A l’exemple del vector (X, Y ) on les variables X i Y donen el nombre d’avaries per mes, corres-
ponents a les màquines A i B, la distribució de probabilitat de (X, Y ) és
X
0 1 2 3
0 0.05 0.08 0.10 0.15
Y 1 0.12 0.01 0.14 0.07
2 0.16 0.08 0.03 0.01
P (X = 0) = P (X = 0, Y = 0) + P (X = 0, Y = 1) + P (X = 0, Y = 2) = 0.33
P (X = 1) = P (X = 1, Y = 0) + P (X = 1, Y = 1) + P (X = 1, Y = 2) = 0.17
En general
X
P (X = x) = P (X = x, Y = y)
y
i per a Y
X
P (Y = y) = P (X = x, Y = y)
x
i per a Y és
P (Y = 0) = P (X = 0, Y = 0) = 0.25
P (Y = 1) = P (X = 0, Y = 1) = 0.40
P (Y = 2) = P (X = 1, Y = 2) = 0.35
Observació: En particular d’això que hem vist es dedueix que si el vector aleatori (X, Y ) és
continu aleshores les variables X i Y també són contínues. El recíproc d’aquest fet no és en
general cert. És a dir, pot passar que dues variables aleatòries X i Y siguin contínues però que
el vector aleatori (X, Y ) no sigui continu (no admeti cap funció de densitat f (x, y)).
i per a Y
Z · 3 ¸1
1³
xy ´
2 x x2 y 1 y
Z +∞ x + dx = + = + si 0 ≤ y ≤ 2
0 3 3 6 0 3 6
fY (y) = f (x, y)dx =
−∞
0 a la resta
i per a Y
Z 2µ 2 ¶
x xy 5 1 1
− dx = y 3 − y + si − 2 ≤ y < 0
−y 8 8 48 4 3
Z µ
2 ¶
fY (y) = x2 xy 1 1 1
− dx = y 3 − y + si 0 ≤ y ≤ 2
y 8 8 48 4 3
0 a la resta
Considerem un altre cop l’exemple del vector (X, Y ) on les variables X i Y donen el nombre
d’avaries per mes corresponents a les màquines A i B. Ens plantegem el càlcul de la distribució
de probabilitat de la variable X per a un valor de Y donat. Per exemple P (X = x|Y = 1).
Concretament,
0.12
P (X = 0|Y = 1) = = 0.3529
0.34
0.01
P (X = 1|Y = 1) = = 0.0294
0.34
0.14
P (X = 2|Y = 1) = = 0.4118
0.34
0.07
P (X = 3|Y = 1) = = 0.2059
0.34
es diu que és la distribució de X condicionada a Y = 1.
P (X = x, Y = b)
P (X = x|Y = b) =
P (Y = b)
P (X = a, Y = y)
P (Y = y|X = a) =
P (X = a)
En el cas continu el càlcul s’ha de fer d’una altra manera ja que del que es tracta és d’obtenir
la funció de densitat de X quan Y = c o la funció de densitat de Y quan X = c.
Sigui (X, Y ) un vector aleatori continu amb funció de densitat de probabilitat f (x, y). Per calcu-
lar P (a ≤ X ≤ b|Y = c) no es pot aplicar directament la fórmula de la probabilitat condicionada
anterior ja que ara P (Y = c) = 0. Llavors el que es fa és
on
P (a ≤ X ≤ b, c − ≤ Y ≤ c + )
P (a ≤ X ≤ b|c − ≤ Y ≤ c + ) =
P (c − ≤ Y ≤ c + )
En condicions de regularitat es té
Z b µZ c+ ¶ Z b
P (a ≤ X ≤ b, c − ≤ Y ≤ c + ) = f (x, y)dy dx = 2 f (x, c + θ )dx
a c− a
En general s’escriurà
f (x, y)
f (x|y) =
fY (y)
sempre que fY (y) > 0.
Observem que
Z +∞ Z +∞ Z +∞
f (x, y) 1 1
f (x|y)dx = dx = f (x, y)dx = fY (y) = 1
−∞ −∞ fY (y) fY (y) −∞ fY (y)
R +∞
i anàlogament −∞ f (y|x)dy = 1.
Es comprova que la probabilitat total és 1. En efecte, per a y tal que −2 < y < 0 és
Z Z Ã !
2 2 x2 xy
8 − 8 16 − 12y + 5y 3
f (x|y)dx = 5 3 1 1 dx = =1
−y −y 48 y − 4 y + 3
5y 3 − 12y + 16
i quan 0 ≤ y < 2 és
Z Z Ã !
2 2 x2 xy
8 − 8 16 − 12y + y 3
f (x|y)dx = 1 3 1 1 dx = =1
y y 48 y − 4 y + 3
y 3 − 12y + 16
102 Elements d’estadística
P (X = x, Y = y)
P (X = x|Y = y) = = P (X = x)
P (Y = y)
P (X = x, Y = y)
P (Y = y|X = x) = = P (Y = y)
P (X = x)
i si X i Y són contínues a que el vector aleatori (X, Y ) sigui continu i a més a més que
f (x, y)
f (x|y) = = fX (x)
fY (y)
f (x, y)
f (y|x) = = fY (y)
fX (x)
on f (x, y) és la funció de densitat de (X, Y ) i fX (x) i fY (y) són les funcions de densitat marginals
de X i Y respectivament.
P (X = x, Y = y) = P (X = x)P (Y = y)
i dues variables contínues X i Y són independents quan el vector (X, Y ) és continu i a més a
més
f (x, y) = fX (x)fY (y)
on f (x1 , . . . , xm ) és la funció de densitat de probabilitat del vector (X1 , . . . , Xm ) i fX1 (x1 ), . . . , fXm (xm )
són les funcions de densitat marginals de X1 , . . . , Xm respectivament.
3 Models de probabilitat 103
P (X = 0) = 0.70 P (Y = 0) = 0.90
P (X = 1) = 0.20 P (Y = 1) = 0.06
P (X = 2) = 0.05 P (Y = 2) = 0.02
P (X = 3) = 0.05 P (Y = 3) = 0.02
Per tal de calcular la distribució del nombre total d’avaries per mes, es considera la variable
suma S = X + Y . Aquesta variable pren valors de 0 a 6, i la probabilitat de cada valor la
determina la manera com aquest valor s’obté.
Per exemple
P (S = 0) = P (X = 0, Y = 0)
i al ser X i Y independents és
P (S = 1) = P (X = 0, Y = 1) + P (X = 1, Y = 0)
= P (X = 0)P (Y = 1) + P (X = 1)P (Y = 0)
= 0.70 · 0.06 + 0.20 · 0.90 = 0.222
P (S = 2) = P (X = 0, Y = 2) + P (X = 2, Y = 0) + P (X = 1, Y = 1)
= P (X = 0)P (Y = 2) + P (X = 2)P (Y = 0) + P (X = 1)P (Y = 1)
= 0.70 · 0.02 + 0.05 · 0.90 + 0.20 · 0.06 = 0.071
P (S = 3) = P (X = 0, Y = 3) + P (X = 3, Y = 0) + P (X = 2, Y = 1) + P (X = 1, Y = 2)
= P (X = 0)P (Y = 3) + P (X = 3)P (Y = 0) + P (X = 2)P (Y = 1) + P (X = 1)P (Y = 2)
= 0.70 · 0.02 + 0.05 · 0.90 + 0.05 · 0.06 + 0.20 · 0.02 = 0.066
104 Elements d’estadística
P (S = 4) = P (X = 3, Y = 1) + P (X = 1, Y = 3) + P (X = 2, Y = 2)
= P (X = 3)P (Y = 1) + P (X = 1)P (Y = 3) + P (X = 2)P (Y = 2)
= 0.05 · 0.06 + 0.20 · 0.02 + 0.05 · 0.02 = 0.008
P (S = 5) = P (X = 2, Y = 3) + P (X = 3, Y = 2)
= P (X = 2)P (Y = 3) + P (X = 3)P (Y = 2)
= 0.05 · 0.02 + 0.05 · 0.02 = 0.002
P (S = 6) = P (X = 3, Y = 3) = P (X = 3)P (Y = 3) = 0.05 · 0.02 = 0.001
Sigui (X, Y ) un vector aleatori continu amb funció de densitat de probabilitat conjunta f(X,Y ) (x, y).
Suposem que els valors que pren el vector (X, Y ) estan en una regió oberta A del pla R2 . Sigui
G : A → B, on G(x, y) = (s(x, y), t(x, y)), una funció bijectiva de classe C 1 (és a dir, diferencia-
ble i amb derivades parcials contínues) i tal que el seu determinant jacobià és diferent de zero a
tot arreu. A tal aplicació se li diu canvi de coordenades. Considerem les variables S = S(X, Y )
i T = T (X, Y ). Aleshores la funció de densitat conjunta del vector aleatori (S, T ) és
En els apartats següents aplicarem aquesta fórmula amb l’objectiu de trobar la funció de densitat
de probabilitat de la suma i del producte de dues variables aleatòries.
Sigui (X, Y ) un vector aleatori continu amb funció de densitat f(X,Y ) . Denotem per fX i fY les
funcions de densitat de X i Y respectivament i sigui S = X + Y la variable suma.
La transformació (
s=x+y
t=x
3 Models de probabilitat 105
És a dir, ¯ ¯ ¯ ¯
¯ ∂x ∂x ¯ ¯ 0 1 ¯
¯ ∂s ∂t ¯ ¯ ¯
J =¯ ∂y ∂y ¯=¯ ¯ = −1
¯ ∂s ∂t
¯ ¯ 1 −1 ¯
Observem que si a més a més X i Y són independents, llavors la funció de densitat de probabilitat
conjunta de X, Y és el producte
i la de la suma S = X + Y és
Z s
Z
θ2 e−θs dt per a 0 < s < +∞
+∞
0
fS (s) = fX (t)fY (s − t)dt =
−∞
0 a la resta
És a dir,
2 −sθ
sθ e per a 0 < s < +∞
fS (s) =
0 a la resta
Sigui (X, Y ) un vector aleatori continu amb funció de densitat f(X,Y ) . Denotem per fX i fY les
funcions de densitat de X i Y respectivament i sigui U = XY la variable producte. El càlcul de
la funció de densitat de probabilitat de U es fa de manera semblant al de la suma.
La transformació (
u = xy
t=x
correspon a un canvi de coordenades de manera que la funció de densitat de probabilitat de la
variable (U, T ) és
f(U,T ) (u, t) = f(X,Y ) (x(u, t), y(u, t)) |J|
on J és el jacobià de (
x=t
y = u/t
Això és, ¯ ¯ ¯ ¯
¯ ∂x ∂x ¯ ¯ 0 1 ¯ 1
¯ ∂u ∂t ¯ ¯ ¯
J =¯ ∂y ∂y ¯=¯ ¯=−
¯ ∂u ∂t
¯ ¯ 1/t −u/t2 ¯ t
Per tant ³ u´ 1
f(U,T ) (u, t) = f(X,Y ) t,
t |t|
i en conseqüència Z +∞ ³u´ 1
fU (u) = fX (t)fY dt
−∞ t |t|
L’esperança matemàtica d’una variable aleatòria correspon a la mitjana teòrica dels valors que
pren la variable. Si la variable X és discreta i pren valors x1 , x2 , . . . amb probabilitats respectives
P (X = x1 ) = p1 , P (X = x2 ) = p2 , . . ., la seva esperança matemàtica és
X
µX = E(X) = x1 P (X = x1 ) + x2 P (X = x2 ) + · · · = xi pi
i
Si X és una variable aleatòria contínua, amb funció de densitat de probabilitat f (x), la seva
esperança matemàtica és Z +∞
µX = E(X) = xf (x)dx
−∞
E(X) = 0 · P (X = 0) + 1 · P (X = 1) + 2 · P (X = 2) + 3 · P (X = 3)
= 0 · 0.35 + 1 · 0.05 + 2 · 0.40 + 3 · 0.20
= 1.45
Sigui X una variable aleatòria i Y = g(X) una nova variable aleatòria, funció de X. Si X és
discreta i pren valors x1 , x2 , . . . , l’esperança de Y és
X
E(Y ) = E(g(X)) = g(xi )P (X = xi )
i
i si X és una variable aleatòria contínua amb funció de densitat de probabilitat f (x), llavors
l’esperança de Y és Z +∞
E(Y ) = E(g(X)) = g(x)f (x)dx
−∞
Exemple: Sigui X la variable aleatòria discreta de l’apartat anterior. És a dir, amb distribució
de probabilitat
P (X = 0) = 0.35 P (X = 1) = 0.05 P (X = 2) = 0.40 P (X = 3) = 0.20
Aleshores l’esperança de la variable Y = X 2 és
E(Y ) = g(0)P (X = 0) + g(1)P (X = 1) + g(2)P (X = 2) + g(3)P (X = 3)
essent g(x) = x2 . En conseqüència
E(X 2 ) = 02 P (X = 0) + 12 P (X = 1) + 22 P (X = 2) + 32 P (X = 3)
= 02 · 0.35 + 12 · 0.05 + 22 · 0.40 + 32 · 0.20
= 3.45
Sigui (X, Y ) un vector aleatori discret que pren valors (xi , yi ), i = 1, 2, . . . i U = h(X, Y ) una
variable aleatòria funció de (X, Y ). Aleshores l’esperança de U és
X
E(U ) = h(xi , yi )P (X = xi , Y = yi )
i
3 Models de probabilitat 109
Si (X, Y ) és un vector aleatori continu amb funció de densitat de probabilitat conjunta f(X,Y ) (x, y)
llavors l’esperança de la variable U = h(X, Y ) és
Z +∞ Z +∞
E(U ) = h(x, y)f(X,Y ) (x, y)dxdy
−∞ −∞
X
0 1
0 0.10 0.25
Y 1 0.45 0.20
d’on
µ ¶ Z 2· 3 ¸1 Z 2µ ¶ · ¸2
X 12 x yx2 12 1 y 12 y y 2 13
E = + dy = + dy = + =
Y 37 1 3 2 0 37 1 3 2 37 3 4 1 37
i si X és contínua
Z +∞ Z +∞
E(g(X)) = g(x)f (x)dx = (ax + b)f (x)dx
−∞ −∞
Z +∞ Z +∞
= a xf (x)dx + b f (x)dx = aE(X) + b
−∞ −∞
on g1 (x, y) = x i g2 (x, y) = y. D’aquí s’obté que E(h(X, Y )) = E(g1 (X, Y ))+E(g2 (X, Y )) =
E(X) + E(Y ), tal com volíem veure.
La variància V (X) d’una variable aleatòria X es defineix com el valor mitjà teòric del quadrat
de les desviacions de la variable respecte la seva esperança. La variància dóna informació sobre
la dispersió de les probabilitats sobre el total de possibles valors de la variable,
h i
V (X) = E (X − E(X))2
Notant µ = E(X), la variància per a una variable discreta, X, que pren els valors x1 , x2 , . . . és
X
V (X) = (xi − µ)2 P (X = xi )
i
σ 2X = V (X)
h i £ ¤
En efecte, V (X) = E (X − E(X))2 = E X 2 − 2XE(X) + E(X)2 i aplicant ara les propietats
de l’esperança resulta que
¡ ¢ ¡ ¢ ¡ ¢ ¡ ¢
V (X) = E X 2 − E (2XE(X)) + E E(X)2 = E X 2 − 2E(X)2 + E(X)2 = E X 2 − E(X)2
Llavors à n !2
n
X X
2 2
V (X) = E(X ) − E(X) = x2i P (X = xi ) − xi P (X = xi )
i=1 i=1
en el cas discret, i
Z +∞ µZ +∞ ¶2
2 2 2
V (X) = E(X ) − E(X) = x f (x)dx − xf (x)dx
−∞ −∞
en el cas continu.
Exemple: En el cas de la variable discreta de la pàgina 107 havíem vist que E(X) = 1.45 i
¡ ¢
també que E(X 2 ) = 3.45 (vegeu pàgina 108). Per tant V (X) = E X 2 −E(X)2 = 3.45−1.452 =
1.3475. De la mateixa manera, en l’exemple de la variable contínua de la pàgina 107 teníem que
¡ ¢
E(X) = 76 i E(X 2 ) = 53 , d’on resulta que V (X) = E X 2 − E(X)2 = 5/3 − (7/6)2 = 11/36.
Propietats de la variància:
1. La variància d’una variable constant és igual a zero. És a dir, V (c) = 0 per a tot c ∈ R.
En efecte, sigui X = c huna variable iconstant
h i iguali a c. Aleshores E(X) = c i en
conseqüència V (X) = E (X − E(X)) = E (X − c)2 = E(0) = 0.
2
Aplicant les propietats de l’esperança i tenint en compte que E(XY ) = E(X)E(Y ), resulta
que
¡ ¢ ¡ ¢
V (X + Y ) = E X 2 + E Y 2 + 2E (XY ) − E (X)2 − E (Y )2 − 2E(X)E(Y )
¡ ¢ ¡ ¢
= E X 2 − E (X)2 + E Y 2 − E (Y )2
= V (X) + V (Y )
Tant la covariància com el coeficient de correlació de dues variables aleatòries X i Y són mesures
del grau de relació lineal entre elles. El valor de la covariància en si no és gaire informatiu en
aquest sentit, ja que depèn de les variabilitats de X i de Y . El coeficient de correlació neutralitza
aquest efecte dividint per les desviacions típiques de X i de Y . La covariància i el coeficient de
correlació corresponen, a nivell poblacional, al que a nivell mostral eren la covariància mostral
sxy i el coeficient de correlació mostral r, respectivament.
Propietats de la covariància:
1. V (X + Y ) = V (X) + V (Y ) + 2Cov(X, Y ).
En efecte,
h i
V (X + Y ) = E (X + Y − E(X + Y ))2
h i
= E (X − E(X) + Y − E(Y ))2
h¡ ¢2 i
= E X − E(X))2 + (Y − E(Y ) + 2 (X − E(X)) (Y − E(Y ))
Per tant, el polinomi de segon grau P (λ) = λ2 V (X) − 2λCov(X, Y ) + V (Y ) només pren
valors positius o zero. Això implica que el seu discriminant és negatiu o zero, d’on resulta
que 4Cov(X, Y )2 − 4V (X)V (Y ) ≤ 0. D’aquí s’obté que Cov(X, Y )2 ≤ V (X)V (Y ), o
equivalentment |Cov(X, Y )| ≤ σ X σ Y .
Cov(X, Y ) Cov(X, Y )
ρXY = p p =
V (X) V (Y ) σX σY
3 Models de probabilitat 115
−1 ≤ ρXY ≤ +1
El valor del coeficient de correlació proporciona una mesura del grau d’associació lineal entre X
i Y , de tal manera que com més proper sigui ρXY a 1 o a −1, més gran serà l’associació lineal
entre X i Y . Quan ρXY = ±1 aleshores X i Y són funció lineal l’una de l’altra.1
E (XY ) − E(X)E(Y )
ρXY = p p
V (X) V (Y )
Sigui X una variable aleatòria discreta o contínua. La desigualtat de Txebixev estableix que
1 h 2
i
P (|X − c| ≥ ε) ≤ E (X − c)
ε2
on c i ε són nombres reals amb ε > 0. La desigualtat anterior equival a
1 h 2
i
P (|X − c| < ε) ≥ 1 − E (X − c)
ε2
V (X) σ2
P (|X − µ| < ε) ≥ 1 − = 1 −
ε2 ε2
on σ 2 = V (X), i prenent c = µ i ε = kσ resulta
1
P (|X − µ| < kσ) ≥ 1 −
k2
1
De fet, ρXY es pot pensar com el cosinus de “l’angle” que formen les variables X − E(X) i Y − E(Y ). En
efecte, donades dues variables aleatòries U i V √
, l’operaciópU · V = E(U V ) defineix un producte escalar que permet
definir el mòdul d’una variable U per kU k = U · U = E (U 2 ). Aleshores, el coeficient de correlació entre X i
(X−E(X))·(Y −E(Y ))
Y s’escriu en la forma ρXY = k(X−E(X))kkY −E(Y )k
i per tant es pot interpretar com el cosinus de “l’angle” que
formen les variables X − E(X) i Y − E(Y ). Observem que quan ρXY és molt proper a +1 o a −1, les variables
X − E(X) i Y − E(Y ) són múltiples una de l’altra, la qual cosa equival a dir que X i Y són funció lineal una de
l’altra.
116 Elements d’estadística
que equival a
1
P (−kσ < X − µ < kσ) ≥ 1 −
k2
oa
1
P (µ − kσ < X < µ + kσ) ≥ 1 −
k2
Exemple: El gruix d’una capa aïllant és una variable aleatòria d’esperança µ = 10 i desviació
típica σ = 1. Es vol acotar la probabilitat que el gruix sigui inferior a 7.5 o superior a 12.5, és a
dir, es vol acotar 1 − P (7.5 < X < 12.5). La desigualtat de Txebixev es concreta en aquest cas
en
1
P (10 − k · 1 < X < 10 + k · 1) ≥ 1 − 2
k
que per a k = 2.5 dóna
1
P (7.5 < X < 12.5) ≥ 1 −
6.25
i
1
1 − P (7.5 < X < 12.5) ≤ = 0.16
6.25
3.11 Exercicis
Problema 3.1 Considereu una variable aleatòria discreta amb la següent distribució de proba-
bilitat:
Determineu:
a) P (X > 2) i P (X ≥ 2).
b) P (1 ≤ X ≤ 4), P (1 ≤ X < 4), P (1 < X ≤ 4), P (1 < X < 4) i P (X < 4|X > 1).
c) La funció de distribució de X.
Problema 3.2 Realitzem dos llançaments independents d’una moneda equilibrada i sigui X =
nombre de cares obtingudes. Determineu la distribució de probabilitat de X.
3 Models de probabilitat 117
Problema 3.3 Sigui X una variable aleatòria contínua amb funció de densitat de probabilitat
x
12 si 1 ≤ x ≤ 5
f (x) =
0 en cas contrari
Problema 3.4 Sigui X una variable aleatòria contínua amb funció de densitat
k(1 + x )
2 si − 1 ≤ x ≤ 2
f (x) =
0 en cas contrari
a) Determineu el valor de k per tal que f sigui una funció de densitat de probabilitat.
b) Calculeu P (X > 0), P (−0.5 < X < 1.5), P (X < 10) i P (X > 0|X < 1).
Problema 3.5 El nombre d’avaries X que es poden produir en una cadena de muntatge al llarg
d’un dia segueix la següent distribució de probabilitat:
Calculeu:
Problema 3.8 Calculeu l’esperança, la variància i la desviació típica de la variable aleatòria del
problema 3.3. Determineu, també, l’esperança, la variància i la desviació típica de la variable
aleatòria Y = −2X + 1.
Problema 3.9 Trobeu l’esperança i la variància de la variable aleatòria X del problema 3.4
quan k = 1/6. Determineu l’esperança de la variable aleatòria Y = 2/(X 2 + 1).
√
Problema 3.10 Determineu la funció de densitat de la variable Y = X + 2 on X és la variable
del problema 3.4 quan k = 1/6.
X
0 1 2 3
0 0.10 0.08 0.23 0.12
Y 1 0.12 0.16 0.01 0.18
a) Calculeu P (X = 1, Y = 0) i P (1 ≤ X ≤ 3, Y = 1).
Problema 3.12 Siguin N i I les variables aleatòries que donen respectivament el nombre de
lletres i el nombre de cops que apareix la lletra I en una paraula escollida a l’atzar de la frase
EL PITJOR CÀSTIG ÉS LA FEINA INÚTIL.
e) Quina és la probabilitat que a l’escollir una paraula, aquesta tingui més de dues lletres i
menys de dues I?
f) Quina és la probabilitat que una paraula contingui una I si sabem que la paraula té sis
lletres?
Problema 3.15 Sigui (X, Y ) un vector aleatori bidimensional amb funció de densitat de proba-
bilitat
x+y
8 si 0 ≤ x ≤ 2 i 0 ≤ y ≤ 2
f(X,Y ) (x, y) =
0 a la resta
c) Calculeu f (y|x).
Problema 3.16 Comproveu que la funció de densitat de probabilitat del quocient V = X/Y
de dues variables aleatòries contínues i independents X, Y amb funcions de densitat fX , fY és
Z +∞
fV (v) = fX (tv)fY (t) |t| dt
−∞
b) Calculeu l’esperança de U = X − 6Y .
Exemple: Se sap que un medicament és efectiu el 80% dels cops i interessa saber la probabilitat
que a l’aplicar-lo a sis persones sigui efectiu com a mínim en quatre.
Per indicar que la variable X segueix un model binomial per a n repeticions de probabilitat
d’èxit p, s’escriurà X ∼ B(n, p).
independents és
µ ¶
6
P (X = 0) = 0.80 · 0.26 = 6.4 · 10−5
0
µ ¶
6
P (X = 1) = 0.81 · 0.25 = 1.536 · 10−3
1
µ ¶
6
P (X = 2) = 0.82 · 0.24 = 0.01536
2
µ ¶
6
P (X = 3) = 0.83 · 0.23 = 0.08192
3
µ ¶
6
P (X = 4) = 0.84 · 0.22 = 0.24576
4
µ ¶
6
P (X = 5) = 0.85 · 0.21 = 0.39322
5
µ ¶
6
P (X = 6) = 0.86 · 0.20 = 0.26214
6
i que es representa en el diagrama de barres de la figura 4.1.
Per calcular, per exemple, la probabilitat que a l’aplicar-lo a 6 persones sigui com a mínim
efectiu en quatre, és
P (X ≥ 4) = P (X = 4) + P (X = 5) + P (X = 6)
= 0.24576 + 0.39322 + 0.26214
= 0.90112
Si X = nombre de circuits que fallen d’un total de 40, es pot assumir que X ∼ B(40, 0.01). La
probabilitat que el sistema funcioni és
5
X 5 µ ¶
X 40
P (X ≤ 5) = P (X = k) = 0.01k · 0.9940−k = 0.999997
k
k=0 k=0
E(X) = np
i la seva variància
V (X) = np(1 − p)
Exemple: Seguint amb l’exemple del medicament, és E(X) = 6 · 0.8 = 4.8. Això vol dir que,
en promig, el medicament serà efectiu, en teoria, en 4.8 persones de cada 6. La variància és
V (X) = 6 · 0.8 · 0.2 = 0.96.
Exemple: En l’exemple del sistema amb 40 circuits integrats, E(X) = np = 40 · 0.01 = 0.4. En
promig fallaran 0.4 circuits, d’un total de 40.
La variable X ∼ B(1, p) es diu que segueix una distribució de Bernoulli i la seva distribució de
probabilitat és
P (X = 1) = p
P (X = 0) = 1 − p
Es verifica que E(X) = p i V (X) = p(1 − p), i que la suma de n variables independents Bernoulli
B(1, p) és una variable B(n, p).
n!
P (X1 = k1 , X2 = k2 , . . . , Xm = km ) = pk1 · · · pkkm
k1 ! · · · km ! 1
amb
m
X
ki = n, k1 , . . . , km ≥ 0
i=1
20!
P (X1 = 17, X2 = 1, X3 = 2) = 0.9017 · 0.041 · 0.062 = 0.08213
17!1!2!
on X1 , X2 i X3 denoten el nombre, respectivament, de peces conformes, reciclables i descartables
que hi ha en el lot de 20 peces.
En el context de les proves de Bernoulli independents interessa també poder valorar probabilís-
ticament quan s’obtindrà el primer èxit. Per exemple, al tirar una moneda repetidament quina
és la probabilitat que la primera cara no surti abans de la quarta tirada?
P (Y = k) = (1 − p)k−1 p , k = 1, 2, . . .
Exemple: Suposem que una moneda és tal que la probabilitat de treure cara al tirar-la és 0.57,
i sigui Y = nombre de tirades independents necessàries per a obtenir la primera cara. Si la
moneda es tira repetidament, la probabilitat que la primera cara no surti abans de la quarta
tirada és
P (Y ≥ 4) = 1 − P (Y < 4) = 1 − P (Y ≤ 3) = 1 − P (Y = 1) − P (Y = 2) − P (Y = 3)
P (Y = 1) = p = 0.57
P (Y = 2) = (1 − p)p = 0.43 · 0.57
P (Y = 3) = (1 − p)2 p = 0.432 · 0.57
de manera que
En el mateix context de les proves de Bernoulli independents també interessa conèixer la proba-
bilitat de quan s’obtindran els primers r èxits. Per exemple, al tirar una moneda repetidament es
vol determinar la probabilitat que les tres primeres cares no surtin abans de la cinquena tirada.
126 Elements d’estadística
i es diu que N segueix una distribució binomial negativa. L’esperança i variància de N són
r r (1 − p)
E(N ) = V (N ) =
p p2
Exemple: Considerem la moneda d’abans, per a la qual la probabilitat de treure cara al tirar-la
és 0.57, i sigui N = nombre de tirades independents necessàries per a obtenir les tres primeres
cares. Si la moneda es tira repetidament, la probabilitat que les tres primeres cares no surtin
abans de la cinquena tirada és
P (N ≥ 5) = 1 − P (N < 5) = 1 − P (N ≤ 4) = 1 − P (N = 3) − P (N = 4)
de manera que
P (N ≥ 5) = 1 − 0.18519 − 0.23890 = 0.57591
En general, si X és una variable aleatòria discreta amb valors possibles a1 , . . . , ar i tal que la
seva distribució de probabilitat és constant, és a dir
P (X = ak ) = c per a tot k = 1, . . . , r
on c és un valor constant que no depèn de k, aleshores es diu que X segueix una distribució
uniforme discreta. Observem que en aquest cas es té
r
X r
X
1= P (X = ak ) = c = rc
k=1 k=1
1 P6
Per exemple, en el cas de la puntuació del dau equilibrat és E(X) = 6 k=1 k = 3.5 i V (X) =
1 P6 2 2
6 k=1 k − 3.5 = 2.9167.
Sigui X una variable aleatòria discreta que pren valors 0, 1, 2, . . . i tal que la seva distribució de
probabilitat ve definida per
λk
P (X = k) = e−λ , k = 0, 1, 2, . . .
k!
Es diu que X és una variable de Poisson i la seva distribució de probabilitat es diu que és una
distribució de Poisson. S’escriurà X ∼ P(λ). L’esperança i variància de X són
E(X) = V (X) = λ
Aquesta distribució modelitza, sota certes condicions, el comportament probabilístic del nombre
d’ocurrències d’un determinat succés al llarg d’una mesura contínua, com per exemple el nombre
d’accidents laborals (succés) al llarg de l’horari laboral d’un dia (aquí la mesura contínua és el
temps) en una determinada empresa; el nombre d’imperfeccions (succés) que es produeixen
per cada 10 m2 de tela (aquí la mesura contínua és la superfície); o el nombre d’imperfeccions
(succés) al llarg d’un fil de coure de 8 m de longitud (la mesura contínua és la longitud).
128 Elements d’estadística
En l’aplicació del model de Poisson a processos de comptar se suposa que les ocurrències són
independents, que el nombre d’ocurrències en qualsevol subinterval només depèn de la longitud
de l’interval i no de la seva ubicació, que en un interval molt petit només es pot produir una
ocurrència i que la probabilitat que aquesta es produeixi és proporcional a la longitud d’aquest
interval petit.
Exemple: El nombre de partícules emeses per una font radioactiva en el període de cinc minuts
segueix una distribució de Poisson de paràmetre 1.2. Es vol calcular la probabilitat que en un
quart d’hora el nombre d’emissions no superi les dues.
Si α = 1.2 és el promig teòric de partícules emeses en cinc minuts, el promig teòric del nombre
d’emissions en un quart d’hora serà
λ = αT = 1.2 · 3 = 3.6
P (X ≤ 2) = P (X = 0) + P (X = 1) + P (X = 2)
µ 0 ¶
−3.6 3.6 3.61 3.62
= e + +
0! 1! 2!
= 0.302747
Un resultat teòric conegut amb el nom de Teorema Central del Límit ajuda a explicar la causa
per la qual aquestes distribucions apareixen de forma tan freqüent. Aquest teorema demostra
que moltes distribucions de probabilitat, sota certes condicions bastant generals, són aproxi-
madament normals.
Una variable aleatòria contínua, X, es diu que és normal d’esperança µ i variància σ 2 , i s’escriu
X ∼ N (µ, σ 2 ), quan la seva funció de densitat de probabilitat és
1 1 x−µ 2
f (x) = √ e− 2 ( σ ) per a − ∞ < x < +∞
2πσ
Z b
1 x−µ 2
e− 2 ( ) dx
1
P (a ≤ X ≤ b) = √ σ
2πσ a
130 Elements d’estadística
¡ ¢
Figura 4.2 Funció de densitat de probabilitat de la distribució N µ, σ 2
És a dir, φ(x) és l’àrea que queda a l’esquerra de x sota la gràfica de la funció de densitat de
Z ∼ N (0, 1).
φ(x) + φ(−x) = 1
En efecte,
Z " # Z
−x ∞
1 −t /22 t = −u 1 2
φ(−x) = P (Z ≤ −x) = √ e dt = =√ e−u /2
du
2π −∞ dt = −du 2π x
= P (Z ≥ x) = 1 − P (Z ≤ x) = 1 − φ(x)
φ(x) = γ
és a dir, l’àrea que queda a l’esquerra de x sota la gràfica de la funció de densitat és igual a γ,
aleshores escriurem
x = zγ
(vegeu Fig. 4.4). Per exemple, quan γ = 12 , com que l’àrea que queda a l’esquerra de x = 0 sota
la gràfica de la funció de densitat és igual a la meitat de l’àrea total, és a dir 1/2, obtenim que
z1/2 = 0. Per als casos “límit” γ = 0 i γ = 1 és z0 = −∞ i z1 = +∞.
De la definició de zγ es dedueix que φ(zγ ) = γ, i per tant zγ = φ−1 (γ). Això significa que el
valor de zγ no és res més que la inversa de la funció de distribució en el punt γ.
132 Elements d’estadística
zγ = −z1−γ
tal com s’il·lustra a Fig. 4.5. En efecte, φ(−z1−γ ) = 1 − φ(z1−γ ) = 1 − (1 − γ) = γ, i per tant
zγ = −z1−γ .
Exemple: Si Z és una variable normal N (0, 1), llavors la probabilitat que al realitzar l’experi-
ment, que permet mesurar Z, s’obtingui un valor de Z menor o igual que 1.1 és, segons les
taules, de 0.8643. La probabilitat d’obtenir un valor menor o igual que 1.12 és de 0.8686, la
d’obtenir un valor menor o igual que 1.16 és 0.8770 i la d’obtenir un valor menor o igual que
−1.38 és de 0.0838. Això és,
Observació: Recordem que per a una variable contínua les probabilitats puntuals són zero i,
en conseqüència, les probabilitats dels intervals amb iguals extrems són les mateixes indepen-
dentment de si es consideren oberts, tancats o semioberts. En ser una variable normal contínua
és
P (a ≤ X ≤ b) = P (a < X ≤ b) = P (a ≤ X < b) = P (a < X < b)
4 Alguns models de probabilitat 133
i també
P (X ≤ x) = P (X < x)
P (X ≥ x) = P (X > x)
P (Z ≥ a) = P (Z > a) = 1 − P (Z ≤ a)
i també
P (Z ≥ 1.12) = 1 − P (Z ≤ 1.12) = 1 − φ(1.12) = 1 − 0.8686 = 0.1314
La taula de la normal és també útil per al càlcul recíproc, ja que ens permet, donada una
probabilitat γ, determinar el valor x = zγ que deixa aquesta probabilitat (àrea sota la funció de
densitat) a la seva esquerra.
Per exemple, es vol calcular el valor de z0.95 . En altres paraules, hem de trobar el valor de x
que verifica
P (Z ≤ x) = 0.95
134 Elements d’estadística
per a Z ∼ N (0, 1). Es pren la taula i s’observa que 0.95 no hi és, el que hi ha és 0.9495 i 0.9505.
Llavors es pren com a aproximació x = 1.645. És a dir
P (Z ≤ 1.645) = 0.95
d’on
x = z0.95 = 1.645
P (Z ≤ x) = 0.975
és x = z0.975 = 1.96.
P (−x ≤ Z ≤ x) = 0.9
aleshores hem de resoldre l’equació φ(x) − φ(−x) = 0.9. Fent servir que φ(x) + φ(−x) = 1, i
en particular que φ(−x) = 1 − φ(x), obtenim que φ(x) − (1 − φ(x)) = 0.9, d’on resulta que
2φ(x) − 1 = 0.9. Això equival a φ(x) = (1 + 0.9)/2 = 0.95 i, per tant,
x = z0.95 = 1.645
Sigui X ∼ N (µ, σ 2 ). El càlcul de probabilitats per a X es pot dur a terme en funció de les
probabilitats de Z ∼ N (0, 1) i, per tant, a través de la taula de la funció de distribució de la
N (0, 1) pel següent resultat:
X −µ
Si X ∼ N (µ, σ 2 ), llavors la variable és N (0, 1)
σ
Exemple: Sigui X ∼ N (2, 0.16). Aleshores la probabilitat, per a X, de l’interval [−1, 1.5] ve
donada per
µ ¶ µ ¶
1.5 − 2 −1 − 2
P (−1 ≤ X ≤ 1.5) = φ −φ = φ (−1.25) − φ (−7.5) = 0.1056 − 0 = 0.1056
0.4 0.4
¡ ¢ ¡ ¢
2. Si X ∼ N µ, σ 2 llavors aX + b ∼ N aµ + b, a2 σ 2 si a, b ∈ R, a 6= 0.
En efecte, sigui Y = aX + b. Llavors Y = g(X) amb g(x) = ax + b i, pel canvi de variable,
la funció de densitat de Y és
µ ¶¯ ¯ ¯ ¯
¡ −1 ¢ ¯¯¡ −1 ¢0 ¯
¯ y − b ¯¯ 1 ¯¯ 1 − 12 ( (y−b)/a−µ )
2 ¯1¯
¯ ¯
fY (y) = fX g (y) ¯ g (y)¯ = fX
a ¯ a ¯ = √2πσ e σ
¯a¯
³ ´2
1 1 y−(aµ+b) 2 1 − 1 y−(aµ+b)
= √ e− 2 ( aσ ) = √ e 2 |a|σ
2π |a| σ 2π |a| σ
En conseqüència
Z +∞ ³³ ´2 ³ ´ 2´
1 − 12
t−µX
+
s−t−µY
fS (s) = e σX σ Y dt
2πσ X σ Y −∞
µµ ¶ µ ¶ ¶
Z +∞ − 1 µ µX s2 µ2 µ2 sµY
1 2σ 2
+ 2σ12 t2 + σY s
2 − σ2 − σ2 t+ 2σ X Y
2 + 2σ 2 + 2σ 2 − σ 2
= e X Y Y X Y Y X Y Y dt
2πσ X σ Y −∞
à !2
s − 12 √(
s− µX +µY )
1 π σ 2 +σ 2
= 1 1 e X Y
2πσ X σ Y 2σ2X + 2σ 2Y
à !2
1 − 12 √(
s− µX +µY )
σ 2 +σ 2
= √ q 2 e X Y
2π σ X + σ 2Y
Una variable aleatòria contínua X es diu que segueix una distribució exponencial de paràmetre
θ, i s’escriu X ∼ exp(θ), quan la seva funció de densitat de probabilitat és
−θx
θe per a x ≥ 0
f (x) =
0 per a x < 0
Figura 4.7 Funció de densitat de probabilitat distribució exponencial f (x) = θe−θx per a x ≥ 0
i zero a la resta
R +∞ 2 p π b2 −4ac ³ ´
1
Aquí hem fet servir la fórmula −∞ e−(ax +bx+c) dx = a
e 4a amb a = 1
2σ 2
+ 1
2σ 2
, b =
³ ´ 2 2 2
X Y
µY µX µ µ sµ
σ2
− σ2 − σs2 i c = 2σ
s
2 + 2σ 2 + 2σ 2 − σ 2
X Y Y
Y X Y Y X Y Y
4 Alguns models de probabilitat 137
En aquest cas és
1 1
E(X) = V (X) =
θ θ2
La distribució exponencial s’utilitza per modelitzar probabilísticament el comportament del
temps transcorregut entre dues ocurrències successives de Poisson.
Sigui Nx la variable de Poisson que compta el nombre d’ocurrències a l’interval [0, x], corres-
ponent el zero a l’instant en que s’ha produït la darrera ocurrència. Si el nombre esperat
d’ocurrències per unitat de mesura és α, llavors
Nx ∼ P(λ) amb λ = αx
i si X és la variable que mesura el temps transcorregut entre una ocurrència i la següent, aleshores
(αx)0
P (X > x) = P (Nx = 0) = e−αx = e−αx
0!
d’on
F (x) = P (X ≤ x) = 1 − e−αx
que derivant dóna la funció de densitat de X,
dF
f (x) = (x) = αe−αx per a x > 0
dx
Exemple: La probabilitat que el temps transcorregut entre dues ocurrències d’una variable de
Poisson de paràmetre unitari α = 0.1 ocurrències per minut, sigui superior a 10 minuts, és
Figura 4.8 Funció de densitat de probabilitat exemple temps transcorregut entre dues
ocurrències de Poisson
138 Elements d’estadística
Una variable aleatòria contínua X es diu que segueix una distribució gamma de paràmetres
α > 0 i θ > 0 quan la seva funció de densitat de probabilitat és
α
θ α−1 e−θx
Γ(α) x si x > 0
f (x) =
0 si x ≤ 0
Exemple: Considerem l’exemple del nombre de partícules emeses per una font radioactiva, que
en el període de cinc minuts segueix una distribució de Poisson de paràmetre 1.2. Es vol calcular
la probabilitat que el temps necessari per a observar dues partícules sigui inferior a 4 minuts.
La variable X = temps fins a observar dues ocurrències segueix una distribució gamma de
paràmetres α = 2 i θ = 1.2. Com que Γ(2) = (2 − 1)! = 1, la seva funció de densitat és
(
1.44xe−1.2x si x > 0
f (x) =
0 si x ≤ 0
Després dels càlculs pertinents que resulten d’integrar per parts, finalment s’obté que
P (X < 4) = 0.952267
Una variable aleatòria contínua X es diu que segueix una distribució uniforme a l’interval [a, b],
i s’escriu X ∼ U([a, b]), quan la seva funció de densitat de probabilitat és
1
b−a per a x ∈ [a, b]
f (x) =
0 per a x ∈/ [a, b]
La funció de densitat és
1
0.32 − 0.31 per a x ∈ [0.31, 0.32]
f (x) =
0 per a x ∈
/ [0.31, 0.32]
La probabilitat demanada és l’àrea representada a la figura 4.10, i que és
Z 0.32
1
P (X > 0.3125) = f (x)dx = (0.32 − 0.3125) = 0.75
0.3125 0.32 − 0.31
4 Alguns models de probabilitat 141
Si X és una variable aleatòria amb funció de distribució FX (x) contínua, llavors la variable
Y = FX (X) es distribueix uniformement a [0, 1].
E (Xi ) = µi i V (Xi ) = σ 2i , i = 1, 2, . . .
Aleshores
n
X n
X
E (Sn ) = µi i V (Sn ) = σ 2i
i=1 i=1
P P P
En efecte, per una banda és E (Sn ) = E ( ni=1 Xi ) = ni=1 E (Xi ) = ni=1 µi . Per l’altra, tenint
en compte que les variables Xi són independents resulta que
à n ! n n
X X X
V (Sn ) = V Xi = V (Xi ) = σ 2i
i=1 i=1 i=1
Un dels resultats més importants de l’estadística és el Teorema Central del Límit, que estableix
que encara que les variables Xi no siguin necessàriament normals, per a n gran Sn és aproxi-
P P
madament normal amb esperança ni=1 µi i variància ni=1 σ 2i . És a dir,
à n n
!
X X
Sn ' N µi , σ 2i
i=1 i=1
i en conseqüència
P
Sn − ni=1 µi
qP ' N (0, 1)
n 2
σ
i=1 i
Aquestes aproximacions milloren a mesura que augmenta n. El Teorema Central del Límit és
vàlid sota certes condicions generals que no hem indicat explícitament aquí.
Observem que
n n
¡ ¢ 1X ¡ ¢ 1 X 2
E Xn = µi i V Xn = 2 σi
n n
i=1 i=1
¡ ¢ ¡ ¢ Pn ¡ ¢ ¡ ¢
En efecte, E X n = E Snn = 1
n E (Sn ) = 1
n i=1 µi , i V X n = V Snn = 1
n2 V (Sn ) =
1 Pn 2
n2 i=1 σ i .
P
X n − n1 ni=1 µi
q P ' N (0, 1)
1 n 2
n2 σ
i=1 i
Per tant,
à n n
!
1X 1 X 2
Xn ' N µi , 2 σi
n n
i=1 i=1
Quan les variables Xi són normals la variable X n també és normal, de manera que les aproxi-
macions anteriors són exactes.
Un cas important és quan les variables Xi són idènticament distribuïdes. És a dir, tenen totes
elles la mateixa distribució que una certa variable X amb
E (X) = µ i V (X) = σ 2
E (Xi ) = µ i V (X) = σ 2 , i = 1, 2, . . .
Pn Pn 2
Tenint ara en compte que i=1 µi = nµ i i=1 σ i = nσ 2 , del Teorema Central del Límit es
dedueix que
¡ ¢
Sn ' N nµ, nσ 2
144 Elements d’estadística
i
Sn − nµ
√ ' N (0, 1)
nσ
i
Xn − µ
√ ' N (0, 1)
σ/ n
Quan la variable X és normal N (µ, σ 2 ) aleshores les aproximacions anteriors són exactes.
Finalment, observem que del Teorema Central del Límit es dedueix que si una variable Y , amb
E(Y ) = µY i V (Y ) = σ 2Y , es pot posar com a suma de n variables independents, aleshores si n és
prou gran la variable Y és aproximadament una variable normal amb esperança µY i variància
σ 2Y .
Aquest fet es pot utilitzar per aproximar algunes de les distribucions més notables. Per exemple,
una variable B(n, p) es pot escriure com a suma de n variables independents B(1, p), i una vari-
able de Poisson, P(λ), com a suma de λ Poissons independents. Llavors, com a conseqüència del
Teorema Central del Límit, les distribucions binomial i Poisson s’aproximen per una distribució
normal.
Aquesta aproximació és acceptable si np > 5 i n(1 − p) > 5, i millora a mesura que augmenta n.
Al ser la distribució binomial discreta i la normal contínua, s’acostuma a fer servir la correcció
4 Alguns models de probabilitat 145
per continuïtat
µ ¶
¡ ¢ 1 1
P XB(n,p) = k = P k − ≤ XB(n,p) ≤ k +
2 2
µ ¶
1 1
' P k − ≤ XN(np,np(1−p)) ≤ k +
2 2
à ! à !
1 1
k + 2 − np k − 2 − np
= φ p −φ p
np(1 − p) np(1 − p)
de manera que si a i b són nombres enters positius aleshores
µ ¶
¡ ¢ 1 1
P a ≤ XB(n,p) ≤ b = P a − ≤ XB(n,p) ≤ b +
2 2
µ ¶
1 1
' P a − ≤ XN(np,np(1−p)) ≤ b +
2 2
à ! à !
1 1
b + 2 − np a − 2 − np
= φ p −φ p
np(1 − p) np(1 − p)
i µ ¶ Ã !
¡ ¢ 1 b + 12 − np
P XB(n,p) ≤ b ' P XN(np,np(1−p)) ≤ b + =φ p
2 np(1 − p)
Exemple: Sigui X ∼ B(50, 0.6). Aleshores, com que X ∼ B(50, 0.6) ' N (30, 12) resulta que
¡ ¢ ¡ ¢ ¡ ¢
P XB(50,0.6) ≥ 25 = 1 − P XB(50,0.6) < 25 = 1 − P XB(50,0.6) ≤ 24
µ ¶
¡ ¢ 24.5 − 30
' 1 − P XN(30,12) ≤ 24.5 = 1 − φ √
12
= 1 − φ (−1.59) = 1 − 0.0559
= 0.9441
Per altra banda, l’aproximació de la probabilitat P (20 < XB(50,0.6) < 35) és
¡ ¢ ¡ ¢
P 20 < XB(50,0.6) < 35 = P 21 ≤ XB(50,0.6) ≤ 34 ' P (20.5 ≤ XN(30,12) ≤ 34.5)
µ ¶ µ ¶
34.5 − 30 20.5 − 30
= φ √ −φ √ = φ(1.30) − φ(−2.74)
12 12
= 0.9032 − 0.0031 = 0.9001
Igual que passa amb la binomial, al ser la distribució de Poisson discreta i la normal contínua,
es fa servir la correcció per continuïtat
µ ¶ Ã ! Ã !
¡ ¢ 1 1 k + 12 − λ k − 12 − λ
P XP(λ) = k ' P k − ≤ XN (λ,λ) ≤ k + =φ √ −φ √
2 2 λ λ
de manera que
µ ¶ Ã ! Ã !
¡ ¢ 1 1 b + 12 − λ a − 12 − λ
P a ≤ XP(λ) ≤ b ' P a − ≤ XN (λ,λ) ≤ b + =φ √ −φ √
2 2 λ λ
i à !
µ ¶
¡ ¢ 1 b + 12 − λ
P XP(λ) ≤ b ' P XN(λ,λ) ≤ b + =φ √
2 λ
Aquesta variable N correspon a una suma de r variables geomètriques independents, i per tant
per a r gran es té
µ ¶
r r (1 − p)
N 'N ,
p p2
Igual que per a les variables binomials i Poisson, també es fa servir la correcció per continuïtat.
Sigui X una variable amb una distribució gamma de paràmetres α > 0 i θ > 0.
µ ¶
α α
X'N ,
θ θ2
En aquest cas, però, no es fa servir la correcció per continuïtat al ser X una variable contínua.
Un vector aleatori (X, Y ) diem que és un vector normal bivariant quan és un vector continu
amb funció de densitat de probabilitat donada per
1 1
y−µY ) Σ−1 (x−µX y−µY )T
f (x, y) = p e− 2 (x−µX , (x, y) ∈ R2
det (2πΣ)
on
σ 2X = V (X), σ 2Y = V (Y ) i σ XY = σ Y X = Cov(X, Y )
A = (x − µX y − µY ) Σ−1 (x − µX y − µY )T
(x − µX )2 (x − µX ) (y − µY ) (y − µY )2
= σ 2Y − 2σ XY 2
+ σX 2 2
σ 2X σ 2Y − σ 2XY σ 2X σ 2Y − σ 2XY σ X σ Y − σ 2XY
det (2πΣ)
Això ens facilita expressar la densitat de probabilitat en funció del coeficient de correlació entre
X i Y,
Cov(X, Y ) σ XY
ρXY = p p =
V (X) V (Y ) σX σY
2πσ X σ Y 1 − ρ2XY
µ ¶
1 (x−µX )2 (x−µX )(y−µY ) (y−µY )2
1 − 2 σ2
−2ρXY + σ2
= q e 2(1−ρXY ) X
σX σY
Y (4.1)
2
2πσ X σ Y 1 − ρXY
4 Alguns models de probabilitat 149
És important assenyalar que en el cas de normalitat bivariant l’anul·lació del coeficient de cor-
relació equival a la independència. És a dir, si el vector (X, Y ) és normal bivariant aleshores
En efecte, havíem vist a la Secció 3.9 que la independència implica sempre que ρXY = 0, i
per tant només cal comprovar el recíproc. Per fer-ho només cal veure que si (X, Y ) és normal
bivariant i ρXY = 0 llavors la funció de densitat de probabilitat de (X, Y ) és
Suposem doncs que ρXY = 0. Aleshores, tenint en compte l’equació 4.1 resulta que
µ ¶
X(x−µ )2 (y−µ )2
1 −1 σ2
+ σ2Y
f (x, y) = e 2 X Y
2πσ X σ Y
³ ´ ³ ´2
x−µX 2
1 − 12 1 − 12
y−µY
= √ e σX
√ e σY
2πσ X 2πσ Y
= gX (x)gY (y)
on ³ ´2 ³ ´2
1 −1
x−µX
1 −1
y−µY
gX (x) = √ e 2 σX
gY (y) = √ e 2 σY
2πσ X 2πσ Y
Les funcions gX i gY són les funcions de densitat de dues variables aleatòries normals, i en par-
R +∞ R +∞
ticular −∞ gX (x)dx = −∞ gY (y)dy = 1. Això implica que les funcions de densitat marginals
de X i Y són
Z +∞ Z +∞ Z +∞
fX (x) = f (x, y)dy = gX (x)gY (y)dy = gX (x) gY (y)dy = gX (x)
−∞ −∞ −∞
Z +∞ Z +∞ Z +∞
fY (y) = f (x, y)dx = gX (x)gY (y)dx = gY (y) gX (x)dx = gY (y)
−∞ −∞ −∞
i en conseqüència
f (x, y) = fX (x)fY (y)
tal com volíem veure.
4.13 Exercicis
Problema 4.1 Trobeu la probabilitat d’obtenir exactament dues cares en cinc llançaments
independents d’una moneda equilibrada.
Problema 4.2 S’envia un codi en format per 16 bits. La probabilitat d’enviar un bit erroni,
que és independent per cada bit, és del 15%. Calculeu la probabilitat dels següents successos:
150 Elements d’estadística
Problema 4.3 La variable X segueix una distribució binomial amb n = 8 i p = 0.65. Calculeu:
P (X ≤ 1), P (X ≥ 2), P (X ≥ 7), P (5 < X < 8), P (5 ≤ X ≤ 8) i P (5 ≤ X ≤ 7|X ≥ 7).
Problema 4.4 El 3% de les unitats fabricades per un fabricant de productes electrònics són
defectuoses. Per a un lot de 50 unitats, determineu:
Problema 4.5 Perquè un sistema funcioni es necessita com a mínim 50 components que fun-
cionin. Normalment aquests components presenten un percentatge d’un 1% d’unitats defectuoses
i l’estat de cada component és independent dels altres.
Problema 4.6 El nombre de trucades que rep una centraleta, durant el matí, segueix una llei
de Poisson amb un promig de 1.5 trucades per minut. Determineu:
d) Si en un minut s’han rebut 2 o més trucades, quina és la probabilitat que en aquell minut
se’n rebin 3 o més?
4 Alguns models de probabilitat 151
Problema 4.7 En un tram perillós de carretera, el nombre d’accidents per setmana segueix
una llei de Poisson de paràmetre λ = 3.
Problema 4.8 La línia telefònica del sistema d’informació al ciutadà està ocupada el 60% dels
cops. Quina és la probabilitat d’haver de trucar quatre cops fins obtenir la primera resposta?
Quin és el nombre esperat (nombre promig) de trucades necessàries fins obtenir la primera
resposta?
Problema 4.9 Seguint amb el problema 4.8, quina és la probabilitat d’haver de trucar sis cops
perquè dues de les trucades siguin amb resposta?
Problema 4.10 En un concurs de pesca en piscina actuen un pescador darrera l’altre. Es tracta
de pescar un cert tipus de peix que constitueix només el 55% del total dels peixos. Un pescador
para i deixa pas al següent només quan hagi pescat 10 d’aquests peixos. El sistema del concurs
obliga a tornar cada peix a l’aigua en el mateix moment que s’ha pescat i abans de tornar a
tirar l’ham. Per a un pescador determinat, es demana:
a) La probabilitat que el primer exemplar del peix del tipus buscat sigui el tercer peix pescat.
b) La probabilitat que el primer exemplar del peix del tipus buscat sigui dels tres primers
peixos pescats.
c) La probabilitat que el nombre total de peixos pescats necessaris per parar, és a dir fins
que n’obtingui deu del tipus que busca, sigui de 15.
d) El nombre promig (nombre esperat) de peixos pescats fins obtenir els deu necessaris del
tipus que busca.
Problema 4.11 Un examen tipus test consta de deu qüestions. Cada pregunta presenta quatre
possibles respostes, de les quals només una és correcta. La nota final és el nombre de respostes
correctes.
152 Elements d’estadística
a) Quina probabilitat d’aprovar l’examen té un estudiant que contesta totes les preguntes a
l’atzar?
Problema 4.12 Sigui X ∼ N (0, 1). Fent servir la taula de la normal, calculeu les probabilitats
següents: P (X < 0), P (X < 0.42), P (X > 0.75), P (X ≤ 8), P (X > −5), P (−2.46 < X < 1.5)
i P (−1 < X < 1).
Problema 4.13 Sigui X ∼ N (0, 1). Fent servir la taula de la normal, calculeu els valors
corresponents de x en les següents igualtats: P (X < x) = 0.5, P (X < x) = 0.67, P (X > x) =
0.95, P (x < X < 3) = 0.2, P (−3 < X < x) = 0.1, P (−x ≤ X ≤ x) = 0.95 i P (|X| > x) = 0.05.
Problema 4.14 Sigui X una variable normal amb µ = 50 i σ = 4. Calculeu les probabilitats
P (X < 50), P (X > 49), P (48 < X < 58), P (50 < X < 60) i P (50 < X < 60|X > 49).
Problema 4.15 Sigui X una variable normal amb µ = 10 i σ = 2. Calculeu els valors correspo-
nents de x en les següents igualtats: P (X > x) = 0.5, P (X > x) = 0.975, P (x < X < 10) = 0.2,
P (5 < X < x) = 0.95 i P (−x ≤ X − 10 ≤ x) = 0.95.
Problema 4.16 La probabilitat que un tipus de dispositiu falli és 0.09 i la falla d’un dispositiu
és independent de la dels altres. Calculeu aproximadament la probabilitat que d’una partida
de 1000 d’aquests dispositius en fallin més de 100. Indicació: Feu servir l’aproximació de la
distribució binomial per la Normal utilitzant correcció per continuïtat.
Problema 4.17 Se sap que els errors en un cert instrument de mesura de longituds estan
distribuïts normalment amb valor esperat zero i desviació típica 1 mm. Quina és la probabilitat
que, al prendre una mesura, l’error comès (en valor absolut) sigui inferior a 2 mm? I inferior a
2.5 mm? Si hem pres una mesura i l’error comès en valor absolut és inferior a 2.5 mm, quina és
ara la probabilitat que l’error comès sigui, en valor absolut, inferior a 2 mm?
Problema 4.18 Es fabriquen resistències de 10 Ω. Les resistències no sempre surten igual, però
es pot suposar que segueixen una distribució normal tal que la mitjana de la nostra producció
és de 10 Ω, amb una desviació típica de 1 Ω.
a) Calculeu la probabilitat que a l’agafar una resistència a l’atzar aquesta tingui una resistèn-
cia superior a 9.5 Ω.
4 Alguns models de probabilitat 153
Problema 4.19 L’amplada d’una peça es distribueix normalment amb µ = 0.900 i σ = 0.003.
Els límits d’especificació (límits dintre dels quals una peça no es considera defectuosa) són
0.900 ± 0.005.
c) Si es vol que no es produeixi més d’un 1% de peces defectuoses, fins a quin valor s’hauria
de reduir, com a mínim, la desviació típica σ de la variable amplada?
Problema 4.20 Es fabriquen cargols cilíndrics, el diàmetre dels quals es pot modelitzar com
una variable aleatòria normal amb mitjana µ = 0.25.
b) Quin valor hauria de tenir la desviació típica per tal que la proporció de cargols amb un
diàmetre a l’interval [0.24, 0.26] sigui de 0.9?
Problema 4.21 El contingut de sucre amb què una màquina automàtica emplena paquets d’un
quilogram de sucre segueix una distribució normal amb mitjana 1000 gr i desviació típica 15 gr.
a) Quina és la probabilitat que el pes d’un paquet qualsevol sigui inferior a 950 gr?
b) Si es desestimen tots els paquets que tenen menys de 975 gr o més de 1025 gr, quina és la
proporció de paquets desestimats?
d) Suposeu que la mitjana del pes es pot ajustar fàcilment. Si la desviació típica es manté en
15 gr, a quin valor s’ha de fixar la mitjana per tal que el 99% de tots els paquets contingui
més de 990 gr?
154 Elements d’estadística
e) Quin valor s’ha de donar a la mitjana per tal que el 99% del total de paquets continguin
més de 990 gr, si la desviació típica es redueix a 10?
Problema 4.23 Les capacitats, C, d’un cert tipus de condensador (en µf ) es distribueixen
normalment amb un promig de µC = 60 i una desviació típica σ C = 4. Es disposa d’un
instrument que mesura les capacitats amb cert error, de manera que Cm = C + E, on Cm és la
capacitat mesurada per l’instrument, C la capacitat real i E l’error en la mesura. Els errors en
la mesura estan distribuïts normalment amb mitjana 0 i desviació típica 0.9.
a) Determineu el percentatge de condensadors que tenen una capacitat real superior a 63.
c) Si podem ajustar el promig µC de les capacitats dels condensadors, quin ha de ser el valor
de µC per tal que només el 10% de les mesures de l’instrument siguin superiors a 63?
Problema 4.25 El procés d’emplenament automàtic de botelles d’un determinat tipus de begu-
da es fa mitjançant l’abocament independent de dos compostos líquids, A i B, que es barregen
per donar el producte desitjat. El volum, XA , de A abocat, en centímetres cúbics, segueix una
distribució normal amb µXA = 20 i σ XA = 2.5, mentre que el volum, XB , de B abocat, també
4 Alguns models de probabilitat 155
en centímetres cúbics, segueix una distribució normal amb µXB = 10 i σ XB = 1.5. Una botella
emplenada es considera correctament emplenada sempre que el volum abocat de A sigui a l’in-
terval [15, 25], i el de B no sigui superior a 12. En cas que algun d’aquests dos requeriments falli
la botella es considera defectuosa. Les botelles un cop emplenades s’emmagatzemen en caixes
de 8 unitats. Cada botella té una capacitat màxima de 38 centímetres cúbics. Independentment
de si una botella resulta defectuosa o no, es vol saber si és molt freqüent el fet que la quantitat
total abocada superi els 38 cm3 .
a) Calculeu la proporció de botelles per a les quals no hi ha vessament de líquid per excés.
b) Si es considera que per tenir un ajust acceptable la diferència entre el diàmetre interior
del cilindre i el diàmetre exterior del pistó no pot ser superior a 0.5 mm, quina serà la
proporció de parells de pistons i cilindres que ajustaran correctament?
Problema 4.27 Considereu la centraleta telefònica del problema 4.6, on el nombre de trucades
rebudes segueix una llei de Poisson amb un promig de 1.5 trucades per minut. Sigui X = temps
transcorregut entre dues trucades consecutives a la centraleta.
Problema 4.28 El nombre de defectes en una cinta magnètica segueix una distribució de Poisson
amb un promig de 0.25 defectes per metre de cinta.
b) Quina és la probabilitat que la distància entre dos defectes consecutius sigui superior a 4
metres? I que estigui entre 2 i 5 metres?
Problema 4.29 L’error comès, E, per un instrument de mesura està distribuït uniformement
a l’interval [−1, 1].
c) Quin és l’error tal que el 10% de mesures tenen un error (en valor absolut) superior a ell?
Problema 4.30 Una empresa està organitzada en 5 filials totalment independents. Les factura-
cions anuals de cada filial, Xi , i = 1, . . . , 5, són variables normals i les seves mitjanes teòriques,
expressades en milions d’euros, són µX1 = 1.5, µX2 = 3.5, µX3 = 2.5, µX4 = 2 i µX5 = 0.5.
Calculeu la probabilitat que en un any, la facturació total de l’empresa superi els 10 milions
d’euros.
Capítol 5
Per a cada valor de k s’obté una distribució χ2k essent les funcions de densitat de probabilitat
del tipus de les que es mostren a la figura 5.1.
¡ ¢ ¡ ¢
L’esperança i la variància de χ2k són E χ2k = k i V χ2k = 2k. D’altra banda, la suma de dues
variables khi-quadrat independents és una nova khi-quadrat amb graus de llibertat igual a la
suma dels graus de llibertat de les variables que se sumen:
F (x) = P (U ≤ x)
A la taula de la distribució khi-quadrat hi ha tabulats els valors de χ2k,γ per a diferents valors
de k i de γ, k ≤ 100. Si necessitem calcular χ2k,γ per a k > 100 i no disposem d’un ordinador a
mà, aleshores podem fer servir l’aproximació
¡ √ ¢2
2 zγ + 2k − 1
χk,γ '
2
que va millorant a mesura que k augmenta.
1
Observem que aquesta notació és del mateix estil que la notació zγ utilitzada per a la distribució N (0, 1).
5 Distribucions associades a la normal 159
La distribució t de Student amb k graus de llibertat és la que segueix una variable que s’obté
com a quocient de dues variables independents tals que el numerador és una variable N (0, 1) i
el denominador l’arrel quadrada d’una variable χ2k dividida pels seus graus de llibertat, k.
Z ∼ N (0, 1)
Z
⇒ q ∼ tk
V
V ∼ χ2k k
Per a cada valor de k s’obté una distribució t de Student. La funció de densitat de probabilitat
d’una variable T ∼ tk l’obtindrem com la marginal de (T, U ),
Z +∞
fT (t) = f(T,U) (t, u)du
−∞
q
on U = Vk i f(T,U ) és la funció densitat de probabilitat conjunta de (T, U ). Hem de calcular
primer, doncs, la funció de densitat de (T, U ).
fV (v) = 2 Γ( 2 )
k/2
0 si v ≤ 0
p dv
Fent el canvi de variable u = v/k, pel que v = ku2 i du = 2ku, resulta
¡ 2 ¢ k −1 −ku2 /2
¡ 2¢ 1
ku 2 e 2ku per a u > 0
fU (u) = fV ku 2ku = 2 Γ( 2 )
k/2 k
0 per a u ≤ 0
Γ( 2 )
k uk−1 e−ku /2 si u > 0
fU (u) =
0 si u ≤ 0
D’altra banda, com que Z i U són independents, la funció de densitat de (Z, U ) és el producte
de les funcions de densitat de Z i de U . Això és, quan u ≤ 0 llavors f(Z,U) (z, u) = fZ (z)fU (u) =
fZ (z) · 0 = 0 i si u > 0 aleshores
¡ ¢k/2
1 −z2 /2 2 k2 2
f(Z,U) (z, u) = fZ (z)fU (u) = √ e · ¡ k ¢ uk−1 e−ku /2
2π Γ 2
160 Elements d’estadística
Llavors
f(T,S) (t, s) = f(Z,U) (z(t, s), u(t, s)) |J|
on ¯ ¯ ¯ ¯
¯ ∂z ∂z ¯ ¯ s t ¯
¯ ∂t ∂s ¯ ¯ ¯
J =¯ ∂u ∂u ¯=¯ ¯=s
¯ ∂t ∂s
¯ ¯ 0 1 ¯
Per tant
f(T,S) (t, s) = f(Z,U) (ts, s) |s|
d’on resulta que f(T,S) (t, s) = 0 per a s ≤ 0, i
¡ ¢k/2 ¡ ¢k/2
1 −(ts)2 /2 2 k2 k−1 −ks2 /2 2 k2 s2 2
f(T,S) (t, s) = √ e · ¡k¢ s e s= √ ¡ k ¢ sk e− 2 (t +k)
2π Γ 2 2πΓ 2
Calculem la integral
Z +∞ " # Z
s2 2
2
k − s2 (t2 +k) 2 (t+ k) = w2 2(k+1)/2 +∞
2
s e ds = √ √ = wk e−w dw
0 s = √t22w
+k
ds = √ 2dw
t2 +k
(k+1)/2
(t2 + k) 0
(5.2)
¡ ¢k/2 µ ¶
2 k2 2(k+1)/2 1 k+1
fT (t) = √ ¡ ¢ Γ per a − ∞ < t < +∞
2πΓ k2 (t2 + k)(k+1)/2 2 2
Després d’algunes simplificacions s’obté que la funció de densitat de la t de Student amb k graus
de llibertat és
¡ ¢
kk/2 Γ k+1
2 1
fT (t) = √ ¡ k ¢ per a − ∞ < t < +∞
πΓ 2 (t + k)(k+1)/2
2
Per als diferents valors de k els gràfics de les funcions de densitat de probabilitat són com es
mostra a la figura 5.3, de manera que són simètriques respecte l’eix x = 0, complint-se que
Fk (x) + Fk (−x) = 1
Notació: Anàlogament que amb la χ2k , es denota per tk,γ el valor que deixa a la seva esquerra
una àrea sota la funció densitat de tk igual a γ (vegeu Fig. 5.4). En altres paraules tk,γ = Fk−1 (γ).
162 Elements d’estadística
Figura 5.4 Notació tk,γ = Fk−1 (γ) per a les distribucions t de Student
tk,1−γ = −tk,γ
A la taula de la distribució t de Student hi ha tabulats els valors de tk,γ per a diferents valors
de k i de γ. Si no disposem d’un ordinador a mà i necessitem calcular tk,γ per k gran (k > 100),
podem fer servir que
tk,γ ' zγ
V ∼ χ2p V
p
⇒ U
∼ Fp,m
U ∼ χ2m m
En aquest cas es disposa d’una distribució F per a cada parella de nombres naturals p i m.
Escriurem
V
V U p W1
W1 = W2 = i Y = U
=
p m m
W2
5 Distribucions associades a la normal 163
fV (v) = 2p/2 Γ ( 2 )
0 a la resta
dv
Fent el canvi de variable w1 = v/p, pel que v = pw1 i dw1 = p, resulta que
1 p
fW1 (w1 ) = fV (pw1 )p = ¡ ¢ (pw1 ) 2 −1 e−pw1 /2 p per a w1 > 0
2p/2 Γ p2
Això és,
p p/2 m m/2 p
(2) ( 2 ) −1 m −1
p
Γ( 2 )Γ( 2 )
m w1
2
w22 e−pw1 /2−mw2 /2 quan w1 , w2 > 0
f(W1 ,W2 ) (w1 , w2 ) =
0 en cas contrari
Llavors
f(Y,S) (y, s) = f(W1 ,W2 ) (w1 (y, s), w2 (y, s)) |J|
on ¯ ¯ ¯ ¯
¯ ∂w1 ∂w1 ¯ ¯ s y ¯
¯ ∂y ∂s ¯ ¯ ¯
J =¯ ∂w2 ∂w2 ¯=¯ ¯=s
¯ ∂y ∂s
¯ ¯ 0 1 ¯
Per tant
f(Y,S) (y, s) = f(W1 ,W2 ) (ys, s) |s|
0 en cas contrari
Ara bé,
Z +∞ p+m
s( 2 −1) e− 2 (py+m) ds
s
I =
"0 #
s
= 2 (py
+ m) = t
2t 2
s = py+m ds = py+m dt
Z +∞ µ ¶ p+m −1
2t 2 2
= e−t dt
0 py + m py + m
µ ¶ p+m Z +∞
2 2 p+m
= t 2 −1 e−t dt
py + m 0
µ ¶ p+m µ ¶
2 2 p+m
= Γ
py + m 2
2 Γ
2 ¢ ¡ ¢ 2 p
−1 2 2 p 2 y 2 −1
fY (y) = ¡ y 2 = ¡ ¢ ¡ ¢
Γ p2 Γ m Γ p2 Γ m
p+m
2
py + m 2 (py + m) 2
5 Distribucions associades a la normal 165
fY (y) = (py + m) 2
0 en cas contrari
El seu gràfic per a diferents graus de llibertat és de la forma que es mostra a la figura 5.5.
m
Es pot demostrar que si m ≥ 3 aleshores l’esperança de Y ∼ Fp,m és E(Y ) = m−2 , i que si
2m2 (m+p−2)
m ≥ 5 la seva variància és V (Y ) = p(m−2)2 (m−4) .
Notació: D’igual manera que amb la χ2k i la tk , es denota per fp,m,γ el valor que deixa a la seva
esquerra una àrea sota la funció de densitat de Fp,m igual a γ.
5.4 Exercicis
Problema 5.1 Sigui X una variable khi-quadrat amb 10 graus de llibertat. Fent servir la taula
de la khi-quadrat, calculeu:
c) P (X ≤ 3.24).
Problema 5.2 Calculeu amb un ordinador el valor de z0.95 i els valors de χ2n,0.95 per a n = 10,
¡ √ ¢2
50, 100 i 1000. Observeu que el quocient entre χ2n,0.95 i z0.95 + 2n − 1 /2 es va acostant a 1
a mesura que n augmenta.
Problema 5.3 Sigui X una variable t de Student amb 25 graus de llibertat. Fent servir la
taula, calculeu:
d) P (X ≤ 1.316).
Problema 5.4 Calculeu els valors de tn,0.95 per a n = 10, 50, 100 i 1000. Observeu que tn,0.95
es va acostant a z0.95 a mesura que n augmenta.
Problema 5.5 Sigui X una variable F de Fisher amb 8, 15 graus de llibertat. Fent servir la
taula, calculeu:
Problema 5.6 Sigui X una variable F de Fisher amb 8, 15 graus de llibertat. Fent servir la
taula i la propietat que fp,m,γ = 1/fm,p,1−γ , calculeu el valor de x tal que P (X > x) = 0.99.
Capítol 6
En moltes situacions pràctiques es pot suposar un model teòric concret que depèn de certs
paràmetres, com per exemple algun dels models teòrics estudiats al Capítol 4. Sovint, però, es
desconeixen els paràmetres que especifiquen el model teòric, de manera que els valors d’aquests
paràmetres s’han de mirar d’aproximar a partir d’una mostra observada. És a dir, els paràmetres
s’han d’estimar a partir de l’observació de mostres. En aquest capítol veiem com estimar de
forma adequada els paràmetres i valorem les propietats dels estimadors.
És a dir, una mostra resulta de realitzar n cops de forma independent la variable X. Si s’indica
per Xi la variable X quan s’està realitzant per i−èssim cop per obtenir xi , llavors es diu que el
que permet obtenir una mostra de X és la col·lecció X1 , . . . , Xn de n repeticions independents
de la variable X. Això s’escriu
X1 = x1 , . . . , Xn = xn
168 Elements d’estadística
a partir d’aquesta segona mostra no són necessàriament iguals als x i s2 de la primera mostra.
Els valors x i x0 són realitzacions de la variable aleatòria X, funció de les n repeticions indepen-
dents X1 , . . . , Xn de la variable X,
n
1X
X= Xi
n
i=1
i els valors s2 i(s0 )2 són realitzacions de la variable aleatòria funció també de les n repeticions
independents X1 , . . . , Xn ,
n
2 1 X¡ ¢2
S = Xi − X
n
i=1
Les variables X i S 2 són estadístics mostrals i és fonamental entendre que aquests estadístics
mostrals són variables aleatòries, cada una amb la seva pròpia distribució de probabilitat.
n 2 n−1 2
Observem que S̃ = n−1 S i que S 2 = n S̃ .
En efecte, com que cada variable Xi segueix la mateixa distribució que X, és E(Xi ) = µ i
V (Xi ) = σ 2 , i = 1, . . . , n, i per tant
n n
1X 1X
E(X) = E(Xi ) = µ=µ
n n
i=1 i=1
6 Estimació dels paràmetres 169
Tenint un altre cop en compte que les variables X1 , . . . , Xn són independents, resulta que
à n ! n n
1 X 1 X 1 X 2 σ2
V (X) = 2 V Xi = 2 V (Xi ) = 2 σ =
n n n n
i=1 i=1 i=1
Una manera intuïtiva d’establir estimadors és, per exemple, la que resulta d’igualar moments
teòrics i mostrals del mateix ordre. El moment teòric d’ordre k d’una variable X és E(X k ),
l’esperança de X k , i el moment mostral d’ordre k és
n
1X k
Xk = Xi
n
i=1
2
Observem que X 1 = X i que X 2 = X + S 2 . En efecte,
1 X³ 2 ´ 1X
n n n n n
1 X¡ ¢2 2 1X 1X 2
S2 = Xi − X = Xi − 2XXi + X = Xi2 − 2X Xi + X
n n n n n
i=1 i=1 i=1 i=1 i=1
2 2 2 2
i per tant S 2 = X 2 − 2X + X = X 2 − X . Això implica que X 2 = X + S 2 , tal com volíem
veure.
Exemple: Sigui X una variable de Poisson de paràmetre λ. Igualant els moments de primer
ordre obtenim que
n
1X
λ = E(X) = X 1 = Xi = X
n
i=1
Exemple: Sigui X una variable binomial B(1, p) on p = P (X = 1). Per tal d’estimar p fem
n
1X
p = E(X) = X = Xi
n
i=1
170 Elements d’estadística
és a dir,
pb = X
Per exemple, si en una mostra de 50 articles d’un procés de producció n’hi havia 3 que pre-
sentaven algun tipus de defecte, aleshores l’estimador pb = X de la proporció p (desconeguda)
3
d’articles defectuosos del total de la producció, en base a aquesta mostra, és pb = 50 = 0.06.
¡ ¢
Exemple: Si X ∼ N (µ, σ 2 ), per tal d’estimar el paràmetre bidimensional θ = µ, σ 2 cal igualar
dos moments:
E(X) = X
E(X 2 ) = X 2
Tenint en compte que µ = E(X) obtenim que µ b = X. Aplicant ara que σ 2 = V (X) =
c2 = X 2 − µ 2
E(X 2 ) − E(X)2 = E(X 2 ) − µ2 i que E(X 2 ) = X 2 , resulta σ b2 = X 2 − X . D’aquí
s’obté que
b=X
µ
c2 = X 2 − X 2 = S 2
σ
Exemple: Sigui X una variable exponencial de paràmetre θ. A l’igualar els moments de primer
ordre resulta l’estimació directa de la funció g(θ) = 1/θ de θ
1
= E(X) = X
θ
i
b
1
=X
θ
El problema que planteja el procés d’estimació és que, a més a més de trobar estimadors, cal que
aquests proporcionin estimacions el més precises possible. En el darrer exemple, per estimar la
funció g(θ) = 1/θ del paràmetre de la variable exponencial, a l’haver-hi un sol paràmetre s’ha
igualat els primers moments però també haguéssim pogut fer el càlcul igualant altres moments,
per exemple
E(X 2 ) = X 2
6 Estimació dels paràmetres 171
d’on
V (X) + E(X)2 = X 2
µ ¶2
1 1
+ = X2
θ2 θ
2
= X2
θ2
i l’estimador que s’obté és
s
b
1 X2
=
θ 2
que és diferent de l’obtingut abans. La qüestió és, llavors, saber quin dels dos és millor, o si hi
ha alguna manera d’obtenir un estimador òptim.
Exercici: Comproveu que l’estimador del paràmetre de Poisson λ obtingut d’igualar els mo-
ments de segon ordre és
p
b= −1 + 1 + 4X 2
λ
2
B(T ) = E (T ) − θ
Un estimador, T , tal que B(T ) = 0, és a dir tal que E (T ) = θ, es diu que és un estimador
centrat de θ.
Considerem ara una variable qualsevol, X, d’esperança µ i variància σ 2 . Per als estimadors
¡ ¢
X i S 2 de µ i σ 2 respectivament es verifica que E X = µ, de manera que l’estimador de µ és
centrat i V (X) = σ 2 /n. Per a S 2 es verifica que
¡ ¢ ³ ´ ³ ´ ³ ´ 1X n
¡ ¢ ³ ´
2 2 2
E S2 = E X 2 − X = E X2 − E X = E Xi2 − E X
n
i=1
³ ´ ¡ ¢ ¡ ¢2
2
Tenint en compte que E(Xi2 ) = V (Xi ) + E(Xi )2 = σ 2 + µ2 i que E X = V X + E X =
σ2
n + µ2 resulta que
n µ ¶ µ ¶
¡ ¢ 1X ¡ 2 ¢ σ2 σ2 n−1 2
E S2 = σ + µ2 − + µ2 = σ 2 + µ2 − + µ2 = σ
n n n n
i=1
És a dir,
¡ ¢ n−1 2
E S2 = σ
n
de manera que S 2 és un estimador no centrat de σ 2 amb biaix
¡ ¢ n−1 2 σ2
B(S 2 ) = E S 2 − σ 2 = σ − σ2 = −
n n
En aquest cas és possible corregir el biaix prenent com estimador la variància corregida S̃ 2 =
n 2 2
n−1 S en comptes de S , ja que
³ ´ µ ¶
2 n
E S̃ = E S = σ2
2
n−1
L’error quadràtic mitjà de l’estimador S̃ 2 és, al ser centrat, la seva variància. Per tant
µh i2 ¶ ³ ´
2 2 2σ 4
E S̃ − σ = V S̃ 2 =
n−1
En tots aquests casos d’estimadors centrats la qüestió és si es pot trobar algun altre estimador
amb variància més petita, ja que de tots els estimadors centrats el millor és el que té variància
el més petita possible.
Sigui g(θ) una funció del paràmetre θ. Aleshores, sota certs supòsits de regularitat, per a tot
estimador T centrat de g(θ) es verifica que
g 0 (θ)2
V (T ) ≥ h¡ ¢2 i
∂
nE ∂θ log f (X; θ)
La cota de Cramer-Rao és
1 λ
h¡ ¢2 i = n
∂
nE ∂λ log f (X; λ)
³ ´
Al ser λ b =
b = X centrat i amb V λ λ b = X és l’estimador centrat de λ de mínima
resulta que λ
n
variància.
i l’estimador X del paràmetre g(θ) = 1/θ també és de mínima variància com es pot comprovar
calculant la cota de Cramer-Rao i veient que coincideix amb la seva variància. En efecte,
d = X és l’estimador
que coincideix amb la variància de l’estimador X de 1/θ. Per tant 1/θ
centrat de 1/θ de mínima variància.
1 1 θ2
h¡ ¢2 i = ¡ 2 ¢ = n
nE ∂ n 1/θ
∂θ log f (X; θ)
P
Es pot demostrar que l’estimador 1/X de θ no és centrat. En efecte, la variable T = ni=1 Xi
és una suma d’exponencials de paràmetre θ, i per tant T segueix una distribució gamma de
paràmetres n i θ. En conseqüència
µ ¶ µ ¶ Z +∞ Z +∞
1 1 1 θn n−1 −θt θ θn−1 n−2 −θt
E = nE =n t e dt = n t e dt
X T 0 t Γ(n) n−1 0 Γ(n − 1)
Z +∞
θ
= n g(t)dt
n − 1 −∞
1 1 x−µ 2
f (x) = f (x; µ) = √ e− 2 ( σ )
2πσ
i per calcular la cota de Cramer-Rao per a µ es té
µ ¶ µ ¶
1 1 x−µ 2
log f (x; µ) = log √ −
2πσ 2 σ
∂ x−µ
log f (x; µ) =
∂µ σ2
µ ¶2
∂ (X − µ)2
log f (X; µ) =
∂µ σ4
"µ ¶2 # " #
∂ (X − µ)2 V (X) 1
E log f (X; µ) = E = = 2
∂µ σ4 σ4 σ
176 Elements d’estadística
1 σ2
·³ ´2 ¸ = n
∂
nE ∂µ log f (X; µ)
1 2σ 4
·³ ´2 ¸ = n
∂ 2
nE ∂(σ2 ) log f (X; σ )
n 2σ4
i la variància de S̃ 2 = n−1 S
2 era n−1 . En particular
³ ´ 2σ 4
V S̃ 2 >
n
1 σ2
h¡ ¢2
i =
nE ∂ 2n
∂σ log f (X; σ)
n−1 2
i que S 0 és l’estimador centrat de σ de mínima variància. Tenint en compte que S 2 = n S̃ , i
q
en particular que S = n−1 0
n S̃, resulta que l’estimador S de σ, en termes de S̃, és
r ¡ ¢
0 n − 1 Γ n−1
S = ¡ 2 ¢ S̃
2 Γ n2
6 Estimació dels paràmetres 177
= pnX (1 − p)n(1−X)
= θn e−θnX
178 Elements d’estadística
Exemple: Sigui X una variable normal, X ∼ N (µ, σ 2 ). En aquest cas la funció de versemblança
és
¡ ¢ 1 1 X1 −µ 2 1 1 Xn −µ 2
L X1 , . . . , Xn ; µ, σ 2 = √ e− 2 ( σ ) · · · √ e− 2 ( σ )
2πσ 2πσ
1 P Xi −µ 2
= ¡√ ¢n e − 12 ni=1 ( σ )
2πσ
i en el continu
El valor de p que maximitza L(X1 , . . . , Xn ; p) és el mateix que el que maximitza el seu logaritme,
log L(X1 , . . . , Xn ; p), ja que el logaritme és una funció estrictament creixent, i per tant hem de
resoldre l’equació
∂
log L(X1 , . . . , Xn ; p) = 0
∂p
Això és,
∂ ³ ´
log pnX (1 − p)n(1−X) = 0
∂p
∂ ¡ ¢
nX log p + n(1 − X) log(1 − p) = 0
∂p
nX n(1 − X)
− =0
p 1−p
d’on resulta
p=X
6 Estimació dels paràmetres 179
pb = X
L(X1 , . . . , Xn ; θ) = θn e−θnX
Considerem el logaritme
log L(X1 , . . . , Xn ; θ) = n log θ − θnX
∂ n
0= log L(X1 , . . . , Xn ; θ) = − nX
∂θ θ
d’on s’obté
1
θ=
X
que correspon a un màxim, ja que
µ 2 ¶ µ ¶
∂ n 2
log L(X1 , . . . , Xn ; θ) = − 2 = −nX < 0
∂θ2 θ= 1 θ θ= 1
X X
En conseqüència, b
θ = 1/X és l’estimador màxim versemblant de θ. Recordem, però, que aquest
estimador és un estimador no centrat de θ, i que per tant el mètode de màxima versemblança
no proporciona necessàriament estimadors centrats.
1 Pn Xi −µ 2
¢n e− 2 i=1 ( σ )
1
L(X1 , . . . , Xn ; µ, σ 2 ) = ¡√
2πσ
i el seu logaritme
³√ ´ 1X n µ ¶
Xi − µ 2
log L(X1 , . . . , Xn ; µ, σ 2 ) = −n log 2πσ −
2 σ
i=1
n
n ¡ ¢ 1X (Xi − µ)2
= − log 2πσ 2 −
2 2 σ2
i=1
180 Elements d’estadística
¡ ¢
És fàcil veure que efectivament el punt (µ, σ 2 ) = X, S 2 correspon a un màxim de la funció
de versemblança, i que per tant els estimadors de màxima versemblança de µ i σ 2 per a X ∼
N (µ, σ 2 ) són µ
b=X iσc2 = S 2 respectivament.
L’interès del mètode d’estimació de la màxima versemblança està en les propietats dels esti-
madors que s’obtenen d’aquesta manera.
Considerem el logaritme
nX
log L(X1 , . . . , Xn ; g(θ)) = −n log g(θ) −
g(θ)
∂ n nX
0= log L(X1 , . . . , Xn ; g(θ)) = − +
∂g(θ) g(θ) g(θ)2
d’on
d =X
g(θ)
A més,
µ ¶ µ ¶
∂2 n 2nX n
2
log L(X1 , . . . , Xn ; g(θ)) = 2
− 3
=− 2 <0
∂g(θ) g(θ)=X g(θ) g(θ) g(θ)=X X
6 Estimació dels paràmetres 181
b 1
θ=
X
i per tant µ ¶
d = g(θ)
d =X = 1 1
1/θ =g = g(b
θ)
1/X X
tal com volíem veure.
la qual cosa equival a dir que és assimptòticament centrat de mínima variància, i que
b
θ ' N (θ, η 2 )
Per exemple, en el cas de X ∼ exp(θ) hem vist que l’estimador màxim versemblant de θ és
b 1
θ=
X
i "µ ¶2 #
∂ 1
E log f (X; θ) = 2
∂θ θ
de manera que
1 θ2
h¡ ¢2 i = n
∂
nE ∂θ log f (X; θ)
1 ¡ ¢
Per tant, l’estimador màxim versemblant b
θ= és aproximadament una variable N θ, θ2 /n
X
quan n és prou gran.
En aquest apartat es resumeixen els estimadors puntuals dels models clàssics de probabilitat.
Recordem primer que
n n n
1X 1 X¡ ¢2 1 X¡ ¢2
X= Xi , S 2 = Xi − X , S̃ 2 = Xi − X
n n n−1
i=1 i=1 i=1
182 Elements d’estadística
pb = X
x
Poisson. Funció de probabilitat: f (x; λ) = e−λ λx! , x = 0, 1, . . .
b=X
λ
b=X
λ
b=X
µ
Quan es repeteix diversos cops, de forma independent, un experiment bivariant i en cada repetició
es mesura el valor d’un cert vector aleatori d’interès (X, Y ), s’obté una mostra de parells de
valors (x1 , y1 ), . . . , (xn , yn ) del vector aleatori. La mostra resulta de realitzar n cops de forma
independent el vector (X, Y ). Si s’indica per (Xi , Yi ) el vector (X, Y ) quan s’està realitzant per
i−èssim cop per obtenir (xi , yi ), llavors el que permet obtenir una mostra de (X, Y ) són els n
vectors aleatoris (X1 , Y1 ), . . . , (Xn , Yn ), repeticions independents de (X, Y ).
és funció dels valors observats (de la mostra). Per tant, si es pren una altra mostra (x01 , y10 ), . . . , (x0n , yn0 )
de (X, Y ), el valor de la covariància sx0 y0 calculat a partir d’aquesta segona mostra no és necessàri-
ament igual al de la primera mostra. Els valors sxy i sx0 y0 són realitzacions de la covariància
mostral de (X, Y ), definida per
n
1 X¡ ¢¡ ¢
SXY = Xi − X Yi − Y
n
i=1
Recordem que si (X, Y ) és un vector normal bivariant, aleshores la seva funció de densitat de
probabilitat és
µ ¶
1 (x−µX )2 (x−µX )(y−µY ) (y−µY )2
1 − −2ρXY +
σ2 σ2
, (x, y) ∈ R2
2
f (x, y) = q e 2(1−ρXY ) X
σX σY
Y
2πσ X σ Y 1 − ρ2XY
La funció de versemblança per a una mostra de (X, Y ) de mida n és, per tant,
n
Y
L= L(X1 , Y1 , . . . , Xn , Yn ; µX , µY , σ 2X , σ 2Y , ρXY ) = f (Xi , Yi ; µX , µY , σ 2X , σ 2Y , ρXY )
i=1
4π σ X σ Y 1 − ρ2XY
2 2 2
Considerem el cas d’una prova multinomial amb m possibles resultats A1 , . . . , Am i amb proba-
bilitats respectives p1 , . . . , pm , de les quals en volem obtenir l’estimació. Aquestes probabilitats
verifiquen que
Xm
pi = 1
i=1
186 Elements d’estadística
amb
m
X
xi = 1, x1 , . . . , xm ≥ 0
i=1
on
n
1X
Xi = Xi, , i = 1, . . . , m
n
=1
És a dir, Xi és la proporció de cops que s’ha produït Ai en les n repeticions que originen la
P
mostra de mida n. En efecte, la suma n=1 Xi, és el nombre total de cops que s’ha produït Ai
en les n repeticions, de manera que al dividir per n obtenim la seva proporció.
Prenent logaritmes és
m
X
log L = nXi log pi
i=1
Pm
i tenint en compte que i=1 pi = 1 resulta que
m−1
X
log L = nXi log pi + nXm log (1 − p1 − · · · − pm−1 )
i=1
pb1 = X1 , pb2 = X2 , . . . , pc
m = Xm
6.6 Exercicis
Problema 6.1 Es desconeix el percentatge de cops que un medicament és efectiu quan s’aplica
a persones que presenten un determinat símptoma. En una mostra de 70 persones amb el
símptoma el medicament ha sigut efectiu en 48 d’elles.
a) Fent servir l’estimador centrat de mínima variància d’una proporció p, estimeu en base
a aquesta mostra el percentatge de cops que el medicament és efectiu quan s’aplica a
persones que presenten el símptoma.
Problema 6.2 Es pot suposar que el nombre de trucades que rep una centraleta, durant el
matí, segueix una llei de Poisson amb cert promig λ de trucades per minut. S’escullen 8 minuts
de manera independent i s’anota el nombre de trucades rebudes en cada un dels vuit minuts.
Els resultats han estat: 2, 1, 3, 0, 4, 2, 1, 2.
Problema 6.3 En un procés es fabriquen tubs de certa longitud. La longitud dels tubs no és
sempre la mateixa. Es pot suposar que la longitud segueix una distribució normal amb mitjana
µ i variància σ 2 desconegudes. S’agafa una mostra de 6 tubs i la seva longitud, en cm, és
a) En base a aquesta informació i fent servir els estimadors centrats de mínima variància de
µ, de σ 2 i de σ, estimeu els valors reals de µ, σ 2 i σ.
Problema 6.4 Es pot suposar que la distància, D, entre dos defectes consecutius en una cinta
magnètica segueix una distribució exponencial amb cert paràmetre θ. Es mesura la distància
entre dos defectes consecutius deu cops i els resultats, en metres, han estat els següents:
5.40, 4.75, 6.20, 3.60, 5.95, 5.15, 2.95, 7.50, 5.35, 5.65
a) En base a aquesta informació i fent servir l’estimador centrat de 1/θ de mínima variància,
estimeu E(D), la distància promig entre dos defectes consecutius.
b) Fent servir l’estimador centrat de θ de mínima variància, estimeu també el valor del
paràmetre θ.
Problema 6.5 Demostreu que l’estimador màxim versemblant del paràmetre λ d’una distribució
b = X. Indicació: Feu servir que la funció de versemblança és
de Poisson de paràmetre λ és λ
e−nλ
L(X1 , . . . , Xn ; λ) = λnX
X1 !X2 ! · · · Xn !
Problema 6.6 Sigui X una variable que segueix una distribució geomètrica de paràmetre p. És
a dir, P (X = x) = (1 − p)x−1 p, per a x = 1, 2, . . .
L(X1 , . . . , Xn ; p) = pn (1 − p)nX−n
b) Calculeu l’estimador màxim versemblant de p i de E(X) = 1/p. Indicació: per a 1/p feu
servir la propietat d’invariància del mètode de màxima versemblança.
6 Estimació dels paràmetres 189
Problema 6.7 En aquest problema calcularem la cota de Cramer-Rao pel paràmetre p d’una dis-
tribució geomètrica. Sigui X una variable que segueix una distribució geomètrica de paràmetre
p. És a dir, la seva distribució de probabilitat ve donada per f (x; p) = P (X = x) = (1 − p)x−1 p
per a x = 1, 2, . . .
³ ´
∂ 1 1
a) Demostreu primer que ∂p log f (x; p) = 1−p p −x .
b) Utilitzeu l’expressió anterior i el fet que E(X) = 1/p i V (X) = (1 − p)/p2 per demostrar
que "µ ¶2 #
∂ 1
E log f (X; p) = 2
∂p p (1 − p)
Comentari: Es pot demostrar que l’estimador centrat de p de mínima variància d’una distribució
geomètrica de paràmetre p és
n−1 n−1
pb = = Pn
nX − 1 i=1 Xi − 1
Problema 6.8 Suposeu que la variable X segueix una distribució geomètrica de paràmetre p.
Una mostra de mida 7 ha donat els valors
4, 8, 2, 4, 2, 6, 5
Problema 6.9 Sigui X una variable que segueix una distribució uniforme a l’interval [a, b] amb
a < b. És a dir, la seva funció de densitat és f (x; a, b) = 1/(b − a) si a ≤ x ≤ b, i f (x; a, b) = 0
en cas contrari.
b
a = X(1) = min{X1 , . . . , Xn } bb = X(n) = max{X1 , . . . , Xn }
c) Els valors 0.95, 1.19, 0.60, 1.31, 0.82, 0.44, 0.76 corresponen a una mostra d’una variable
uniforme en un interval [a, b]. Estimeu els paràmetres a i b utilitzant els seus estimadors
màxim versemblants.
Problema 6.10 Sigui X una variable contínua amb funció de densitat de probabilitat
( 2
αxe−αx /2 si x > 0
f (x; α) =
0 en cas contrari
Distribucions mostrals
En aquest capítol s’estudia la distribució d’algunes funcions de mostra que seran útils a l’hora
de valorar els errors de l’estimació dels paràmetres i també pel problema de la decisió en termes
de contrasts d’hipòtesis que presentarem al Capítol 9.
Observació: Pel Teorema Central del Límit, encara que una variable X, amb E(X) = µ i
V (X) = σ 2 , no sigui necessàriament normal, per a n gran X és aproximadament normal
¡ ¢
X ' N µ, σ 2 /n
192 Elements d’estadística
¡ ¢ ¡ ¢
Observació: Si X ∼ N µ, σ 2 llavors X ∼ N µ, σ 2 /n i per tant
X − µ√
n ∼ N (0, 1)
σ
Encara que la variable X, amb E(X) = 5 i V (X) = 22 , no sigui normal, pel Teorema Central
del Límit sabem que P (X > 5.5) ' 0.0228.
X−µ √
Distribució de l’estadístic S̃
n corresponent a una variable normal
(n − 1) S̃ 2 X − µ√
∼ χ2n−1 n ∼ N (0, 1)
σ2 σ
essent aquestes dues variables independents.
√
Dividint X−µ
σ n per l’expressió
và !,
u
u (n − 1) S̃ 2
t (n − 1)
σ2
resulta que
X − µ√
n ∼ tn−1
S̃
7 Distribucions mostrals 193
X 1 −X 2 −(µ1 −µ2 )
Distribució de l’estadístic q corresponent a dues variables normals in-
S̃p n1 + n1
1 2
dependents amb igual variància
d’on
σ2 σ2
µX 1 −X 2 = µ1 − µ2 σ 2X = +
1 −X 2 n1 n2
i µ ¶
σ2 σ2
X 1 − X 2 ∼ N µ1 − µ2 , +
n1 n2
X 1 − X 2 − (µ1 − µ2 )
q ∼ N (0, 1)
σ2 σ2
n1 + n2
D’altra banda,
(n1 − 1) S̃12 (n2 − 1) S̃22
∼ χ2n1 −1 i ∼ χ2n2 −1
σ2 σ2
essent aquestes variables independents, d’on
És a dir,
X 1 −X 2 −(µ1 −µ2 )
Distribució aproximada de l’estadístic r corresponent a dues variables
S̃1 S̃
n
+ n2
1 2
normals independents
X 1 − X 2 − (µ1 − µ2 )
q ' tk
S̃12 S̃22
n1 + n2
³ . ´. ³ . ´
Distribució del quocient S̃12 σ 21 S̃22 σ 22 per a dues variables normals indepen-
dents
(n1 − 1) S̃12
∼ χ2n1 −1
σ 21
(n2 − 1) S̃22
∼ χ2n2 −1
σ 22
i simplificant
³ ´
S̃12
σ 21
³ ´ ∼ Fn1 −1,n2 −1
S̃22
σ 22
7 Distribucions mostrals 195
√
Distribució de n − 2 √ RXY2 per a una mostra d’una variable normal bivariant amb
1−RXY
coeficient de correlació nul
Sigui (X, Y ) un vector aleatori normal bivariant tal que el coeficient de correlació entre X i Y ,
ρXY , és igual a zero. Aleshores es pot demostrar que si (X1 , Y1 ), . . . , (Xn , Yn ) és una mostra de
mida n del vector (X, Y ), llavors
√ RXY
n − 2q ∼ tn−2
2
1 − RXY
Com que les variables són independents, el coeficient de correlació ρXY és igual a zero. És fàcil
veure que la funció
√ R
T = T (R) = 20 − 2 √
1 − R2
és estrictament creixent per a R ∈ (−1, 1). Per tant RXY > 0.6 o RXY < −0.6 si i només si
T (RXY ) > T (0.6) = 3.182 o T (RXY ) < T (−0.6) = −3.182.
D’aquí que
P (|RXY | > 0.6) = P (|T (RXY )| > 3.182) = 1 − P (−3.182 ≤ T (RXY ) ≤ 3.182)
i com que
√ RXY
T (RXY ) = 20 − 2 q ∼ t20−2
2
1 − RXY
aleshores
on F denota la funció de distribució d’una t de Student amb 18 graus de llibertat. Amb l’ajut
d’un ordinador s’obté que F (3.182) = 0.99742 i F (−3.182) = 1 −F (3.182) = 0.00258, de manera
que
P (|RXY | > 0.6) = 0.00516
³ ´
Distribució aproximada de Z = 12 log 1+R XY
1−RXY per a una mostra d’una variable normal
bivariant amb coeficient de correlació no nul
Amb les mateixes notacions que en l’apartat anterior, si ρXY 6= 0 i ρXY 6= ±1 llavors la trans-
formació de Fisher µ ¶
1 1 + RXY
Z = log
2 1 − RXY
és aproximadament una variable normal N (µ, σ 2 ) amb
µ ¶
1 1 + ρXY 1
µ = log i σ2 =
2 1 − ρXY n−3
És a dir,
µ ¶ µ µ ¶ ¶
1 1 + RXY 1 1 + ρXY 1
Z = log 'N log ,
2 1 − RXY 2 1 − ρXY n−3
Exemple: Considerem un vector normal bivariant (X, Y ) amb ρXY = 0.9. Es demana la
probabilitat que, en una mostra del vector (X, Y ) de mida 40, el coeficient de correlació mostral
sigui superior a 0.85.
La funció µ ¶
1 1+R
Z = Z(R) = log
2 1−R
és estrictament creixent per a R ∈ (−1, 1). Per tant RXY > 0.85 si i només si Z(RXY ) >
Z(0.85) = 1.2562. D’aquí que
on per F hem denotat la funció de distribució d’una N (0, 1) i el càlcul de F (−1.314) l’hem fet
utilitzant un ordinador.
Distribució aproximada de pb
pb = X
En altres paraules, pb = k/n on k és el nombre de uns dins la mostra de tamany n. Com que
µ ¶
p(1 − p)
pb ' N p,
n
En conseqüència,
pb − p
q ' N (0, 1)
p(1−p)
n
Les variables pb1 i pb2 són independents ja que X1 i X2 ho són, i per tant pb1 − pb2 és una variable
aproximadament normal amb
µ ¶
p1 (1 − p1 ) p2 (1 − p2 )
pb1 − pb2 ' N p1 − p2 , +
n1 n2
198 Elements d’estadística
pb − pb2 − (p1 − p2 )
q1 ' N (0, 1)
p1 (1−p1 ) p2 (1−p2 )
n1 + n2
Sigui X1 , . . . , Xn una mostra d’una variable X ∼ P(λ). Si n és prou gran, aleshores, fent servir
el Teorema Central del Límit i tenint en compte que E(X) = V (X) = λ, resulta
µ ¶
λ
X ' N λ,
n
X −λ
p ' N (0, 1)
λ/n
Pn
Distribució de 2θ i=1 Xi per a una mostra d’una variable exponencial
P
Si X1 , . . . , Xn és una mostra d’una variable X ∼ exp(θ), llavors la variable 2θ ni=1 Xi = 2θnX
segueix una distribució χ22n ,
n
X
2θ Xi ∼ χ22n
i=1
7.2 Exercicis
Problema 7.1 Sigui X una variable normal amb µ = 25 i σ = 2. Si es pren una mostra de X
de 9 observacions i es calcula la mitjana mostral, quina és la probabilitat que aquesta mitjana
sigui inferior a 24?
Problema 7.2 Considereu el problema 4.18 del Capítol 4, on les resistències eren variables
normals amb µ = 10 Ω i σ = 1 Ω. Si els lots de resistències contenen 100 unitats, quina és la
probabilitat que a l’escollir un lot a l’atzar, la mitjana de les resistències del lot sigui inferior a
9.5 Ω?
Problema 7.3 El pes d’un article és una variable normal amb esperança µ = 500 gr i desviació
típica σ = 10 gr.
b) Considereu lots de 4 articles cada un. Quin és el percentatge de lots amb un pes promig
entre 490 i 510?
Problema 7.4 Una màquina produeix cables d’una determinada mida. La longitud, X, dels
cables és una variable aleatòria normal amb esperança µ i desviació típica σ = 3.5 cm. El
nombre total de cables produïts al cap d’un dia és de 64 i cada cable es produeix de manera
independent. Calculeu el percentatge de dies en què el valor de la mitjana mostral, X, de les
longituds dels 64 cables produïts durant el dia, es troba a una distància de µ = E(X) superior
a 0.5 cm.
Problema 7.5 La variable X es distribueix segons una llei normal amb µ = 24 i σ 2 = 1.44.
Problema 7.6 Sigui X una variable aleatòria normal amb σ = 2. Si es pren una mostra de
mida n = 17 de X, quina és la probabilitat que la variància mostral corregida S̃ 2 calculada en
base a aquesta mostra sigui superior a 5.89?
¡ ¢ ¡ ¢
Problema 7.8 Siguin X1 ∼ N 25, 42 i X2 ∼ N 35, 32 variables normals independents. Si
es prenen mostres aleatòries de mides n1 = 16 i n2 = 18 de X1 i X2 respectivament, i a partir
d’elles es calculen X 1 i X 2 , quina és la probabilitat que X 2 − X 1 sigui més gran que 12?
Problema 7.9 Siguin X i Y dues variables normals independents. Calculeu la probabilitat que,
en una mostra del vector (X, Y ) de mida 10, el coeficient de correlació mostral sigui inferior a
−0.3.
Problema 7.10 Considereu un vector normal bivariant (X, Y ) amb ρXY = −0.5. Calculeu
aproximadament la probabilitat que, en una mostra del vector (X, Y ) de mida 100, el coeficient
de correlació mostral difereixi de ρXY en menys de 0.1 unitats.
Problema 7.11 El 5% dels articles fabricats en un procés de producció són defectuosos. Fent
servir les taules de la normal i la distribució aproximada de pb, calculeu aproximadament la
probabilitat que el percentatge d’articles defectuosos en una mostra de 500 articles estigui entre
el 3% i el 7%.
Problema 7.12 El percentatge de persones fumadores en dos països A i B són del 26% en el
país A i del 34% en el país B. Fent servir les taules de la normal i la distribució aproximada de
pb1 − pb2 , calculeu aproximadament la probabilitat que el percentatge de fumadors en 50 persones
del país A sigui superior al percentatge de fumadors en 40 persones del país B.
Problema 7.13 Per a una mostra de mida 40 d’una distribució de Poisson de paràmetre λ = 10,
calculeu aproximadament la probabilitat que la mitjana mostral prengui un valor entre 9 i 11.
Problema 7.14 Sigui X1 , . . . , X10 una mostra de mida 10 d’una variable exponencial de paràme-
tre θ = 0.5. Fent servir l’ordinador i que 2θnX ∼ χ22n , calculeu la probabilitat que la mitjana
mostral X prengui un valor superior a 2.
Capítol 8
Per tal de predir el preu mitjà d’un determinat article es pot, després de les consideracions
corresponents, arribar a donar un valor determinat. Per exemple, s’estima que el cost d’un
determinat tipus de reparació és, en promig, de 30 ∈. És clar que aquest valor és una estimació
puntual, i únicament el seu valor no proporciona cap informació de les possibilitats d’error. En
canvi, si en comptes de donar un sol valor es dóna un interval de valors possibles, com per
exemple “de 28 ∈ a 32 ∈”, “de 25 ∈ a 35 ∈” o “entre 20 ∈ i 40 ∈”, llavors s’està donant un cert
marge per al preu mitjà del cost de reparació.
Ara bé, a part del marge convé, si és possible, indicar el grau de fiabilitat que és atribuïble a
l’interval. Per exemple, es pot dir segur que el preu mitjà està entre 20 ∈ i 40 ∈, és molt probable
que estigui entre 25 ∈ i 35 ∈ o és bastant probable que estigui entre 28 ∈ i 32 ∈. Evidentment,
com més gran sigui l’interval més gran serà la probabilitat d’incloure el valor de veritat i més
gran el grau de confiança en l’afirmació.
Quan es planteja el problema de l’estimació per interval es pretén en certa manera el que s’acaba
d’exposar. Es tracta de proporcionar un interval de valors possibles (que s’anomenarà interval
de confiança) per al paràmetre a estimar, de manera que a més a més es controli la probabilitat
que el paràmetre es trobi en aquest interval.
Sigui X1 , . . . , Xn una mostra d’una variable X tal que E(X) = µ i V (X) = σ 2 . Per la desigualtat
de Txebixev es compleix que
¡¯ ¯ ¢ V (X) σ2
P ¯X − µ¯ < ε ≥ 1 − = 1 −
ε2 nε2
202 Elements d’estadística
Llavors, donat un nombre α tal que 0 < α < 1, considerem ε > 0 tal que
σ2
1− =1−α
nε2
És a dir,
σ
ε= √
nα
Això equival a µ ¶
σ σ
P X−√ <µ<X+√ ≥1−α
nα nα
d’on resulta que l’interval µ ¶
σ σ
X−√ , X+√
nα nα
és un interval d’extrems aleatoris que al realitzar-los la probabilitat d’obtenir un interval que
contingui µ és com a mínim 1 − α.
M
ε= √
nα
es complirà que µ ¶
¯ ¯ M
P ¯X − µ¯ < √ ≥1−α
nα
i en conseqüència l’interval µ ¶
M M
X−√ , X+√
nα nα
és un interval d’extrems aleatoris que al realitzar-los la probabilitat d’obtenir un interval que
contingui µ és com a mínim 1 − α.
El mètode que farem servir en aquest apartat i en els apartats següents per trobar intervals de
confiança difereix del mètode utilitzat a l’apartat anterior i proporciona, en general, intervals de
confiança més exactes que els obtinguts per la desigualtat de Txebixev.
Es vol determinar un interval per a l’esperança µ d’una variable X normal quan la variància σ 2
¡ ¢
és coneguda. En ser X ∼ N µ, σ 2 es verifica que
X −µ
√ ∼ N (0, 1)
σ/ n
µ ¶
σ σ
I1−α (µ) = X − √ z1− α2 , X + √ z1− α2
n n
El valor 1 − α és el nivell de confiança de l’interval i I1−α (µ) es diu que és l’interval de confiança
de nivell de confiança 1 − α per al paràmetre poblacional µ.
Exemple: Calcularem un interval per a µ de la variable X ∼ N (µ, 3.12 ) amb la mateixa mostra
que hem fet servir en el cas d’aplicació de la desigualtat de Txebixev. Per a una mostra de X
de n = 34 observacions teníem X = 67.87. Per tant, l’interval quan 1 − α = 0.95 és en aquest
cas
µ ¶
3.1 3.1
I1−α (µ) = 67.87 − √ z0.975 , 67.87 + √ z0.975
34 34
µ ¶
3.1 3.1
= 67.87 − √ 1.96 , 67.87 + √ 1.96
34 34
= (66.828, 68.912)
204 Elements d’estadística
Observem que aquest interval és més precís que el que havíem obtingut mitjançant la desigualtat
de Txebixev sense fer servir que X era una variable normal.
X −µ
√ ∼ tn−1
S̃/ n
tal com ja vam apuntar en el Capítol 7. Aleshores, per a un α donat es compleix que
µ ¶
X −µ
P −tn−1,1− 2 <α
√ < tn−1,1− 2 = 1 − α
α
S̃/ n
que aïllant porta a
à !
S̃ S̃
P X − √ tn−1,1− α2 < µ < X + √ tn−1,1− α2 =1−α (8.2)
n n
à !
S̃ S̃
I1−α (µ) = X − √ tn−1,1− α2 , X + √ tn−1,1− α2
n n
si σ no és coneguda.
Aquests intervals de confiança són intervals amb extrems aleatoris ja que depenen dels valors
mostrals, X1 , . . . , Xn , a partir de X ó X i S̃. Així que 1−α (0.95 en aquest cas) és la probabilitat
8 Estimació per interval 205
que al prendre una mostra de mida n i realitzar X ± √σn z0.975 o X ± √S̃n tn−1,0.975 segons sigui el
cas, s’obtingui un interval numèric que contingui µ.
S’ha de tenir en compte, però, que µ no és cap variable sinó una constant desconeguda però
fixa, i per tant no sotmesa a variacions aleatòries de manera que un cop realitzat l’interval i
haver obtingut, per exemple (4.567, 6.291), el paràmetre µ és o no dintre l’interval i a més a
més no hi ha manera de saber-ho. Ara bé, el que sí que es pot assegurar és que el mètode que
s’ha fet servir i que ens ha proporcionat (4.567, 6.291) té una fiabilitat del 95%, i això vol dir
que de cada 100 cops que s’apliqui en fallarà aproximadament 5, és a dir, de cada 100 intervals
calculats en base a 100 mostres diferents contindran el paràmetre, aproximadament, 95 intervals.
La figura 8.1 mostra gràficament els diferents intervals per a µ que es podran obtenir al realitzar
repetidament mostres d’igual mida.
Figura 8.1 Diferents realitzacions de l’interval de confiança per a µ amb la mateixa mida de la
mostra
Fent n prou gran aquest error el podem fer tan petit com vulguem. En efecte, sigui ε > 0 una
tolerància d’error. Aleshores, l’error quan estimem µ per X és menor que ε, amb probabilitat
206 Elements d’estadística
1 − α, si
σ
√ z1− α2 ≤ ε
n
que equival a
µ ¶2
2
z1− α2
n≥σ (8.3)
ε
Per tant, si n satisfà aquesta condició l’error comès serà més petit que ε, amb confiança 1 − α.
també ens assegurem un error menor que ε a l’estimar µ per X, amb confiança 1 − α.
Normalment no es disposa del valor real de σ ni d’una cota superior seva. En aquests casos,
no obstant, si disposem d’alguna aproximació de la variància σ 2 , també podrem predir (aproxi-
madament) la mida de mostra mínima. En efecte, sigui σ c2 una aproximació de σ 2 (per exemple
0
c2 pot ser la variància corregida obtinguda d’una mostra prèvia, σ
σ c2 = s̃2 ). Aleshores, substituint
0 0 0
c2 en l’equació 8.3, resulta
σ 2 per σ 0
µ ¶2
c2 z1− α2
n≥σ 0 (8.4)
ε
És a dir, la mida de mostra mínima per tenir un error menor que ε a l’estimar µ per X, amb
confiança 1 − α, és aproximadament el costat dret de la desigualtat de l’equació 8.4.
Observació: Per calcular els intervals de confiança per a µ hem suposat que X era una variable
normal. La normalitat de X assegura la normalitat de X, però recordem que per a n prou gran,
per exemple n ≥ 30, la variable X és aproximadament normal i es poden llavors obtenir els
intervals de confiança per a µ igual que abans.
(n − 1) S̃ 2
∼ χ2n−1
σ2
d’on resulta que, per a un α donat,
à !
(n − 1) S̃ 2
P χ2n−1, α < < χ2n−1,1− α =1−α
2 σ2 2
8 Estimació per interval 207
à !
(n − 1) S̃ 2 (n − 1) S̃ 2
I1−α (σ 2 ) = ,
χ2n−1,1− α χ2n−1, α
2 2
√ √
n − 1S̃ n − 1S̃
I1−α (σ) = q , q
2
χn−1,1− α χ2n−1, α
2 2
√
Tenint en compte que per a n gran (per exemple n ≥ 100) és χ2n−1,1−α/2 ' (z1−α/2 + 2n − 3)2 /2
√
i χ2n−1,α/2 ' (zα/2 + 2n − 3)2 /2, i que zα/2 = −z1−α/2 , resulta que
³ √ ´2 Ã√ !2
z1− α2 + 2n − 3 2n − 3 + z1− α2
qσ2 '³ √ ´2 = √
−z1− 2 + 2n − 3
α
2n − 3 − z1− α2
Si volem que
qσ2 ≤ 1 + ε
on ε és una tolerància donada, ε > 0, aleshores imposarem que
Ã√ !2
2n − 3 + z1− α2
√ ≤1+ε
2n − 3 − z1− α2
208 Elements d’estadística
És a dir,
√ √ ³√ ´ √ √ √
2n − 3 + z1− α2 ≤ 1 + ε 2n − 3 − z1− α2 = 1 + ε 2n − 3 − 1 + εz1− α2
o, equivalentment, µ√ ¶
√ 1+ε+1
2n − 3 ≥ z1− α2 √
1+ε−1
És a dir,
2 α µ√
z1− ¶2
1+ε+1 3
n≥ 2
√ + (8.6)
2 1+ε−1 2
Per tant, la mida de mostra mínima per tenir un interval de confiança per a σ 2 de nivell 1 − α
tal que la raó entre el seu extrem superior i el seu extrem inferior sigui menor o igual que 1 + ε,
és aproximadament el costat dret de la desigualtat de l’equació 8.6.
Per tant
X 1 − X 2 − (µ1 − µ2 )
q 2 ∼ N (0, 1)
σ1 σ 22
n1 + n2
s s
σ 21 σ 22 σ 21 σ 22
I1−α (µ1 − µ2 ) = X 1 − X 2 − z1− α2 + , X 1 − X 2 + z1− α2 +
n1 n2 n1 n2
Selecció de la mida de la mostra: Del que acabem de veure es dedueix que l’error comès a
l’estimar µ1 − µ2 per X 1 − X 2 , amb confiança 1 − α, és més petit que una tolerància donada ε,
si i només si es verifica que s
σ 21 σ 22
z1− α2 + ≤ε
n1 n2
que equival a
à !2
σ 21 σ 22 ε
+ ≤
n1 n2 z1− α2
Aquesta condició sempre podrem fer que sigui certa prenent n1 i n2 suficientment grans. En el
cas en què σ 21 i σ 22 no siguin conegudes, si disposem d’aproximacions d’aquests paràmetres de
manera que σd 2 ' σ2 i σ
0,1 1
d2 ' σ 2 (per exemple σ
0,2 2
d2 i σ
0,1
d2 poden ser les variàncies corregides
0,2
d’una mostra prèvia de cada població), aleshores prenent n1 i n2 tals que
à !2
σd2
0,1 σd2
0,2 ε
+ ≤
n1 n2 z1− α2
ens assegurem (aproximadament) un error més petit que ε a l’estimar µ1 − µ2 per X 1 − X 2 , amb
confiança 1 − α.
Siguin X1 ∼ N (µ1 , σ 2 ) i X2 ∼ N (µ2 , σ 2 ) dues variables normals independents amb igual variàn-
cia σ 2 , essent σ 2 desconeguda. Per a mostres de mides n1 i n2 de X1 i X2 respectivament, es
verifica que
on X 1 , X 2 , S̃12 i S̃22 són les mitjanes i variàncies corregides de les dues mostres.
Per tant
X 1 − X 2 − (µ1 − µ2 )
P −tn1 +n2 −2,1− α2 < q < tn1 +n2 −2,1− α2 = 1 − α
1 1
S̃p n1 + n2
on r
1 1
δ= +
n1 n2
µ r r ¶
1 1 1 1
I = X 1 − X 2 − tn1 +n2 −2,1− 2 S̃p
α + ; X 1 − X 2 + tn1 +n2 −2,1− 2 S̃p
α +
n1 n2 n1 n2
L’interval és llavors
s s
S̃12 S̃22 S̃12 S̃22
I1−α (µ1 − µ2 ) ' X 1 − X 2 − tk,1− α2 + , X 1 − X 2 + tk,1− α2 +
n1 n2 n1 n2
Per tant ³ ´
S̃22
σ 22
P fn2 −1,n1 −1, α2 < ³ ´ < fn2 −1,n1 −1,1− α2 = 1 − α
S̃12
σ 21
µ ¶ Ã !
σ 21 S̃12 S̃12
I1−α = fn −1,n −1, α , fn2 −1,n1 −1,1− α2
σ 22 S̃22
2 1 2
S̃22
µ ¶ Ã !
σ1 S̃1 q S̃1 q
I1−α = fn2 −1,n1 −1, α2 , fn2 −1,n1 −1,1− α2
σ2 S̃2 S̃2
212 Elements d’estadística
Sigui (X, Y ) un vector aleatori normal bivariant i sigui (X1 , Y1 ), . . . , (Xn , Yn ) una mostra de
mida n de (X, Y ). Com ja vam apuntar en el Capítol 7, si ρXY 6= 0 i ρXY 6= ±1 llavors la
transformació de Fisher µ ¶
1 1 + RXY
Z = log
2 1 − RXY
on RXY denota el coeficient de correlació mostral, és aproximadament una variable normal
N (µ, σ 2 ) amb
µ ¶
1 1 + ρXY 1
µ = log i σ2 =
2 1 − ρXY n−3
que equival a
µ µ ¶ ¶
z1− α2 1 1 + ρXY z1− α2
P Z−√ < log <Z+√ '1−α (8.7)
n−3 2 1 − ρXY n−3
Siguin
z1− α z1− α
A=Z−√ 2 B=Z+√ 2
n−3 n−3
³ ´
1 1+ρ
És fàcil veure que la funció f = f (ρ) = 2 log 1−ρ és estrictament creixent per a ρ ∈ (−1, 1), i
e2s −1
que la seva inversa és la funció definida per f −1 (s) = e2s +1 si s ∈ R. Per tant
µ µ ¶ ¶
1 1 + ρXY
1 − α ' P A < log <B
2 1 − ρXY
= P (A < f (ρXY ) < B)
¡ ¢
= P f −1 (A) < ρXY < f −1 (B)
Això significa que f −1 (A) i f −1 (B) són els extrems d’un interval de confiança per a ρXY amb
nivell de confiança aproximadament 1 − α.
8 Estimació per interval 213
A continuació calculem els extrems f −1 (A) i f −1 (B) de manera més explícita. Observem primer
que
z1−α/2 z1−α/2
z1−α/2 z1−α/2
Sintetitzant, hem obtingut la següent aproximació de l’interval de confiança per a ρXY de nivell
1 − α,
à z1−α/2 z1−α/2 !
(1 + RXY ) e−2 (1 + RXY ) e2
√ √
n−3 − (1 − RXY ) n−3 − (1 − RXY )
I1−α (ρXY ) ' z1−α/2 , z1−α/2
Exemple: Amb una mostra (x1 , y1 ), (x2 , y2 ), . . . , (x30 , y30 ) de trenta observacions s’ha obtingut
un coeficient de correlació mostral de r = 0.78. Si α = 0.05 aleshores z1−α/2 = z0.975 = 1.96 i
un interval de confiança aproximat per a ρXY de nivell de confiança 0.95 és
à 1.96 1.96
!
(1 + 0.78) e−2 27 − (1 − 0.78) (1 + 0.78) e2 27 − (1 − 0.78)
√ √
1.96 , 1.96
(1 + 0.78) e−2 27 + (1 − 0.78) (1 + 0.78) e2 27 + (1 − 0.78)
√ √
= (0.5838, 0.8901)
u = e2 n−3
√
214 Elements d’estadística
de manera que
1 z1−α/2
= e−2 n−3
√
u
Observem que sempre es verifica u > 1, ja que z1− α2 > 0 si 0 < α < 1.
Això implica que el nombre u està entre les dues arrels de l’equació P (v) = 0, on P és el polinomi
de segon grau
¡ 2
¢ 2 ¡ 2
¢ ¡ 2
¢
P (v) = (2 − ε) 1 − RXY v − 2ε 1 + RXY v − (2 + ε) 1 − RXY
És fàcil veure que P (1) = −4ε < 0, la qual cosa implica que v− < 1 i v+ > 1. Tenint ara en
z1−α/2
Aquesta és la condició que assegura una longitud de l’interval de com a molt ε. Ara bé, en
aquesta condició hi apareix el coeficient de correlació mostral RXY d’una mostra que encara no
s’ha dut a terme (de fet d’aquesta mostra no es coneix ni la seva mida, n, que és precisament
el que estem buscant). Malgrat tot, si disposem d’algun valor ρ \XY,0 que aproximi el coeficient
de correlació ρXY (per exemple ρ \ XY,0 pot ser el coeficient de correlació mostral d’una mostra
prèvia), de manera que ρ \XY,0 ' ρXY , aleshores per a n gran resultarà que RXY ' ρXY ' ρ \ XY,0
i per tant RXY ' ρ\XY,0 . Això justifica que en la condició que hem trobat per a la mida mínima
de mostra puguem substituir RXY per ρ \XY,0 , obtenint per tant que
2 α
4z1−
n≥ 2
s +3
2
µ ¶2
ρXY,0
1+\ ε\
ρXY,0
log2 2−ε
ε
· ρXY,0
1−\
2 + 2
2−ε 1+ ρXY,0
1−\
2
Aquesta és la condició aproximada que assegura una longitud de com a molt igual a ε de l’interval
de confiança aproximat per a ρXY de nivell de confiança 1 − α.
En apartats anteriors hem vist intervals de confiança per a la diferència de mitjanes de dues
poblacions normals. En aquells apartats es consideraven dues mostres independents de dues
poblacions d’interès, no necessàriament la mateixa població. En moltes situacions, no obstant,
les dues variables d’interès actuen sobre una mateixa població i la mostra està feta en base als
mateixos individus.
Siguin X1 i X2 les dues variables d’interès que actuen sobre una mateixa població, amb
E(X1 ) = µ1 E(X2 ) = µ2
Considerem una mostra de mida n del vector aleatori (X1 , X2 ), tal que les realitzacions de X1 i
X2 es fan cada cop sobre el mateix individu. Això produeix la mostra aparellada
on X1,i i X2,i són les realitzacions de X1 i X2 sobre l’i−èssim individu seleccionat de manera
independent, i = 1, . . . , n.
D = X1 − X2
216 Elements d’estadística
Observem que
E(D) = E(X1 ) − E(X2 ) = µ1 − µ2
En canvi, en general no és cert que V (D) coincideixi amb V (X1 ) + V (X2 ), ja que X1 i X2 no
són (en general) independents.
D ∼ N (µ1 − µ2 , σ 2D )
i per tant
D − (µ1 − µ2 )
√ ∼ tn−1
S̃D / n
on D i S̃D són la mitjana i la desviació típica corregida de la mostra D1 , D2 , . . . , Dn . Observem
que
D = X1 − X2
à !
S̃D S̃D
I1−α (µ1 − µ2 ) = D − √ tn−1,1− α2 , D + √ tn−1,1− α2
n n
Encara que la variable D no sigui normal, si n és gran (per exemple n ≥ 30) aleshores pel
Teorema Central del Límit aquest interval és un interval de confiança aproximat per a µ1 − µ2 .
8 Estimació per interval 217
Exemple: S’ha fet aparcar a cinc persones dos cotxes diferents, cada un amb diferents carac-
terístiques, i s’ha anotat el temps (en segons) que ha necessitat cada individu per aparcar cada
cotxe. Els resultats han estat els següents:
T1 : 19 27 36 17 31
T2 : 23 25 40 20 34
on T1 i T2 són els temps necessaris per aparcar el primer cotxe i el segon cotxe respectivament.
Les diferències són
D: −4 2 −4 −3 −3
de manera que D = −2.40 i S̃D = 2.51. Si α = 0.1 aleshores tn−1,1− α2 = t4,0.95 = 2.132 i en
conseqüència l’interval de confiança de nivell 0.9 per a la diferència entre el temps mitjà per
aparcar el primer cotxe i el temps mitjà per aparcar el segon cotxe és
µ ¶
2.51 2.51
I1−α (µ1 − µ2 ) = −2.40 − √ 2.132 , − 2.40 + √ 2.132 = (−4.793, −0.007)
5 5
amb confiança 1 − α. Aquest error és menor que una tolerància donada ε > 0 si
µ ¶2
2
tn−1,1− α2
n≥ S̃D
ε
Si d’entrada suposem que n és gran (per exemple n ≥ 30) aleshores tindrem que tn−1,1− α2 ' z1− α2 .
Si a més a més disposem d’algun valor σd 2 que aproximi la variància σ 2 (per exemple σd
D,0 D
2 pot
D,0
ser la variància corregida d’una mostra prèvia), de manera que σd 2 2
D,0 ' σ D , aleshores resultarà
que S̃D2 ' σ 2 ' σd2 2 d 2 2
D D,0 i per tant S̃D ' σ D,0 (cal tenir en compte que la variància corregida S̃D
no la coneixem, ja que és la variància corregida de la mostra que encara hem d’obtenir i de la
qual no coneixem ni la seva mida, n). Per tant, quan totes aquestes condicions siguin satisfetes
aleshores serà suficient (aproximadament) considerar un n que satisfaci la desigualtat
µ ¶2
z1− α2
n ≥ σd
2
D,0
ε
i que ens assegura un error menor que ε a l’estimar µ1 − µ2 per D, amb confiança 1 − α.
218 Elements d’estadística
Sabem que si pb és l’estimador del paràmetre p (probabilitat d’èxit) d’una distribució B(1, p),
aleshores per a n gran es compleix que
pb − p
q ' N (0, 1)
p(1−p)
n
És a dir, Ã r !
p(1 − p)
P |b
p − p| < z1− α2 '1−α (8.8)
n
d’on s’obté1 que
2
q 2 2
q 2
z1−α/2 b pb) z1−α/2 z1−α/2 pb(1−pb) z1−α/2
pb + 2n − z1−α/2 p(1−n + 4n2 pb + 2n + z1−α/2 n + 4n2
P 2 <p< 2
'1−α
z1−α/2 z1−α/2
1+ n 1+ n
à r r !
pb(1 − pb) pb(1 − pb)
I1−α (p) ' pb − z1− α2 , pb + z1− α2
n n
Exemple: En una enquesta realitzada durant la campanya electoral de les eleccions municipals
es va preguntar, a una mostra aleatòria de 400 persones, quin dels dos candidats pensava votar.
Del total, 160 persones van respondre que votarien el partit A. Volem determinar un interval
de confiança de nivell de confiança 0.95 per a la proporció de persones de la ciutat que pensen
votar el partit A.
Selecció de la mida de la mostra: De l’equació 8.8 s’obté que a l’aproximar p pel seu
estimador pb, l’error comès és, amb confiança 1 − α, com a molt
r
p(1 − p)
z1− α2
n
2
Fins ara estem suposant mostres amb reposició o bé poblacions infinites. En el cas d’una mostra de mida
n sense reposició d’una població finita de N individus, l’interval de confiança aproximat de nivell 1 − α per a la
proporció p és
à r r r r !
pb(1 − pb) N − n pb(1 − pb) N − n
I1−α (p) ' pb − z1− α2 , pb + z1− α2
n N −1 n N −1
220 Elements d’estadística
Fent n prou gran aquest error el podem fer tan petit com vulguem. En efecte, sigui ε > 0.
Aleshores l’error és menor que ε si
r
p(1 − p)
z1− α2 ≤ε
n
que equival a
µ ¶2
z1− α2
n ≥ p(1 − p) (8.9)
ε
a) Tenint en compte que x(1 − x) ≤ 1/4 sempre que 0 ≤ x ≤ 1, i en particular que p(1 − p) ≤
1/4, la desigualtat de l’equació 8.9 es complirà sempre que
µ ¶2
1 z1− α2
n≥
4 ε
Per tant, si n satisfà aquesta darrera condició l’error comès a l’aproximar p per pb serà
(aproximadament) més petit que ε, amb confiança 1 − α.
b) Si disposem d’algun valor pb0 que aproximi p (per exemple pb0 pot ser l’estimador de p en
base a una mostra prèvia), de manera que p ' pb0 , aleshores podem substituir p per pb0 en
la desigualtat de l’equació 8.9, obtenint que
µ ¶2
z1− α2
n ≥ pb0 (1 − pb0 )
ε
Si n satisfà aquesta condició aleshores l’error comès a l’aproximar p per pb serà (aproxi-
madament) més petit que ε, amb confiança 1 − α.
és a dir
n ≥ 1068
8 Estimació per interval 221
Si disposem de la informació que d’una mostra prèvia de 400 persones, 160 van respondre que
votarien el partit A, aleshores també disposem de l’estimador pb0 = 160 400 = 0.4, i per tant serà
suficient prendre
µ ¶ µ ¶
z1− α2 2 1.96 2
n ≥ pb0 (1 − pb0 ) = 0.4 · 0.6 · = 1024.43
ε 0.03
és a dir
n ≥ 1025
Observem que aquest valor és més petit que el d’abans i sol ser més exacte, ja que té en compte
la informació de la mostra prèvia.
que porta a
s
p1 (1 − p1 ) p2 (1 − p2 )
P |p1 − p2 − (pb1 − pb2 )| < z1− α2 + '1−α (8.10)
n1 n2
Com que n1 i n2 són grans, els estimadors pb1 i pb2 seran propers a p1 i p2 respectivament, i subs-
tituint els paràmetres p1 i p2 en l’expressió anterior pels seus estimadors obtenim l’aproximació
de l’interval I = I1−α (p1 − p2 ) següent:
µ r r ¶
pb1 (1 − pb1 ) pb2 (1 − pb2 ) pb1 (1 − pb1 ) pb2 (1 − pb2 )
I ' pb1 − pb2 − z1− α2 + , pb1 − pb2 + z1− α2 +
n1 n2 n1 n2
Exemple: En un procés de producció, s’ha agafat una mostra de 1200 articles dels quals 69 són
defectuosos. Després de realitzar alguns canvis en el procés amb l’objectiu que el percentatge
222 Elements d’estadística
d’articles defectuosos disminueixi, s’ha agafat una altra mostra de 1750 articles dels quals 70
són defectuosos. Es vol obtenir un interval de confiança de nivell 0.95 per a la diferència de
proporcions d’articles defectuosos d’abans i després de realitzar els canvis.
Siguin p1 i p2 les proporcions d’articles defectuosos d’abans de realitzar els canvis i després de
realitzar els canvis respectivament. En base a les mostres obtingudes, els seus estimadors són
69 70
pb1 = = 0.0575 i pb2 = = 0.04
1200 1750
de manera que l’interval demanat és
amb r
0.0575 · 0.9425 0.04 · 0.96
ε = z0.975 + = 1.96 · 0.008192 = 0.0161
1200 1750
És a dir,
Això significa que la fiabilitat que p1 − p2 estigui a l’interval (0.0014, 0.0336) és aproximadament
del 95%. En particular, hi ha bastanta evidència estadística per pensar que p1 − p2 > 0, és a
dir, que p2 < p1 i en conseqüència que els canvis realitzats sí que han donat lloc a un descens
en el nombre d’articles defectuosos.
Prenent n1 i n2 prou grans aquest error el podrem fer tan petit com vulguem. En efecte, si
ε > 0 és una tolerància donada aleshores només cal prendre n1 i n2 tals que
à !2
p1 (1 − p1 ) p2 (1 − p2 ) ε
+ ≤ (8.11)
n1 n2 z1− α2
és a dir à !2
1 1 ε
+ ≤4
n1 n2 z1− α2
Per tant, si n1 i n2 satisfan aquesta darrera condició llavors l’error comès a l’aproximar
p1 − p2 pel seu estimador pb1 − pb2 , serà (aproximadament) més petit que ε, amb confiança
1 − α.
Sigui X1 , . . . , Xn una mostra d’una variable X ∼ P(λ). Si n és prou gran es verifica que
X −λ
p ' N (0, 1)
λ/n
En conseqüència à !
X −λ
P −z1− α2 <p < z1− α2 '1−α
λ/n
és a dir, Ã r !
¯ ¯ λ
P ¯X − λ¯ < z1− α2 '1−α (8.12)
n
d’on s’obté3 que
s s
2
z1−α/2 2
z1−α/2 2
z1−α/2 2
z1−α/2
X X
P X + − z1−α/2 + <λ<X+ + z1−α/2 + '1−α
2n n 4n2 2n n 4n2
¯
3¯
¯ p ¡ ¢2 ¡ ¢ 2
X − λ¯ < z1−α/2 λ/n ⇐⇒ X − λ < z1−α/2 2
λ/n ⇐⇒ λ2 − 2X + z1−α/2
2
/n λ + X < 0. Això implica
¡ ¢ 2
que λ està entre les dues solucions de l’equació x2 − 2X + z1−α/2
2
/n x + X = 0, que són
q
2 2 2
x± = X + z1−α/2 /(2n) ± z1−α/2 X/n + z1−α/2 /(4n )
224 Elements d’estadística
1 1
'0 i '0
2n 4n2
podem fer servir l’aproximació
à r r !
X X
I1−α (λ) ' X − z1− α2 , X + z1− α2
n n
Selecció de la mida de la mostra: De l’equació 8.12 es dedueix que a l’aproximar λ pel seu
b = X, l’error comès és, amb confiança 1 − α, com a molt
estimador λ
r
λ
z1− α2
n
ens assegurem un error menor que ε. Si no disposem de tal cota però disposem d’alguna aproxi-
mació λc0 de λ (λ
c0 pot ser la mitjana mostral d’alguna mostra prèvia) aleshores prendrem n tal
que
µ ¶
z1− α2 2
c
n ≥ λ0 (8.13)
ε
Així, la mida de mostra mínima per tenir un error menor que ε a l’estimar λ per X, amb
confiança 1 − α, és aproximadament el costat dret de la desigualtat de l’equació 8.13.
8 Estimació per interval 225
Per tant à !
χ22n, α χ22n,1− α
2 2
P <θ< =1−α (8.14)
2nX 2nX
obtenint el següent interval de confiança per a θ de nivell 1 − α,
à !
χ22n, α χ22n,1− α
2 2
I1−α (θ) = ,
2nX 2nX
µ ¶ Ã !
1 2nX 2nX
I1−α = ,
θ χ22n,1− α χ22n, α
2 2
Exemple: Una mostra de mida n = 40 d’una població X ∼ exp(θ) ha donat lloc a una mitjana
mostral X = 2.5. Es vol obtenir un interval de confiança per a θ amb un nivell de 0.95.
b n−1 39
θ= = = 0.39
nX 40 · 2.5
(z + 4n − 1)2
α
χ22n, α ' 2
2 2
i que zα/2 = −z1−α/2 , resulta
³ √ ´2 Ã√ !2
z1− α2 + 4n − 1 4n − 1 + z1− α2
qθ ' ³ √ ´2 = √
−z1− 2 + 4n − 1
α
4n − 1 − z1− α2
Si volem que
qθ ≤ 1 + ε
on ε és una tolerància donada, ε > 0, aleshores imposarem que
Ã√ !2
4n − 1 + z1− α2
√ ≤1+ε
4n − 1 − z1− α2
És a dir, ³√ ´
√ √
4n − 1 + z1− α2 ≤ 1 + ε 4n − 1 − z1− α2
Procedint de manera anàloga a quan hem estudiat la selecció de la mida de la mostra per a la
variància d’una variable normal, acabarem obtenint que
2 α µ√
z1− ¶2
1+ε+1 1
n≥ 2
√ + (8.15)
4 1+ε−1 4
Per tant, la mida de mostra mínima per tenir un interval de confiança per a θ, amb confiança
1 − α, tal que la raó entre el seu extrem superior i el seu extrem inferior sigui menor o igual que
1 + ε, és aproximadament el costat dret de la desigualtat de l’equació 8.15.
És fàcil veure que el mateix passa per a 1/θ. És a dir, la mida de mostra mínima per tenir un
interval de confiança per a 1/θ, amb confiança 1 − α, tal que la raó entre el seu extrem superior
i el seu extrem inferior sigui menor o igual que 1 + ε, és aproximadament el costat dret de la
desigualtat de l’equació 8.15.
8 Estimació per interval 227
Tal com ja hem vist a la Secció 6.3.3, pàgina 181, sota certes hipòtesis de regularitat l’estimador
màxim versemblant b θ=b θn de θ és assimptòticament normal amb esperança θ i variància
1
σ 2n (θ) = h¡ ¢2 i
∂
nE ∂θ log f (X; θ)
b
podrem obtenir un interval de confiança per a θ sempre que la desigualtat −z1− α2 < σθnn−θ (θ) < z1− 2
α
es pugui reescriure en termes d’una desigualtat del tipus a(X1 , . . . , Xn ) < θ < b(X1 , . . . , Xn ).
1
Per exemple, en el cas de X ∼ exp(θ), es té que b
θn = és aproximadament una variable
¡ 2 ¢ X
N θ, θ /n quan n és prou gran. Llavors
à 1
!
− θ
P −z1− α2 < X θ < z1− α2 ' 1 − α
√
n
i que dóna
1 1
³ ´ , ³ ´
z1−α/2 z
X 1 + √n X 1 − 1−α/2
√
n
Exemple: En l’exemple de la distribució exponencial de la pàgina 225, en què per a una mostra
de mida n = 40 s’ha obtingut X = 2.5 i es vol un interval per a θ amb una confiança de 0.95,
com que z1− α2 = z0.975 = 1.96 aleshores l’interval assimptòtic de θ és
à !
1 1
¡ √ ¢, ¡ √ ¢ = (0.30537, 0.57963)
2.5 1 + 1.96/ 40 2.5 1 − 1.96/ 40
228 Elements d’estadística
Essencialment el mètode que hem fet servir per determinar un interval de confiança per a un
paràmetre θ es basa en trobar una funció de la mostra i del paràmetre, T (X1 , . . . , Xn ; θ), tal
que la seva distribució de probabilitat no depengui del valor particular del paràmetre, i que a
més a més permeti establir fàcilment l’equivalència
equival a
P (a(X1 , . . . , Xn ) < θ < b(X1 , . . . , Xn )) = 1 − α
La qüestió és que no sempre existeix necessàriament una funció T (X1 , . . . , Xn ; θ) que dugui a
l’interval de confiança. Ara bé, si X és una variable amb funció de distribució F (x; θ) = F (x)
contínua, llavors la variable U = − log F (X) és una variable exponencial de paràmetre θ = 1.
En efecte, per la transformació integral de probabilitat sabem que F (X) segueix una distribució
uniforme, d’on resulta que
¡ ¢
P (− log F (X) > u) = P (log F (X) ≤ −u) = P F (X) ≤ e−u = e−u
per a tot u ≥ 0. Això implica que la funció de distribució de U és FU (u) = P (− log F (X) ≤
u) = 1 − e−u . En conseqüència, derivant, la de densitat és fU (u) = e−u per a u > 0, i per tant
U = − log F (X) és una variable exponencial de paràmetre θ = 1, tal com volíem veure.
que equival a à !
n
Y
P − log c1 < − log F (Xi ; θ) < − log c2 =1−α
i=1
oa à !
n
Y
P c2 < F (Xi ; θ) < c1 =1−α
i=1
Si F (θ) = F (x; θ) com a funció de θ és estrictament monòtona (per a tot x), aleshores també
Q
ho serà el producte ni=1 F (Xi ; θ), i aïllant θ obtindrem una expressió equivalent de la forma
de manera que
I1−α (θ) = (a(X1 , . . . , Xn ), b(X1 , . . . , Xn ))
Per tant, quan F (x; θ) com a funció de θ és una funció estrictament monòtona (per a tot x),
aleshores la transformació integral de probabilitat permet obtenir intervals de confiança de nivell
1 − α.
Fins ara tots els intervals que hem vist són bilaterals, és a dir, del tipus (a, b) on a i b són finits.
Quan a o b és infinit aleshores parlarem d’intervals unilaterals.
X −µ
√ ∼ N (0, 1)
σ/ n
D’aquesta manera es poden anar trobant les versions unilaterals de tots els intervals que hem
vist. A continuació donem la llista dels intervals unilaterals. Es deixa com a exercici la seva
deducció.
i à !
− S̃
I1−α (µ) = −∞ , X + √ tn−1,1−α
n
8 Estimació per interval 231
Intervals unilaterals per a la variància i desviació típica d’una població normal: Per
a la variància els intervals unilaterals de nivell 1 − α són
à !
+ 2 (n − 1) S̃ 2
I1−α (σ ) = , +∞
χ2n−1,1−α
i à !
− (n − 1) S̃ 2
I1−α (σ 2 ) = −∞ ,
χ2n−1,α
i
√
n − 1S̃
−
I1−α (σ) = −∞ , q
χ2n−1,α
i s
σ 21 σ 22
−
I1−α (µ1 − µ2 ) = −∞ , X 1 − X 2 + + · z1−α
n1 n2
i s
S̃12 S̃22
−
I1−α (µ1 − µ2 ) ' −∞ , X 1 − X 2 + + · tk,1−α
n1 n2
i µ ¶ Ã !
− σ1 S̃1 p
I1−α = −∞ , fn2 −1,n1 −1,1−α
σ2 S̃2
i à z1−α !
(1 + RXY ) e2
√
−
n−3 − (1 − RXY )
I1−α (ρXY ) ' −∞ , z1−α
(1 + RXY ) e2
√
n−3 + (1 − RXY )
i à !
− S̃D
I1−α (µ1 − µ2 ) = −∞ , D + √ tn−1,1−α
n
Intervals unilaterals per a una proporció: Els intervals unilaterals aproximats de nivell
1 − α són à r !
+ b
p(1 − b
p)
I1−α (p) ' pb − z1−α , +∞
n
i à r !
− pb(1 − pb)
I1−α (p) ' −∞ , pb + z1−α
n
i s
pb1 (1 − pb1 ) pb2 (1 − pb2 )
−
I1−α (p1 − p2 ) ' −∞ , pb1 − pb2 + z1−α +
n1 n2
i s
X
−
I1−α (λ) ' −∞ , X + z1−α
n
234 Elements d’estadística
8.12 Exercicis
Problema 8.1 El temps de reparació d’una font d’alimentació és una variable aleatòria normal.
El temps de reparació, en minuts, de sis fonts d’alimentació ha estat el següent:
Si la desviació típica del temps de reparació és coneguda i val σ = 63 min, calculeu un interval
de confiança del 95% per a la mitjana teòrica µ del temps de reparació.
Problema 8.2 Considereu la mateixa mostra que la del problema anterior però ara sense suposar
que σ és coneguda.
a) Calculeu un interval de confiança del 95% per a la mitjana teòrica µ del temps de reparació.
Problema 8.3 En el gruix de les làmines de plàstic produïdes per una certa màquina es detecta
una variació aleatòria. Es pot suposar que el gruix és una variable normal. Per tal d’esbrinar
els límits d’aquesta oscil·lació se seleccionen, de forma aleatòria, dotze làmines i es mesura el
seu gruix. Les dades obtingudes, en mm, han estat
12.3, 12.6, 11.9, 12.8, 11.8, 11.7, 12.4, 12.1, 12.3, 12.0, 12.9, 12.5
8 Estimació per interval 235
a) Calculeu un interval de confiança del 99% per a la mitjana teòrica µ dels gruixos de les
làmines.
b) Quin error es comet com a màxim, amb una fiabilitat del 99%, al suposar que µ = 12.275
mm? I al suposar µ = 12.5 mm?
c) Calculeu un interval de confiança del 99% per a la desviació típica del gruix.
d) Si no és acceptable una desviació típica superior a 0.2 mm, té el fabricant prou raons per
preocupar-se?
Problema 8.4 Es pot suposar, en base a l’experiència, que la resistència a la tensió, X, d’una
determinada fibra sintètica es distribueix de forma aproximadament normal. Se selecciona una
mostra aleatòria de 16 trossos de fibra i es determina, per a cada cas, la seva resistència. La
suma i la suma dels quadrats de les resistències són
16
X 16
X
xi = 792, x2i = 39252
i=1 i=1
a) Calculeu, en base a aquestes dades, un interval de confiança del 90% per a µ, la mitjana
de la resistència. Quin error es comet, com a molt, suposant µ = 50 amb una confiança
del 90%?
b) Calculeu també un interval de confiança del 90% per a la desviació típica σ i per a la
variància σ 2 . Quin error es comet, com a molt, suposant σ = 2 amb una confiança del
90%?
Problema 8.5 La durada, X, d’un determinat tipus de pneumàtic és una variable aleatòria
aproximadament normal. Es mesura la durada de n = 10 pneumàtics que treballen de manera
independent, i s’obté que X = 40817.9 Km i S̃ = 182.3 Km.
a) Calculeu, en base a aquestes dades, un interval de confiança del 99% per al promig teòric
µ de la durada dels pneumàtics. Si no és acceptable una durada inferior a 40000 Km, té
el fabricant dels pneumàtics alguna raó per preocupar-se?
c) Suposeu ara que els valors X = 40817.9 Km i S̃ = 182.3 Km de l’enunciat provenen d’una
mostra de n = 100 pneumàtics, en lloc de 10 pneumàtics. Calculeu un interval de confiança
del 99% per al promig teòric µ.
236 Elements d’estadística
e) Quina diferència significativa trobeu entre els intervals obtinguts als apartats a) i b) i els
intervals de c) i d)?
Problema 8.6 Continuant amb el problema 8.1, i suposant que σ = 63 min, quina hauria de
ser la mida de la mostra si es vol assegurar un error inferior als 5 min a l’aproximar el valor real,
µ, del temps mitjà de reparació pel seu estimador µ b = X, amb una confiança del 95%?
Problema 8.7 Una màquina està ajustada de manera que la quantitat de líquid que expulsa es
distribueix aproximadament segons una llei normal amb desviació típica 0.08 decilitres. Quina
hauria de ser la mida de la mostra si es vol assegurar un error inferior als 0.02 decilitres a
l’aproximar el valor real de µ per X, amb una confiança del 99%?
Problema 8.8 Continuant amb el problema 8.3, calculeu aproximadament la mida de mostra
mínima si volem assegurar un error inferior als 0.10 mm a l’aproximar el gruix mitjà µ de les
làmines de plàstic per la mitjana mostral X, amb una confiança del 99%. Indicació: Feu servir
la variància corregida de la mostra del problema 8.3 per aproximar la variància σ 2 .
b) La mida de mostra mínima si volem que el quocient entre l’extrem superior i l’extrem
inferior de l’interval de confiança per a σ 2 del 90% no sigui superior a 1.5.
c) La mida de mostra mínima si volem que el quocient entre l’extrem superior i l’extrem
inferior de l’interval de confiança per a σ del 90% no sigui superior a 1.5.
Problema 8.10 Determineu aproximadament la mida de mostra mínima per tal que els extrems
a i b, amb a < b, de l’interval de confiança del 90% per a la desviació típica d’una població normal
verifiquin que b = 1.1a.
a) Suposeu que les variàncies dels temps de resposta són σ 21 = 47.61 per al primer sistema
operatiu, i σ 22 = 57.76 per al segon sistema operatiu. Determineu un interval de confiança
del 95% per a la diferència µ1 − µ2 entre els temps promig de resposta. En base a aquest
interval, podem afirmar amb molta seguretat que el temps de resposta del segon sistema
operatiu és més petit que el del primer?
b) Contesteu el mateix que a l’apartat anterior però ara suposant que les variàncies σ 21 i σ 22
són desconegudes però iguals, i que els ordinadors analitzats han donat unes variàncies
corregides de S̃12 = 51.94 per a la mostra d’ordinadors amb el primer sistema operatiu i
S̃22 = 52.46 per a la mostra d’ordinadors amb el segon sistema operatiu.
Problema 8.12 La resistència d’un determinat cable, en ohms, és una variable normal. Per
tal de comprovar si els cables produïts per dues màquines diferents presenten les mateixes
resistències mitjanes es prenen dues mostres, una de cada màquina, i s’obtenen els resultats
següents: 8.50, 8.62, 8.66, 8.57, 8.52, 8.59, 8.62 per a la primera màquina i 8.51, 8.47, 8.56, 8.52,
8.66 per a la segona.
a) Suposant que les resistències de les dues màquines presenten aproximadament la mateixa
variabilitat i per tant que a efectes pràctics les variàncies de les resistències de les dues
màquines es poden suposar iguals, calculeu un interval de confiança del 95% per a la
diferència de mitjanes. Hi ha realment diferència significativa?
b) En base a les mostres de l’enunciat calculeu un interval de confiança del 95% per al quocient
de variàncies i també per al quocient de desviacions típiques. Utilitzeu aquests intervals per
decidir si era raonable suposar a l’apartat a) que les dues màquines presentaven variàncies
iguals.
Problema 8.13 Es mesura el pes (en quilograms) i l’alçada (en metres) de 80 homes d’entre 20
i 50 anys i s’obté que SP = 4.6, SA = 0.17 i SP A = 0.68, on P és la variable pes i A la variable
alçada. Suposeu normalitat bivariant del vector aleatori (P, A).
a) Calculeu un interval de confiança aproximat del 98% per al coeficient de correlació entre
el pes i l’alçada.
238 Elements d’estadística
Problema 8.14 La durada dels pneumàtics de cotxes és una variable aproximadament normal.
Es disposa de dues marques diferents de pneumàtics i, per tal de decidir quina de les dues
marques produeix pneumàtics amb major durada, s’assigna a l’atzar un pneumàtic de cada
marca a les dues rodes posteriors de 7 cotxes, i aleshores es fan anar els cotxes fins que els
pneumàtics es desgasten. Els resultats obtinguts (en quilòmetres) han estat:
Cotxe 1 2 3 4 5 6 7
Marca 1 38540 41080 36240 47310 36250 38660 44510
Marca 2 39400 39925 35500 47800 35015 38745 43900
Calculeu un interval de confiança del 90% per a la diferència de quilòmetres promig de duració.
Problema 8.15 En una mostra de 500 peces, escollida a l’atzar d’entre tota la producció, n’hi
ha 32 que presenten un determinat tipus de defecte.
Problema 8.16 Quina serà la mida de mostra apropiada per estimar la proporció d’individus
que tenen una determinada característica, en una població concreta, de manera que l’error comès
sigui com a molt de 0.01 amb una confiança del 90%? Contesteu a la mateixa pregunta però
ara sabent que s’ha fet una prova pilot i en una mostra de 100 individus n’hi havia quinze que
presentaven la característica anterior.
Problema 8.17 Es fa una enquesta a 300 persones d’un país i resulta que 66 d’elles afirmen que
estan satisfetes amb l’actual govern estatal. Al cap de mig any es fa una altra enquesta a 250
persones, i resulta que de les 250 persones, 38 estan satisfetes amb l’actual govern. Calculeu un
interval de confiança del 95% per a la diferència entre la proporció de persones satisfeta quan
8 Estimació per interval 239
Problema 8.18 El nombre, X, de defectes superficials en un filferro prim de coure segueix una
distribució de Poisson. S’analitzen 20 mil·límetres diferents de filferro, i el nombre de defectes
han estat:
1, 0, 3, 2, 1, 0, 2, 1, 4, 2, 1, 0, 1, 2, 1, 1, 0, 3, 2, 1
a) Calculeu un interval de confiança aproximat del 98% per al promig λ de defectes per
mil·límetre.
Problema 8.19 La distància entre dos defectes superficials consecutius del filferro del pro-
blema anterior segueix una distribució exponencial amb un cert paràmetre θ. S’analitzen 25
defectes consecutius i la distància promig entre aquests defectes consecutius ha resultat ser de
0.6 mil·límetres.
b) Aproximadament quants defectes consecutius s’haurien d’analitzar per tal que els extrems
a i b, amb a < b, de l’interval de confiança del 90% per a θ verifiquin que b/a = 1.5?
Contesteu el mateix però ara suposant que a i b són els extrems de l’interval de confiança
del 90% per a 1/θ.
Capítol 9
En els capítols anteriors hem vist com estimar els paràmetres puntualment i per interval, però
a vegades el problema que es presenta és el de decidir entre dues hipòtesis contràries sobre els
valors d’un paràmetre. Els mètodes per decidir en aquests casos reben el nom de contrasts
d’hipòtesis paramètrics. En aquest capítol introduirem les nocions elementals per decidir entre
dues hipòtesis alternatives establertes sobre els paràmetres de les distribucions habituals.
Una hipòtesi estadística és una afirmació sobre una o més variables aleatòries. Per exemple:
b) X ∼ N (µ, 32 ). Hipòtesi: µ ≥ 6
Una hipòtesi estadística és simple quan la distribució de la variable o variables queda comple-
tament especificada i és composta en cas contrari. Per exemple, si X ∼ N (µ, 32 ) aleshores la
hipòtesi µ = 4 és simple, ja que sota ella X ∼ N (4, 32 ). En canvi, la hipòtesi µ > 4 és composta
ja que no concreta la distribució de X.
242 Elements d’estadística
De fet, en aquests contrasts la hipòtesi nul·la juga un paper similar al que juga la innocència en
els judicis: s’admet com a vàlida mentre no es demostri el contrari, és a dir, mentre la informació
mostral no la contradeixi. Per tant, la regla de decisió que s’utilitzi s’haurà de basar en una
baixa probabilitat de rebutjar H0 quan aquesta sigui certa.
Exemple: Sigui X la variable que dóna el volum de líquid abocat per una màquina en un procés
d’emplenament automàtic d’un determinat tipus d’envàs. Podem suposar que X segueix una
distribució N (µ, σ 2 ). La màquina està ajustada perquè treballi a un volum mitjà de 40 cm3 .
La variabilitat es concreta en una desviació típica coneguda i igual a 1.3 cm3 . En un moment
donat es decideix fer un control per veure si el volum mitjà de líquid abocat es manté en 40 cm3
o ha variat. L’objectiu és decidir, a partir d’una mostra, si es pot acceptar que µ = 40, o si hi
ha raons de pes per dubtar que això sigui així.
Primer hem d’establir la hipòtesi nul·la, H0 , que afirma el resultat que es vol comprovar i que en
aquest cas és H0 : el volum mitjà abocat per la màquina és de 40 cm3 . A continuació s’estableix
la hipòtesi alternativa, que aquí és H1 : el volum mitjà abocat per la màquina no és de 40 cm3 .
En definitiva, les hipòtesis a contrastar són
H0 : µ = 40 H1 : µ 6= 40
H0 : θ ∈ Θ0 H1 : θ ∈ Θ1
Θ = Θ0 ∪ Θ1 amb Θ0 ∩ Θ1 = ∅
¡ ¢
A l’exemple anterior és θ = µ, 1.32 . Aquest paràmetre varia dins l’espai de paràmetres
©¡ ¢ ª
Θ = µ, σ 2 ∈ R2 | σ 2 = 1.32
9 Contrasts d’hipòtesis paramètrics 243
La decisió sobre el rebuig o acceptació de H0 es farà en base al càlcul del valor d’un estadístic de
prova per a una mostra de mida n de X. Un estadístic de prova és una funció U = U (X1 , . . . , Xn )
de la mostra, com per exemple
X − 5√ X
U1 = X U2 = n U3 = −n
2 S̃ 2
Com veurem, és convenient escollir un estadístic de prova la distribució del qual sigui possible
conèixer. Per exemple, si X ∼ N (5, 22 ) aleshores els estadístics U1 i U2 anteriors verifiquen
¡ ¢
que U1 ∼ N 5, 22 /n i U2 ∼ N (0, 1), i en particular tenen distribució coneguda. En canvi, de
l’estadístic U3 no en coneixem la distribució i no serà convenient fer-lo servir com a estadístic
de prova.
En general, la regla de decisió, que constitueix el contrast i que determina quan, i quan no, s’ha
de rebutjar H0 , s’estableix en base als valors de l’estadístic de prova. Que H0 sigui falsa s’haurà
de manifestar en una mostra que doni un valor de l’estadístic de prova excessivament petit o
excessivament gran (segons sigui el plantejament de H1 ) per la distribució que segueix aquest
estadístic quan H0 és certa. És a dir, es rebutjarà H0 quan s’obtingui un valor de l’estadístic de
prova molt poc probable d’obtenir en el cas que H0 fos certa.
El terme molt poc probable s’ha de concretar amb precisió. La hipòtesi nul·la no es vol rebutjar
si no és falsa. És la més plausible i interessa fer servir una regla de decisió que accepti H0 gairebé
sempre que aquesta sigui certa, o, el que és el mateix, una regla que tingui baixa probabilitat
de rebutjar H0 quan sigui certa. Primer es fixarà un valor petit α, de l’ordre de 0.05 o 0.10,
i per definir la regla de decisió s’imposarà que la probabilitat de rebutjar H0 quan aquesta
sigui certa no superi α. Aleshores es rebutjarà H0 quan, al prendre una mostra de mida n de
X, s’obtingui un valor de l’estadístic de prova en una regió de valors que s’haurà determinat
prèviament imposant la condició
α ≥ P ( rebutjar H0 | H0 certa)
Exemple: Continuant amb l’exemple del volum de líquid abocat per la màquina del procés
d’emplenament automàtic, si H0 és falsa és perquè realment µ 6= 40, i això es reflectirà en una
244 Elements d’estadística
mostra que doni un valor de X = x prou allunyat de 40. Per tant, la regla de decisió serà
¯ ¯
rebutjar H0 quan ¯X − 40¯ sigui massa gran, o, equivalentment, quan
¯ ¯
¯ X − 40 ¯
¯ ¯
¯ 1.3/√n ¯
sigui massa gran. El significat de massa gran es concretarà en un valor c (a determinar) tal que
¯ ¯
¯ X − 40 ¯
¯ ¯
¯ 1.3/√n ¯ > c
Això equival a
X − 40 X − 40
√ < −c o bé √ >c
1.3/ n 1.3/ n
de manera que la regió de rebuig o regió crítica per l’estadístic de prova
X − 40
Z= √
1.3/ n
serà del tipus
(−∞, −c) ∪ (c, +∞)
S’anomena regió d’acceptació al complementari de la regió crítica, que en aquest cas és l’interval
(−c, c). Un valor de l’estadístic de prova en la regió d’acceptació condueix a no rebutjar H0 , és
a dir, a acceptar H0 .
Com ja hem apuntat, no ens interessa decidir que el procés està desajustat quan en realitat
no ho està. Per tant, determinarem c dient quin volem que sigui el nivell de significació α del
contrast, i imposant a continuació la condició que la probabilitat de decidir que el procés està
desajustat quan en realitat no ho està sigui α (com a màxim). Això és, imposarem que
µ¯ ¯ ¯ ¶
¯ X − 40 ¯ ¯
α = P ( rebutjar H0 | H0 certa) = P ¯ ¯ ¯ ¯
√ > c ¯ µ = 40
1.3/ n ¯
que equival a µ ¯ ¶
X − 40 ¯
P −c < ¯
√ < c ¯ µ = 40 = 1 − α
1.3/ n
X−40
Tenint en compte que si µ = 40 aleshores Z = 1.3/√ ∼ N (0, 1), la condició anterior s’escriu en
n
la forma
P (−c < Z < c) = 1 − α
on Z ∼ N (0, 1), i com que P (−c < Z < c) = φ (c) − φ(−c) = φ (c) − (1 − φ (c)) = 2φ (c) − 1, la
condició equival a 2φ (c) − 1 = 1 − α. D’aquí resulta φ (c) = 1 − α2 , d’on
c = z1− α2
9 Contrasts d’hipòtesis paramètrics 245
Aquesta regió és la regió crítica del contrast. Els valors −z1− α2 i z1− α2 són els valors crítics. La
regió sobre la qual acceptem H0 és la regió d’acceptació, que en aquest cas és l’interval
³ ´
−z1− α2 , z1− α2
A la figura 9.1 es mostren les regions de rebuig i d’acceptació per a l’estadístic de prova
X − 40
Z= √
1.3/ n
Figura 9.1 Regions de rebuig i d’acceptació, contrast bilateral sobre µ amb σ coneguda
Suposem que una mostra de mida n = 10 ha donat una mitjana de X = 38.7. Llavors
X − 40 38.7 − 40
√ = √ = −3.1623
1.3/ n 1.3/ 10
i com que aquest valor està dintre de la regió de rebuig (−∞, −1.96) ∪ (1.96, +∞), és molt poc
probable que el volum mitjà abocat sigui 40. En conseqüència, es rebutja H0 i s’accepta H1 .
Per construcció del test, la probabilitat que la decisió presa sigui errònia perquè s’hagi rebutjat
H0 essent certa és com a màxim només del 5%.
X − 40
−z1− α2 < √ < z1− α2
1.3/ n
és equivalent a
1.3 1.3
40 − √ z1− α2 < X < 40 + √ z1− α2
n n
Per tant, acceptarem H0 quan la mitjana mostral X caigui dintre d’aquest interval i la rebutjarem
quan
1.3 1.3
X < 40 − √ z1− α2 o X > 40 + √ z1− α2
n n
Figura 9.2 Regió de rebuig per a l’estadístic X, contrast bilateral sobre µ amb σ coneguda
En el cas d’una mostra de mida n = 10 que dóna X = 38.7, de forma equivalent a abans es
rebutja H0 en ser aquest valor a la zona de rebuig (−∞, 39.194) ∪ (40.806, +∞).
Una manera d’informar del resultat d’un contrast d’hipòtesis és la de notificar si la hipòtesi nul·la
ha estat rebutjada o no amb un nivell de significació α. Així, a l’exemple del volum abocat, on
una mostra de mida n = 10 ha donat una mitjana de X = 38.7, el resultat del contrast és el de
rebutjar la hipòtesi nul·la amb α = 0.05.
Això, però, té l’inconvenient que no dóna cap tipus d’informació de si el valor de l’estadístic de
prova és molt proper a la frontera entre la regió d’acceptació i la regió crítica. A més a més,
tampoc informa del resultat que hauríem obtingut si haguéssim considerat un altre nivell de
significació α0 . Per tant, estem imposant el nivell de significació que nosaltres hem fixat a qui
rep la informació, i qui podria haver preferit treballar amb un altre nivell de significació diferent
de 0.05.
Una manera equivalent de prendre la decisió d’un contrast, i que evita aquests inconvenients, és
a través del p-value. El p-value, valor p o nivell crític del test és la probabilitat que l’estadístic de
prova prengui un valor més extrem, quan la hipòtesi nul·la és certa, que el valor de l’estadístic de
prova obtingut amb una mostra prèvia. Òbviament el p-value depèn de la mostra considerada.
Exemple: A l’exemple del volum abocat una mostra de mida n = 10 havia donat una mitjana
de X = 38.7. El valor de l’estadístic de prova és
X − 40 38.7 − 40
Z= √ = √ = −3.1623
1.3/ n 1.3/ 10
248 Elements d’estadística
X−40
Tenint en compte que quan µ = 40 és Z = √
1.3/ n
∼ N (0, 1), resulta que
Llavors, com es mostra a la figura 9.3, comparar −3.1623 amb −1.96 per tal de prendre la decisió
sobre H0 , és equivalent a comparar el p-value 0.001565 amb α = 0.05. És a dir, la regla de decisó
es rebutja H0 si ¯ ¯
¯ X − 40 ¯
¯ ¯
¯ 1.3/√n ¯ > 1.96
i en cas contrari s’accepta equival a es rebutja H0 si p-value < 0.05 i en cas contrari s’accepta.
X−40
√
1.3/ n
= −3.1623. Aquest valor és a la regió d’acceptació si
³ ´
−3.1623 ∈ −z1− α2 , z1− α2
de manera que per a un nivell de significació prou petit i proper a zero sempre acceptarem la
hipòtesi nul·la. Hi haurà un moment, per a un cert valor de α = α∗ , que algun extrem de
l’interval de la regió d’acceptació coincidirà amb el valor de l’estadístic de prova. Quan això
passi aleshores estarem a la frontera entre la regió d’acceptació i la regió de rebuig. A partir
d’aleshores, per a α > α∗ la regla de decisió sempre ens portarà a rebutjar H0 . Aquest valor de
α = α∗ , pel qual estem a la frontera entre la regió de rebuig i acceptació, és el p-value.
−3.1623 = −z1− α∗
2
Això equival a
³ ´ ³ ´ α∗
φ(−3.1623) = φ −z1− α∗ = φ z α∗ =
2 2 2
d’on resulta que el p-value és
Observació: Si el valor de l’estadístic de prova és molt proper a algun valor crític o, el que és
equivalent, el nivell de significació α molt semblant al p-value, llavors s’haurà d’ajornar la presa
de la decisió fins haver obtingut més informació mostral.
Reprenent el símil de culpable o innocent en un judici, quan el resultat d’un contrast condueix a
admetre la validesa de la hipòtesi nul·la -veredicte d’innocència-, potser el que ha passat és que
la persona és culpable però la investigació no ha estat prou eficaç a l’hora d’obtenir evidències de
la culpabilitat de la persona que es jutja. És a dir, hi ha un risc de declarar innocent un culpable.
Quan la sentència és de culpabilitat vol dir que hi ha evidències clares d’aquesta culpabilitat i
quan es descarta la hipòtesi nul·la per admetre la validesa de la hipòtesi alternativa és perquè la
mostra examinada aporta evidències suficients a favor de la hipòtesi alternativa. A més a més,
el mètode utilitzat es basa en un risc petit de rebutjar H0 quan és certa. Tot i així, sempre
existeix un cert risc de condemnar un inocent, és a dir, de rebutjar H0 quan sigui certa.
P ( rebujar H0 | θ ∈ Θ0 ) = α(θ)
P ( acceptar H0 | θ ∈ Θ1 ) = β(θ)
Exemple: A l’exemple del volum abocat hem fixat el risc de primera espècie en α = 0.05
imposant que
µ¯ ¯ ¯ ¶
¯ X − 40 ¯ ¯
¯
0.05 = P ( rebutjar H0 | H0 certa) = P ¯ √ ¯ ¯
> c ¯ µ = 40
1.3/ 10 ¯
β(39.9) = 0.94328
β(39.8) = 0.92257
β(39.7) = 0.88724
β(39.6) = 0.83665
β(39.5) = 0.77093
β(40.5) = 0.77093
H0 : θ ∈ Θ0 H1 : θ ∈ Θ1
La sensibilitat del test de cara a detectar valors del paràmetre diferents als de H0 es reflecteix
en la funció de potència del test. Aquesta funció ve definida per
És a dir, π (θ) dóna la probabilitat de descartar la hipòtesi nul·la versus el valor real del paràmetre
que s’està contrastant. El valor de π(θ) és igual al risc de primera espècie quan θ ∈ Θ0 i igual
al que li falta, fins a 1, al risc de segona espècie quan θ ∈ Θ1 . És a dir,
1 − β(θ) si θ ∈ Θ1
π (θ) = P ( rebutjar H0 | θ) =
α(θ) si θ ∈ Θ0
Exemple: Pel test del volum de líquid abocat amb α = 0.05, la funció de potència és
µ¯ ¯ ¯ ¶ 1 − β(µ) si µ 6= 40
¯ X − 40 ¯ ¯
π (µ) = P ( rebutjar H0 | µ) = P ¯¯ ¯ ¯
√ > 1.96 ¯ µ =
1.3/ n ¯
α = 0.05 si µ = 40
El gràfic de la funció de potència és en aquest cas el de la figura 9.5, on per a cada possible valor
de µ es representa la probabilitat de rebutjar H0 quan aquest valor és el veritable valor de µ.
252 Elements d’estadística
Per exemple, la probabilitat que, amb la regla de decisió utilitzada, es rebutgi la hipòtesi nul·la
H0 : µ = 40 quan el valor real de µ és 41 és de 0.68174 ' 0.68. Aquest gràfic mostra que el test
és molt sensible per detectar desviacions de µ = 40 de l’ordre de 1.5 unitats o més.
De fet, la situació ideal seria la d’un test amb corba de potència escalonada, és a dir, amb
P ( rebutjar H0 | H0 certa) = 0 i P ( rebutjar H0 | H0 falsa) = 1. D’aquesta manera el test
portaria sempre a la decisió correcta, encara que a la pràctica això no acostuma a ser així.
L’exemple del volum abocat correspon al cas del contrast bilateral sobre la mitjana d’una variable
normal amb variància σ 2 coneguda. Allà s’ha contrastat
H0 : µ = 40 H1 : µ 6= 40
suposant σ 2 = 1.32 . Això ha permès escollir l’estadístic
X −µ X − µ√
Z= √ = n
σ/ n σ
com estadístic de prova, amb µ = 40 i σ = 1.3. Ara bé, si σ 2 no es pot suposar coneguda
aleshores no és possible calcular el valor de Z i per tant aquest estadístic no serveix per decidir
sobre H0 .
9 Contrasts d’hipòtesis paramètrics 253
X − 40 √
t= n
S̃
que quan µ = 40 segueix una distribució t de Student amb n − 1 graus de llibertat.
Recordem que hem de rebutjar H0 quan X = x és prou més petit o prou més gran que 40, de
manera que la regla de decisió que adoptarem, per un nivell de significació α, serà rebutjar H0
quan ¯ ¯
¯ X − 40 √ ¯
¯ n¯¯ > c
¯ S̃
Si volem un risc de primera espècie igual a un nivell de significació α aleshores només cal imposar
que 2 − 2F (c) = α. Això equival a F (c) = 1 − α2 , d’on resulta que
c = tn−1,1− α2
Per tant, la regla de decisió que adoptarem, per un nivell de significació α, serà rebutjar H0
quan ¯ ¯
¯ X − 40 √ ¯
¯ n¯¯ > tn−1,1− α2
¯ S̃
X−40 √
La regió crítica per a l’estadístic de prova t = S̃
n és
³ ´ ³ ´
−∞, −tn−1,1− α2 ∪ tn−1,1− α2 , +∞
X − 40 √ 39.9 − 40 √
n= 10 = −0.22428
S̃ 1.41
que com que no està dins de la regió de rebuig s’accepta H0 .
H0 : θ ∈ Θ0 H1 : θ ∈ Θ1
Per decidir sobre aquest contrast ens basarem en el fet que l’estadístic
(n − 1) S̃ 2
a
9 Contrasts d’hipòtesis paramètrics 255
Aleshores rebutjarem H0 quan al prendre una mostra de mida n el valor de S̃ 2 sigui prou diferent
de a (prou més gran o prou més petit), la qual cosa equival a dir que
(n − 1) S̃ 2
a
sigui suficientment petit o suficientment gran. Si fixem el nivell de significació en α, la regla de
decisió serà rebutjar H0 quan
(n − 1)S̃ 2 (n − 1)S̃ 2
< χ2n−1, α o bé > χ2n−1,1− α
a 2 a 2
Exemple: Retornem a la variable volum de líquid abocat i recordem que havíem fet el supòsit
que σ = 1.3. Podem contrastar aquest valor de σ 2 plantejant les hipòtesis
Els tres contrasts que hem considerat fins aquí tenen en comú que la hipòtesi nul·la és simple i
l’alternativa és la unió de dues semirectes. És a dir, són contrasts bilaterals. En aquesta secció
estudiarem la versió unilateral dels tres contrasts anteriors i amb hipòtesi nul·la composta o
simple.
Suposem que X és el temps de vida d’un determinat tipus de component electrònic. La variable
X es pot suposar N (µ, σ 2 ). El fabricant, que és un proveïdor habitual, assegura que la vida
mitjana teòrica d’aquests components és de com a mínim 800 hores. Se sap que la desviació
típica és de 120 hores. L’objectiu és decidir, a partir d’una mostra, si es pot acceptar l’afirmació
del fabricant sobre el seu producte, o si hi ha raons de pes per dubtar de la seva veracitat.
Establim la hipòtesi nul·la H0 : la vida mitjana és de 800 hores com a mínim. A continuació
s’estableix la hipòtesi alternativa, que aquí és H1 : la vida mitjana és inferior a 800 hores, ja
que només interessa saber si la vida mitjana arriba o no al mínim que assegura el fabricant1 .
En definitiva, les hipòtesis a contrastar són
X − 800
√
120/ n
La regla de decisió s’establirà seguint la mateixa idea que abans, això és, fixant el nivell de
significació α i imposant la condició
Si H0 és falsa perquè realment µ < 800, això es reflectirà en una mostra que doni un valor
de X = x prou més petit que 800, o el que és el mateix, en una mostra que doni un valor de
l’estadístic de prova prou més petit que zero. Per tant, la regla de decisió serà rebutjar H0 quan
X − 800
√ <c
120/ n
per a un cert c fixat. La regió que en direm de rebuig o regió crítica serà aquí del tipus (−∞, c).
Amb aquesta regió crítica, la funció que dóna el risc de primera espècie per a cada valor individual
de la mitjana µ = E(X) amb µ ≥ 800 és la funció definida per α(µ) = P ( rebutjar H0 | µ).
Aquesta funció verifica que α(800) = φ(c) i α(µ) ≤ φ(c) per a tot µ ≥ 800. En efecte,
µ ¯ ¶
X − 800 ¯
α(800) = P ( rebutjar H0 | µ = 800) = P √ < c ¯¯ µ = 800 = φ(c)
120/ n
X−800
ja que quan µ = E(X) = 800 aleshores √
120/ n
∼ N (0, 1). D’altra banda, si µ ≥ 800 llavors
µ ¯ ¶ µ ¯ ¶
X − 800 ¯ X −µ µ − 800 ¯
α(µ) = P ( rebutjar H0 | µ) = P ¯
√ <c¯ µ =P √ + √ <c ¯ µ
120/ n 120/ n 120/ n ¯
En conseqüència
max α(µ) = α(800) = φ (c)
µ≥800
Per tant, per tenir un risc de primera espècie igual a α serà suficient determinar el valor c que
fa φ (c) = α. És a dir,
c = zα = −z1−α
258 Elements d’estadística
X − 800
√ < zα
120/ n
verifica
risc 1a espècie = max α(µ) = P ( rebutjar H0 | H0 certa) = α
µ≥800
Amb aquesta regla de decisió, si H0 és certa llavors la probabilitat d’obtenir un valor de l’estadís-
tic de prova inferior al valor crític zα és com a màxim de α. Per tant, si això passa aleshores
posem en dubte H0 i es considerarà raó suficient per rebutjar-la. La regió de rebuig per a
X−800
l’estadístic de prova 120/√ és
n
(−∞, zα )
X − 800
√ < z0.05 = −1.65
120/ 30
i s’acceptarà quan
X − 800
√ > z0.05 = −1.65
120/ 30
A la figura 9.8 es mostra la distribució mostral de l’estadístic Z i es mostren les regions de rebuig
i acceptació corresponents al contrast de la vida mitjana teòrica dels components.
Figura 9.8 Regió de rebuig de H0 per al contrast H0 : µ ≥ 800 H1 : µ < 800 amb σ coneguda
Notem que en aquest cas només es fa servir un valor crític, ja que només es busca la desviació
de la hipòtesi cap a un costat, és a dir només interessa saber si el valor de µ arriba al mínim
valor que el fabricant garanteix o no.
9 Contrasts d’hipòtesis paramètrics 259
Suposem que d’una mostra de mida n = 30 s’ha obtingut X = 750. Com que
X − 800 750 − 800
Z= √ = √ = −2.2 < −1.65
120/ n 120/ 30
obtenim un valor de l’estadístic de prova que cau dintre de la regió de rebuig. En conseqüència no
creiem que la vida dels components sigui de com a mínim 800 hores. Rebutgem H0 i acceptem
H1 . Per construcció del test, la probabilitat que la decisió presa sigui errònia, perquè s’hagi
rebutjat H0 sent certa, és com a màxim només del 5%.
Figura 9.9 Regió crítica en base a X per al contrast H0 : µ ≥ 800 H1 : µ < 800 amb σ
coneguda
el gràfic de la qual és a Fig. 9.10, on veiem que per exemple quan el valor real de µ és 790 es
té π(790) = 0.11, la qual cosa vol dir que el test és molt poc sensible a desviacions de µ = 800
fins a µ = 790. En canvi, és molt sensible a desviacions de µ = 800 fins a µ = 730, ja que la
probabilitat de rebutjar H0 quan µ = 730 és aproximadament del 93%.
Figura 9.10 Gràfic de la funció de potència del contrast H0 : µ ≥ 800 H1 : µ < 800
Comentari: Suposem que en aquest mateix exemple hi ha motius suficients per pensar que la
mitjana teòrica µ és de com a molt 800 hores. En altres paraules, tenim la informació addicional
que µ ≤ 800. En aquest cas, el fabricant està assegurant que la mitjana teòrica arriba al seu
valor màxim possible, que és de 800 hores, i les hipòtesis a contrastar són
ja que µ ≥ 800 equival µ = 800. Per dur a terme aquest contrast es procedeix igual que abans.
És a dir, es considera l’estadístic de prova
X − 800
√
120/ n
i es rebutja H0 quan
X − 800
√ <c
120/ n
per a un cert nombre real c. El risc de primera espècie és
µ ¯ ¶
X − 800 ¯
P ( rebutjar H0 | H0 certa) = P √ <c ¯ µ = 800 = φ(c)
120/ n ¯
i si volem que el risc de primera espècie sigui igual a un nivell de significació α, només cal
determinar el valor c que fa φ (c) = α. És a dir, c = zα = −z1−α . Així, la regió de rebuig per a
X−800
l’estadístic de prova 120/√ és
n
(−∞, zα )
que és la mateixa que havíem obtingut abans per contrastar H0 : µ ≥ 800 contra H1 : µ < 800.
9 Contrasts d’hipòtesis paramètrics 261
de manera que si volem que el risc de primera sigui igual a α serà suficient imposar que F (c) = α.
És a dir,
c = tn−1,α
és en aquest cas
(−∞, tn−1,α )
tal com es mostra a Fig. 9.11.
Figura 9.12 Regió crítica per al contrast unilateral de µ amb σ desconeguda i α = 0.05
Si en el cas de la vida mitjana dels components s’ha obtingut, per exemple, X = 750 i S̃ = 117.45
amb una mostra de mida 30, aleshores el valor de t és
750 − 800 √
t= 30 = −2.33
117.45
9 Contrasts d’hipòtesis paramètrics 263
amb la qual cosa es rebutjarà H0 . Recordem que el p-value indica la probabilitat que, al prendre
una mostra de X, el valor de l’estadístic de prova prengui un valor més extrem que el valor
obtingut, quan la hipòtesi nul·la és certa. Per a t = −2.33 el p-value és 0.0135, que és inferior a
α = 0.05 com es veu a la figura 9.13, i per tant rebutgem H0 per a α = 0.05.
Comentari: Suposem que en aquest mateix exemple tenim la informació addicional que µ ≤ 800
(vegeu també el comentari de la pàgina 260). Aleshores en aquest cas les hipòtesis a contrastar
són
H0 : µ = 800 H1 : µ < 800
i es rebutja H0 quan
X − 800 √
n<c
S̃
on c és un nombre que es determina imposant que el risc de primera sigui igual al nivell de
significació α. El risc de primera espècie és
µ ¯ ¶
X − 800 √ ¯
P ( rebutjar H0 | H0 certa) = P n<c ¯ µ = 800 = F (c)
S̃ ¯
on F és la funció de distribució d’una t de Student amb n − 1 graus de llibertat. Per tant, per
tenir un risc de primera espècie igual a α només cal imposar que F (c) = α, és a dir c = tn−1,α .
Per tant, la regió crítica per a l’estadístic de prova
X − 800 √
t= n
S̃
és la regió
(−∞, tn−1,α )
que coincideix amb la que havíem obtingut al contrastar les hipòtesis
Un altre exemple: El rendiment, X, d’un procés és una variable normal. Després d’haver fet
unes millores en el procés es vol comprovar que aquestes han tingut èxit i que el rendiment del
procés ha millorat. Es vol provar que el rendiment, en mitjana, és superior a 90 i per fer-ho es
planteja el contrast
H0 : µ ≤ 90 H1 : µ > 90
X − 90 √ X − 90 √
n= 15
S̃ S̃
Si el contrast es vol dur a terme amb un risc de primera espècie α, llavors, seguint un raonament
semblant al de la durada mitjana dels components, s’obté que la regió de rebuig per a l’estadístic
√
de prova X−90
S̃
15 és
(tn−1,1−α , +∞) = (t14,1−α , +∞)
Suposem, per exemple, que després de prendre una mostra de mida n = 15 s’obté X =
91.841 i S̃ = 2.16. Llavors
X − 90 √
15 = 3.3
S̃
amb un p-value de 0.0026. Es rebutjarà H0 ja que α = 0.05 > 0.0026 (vegeu Fig. 9.15) i es
considerarà que el rendiment, en promig, supera 90.
Exercici: Suposeu que en aquest exemple se sap que µ ≥ 90. Demostreu que al contrastar les
hipòtesis
H0 : µ = 90 H1 : µ > 90
utilitzant mostres de mida n = 15 s’obté la mateixa regla de decisió que amb les hipòtesis
√
H0 : µ ≤ 90, H1 : µ > 90. És a dir, la regió de rebuig per a l’estadístic de prova X−90
S̃
15 és
Igual que en el cas bilateral, per construir el contrast sobre la variància utilitzarem el fet que
l’estadístic
(n − 1) S̃ 2
σ2
segueix una distribució khi-quadrat amb n − 1 graus de llibertat quan la variància de X és
realment σ 2 .
H0 : σ 2 ≤ 2 H1 : σ 2 > 2
266 Elements d’estadística
a partir d’una mostra de mida n i amb un nivel de significació α, aleshores rebutjarem H0 quan
S̃ 2 superi excessivament 2, és a dir quan
(n − 1)S̃ 2
>c
2
per a un cert c.
Després d’imposar que el risc de primera espècie sigui igual al nivell de significació α, s’obté que
c = χ2n−1,1−α i la regla de decisió serà rebutjar H0 quan
(n − 1) S̃ 2
> χ2n−1,1−α
2
per a la qual la regió de rebuig és
¡ 2 ¢
χn−1,1−α , +∞
Aquesta regió està representada a Fig. 9.16.
Amb aquesta regla, el nivell de significació acota el risc de primera espècie essent α(2) = α i
α(σ 2 ) ≤ α per a σ 2 < 2. En efecte, per construcció de la regla de decisió és
à ¯ !
¡ ¢ (n − 1)S̃ 2 ¯
¯
α(2) = P rebutjar H0 | σ 2 = 2 = P > χ2n−1,1−α ¯ σ 2 = 2
2 ¯
à ¯ !
(n − 1)S̃ 2 ¯
¯
=1−P ≤ χ2n−1,1−α ¯ σ 2 = 2 = 1 − (1 − α) = α
2 ¯
ja que quan σ 2 = 2 és
(n − 1) S̃ 2
∼ χ2n−1
2
9 Contrasts d’hipòtesis paramètrics 267
Si σ 2 < 2 aleshores
à ¯ ! à ¯ !
(n − 1)S̃ 2 ¯ (n − 1)S̃ 2 σ 2 ¯
2 ¯ 2 ¯ 2
α(σ ) = P > χ2n−1,1−α
¯ σ =P > χ2n−1,1−α ¯ σ
2 ¯ σ2 2 ¯
à ¯ ! à ¯ !
(n − 1)S̃ 2 2 2 ¯ (n − 1)S̃ 2 ¯
¯ 2 ¯ 2
=P > χn−1,1−α ¯ σ ≤ P > χ2n−1,1−α ¯ σ
σ2 σ2 ¯ σ2 ¯
à ¯ !
(n − 1)S̃ 2 ¯
¯
=1−P ≤ χ2n−1,1−α ¯ σ 2 = 1 − (1 − α) = α
σ2 ¯
De manera semblant, per al contrast H0 : σ 2 ≥ a contra H1 : σ 2 < a, amb una mostra de mida
n i un nivell de significació α fixat tal que
α ≥ P ( rebutjar H0 | H0 certa)
l’estadístic de prova és
(n − 1) S̃ 2
a
La discrepància amb σ 2 ≥ a, en favor de σ 2 < a, es concreta ara amb valors prou petits de S̃ 2
i, per tant, en valors prou petits de (n − 1) S̃ 2 /a. Llavors, la regió de rebuig és
¡ ¢
0, χ2n−1,α
H0 : σ 2 = 2 H1 : σ 2 > 2
(n − 1)S̃ 2
>c
2
Això és la mateixa regla de decisió que havíem obtingut al contrastar les hipòtesis H0 : σ 2 ≤ 2
contra H1 : σ 2 > 2.
En el que segueix suposarem que les variables X1 i X2 són normals independents, X1 ∼ N (µ1 , σ 21 )
i X2 ∼ N (µ2 , σ 22 ), de les quals s’obtenen mostres de mides n1 i n2 respectivament.
σ 21 σ 21
H0 : =1 H1 : 6= 1
σ 22 σ 22
9 Contrasts d’hipòtesis paramètrics 269
σ 21 σ 21
H0 : ≤1 H1 : >1
σ 22 σ 22
i
σ 21 σ 21
H0 : ≥1 H1 : <1
σ 22 σ 22
Observem que la hipòtesi nul·la dels contrasts unilaterals es pot escriure en la forma H0 : σ 21 ≤ σ 21
per al primer contrast, i H0 : σ 21 ≥ σ 21 per al segon.
S̃12
S̃22
que, quan σ 21 /σ 22 = 1, segueix una distribució de Fisher Fn1 −1,n2 −1 , ja que en general
à !, à !
S̃12 S̃22
∼ Fn1 −1,n2 −1
σ 21 σ 22
Les regions de rebuig, per als diferents contrasts i per un nivell de significació α, són les següents:
a) Per a
σ 21 σ 21
H0 : =1 H1 : 6= 1
σ 22 σ 22
la regió de rebuig de H0 és
³ ´ ³ ´
0, fn1 −1,n2 −1, α2 ∪ fn1 −1,n2 −1,1− α2 , +∞
(vegeu Fig. 9.18) ja que quan H0 és falsa, és a dir quan σ 21 /σ 22 6= 1, això es reflectirà en
valors de S̃12 /S̃22 prou petits o prou grans. El risc de primera espècie d’aquest contrast és
à ¯ !
S̃12 S̃12 ¯ σ2
¯ 1
P ( rebutjar H0 | H0 certa) = P < fn1 −1,n2 −1, α2 o 2 > fn1 −1,n2 −1,1− α2 ¯ 2 = 1
S̃22 S̃2 ¯ σ2
à ¯ !
S̃12 ¯ σ2
¯ 1
= 1 − P fn1 −1,n2 −1, α2 < 2 < fn1 −1,n2 −1,1− α2 ¯ 2 = 1
S̃2 ¯ σ2
³³ α ´ α ´
= 1− 1− −
2 2
= α
270 Elements d’estadística
Figura 9.18 Regió de rebuig per al contrast bilateral sobre les variàncies de dues variables
normals independents
b) Per a
σ 21 σ 21
H0 : ≤1 H1 : >1
σ 22 σ 22
la regió de rebuig de H0 és
(fn1 −1,n2 −1,1−α , +∞)
Aquesta regió de rebuig, representada a la figura 9.19, s’obté tenint en compte que quan
σ 21 /σ 22 > 1 (és a dir quan H0 és falsa), això es reflectirà en valors prou grans de l’estadístic
de prova S̃12 /S̃22 . Per tant, la regió de rebuig es considera de la forma
(c, +∞)
on c és un nombre que determinarem imposant que el risc de primera espècie sigui igual
al nivell de significació α. Quan σ 21 /σ 22 = 1 el risc de primera espècie és
¡ ¢ ³ ¯ ´
¯
α(1) = P rebutjar H0 | σ 21 /σ 22 = 1 = P S̃12 /S̃22 > c ¯ σ 21 /σ 22 = 1
³ ¯ ´
¯
= 1 − P S̃12 /S̃22 ≤ c ¯ σ 21 /σ 22 = 1 = 1 − F (c)
on F és la funció de distribució d’una distribució de Fisher Fn1 −1,n2 −1 . A més a més, quan
σ 21 /σ 22 < 1 el risc de primera espècie és més petit que 1 − F (c), ja que quan σ 21 /σ 22 < 1 el
risc de primera espècie és
à ¯ !
¡ 2 2¢ ¡ ¢ S̃12 ¯ σ2
2 2 ¯ 1
α σ 1 /σ 2 = P rebutjar H0 | σ 1 /σ 2 < 1 = P >c¯ 2 <1
S̃22 ¯ σ2
Ara bé,
S̃12 S̃12 σ 22 σ 21
< quan <1
S̃22 S̃22 σ 21 σ 22
9 Contrasts d’hipòtesis paramètrics 271
i per tant
à ¯ ! à ¯ ! à ¯ !
S̃12 ¯ σ2 S̃12 σ 22 ¯ σ2 S̃12 σ 22 ¯ σ2
¯ 1 ¯ 1 ¯ 1
P >c ¯ 2 <1 ≤ P > c ¯ 2 <1 =1−P ≤ c¯ 2 <1
S̃22 ¯ σ2 S̃22 σ 21 ¯ σ2 S̃22 σ 21 ¯ σ2
= 1 − F (c)
S̃12 σ 22
ja que S̃22 σ 1
2 ∼ Fn1 −1,n2 −1 . En conseqüència
¡ 2 2¢
max
2 2
α σ 1 /σ 2 = α (1) = 1 − F (c)
σ1 /σ 2 ≤1
i si volem un risc de primera espècie igual a un nivell de significació α, només cal aïllar c
de l’equació
1 − F (c) = α
que equival a F (c) = 1 − α, d’on
Figura 9.19 Regió de rebuig per al contrast unilateral sobre les variàncies de dues variables
normals independents
c) Per a
σ 21 σ 21
H0 : ≥1 H1 : <1
σ 22 σ 22
272 Elements d’estadística
la regió de rebuig de H0 és
(0, fn1 −1,n2 −1,α )
(vegeu Fig 9.20). Aquesta expressió de la regió de rebuig es dedueix de manera anàloga al
cas anterior. Observem que ara, però, el fet que σ 21 /σ 22 < 1 es detectarà amb un valor de
S̃12 /S̃22 prou petit.
Figura 9.20 Regió de rebuig per al contrast unilateral sobre les variàncies de dues variables
normals independents
La decisió, a la pràctica, es pren en termes del valor de S̃12 /(aS̃22 ) obtingut a partir de dues mostres
aleatòries independents de X1 i X2 . Si aquest valor cau a la regió de rebuig, es rebutjarà H0 , i
en cas contrari s’acceptarà.
H0 : µ1 − µ2 = 0 H1 : µ1 − µ2 6= 0
H0 : µ1 − µ2 ≤ 0 H1 : µ1 − µ2 > 0
i
H0 : µ1 − µ2 ≥ 0 H1 : µ1 − µ2 < 0
Tenint en compte que X 1 − X 2 és l’estimador de µ1 − µ2 , les regions de rebuig són les següents:
a) Per a
H0 : µ1 − µ2 = 0 H1 : µ1 − µ2 6= 0
la regió de rebuig de H0 és
³ ´ ³ ´
−∞, −tn1 +n2 −2,1− α2 ∪ tn1 +n2 −2,1− α2 , +∞
Figura 9.21 Regió crítica per a la comparació de mitjanes amb alternativa bilateral
b) Per a
H0 : µ1 − µ2 ≤ 0 H1 : µ1 − µ2 > 0
la regió de rebuig de H0 és
(tn1 +n2 −2,1−α , +∞)
Figura 9.22 Regió crítica per a la comparació de mitjanes amb alternativa unilateral
c) Per a
H0 : µ1 − µ2 ≥ 0 H1 : µ1 − µ2 < 0
9 Contrasts d’hipòtesis paramètrics 275
Figura 9.23 Regió crítica per a la comparació de mitjanes amb alternativa unilateral
Observació: De forma semblant a com passava amb els contrasts de comparació de variàncies,
l’estadístic de prova
H0 : µ1 − µ2 = a H1 : µ1 − µ2 6= a
H0 : µ1 − µ2 ≤ a H1 : µ1 − µ2 > a i H0 : µ1 − µ2 ≥ a H1 : µ1 − µ2 < a
H0 : µ1 − µ2 ≤ a H1 : µ1 − µ2 > a
X1 − X2 − a
q > tn1 +n2 −2,1−α
S̃p n11 + n12
2
Observem que la regió de rebuig és (−∞, tn1 +n2 −2,α ) ja que a causa de la simetria de la funció de densitat
de la t de Student es verifica que −tn1 +n2 −2,1−α = tn1 +n2 −2,α .
276 Elements d’estadística
llavors el risc de primera espècie verifica que α(a) = α i α(µ1 − µ2 ) ≤ α quan µ1 − µ2 < a, ja
que
¯
¯
X1 − X2 − a ¯
α(a) = P ( rebutjar H0 | µ1 − µ2 = a) = P q > tn1 +n2 −2,1−α ¯¯ µ1 − µ2 = a = α
S̃p n11 + n12 ¯
i per a µ1 − µ2 < a,
¯
¯
X1 − X2 − a ¯
α(µ1 − µ2 ) = P q > tn1 +n2 −2,1−α ¯ µ1 − µ2 < a
¯
S̃p n11 + n12 ¯
¯
¯
X 1 − X 2 − (µ1 − µ2 ) a − (µ1 − µ2 ) ¯
=P q − q > tn1 +n2 −2,1−α ¯¯ µ1 − µ2 < a
S̃p n11 + n12 S̃p n11 + n12 ¯
¯
¯
X 1 − X 2 − (µ1 − µ2 ) a − (µ1 − µ2 ) ¯ ¯
=P q > tn1 +n2 −2,1−α + q µ1 − µ2 < a
1 1 1 1 ¯¯
S̃p n1 + n2 S̃p n1 + n2
¯
¯
X 1 − X 2 − (µ1 − µ2 ) ¯
≤P q > tn1 +n2 −2,1−α ¯¯ µ1 − µ2 < a
S̃p n11 + n12 ¯
=α
X − X2
q1
S̃12 S̃22
n1 + n2
que quan µ1 −µ2 = 0 no es distribueix exactament com una t de Student però sí aproximadament.
Això és,
X − X2
q1 ' tk
S̃12 S̃22
n1 + n2
on k és l’enter més pròxim a
(S̃12 /n1 + S̃22 /n2 )2
v= −2
(S̃12 /n1 )2 (S̃22 /n2 )2
n1 +1 + n2 +1
Les regions de rebuig per a les diferents alternatives són en aquest cas:
a) Per a
H0 : µ1 − µ2 = 0 H1 : µ1 − µ2 6= 0
³ ´ ³ ´
la regió de rebuig de H0 és −∞, −tk,1− α2 ∪ tk,1− α2 , +∞ .
9 Contrasts d’hipòtesis paramètrics 277
b) Per a
H0 : µ1 − µ2 ≤ 0 H1 : µ1 − µ2 > 0
la regió de rebuig de H0 és (tk,1−α , +∞).
c) Per a
H0 : µ1 − µ2 ≥ 0 H1 : µ1 − µ2 < 0
la regió de rebuig de H0 és (−∞, −tk,1−α ).
De manera similar, quan no es pot suposar igualtat de variàncies i es consideren les hipòtesis
H0 : µ1 − µ2 = a H1 : µ1 − µ2 6= a
o qualsevol de les seves versions unilaterals, les regions de rebuig de H0 s’obtenen considerant
l’estadístic de prova
X1 − X2 − a
q
S̃12 S̃22
n1 + n2
Comentari: Tots els raonaments que hem vist en aquest apartat són també aplicables en el
cas que la hipòtesi nul·la es considera simple, H0 : µ1 − µ2 = a.
Suposem que es vol contrastar l’efecte d’un determinat medicament en el control de la tensió
arterial. Per fer-ho, s’agafen 10 individus i se’ls mesura la tensió, variable X1 , abans de prendre
el medicament i se’ls torna a mesurar la tensió, variable X2 , després de prendre el medicament.
Aquí es tenen dues variables, X1 i X2 , d’esperançes µ1 i µ2 respectivament, i que en principi es
pot suposar que són normals. Es vol contrastar
H0 : µ1 = µ2 H1 : µ1 > µ2
Per contrastar aquestes hipòtesis no són aplicables els resultats vistos pel contrast d’igualtat de
mitjanes, ja que aquí les variables X1 i X2 no són independents a l’haver estat mesurades sobre
el mateix individu. Les observacions estan aparellades.
D = X1 − X2
278 Elements d’estadística
H0 : µD = 0 H1 : µD > 0
que és precisament l’objectiu, mitjançant l’estadístic de prova que proporciona el fet que
D − µD √
t= n ∼ tn−1
S̃D
D√
t= n ∼ tn−1
S̃D
D √
i es rebutjarà H0 , amb un risc de primera espècie α, quan t = S̃D
n > tn−1,1−α . És a dir, la
regió de rebuig serà en aquest cas concret3
(tn−1,1−α , +∞)
H0 : µ1 − µ2 = a H1 : µ1 − µ2 6= a
i a qualsevol de les seves versions unilaterals. En aquests casos es considera l’estadístic de prova
D − a√
t= n
S̃D
que quan µ1 − µ2 = a segueix una distribució t de Student amb n − 1 graus de llibertat.
A la Secció 4.12 hem vist que quan un vector (X, Y ) és normal bivariant, les variables X i Y
són independents si i només si el seu coeficient de correlació és zero, ρXY = 0. En aquestes
3
Observem que la regió de rebuig obtinguda depèn de H1 , que en aquest cas concret és µD > 0. En els casos
en què H1 sigui µD 6= 0 o µD < 0 les regions crítiques es calculen de forma anàloga a com hem fet fins ara.
9 Contrasts d’hipòtesis paramètrics 279
circumstàncies, per contrastar la independència de les dues variables només cal contrastar la
nul·litat de ρXY .
H0 : ρXY = 0 H1 : ρXY 6= 0
que quan ρXY = 0 segueix una distribució t de Student amb n − 2 graus de llibertat.
Si H0 no és certa i ρXY 6= 0, llavors |RXY | serà prou gran com per donar a |t| un valor gran. Si
el nivell de significació és α, rebutjarem H0 quan
¯ ¯
¯ ¯
¯√ R XY ¯
¯ n − 2q ¯ > tn−2,1− α
¯ ¯ 2
¯ 2 ¯
1 − RXY
Exemple: Suposem que α = 0.05. Per a una mostra de mida n = 28 del vector normal bivariant
(X, Y ) s’ha obtingut RXY = 0.41. El valor de l’estadístic de prova és
√ RXY √ 0.41
t= n − 2q = 28 − 2 √ = 2.51
2
1 − RXY 1 − 0.412
H0 : p = p0 H1 : p 6= p0
Recordem que l’estimador pb de p obtingut a partir d’una mostra de mida n verifica que
pb − p
q ' N (0, 1)
p(1−p)
n
per a n gran.
280 Elements d’estadística
Exemple: Es pren una moneda i es vol decidir si es pot considerar que és equilibrada a partir
de la informació obtinguda al realitzar 100 tirades a cara o creu. Dir que la moneda sigui
equilibrada equival a dir que la probabilitat d’obtenir cara en una tirada és igual a la d’obtenir
creu, o que ambdues són iguals a p = 0.5.
H0 : p = 0.5 H1 : p 6= 0.5
pb − 0.5 pb − 0.5
q = ' N (0, 1)
0.5(1−0.5) 0.05
100
Es rebutjarà H0 quan en 100 tirades, la proporció, pb, de cares estigui prou lluny de 0.5. Això
equival a rebutjar H0 quan
¯ ¯
¯ pb − 0.5 ¯
¯ ¯
¯ 0.05 ¯ > c
El grau de petitesa es determina fixant el risc de cometre un error de tipus I, és a dir, fixant
α = P ( rebutjar H0 | H0 certa)
pb−0.5
Es rebutjarà H0 quan 0.05 prengui un valor fora de l’interval
El gràfic de la figura 9.24 mostra la regió de rebuig de H0 per a un risc de primera espècie α
qualsevol.
9 Contrasts d’hipòtesis paramètrics 281
pb−0.5 0.39−0.5
Si es realitza l’experiment i s’obtenen 39 cares i 61 creus, el valor de 0.05 és 0.05 = −2.2.
Amb α = 0.05 es rebutja H0 i acceptem que p 6= 0.5.
Els raonaments que acabem d’exposar també són aplicables als contrasts unilaterals
H0 : p ≤ p0 H1 : p > p0 i H0 : p ≥ p0 H1 : p < p0
Aquest estadístic és el nombre total d’uns (èxits) que s’han obtingut en la mostra X1 , . . . , Xn
de X. Quan p = p0 segueix una distribució binomial B(n, p0 ).
Per exemple, considerem l’exemple de la moneda on es vol decidir si es pot considerar equilibrada.
Sigui X la variable que val 1 si surt cara i 0 si surt creu i sigui p = P (X = 1) = P (cara). Llavors,
les hipòtesis a contrastar són
H0 : p = 0.5 H1 : p 6= 0.5
282 Elements d’estadística
Imposant que
α
P ( S < a | p = 0.5) ≤
2
i
α
P ( S > b | p = 0.5) ≤
2
aleshores ja ens assegurem que el risc de primera espècie no superarà α. Aquestes condicions
són les que permeten trobar a i b. Per exemple, suposem que α = 0.05. Aleshores,
α
P ( S < 3 | p = 0.5) = 0.0193 ≤ = 0.025
2
α
P ( S < 4 | p = 0.5) = 0.0730 > = 0.025
2
per tant prendrem a = 3. D’altra banda és
α
P ( S > 9 | p = 0.5) = 0.0193 ≤ = 0.025
2
α
P ( S > 8 | p = 0.5) = 0.0730 > = 0.025
2
i prendrem b = 9. En conseqüència, la regió de rebuig de H0 vindrà determinada per la condició
S<3 o S>9
H0 : p1 − p2 = 0 H1 : p1 − p2 6= 0
9 Contrasts d’hipòtesis paramètrics 283
segueix de manera aproximada una distribució N (0, 1) per a n1 i n2 prou grans. Sigui p = p1 = p2
quan H0 és certa. Aleshores aquest estadístic s’escriu en la forma
pb1 − pb2 pb1 − pb2
q =p q
p(1−p) p(1−p)
n1 + n2
p(1 − p) n11 + 1
n2
és aproximadament N (0, 1) per a n1 i n2 prou grans. Aquest estadístic és el que es fa servir com
a estadístic de prova pel contrast d’igualtat de proporcions. També es fa servir per a qualsevol
dels contrasts unilaterals
H0 : p1 − p2 ≤ 0 H1 : p1 − p2 > 0 i H0 : p1 − p2 ≥ 0 H1 : p1 − p2 < 0
H0 : p1 − p2 = 0 H1 : p1 − p2 > 0 i H0 : p1 − p2 = 0 H1 : p1 − p2 < 0
Exemple: S’han realitzat alguns canvis en un procés de producció amb l’objectiu que el per-
centatge d’articles defectuosos disminueixi. Es vol trobar evidència que la proporció d’articles
defectuosos realment ha disminuït, i per això es plantegen les hipòtesis
H0 : p1 − p2 = 0 H1 : p1 − p2 > 0
Per exemple, suposem que abans de realitzar els canvis en el procés de producció s’havia agafat
una mostra de 500 articles, 48 dels quals van resultar ser defectuosos, i un cop realitzats els canvis
48
en una mostra de 350 articles n’hi havia 21 de defectuosos. En aquest cas és pb1 = 500 = 0.096,
21 48+21
pb2 = 350 = 0.060 i pb = 500+350 = 0.081. El valor de l’estadístic de prova és
0.096 − 0.060
p q = 1.89
1 1
0.081(1 − 0.081) 500 + 350
i per tant en aquest cas es rebutja H0 i s’accepta que la proporció d’articles defectuosos ha
disminuït amb un nivell de significació de α = 0.10.
H0 : λ = λ0 H1 : λ 6= λ0
Per contrastar aquestes hipòtesis a partir d’una mostra de mida n de X es fa servir l’estadístic
de prova
X − λ0
Z=p
λ0 /n
que, quan λ = λ0 , segueix aproximadament una distribució N (0, 1) per a n gran. El mateix
estadístic de prova es fa servir per a qualsevol dels contrasts unilaterals
H0 : λ ≤ λ0 H1 : λ > λ0 i H0 : λ ≥ λ0 H1 : λ < λ0
9 Contrasts d’hipòtesis paramètrics 285
o
H0 : λ = λ0 H1 : λ > λ0 i H0 : λ = λ0 H1 : λ < λ0
La regió de rebuig per a l’estadístic de prova es troba de manera anàloga a tots els contrasts
que hem fet fins ara.
Observació: Igual que en el cas d’una proporció, quan la mida de la mostra és petita aleshores
es fa servir l’estadístic de prova
Xn
S = nX = Xi
i=1
que quan λ = λ0 segueix una distribució de Poisson P(nλ0 ).
H0 : θ = θ0 H1 : θ 6= θ0
Per contrastar aquestes hipòtesis a partir d’una mostra de mida n de X es pot fer servir l’es-
tadístic de prova
X n
2θ0 Xi = 2θ0 nX
i=1
que, quan θ = θ0 , segueix una distribució khi-quadrat amb 2n graus de llibertat. La regió de
rebuig per a l’estadístic de prova es troba de manera anàloga a tots els contrasts que hem vist
fins ara. El mateix estadístic de prova es fa servir per a qualsevol dels contrasts unilaterals
H0 : θ ≤ θ0 H1 : θ > θ0 i H0 : θ ≥ θ0 H1 : θ < θ0
o
H0 : θ = θ0 H1 : θ > θ0 i H0 : θ = θ0 H1 : θ < θ0
H0 : µ1 − µ2 = 0 H1 : µ1 − µ2 6= 0
286 Elements d’estadística
i per
σ 21 σ 21
H0 : =1 H1 : 6= 1
σ 22 σ 22
A l’exemple utilitzat a la Secció 9.3.1 (veure pàgina 256) per il·lustrar el procediment per con-
struir el contrast unilateral sobre la mitjana teòrica µ quan σ 2 és coneguda, hem vist que amb
n = 30 i per a un nivell de significació de α = 0.05, la decisió presa en base a la regió de re-
buig (−∞, 763.85] per a l’estadístic X és equivalent a la decisió presa amb la regió (−∞, −1.65]
X−800
per a l’estadístic 120/√ . De fet, el que es determina tant en un cas com a l’altre, donat que
30
X−800
√
120/ 30
≥ −1.65 ⇐⇒ X ≥ 763.85, és una mateixa partició de l’espai de mostres S, que per a
n = 30 és un subconjunt de R30 . La partició obtinguda és
S = S0 ∪ S1
amb ( )
30
1 X
S0 = (x1 , . . . , x30 ) ∈ S | xi ≥ 763.85 i S1 = S − S0
30
i=1
Llavors es pot veure el problema de la decisió sobre H0 formalment en termes de definir una
partició S = S0 ∪ S1 i acceptar H0 si al realitzar una mostra és (x1 , . . . , x30 ) ∈ S0 , i rebutjar en
cas que (x1 , . . . , x30 ) ∈ S1 .
Essencialment, des d’un punt de vista formal, un contrast d’hipòtesis paramètric es planteja en
termes d’un model probabilístic definit per una variable X amb una distribució de probabilitat
que depèn del paràmetre θ. Aquest paràmetre és a un cert espai de paràmetres, que denotarem
Θ, i en el que es considera una partició Θ = Θ0 ∪ Θ1 que defineix les hipòtesis nul·la i alternativa
H0 : θ ∈ Θ0 H1 : θ ∈ Θ1
El contrast consisteix en l’elecció d’una regla de decisió per acceptar o rebutjar H0 , que equival a
una partició S = S0 ∪S1 de l’espai S ⊆ Rn de mostres de mida n, de manera que es rebutjarà H0
si al realitzar una mostra X1 = x1 , . . . , Xn = xn resulta (x1 , . . . , xn ) ∈ S1 . En aquest context,
S1 és la regió crítica (de rebuig de H0 ).
El màxim risc de primera espècie d’un contrast es diu que és la mida del contrast:
α0 = sup π(θ)
θ∈Θ0
H0 : θ ∈ Θ0 H1 : θ ∈ Θ1
L(Θ0 )
λ=
L(Θ)
amb
L(Θ0 ) = sup L(x1 , . . . , xn ; θ)
θ∈Θ0
i
L(Θ) = sup L(x1 , . . . , xn ; θ)
θ∈Θ
on c és un nombre real entre 0 i 1 que es determina imposant que el risc de primera espècie no
superi el nivell de significació α:
P ( λ < c | θ ∈ Θ0 ) ≤ α
4
Si A és un conjunt de nombres reals, el suprem de A, denotat sup A, és el nombre c més petit possible que
verifica x ≤ c per tot x ∈ A. Per exemple, sup[0, 1] = sup(0, 1) = 1. En general, el suprem d’un interval obert,
tancat o semiobert, d’extrems a i b amb a < b, és igual a b, l’extrem superior de l’interval.
Si A té un element màxim aleshores el suprem de A és igual al seu màxim.
288 Elements d’estadística
(−∞, c)
El valor de c l’hem determinat imposant que el risc de primera espècie no superi un cert nivell
de significació α, i hem obtingut que c = tn−1,α .
de µ i σ 2 respectivament. És a dir µ
b=xiσ c2 = s2 = 1 Pn (xi − x)2 . Per tant
n i=1
Ara hem de trobar el màxim de la funció de versemblança a Θ0 . Observem primer que quan
x ≥ 800 aleshores
³ el punt
´ on s’assoleix el màxim de la funció de versemblança a Θ0 és el mateix
punt que abans µ c2 = (x, s2 ) obtingut a partir dels estimadors màxim versemblants, ja que
b, σ
aquest punt pertany a Θ0 al ser x ≥ 800. Per tant quan x ≥ 800 és
¡ ¢−n/2 − n
L (Θ0 ) = L (Θ) = 2πs2 e 2
9 Contrasts d’hipòtesis paramètrics 289
i la raó de versemblança és λ = 1.
Suposem ara que x < 800 i anem a trobar el màxim de la funció de versemblança a Θ0 . Això
equival a maximitzar el logaritme de la funció de versemblança
n
2 n 2 1 X
log L(x1 , . . . , xn ; µ, σ ) = − log(2πσ ) − 2 (xi − µ)2
2 2σ
i=1
Sigui
n
1X
h(µ) = (xi − µ)2
n
i=1
D’aquí s’obté que el mínim de h(µ) per a µ ≥ 800 s’assoleix en el punt µ = 800 i per tant
µ0 = 800
P P
5
h(µ) = n1 n 2
i=1 (xi − µ) P= n1 ni=1 (xi − x + x − µ)2 . Desenvolupant el quadrat de dintre el sumatori s’obté
P Pn P
h(µ) = n i=1 (xi − x) + n i=1 (x − µ) + n i=1 (xi − x) (x − µ) = s2 + (x − µ)2 + n2 (x − µ) n
1 n 2 1 n 2 2
i=1 (xi − x).
Pn
Finalment, tenint en compte que i=1 (xi − x) = nx − nx = 0 es dedueix que h(µ) = s2 + (x − µ0 )2 .
290 Elements d’estadística
h(800) = s2 + (x − 800)2
de manera que
µ ¶−n/2 µ ¶−n/2 Ã µ ¶ !−n/2
(x − 800)2 1 (x − 800)2 1 x − 800 √ 2
λ= 1+ = 1+ = 1+ n
s2 n − 1 s̃2 /n n−1 s̃
o equivalentment
µ ¶−n/2
1 2
λ= 1+ t (9.2)
n−1
amb
x − 800 √
t= n
s̃
Definint sµ ¶
1
k=− − 1 (n − 1)
c2/n
aleshores la regió de rebuig és de la forma
x − 800 √
t= n<k
s̃
Dit d’una altra manera, el contrast de la raó de versemblança estableix una regió de rebuig de
H0 del tipus
(−∞, k)
per a l’estadístic de prova
X − 800 √
t= n
S̃
Aquest és el mateix estadístic de prova que havíem considerat a la Secció 9.3.2, a l’igual que la
regió de rebuig (−∞, k), només que allà a la constant k li dèiem c.
Exactament igual com hem fet a la Secció 9.3.2, imposant que el risc de primera espècie no
superi un nivell de significació α acabarem obtenint que k = tn−1,α i que per tant la regió de
√
rebuig per a l’estadístic de prova t = X−800
S̃
n és
(−∞, tn−1,α )
9.12 Exercicis
Problema 9.1 La tensió de ruptura, X, d’una determinada fibra és una variable que es pot
suposar normal. Es duu a terme un experiment en què s’observen les tensions de ruptura de
vint fils seleccionats aleatòriament. Les tensions són
19.7, 18.8, 20.1, 21.1, 20.2, 22.2, 18.9, 20.7, 22.1, 20.1, 20.7, 21.6, 18.7, 18.8, 21.2,
21.7, 19.9, 18.7, 23.1, 20.5
292 Elements d’estadística
Problema 9.2 Una màquina està ajustada de manera que la quantitat de líquid que expulsa es
distribueix aproximadament segons una llei normal amb desviació típica igual a 0.15 decilitres.
Una mostra de 36 expulsions ha donat un promig de 2.25 decilitres. Contrasteu la hipòtesi
H0 : µ = 2.5 contra H1 : µ 6= 2.5 amb α = 0.05.
Problema 9.3 Un fabricant està investigant una nova fibra que té una elongació mitjana per
fil de 10.5 Kg amb una desviació típica de 0.72 Kg. Es vol contrastar les hipòtesis H0 : µ ≥ 10.5
contra H1 : µ < 10.5 fent servir una mostra aleatòria de nou observacions i la regió crítica
√
definida per Z = X−10.5
0.72 9 < −2.
√
a) Comproveu que la regió crítica definida per Z = X−10.5
0.72 9 < −2 és la regió definida per
X < 10.02. És a dir, es rebutja H0 si la mitjana mostral és més petita que 10.02.
Problema 9.4 El temps de reparació d’una font d’alimentació és una variable distribuïda
normalment amb µ = 3 hores i σ = 0.6 hores. Últimament s’han modificat alguns elements
d’aquest model de font amb la intenció de facilitar les reparacions i poder estalviar temps de
reparació.
a) Plantegeu el contrast d’hipòtesis que s’haurà de dur a terme per tal de verificar que les
modificacions realitzades han tingut èxit.
Problema 9.5 S’està desenvolupant una màquina per tallar automàticament barres d’acer. La
longitud de les barres és aproximadament normal. Es volen contrastar les hipòtesis H0 : µ ≤ 175
contra H1 : µ > 175 amb una mostra de mida n = 10.
9 Contrasts d’hipòtesis paramètrics 293
c) Quina regió crítica s’haurà d’agafar si es vol que el risc de primera espècie sigui 0.01?
Problema 9.6 S’han realitzat 20 proves per determinar els trencaments en una filatura amb
anells durant la producció d’un cert fil. Cada prova ha consistit en la observació d’un lateral
durant quatre hores i mitja. Els percentatges X de trencaments per 100 fusos per hora han estat
4.9, 5.2, 5.5, 6.4, 5.1, 5.4, 6.6, 6.2, 4.0, 4.4, 5.3, 5.6, 5.9, 4.9, 5.5, 5.8, 4.2, 4.2, 4.7, 4.2
Contrasteu la hipòtesi que el percentatge mitjà µ de trencaments no supera 4.5 amb un nivell
de significació de α = 0.05.
Problema 9.7 Un fabricant està interessat en el voltatge de sortida d’una font d’alimentació
d’una certa màquina. El voltatge de sortida és una variable aproximadament normal amb
desviació típica 0.28 V. El fabricant vol contrastar les hipòtesis H0 : µ = 7.2 contra H1 : µ 6= 7.2.
Per fer-ho es pren una mostra de mida n = 4 i s’agafa com a regió d’acceptació 7 ≤ X ≤ 7.40.
b) Calculeu la probabilitat de detectar que el voltatge promig no és 7.2 quan realment és 7.5.
c) Si el fabricant vol que el risc de primera espècie sigui 0.05, on s’ha de localitzar la regió
d’acceptació per a l’estadístic X?
d) Contesteu els dos primers apartats però suposant que la prova es fa amb mostres de mida
n = 12 i amb la mateixa regió d’acceptació.
Problema 9.8 Suposeu que en la situació de l’exercici anterior no es coneix la desviació típica.
Problema 9.9 El rendiment d’un procés químic és una variable X ∼ N (µ, σ 2 ). La mitjana
teòrica del rendiment no pot ser inferior al 90%, de manera que periòdicament es fan proves
de control. La propera prova es farà en base a una mostra de mida n = 5 per contrastar les
hipòtesis
H0 : µ ≥ 90 H1 : µ < 90
294 Elements d’estadística
Problema 9.11 Es vol contrastar la igualtat de les variàncies σ 21 i σ 22 per a dues poblacions
normals independents. Es planteja el contrast H0 : σ 21 = σ 22 contra H1 : σ 21 6= σ 22 i en base a
¡ ¢
dues mostres s’obté l’interval de confiança del 95% I0.95 σ 21 /σ 22 = (10.9, 18.5).
b) Abans de fer la prova, un dels tècnics encarregats de fer-la estava convençut que H0 era
certa o que en tot cas σ 21 no podia ser mai més gran que el doble de σ 22 . El resultat obtingut
confirma el que creu el tècnic o ho nega?
Problema 9.14 Per tal de decidir si una moneda és equilibrada es fa la prova de tirar-la 5 cops
i anotar els cinc resultats. Si el resultat és 3 cares i 2 creus o 2 cares i 3 creus la moneda es
classificarà com equilibrada i en cas de qualsevol altre resultat la moneda es classificarà com
desequilibrada.
Problema 9.15 Una empresa pot fer servir el tipus de vidre A o B per un procés d’envasat.
Tradicionalment es fa servir el tipus A, però donat que en aquest procés una variable important
és la resistència a la pressió, es decideix fer una prova per veure si es troba evidència estadística
que la resistència de B és superior a la de A. Es planteja el contrast d’hipòtesis H0 : µA −µB = 0
contra H1 : µA − µB < 0.
Si per dues mostres de 16 unitats de cada tipus de vidre la corba de potència és la de la figura 9.25,
quina és, aproximadament, la probabilitat de detectar amb aquest contrast que la resistència de
B és superior a la de A quan en realitat la de B és tres unitats superior a la de A?
Problema 9.16 Es fabrica un tipus de daus i el més important és que siguin equilibrats pel que
fa a obtenir, en tirar-los, un mateix nombre de resultats parells i imparells. Més concretament,
es tracta de fabricar daus amb probabilitat 0.5 d’obtenir un nombre parell en tirar-lo. Encara
que el procés de producció s’ha ajustat conforme a aquest objectiu, de tant en tant s’agafa un
dau i es duu a terme el contrast d’hipòtesis
H0 : p = 0.5 H1 : p 6= 0.5
amb p la probabilitat d’obtenir un número parell al tirar el dau. Per contrastar aquestes hipòtesis
es tira el dau deu cops de forma independent i s’apunta cada cop si el resultat ha estat parell o
no. La regla de decisió és: s’accepta H0 quan el nombre de resultats parells ha estat de 4, 5 o 6;
en cas contrari es rebutja H0 .
a) Calculeu la probabilitat de cometre, amb aquesta regla de decisió, un error de tipus I (risc
de primera espècie).
296 Elements d’estadística
Problema 9.17 Se sospita que la concentració de SO2 a la ciutat de Madrid és, en promig,
superior a la de Barcelona. Per això es planteja un contrast d’hipòtesis per comparar les mit-
janes de les dues concentracions i veure si efectivament hi ha prou motius per decidir que la
concentració de la ciutat de Madrid és més alta que la de Barcelona. Hi ha dues possibilitats:
que les variàncies de les concentracions de SO2 siguin iguals o que siguin diferents. En el primer
cas es realitza un test i en el segon se’n fa un altre, i per tant es necessita conèixer prèviament
si les variàncies es poden suposar iguals o no. Durant 5 dies escollits aleatòriament al llarg d’un
any es mesura la concentració de SO2 a la ciutat de Barcelona, i durant 7 dies la concentració a
Madrid. El p-value obtingut d’aquesta mostra és de 0.019 per al contrast d’igualtat de variàn-
cies, de 0.027 per al contrast de mitjanes quan les variàncies es suposen iguals, i de 0.089 per al
contrast de mitjanes quan les variàncies no se suposen iguals.
a) Quines hipòtesis s’estan contrastant quan es compara les mitjanes de les concentracions?
I quan es compara les variàncies?
b) Per a un risc de primera espècie (comú als dos contrastos anteriors) de α = 0.05, i amb
les dades mostrals obtingudes, es pot afirmar amb rotunditat que la concentració de SO2
a la ciutat de Madrid és superior a la de Barcelona?
b) Quina és la probabilitat que amb la regla de decisió establerta, quan la µ valgui realment
10 mg, això no es detecti?
c) Amb aquesta regla de decisió, quin és el risc de mort per als peixos?
Problema 9.19 Per tal de mesurar la quantitat de mercuri a l’aigua, en mg/mm3 , s’ha fet
servir des de fa anys l’aparell A. Les mesures, XA , fetes amb A contenen un cert error. De
¡ ¢
fet se sap que l’aparell està ajustat de manera que XA ∼ N µA , σ 2A quan la quantitat real de
mercuri present a l’aigua en què s’ha pres la mesura és µA . Però a partir de la setmana que ve
les mesures s’hauran de fer amb un altre aparell, el B. L’aparell B funciona en principi igual
¡ ¢
que el A i teòricament ve ajustat. És a dir, XB ∼ N µB , σ 2B quan la quantitat real de mercuri
present a l’aigua en què s’ha pres la mesura és µB . De tota manera, el departament de control
d’aigües vol fer una prova per tal de contrastar que la mitjana teòrica de XB és la quantitat
real de mercuri a l’aigua mesurada. Com que A està ben ajustat, l’objectiu serà contrastar la
igualtat de µA i µB . Per fer-ho, es pren una mostra d’aigua cada dia al llarg de trenta dies. La
quantitat de mercuri en cada mostra es mesura fent servir els dos aparells, de manera que al final
es tenen les seixanta mesures xA,1 , . . . , xA,30 i xB,1 , . . . , xB,30 . Plantegeu el contrast d’igualtat
de µA i µB i digueu quin és l’estadístic de prova que faríeu servir.
Problema 9.21 Un cert tipus de metall s’ha produït sempre a través d’un procediment es-
tàndard. S’assaja un nou procediment per a la producció en què s’afegeix una certa aleació
per augmentar la tensió de ruptura. El fabricant està interessat a estimar la diferència real
entre les tensions de ruptura dels metalls produïts per cada un dels dos processos. Per fer-ho,
se seleccionen catorze mostres de cada un dels metalls i se’ls sotmet a una tensió fins que es
trenquen.
antic 427 420 457 438 443 467 464 428 439 446 440 463 461 468
nou 461 447 436 465 430 471 452 458 428 466 451 446 448 471
298 Elements d’estadística
Suposem que les dues poblacions són normals i independents amb variàncies iguals. Podem
concloure que s’ha augmentat la tensió de ruptura, en base als resultats obtinguts i amb α =
0.05?
Problema 9.22 Una companyia de lloguer de cotxes vol investigar si la utilització d’un nou tipus
de pneumàtics en lloc dels regulars redueix la despesa en combustible. Amb aquesta finalitat
es fa una prova. S’equipen 10 cotxes amb pneumàtics del nou tipus i se’ls fa fer un recorregut
determinat prèviament. La despesa en litres per cada cent quilòmetres ha estat la següent:
12.1, 10.72, 6.97, 7.12, 7.53, 10.15, 8.34, 8.36, 5.95, 10.3
Sense canviar de conductor s’equipa els mateixos cotxes amb pneumàtics regulars i se’ls fa fer
un altre cop el mateix recorregut. Aquest cop la despesa ha estat:
12.67, 10.2, 7.06, 8.24, 9.35, 10.01, 8.87, 7.62, 6.72, 10.81
Tenint en compte aquestes dades, es pot assegurar que els pneumàtics nous proporcionen un
estalvi més gran de combustible que els pneumàtics normals amb un risc de primera espècie
igual a α = 0.05?
Problema 9.23 La mitjana teòrica de la quantitat de farina que s’aboca en un cert tipus de
paquet és de 200 grams. Per tal de controlar el procés, s’escull de forma periòdica 25 paquets
a l’atzar dels quals se’n pesa el contingut. Si la mitjana mostral X és menor o igual que 195
o més gran o igual que 205 es considera que el procés d’emplenament és fora de control. Es
pot suposar que la quantitat vessada es distribueix normalment amb una desviació típica de 5
grams.
a) Calculeu la probabilitat que amb aquesta regla de decisió es declari fora de control el procés
quan en realitat µ = 195.
Problema 9.24 Les dues corbes de potència de la figura 9.26 corresponen a un mateix contrast
d’hipòtesis sobre µ d’una variable N (µ, σ 2 ) i a una mateixa regió crítica. La diferència està en
que en un cas és n = 10 i en l’altre n = 20. Compareu les dues corbes de potència i digueu quina
és la de n = 10 i quina la de n = 20.
9 Contrasts d’hipòtesis paramètrics 299
Bondat d’ajust
Sovint, a la pràctica, per tal d’analitzar una variable se suposa que la seva distribució de pro-
babilitat ve donada per un determinat model teòric de probabilitat. En els capítols anteriors
hem vist com estimar o contrastar els valors dels paràmetres per a diversos models teòrics de
probabilitat, però el que és fonamental és contrastar que realment les dades observades s’ajustin
al model que hem escollit per descriure-les. En aquest capítol veurem diversos mètodes per
contrastar l’ajust d’una població a un cert model teòric de probabilitat analitzant les possibles
contradiccions entre la informació mostral i el model teòric.
Considerarem en primer lloc el cas d’una variable X discreta que pren valors x1 , x2 , . . . com per
exemple una variable binomial o una de Poisson. La distribució de probabilitat ve donada per
la funció de probabilitat que especifica les probabilitats pi = P (X = xi ), i = 1, 2, . . . L’objectiu
és decidir si és assumible un model teòric determinat per a aquesta variable. És a dir, es tracta
de contrastar les hipòtesis
a partir de la informació mostral disponible. Convé observar que si X pren un número infinit de
valors, com en el cas de, per exemple, una variable de Poisson, llavors pk correspon a una cua
de probabilitat, és a dir pk = P (X ≥ c).
La decisió es prendrà comparant les freqüències esperades dels valors de X amb les freqüències
observades en una mostra. Per a una mostra de mida n de X la freqüència absoluta de xi en la
mostra la denotarem per Oi . La freqüència esperada de xi en la mostra és igual al percentatge
302 Elements d’estadística
Es rebutjarà H0 quan globalment la discrepància entre els Oi i els Ei sigui massa gran. La regla
de decisió es concreta a partir del següent resultat teòric:
La distribució de l’estadístic
k
X (Oi − Ei )2
χ2 =
Ei
i=1
quan H0 és certa i els paràmetres del model són coneguts, és, aproximadament, per a n gran,
una variable χ2k−1 . Si per establir el model teòric s’han d’estimar r paràmetres, llavors χ2 és
aproximadament una variable χ2k−r−1 .
Exemple: Volem contrastar que la variable X és una variable binomial amb n = 10 i p = 0.25,
a partir d’una mostra de 800 observacions i amb un nivell de significació de α = 0.05. La
hipòtesi nul·la és H0 : X ∼ B(10, 0.25) i quan H0 és certa, la distribució de probabilitat de X
¡ ¢
és P (X = x) = 10 x
x 0.25 · 0.75
10−x per a x = 0, 1, . . . , 10, que explicitada és
P (X = 0) = 0.056314
P (X = 1) = 0.187712
P (X = 2) = 0.281568
P (X = 3) = 0.250282
P (X = 4) = 0.145998
P (X = 5) = 0.058399
P (X = 6) = 0.016222
P (X = 7) = 0.003090
P (X = 8) = 0.000386
P (X = 9) = 0.000029
P (X = 10) = 0.000001
10 Bondat d’ajust 303
Les quatre últimes Ei són inferiors a 5 i sumades continuen sent-ho, per tant les acumularem a
X ≥ 6.
x Ei
0 45.051
1 150.17
2 225.25
3 200.23
4 116.80
5 46.719
X≥6 15.783
A la taula següent es mostren les freqüències absolutes observades en una mostra de X de mida
n = 800, conjuntament amb les teòriques i els valors (Oi − Ei )2 /Ei :
x Oi Ei Oi − Ei (Oi − Ei )2 /Ei
0 56 45.051 10.949 2.6610
1 138 150.17 −12.17 0.9863
2 206 225.25 −19.25 1.6451
3 207 200.23 6.77 0.2289
4 117 116.80 0.2 0.0003
5 48 46.719 −1.281 0.0351
≥6 16 15.783 0.217 0.0030
Exemple: Volem contrastar que la variable X, de la qual hem observat una mostra de mida
400, és una variable de Poisson amb un nivell de significació de α = 0.01. Aquí la hipòtesi nul·la
és
H0 : X ∼ P(λ) per algun λ
X = 5.435
En primer lloc estimem el paràmetre λ de la distribució de Poisson pel seu estimador màxim
versemblant:
b = X = 5.435
λ
H0 : X ∼ P(5.435)
P (X ≤ 1) = 0.028065
P (X = 2) = 0.064414
P (X = 3) = 0.116696
P (X = 4) = 0.158561
P (X = 5) = 0.172356
P (X = 6) = 0.156126
P (X = 7) = 0.121220
P (X = 8) = 0.082354
P (X = 9) = 0.049733
P (X = 10) = 0.027030
P (X ≥ 11) = 0.023446
10 Bondat d’ajust 305
A continuació es mostren els valors observats Oi de la mostra que porten al valor de l’estadístic
de prova, així com també els valors Ei , Oi − Ei i (Oi − Ei )2 /Ei :
x Oi Ei Oi − Ei (Oi − Ei )2 /Ei
≤1 21 11.226 9.774 8.50981
2 28 25.766 2.234 0.19370
3 46 46.678 −0.678 0.00985
4 52 63.424 −11.424 2.05770
5 61 68.942 −7.942 0.91490
6 51 62.450 −11.450 2.09932
7 98 48.488 49.512 50.5576
8 24 32.942 −8.942 2.42728
9 8 19.893 −11.893 7.11021
10 5 10.812 −5.812 3.12425
≥ 11 6 9.3784 −3.3784 1.21701
amb la qual cosa rebutjarem la hipòtesi nul·la que X segueix una distribució de Poisson amb un
nivell de significació de α = 0.01.
306 Elements d’estadística
El test de la χ2 que acabem de veure per contrastar la distribució d’una variable discreta és
també aplicable quan la variable és contínua. Suposem, per exemple, que es vol contrastar que
la variable X, que mesura un determinat tipus d’error, és una variable normal amb esperança
µ = 0 i desviació típica σ = 3. Aquí les hipòtesis són
H0 : X ∼ N (0, 32 ) H1 : X ¿ N (0, 32 )
R =I1 ∪ · · · ∪ Ik amb Ii ∩ Ij = ∅ si i 6= j
i es calculen les probabilitats teòriques d’aquests intervals quan la hipòtesi nul·la és certa:
p0i = P ( X ∈ Ii | H0 certa) , i = 1, . . . , k
R = (−∞, −3.45] ∪ (−3.45, −2] ∪ (−2, −0.9] ∪ (−0.9, 0] ∪ (0, 0.9] ∪ (0.9, 2] ∪ (2, 3.45] ∪ (3.45, +∞)
Ara hem de decidir si acceptem o rebutgem H0 comparant les freqüències teòriques amb les
10 Bondat d’ajust 307
observades igual com s’ha fet en el cas discret. Les freqüències teòriques esperades són
x Ei
(−∞, −3.45] 0.12507 · 60 = 7.5042
(−3.45, −2] 0.12742 · 60 = 7.6452
(−2, −0.9] 0.12960 · 60 = 7.7760
(−0.9, 0] 0.11791 · 60 = 7.0746
(0, 0.9] 0.11791 · 60 = 7.0746
(0.9, 2] 0.12960 · 60 = 7.7760
(2, 3.45] 0.12742 · 60 = 7.6452
(3.45, +∞) 0.12507 · 60 = 7.5042
Fixem el nivell de significació en α = 0.05 i fem el contrast utilitzant una mostra de 60 observa-
cions. Els valors observats han estat
−2.52, 1.42, −0.11, 3.05, 1.06, 0.87, 0.44, 1.66, −0.01, 1.12, −0.09, 1.74, 3.51, 3.11, −0.52, 0.28,
0.32, −1.22, −1.40, −1.74, 1.27, −0.24, 0.97, −0.30, 0.26, −0.76, 0.79, −0.10, −2.36, −0.85,
−2.24, −0.48, −2.26, −1.79, −0.30, −0.84, −1.25, −0.45, −0.02, 1.55, 1.52, −1.71, 3.93, 1.99,
−2.30, −2.30, 0.01, −1.98, 0.33, −2.01, 1.03, 0.59, 0.25, −0.58, −2.98, −1.76, 2.07, 0.73, 1.72,
0.06.
x Oi Ei Oi − Ei (Oi − Ei )2 /Ei
(−∞, −3.45] 0 7.5042 −7.5042 7.5042
(−3.45, −2] 8 7.6452 0.3548 0.0165
(−2, −0.9] 8 7.7760 0.2240 0.0065
(−0.9, 0] 15 7.0746 7.9254 8.8785
(0, 0.9] 12 7.0746 4.9254 3.4291
(0.9, 2] 12 7.7760 4.2240 2.2945
(2, 3.45] 3 7.6452 −4.6452 2.8224
(3.45, +∞) 2 7.5042 −5.5042 4.0372
Quan H0 és certa és
k
X (Oi − Ei )2
' χ2k−1 = χ27
Ei
i=1
En aquest cas
k
X (Oi − Ei )2
= 28.99 > χ27,0.95 = 14.07
Ei
i=1
308 Elements d’estadística
Observem que en aquest exemple no hem explorat la mostra ni hem estimat els paràmetres, sinó
que hem partit del fet que X havia de ser N (0, 32 ) i hem arribat a la conclusió que el supòsit
s’havia de rebutjar. L’histograma dels valors observats és a la figura 10.1, i no mostra una falta
exagerada de normalitat.
A continuació contrastarem la hipòtesi que X segueix una distribució normal, sense especificar
prèviament els paràmetres i amb un nivell de significació de α = 0.05. Aquí la hipòtesi nul·la és
¡ ¢
H0 : X ∼ N µ, σ 2 per alguns µ i σ 2
b=
Primer estimarem els paràmetres a partir dels estimadors estimadors màxim versemblants µ
c2 2
X, σ = S , i contrastarem
³ ´
H0 : X ∼ N µ c2
b, σ
b = 0.0030
µ c2 = 2.4895 = 1.57782
σ
i contrastem
¡ ¢
H0 : X ∼ N 0.0030, 1.57782
Considerem la partició
Les freqüències esperades les obtenim multiplicant el total d’observacions per la probabilitat de
cada interval quan H0 és certa:
x Ei
(−∞, −1.83] 0.12267 · 60 = 7.3602
(−1.83, −1.1] 0.11958 · 60 = 7.1748
(−1.1, −0.57] 0.11599 · 60 = 6.9594
(−0.57, 0] 0.14100 · 60 = 8.4600
(0, 0.57] 0.14110 · 60 = 8.4660
(0.57, 1.1] 0.11622 · 60 = 6.9732
(1.1, 1.83] 0.12000 · 60 = 7.2000
(1.83, +∞) 0.12344 · 60 = 7.4064
Observació: La partició de R com més fina sigui més informació farà servir l’estadístic de
prova, però cal tenir en compte que l’aproximació de
k
X (Oi − Ei )2
Ei
i=1
per la distribució khi-quadrat requereix Ei > 5 per a tot i, i això condicionarà l’elecció de
la partició. El més convenient és escollir intervals equiprobables i amb Ei no gaire lluny de
5. Observem que en les dues aplicacions anteriors s’han pres particions gairebé equiprobables
amb Ei al voltant de 7. També hem de recordar que al fer servir una aproximació, el nivell de
significació amb el test de la χ2 és aproximat.
Per exemple, la funció de distribució empírica de la mostra 1, 1.5, 1.5, 1.9, 3 és la funció
0 si x<1
1
5 si 1 ≤ x < 1.5
3
Fn (x) = 5 si 1.5 ≤ x < 1.9
4
si 1.9 ≤ x < 3
5
1 si x≥3
Notarem per x(1) , . . . , x(n) la mostra ordenada en ordre creixent de magnitud, és a dir
Aquest estadístic al créixer n tendeix a zero, i a més a més té la particularitat que la seva
distribució no depèn de la funció de distribució F particular, és a dir, el seu comportament
probabilístic, per a mostres de mida n, és el mateix per a qualsevol F i la seva distribució
empírica.
La distribució de Dn està tabulada a la taula de Massey. Alguns valors d’aquesta taula són
n 1 2 3 4 5 6 7 8 9 10 11
x 0.975 0.842 0.708 0.624 0.563 0.521 0.486 0.457 0.432 0.410 0.391
n 12 13 14 15 16 17 18 19 20 25 30
x 0.375 0.361 0.349 0.338 0.328 0.318 0.309 0.301 0.294 0.270 0.240
n 1 2 3 4 5 10 15 20 25 30
x 0.995 0.929 0.828 0.733 0.669 0.490 0.404 0.356 0.320 0.290
µ ¶
1.23
P Dn ≤ √ ' 0.90
n
µ ¶
1.36
P Dn ≤ √ ' 0.95
n
µ ¶
1.52
P Dn ≤ √ ' 0.98
n
µ ¶
1.63
P Dn ≤ √ ' 0.99
n
Sigui F0 una funció de distribució completament especificada. Per tal de contrastar les hipòtesis
H0 : F = F0 H1 : F 6= F0
P (Dn > c) = α
o equivalentment
P (Dn ≤ c) = 1 − α
aleshores primer s’han d’estimar els paràmetres per tal que la distribució quedi completament
especificada. No és convenient estimar els paràmetres amb la mateixa mostra que farem servir
en el contrast, ja que en aquest cas estaríem donant avantatge a la hipòtesi nul·la. Els paràme-
tres s’estimen d’alguna altra manera com per exemple utilitzant els seus estimadors puntuals
obtinguts d’una mostra prèvia.
L’estimador centrat de θ de mínima variància obtingut a partir d’una mostra prèvia ha resultat
ser de b
θ = 1/20 = 0.05, de manera que θ s’estima per 1/20.
1
Figura 10.4 Funció de distribució F (x) = 1 − e− 20 x
50.11, 31.03, 30.30, 15.54, 30.17, 5.54, 0.33, 13.79, 14.27, 6.72
x 0.33 5.54 6.72 13.79 14.27 15.54 30.17 30.30 31.03 50.11
Fn 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Per tal d’obtenir el valor de l’estadístic de Kolmogorov D10 , a continuació calculem les distàncies
entre F i Fn (veure també Fig. 10.6).
10 Bondat d’ajust 315
i i−1
x Fn F (x(i) ) F (x(i) ) − n F (x(i) ) − n
0.33 0.1 0.0164 −0.0836 0.0164
5.54 0.2 0.2419 0.0419 0.1419
6.72 0.3 0.2854 −0.0146 0.0854
13.79 0.4 0.4982 0.0982 0.1982
14.27 0.5 0.5101 0.0101 0.1101
15.54 0.6 0.5402 −0.0598 0.0402
30.17 0.7 0.7788 0.0788 0.1788
30.30 0.8 0.7802 −0.0198 0.0802
31.03 0.9 0.7881 −0.1119 −0.0119
50.11 1 0.9184 −0.0816 0.0184
½¯ ¯ ¯ ¯¾
¯ i ¯ ¯ i − 1 ¯
D10 = sup ¯¯F (x(i) ) − ¯¯ , ¯¯F (x(i) ) − ¯ = 0.1982
1≤i≤10 n n ¯
Com que
El gràfic de probabilitat normal és un mètode gràfic per determinar si una mostra observada
prové d’una variable normal. Es basa en la comparació entre percentils teòrics i percentils
mostrals.
Per a una variable contínua X amb funció de distribució F estrictament creixent, i γ un número
real amb 0 ≤ γ ≤ 1, el percentil 100γ de la distribució de X és el valor aγ tal que F (aγ ) = γ, és
a dir P (X ≤ aγ ) = γ. Observem que aγ = F −1 (γ).
De tota manera, per continuar hem de tenir en compte la relació entre els percentils de N (µ, σ 2 )
i els de N (0, 1). Si X ∼ N (µ, σ 2 ) i P (X ≤ aγ ) = γ llavors
µ ¶
aγ − µ
φ =γ
σ
Per tant, els percentils aγ de la distribució N (µ, σ 2 ) són funció lineal dels percentils zγ de la
distribució N (0, 1).
El gràfic de probabilitat normal és el diagrama de punts dels parells de valors (x(i) , zγ i ) amb
i = 1, . . . , n i γ i = (i − 0.5) /n. Observem que si la mostra prové d’una distribució normal
llavors els percentils mostrals s’han d’assemblar als de la N (µ, σ 2 ). És a dir, x(i) ' aγ i per a
i = 1, . . . , n, d’on resulta que (x(i) − µ)/σ ' (aγ i − µ)/σ = zγ i per a i = 1, . . . , n. Això implica
que
x(i) − µ 1 µ
zγ i ' = x(i) − per a i = 1, . . . , n
σ σ σ
i en conseqüència els punts (x(i) , zγ i ), i = 1, . . . , n, estan aproximadament sobre la recta d’e-
quació
1 µ
z = x−
σ σ
Per tant, si la mostra prové d’una distribució normal el gràfic ha de mostrar un diagrama de
punts distribuïts amb una tendència lineal.
10 Bondat d’ajust 317
Aquest gràfic, o alguna versió lleugerament diferent, el proporcionen tots els paquets estadístics i
és un gràfic com el que mostra la figura 10.7, on cada punt correspon a una observació. Com hem
dit, si les dades provenen d’una distribució normal, els punts del gràfic estaran aproximadament
sobre una recta, com és el cas del gràfic mostrat. Si els punts s’aparten significativament de
la recta llavors no és apropiat suposar que les dades provenen d’una variable normal. Aquest
procediment en aquest nivell pot resultar ambigu però és prou útil, per exemple, en la verificació
de supòsits quan s’apliquen tècniques inferencials que requereixen normalitat com és el cas del
model de regressió. En tot cas, es pot completar amb el contrast de Shapiro-Wilks o el de
Ryan-Joiner que es troben a diferents paquets estadístics.
10.4 Exercicis
Problema 10.1 La taula següent resumeix el resultat de la inspecció de 209 components ex-
plicitant el nombre de defectes observats que presenta cada component i que poden ser com a
màxim 6.
Nombre de defectes 0 1 2 3 4 5 6
Freqüència observada 102 9 49 10 33 0 6
Contrasteu la hipòtesi nul·la que el nombre de defectes que presenta aquest tipus de component és
una variable binomial B(6, p) mitjançant el contrast de la χ2 i amb un nivell de significació de α =
0.01. Indicació: estimeu primer el paràmetre p a partir del seu estimador màxim versemblant,
que és pb = nombre de defectes observats
nombre de defectes possibles =
0·102+1·9+2·49+3·10+4·33+5·0+6·6
209·6
305
= 1254 = 0.24322. Les
freqüències esperades les haureu d’acumular a X ≥ 4.
318 Elements d’estadística
54, 67, 60, 78, 42, 85, 77, 59, 82, 96, 51, 72, 64, 69, 55, 40, 66, 45, 61, 84,
57, 73, 50, 41, 35, 67, 61, 32, 58, 73, 19, 65, 68, 80, 71, 58, 64
fent servir la partició de R determinada pels intervals (−∞, 44.25] , (44.25, 52.5] , (52.5, 58.5] ,
(58.5, 64.5] , (64.5, 71] , (71, 79] , (79, +∞) i amb α = 0.10.
Problema 10.3 En una certa planta industrial s’ha enregistrat al llarg de 210 dies el número
d’avaries diàries. Les freqüències observades són a la taula següent:
Número avaries 0 1 2 3 4 5 6 7 8 9 10 11 12
Freqüència en dies 101 47 9 10 23 10 6 1 0 1 1 0 1
Contrasteu la hipòtesi nul·la que el nombre d’avaries que es produeixen al llarg d’un dia segueix
una distribució de Poisson amb un nivell de significació de α = 0.01. Per fer-ho, considereu
les probabilitats individuals fins a 3 avaries i després considereu la probabilitat de més de tres
avaries conjuntament.
Problema 10.4 Per a una mostra de 40 persones amb la mateixa dolència, s’ha enregistrat el
temps, en minuts, que l’analgèsic els triga a fer efecte. Els temps han estat
56, 77, 75, 73, 57, 76, 85, 65, 57, 54, 72, 67, 37, 34, 72, 53, 78, 40, 82, 72,
54, 81, 61, 74, 56, 78, 80, 74, 37, 66, 49, 77, 84, 37, 68, 55, 47, 44, 81, 63
Feu la prova de la χ2 per contrastar la hipòtesi nul·la que el temps fins l’efecte segueix una
distribució exponencial fent servir la partició de R determinada pels intervals (−∞, 10] , (10, 22] ,
(22, 36] , (36, 54] , (54, 80] , (80, 124] , (124, +∞) i amb un nivell de significació de α = 0.01.
Problema 10.5 En un procés d’emplenament automàtic d’ampolles s’ha observat una certa
variabilitat en el volum vessat per ampolla. Es controlen 36 ampolles per a les quals el volum
vessat ha estat
29.9, 30.4, 29.5, 30.2, 28.8, 27.6, 28.5, 33.7, 33.7, 26.1, 32.7, 29.4, 28.0, 26.0, 25.5,
29.1, 33.3, 30.8, 27.3, 27.7, 25.5, 27.3, 35.4, 34.1, 26.5, 36.2, 28.5, 29.6, 31.4, 32.1,
28.4, 34.9, 28.7, 35.8, 31.2, 28.4
Problema 10.6 Contrasteu si el temps de vida d’un determinat tipus de llum segueix una
distribució exponencial de paràmetre θ = 0.01 utilitzant el contrast de Kolmogorov-Smirnov i
amb un nivell de significació de α = 0.05. Els temps de vida en hores enregistrats per 20 unitats
han estat
38.0, 151.6, 24.3, 201.1, 41.4, 147.7, 110.9, 168.7, 106.4, 8.6, 40.0, 249.0, 58.3,
6.3, 74.3, 110.0, 41.0, 43.4, 204.5, 25.5
Problema 10.7 Contrasteu si és assumible el supòsit que la demanda diària d’un producte
segueix una distribució N (µ, σ 2 ) amb µ = 55.1 i σ = 7.8. La demanda durant els darrers trenta
dies ha estat
46, 35, 72, 75, 48, 64, 46, 68, 73, 35, 73, 36, 78, 63, 76, 43,
41, 77, 75, 48, 53, 44, 50, 47, 51, 46, 39, 39, 71, 57
Problema 10.8 Contrasteu la hipòtesi que les següents observacions provenen d’una variable
uniforme a l’interval [0, 5]:
1.86, 2.71, 3.68, 3.48, 1.64, 4.8, 1.14, 4.81, 3.77, 2.90, 4.33, 0.55, 4.29, 0.11, 0.01, 2.30,
0.59, 2.74, 3.70, 3.98, 3.26, 2.77, 2.79, 0.75, 4.78, 1.70, 0.57, 3.57, 0.51, 1.97
Els contrasts estudiats al Capítol 9 eren referits a un model teòric caracteritzat per un paràmetre
θ ∈ Rk i es duien a terme mitjançant un estadístic de prova adequat a cada situació. Ara bé, no
sempre és possible l’adopció de forma clara d’un model teòric paramètric per modelitzar deter-
minades variables. Llavors, quan això no sigui així, haurem de recórrer a mètodes anomenats
no paramètrics que no requereixen el supòsit d’una distribució teòrica determinada sinó requeri-
ments més genèrics. Aquests mètodes utilitzen menys informació. En primer lloc, establirem
dues proves per contrastar el canvi en un conjunt de dades aparellades, en la situació en què
s’han aparellat individus, o en la situació en què cada individu és control d’ell mateix. En segon
lloc estudiarem el cas de comparació de dues mostres independents. Finalment estudiarem els
contrasts de la χ2 d’independència i homogeneïtat.
El test o contrast dels signes proporciona un mètode en condicions generals per esbrinar si la
diferència entre dues variables contínues aparellades és significativa o no. Suposem, per exemple,
que una marca de cotxes assaja una modificació en el motor dels seus cotxes per tal de reduir-ne
el consum. Per contrastar l’èxit de la innovació s’agafen dos cotxes de cada un dels 10 models
que es fabriquen. S’assigna aleatòriament a cada parella de cotxes els números 1 i 2. Tot
seguit, es modifiquen tots els cotxes amb número 2 i després es fa córrer a tots els 20 cotxes una
distància de com a mínim 500 quilòmetres cadascun, controlant el consum en litres per cada
cent quilòmetres. Les observacions seran (x1 , y1 ), . . . , (xn , yn ) on els valors de x corresponen al
consum dels cotxes sense modificar i els de y al consum dels cotxes modificats. La condició
de recórrer un mínim de 500 quilòmetres no assegura que el recorregut sigui semblant, ni per
quilòmetres, ni pel tipus de carretera, ni pel xofer. Per tant, els diferents parells poden provenir
de variables aleatòries (X, Y ) diferents i en conseqüència necessitem un mètode molt general per
322 Elements d’estadística
decidir.
X 7.3 8.8 7.6 8.9 8.9 9.7 8.9 7.8 10.2 6.9
Y 9.5 8.7 7.8 6.9 6.7 7.5 7.6 8.1 9.1 6.8
Per dur a terme el contrast es consideren els signes de les diferències xi − yi . Si en algun cas és
xi − yi = 0, el parell (xi , yi ) no es té en compte. Si H0 és certa aleshores s’espera que el nombre
de signes + i − no sigui molt diferent. De fet, el conjunt de signes + es pot considerar com una
mostra d’una variable binomial B(1, p) on p és la probabilitat de signe +, i el contrast correspon
a decidir si la proporció teòrica de signes + és o no més gran que la de signes −. Considerem
la variable S+ que dóna el nombre de signes positius en el total de les n = 10 diferències. La
variable S+ és una variable binomial B(n, p) i H0 correspon a p = 1/2, mentre que H1 correspon
a un valor de p que en aquest cas és més gran que 1/2. El contrast equival llavors a contrastar
les hipòtesis
1 1
H0 : p = H1 : p >
2 2
Rebutjarem H0 quan S+ sigui estrictament més gran que un cert nombre enter c. Si el nivell de
significació és α, aquest c serà el valor més petit que compleixi
Per exemple, si α = 0.05 aleshores c és el nombre enter més petit que compleix
c µ ¶
X 10 1
0.05 ≥ P ( S+ > c | p = 1/2) = 1 − P ( S+ ≤ c | p = 1/2) = 1 −
k 210
k=0
Aquests riscs són bastant grans, de manera que la decisió que hem pres d’acceptar H0 no és
gaire significativa. És a dir, és possible que realment fos p > 1/2 però que en la nostra decisió
haguem comès un error de tipus II, acceptant així la hipòtesi nul·la.
Quan n és gran es pot fer servir l’aproximació normal de la binomial B(n, p) per prendre la
decisió. Quan H0 és certa l’aproximació és
³n n´
S+ ' N ,
2 4
de manera que podem fer servir l’estadístic de prova
n
S+ −
√ 2 ' N (0, 1)
n
2
Observació: Aquest contrast es pot fer servir per contrastar la mediana teòrica µ e d’una variable
aleatòria contínua X. La mediana teòrica es defineix com el valor µ e tal que P (X ≤ µe) = 0.5. En
altres paraules, la mediana teòrica és el percentil 50 de la distribució de X. El contrast consta
de la hipòtesi nul·la H0 : µ e=µ e0 contra alguna de les tres alternatives H1 : µ
e>µ e0 , H1 : µ
e<µ e0 ,
e 6= µ
H1 : µ e0 . Aleshores, per a una mostra x1 , . . . , xn de X, s’estudien els signes de les diferències
e0 , i = 1, . . . , n, i es procedeix de manera anàloga a abans.
xi − µ
El contrast dels signes és senzill d’aplicar però fa servir poca informació, considera només els
signes de les diferències i no les seves magnituds. A l’exemple de la despesa de combustible el
test dels signes té en compte la reducció del consum però no diu res sobre la magnitud de la
reducció. El contrast de Wilcoxon és més potent que el dels signes, ja que té en compte tant
magnituds com signes per tal de comparar la distribució de dues variables contínues X i Y amb
esperançes respectives µX i µY .
El contrast de Wilcoxon s’aplica quan la diferència X −Y és una variable simètrica (en particular
l’esperança de la variable X − Y , µX − µY , és igual a la seva mediana), la qual cosa és plausible
en molts casos. Llavors, es tracta de contrastar la hipòtesi nul·la
H0 : µX − µY = 0
324 Elements d’estadística
que les mitjanes de les variables X i Y coincideixen, contra alguna de les alternatives
H1 : µX − µY 6= 0 H1 : µX − µY > 0 H1 : µX − µY < 0
Suposem que (x1 , y1 ), . . . , (xn , yn ) són observacions corresponents a una mostra aparellada del
vector aleatori (X, Y ). És a dir, xi i yi són les realitzacions de X i Y sobre un mateix individu
(de l’i-èssim individu seleccionat). El contrast de Wilcoxon considera els valors absoluts de les
diferències, un cop descartats els casos en què aquestes són zero,
d1 = |x1 − y1 | , . . . , dn = |xn − yn |
Un cop ordenades associa a cada d(i) un rang, que és el lloc que ocupa d(i) en la seqüència
ordenada. En cas de coincidència s’assigna el promig dels coincidents. Per exemple, si d(4) = 1,
d(5) = 2, d(6) = 2, d(7) = 2, d(8) = 4 aleshores els rangs assignats seran 4, 6, 6, 6, 8, ja que 6 és
el promig (5 + 6 + 7)/3 dels rangs dels valors coincidents.
Considerem els estadístics W+ i W− , suma dels rangs associats a les diferències positives i
negatives respectivament. Es té
n(n + 1)
W+ + W− = 1 + 2 + 3 + · · · + n =
2
H0 : µX − µY = 0 H1 : µX − µY 6= 0
W = min {W+ , W− }
i rebutjarem H0 quan el valor de W sigui massa petit, ja que si H0 és certa les ocurrències
de diferències de signes positius i negatius són equiprobables, i el valor de W no pot ser un
valor excessivament més petit que la meitat de la suma de tots els rangs, n(n + 1)/4. Quan
l’alternativa sigui H1 : µX − µY > 0 aleshores rebutjarem H0 per a valors prou petits de W− , i
quan H1 sigui H1 : µX − µY < 0 rebutjarem H0 per a valors prou petits de W+ .
Per a mostres de mida prou gran, per exemple n > 25, quan H0 és certa els estadístics W , W+
i W− tenen una distribució aproximadament normal amb esperança
n(n + 1)
4
11 Alguns contrasts no paramètrics 325
i variància
n(n + 1)(2n + 1)
24
Per tant, per a mostres prou grans la decisió la podem prendre fent servir els estadístics de prova
depenent de quina hipòtesi sigui l’alternativa, ja que aquests estadístics segueixen una distribució
aproximadament N (0, 1) quan H0 és certa.
Exemple: Es fa un estudi per determinar l’efectivitat d’una dieta a llarg termini. A la taula
següent es mostra el pes de 30 persones abans de començar la dieta i al cap d’un any de començar-
la:
Abans 104.5 106.5 114.6 113.6 102.6 104.9 111.6 108.3 117.1 119.5
Després 97.5 94.5 115.7 101.4 103.3 93.9 111.6 108.3 105.4 115
Abans 106 119.7 110.4 111.9 114.6 104 109.4 103.3 104.6 119.2
Després 106 111.2 106.1 107 101.7 103 102.7 99.4 97.8 108.9
Abans 104.8 120 104.8 106.6 100.2 111 105.3 105.4 117.5 119
Després 98.1 118 104 103 95.2 97.9 96.2 97.3 115 115.3
n(n+1)
W− − 4
q < zα = z0.01 = −2.33
n(n+1)(2n+1)
24
Tot seguit calcularem W− , la suma dels rangs associats a les diferències negatives. Un cop
suprimits els casos en què les diferències són zero, les diferències en valor absolut, indicant el
326 Elements d’estadística
A continuació es mostren els valors absoluts de les diferències ordenats en ordre creixent de
magnitud, juntament amb el seu signe i el seu rang associat:
d(i) 0.7 0.8 1.0 1.1 2.0 2.5 3.6 3.7 3.9
Signe −1 1 1 −1 1 1 1 1 1
Rang 1 2 3 4 5 6 7 8 9
d(i) 4.3 4.5 4.9 5.0 6.7 6.7 6.8 7.0 8.1
Signe 1 1 1 1 1 1 1 1 1
Rang 10 11 12 13 14.5 14.5 16 17 18
d(i) 8.5 9.1 10.3 11.0 11.7 12.0 12.2 12.9 13.1
Signe 1 1 1 1 1 1 1 1 1
Rang 19 20 21 22 23 24 25 26 27
W− = 1 + 4 = 5
Per tant
n(n+1) 30·31
W− − 4 5− 4
q =q = −4.68 < −2.33 = z0.01
n(n+1)(2n+1) 30·31·61
24 24
Aquesta prova és molt útil per comparar diferències en les característiques de localització entre
dues variables a partir de mostres independents. Suposem que X1 i X2 són variables aleatòries
contínues independents i tals que les seves distribucions tenen la mateixa forma i dispersió. És
a dir, només poden diferir en la seva localització (poden diferir únicament per una traslació).
Es vol contrastar si les distribucions de les dues variables coincideixen o estan desplaçades l’una
respecte de l’altra, la qual cosa equival a contrastar la igualtat dels paràmetres centrals com la
mitjana o la mediana. La hipòtesi nul·la és
H0 : µX1 = µX2
Com que X1 i X2 només difereixen en una traslació, la hipòtesi nul·la també es pot escriure com
Suposem que disposem d’una mostra per a cada una de les dues variables x1,1 , . . . , x1,n1 i
x2,1 , . . . , x2,n2 . El contrast es farà ordenant el conjunt de les n1 + n2 observacions i assignant a
cada una un rang, que serà el número que ocupa en ordre. Sigui RX1 la suma dels rangs associats
a les observacions de X1 i RX2 la suma dels rangs de X2 . Llavors
(n1 + n2 ) (n1 + n2 + 1)
RX1 + RX2 = 1 + 2 + · · · + (n1 + n2 − 1) + (n1 + n2 ) =
2
de manera que RX1 i RX2 són variables relacionades linealment per
(n1 + n2 ) (n1 + n2 + 1)
RX2 = − RX1
2
Per tant considerarem només RX1 i es rebutjarà H0 quan RX1 sigui massa gran o massa petit
si l’alternativa és H1 : les distribucions de X1 i X2 no coincideixen. Si l’alternativa és H1 : la
distribució de X1 està desplaçada a la dreta de la de X2 llavors rebutjarem H0 quan RX1 sigui
massa gran. Finalment, si l’alternativa és H1 : la distribució de X2 està desplaçada a la dreta
de la de X1 llavors rebutjarem H0 quan RX1 sigui massa petit.
n1 n2
E(U ) =
2
n1 n2 (n1 + n2 + 1)
V (U ) =
12
n1 n2
U− 2
Z=q ' N (0, 1)
n1 n2 (n1 +n2 +1)
12
Exemple: En unes peces de ceràmica s’ha introduït un nou compost per tal d’augmentar-
ne la resistència a la ruptura. Per contrastar l’increment de la resistència es prenen 30 peces
fabricades amb el procediment tradicional i 25 peces amb la introducció del nou compost. La
hipòtesi nul·la és H0 : la resistència no és alterada pel nou compost, i l’aternativa H1 : el nou
compost incrementa la resistència. Fixarem el nivell de significació en α = 0.05.
145, 143, 139, 163, 143, 165, 162, 159, 144, 150, 159, 168, 140, 150, 142,
141, 158, 164, 142, 145, 158, 153, 152, 159, 144, 163, 164, 171, 149, 146
170, 169, 152, 168, 161, 151, 175, 174, 165, 175, 152, 148, 153, 148, 170,
172, 169, 167, 165, 175, 164, 179, 156, 155, 160
La taula següent conté tots els valors ordenats (V), indicant de quina mostra són (M) i també el
seu rang associat (R). El codi 1 correspon a la mostra observada en el cas del mètode tradicional
i el codi 2 a la mostra amb el nou compost.
11 Alguns contrasts no paramètrics 329
V 139 140 141 142 142 143 143 144 144 145 145 146 148 148
M 1 1 1 1 1 1 1 1 1 1 1 1 2 2
R 1 2 3 4.5 4.5 6.5 6.5 8.5 8.5 10.5 10.5 12 13.5 13.5
V 149 150 150 151 152 152 152 153 153 155 156 158 158 159
M 1 1 1 2 1 2 2 1 2 2 2 1 1 1
R 15 16.5 16.5 18 20 20 20 22.5 22.5 24 25 26.5 26.5 29
V 159 159 160 161 162 163 163 164 164 164 165 165 165 167
M 1 1 2 2 1 1 1 1 1 2 1 2 2 2
R 29 29 31 32 33 34.5 34.5 37 37 37 40 40 40 42
V 168 168 169 169 170 170 171 172 174 175 175 175 179
M 1 2 2 2 2 2 1 2 2 2 2 2 2
R 43.5 43.5 45.5 45.5 47.5 47.5 49 50 51 53 53 53 55
La suma dels rangs dels elements de la primera mostra és RX1 = 617, i el valor de U és
n1 (n1 + 1) 30 · 31
U = n1 n2 + − RX1 = 30 · 25 + − 617 = 598
2 2
El valor de l’estadístic Z és
n1 n2 30·25
U− 2 598 − 2
Z=q =q = 3.769
n1 n2 (n1 +n2 +1) 30·25(30+25+1)
12 12
La regió de rebuig, per a un nivell de significació α = 0.05, tal com s’ha plantejat la hipòtesi al-
ternativa és (z0.95 , +∞) = (1.645, +∞). Com que 3.769 està dintre d’aquest interval, rebutjarem
la hipòtesi nul·la que la resistència és la mateixa en favor que la resistència ha augmentat.
En el Capítol 1, Secció 49, vam considerar el cas en què les observacions mostrals es classifi-
caven segons dues variables o factors diferents on interessava esbrinar si aquestes variables eren
independents estadísticament. Allà vam analitzar aquesta situació des d’un punt de vista des-
criptiu a través de les representacions gràfiques de les taules de contingència. En aquesta secció
contrastarem la independència mitjançant una prova amb la χ2 .
330 Elements d’estadística
pij = P (X = i, Y = j)
pi· = P (X = i)
p·j = P (Y = j)
La independència dels factors equival a que pij = pi· p·j per a tots els parells i, j. Les hipòtesis
a contrastar són
H0 : pij = pi· p·j per tots els i, j H1 : pij 6= pi· p·j per alguns i, j
Estimant pi· i p·j a partir de les freqüències observades, les freqüències esperades sota la hipòtesi
d’independència són
à k !à h ! ³Pk ´ ³P
h
´
1X 1X =1 Oi =1 O j
Eij = npi· p·j ' n Oi Oj =
n n n
=1 =1
11 Alguns contrasts no paramètrics 331
h X
X k
2 (Oij − Eij )2
χ =
Eij
i=1 j=1
segueix aproximadament una distribució χ2(h−1)(k−1) , de manera que quan el valor de χ2 sigui
prou gran, més gran que un valor crític c, es rebutjarà la hipòtesi d’independència. Si volem un
risc de primera espècie igual a un nivell de significació α, aleshores agafarem c = χ2(h−1)(k−1),1−α ,
i es rebutjarà la hipòtesi d’independència quan el valor de χ2 sigui superior a χ2(h−1)(k−1),1−α .
Es mostra a continuació l’aplicació del contrast de la χ2 als dos exemples presentats a la Secció
1.7. Per a aquests exemples es va construir la taula de contingència i el seu gràfic de mosaic.
Es va assenyalar, també, la dificultat de determinar d’una manera clara la independència de les
dues variables que caracteritzen les dades.
falla
F1 F2 F3 F4
línea L1 31 11 50 53
L2 8 19 10 21
D’altra banda, prenent per exemple α = 0.05 resulta χ23,1−α = χ23,0.95 = 7.81. Com que el valor
de χ2 = 23.17 és superior a 7.81 rebutgem la hipòtesi d’independència.
El p-value és en aquest cas de 0.000037, que és quasi zero. Això significa que les dades de la
mostra evidencien molt clarament que falla la hipòtesi d’independència, ja que per a tots els
nivells de significació α “raonables”, és a dir de l’ordre de 0.01, 0.05 o 0.10, el contrast ens
portarà a rebutjar la hipòtesi d’independència ja que tots aquests nivells de significació són més
grans que el p-value de 0.000037. De fet, fins i tot per a nivells de significació exageradament
petits com α = 0.001 o α = 0.005, que afavoreixen de forma molt clara la decisió d’acceptar la
hipòtesi nul·la d’independència, el contrast ens portarà a rebutjar la hipòtesi d’independència
al ser el p-value més petit que ells.
Exemple: Es treballa en tres torns i es vol veure si els diferents tipus d’avaries depenen del
torn (vegeu Secció 1.7, pàgina 52). Les dades són
avaria
A1 A2 A3 A4
T1 52 30 21 25
torn
T2 41 25 18 23
T3 31 26 17 20
al que correspon un p-value de 0.9542. Aquí no hi ha evidència en contra de H0 , ja que tots els
nivells de significació prou raonables són més petits que el p-value i, en conseqüència, s’acceptarà
que les avaries en les màquines no depenen del torn.
R =I1 ∪ · · · ∪ Ih
11 Alguns contrasts no paramètrics 333
R =J1 ∪ · · · ∪ Jk
Y
J1 J2 ··· Jk
I1 O11 O12 ··· O1k
X I2 O21 O22 ··· O2k
.. .. .. .. ..
. . . . .
Ih Oh1 Oh2 ··· Ohk
Per dur a terme el contrast d’independència de l’apartat anterior es prenia una mostra aleatòria
d’individus sobre els quals es mesuraven les variables X i Y . Podem fer servir la mateixa prova
però en un context diferent. Suposem que volem contrastar si la proporció d’unitats defectuoses
que genera un procés és la mateixa en els tres torns en què es treballa. Prenem una mostra de
per exemple 5000 unitats produïdes en cada un dels torns i les classifiquem en defectuoses i no
defectuoses. Suposem que els resultats són els que es presenten a la taula
T1 T2 T3
defectuós 182 143 389
no defectuós 4818 4857 4611
Total 5000 5000 5000
La hipòtesi nul·la és
i l’alternativa
L’estadístic de prova és
h X
X k
(Oij − Eij )2
χ2 =
Eij
i=1 j=1
334 Elements d’estadística
on
µ ¶Ã !
P
h P
k
Oij Oij
i=1 j=1
Eij =
n
h X
X k
2 (Oij − Eij )2 (182 − 238)2 (143 − 238)2 (389 − 238)2
χ = = + + +
Eij 238 238 238
i=1 j=1
Observem que en aquesta prova la selecció de la mostra s’ha fet en cada una de les categories
de les quals es vol contrastar la homogeneïtat, i amb totals fixats.
11.5 Exercicis
Problema 11.1 Sigui X una variable aleatòria contínua i sigui M la seva mediana. Apliqueu
el test dels signes a les diferències xi − M per contrastar H0 : M = 30 contra H1 : M < 30 a
partir de les següents observacions de X i amb un nivell de significació de α = 0.05.
30.24, 30.18, 22.9, 20.18, 20.84, 21.32, 24.45, 31.08, 32.04, 23.4, 29.96, 28.4, 22.34, 29.5, 27.06,
25.63, 30.37, 25.35, 23.25, 31, 28.99, 29.48, 32.36, 24.26, 33.4, 22.21, 27.49, 21.81, 32.3, 23.84.
Problema 11.2 En una planta industrial s’han fet una sèrie de canvis per tal de reduir el
temps de reparació d’una determinada avaria que es produeix bastant sovint. Les dades següents
corresponen als temps de reparació, en minuts, enregistrats al llarg del darrer any abans de fer
els canvis:
14.28, 11.02, 13.55, 7.29, 10.34, 11.17, 13.86, 9.38, 8.37, 6.84, 11.22, 7.22, 13.71, 14.56,
9.17, 11.68, 8.77, 6.07, 11.14, 12.08, 7.57, 8.7
Els temps enregistrats durant el primer any després dels canvis, també en minuts, són
7.67, 6.24, 6.26, 10.17, 7.75, 10.34, 7.71, 8.83, 6.66, 11.64, 10.77, 7.1, 5.62, 12.7, 13.53,
8.49, 11.48, 12.73, 13.17, 8.97, 10.8, 7.64, 13.55, 7.29, 10.34, 11.17
11 Alguns contrasts no paramètrics 335
Apliqueu el contrast de Wilcoxon i Mann-Whitney per contrastar si els canvis han reduït el
temps de reparació amb α = 0.05.
Problema 11.3 Deu venedors han seguit un curs d’especialització. A la taula següent hi ha el
volum de vendes de cada venedor corresponents al període de sis mesos just abans de seguir el
curs, i al període de sis mesos just després del curs. Contrasteu l’efectivitat del curs mitjançant
el contrast dels signes i amb α = 0.10.
abans curs 10098 5599 5326 12549 5376 11762 14500 13763 14686 7544
després curs 13018 14971 8640 8894 14440 14062 13284 8365 7069 14867
Problema 11.4 Contrasteu mitjançant el contrast dels rangs amb signe de Wilcoxon i amb
α = 0.05 l’efectivitat d’un tractament per equilibrar la pressió arterial màxima, en persones
hipertenses a partir de les dades de la taula
abans 20 18 18 18 20 17 18 15 17 19 15 21 19 19
després 19 13 15 17 15 15 18.5 13 14 19 14 21.5 14 15
abans 16 20 20 21 17 20 19 21 16 20 18 21
després 17 21 18 21 13 16 16 20 12 19 18 21
Problema 11.5 S’agafa una mostra de persones que es classifiquen en funció de si fumen o no,
i si fan esport regularment o no. Els resultats són a la taula següent:
Fa esport No fa esport
Fuma 98 350
No fuma 432 985
Contrasteu la hipòtesi nul·la, amb α = 0.01, que el fet de fumar és independent de si es fa esport
o no.
Problema 11.6 En un procés es poden produir tres tipus de defecte, i es treballa amb tres
màquines. Es vol contrastar si les proporcions dels tres tipus de defecte són les mateixes per a
cada màquina. S’agafen mil unitats per màquina amb els resultats a la taula següent:
M1 M2 M3
D1 603 590 245
D2 196 202 614
D3 201 208 141
A l’apartat d’estadística descriptiva hem vist el problema de la regressió lineal des d’un punt
de vista descriptiu. Aquí es reprèn el tema per anar una mica més lluny veient el problema
des d’un enfoc de modelització. El problema es planteja des del punt de vista de l’estudi d’una
quantitat, u, que ve determinada per una sèrie de variables de les quals només se’n coneix una
i, a més a més, es desconeix la relació a partir de la que aquesta variable determina u.
La situació ideal seria conèixer totes les variables x1 , . . . , xk que intervenen, i també la seva
relació funcional u = ψ(x1 , . . . , xk ). En aquest cas es podria determinar exactament u.
Quan es considera la variable x per determinar u el que s’està fent, al no poder identificar totes
les variables, és aïllar una variable dominant, x, per al càlcul de u. Llavors la relació desconeguda
u = ψ(x1 , . . . , xk )
u = µ(x) + h(x, x2 , . . . , xk )
on µ(x) és una funció coneguda, excepte pel que fa a certs paràmetres. Si h(x, x2 , . . . , xk )
pren valors petits en comparació als de µ(x) per a tot valor de x, aleshores la funció µ(x) pot
aproximar acceptablement u.
Y = µ(x) + ε
338 Elements d’estadística
on Y és una variable aleatòria que dóna el valor de u com funció de x, més un error aleatori ε.
Si, a més a més, se suposa que E(ε) = 0, llavors E(Y ) = µ(x).
D’aquesta manera, per a x = a el valor µ(a) proporciona una aproximació de u quan la variància
de ε és petita.
La situació anterior es modelitzarà de manera precisa en termes del que s’anomena el model de
regressió simple. L’exercici de modelització tracta d’expressar mitjançant equacions matemà-
tiques les característiques essencials del problema. Ara bé, convé tenir en compte que el procés
de modelització comporta la idealització, fent certs supòsits convenients, i simplificació, ignorant
certs detalls, de la realitat.
En el cas que ens interessa, es té una variable, x, que se suposa no aleatòria, i per a cada
valor de x es té una variable aleatòria, Y , tal que la seva esperança és una funció de x, que se
suposarà lineal. Se suposarà també que les úniques causes d’influència en la variable Y , que
s’anomenarà variable resposta, són, d’una banda, els diferents valors de x variable no aleatòria
que s’anomenarà variable explicativa, i d’una altra, un conjunt de factors, d’efectes individuals
poc importants, que reben el nom de pertorbació aleatòria o error, ε.
Y = β0 + β1x + ε
i s’ha d’entendre com una aproximació simple d’una relació més complexa entre Y i x.
Hipòtesi sobre la variable d’error: La variable d’error se suposarà que és normal amb
esperança zero i amb la mateixa variància V (ε) = σ 2 per a tot possible valor de x,
ε ∼ N (0, σ 2 )
12 El model de regressió simple 339
Y ∼ N (β 0 + β 1 x, σ 2 )
Y1 = β 0 + β 1 x1 + ε1
Y2 = β 0 + β 1 x2 + ε2
..
.
Yn = β 0 + β 1 xn + εn
amb
εi ∼ N (0, σ 2 ), i = 1, . . . , n, i εi , εj independents si i 6= j
Yi ∼ N (β 0 + β 1 xi , σ 2 ), i = 1, . . . , n, i Yi , Yj independents si i 6= j
En forma matricial és
Y1 1 x1 Ã ! ε1
.. .. .. β 0
+ ...
. = . . β
1
Yn 1 xn εn
340 Elements d’estadística
amb
Y1 1 x1 Ã ! ε1
Y = ... , X = .. .. , β = β 0 , ε = ..
. . β1
.
Yn 1 xn εn
b0 = Y − β
β b x
1
P P
on SQXY = ni=1 (xi −x)(Yi −Y ) rep el nom de suma de productes creuats i SQX = ni=1 (xi −
x)2 suma de quadrats de x.
Observem que β b i β b corresponen als coeficients de la recta ajustada a la Secció 1.6. Ara
0 1
bé, aquests valors aquí prenen un sentit més precís pel marc teòric en què s’enquadren. Els
coeficients de correlació i determinació tenen la mateixa interpretació que la donada en termes
descriptius.
L’estimador de σ 2 és
1 X³ ´2
n
b =
σ 2 b −β
Yi − β b xi
0 1
n
i=1
b +β
Notació: Per a cada valor x = z, el valor β b z és l’estimació de l’esperança E (Yx=z ) de la
0 1
variable resposta Y quan x = z. En general s’escriu
b +β
(Yx=z ) = Ybz = β
E\ b z o també b +β
bY (z) = Ybz = β
µ b z
0 1 0 1
b +β
Ybi = β b xi = µ
bY (xi )
0 1
12 El model de regressió simple 341
La diferència, per a cada xi , entre valors observats i valors predits de la variable resposta són
els residus
b −β
ei = Yi − Ybi = Yi − β b xi
0 1
de manera que
1 X³ ´2 X³ ´2
n n n
b −βb xi = 1 b 1X 2
b2 =
σ Yi − β 0 1 Yi − Yi = ei
n n n
i=1 i=1 i=1
La suma de quadrats
n ³
X ´2 X
n ³ ´2 Xn
SQE = b −β
Yi − β b xi = Yi − b
Yi = e2i
0 1
i=1 i=1 i=1
SQE
b2 =
σ
n
L’estimador centrat de σ 2 és
SQE
b2R =
σ
n−2
i s’anomena variància residual (standard error of estimation) i és el que es farà servir d’ara
endavant per estimar σ 2 .
Els estimadors centrats de les variàncies de β b són els que s’obtenen substituint σ 2 per σ
b0 i β 1 b2R
b iβ
en les variàncies de β b . És a dir,
0 1
³ ´ µ ¶
\ b 1 x2
V β0 = + b2R
σ
n SQX
\³ ´ b2R
σ
V β b =
1
SQX
342 Elements d’estadística
i que
b −β
β b −β
β
r1 1
= 1
√ 1 ∼ tn−2
\³ ´ b
σ R / SQX
V β b
1
cx = E(Y
La distribució de Y \ x ) és
à à ! !
1 (x − x)2
Ybx ∼ N β 0 + β 1 x, + σ2
n SQX
Pn
Per a SQE = i=1 (Yi − Ybi )2 es té
SQE
∼ χ2n−2
σ2
b iβ
i a més a més SQE és independent de β b .
0 1
H0 : β 1 = 0 H1 : β 1 6= 0
Es demostra que
SQE
∼ χ2n−2
σ2
i que si H0 : β 1 = 0 és certa llavors
SQR
∼ χ21
σ2
Llavors
SQE
∼ χ2n−2
SQR/σ 2 SQR
σ2
SQR 1 1 QM R
∼ χ21 si H0 és certa ⇒ F = 2 = SQE = QM E ∼ F1,n−2
σ2
SQE/σ
n−2 n−2
SQE i SQR són independents
i es rebutjarà H0 quan F sigui prou gran, és a dir, quan la suma de quadrats mitjans de
regressió, QM R = SQR/1, sigui prou més gran que la suma de quadrats mitjans d’error,
QM E = SQE/ (n − 2). Fixant un nivell de significació α, es rebutjarà H0 quan F > f1,n−2,1−α .
b −β
β b −β
β
r1 1
= 1
√ 1 ∼ tn−2
\³ ´ bR / SQX
σ
V β b
1
344 Elements d’estadística
µ ¶
bR
b − tn−2,1− α √ σ b bR
σ
I1−α (β 1 ) = β , β + t α √
1 1 n−2,1− 2
2
SQX SQX
que correspon a
bR
b1 ± tn−2,1− α √ σ
β 2
SQX
b − β0
β b − β0
β
r0 = q0 ∼ tn−2
\³ ´ 1 x2
b
V β0 b
σ R n + SQX
i després d’algunes manipulacions, l’interval de confiança que s’obté per a β 0 amb nivell de
confiança 1 − α és
às s !
b − tn−2,1− α σ 1 x2b + tn−2,1− α σ 1 x2
I1−α (β 0 ) = β 0 bR + , β 0 bR +
2
n SQX 2
n SQX
que correspon a
s
b ± tn−2,1− α σ 1 x2
β 0 bR +
2
n SQX
σ 2R
(n − 2)b SQE
= ∼ χ2n−2
σ2 σ2
permet obtenir l’interval
à !
¡ ¢ σ 2R (n − 2)b
(n − 2)b σ 2R
I1−α σ 2 = ,
χ2n−2,1− α χ2n−2, α
2 2
12 El model de regressió simple 345
Ybx − β 0 − β 1 x
q 2
∼ tn−2
bR n1 + (x−x)
σ SQX
s s
1 (x − x)2 b 1 (x − x)2
I1−α (β 0 + β 1 x) = Ybx − tn−2,1− α2 σ
bR + bR
, Yx + tn−2,1− α2 σ +
n SQX n SQX
s s
1 (x0 − x)2 b 1 (x0 − x)2
I1−α (Y0 ) = Yb0 − tn−2,1− α2 σ
bR 1+ + bR
, Y0 + tn−2,1− α2 σ 1+ +
n SQX n SQX
visc 14.5 26.4 1.58 20.1 35.7 22.2 41.3 41.5 33.3 8.1 9.38
vol 191 142 239 156 111 173 112 76 95 221 180
La recta ajustada és la mateixa que allà ja s’havia obtingut: y = 238.08 − 3.633x, amb x = visc
i y = vol. El coeficient de correlació és r = −0.9567 i el de determinació r2 = 0.9152.
b2R = QM E = 258.477 i σ
En aquest cas la variància residual és σ bR = 16.077. L’interval de
2
confiança per a σ amb un nivell de confiança 1 − α = 0.95 és
i per a σ
I0.95 (σ) = (10.66, 26.77)
Per a x = 30 és
En el gràfic 12.1 es representen els límits de confiança per a les mitjanes µY (x) i els de predicció
per valors individuals Yx juntament amb la recta ajustada i el diagrama de punts.
Els resultats presentats ho han estat en el supòsit de normalitat, variància constant i independèn-
cia de les observacions. És a dir, sota el supòsit que εi ∼ N (0, σ 2 ) per a i = 1, . . . , n, essent
ε1 , . . . , εn independents. Com que les variables d’error εi no són directament observables, la veri-
ficació del compliment dels supòsits teòrics el farem mitjançant l’anàlisi dels residus, ei = Yi − Ybi ,
ja que aquests ei estimen de fet els valors dels εi .
Si el model és adequat per a les dades, els residus ei = Yi − Ybi són aproximadament errors
aleatoris i per tant no s’han de comportar de cap manera específica que sigui discernible del que
és la mera variabilitat aleatòria.
Els ei es poden interpretar com realitzacions de l’error que proporcionen una mesura de la
variabilitat no explicada per l’ajust. Per tant, les desviacions dels supòsits teòrics s’hauran de
reflectir en el comportament dels residus.
Convé observar que els residus ei no són independents, encara que aquest fet pràcticament
no afecta la seva utilització en la detecció de la manca de compliment dels supòsits teòrics.
Els comportaments específics dels residus indiquen la presència d’informació addicional que
convindrà incorporar en el model. La manca de comportaments específics indica que el model
explica les principals relacions entre les variables.
En principi es poden fer servir els residus estandarditzats que s’obtenen al dividir els ei per la
bR ,
desviació típica aproximada σ
e1 en
,...,
bR
σ bR
σ
Sota les hipòtesis del model, els residus estandarditzats equivalen aproximadament a una mostra
aleatòria d’una variable N (0, 1). El gràfic de probabilitat normal serà per tant útil per detectar
falles en la hipòtesi de normalitat.
Per a alguns conjunts de dades les desviacions típiques dels residus poden variar considerable-
ment, sobretot per a conjunts petits de dades. Llavors, és convenient en comptes de fer servir
p
bR per estandarditzar, fer-ho amb σ ei = V (ei ), desviació típica dels propis residus que es
σ
calcularan a partir de
e1 Y1 − Yb1
¡ ¢
e = ... = ..
. b Y − Xβ
= Y−Y= b = Y − X XT X −1 XT Y
en Yn − Ybn
³ ¡ ¢−1 T ´ ¡ ¢−1 T
= I − X XT X X Y = (I − H) Y amb H = X XT X X
348 Elements d’estadística
Observem que
³ ¡ ¢−1 T ´
E(e) = E ((I − H) Y) = I − X XT X X Xβ = 0
Σ (e) = σ 2 (I − H)
on Σ (e) és la matriu de covariància, els elements de la diagonal de la qual són les variàncies de
les variables ei . D’aquesta manera s’obté que
p
E (ei ) = 0, V (ei ) = σ 2 (1 − hii ) i σ ei = σ 1 − hii
b2R es té
Aleshores, estimant σ 2 per σ
p
\
V b2R (1 − hii )
(ei ) = σ bei = σ
σ bR 1 − hii
i en conseqüència
ei e
= √ i
bei
σ bR 1 − hii
σ
Els residus ri = ei /b
σ ei , i = 1, . . . , n, són els residus que es faran servir i reben el nom de residus
estudentitzats.
Les possibles desviacions del model es poden concretar en les situacions següents:
2. La variància no és constant
3. Falla la independència.
5. Falla la normalitat.
Per tal de detectar aquestes situacions i examinar l’adequació del model, en molts casos és
suficient l’anàlisi gràfica dels residus. Els gràfics que s’utilitzen són:
12 El model de regressió simple 349
(i) Gràfic (xi , ri ) de residus contra valors de predicció i gràfic (Ybi , ri ) de residus contra
valors ajustats
La informació que proporcionen aquests dos gràfics és equivalent ja que els valors Ybi són funcions
lineals dels valors xi i per tant l’única diferència que es reflecteix entre el gràfic (xi , ri ) i el (Ybi , ri )
és la diferència d’escala.
Sota les hipòtesis del model, els valors ajustats Yb1 , . . . , Ybn són independents dels residus r1 , . . . , rn
(estudentitzats o estandarditzats), i si el gràfic (Ybi , ri ) presenta alguna tendència significa que
alguna de les hipòtesis falla. En particular, es pot detectar un tipus d’associació no lineal entre
x i Y , la variància no constant, o l’existència de valors extrems (anomalies) de Y .1
Exemple: En el cas de x = visc i y = vol aquests gràfics són els de Fig. 12.2 i Fig. 12.3.
1
La detecció de possibles valors extrems de la variable x en la regressió simple es duu a terme mitjançant
l’anàlisi directa dels valors xi . En canvi, l’anàlisi univariant directa dels valors de Y no té utilitat en la detecció
de valors extrems al ser els Yi funció dels nivells de la variable x.
350 Elements d’estadística
L’aparició de tendències en aquest gràfic pot ser deguda a la manca d’independència de les
observacions. Convé de tota manera tenir en compte que a vegades la tendència és deguda més
a que el model no és adequat que no a la manca d’independència.
Sota les hipòtesis del model, els residus estandarditzats (o estudentitzats) r1 , . . . , rn equivalen
aproximadament a una mostra aleatòria d’una variable N (0, 1). El gràfic de probabilitat normal
serà per tant útil per detectar desviacions notables (les petites desviacions no tenen grans efectes)
de la hipòtesi de normalitat. És convenient tenir en compte que a vegades la desviació de la
normalitat que mostra el gràfic de probabilitat pot ser motivat per la variància no constant o
perquè l’equació de regressió és inapropiada, més que per una manca de normalitat. Per tant,
serà convenient comprovar el compliment de les altres hipòtesis abans de la normalitat.
(iv) Gràfic (ui , ri ) de residus contra els valors d’una variable externa
Mesures correctives
Per corregir la variància no constant es pot recórrer a transformacions apropiades de les dades
o fer servir els mínims quadrats ponderats.
12.7 Exercicis
a) Calculeu un interval de predicció del 95% per a la temperatura que assolirà un bescanviador
que fa servir 400 litres de vapor.
b) Calculeu també un interval de confiança del 95% per a la temperatura mitjana per la
mateixa quantitat de vapor.
Problema 12.2 En un estudi sobre el desgast de la superfície d’un pneumàtic se suposa que
la temperatura ambient és un factor que pot influir en la quantitat de desgast mesurada amb
un coeficient de desgast Les dades de la taula següent representen el desgast corresponent als
pneumàtics d’un tipus concret que es va utilitzar en l’experiment. Cadascuna de les proves es
va fer a una temperatura diferent, i totes elles amb el mateix vehicle:
b) Calculeu un interval de confiança del 95% pel desgast mitjà quan la temperatura ambient
és de 22 ◦ C.
Problema 12.3 Les dades següents corresponen a la factura promig anual de la llum en una
mostra aleatòria de vivendes situades en un entorn de característiques semblants, conjuntament
amb la superfície de la vivenda:
b) Calculeu un interval de confiança del 95% per al pendent β 1 de l’equació teòrica d’ajust
y = β 0 + β 1 x.
d) Calculeu un interval de confiança del 95% per a la factura promig d’una vivenda de 95 m2 .
FZ(z)
U ∼ χ k2
ck2
g
P (U ≤ χ k2,γ ) = γ
c2
k,g
γ
k 0,005 0,01 0,025 0,05 0,1 0,25 0,5 0,75 0,9 0,95 0,975 0,99 0,995 0,999
1 0,000 0,000 0,001 0,004 0,016 0,102 0,455 1,323 2,706 3,841 5,024 6,635 7,879 10,828
2 0,010 0,020 0,051 0,103 0,211 0,575 1,386 2,773 4,605 5,991 7,378 9,210 10,597 13,816
3 0,072 0,115 0,216 0,352 0,584 1,213 2,366 4,108 6,251 7,815 9,348 11,345 12,838 16,266
4 0,207 0,297 0,484 0,711 1,064 1,923 3,357 5,385 7,779 9,488 11,143 13,277 14,860 18,467
5 0,412 0,554 0,831 1,146 1,610 2,675 4,352 6,626 9,236 11,070 12,833 15,086 16,750 20,515
6 0,676 0,872 1,237 1,635 2,204 3,455 5,348 7,841 10,645 12,592 14,449 16,812 18,548 22,458
7 0,989 1,239 1,690 2,167 2,833 4,255 6,346 9,037 12,017 14,067 16,013 18,475 20,278 24,322
8 1,344 1,647 2,180 2,733 3,490 5,071 7,344 10,219 13,362 15,507 17,535 20,090 21,955 26,124
9 1,735 2,088 2,700 3,325 4,168 5,899 8,343 11,389 14,684 16,919 19,023 21,666 23,589 27,877
10 2,156 2,558 3,247 3,940 4,865 6,737 9,342 12,549 15,987 18,307 20,483 23,209 25,188 29,588
11 2,603 3,054 3,816 4,575 5,578 7,584 10,341 13,701 17,275 19,675 21,920 24,725 26,757 31,264
12 3,074 3,571 4,404 5,226 6,304 8,438 11,340 14,845 18,549 21,026 23,337 26,217 28,300 32,909
13 3,565 4,107 5,009 5,892 7,042 9,299 12,340 15,984 19,812 22,362 24,736 27,688 29,819 34,528
14 4,075 4,660 5,629 6,571 7,790 10,165 13,339 17,117 21,064 23,685 26,119 29,141 31,319 36,123
15 4,601 5,229 6,262 7,261 8,547 11,037 14,339 18,245 22,307 24,996 27,488 30,578 32,801 37,697
16 5,142 5,812 6,908 7,962 9,312 11,912 15,339 19,369 23,542 26,296 28,845 32,000 34,267 39,252
17 5,697 6,408 7,564 8,672 10,085 12,792 16,338 20,489 24,769 27,587 30,191 33,409 35,718 40,790
18 6,265 7,015 8,231 9,391 10,865 13,675 17,338 21,605 25,989 28,869 31,526 34,805 37,156 42,312
19 6,844 7,633 8,907 10,117 11,651 14,562 18,338 22,718 27,204 30,144 32,852 36,191 38,582 43,820
20 7,434 8,260 9,591 10,851 12,443 15,452 19,337 23,828 28,412 31,410 34,170 37,566 39,997 45,315
21 8,034 8,897 10,283 11,591 13,240 16,344 20,337 24,935 29,615 32,671 35,479 38,932 41,401 46,797
22 8,643 9,543 10,982 12,338 14,042 17,240 21,337 26,039 30,813 33,924 36,781 40,289 42,796 48,268
23 9,260 10,196 11,689 13,091 14,848 18,137 22,337 27,141 32,007 35,172 38,076 41,638 44,181 49,728
24 9,886 10,856 12,401 13,848 15,659 19,037 23,337 28,241 33,196 36,415 39,364 42,980 45,559 51,179
25 10,520 11,524 13,120 14,611 16,473 19,939 24,337 29,339 34,382 37,652 40,646 44,314 46,928 52,620
26 11,160 12,198 13,844 15,379 17,292 20,843 25,337 30,435 35,563 38,885 41,923 45,642 48,290 54,052
27 11,808 12,879 14,573 16,151 18,114 21,749 26,336 31,528 36,741 40,113 43,195 46,963 49,645 55,476
28 12,461 13,565 15,308 16,928 18,939 22,657 27,336 32,620 37,916 41,337 44,461 48,278 50,993 56,892
29 13,121 14,257 16,047 17,708 19,768 23,567 28,336 33,711 39,087 42,557 45,722 49,588 52,336 58,301
30 13,787 14,954 16,791 18,493 20,599 24,478 29,336 34,800 40,256 43,773 46,979 50,892 53,672 59,703
35 17,192 18,509 20,569 22,465 24,797 29,054 34,336 40,223 46,059 49,802 53,203 57,342 60,275 66,619
40 20,707 22,164 24,433 26,509 29,051 33,660 39,335 45,616 51,805 55,758 59,342 63,691 66,766 73,402
45 24,311 25,901 28,366 30,612 33,350 38,291 44,335 50,985 57,505 61,656 65,410 69,957 73,166 80,077
50 27,991 29,707 32,357 34,764 37,689 42,942 49,335 56,334 63,167 67,505 71,420 76,154 79,490 86,661
60 35,535 37,485 40,482 43,188 46,459 52,294 59,335 66,981 74,397 79,082 83,298 88,379 91,952 99,607
70 43,275 45,442 48,758 51,739 55,329 61,698 69,335 77,577 85,527 90,531 95,023 100,425 104,215 112,317
80 51,172 53,540 57,153 60,392 64,278 71,145 79,334 88,130 96,578 101,879 106,629 112,329 116,321 124,839
90 59,196 61,754 65,647 69,126 73,291 80,625 89,334 98,650 107,565 113,145 118,136 124,116 128,299 137,208
100 67,328 70,065 74,222 77,930 82,358 90,133 99,334 109,141 118,498 124,342 129,561 135,807 140,169 149,449
Taula de percentils de la distribució t de Student
T ∼ tk tk
g
P(T ≤ tk,γ ) = γ
t k ,γ
γ γ
k 0,55 0,6 0,7 0,8 0,9 0,975 0,99 0,995 0,999
1 0,1584 0,3249 0,7265 1,3764 3,0777 12,7062 31,8205 63,6567 318,3090
2 0,1421 0,2887 0,6172 1,0607 1,8856 4,3027 6,9646 9,9248 22,3270
3 0,1366 0,2767 0,5844 0,9785 1,6377 3,1824 4,5407 5,8409 10,2150
4 0,1338 0,2707 0,5686 0,9410 1,5332 2,7764 3,7469 4,6041 7,1730
5 0,1322 0,2672 0,5594 0,9195 1,4759 2,5706 3,3649 4,0321 5,8930
6 0,1311 0,2648 0,5534 0,9057 1,4398 2,4469 3,1427 3,7074 5,2080
7 0,1303 0,2632 0,5491 0,8960 1,4149 2,3646 2,9980 3,4995 4,7850
8 0,1297 0,2619 0,5459 0,8889 1,3968 2,3060 2,8965 3,3554 4,5010
9 0,1293 0,2610 0,5435 0,8834 1,3830 2,2622 2,8214 3,2498 4,2970
10 0,1289 0,2602 0,5415 0,8791 1,3722 2,2281 2,7638 3,1693 4,1440
11 0,1286 0,2596 0,5399 0,8755 1,3634 2,2010 2,7181 3,1058 4,0250
12 0,1283 0,2590 0,5386 0,8726 1,3562 2,1788 2,6810 3,0545 3,9300
13 0,1281 0,2586 0,5375 0,8702 1,3502 2,1604 2,6503 3,0123 3,8520
14 0,1280 0,2582 0,5366 0,8681 1,3450 2,1448 2,6245 2,9768 3,7870
15 0,1278 0,2579 0,5357 0,8662 1,3406 2,1314 2,6025 2,9467 3,7330
16 0,1277 0,2576 0,5350 0,8647 1,3368 2,1199 2,5835 2,9208 3,6860
17 0,1276 0,2573 0,5344 0,8633 1,3334 2,1098 2,5669 2,8982 3,6460
18 0,1274 0,2571 0,5338 0,8621 1,3304 2,1009 2,5524 2,8784 3,6100
19 0,1274 0,2569 0,5333 0,8610 1,3277 2,0930 2,5395 2,8609 3,5790
20 0,1273 0,2567 0,5329 0,8600 1,3253 2,0860 2,5280 2,8453 3,5520
21 0,1272 0,2566 0,5325 0,8591 1,3232 2,0796 2,5176 2,8314 3,5270
22 0,1271 0,2564 0,5321 0,8583 1,3212 2,0739 2,5083 2,8188 3,5050
23 0,1271 0,2563 0,5317 0,8575 1,3195 2,0687 2,4999 2,8073 3,4850
24 0,1270 0,2562 0,5314 0,8569 1,3178 2,0639 2,4922 2,7969 3,4670
25 0,1269 0,2561 0,5312 0,8562 1,3164 2,0595 2,4851 2,7874 3,4500
26 0,1269 0,2560 0,5309 0,8557 1,3150 2,0555 2,4786 2,7787 3,4350
27 0,1268 0,2559 0,5306 0,8551 1,3137 2,0518 2,4727 2,7707 3,4210
28 0,1268 0,2558 0,5304 0,8547 1,3125 2,0484 2,4671 2,7633 3,4080
29 0,1268 0,2557 0,5302 0,8542 1,3114 2,0452 2,4620 2,7564 3,3960
30 0,1267 0,2556 0,5300 0,8538 1,3104 2,0423 2,4573 2,7500 3,3850
35 0,1266 0,2553 0,5292 0,8520 1,3062 2,0301 2,4377 2,7238 3,3400
40 0,1265 0,2550 0,5286 0,8507 1,3031 2,0211 2,4233 2,7045 3,3070
45 0,1264 0,2549 0,5281 0,8497 1,3007 2,0141 2,4121 2,6896 3,2810
50 0,1263 0,2547 0,5278 0,8489 1,2987 2,0086 2,4033 2,6778 3,2610
60 0,1262 0,2545 0,5272 0,8477 1,2958 2,0003 2,3901 2,6603 3,2320
70 0,1261 0,2543 0,5268 0,8468 1,2938 1,9944 2,3808 2,6479 3,2110
80 0,1261 0,2542 0,5265 0,8461 1,2922 1,9901 2,3739 2,6387 3,1950
90 0,1260 0,2541 0,5263 0,8456 1,2910 1,9867 2,3685 2,6316 3,1830
100 0,1260 0,2540 0,5261 0,8452 1,2901 1,9840 2,3642 2,6259 3,1740
120 0,1259 0,2539 0,5258 0,8446 1,2887 1,9799 2,3578 2,6174 3,1600
200 0,1258 0,2537 0,5252 0,8434 1,2858 1,9719 2,3451 2,6006 3,1310
500 0,1257 0,2535 0,5247 0,8423 1,2833 1,9647 2,3338 2,5857 3,1070
1000 0,1257 0,2534 0,5246 0,8420 1,2824 1,9623 2,3301 2,5808 3,0980
Taula del percentil 90 de la distribució F de Fisher
1
P(Y ≤ f p,m,0.90 ) = 0.90
Fp m
Y ∼ Fp m f p , m ,0.10 =
0.90 f m , p ,0.90
f p,m,0.90
numerador
denominador 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
1 39,8635 49,5000 53,5932 55,8330 57,2401 58,2044 58,9060 59,4390 59,8576 60,1950 60,4727 60,7052 60,9028 61,0727 61,2203 61,3499 61,4644
2 8,5263 9,0000 9,1618 9,2434 9,2926 9,3255 9,3491 9,3668 9,3805 9,3916 9,4006 9,4081 9,4145 9,4200 9,4247 9,4289 9,4325
3 5,5383 5,4624 5,3908 5,3426 5,3092 5,2847 5,2662 5,2517 5,2400 5,2304 5,2224 5,2156 5,2098 5,2047 5,2003 5,1964 5,1929
4 4,5448 4,3246 4,1909 4,1072 4,0506 4,0097 3,9790 3,9549 3,9357 3,9199 3,9067 3,8955 3,8859 3,8776 3,8704 3,8639 3,8582
5 4,0604 3,7797 3,6195 3,5202 3,4530 3,4045 3,3679 3,3393 3,3163 3,2974 3,2816 3,2682 3,2567 3,2468 3,2380 3,2303 3,2234
6 3,7759 3,4633 3,2888 3,1808 3,1075 3,0546 3,0145 2,9830 2,9577 2,9369 2,9195 2,9047 2,8920 2,8809 2,8712 2,8626 2,8550
7 3,5894 3,2574 3,0741 2,9605 2,8833 2,8274 2,7849 2,7516 2,7247 2,7025 2,6839 2,6681 2,6545 2,6426 2,6322 2,6230 2,6148
8 3,4579 3,1131 2,9238 2,8064 2,7264 2,6683 2,6241 2,5893 2,5612 2,5380 2,5186 2,5020 2,4876 2,4752 2,4642 2,4545 2,4458
9 3,3603 3,0065 2,8129 2,6927 2,6106 2,5509 2,5053 2,4694 2,4403 2,4163 2,3961 2,3789 2,3640 2,3510 2,3396 2,3295 2,3205
10 3,2850 2,9245 2,7277 2,6053 2,5216 2,4606 2,4140 2,3772 2,3473 2,3226 2,3018 2,2841 2,2687 2,2553 2,2435 2,2330 2,2237
11 3,2252 2,8595 2,6602 2,5362 2,4512 2,3891 2,3416 2,3040 2,2735 2,2482 2,2269 2,2087 2,1930 2,1792 2,1671 2,1563 2,1467
12 3,1765 2,8068 2,6055 2,4801 2,3940 2,3310 2,2828 2,2446 2,2135 2,1878 2,1660 2,1474 2,1313 2,1173 2,1049 2,0938 2,0839
13 3,1362 2,7632 2,5603 2,4337 2,3467 2,2830 2,2341 2,1953 2,1638 2,1376 2,1155 2,0966 2,0802 2,0658 2,0532 2,0419 2,0318
14 3,1022 2,7265 2,5222 2,3947 2,3069 2,2426 2,1931 2,1539 2,1220 2,0954 2,0729 2,0537 2,0370 2,0224 2,0095 1,9981 1,9878
15 3,0732 2,6952 2,4898 2,3614 2,2730 2,2081 2,1582 2,1185 2,0862 2,0593 2,0366 2,0171 2,0001 1,9853 1,9722 1,9605 1,9501
16 3,0481 2,6682 2,4618 2,3327 2,2438 2,1783 2,1280 2,0880 2,0553 2,0281 2,0051 1,9854 1,9682 1,9532 1,9399 1,9281 1,9175
17 3,0262 2,6446 2,4374 2,3077 2,2183 2,1524 2,1017 2,0613 2,0284 2,0009 1,9777 1,9577 1,9404 1,9252 1,9117 1,8997 1,8889
18 3,0070 2,6239 2,4160 2,2858 2,1958 2,1296 2,0785 2,0379 2,0047 1,9770 1,9535 1,9333 1,9158 1,9004 1,8868 1,8747 1,8638
19 2,9899 2,6056 2,3970 2,2663 2,1760 2,1094 2,0580 2,0171 1,9836 1,9557 1,9321 1,9117 1,8940 1,8785 1,8647 1,8524 1,8414
20 2,9747 2,5893 2,3801 2,2489 2,1582 2,0913 2,0397 1,9985 1,9649 1,9367 1,9129 1,8924 1,8745 1,8588 1,8449 1,8325 1,8214
21 2,9610 2,5746 2,3649 2,2333 2,1423 2,0751 2,0233 1,9819 1,9480 1,9197 1,8956 1,8750 1,8570 1,8412 1,8271 1,8146 1,8034
22 2,9486 2,5613 2,3512 2,2193 2,1279 2,0605 2,0084 1,9668 1,9327 1,9043 1,8801 1,8593 1,8411 1,8252 1,8111 1,7984 1,7871
23 2,9374 2,5493 2,3387 2,2065 2,1149 2,0472 1,9949 1,9531 1,9189 1,8903 1,8659 1,8450 1,8267 1,8107 1,7964 1,7837 1,7723
24 2,9271 2,5383 2,3274 2,1949 2,1030 2,0351 1,9826 1,9407 1,9063 1,8775 1,8530 1,8319 1,8136 1,7974 1,7831 1,7703 1,7587
25 2,9177 2,5283 2,3170 2,1842 2,0922 2,0241 1,9714 1,9292 1,8947 1,8658 1,8412 1,8200 1,8015 1,7853 1,7708 1,7579 1,7463
26 2,9091 2,5191 2,3075 2,1745 2,0822 2,0139 1,9610 1,9188 1,8841 1,8550 1,8303 1,8090 1,7904 1,7741 1,7596 1,7466 1,7349
27 2,9012 2,5106 2,2987 2,1655 2,0730 2,0045 1,9515 1,9091 1,8743 1,8451 1,8203 1,7989 1,7802 1,7638 1,7492 1,7361 1,7243
28 2,8938 2,5028 2,2906 2,1571 2,0645 1,9959 1,9427 1,9001 1,8652 1,8359 1,8110 1,7895 1,7708 1,7542 1,7395 1,7264 1,7146
29 2,8870 2,4955 2,2831 2,1494 2,0566 1,9878 1,9345 1,8918 1,8568 1,8274 1,8024 1,7808 1,7620 1,7454 1,7306 1,7174 1,7055
30 2,8807 2,4887 2,2761 2,1422 2,0492 1,9803 1,9269 1,8841 1,8490 1,8195 1,7944 1,7727 1,7538 1,7371 1,7223 1,7090 1,6970
40 2,8354 2,4404 2,2261 2,0909 1,9968 1,9269 1,8725 1,8289 1,7929 1,7627 1,7369 1,7146 1,6950 1,6778 1,6624 1,6486 1,6362
60 2,7911 2,3933 2,1774 2,0410 1,9457 1,8747 1,8194 1,7748 1,7380 1,7070 1,6805 1,6574 1,6372 1,6193 1,6034 1,5890 1,5760
120 2,7478 2,3473 2,1300 1,9923 1,8959 1,8238 1,7675 1,7220 1,6842 1,6524 1,6250 1,6012 1,5803 1,5617 1,5450 1,5300 1,5164
Taula del percentil 90 de la distribució F de Fisher
Fp m
Y ∼ Fp m P(Y ≤ f p,m,0.90 ) = 0.90 f p , m ,0.10 =
1
0.90 f m , p ,0.90
f p,m,0.90
numerador
denominador 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120
1 61,5664 61,6579 61,7403 61,8150 61,8829 61,9450 62,0020 62,0545 62,1030 62,1480 62,1897 62,2286 62,2650 62,5291 62,7943 63,0606
2 9,4358 9,4387 9,4413 9,4437 9,4458 9,4478 9,4496 9,4513 9,4528 9,4542 9,4556 9,4568 9,4579 9,4662 9,4746 9,4829
3 5,1898 5,1870 5,1845 5,1822 5,1801 5,1781 5,1764 5,1747 5,1732 5,1718 5,1705 5,1693 5,1681 5,1597 5,1512 5,1425
4 3,8531 3,8485 3,8443 3,8405 3,8371 3,8339 3,8310 3,8283 3,8258 3,8235 3,8213 3,8193 3,8174 3,8036 3,7896 3,7753
5 3,2172 3,2117 3,2067 3,2021 3,1979 3,1941 3,1905 3,1873 3,1842 3,1814 3,1788 3,1764 3,1741 3,1573 3,1402 3,1228
6 2,8481 2,8419 2,8363 2,8312 2,8266 2,8223 2,8183 2,8147 2,8113 2,8082 2,8053 2,8025 2,8000 2,7812 2,7620 2,7423
7 2,6074 2,6008 2,5947 2,5892 2,5842 2,5796 2,5753 2,5714 2,5677 2,5643 2,5612 2,5582 2,5555 2,5351 2,5142 2,4928
8 2,4380 2,4310 2,4246 2,4188 2,4135 2,4086 2,4041 2,3999 2,3961 2,3925 2,3891 2,3860 2,3830 2,3614 2,3391 2,3162
9 2,3123 2,3050 2,2983 2,2922 2,2867 2,2816 2,2768 2,2725 2,2684 2,2646 2,2611 2,2578 2,2547 2,2320 2,2085 2,1843
10 2,2153 2,2077 2,2007 2,1944 2,1887 2,1833 2,1784 2,1739 2,1697 2,1657 2,1621 2,1586 2,1554 2,1317 2,1072 2,0818
11 2,1380 2,1302 2,1230 2,1165 2,1106 2,1051 2,1000 2,0953 2,0909 2,0869 2,0831 2,0795 2,0762 2,0516 2,0261 1,9997
12 2,0750 2,0670 2,0597 2,0530 2,0469 2,0412 2,0360 2,0312 2,0267 2,0225 2,0186 2,0149 2,0115 1,9861 1,9597 1,9323
13 2,0227 2,0145 2,0070 2,0001 1,9939 1,9881 1,9827 1,9778 1,9732 1,9689 1,9649 1,9611 1,9576 1,9315 1,9043 1,8759
14 1,9785 1,9701 1,9625 1,9555 1,9490 1,9431 1,9377 1,9326 1,9279 1,9235 1,9194 1,9155 1,9119 1,8852 1,8572 1,8280
15 1,9407 1,9321 1,9243 1,9172 1,9106 1,9046 1,8990 1,8939 1,8891 1,8846 1,8804 1,8765 1,8728 1,8454 1,8168 1,7867
16 1,9079 1,8992 1,8913 1,8840 1,8774 1,8712 1,8656 1,8603 1,8554 1,8508 1,8466 1,8426 1,8388 1,8108 1,7816 1,7507
17 1,8792 1,8704 1,8624 1,8550 1,8482 1,8420 1,8362 1,8309 1,8259 1,8213 1,8169 1,8128 1,8090 1,7805 1,7506 1,7191
18 1,8539 1,8450 1,8368 1,8294 1,8225 1,8162 1,8103 1,8049 1,7999 1,7951 1,7907 1,7866 1,7827 1,7537 1,7232 1,6910
19 1,8314 1,8224 1,8142 1,8066 1,7997 1,7932 1,7873 1,7818 1,7767 1,7719 1,7674 1,7632 1,7592 1,7298 1,6988 1,6659
20 1,8113 1,8022 1,7938 1,7862 1,7792 1,7727 1,7667 1,7611 1,7559 1,7510 1,7465 1,7422 1,7382 1,7083 1,6768 1,6433
21 1,7932 1,7840 1,7756 1,7678 1,7607 1,7541 1,7481 1,7424 1,7372 1,7322 1,7276 1,7233 1,7193 1,6890 1,6569 1,6228
22 1,7768 1,7675 1,7590 1,7512 1,7440 1,7374 1,7312 1,7255 1,7202 1,7152 1,7106 1,7062 1,7021 1,6714 1,6389 1,6041
23 1,7619 1,7525 1,7439 1,7360 1,7288 1,7221 1,7159 1,7101 1,7047 1,6997 1,6950 1,6906 1,6864 1,6554 1,6224 1,5871
24 1,7483 1,7388 1,7302 1,7222 1,7149 1,7081 1,7019 1,6960 1,6906 1,6855 1,6808 1,6763 1,6721 1,6407 1,6073 1,5715
25 1,7358 1,7263 1,7175 1,7095 1,7021 1,6953 1,6890 1,6831 1,6776 1,6725 1,6677 1,6632 1,6589 1,6272 1,5934 1,5570
26 1,7243 1,7147 1,7059 1,6978 1,6904 1,6835 1,6771 1,6712 1,6657 1,6605 1,6556 1,6511 1,6468 1,6147 1,5805 1,5437
27 1,7137 1,7040 1,6951 1,6870 1,6795 1,6726 1,6662 1,6602 1,6546 1,6494 1,6445 1,6399 1,6356 1,6032 1,5686 1,5313
28 1,7039 1,6941 1,6852 1,6770 1,6695 1,6625 1,6560 1,6500 1,6444 1,6391 1,6342 1,6295 1,6252 1,5925 1,5575 1,5198
29 1,6947 1,6849 1,6759 1,6677 1,6601 1,6531 1,6465 1,6405 1,6348 1,6295 1,6246 1,6199 1,6155 1,5825 1,5472 1,5090
30 1,6862 1,6763 1,6673 1,6590 1,6514 1,6443 1,6377 1,6316 1,6259 1,6206 1,6156 1,6109 1,6065 1,5732 1,5376 1,4989
40 1,6249 1,6146 1,6052 1,5965 1,5884 1,5810 1,5741 1,5677 1,5617 1,5560 1,5507 1,5458 1,5411 1,5056 1,4672 1,4248
60 1,5642 1,5534 1,5435 1,5343 1,5259 1,5180 1,5107 1,5039 1,4975 1,4915 1,4859 1,4806 1,4755 1,4373 1,3952 1,3476
120 1,5039 1,4926 1,4821 1,4724 1,4634 1,4550 1,4472 1,4399 1,4331 1,4266 1,4205 1,4148 1,4094 1,3676 1,3203 1,2646
Taula del percentil 95 de la distribució F de Fisher
Fp m
1
Y ∼ Fp m P (Y ≤ f p ,m ,0.95 ) = 0.95 f p , m ,0.05 =
0.95 f m , p ,0.95
f p , m ,0.95
numerador
denominador 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
1 161,4500 199,5000 215,7100 224,5800 230,1600 233,9900 236,7700 238,8800 240,5400 241,8800 242,9800 243,9100 244,6900 245,3600 245,9500 246,4600 246,9200
2 18,5100 19,0000 19,1600 19,2500 19,3000 19,3300 19,3500 19,3700 19,3800 19,4000 19,4000 19,4100 19,4200 19,4200 19,4300 19,4300 19,4400
3 10,1300 9,5500 9,2800 9,1200 9,0100 8,9400 8,8900 8,8500 8,8100 8,7900 8,7600 8,7400 8,7300 8,7100 8,7000 8,6900 8,6800
4 7,7100 6,9400 6,5900 6,3900 6,2600 6,1600 6,0900 6,0400 6,0000 5,9600 5,9400 5,9100 5,8900 5,8700 5,8600 5,8400 5,8300
5 6,6100 5,7900 5,4100 5,1900 5,0500 4,9500 4,8800 4,8200 4,7700 4,7400 4,7000 4,6800 4,6600 4,6400 4,6200 4,6000 4,5900
6 5,9900 5,1400 4,7600 4,5300 4,3900 4,2800 4,2100 4,1500 4,1000 4,0600 4,0300 4,0000 3,9800 3,9600 3,9400 3,9200 3,9100
7 5,5900 4,7400 4,3500 4,1200 3,9700 3,8700 3,7900 3,7300 3,6800 3,6400 3,6000 3,5700 3,5500 3,5300 3,5100 3,4900 3,4800
8 5,3200 4,4600 4,0700 3,8400 3,6900 3,5800 3,5000 3,4400 3,3900 3,3500 3,3100 3,2800 3,2600 3,2400 3,2200 3,2000 3,1900
9 5,1200 4,2600 3,8600 3,6300 3,4800 3,3700 3,2900 3,2300 3,1800 3,1400 3,1000 3,0700 3,0500 3,0300 3,0100 2,9900 2,9700
10 4,9600 4,1000 3,7100 3,4800 3,3300 3,2200 3,1400 3,0700 3,0200 2,9800 2,9400 2,9100 2,8900 2,8600 2,8500 2,8300 2,8100
11 4,8400 3,9800 3,5900 3,3600 3,2000 3,0900 3,0100 2,9500 2,9000 2,8500 2,8200 2,7900 2,7600 2,7400 2,7200 2,7000 2,6900
12 4,7500 3,8900 3,4900 3,2600 3,1100 3,0000 2,9100 2,8500 2,8000 2,7500 2,7200 2,6900 2,6600 2,6400 2,6200 2,6000 2,5800
13 4,6700 3,8100 3,4100 3,1800 3,0300 2,9200 2,8300 2,7700 2,7100 2,6700 2,6300 2,6000 2,5800 2,5500 2,5300 2,5100 2,5000
14 4,6000 3,7400 3,3400 3,1100 2,9600 2,8500 2,7600 2,7000 2,6500 2,6000 2,5700 2,5300 2,5100 2,4800 2,4600 2,4400 2,4300
15 4,5400 3,6800 3,2900 3,0600 2,9000 2,7900 2,7100 2,6400 2,5900 2,5400 2,5100 2,4800 2,4500 2,4200 2,4000 2,3800 2,3700
16 4,4900 3,6300 3,2400 3,0100 2,8500 2,7400 2,6600 2,5900 2,5400 2,4900 2,4600 2,4200 2,4000 2,3700 2,3500 2,3300 2,3200
17 4,4500 3,5900 3,2000 2,9600 2,8100 2,7000 2,6100 2,5500 2,4900 2,4500 2,4100 2,3800 2,3500 2,3300 2,3100 2,2900 2,2700
18 4,4100 3,5500 3,1600 2,9300 2,7700 2,6600 2,5800 2,5100 2,4600 2,4100 2,3700 2,3400 2,3100 2,2900 2,2700 2,2500 2,2300
19 4,3800 3,5200 3,1300 2,9000 2,7400 2,6300 2,5400 2,4800 2,4200 2,3800 2,3400 2,3100 2,2800 2,2600 2,2300 2,2100 2,2000
20 4,3500 3,4900 3,1000 2,8700 2,7100 2,6000 2,5100 2,4500 2,3900 2,3500 2,3100 2,2800 2,2500 2,2200 2,2000 2,1800 2,1700
21 4,3200 3,4700 3,0700 2,8400 2,6800 2,5700 2,4900 2,4200 2,3700 2,3200 2,2800 2,2500 2,2200 2,2000 2,1800 2,1600 2,1400
22 4,3000 3,4400 3,0500 2,8200 2,6600 2,5500 2,4600 2,4000 2,3400 2,3000 2,2600 2,2300 2,2000 2,1700 2,1500 2,1300 2,1100
23 4,2800 3,4200 3,0300 2,8000 2,6400 2,5300 2,4400 2,3700 2,3200 2,2700 2,2400 2,2000 2,1800 2,1500 2,1300 2,1100 2,0900
24 4,2600 3,4000 3,0100 2,7800 2,6200 2,5100 2,4200 2,3600 2,3000 2,2500 2,2200 2,1800 2,1500 2,1300 2,1100 2,0900 2,0700
25 4,2400 3,3900 2,9900 2,7600 2,6000 2,4900 2,4000 2,3400 2,2800 2,2400 2,2000 2,1600 2,1400 2,1100 2,0900 2,0700 2,0500
26 4,2300 3,3700 2,9800 2,7400 2,5900 2,4700 2,3900 2,3200 2,2700 2,2200 2,1800 2,1500 2,1200 2,0900 2,0700 2,0500 2,0300
27 4,2100 3,3500 2,9600 2,7300 2,5700 2,4600 2,3700 2,3100 2,2500 2,2000 2,1700 2,1300 2,1000 2,0800 2,0600 2,0400 2,0200
28 4,2000 3,3400 2,9500 2,7100 2,5600 2,4500 2,3600 2,2900 2,2400 2,1900 2,1500 2,1200 2,0900 2,0600 2,0400 2,0200 2,0000
29 4,1800 3,3300 2,9300 2,7000 2,5500 2,4300 2,3500 2,2800 2,2200 2,1800 2,1400 2,1000 2,0800 2,0500 2,0300 2,0100 1,9900
30 4,1700 3,3200 2,9200 2,6900 2,5300 2,4200 2,3300 2,2700 2,2100 2,1600 2,1300 2,0900 2,0600 2,0400 2,0100 1,9900 1,9800
40 4,0800 3,2300 2,8400 2,6100 2,4500 2,3400 2,2500 2,1800 2,1200 2,0800 2,0400 2,0000 1,9700 1,9500 1,9200 1,9000 1,8900
60 4,0000 3,1500 2,7600 2,5300 2,3700 2,2500 2,1700 2,1000 2,0400 1,9900 1,9500 1,9200 1,8900 1,8600 1,8400 1,8200 1,8000
120 3,9200 3,0700 2,6800 2,4500 2,2900 2,1800 2,0900 2,0200 1,9600 1,9100 1,8700 1,8300 1,8000 1,7800 1,7500 1,7300 1,7100
Taula del percentil 95 de la distribució F de Fisher
Fp m 1
Y ∼ Fp m P (Y ≤ f p ,m ,0.95 ) = 0.95 f p , m ,0.05 =
0.95 f m , p ,0.95
numerador
f p , m ,0.95
denominador 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120
1 247,3200 247,6900 248,0100 248,3100 248,5800 248,8300 249,0500 249,2600 249,4500 249,6300 249,8000 249,9500 250,1000 251,1400 252,2000 253,2500
2 19,4400 19,4400 19,4500 19,4500 19,4500 19,4500 19,4500 19,4600 19,4600 19,4600 19,4600 19,4600 19,4600 19,4700 19,4800 19,4900
3 8,6700 8,6700 8,6600 8,6500 8,6500 8,6400 8,6400 8,6300 8,6300 8,6300 8,6200 8,6200 8,6200 8,5900 8,5700 8,5500
4 5,8200 5,8100 5,8000 5,7900 5,7900 5,7800 5,7700 5,7700 5,7600 5,7600 5,7500 5,7500 5,7500 5,7200 5,6900 5,6600
5 4,5800 4,5700 4,5600 4,5500 4,5400 4,5300 4,5300 4,5200 4,5200 4,5100 4,5000 4,5000 4,5000 4,4600 4,4300 4,4000
6 3,9000 3,8800 3,8700 3,8600 3,8600 3,8500 3,8400 3,8300 3,8300 3,8200 3,8200 3,8100 3,8100 3,7700 3,7400 3,7000
7 3,4700 3,4600 3,4400 3,4300 3,4300 3,4200 3,4100 3,4000 3,4000 3,3900 3,3900 3,3800 3,3800 3,3400 3,3000 3,2700
8 3,1700 3,1600 3,1500 3,1400 3,1300 3,1200 3,1200 3,1100 3,1000 3,1000 3,0900 3,0800 3,0800 3,0400 3,0100 2,9700
9 2,9600 2,9500 2,9400 2,9300 2,9200 2,9100 2,9000 2,8900 2,8900 2,8800 2,8700 2,8700 2,8600 2,8300 2,7900 2,7500
10 2,8000 2,7900 2,7700 2,7600 2,7500 2,7500 2,7400 2,7300 2,7200 2,7200 2,7100 2,7000 2,7000 2,6600 2,6200 2,5800
11 2,6700 2,6600 2,6500 2,6400 2,6300 2,6200 2,6100 2,6000 2,5900 2,5900 2,5800 2,5800 2,5700 2,5300 2,4900 2,4500
12 2,5700 2,5600 2,5400 2,5300 2,5200 2,5100 2,5100 2,5000 2,4900 2,4800 2,4800 2,4700 2,4700 2,4300 2,3800 2,3400
13 2,4800 2,4700 2,4600 2,4500 2,4400 2,4300 2,4200 2,4100 2,4100 2,4000 2,3900 2,3900 2,3800 2,3400 2,3000 2,2500
14 2,4100 2,4000 2,3900 2,3800 2,3700 2,3600 2,3500 2,3400 2,3300 2,3300 2,3200 2,3100 2,3100 2,2700 2,2200 2,1800
15 2,3500 2,3400 2,3300 2,3200 2,3100 2,3000 2,2900 2,2800 2,2700 2,2700 2,2600 2,2500 2,2500 2,2000 2,1600 2,1100
16 2,3000 2,2900 2,2800 2,2600 2,2500 2,2400 2,2400 2,2300 2,2200 2,2100 2,2100 2,2000 2,1900 2,1500 2,1100 2,0600
17 2,2600 2,2400 2,2300 2,2200 2,2100 2,2000 2,1900 2,1800 2,1700 2,1700 2,1600 2,1500 2,1500 2,1000 2,0600 2,0100
18 2,2200 2,2000 2,1900 2,1800 2,1700 2,1600 2,1500 2,1400 2,1300 2,1300 2,1200 2,1100 2,1100 2,0600 2,0200 1,9700
19 2,1800 2,1700 2,1600 2,1400 2,1300 2,1200 2,1100 2,1100 2,1000 2,0900 2,0800 2,0800 2,0700 2,0300 1,9800 1,9300
20 2,1500 2,1400 2,1200 2,1100 2,1000 2,0900 2,0800 2,0700 2,0700 2,0600 2,0500 2,0500 2,0400 1,9900 1,9500 1,9000
21 2,1200 2,1100 2,1000 2,0800 2,0700 2,0600 2,0500 2,0500 2,0400 2,0300 2,0200 2,0200 2,0100 1,9600 1,9200 1,8700
22 2,1000 2,0800 2,0700 2,0600 2,0500 2,0400 2,0300 2,0200 2,0100 2,0000 2,0000 1,9900 1,9800 1,9400 1,8900 1,8400
23 2,0800 2,0600 2,0500 2,0400 2,0200 2,0100 2,0100 2,0000 1,9900 1,9800 1,9700 1,9700 1,9600 1,9100 1,8600 1,8100
24 2,0500 2,0400 2,0300 2,0100 2,0000 1,9900 1,9800 1,9700 1,9700 1,9600 1,9500 1,9500 1,9400 1,8900 1,8400 1,7900
25 2,0400 2,0200 2,0100 2,0000 1,9800 1,9700 1,9600 1,9600 1,9500 1,9400 1,9300 1,9300 1,9200 1,8700 1,8200 1,7700
26 2,0200 2,0000 1,9900 1,9800 1,9700 1,9600 1,9500 1,9400 1,9300 1,9200 1,9100 1,9100 1,9000 1,8500 1,8000 1,7500
27 2,0000 1,9900 1,9700 1,9600 1,9500 1,9400 1,9300 1,9200 1,9100 1,9000 1,9000 1,8900 1,8800 1,8400 1,7900 1,7300
28 1,9900 1,9700 1,9600 1,9500 1,9300 1,9200 1,9100 1,9100 1,9000 1,8900 1,8800 1,8800 1,8700 1,8200 1,7700 1,7100
29 1,9700 1,9600 1,9400 1,9300 1,9200 1,9100 1,9000 1,8900 1,8800 1,8800 1,8700 1,8600 1,8500 1,8100 1,7500 1,7000
30 1,9600 1,9500 1,9300 1,9200 1,9100 1,9000 1,8900 1,8800 1,8700 1,8600 1,8500 1,8500 1,8400 1,7900 1,7400 1,6800
40 1,8700 1,8500 1,8400 1,8300 1,8100 1,8000 1,7900 1,7800 1,7700 1,7700 1,7600 1,7500 1,7400 1,6900 1,6400 1,5800
60 1,7800 1,7600 1,7500 1,7300 1,7200 1,7100 1,7000 1,6900 1,6800 1,6700 1,6600 1,6600 1,6500 1,5900 1,5300 1,4700
120 1,6900 1,6700 1,6600 1,6400 1,6300 1,6200 1,6100 1,6000 1,5900 1,5800 1,5700 1,5600 1,5500 1,5000 1,4300 1,3500
Taula del percentil 97.5 de la distribució F de Fisher
Fp m 1
Y ∼ Fp m P (Y ≤ f p ,m ,0.975 ) = 0.975 f p , m ,0.025 =
0.975 f m , p ,0.975
f p , m ,0.975
numerador
denominador 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
1 647,7900 799,5000 864,1600 899,5800 921,8500 937,1100 948,2200 956,6600 963,2800 968,6300 973,0300 976,7100 979,8400 982,5300 984,8700 986,9200 988,7300
2 38,5100 39,0000 39,1700 39,2500 39,3000 39,3300 39,3600 39,3700 39,3900 39,4000 39,4100 39,4100 39,4200 39,4300 39,4300 39,4400 39,4400
3 17,4400 16,0400 15,4400 15,1000 14,8800 14,7300 14,6200 14,5400 14,4700 14,4200 14,3700 14,3400 14,3000 14,2800 14,2500 14,2300 14,2100
4 12,2200 10,6500 9,9800 9,6000 9,3600 9,2000 9,0700 8,9800 8,9000 8,8400 8,7900 8,7500 8,7100 8,6800 8,6600 8,6300 8,6100
5 10,0100 8,4300 7,7600 7,3900 7,1500 6,9800 6,8500 6,7600 6,6800 6,6200 6,5700 6,5200 6,4900 6,4600 6,4300 6,4000 6,3800
6 8,8100 7,2600 6,6000 6,2300 5,9900 5,8200 5,7000 5,6000 5,5200 5,4600 5,4100 5,3700 5,3300 5,3000 5,2700 5,2400 5,2200
7 8,0700 6,5400 5,8900 5,5200 5,2900 5,1200 4,9900 4,9000 4,8200 4,7600 4,7100 4,6700 4,6300 4,6000 4,5700 4,5400 4,5200
8 7,5700 6,0600 5,4200 5,0500 4,8200 4,6500 4,5300 4,4300 4,3600 4,3000 4,2400 4,2000 4,1600 4,1300 4,1000 4,0800 4,0500
9 7,2100 5,7100 5,0800 4,7200 4,4800 4,3200 4,2000 4,1000 4,0300 3,9600 3,9100 3,8700 3,8300 3,8000 3,7700 3,7400 3,7200
10 6,9400 5,4600 4,8300 4,4700 4,2400 4,0700 3,9500 3,8500 3,7800 3,7200 3,6600 3,6200 3,5800 3,5500 3,5200 3,5000 3,4700
11 6,7200 5,2600 4,6300 4,2800 4,0400 3,8800 3,7600 3,6600 3,5900 3,5300 3,4700 3,4300 3,3900 3,3600 3,3300 3,3000 3,2800
12 6,5500 5,1000 4,4700 4,1200 3,8900 3,7300 3,6100 3,5100 3,4400 3,3700 3,3200 3,2800 3,2400 3,2100 3,1800 3,1500 3,1300
13 6,4100 4,9700 4,3500 4,0000 3,7700 3,6000 3,4800 3,3900 3,3100 3,2500 3,2000 3,1500 3,1200 3,0800 3,0500 3,0300 3,0000
14 6,3000 4,8600 4,2400 3,8900 3,6600 3,5000 3,3800 3,2900 3,2100 3,1500 3,0900 3,0500 3,0100 2,9800 2,9500 2,9200 2,9000
15 6,2000 4,7700 4,1500 3,8000 3,5800 3,4100 3,2900 3,2000 3,1200 3,0600 3,0100 2,9600 2,9200 2,8900 2,8600 2,8400 2,8100
16 6,1200 4,6900 4,0800 3,7300 3,5000 3,3400 3,2200 3,1200 3,0500 2,9900 2,9300 2,8900 2,8500 2,8200 2,7900 2,7600 2,7400
17 6,0400 4,6200 4,0100 3,6600 3,4400 3,2800 3,1600 3,0600 2,9800 2,9200 2,8700 2,8200 2,7900 2,7500 2,7200 2,7000 2,6700
18 5,9800 4,5600 3,9500 3,6100 3,3800 3,2200 3,1000 3,0100 2,9300 2,8700 2,8100 2,7700 2,7300 2,7000 2,6700 2,6400 2,6200
19 5,9200 4,5100 3,9000 3,5600 3,3300 3,1700 3,0500 2,9600 2,8800 2,8200 2,7600 2,7200 2,6800 2,6500 2,6200 2,5900 2,5700
20 5,8700 4,4600 3,8600 3,5100 3,2900 3,1300 3,0100 2,9100 2,8400 2,7700 2,7200 2,6800 2,6400 2,6000 2,5700 2,5500 2,5200
21 5,8300 4,4200 3,8200 3,4800 3,2500 3,0900 2,9700 2,8700 2,8000 2,7300 2,6800 2,6400 2,6000 2,5600 2,5300 2,5100 2,4800
22 5,7900 4,3800 3,7800 3,4400 3,2200 3,0500 2,9300 2,8400 2,7600 2,7000 2,6500 2,6000 2,5600 2,5300 2,5000 2,4700 2,4500
23 5,7500 4,3500 3,7500 3,4100 3,1800 3,0200 2,9000 2,8100 2,7300 2,6700 2,6200 2,5700 2,5300 2,5000 2,4700 2,4400 2,4200
24 5,7200 4,3200 3,7200 3,3800 3,1500 2,9900 2,8700 2,7800 2,7000 2,6400 2,5900 2,5400 2,5000 2,4700 2,4400 2,4100 2,3900
25 5,6900 4,2900 3,6900 3,3500 3,1300 2,9700 2,8500 2,7500 2,6800 2,6100 2,5600 2,5100 2,4800 2,4400 2,4100 2,3800 2,3600
26 5,6600 4,2700 3,6700 3,3300 3,1000 2,9400 2,8200 2,7300 2,6500 2,5900 2,5400 2,4900 2,4500 2,4200 2,3900 2,3600 2,3400
27 5,6300 4,2400 3,6500 3,3100 3,0800 2,9200 2,8000 2,7100 2,6300 2,5700 2,5100 2,4700 2,4300 2,3900 2,3600 2,3400 2,3100
28 5,6100 4,2200 3,6300 3,2900 3,0600 2,9000 2,7800 2,6900 2,6100 2,5500 2,4900 2,4500 2,4100 2,3700 2,3400 2,3200 2,2900
29 5,5900 4,2000 3,6100 3,2700 3,0400 2,8800 2,7600 2,6700 2,5900 2,5300 2,4800 2,4300 2,3900 2,3600 2,3200 2,3000 2,2700
30 5,5700 4,1800 3,5900 3,2500 3,0300 2,8700 2,7500 2,6500 2,5700 2,5100 2,4600 2,4100 2,3700 2,3400 2,3100 2,2800 2,2600
40 5,4200 4,0500 3,4600 3,1300 2,9000 2,7400 2,6200 2,5300 2,4500 2,3900 2,3300 2,2900 2,2500 2,2100 2,1800 2,1500 2,1300
60 5,2900 3,9300 3,3400 3,0100 2,7900 2,6300 2,5100 2,4100 2,3300 2,2700 2,2200 2,1700 2,1300 2,0900 2,0600 2,0300 2,0100
120 5,1500 3,8000 3,2300 2,8900 2,6700 2,5200 2,3900 2,3000 2,2200 2,1600 2,1000 2,0500 2,0100 1,9800 1,9400 1,9200 1,8900
Taula del percentil 97.5 de la distribució F de Fisher
Fp m
Y ∼ Fp m P (Y ≤ f p ,m ,0.975 ) = 0.975 f p , m ,0.025 =
1
0.975 f m , p ,0.975
numerador
f p , m ,0.975
denominador 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120
1 990,3500 991,8000 993,1000 994,2900 995,3600 996,3500 997,2500 998,0800 998,8500 999,5600 1000,2200 1000,8400 1001,4100 1005,6000 1009,8000 1014,0200
2 39,4400 39,4500 39,4500 39,4500 39,4500 39,4500 39,4600 39,4600 39,4600 39,4600 39,4600 39,4600 39,4600 39,4700 39,4800 39,4900
3 14,2000 14,1800 14,1700 14,1600 14,1400 14,1300 14,1200 14,1200 14,1100 14,1000 14,0900 14,0900 14,0800 14,0400 13,9900 13,9500
4 8,5900 8,5800 8,5600 8,5500 8,5300 8,5200 8,5100 8,5000 8,4900 8,4800 8,4800 8,4700 8,4600 8,4100 8,3600 8,3100
5 6,3600 6,3400 6,3300 6,3100 6,3000 6,2900 6,2800 6,2700 6,2600 6,2500 6,2400 6,2300 6,2300 6,1800 6,1200 6,0700
6 5,2000 5,1800 5,1700 5,1500 5,1400 5,1300 5,1200 5,1100 5,1000 5,0900 5,0800 5,0700 5,0700 5,0100 4,9600 4,9000
7 4,5000 4,4800 4,4700 4,4500 4,4400 4,4300 4,4100 4,4000 4,3900 4,3900 4,3800 4,3700 4,3600 4,3100 4,2500 4,2000
8 4,0300 4,0200 4,0000 3,9800 3,9700 3,9600 3,9500 3,9400 3,9300 3,9200 3,9100 3,9000 3,8900 3,8400 3,7800 3,7300
9 3,7000 3,6800 3,6700 3,6500 3,6400 3,6300 3,6100 3,6000 3,5900 3,5800 3,5800 3,5700 3,5600 3,5100 3,4500 3,3900
10 3,4500 3,4400 3,4200 3,4000 3,3900 3,3800 3,3700 3,3500 3,3400 3,3400 3,3300 3,3200 3,3100 3,2600 3,2000 3,1400
11 3,2600 3,2400 3,2300 3,2100 3,2000 3,1800 3,1700 3,1600 3,1500 3,1400 3,1300 3,1300 3,1200 3,0600 3,0000 2,9400
12 3,1100 3,0900 3,0700 3,0600 3,0400 3,0300 3,0200 3,0100 3,0000 2,9900 2,9800 2,9700 2,9600 2,9100 2,8500 2,7900
13 2,9800 2,9600 2,9500 2,9300 2,9200 2,9100 2,8900 2,8800 2,8700 2,8600 2,8500 2,8500 2,8400 2,7800 2,7200 2,6600
14 2,8800 2,8600 2,8400 2,8300 2,8100 2,8000 2,7900 2,7800 2,7700 2,7600 2,7500 2,7400 2,7300 2,6700 2,6100 2,5500
15 2,7900 2,7700 2,7600 2,7400 2,7300 2,7100 2,7000 2,6900 2,6800 2,6700 2,6600 2,6500 2,6400 2,5900 2,5200 2,4600
16 2,7200 2,7000 2,6800 2,6700 2,6500 2,6400 2,6300 2,6100 2,6000 2,5900 2,5800 2,5800 2,5700 2,5100 2,4500 2,3800
17 2,6500 2,6300 2,6200 2,6000 2,5900 2,5700 2,5600 2,5500 2,5400 2,5300 2,5200 2,5100 2,5000 2,4400 2,3800 2,3200
18 2,6000 2,5800 2,5600 2,5400 2,5300 2,5200 2,5000 2,4900 2,4800 2,4700 2,4600 2,4500 2,4400 2,3800 2,3200 2,2600
19 2,5500 2,5300 2,5100 2,4900 2,4800 2,4600 2,4500 2,4400 2,4300 2,4200 2,4100 2,4000 2,3900 2,3300 2,2700 2,2000
20 2,5000 2,4800 2,4600 2,4500 2,4300 2,4200 2,4100 2,4000 2,3900 2,3800 2,3700 2,3600 2,3500 2,2900 2,2200 2,1600
21 2,4600 2,4400 2,4200 2,4100 2,3900 2,3800 2,3700 2,3600 2,3400 2,3300 2,3300 2,3200 2,3100 2,2500 2,1800 2,1100
22 2,4300 2,4100 2,3900 2,3700 2,3600 2,3400 2,3300 2,3200 2,3100 2,3000 2,2900 2,2800 2,2700 2,2100 2,1400 2,0800
23 2,3900 2,3700 2,3600 2,3400 2,3300 2,3100 2,3000 2,2900 2,2800 2,2700 2,2600 2,2500 2,2400 2,1800 2,1100 2,0400
24 2,3600 2,3500 2,3300 2,3100 2,3000 2,2800 2,2700 2,2600 2,2500 2,2400 2,2300 2,2200 2,2100 2,1500 2,0800 2,0100
25 2,3400 2,3200 2,3000 2,2800 2,2700 2,2600 2,2400 2,2300 2,2200 2,2100 2,2000 2,1900 2,1800 2,1200 2,0500 1,9800
26 2,3100 2,2900 2,2800 2,2600 2,2400 2,2300 2,2200 2,2100 2,1900 2,1800 2,1700 2,1700 2,1600 2,0900 2,0300 1,9500
27 2,2900 2,2700 2,2500 2,2400 2,2200 2,2100 2,1900 2,1800 2,1700 2,1600 2,1500 2,1400 2,1300 2,0700 2,0000 1,9300
28 2,2700 2,2500 2,2300 2,2200 2,2000 2,1900 2,1700 2,1600 2,1500 2,1400 2,1300 2,1200 2,1100 2,0500 1,9800 1,9100
29 2,2500 2,2300 2,2100 2,2000 2,1800 2,1700 2,1500 2,1400 2,1300 2,1200 2,1100 2,1000 2,0900 2,0300 1,9600 1,8900
30 2,2300 2,2100 2,2000 2,1800 2,1600 2,1500 2,1400 2,1200 2,1100 2,1000 2,0900 2,0800 2,0700 2,0100 1,9400 1,8700
40 2,1100 2,0900 2,0700 2,0500 2,0300 2,0200 2,0100 1,9900 1,9800 1,9700 1,9600 1,9500 1,9400 1,8800 1,8000 1,7200
60 1,9800 1,9600 1,9400 1,9300 1,9100 1,9000 1,8800 1,8700 1,8600 1,8500 1,8300 1,8200 1,8200 1,7400 1,6700 1,5800
120 1,8700 1,8400 1,8200 1,8100 1,7900 1,7700 1,7600 1,7500 1,7300 1,7200 1,7100 1,7000 1,6900 1,6100 1,5300 1,4300
Taula del percentil 99 de la distribució F de Fisher
Fp m
Y ∼ Fp m P (Y ≤ f p ,m ,0.99 ) = 0.99 f p , m ,0.01 =
1
0.99 f m , p ,0.99
numerador f p , m ,0.99
denominador 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
1 4052,1800 4999,5000 5403,3500 5624,5800 5763,6500 5858,9900 5928,3600 5981,0700 6022,4700 6055,8500 6083,3200 6106,3200 6125,8600 6142,6700 6157,2800 6170,1000 6181,4300
2 98,5000 99,0000 99,1700 99,2500 99,3000 99,3300 99,3600 99,3700 99,3900 99,4000 99,4100 99,4200 99,4200 99,4300 99,4300 99,4400 99,4400
3 34,1200 30,8200 29,4600 28,7100 28,2400 27,9100 27,6700 27,4900 27,3500 27,2300 27,1300 27,0500 26,9800 26,9200 26,8700 26,8300 26,7900
4 21,2000 18,0000 16,6900 15,9800 15,5200 15,2100 14,9800 14,8000 14,6600 14,5500 14,4500 14,3700 14,3100 14,2500 14,2000 14,1500 14,1100
5 16,2600 13,2700 12,0600 11,3900 10,9700 10,6700 10,4600 10,2900 10,1600 10,0500 9,9600 9,8900 9,8200 9,7700 9,7200 9,6800 9,6400
6 13,7500 10,9200 9,7800 9,1500 8,7500 8,4700 8,2600 8,1000 7,9800 7,8700 7,7900 7,7200 7,6600 7,6000 7,5600 7,5200 7,4800
7 12,2500 9,5500 8,4500 7,8500 7,4600 7,1900 6,9900 6,8400 6,7200 6,6200 6,5400 6,4700 6,4100 6,3600 6,3100 6,2800 6,2400
8 11,2600 8,6500 7,5900 7,0100 6,6300 6,3700 6,1800 6,0300 5,9100 5,8100 5,7300 5,6700 5,6100 5,5600 5,5200 5,4800 5,4400
9 10,5600 8,0200 6,9900 6,4200 6,0600 5,8000 5,6100 5,4700 5,3500 5,2600 5,1800 5,1100 5,0500 5,0100 4,9600 4,9200 4,8900
10 10,0400 7,5600 6,5500 5,9900 5,6400 5,3900 5,2000 5,0600 4,9400 4,8500 4,7700 4,7100 4,6500 4,6000 4,5600 4,5200 4,4900
11 9,6500 7,2100 6,2200 5,6700 5,3200 5,0700 4,8900 4,7400 4,6300 4,5400 4,4600 4,4000 4,3400 4,2900 4,2500 4,2100 4,1800
12 9,3300 6,9300 5,9500 5,4100 5,0600 4,8200 4,6400 4,5000 4,3900 4,3000 4,2200 4,1600 4,1000 4,0500 4,0100 3,9700 3,9400
13 9,0700 6,7000 5,7400 5,2100 4,8600 4,6200 4,4400 4,3000 4,1900 4,1000 4,0200 3,9600 3,9100 3,8600 3,8200 3,7800 3,7500
14 8,8600 6,5100 5,5600 5,0400 4,6900 4,4600 4,2800 4,1400 4,0300 3,9400 3,8600 3,8000 3,7500 3,7000 3,6600 3,6200 3,5900
15 8,6800 6,3600 5,4200 4,8900 4,5600 4,3200 4,1400 4,0000 3,8900 3,8000 3,7300 3,6700 3,6100 3,5600 3,5200 3,4900 3,4500
16 8,5300 6,2300 5,2900 4,7700 4,4400 4,2000 4,0300 3,8900 3,7800 3,6900 3,6200 3,5500 3,5000 3,4500 3,4100 3,3700 3,3400
17 8,4000 6,1100 5,1800 4,6700 4,3400 4,1000 3,9300 3,7900 3,6800 3,5900 3,5200 3,4600 3,4000 3,3500 3,3100 3,2700 3,2400
18 8,2900 6,0100 5,0900 4,5800 4,2500 4,0100 3,8400 3,7100 3,6000 3,5100 3,4300 3,3700 3,3200 3,2700 3,2300 3,1900 3,1600
19 8,1800 5,9300 5,0100 4,5000 4,1700 3,9400 3,7700 3,6300 3,5200 3,4300 3,3600 3,3000 3,2400 3,1900 3,1500 3,1200 3,0800
20 8,1000 5,8500 4,9400 4,4300 4,1000 3,8700 3,7000 3,5600 3,4600 3,3700 3,2900 3,2300 3,1800 3,1300 3,0900 3,0500 3,0200
21 8,0200 5,7800 4,8700 4,3700 4,0400 3,8100 3,6400 3,5100 3,4000 3,3100 3,2400 3,1700 3,1200 3,0700 3,0300 2,9900 2,9600
22 7,9500 5,7200 4,8200 4,3100 3,9900 3,7600 3,5900 3,4500 3,3500 3,2600 3,1800 3,1200 3,0700 3,0200 2,9800 2,9400 2,9100
23 7,8800 5,6600 4,7600 4,2600 3,9400 3,7100 3,5400 3,4100 3,3000 3,2100 3,1400 3,0700 3,0200 2,9700 2,9300 2,8900 2,8600
24 7,8200 5,6100 4,7200 4,2200 3,9000 3,6700 3,5000 3,3600 3,2600 3,1700 3,0900 3,0300 2,9800 2,9300 2,8900 2,8500 2,8200
25 7,7700 5,5700 4,6800 4,1800 3,8500 3,6300 3,4600 3,3200 3,2200 3,1300 3,0600 2,9900 2,9400 2,8900 2,8500 2,8100 2,7800
26 7,7200 5,5300 4,6400 4,1400 3,8200 3,5900 3,4200 3,2900 3,1800 3,0900 3,0200 2,9600 2,9000 2,8600 2,8100 2,7800 2,7500
27 7,6800 5,4900 4,6000 4,1100 3,7800 3,5600 3,3900 3,2600 3,1500 3,0600 2,9900 2,9300 2,8700 2,8200 2,7800 2,7500 2,7100
28 7,6400 5,4500 4,5700 4,0700 3,7500 3,5300 3,3600 3,2300 3,1200 3,0300 2,9600 2,9000 2,8400 2,7900 2,7500 2,7200 2,6800
29 7,6000 5,4200 4,5400 4,0400 3,7300 3,5000 3,3300 3,2000 3,0900 3,0000 2,9300 2,8700 2,8100 2,7700 2,7300 2,6900 2,6600
30 7,5600 5,3900 4,5100 4,0200 3,7000 3,4700 3,3000 3,1700 3,0700 2,9800 2,9100 2,8400 2,7900 2,7400 2,7000 2,6600 2,6300
40 7,3100 5,1800 4,3100 3,8300 3,5100 3,2900 3,1200 2,9900 2,8900 2,8000 2,7300 2,6600 2,6100 2,5600 2,5200 2,4800 2,4500
60 7,0800 4,9800 4,1300 3,6500 3,3400 3,1200 2,9500 2,8200 2,7200 2,6300 2,5600 2,5000 2,4400 2,3900 2,3500 2,3100 2,2800
120 6,8500 4,7900 3,9500 3,4800 3,1700 2,9600 2,7900 2,6600 2,5600 2,4700 2,4000 2,3400 2,2800 2,2300 2,1900 2,1500 2,1200
Taula del percentil 99 de la distribució F de Fisher
Fp m
Y ∼ Fp m P (Y ≤ f p ,m ,0.99 ) = 0.99 1
0.99 f p , m ,0.01 =
f m , p ,0.99
numerador f p , m ,0.99
denominador 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120
1 6191,5300 6200,5800 6208,7300 6216,1200 6222,8400 6228,9900 6234,6300 6239,8300 6244,6200 6249,0700 6253,2000 6257,0500 6260,6500 6286,7800 6313,0300 6339,3900
2 99,4400 99,4500 99,4500 99,4500 99,4500 99,4600 99,4600 99,4600 99,4600 99,4600 99,4600 99,4600 99,4700 99,4700 99,4800 99,4900
3 26,7500 26,7200 26,6900 26,6600 26,6400 26,6200 26,6000 26,5800 26,5600 26,5500 26,5300 26,5200 26,5000 26,4100 26,3200 26,2200
4 14,0800 14,0500 14,0200 13,9900 13,9700 13,9500 13,9300 13,9100 13,8900 13,8800 13,8600 13,8500 13,8400 13,7500 13,6500 13,5600
5 9,6100 9,5800 9,5500 9,5300 9,5100 9,4900 9,4700 9,4500 9,4300 9,4200 9,4000 9,3900 9,3800 9,2900 9,2000 9,1100
6 7,4500 7,4200 7,4000 7,3700 7,3500 7,3300 7,3100 7,3000 7,2800 7,2700 7,2500 7,2400 7,2300 7,1400 7,0600 6,9700
7 6,2100 6,1800 6,1600 6,1300 6,1100 6,0900 6,0700 6,0600 6,0400 6,0300 6,0200 6,0000 5,9900 5,9100 5,8200 5,7400
8 5,4100 5,3800 5,3600 5,3400 5,3200 5,3000 5,2800 5,2600 5,2500 5,2300 5,2200 5,2100 5,2000 5,1200 5,0300 4,9500
9 4,8600 4,8300 4,8100 4,7900 4,7700 4,7500 4,7300 4,7100 4,7000 4,6800 4,6700 4,6600 4,6500 4,5700 4,4800 4,4000
10 4,4600 4,4300 4,4100 4,3800 4,3600 4,3400 4,3300 4,3100 4,3000 4,2800 4,2700 4,2600 4,2500 4,1700 4,0800 4,0000
11 4,1500 4,1200 4,1000 4,0800 4,0600 4,0400 4,0200 4,0100 3,9900 3,9800 3,9600 3,9500 3,9400 3,8600 3,7800 3,6900
12 3,9100 3,8800 3,8600 3,8400 3,8200 3,8000 3,7800 3,7600 3,7500 3,7400 3,7200 3,7100 3,7000 3,6200 3,5400 3,4500
13 3,7200 3,6900 3,6600 3,6400 3,6200 3,6000 3,5900 3,5700 3,5600 3,5400 3,5300 3,5200 3,5100 3,4300 3,3400 3,2500
14 3,5600 3,5300 3,5100 3,4800 3,4600 3,4400 3,4300 3,4100 3,4000 3,3800 3,3700 3,3600 3,3500 3,2700 3,1800 3,0900
15 3,4200 3,4000 3,3700 3,3500 3,3300 3,3100 3,2900 3,2800 3,2600 3,2500 3,2400 3,2300 3,2100 3,1300 3,0500 2,9600
16 3,3100 3,2800 3,2600 3,2400 3,2200 3,2000 3,1800 3,1600 3,1500 3,1400 3,1200 3,1100 3,1000 3,0200 2,9300 2,8400
17 3,2100 3,1900 3,1600 3,1400 3,1200 3,1000 3,0800 3,0700 3,0500 3,0400 3,0300 3,0100 3,0000 2,9200 2,8300 2,7500
18 3,1300 3,1000 3,0800 3,0500 3,0300 3,0200 3,0000 2,9800 2,9700 2,9500 2,9400 2,9300 2,9200 2,8400 2,7500 2,6600
19 3,0500 3,0300 3,0000 2,9800 2,9600 2,9400 2,9200 2,9100 2,8900 2,8800 2,8700 2,8600 2,8400 2,7600 2,6700 2,5800
20 2,9900 2,9600 2,9400 2,9200 2,9000 2,8800 2,8600 2,8400 2,8300 2,8100 2,8000 2,7900 2,7800 2,6900 2,6100 2,5200
21 2,9300 2,9000 2,8800 2,8600 2,8400 2,8200 2,8000 2,7900 2,7700 2,7600 2,7400 2,7300 2,7200 2,6400 2,5500 2,4600
22 2,8800 2,8500 2,8300 2,8100 2,7800 2,7700 2,7500 2,7300 2,7200 2,7000 2,6900 2,6800 2,6700 2,5800 2,5000 2,4000
23 2,8300 2,8000 2,7800 2,7600 2,7400 2,7200 2,7000 2,6900 2,6700 2,6600 2,6400 2,6300 2,6200 2,5400 2,4500 2,3500
24 2,7900 2,7600 2,7400 2,7200 2,7000 2,6800 2,6600 2,6400 2,6300 2,6100 2,6000 2,5900 2,5800 2,4900 2,4000 2,3100
25 2,7500 2,7200 2,7000 2,6800 2,6600 2,6400 2,6200 2,6000 2,5900 2,5800 2,5600 2,5500 2,5400 2,4500 2,3600 2,2700
26 2,7200 2,6900 2,6600 2,6400 2,6200 2,6000 2,5800 2,5700 2,5500 2,5400 2,5300 2,5100 2,5000 2,4200 2,3300 2,2300
27 2,6800 2,6600 2,6300 2,6100 2,5900 2,5700 2,5500 2,5400 2,5200 2,5100 2,4900 2,4800 2,4700 2,3800 2,2900 2,2000
28 2,6500 2,6300 2,6000 2,5800 2,5600 2,5400 2,5200 2,5100 2,4900 2,4800 2,4600 2,4500 2,4400 2,3500 2,2600 2,1700
29 2,6300 2,6000 2,5700 2,5500 2,5300 2,5100 2,4900 2,4800 2,4600 2,4500 2,4400 2,4200 2,4100 2,3300 2,2300 2,1400
30 2,6000 2,5700 2,5500 2,5300 2,5100 2,4900 2,4700 2,4500 2,4400 2,4200 2,4100 2,4000 2,3900 2,3000 2,2100 2,1100
40 2,4200 2,3900 2,3700 2,3500 2,3300 2,3100 2,2900 2,2700 2,2600 2,2400 2,2300 2,2200 2,2000 2,1100 2,0200 1,9200
60 2,2500 2,2200 2,2000 2,1700 2,1500 2,1300 2,1200 2,1000 2,0800 2,0700 2,0500 2,0400 2,0300 1,9400 1,8400 1,7300
120 2,0900 2,0600 2,0300 2,0100 1,9900 1,9700 1,9500 1,9300 1,9200 1,9000 1,8900 1,8700 1,8600 1,7600 1,6600 1,5300
Solucions dels exercicis
Capítol 1
1.3 b) M = Q2 = 110, Q1 = 95, Q3 = 116; c) No.
1.5 Rang= 77, M = 64, Q1 = 52.5, Q2 = 64, Q3 = 72.5, RIQ = 20; sí que hi ha anomalies, 19
és una anomalia moderada.
1.14 a) Sí; b) yx=75 = 584.9, yx=30 = 722.24, yx=50 = 661.2; c) r2 = 0.9025; el 90.25%.
1.17 Amb el B, ja que 11.2 està a 8 desviacions típiques de xA i només a 1.7 desviacions típiques
de xB ; com que 1.7 < 8 és més coherent pensar que prové de B.
368 Solucions dels exercicis
Capítol 2
2.6 0.03.
2.11 0.4444.
2.12 0.6.
Capítol 3
3.1 a) 0.40 i 0.45; b) 0.85, 0.75, 0.45, 0.35 i 0.778; c) F (x) = 0 si x < 0, F (x) = 0.15 si 0 ≤ x < 1,
F (x) = 0.55 si 1 ≤ x < 2, F (x) = 0.60 si 2 ≤ x < 3, F (x) = 0.90 si 3 ≤ x < 4, F (x) = 1 si
x ≥ 4.
3.3 b) 1/8, 1/8, 1/6, 1/6 i 2/3; c) F (x) = (x2 − 1)/24 si 1 ≤ x ≤ 5, i F (x) = 0 en cas contrari.
3.12 a)
N
2 5 6
0 3/7 0 0 3/7
I 1 0 1/7 2/7 3/7
2 0 0 1/7 1/7
3/7 1/7 3/7
3.13 b) 0.49805 i 0.2; c) fX (x) = x/2 si 0 ≤ x ≤ 2 i fX (x) = 0 en cas contrari; fY (y) = (1+y 2 )/12
si 0 ≤ y ≤ 3 i fY (y) = 0 en cas contrari; d) Sí.
3.18 a) E(X) = 4/3, E(Y ) = 33/16; b) E(XY ) = 11/4 = E(X)E(Y ); és degut a que X i Y
són independents; c) V (X) = 2/9, V (Y ) = 699/1280, V (X + Y ) = 8851/11520.
Capítol 4
4.1 5/16.
4.9 0.103680.
4.16 0.123.
4.22 1.24%.
4.24 1.39%.
4.29 a) f (x) = 1/2 si −1 ≤ x ≤ 1 i f (x) = 0 en cas contrari; F (x) = 0 si x < −1, F (x) =
(1 + x)/2 si −1 ≤ x ≤ 1 i F (x) = 1 si x > 1; b) 25%; c) 0.9; d) µE = 0, σ 2E = 1/3.
4.30 0.5.
Capítol 5
5.1 a) 18.31; b) 2.56; c) 0.025.
5.2 z0.95 = 1.64485, χ210,0.95 = 18.3070, χ250,0.95 = 67.5048, χ2100,0.95 = 124.342 i χ21000,0.95 =
¡ √ ¢2
1074.68; els quocients entre χ2n,0.95 i z0.95 + 2n − 1 /2 són 1.01579, 1.00425, 1.00230 i 1.00027
respectivament.
Solucions dels exercicis 371
5.4 Utilitzant les taules els valors demanats són 1.812, 1.676, 1.660 i 1.646 respectivament;
s’acosten cap a z0.95 = 1.645.
Capítol 6
6.1 a) 68.57%; b) 0.4990.
a = 0.44, bb = 1.31.
6.9 c) b
±Pn 2
b = 2n
6.10 α i=1 Xi .
Capítol 7
7.1 0.0668.
7.2 ' 0.
7.6 Amb la taula s’obté que la probabilitat és aproximadament 0.1; el valor real calculat amb
l’ordinador és 0.099565.
7.8 0.0516.
7.11 0.9596.
7.12 0.2061.
7.13 0.9544.
7.14 0.45793.
Capítol 8
Comentari: Per a les solucions dels exercicis d’aquest capítol no hem utilitzat les taules a
l’hora de calcular els valors crítics zγ , tk,γ , χ2k,γ i fp,m,γ , sinó que aquests han estat calculats
mitjançant un paquet estadístic i per tant amb més xifres decimals correctes. Això pot fer que
les solucions difereixin lleugerament de les que s’obtindrien fent servir les taules.
8.2 a) (161.982, 298.018); b) I0.95 (σ 2 ) = (1636.781, 25269.137), I0.95 (σ) = (40.457, 158.963).
8.4 a) (48.7160, 50.2840); 1.2840; b) I0.90 (σ) = (1.38576, 2.57113), I0.90 (σ 2 ) = (1.92032, 6.61071);
0.61424.
8.6 n = 610.
8.7 n = 107.
8.8 n = 100.
8.10 n = 599.
8.19 a) I0.90 (θ) = (1.158808, 2.250160), I0.90 (1/θ) = (0.4444128, 0.8629554); b) 67 defectes
consecutius; 67 defectes consecutius.
Capítol 9
9.1 a) No; rebutgem H0 : σ 2 ≤ 0.92 ja que 19S̃ 2 /0.92 = 39.44 > χ219,0.95 = 30.14; b) Sí; acceptem
√
H0 : µ ≥ 20.5 ja que X−20.5
S̃
20 = −0.207 > t19,0.01 = −2.539.
9.6 El valor de l’estadístic de prova per a les hipòtesis H0 : µ ≤ 4.5 i H1 : µ > 4.5 és t =
4.08468 amb un p-value de 0.0003159; rebutgem H0 i concloem que el percentatge mitjà µ sí
supera 4.5.
9.7 a) 0.153; b) 0.763; c) (6.9256, 7.4744); d) Risc de primera espècie 0.0322; probabilitat de
detecció 0.892.
√
9.8 a) X−7.2
S̃
n; b) (−∞, −2.11) ∪ (2.11, +∞).
√
9.9 a) t = X−90
S̃
5; b) Sí.
9.13 No.
9.15 0.85.
Problema 9.19 En aquest cas les mostres són aparellades ja que les mesures de XA i XB es
prenen sobre la mateixa mostra d’aigua; per tal de comparar µA i µB es considera la variable
D = XA − XB ; l’esperança de D és µD = µA − µB . El contrast d’hipòtesis és H0 : µD = 0
√
contra H1 : µD 6= 0, i l’estadístic de prova t = S̃D 30.
D
9.21 Al contrastar les hipòtesis H0 : µantic −µnou = 0, H1 : µantic −µnou < 0, suposant igualtat de
variàncies s’obté t = −0.859812 amb un p-value de 0.198876; conclourem que no hi ha evidència
en contra de la igualtat de les tensions de ruptura.
Capítol 10
10.1 Rebutgem que la hipòtesi nul·la que el número de defectes és una variable binomial ja que
χ2 = 313.6 i χ2k−r−1,1−α = χ25−1−1,0.99 = χ23,0.99 = 11.34.
10.3 Rebutgem la hipòtesi nul·la que la distribució és de Poisson; l’estimador màxim versemblant
b = 1.481; χ2 = 179.4 > χ2
de λ és λ 3,0.99 = 11.34.
10.4 Rebutgem la hipòtesi nul·la que segueix una distribució exponencial; l’estimador màxim
versemblant de θ és b
θ = 0.0157; χ2 = 82.75 > χ25,0.99 = 15.09.
10.5 Acceptem la hipòtesi nul·la que els volums vessats es distribueixen normalment; els esti-
madors màxim versemblants són µ c2 = s2 = 9.001825; χ2 = 3.966 < χ2
b = x = 30.0611 i σ 4,0.90 =
7.78.
10.6 Acceptem que la variable segueix una distribució exponencial; l’estadístic de Kolmogorov
dóna D20 = 0.1161; P (D20 ≤ 0.294) = 0.95.
10.8 Acceptem que provenen d’una variable uniforme; D30 = 0.1087 i P (D30 ≤ 0.240) = 0.95.
Capítol 11
11.1 Rebutgem H0 ; a la mostra és S− = 21 on S− = número de signes negatius de les diferències
xi − 30; P ( S− > 20 | p = 1/2) = 0.021387 < α = 0.05.
11.2 Acceptem la hipòtesi nul·la que els canvis no han reduït el temps de reparació; Rabans =
592.5, Rdesprés = 583.5, U = 22 · 26 + 22·23
2 − 592.5 = 232.5; rebutjarem H0 quan Rabans
sigui massa gran, és a dir, quan U sigui massa petit. La regió de rebuig ve definida per Z =
√ U −n1 n2 /2 < z0.05 = −1.645; en el nostre cas Z = 232.5−22·26/2
√ = −1.107 > −1.645 i
n1 n2 (n1 +n2 +1)/12 22·26·49/12
acceptem H0 .
11.4 Rebutgem la hipòtesi nul·la i acceptem que la pressió ha disminuït; considerem les dife-
rències pressió abans − pressió després; un cop descartats els valors nuls la suma dels rangs
positius i negatius són W+ = 238 i W− = 15; rebutjarem H0 quan W− sigui prou petit, és
a dir rebutjarem H0 quan Z = √ W− −n(n+1)/4 < z0.05 = −1.645; en el nostre cas és Z =
n(n+1)(2n+1)/24
√15−22·23/4 = −3.62 < −1.645 i rebutgem H0 .
22·23·45/24
11.5 Rebutgem la hipòtesi nul·la que són independents; χ2 = 12.407 > χ21,0.99 = 6.63.
Capítol 12
12.1 a) (39.28, 50.04); b) (43.224, 46.101).
12.3 a) y = −22.06 + 0.733x; b) (0.640, 0.826); c) 47.59; d) (44.91, 50.28); e) (36.74, 58.45).
Bibliografia
[4] Devore, J. L. (2005) Probabilidad y estadística para ingeniería y ciencias. Thomson (6 ed.)
[10] Mood, A. M., Graybill, F. A., Boes, D. C. (1974) Introduction to the Theory of Statistics.
McGraw-Hill.
[11] Peña Sánchez de Rivera, D. (1994) Estadística. Modelos y métodos. Alianza Ed.
anomalia contrast
extrema 37 d’hipòtesis 241, 242, 321
moderada 37 bilateral 252, 256
aproximació normal no paramètric 321
de la distribució binomial 144 paramètric 241
de la distribució binomial negativa 146 unilateral 256
de la distribució de Poisson 146 d’homogeneïtat 333
de la distribució gamma 147 d’independència 278, 329
Bayes, teorema de 66 de Kolmogorov-Smirnov 310
Bernoulli de la F 342
distribució de 123 de la khi-quadrat 301
prova de 121 de la raó de versemblances 287
biaix 35,171 de la t per a mostres aparellades 277
a la dreta 32 de Wilcoxon 323
a l’esquerra 32 de Wilcoxon i Mann-Whitney 327
binomial, distribució 121 dels rangs amb signe de Wilcoxon 323
binomial negativa, distribució 125 dels signes 321
bondat d’ajust 301 uniformement més potent 286
box-plot 36 correcció per continuïtat 144
canvi de coordenades 104 correlació
classe 17-19 lineal 41
coeficient negativa 41
d’apuntament 36 positiva 41
d’asimetria 35 cota de Cramer-Rao 173
de correlació 46, 114, 184 covariància 44, 113, 184
entre dues variables aleatòries 114 entre dues variables aleatòries 113
mostral 46, 184 matriu de 148, 348
de determinació mostral 47 mostral 44, 184
de variació 31 Cramer-Rao, cota de 173
380 Índex terminològic
Us agraïm que hàgiu triat aquest llibre i confiem que la Le agradecemos que haya escogido este libro y confiamos
lectura us resulti interessant. que la lectura le resulte interesante.
Si desitgeu rebre informació de les novetats successives, Si desea recibir información de futuras novedades, es
cal que ens retorneu aquest imprès, degudament emplenat preciso que nos devuelva este impreso, debidamente
amb les dades sol·licitades. rellenado con los datos solicitados.
Cognoms Apellidos
Nom Nombre
Professió Profesión
Adreça Dirección
Autorizo el tratamiento informático de estos datos y su cesión a Edicions UPC, SL. para la realización de actividades
edicions-upc@upc.edu
informativas y de marketing directo, sin perjuicio de mis derechos de acceso, rectificación y cancelación.
Respuesta comercial A
Autorización franquear
nº 0828594/30011 en
destino
Edicions UPC
Apartado 30011 PD
08034 Barcelona