You are on page 1of 114

Estadstica.

Volum I
Joaqun Castell Benavent
Mara Victoria Ibez Gual
Vicente Martnez Garca
Amelia Sim Vidal
Departament de Matemtiques
Codi dassignatura C23

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - UJI

Edita: Publicacions de la Universitat Jaume I. Servei de Comunicaci i Publicacions


Campus del Riu Sec. Edifici Rectorat i Serveis Centrals. 12071 Castell de la Plana
http://www.tenda.uji.es e-mail: publicacions@uji.es
Collecci Sapientia, 21
Primera edici, 2010
www.sapientia.uji.es
ISBN: 978-84-692-9048-4

Aquest text est subjecte a una llicncia Reconeixement-NoComercial-Compartir Igual de


Creative Commons, que permet copiar, distribuir i comunicar pblicament lobra sempre que
especifique lautor i el nom de la publicaci i sense objectius comercials, i tamb permet crear
obres derivades, sempre que siguen distribudes amb aquesta mateixa llicncia.
http://creativecommons.org/licenses/by-nc-sa/2.5/es/deed.ca

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - UJI

INDEX
1. Descripci
o duna mostra: distribucions
gr`
acs
1.1. Introduccio . . . . . . . . . . . . . . .
1.2. Conceptes b`asics . . . . . . . . . . . .
1.3. Distribucions de freq
u`encies . . . . . .
1.4. M`etodes gr`acs . . . . . . . . . . . . .
1.4.1. Diagrama de sectors . . . . . .
1.4.2. Diagrama de barres . . . . . . .
1.4.3. Polgon de freq
u`encies . . . . .
1.4.4. Histogrames . . . . . . . . . . .
1.4.5. Pictogrames . . . . . . . . . . .
1.5. Problemes proposats . . . . . . . . . .

de freq
u`
encies i m`
etodes
.
.
.
.
.
.
.
.
.
.

5
5
6
6
10
10
10
11
12
13
13

.
.
.
.
.
.
.
.
.
.
.
.
.

23
23
23
31
33
33
34
37
38
38
38
40
41
45

.
.
.
.
.
.
.
.
.
.
.

47
47
47
47
48
49
50
51
53
53
54
57

4. Regressi
o i correlaci
o lineal
4.1. Introduccio. M`etode dels mnims quadrats . . . . . . . . . . . . . .
4.1.1. El m`etode dels mnims quadrats . . . . . . . . . . . . . . . .
4.2. Model de regressio lineal simple . . . . . . . . . . . . . . . . . . . .

61
61
64
65

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

2. Descripci
o duna mostra: mesures descriptives
2.1. Mesures de posicio . . . . . . . . . . . . . . . .
2.1.1. Mesures de tend`encia central . . . . . . .
2.1.2. Mesures de posicio no centrals: quantils .
2.2. Moments . . . . . . . . . . . . . . . . . . . . . .
2.3. Mesures de dispersio . . . . . . . . . . . . . . .
2.3.1. Mesures de dispersio absolutes . . . . . .
2.3.2. Mesures de dispersio relatives . . . . . .
2.4. Tipicacio duna distribucio de freq
u`encies . . .
2.5. Mesures de forma . . . . . . . . . . . . . . . . .
2.5.1. Mesures dasimetria . . . . . . . . . . . .
2.5.2. Mesures dapuntament o curtosi . . . . .
2.6. Mesures de concentracio . . . . . . . . . . . . .
2.7. Problemes proposats . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

3. Distribucions bidimensionals
3.1. Introduccio . . . . . . . . . . . . . . . . . . . . . . .
3.2. Distribucions de freq
u`encies bivariants . . . . . . . .
3.2.1. Distribucio conjunta . . . . . . . . . . . . . .
3.2.2. Distribucions marginals . . . . . . . . . . . . .
3.2.3. Distribucions condicionades . . . . . . . . . .
3.2.4. Independ`encia estadstica . . . . . . . . . . .
3.3. Representacio gr`aca: diagrama de dispersio . . . . .
3.4. Mesures descriptives duna distribucio bidimensional .
3.4.1. Moments . . . . . . . . . . . . . . . . . . . . .
3.4.2. Mesures de depend`encia lineal . . . . . . . . .
3.5. Problemes proposats . . . . . . . . . . . . . . . . . .

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

Estadstica. Volum I - UJI

c UJ

4.2.1. Recta de regressio . . . . . . . . . . . . . . . . . . . . .


4.2.2. Mesures de la bondat dajustament. Correlacio . . . . .
4.2.3. Prediccio . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3. Regressio lineal m
ultiple . . . . . . . . . . . . . . . . . . . . .
4.3.1. Vari`ancia residual. Coecient de determinacio m
ultiple
4.3.2. Un cas particular: el pla de regressio . . . . . . . . . .
4.4. Regressio no lineal. Coecient de correlacio general . . . . . .
4.4.1. Models de regressio no lineal simple . . . . . . . . . . .
4.4.2. Mesures de la bondat dajustament . . . . . . . . . . .
4.5. Problemes proposats . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

65
68
71
71
74
74
75
75
77
79

5. Nombres ndexs
5.1. Introduccio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2. Indexs simples i complexos . . . . . . . . . . . . . . . . . . . . . . .
5.2.1. Indexs simples . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2.2. Indexs simples en cadena . . . . . . . . . . . . . . . . . . . .
5.2.3. Indexs complexos: no ponderats i ponderats . . . . . . . . .
5.3. Propietats dels nombres ndexs . . . . . . . . . . . . . . . . . . . .
5.4. Alguns problemes en la construccio i la utilitzacio dels nombres ndexs
5.5. Deacio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.6. Index de preus de consum i altres ndexs elaborats a Espanya . . .
5.6.1. Index de preus de consum . . . . . . . . . . . . . . . . . . .
5.6.2. Altres ndexs . . . . . . . . . . . . . . . . . . . . . . . . . .
5.7. Problemes proposats . . . . . . . . . . . . . . . . . . . . . . . . . .
6. S`
eries temporals
6.1. Introduccio . . . . . . . . . . . . . . . . .
6.2. Representacio gr`aca . . . . . . . . . . . .
6.3. Caracterstiques duna s`erie temporal . . .
6.4. An`alisi de la tend`encia . . . . . . . . . . .
6.4.1. An`alisi sense component estacional
6.4.2. An`alisi amb component estacional .
6.5. Problemes proposats . . . . . . . . . . . .
Bibliograa

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

81
81
82
82
83
84
89
90
92
94
94
95
96
99
99
100
100
102
102
104
108

113

Estadstica. Volum I - UJI

TEMA 1
DUNA MOSTRA: DISTRIBUCIONS
DESCRIPCIO
ENCIES
`
`
`
DE FREQU
I METODES
GRAFICS

1.1. INTRODUCCIO
Ates laspecte aplicat que fonamentalment te lestadstica, comencarem amb
alguns exemples:
Exemple 1.1 La regidoria de Benestar Social duna determinada ciutat desitja
esbrinar si la mitjana de lls per famlia ha baixat respecte a la d`ecada anterior.
Per a aquest , ha enquestat 50 famlies i nha obtingut les dades seg
uents:
2 3 4 3 2 4 3 5 1 2 2 0 4 3 2 2 3 1 0 2 2 3 2 2 2
2 3 3 2 1 6 4 2 2 3 3 2 2 2 4 3 3 2 3 3 2 3 2 4 1
Exemple 1.2 Una cadena hotelera te la intencio dobrir un nou hotel en una
determinada ciutat. Abans de decidir el preu de les habitacions, el gerent de la
cadena investiga els preus per habitacio de 40 hotels de la mateixa categoria de la
dita ciutat. Les dades obtingudes, en euros, varen ser:
39
53
33
40

49
39
43
54

37
43
41
39

56
50
58
47

43
60
44
33

49
47
38
45

50
51
61
47

61
42
43
42

51
44
53
45

45
58
45
48

Lestadtica es la ci`encia que sencarrega de la recopilacio, la representacio i


l
us de dades sobre una o diverses caracterstiques dinteres per prendre decisions
o extraure conclusions generals a partir daquestes dades.
El m`
etode estadstic consta dels passos seg
uents:
Pas 1. Plantejament del problema en termes precisos: `ambit daplicacio (poblaci
o)
i caracterstica (o caracterstiques) objecte destudi (variable(s)).
Pas 2. Recollida de dades de la poblacio dinteres (mostreig).
Pas 3. Organitzacio, presentacio i resum de les dades o de la mostra (estadstica
descriptiva).
Pas 4. Models matem`atics (teoria de la probabilitat).
Pas 5. Obtencio de conclusions generals o vericacio dhip`otesi (infer`encia estadstica).
Lestadstica descriptiva es la part de lestadstica que sencarrega dorganitzar, resumir i donar una primera descripcio (sense obtindre conclusions generals)
de les dades obtingudes en el mostreig.
Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

Estadstica. Volum I - UJI

c UJI

`
1.2. CONCEPTES BASICS
Anomenarem poblaci
o el conjunt dindividus o ents subjectes a estudi (en
lexemple 1.1, el conjunt de totes les famlies de la ciutat; en lexemple 1.2, el
conjunt de tots els hotels daquesta categoria en la dita ciutat). Algunes poblacions
son nites i poden coneixer-se (el conjunt de tots els hotels), altres son innites o
abstractes (el conjunt de totes les peces fabricades per una m`aquina).
Anomenarem variable la caracterstica que volem estudiar en la poblacio (en el
primer exemple, el nombre de lls; en el segon, el preu per habitacio). Les denotarem
mitjancant lletres maj
uscules: X, Y . . . Podem classicar les variables en dos grans
grups, les variables qualitatives i les variables quantitatives.
Les variables qualitatives son aquelles que no es poden mesurar, es a dir,
aquelles que prenen valors als quals no es pot assignar cap n
umero. Expressen
qualitats o categories; per exemple: sexe, professio, color dels ulls, etc.
Les variables quantitatives, al contrari, son mesurables, es a dir, els valors
que shi observen poden expressar-se de forma num`erica. Aquestes variables poden
classicar-se en:
Discretes, quan prenen els seus valors en un conjunt nit o numerable. Per
exemple, el nombre de lls, el nombre dobrers en una f`abrica, les vegades que ix
cara en llancar una moneda 10 vegades, etc.
Contnues, quan poden prendre qualsevol valor en un interval. Per exemple,
el pes, lestatura, etc.
Nota 1.1 La distincio entre variables discretes i variables contnues es mes te`orica
que pr`actica, ja que les limitacions en els aparells de mesura fan que totes les
variables quantitatives es comporten com a discretes quan es preten observar-les.
Aquesta distincio ser`a important en els models te`orics, quan estudiem la part de
teoria de la probabilitat. De moment, farem mes exible el concepte de variable
contnua considerant contnua aquella variable que pren un gran nombre de valors
diferents. En aquest sentit, podem considerar la variable preu com a contnua.
Anomenarem mostra un subconjunt nit delements seleccionats entre els de
la poblacio. Per exemple, les 50 famlies del primer exemple o els 40 hotels del
segon. El nombre dobservacions de la mostra lanomenarem grand`
aria mostral.
Normalment el denotarem per n.
Anomenarem dada cada valor observat de la variable. Si la variable la representem per X, cada dada diferent de la mostra la representarem per xi . El subndex
i indica el lloc que la dada ocupa en la mostra, quan totes les dades diferents shan
ordenat de mes xicoteta a mes gran. En lexemple 1.1: x1 = 0, x2 = 1 . . . En
lexemple 1.2: x1 = 33, x2 = 37 . . .
ENCIES
`
1.3. DISTRIBUCIONS DE FREQU
Si observem les dades dels exemples anteriors, es obvi que el primer pas en
lorganitzacio de les dades consistir`a a agrupar aquelles que es repeteixen. Per a
aquest prop`osit establim les denicions seg
uents:
Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

Estadstica. Volum I - UJI

c UJI

Denici
o 1.1 La freq
u`
encia absoluta (ni ) dun valor xi de la variable es el
nombre de vegades que aquest valor es repeteix en la mostra.
Propietat
1.1 La suma de totes les freq
u`encies absolutes es la grand`
aria mostral:

ni = n.

Denici
o 1.2 La freq
u`
encia relativa (fi ) dun valor xi de la variable es el quoni
cient entre la freq
u`encia absoluta del valor i la grand`aria mostral: fi = .
n
Propietat 1.2 La suma de totes les freq
u`encies relatives es la unitat.
Denici
o 1.3 La freq
u`
encia absoluta acumulada (Ni ) dun valor xi de la variable es el nombre de dades en la mostra iguals o inferiors a xi . Es calcula com
i

Ni =
nk = Ni1 + ni .
k=1

Propietat 1.3 L
ultima freq
u`encia absoluta acumulada es la grand`
aria mostral.

Denici
o 1.4 La freq
u`
encia relativa acumulada (Fi ) dun valor xi de la variable es el quocient entre la freq
u`encia absoluta acumulada del valor i la grand`aria
i
Ni
mostral. Es calcula com Fi =
=
fk .
n
k=1
Propietat 1.4 L
ultima freq
u`encia relativa acumulada es la unitat.
Denici
o 1.5 Una distribuci
o de freq
u`
encies duna variable es una taula que
conte els diferents valors de la variable, sense repetir-los, ordenats de mes baix a
mes alt amb les freq
u`encies corresponents.
Exemple 1.3 Per a les dades de lexemple 1.1 tenim:
xi

ni

fi

Ni

Fi

0.04

0.04

0.08

0.12

21 0.42

27

0.54

15 0.30

42

0.84

0.12

48

0.96

0.02

49

0.98

0.02

50

1.00

Una vegada ordenades les dades, es molt f`acil obtindre informacio de la mostra.
Exemple 1.4 Responeu les preguntes seg
uents:
1. Quantes famlies tenen com a m`axim dos lls?
Podem mirar en la columna de les ni : 2 + 4 + 21 = 27, o en la de les Ni = 27.

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

Estadstica. Volum I - UJI

c UJI

2. Quantes famlies tenen mes dun ll o com a molt tres?


Mirem en la columna de les ni : 21 + 15 = 36, o en la de les Ni : 42 6 = 36.
3. Quin percentatge de famlies te mes de tres lls?
Si mirem en la columna de les fi : 0,12 + 0,02 + 0,02 = 0,16, concloem que
el 16 % de les famlies te mes de tres lls. Si mirem en la columna de les Fi :
1 0,84 = 0,16, obtenim el mateix resultat.
Exemple 1.5 Si fem el mateix amb les dades de lexemple 1.2, obtenim:
xi

ni

fi

Ni

Fi

36
37
38
39
40
41
42
43
44
45
47
48
49
50
51
..
.

2
1
1
3
1
1
2
4
2
4
4
1
1
2
2
..
.

0.05
0.025
0.025
0.075
0.025
0.025
0.05
0.1
0.05
0.1
0.1
0.025
0.025
0.05
0.05
..
.

2
3
4
7
8
9
11
15
17
21
25
26
27
29
31
..
.

0.05
0.075
0.1
0.175
0.2
0.225
0.275
0.375
0.425
0.525
0.625
0.650
0.675
0.725
0.775
..
.

La taula es enorme!!!
Quan els valors diferents que pot prendre una variable son molts, sobte una
taula molt gran i, en conseq
u`encia, es poc aclaridora. Aix`o passar`a sovint, quan la
variable objecte destudi siga contnua. La solucio es agrupar els diferents valors
de la variable en intervals de classe, tenint sempre en compte que el que es guanya
quant a lorganitzacio i la facilitat per a manipular les dades, es perd en informacio.
Agrupar en intervals de classe consisteix a agrupar les dades en un nombre
xicotet dintervals que veriquen:
Que no se superposen entre si, de forma que no existisca ambig
uitat respecte
a la classe a qu`e pertany una dada particular.
Que cobrisquen tot el rang de valors de la variable.
Anomenarem:
Lmits superior i inferior de la classe els extrems de linterval. Els representarem per Li i li , respectivament.

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

Estadstica. Volum I - UJI

c UJI

Marca de classe, ci , el punt mitj`a de linterval, es a dir, ci =

Li + li
.
2

Amplitud duna classe, ai , la difer`encia entre els extrems superior i inferior


de linterval: ai = Li li .
Freq
u`
encia de classe, ni , el nombre dobservacions de cada classe. Si dividim aquesta freq
u`encia entre el nombre total dobservacions, tenim la freq
u`
encia relativa de classe, fi . An`alogament, denim Ni i Fi .
A continuacio, donarem algunes indicacions per a respondre a la pregunta: com
construm una distribucio de freq
u`encies agrupada en intervals?
1. Comencarem per determinar el recorregut de la variable, Re , que es deneix
com la difer`encia entre el valor observat mes alt i el mes baix.
2. El nombre de classes depen de la grand`aria de la mostra. Pera mostres no
molt grans, n < 50, pot escollir-se un nombre de classes igual a n. O be susa
log n
la formula de Sturtges:
+ 1. A mes, en general, el nombre de classes no
log 2
ha de passar de 15 o 20, en casos de mostres molt grans.
molt mes c`omode que tots els inter3. Determinem lamplitud dels intervals. Es
vals tinguen la mateix amplitud (sempre que siga possible i excepte el primer
i l
ultim). Si es aix,
ai = a =

Re
.
nombre d intervals

Nota 1.2 Els passos 2 i 3 poden intercanviar-se.


Nota 1.3 Perqu`e no hi haja ambig
uitat, prendrem els intervals tancats per lesquerra i oberts per la dreta (excepte l
ultim).
Exemple 1.6 Representarem ara la distribucio de freq
u`encies de lexemple anterior, agrupant les dades.
El valor mes baix es 33 i el mes alt 61, per tant: Re = 61 33 = 28. Com
que n = 40, considerarem 6 classes, lamplitud de les quals ser`a: 28/6 = 4.6. Aix,
lamplitud es un nombre decimal peri`odic i ens quedarien intervals un poc estranys.
Podem fer el seg
uent: prenem com a primer valor 32, en lloc de 33, i com a u
ltim
62, en lloc de 61. Daquesta manera, lamplitud es 5 i la distribucio de freq
u`encies
queda:
[li , Li [

ci

ni

fi

Ni

Fi

[32, 37[ 34.5

0.05

0.05

[37, 42[ 39.5

0.175

0.225

[42, 47[ 44.5 12

0.3

21

0.525

[47, 52[ 49.5 10

0.25

31

0.775

[52, 57[ 54.5

0.1

35

0.875

[57, 62] 59.5

0.125

40

1.00

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

Estadstica. Volum I - UJI

c UJI

Daquesta manera, podem respondre f`acilment a les preguntes:


1. Quants hotels tenen un preu entre 33 i 37 euros?
2 hotels.
2. Quants hotels tenen un preu igual o superior a 47 euros?
19 hotels.
3. Quin percentatge dhotels costa, com a m`axim, 42 euros?
El 22.5 % dels hotels.

`
`
1.4. METODES
GRAFICS
1.4.1. DIAGRAMA DE SECTORS
un diagrama en forma circular en el qual, a cada valor de la variable, sassocia
Es
adequat per a representar
un sector circular proporcional a la seua freq
u`encia. Es
variables qualitatives.
Exemple 1.7 Una mostra de determinada poblacio es enquestada abans de la
convocat`oria dun refer`endum, per poder efectuar una prediccio sobre el resultat.
El 50 % dels enquestats ha contestat que shi pronunciar`a a favor, el 40 %, en contra
i el 10 % restant ha dit que sabstindr`a.
El gr`ac seg
uent mostra el diagrama de sectors daquest exemple:

Abstencions: el 10 %

A favor: el 50 %

En contra: el 40 %

Figura 1.1: Diagrama de sectors de lexemple 1.7


1.4.2. DIAGRAMA DE BARRES
Cada valor de la variable es representa mitjancant una barra dalcada propor adequat tant per a representar variables qualitatives com
cional a la freq
u`encia. Es
variables quantitatives discretes. En la gura 1.2 sen pot veure un exemple.

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

10

Estadstica. Volum I - UJI

10

c UJI

Freq
u`encies absolutes

21
15

2
Nombre de lls

Figura 1.2: Diagrama de barres de lexemple 1.1


ENCIES
`
1.4.3. POLIGON DE FREQU

Freq
u`encies relatives acumulades

Sobre cada valor de la variable (o interval) tracem una alcada igual a la seua
freq
u`encia (absoluta o acumulada). En el cas de dades discretes, unim mitjancant
segments de recta lextrem de cada ordenada amb la seg
uent. En la gura 1.3 pot
veures el polgon de freq
u`encies relatives acumulades (Fi ) de lexemple 1.6.

1
0.875
0.775

0.525

0.225
0.05

34.5

39.5

44.5

49.5

54.5

59.5

Preu
Figura 1.3: Polgon de freq
u`encies relatives acumulades de lexemple 1.6

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

11

Estadstica. Volum I - UJI

11

c UJI

1.4.4. HISTOGRAMES
la representacio equivalent al diagrama de barres, per`o per a dades agruEs
pades per intervals. Sobre cada classe alcem un rectangle d`area proporcional a la
freq
u`encia de la classe. Caldr`a, doncs, parar compte i veure si tots els intervals
tenen la mateixa amplitud abans de fer el dibuix.
8

10
9

8
6
7
5

5
4

3
2
2
1
0
1

1
0

0
1

(a)

(b)

11
10

9
8

7
6

3
5
4

3
2

1
0
1

0
2

(c)

(d)

Figura 1.4: Diversos tipus dhistogrames


Els histogrames (i tambe els diagrames de barres) proporcionen molta informacio respecte de lestructura de les dades: el valor central de la distribucio de
les freq
u`encies, la seua dispersio, simetria, etc. La gura 1.4 mostra diversos casos
dhistogrames: en el primer (a), podem veure una distribucio asim`etrica que es
tpica de dades econ`omiques, com pot ser la distribucio de la renda, les dimensions
duna poblacio, el consum delectricitat en una ciutat, etc. El histograma (b) mostra
una distribucio sim`etrica i campaniforme que es presenta en la majoria de medicions fsiques, en processos de fabricacio, etc. Aquest tipus de distribucio sanomena
normal perqu`e es el mes habitual. Lhistograma (c) presenta una distribucio uniforme, que podria correspondre, per exemple, a l
ultima xifra del n
umero premiat
en una loteria. Finalment, la distribucio (d) es molt asim`etrica i apareix, per exemple, en estudiar temps entre avaries duna determinada maquin`aria, en arribades
a una nestra datencio al client, en temps transcorregut entre dos accidents de
tr`ansit en una determinada carretera, etc.

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

12

Estadstica. Volum I - UJI

12

c UJI

1.4.5. PICTOGRAMES
Expressen, amb dibuixos allusius al tema destudi, les freq
u`encies de les modalitats de la variable. Els gr`acs es fan de forma que queden representades les diferents escales del mateix dibuix en correspond`encia amb la grand`aria de la seua
freq
u`encia. Lescala dels dibuixos ha de ser de tal manera que l`area de cadascun
siga proporcional a la freq
u`encia de la modalitat que representa. Son molt utilitzats
en variables qualitatives.
Exemple 1.8 Per a mostrar el consum de carn de porc en un mes en diferents
ciutats, susaria la representacio seg
uent:

100 kg a la ciutat A

60 kg en B

40 kg en C

22 kg en D

1.5. PROBLEMES PROPOSATS


(1) Classica les variables seg
uents:
a) Color dels ulls.
c) Alcada en cm.
e) Anys destudis realitzats.
g) Temperatura dun malalt en o C.

b) Marques dautom`obil.
d) Nivell destudis.
f ) Nombre dalumnes duna classe.
h) Professio.

(2) Els 100 estudiants duna classe que es van presentar al primer examen parcial
destadstica en la convocat`oria de febrer varen obtindre les qualicacions
seg
uents:
7
2
0
6
4

3
5
2
1
7

2
6
1
0
6

4
5
5
5
3

5
4
6
7
5

1
7
4
8
0

8
1
3
5
2

6
3
5
2
8

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

1 5 3
0 5 8
2 3 9
3 10 4
2 7 8

2
6
7
6
5

13

4
3
3
2
2

9
4
4
1
7

8 1 0 2 4
0 10 2 5 7
3 5 7 4 6
1 2 6 7 4
1 4 6 3 5

1
4
5
5
6

Estadstica. Volum I - UJI

13

c UJI

a) Obtn la distribucio de freq


u`encies de les qualicacions.
b) Quin percentatge destudiants va obtindre un 5?
c) Quants estudiants van obtindre un 6 o mes?
d ) Quin percentatge destudiants va aprovar?
e) Representa gr`acament les freq
u`encies no acumulades.
f ) Representa gr`acament les freq
u`encies acumulades.
(3) En una determinada ciutat sha dut a terme un mostreig a partir del qual els
establiments hotelers de la mostra shan agrupat pel nombre de places que
poseeixen, i sha obtingut la taula seg
uent:
Places

Nre. dhotels

[0, 100[
[100, 200[
[200, 300[
[300, 400[
[400, 500[
[500, 600[
[600, 700[
[700, 800[
[800, 900[
[900, 1000]

25
37
12
22
0
21
13
5
3
2

a) Construeix una taula de freq


u`encies completa.
b) Determina el nombre destabliments amb un nombre de places superior
o igual a 400.
c) Quin percentatge destabliments te menys de 700 places?
d ) Representa gr`acament les freq
u`encies.
e) Representa gr`acament les freq
u`encies acumulades.
(4) A continuacio apareixen els guanys, en euros, obtinguts en 25 quioscos per la
venda di`aria dun determinat diari:
55.31 81.47 64.90 70.89 86.02 77.25 76.73 84.51 56.02 84.92
90.23 78.01 88.05 73.37 87.09 55.31 81.47 64.90 70.89 86.02
77.25 76.73 84.51 56.02 84.92
Obtn la distribucio de freq
u`encies agrupades en 8 intervals amb les marques
de classe 57, 62, 67, 72, 77, 82, 87, 92.
(5) Donades les seg
uents qualicacions destadstica dun grup de 30 estudiants:
5.3 6.5 6 5 7.5 8 7 6.5 6 4.5
4.5 3.5 4 7 6.5 5 7 4.5 5 5.5
7.5 6.5 1 6 9.5 4 6 7.5 7 7.5

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

14

Estadstica. Volum I - UJI

14

c UJI

a) Obtn la distribucio de freq


u`encies.
b) Determina el percentatge de suspensos.
c) Calcula el percentatge destudiants amb qualicacions compreses entre
5 i 7.5, ambdues incloses.
(6) Sha realitzat un estudi sobre el preu (en euros) per habitacio de 50 hotels
duna determinada ciutat i shan obtingut els resultats seg
uents:
70
50
40
30
70

30
75
50
40
80

50
30
30
70
75

40
70
50
40
70

50
100
100
70
75

70
150
30
50
80

40
50
40
40
70

75
75
50
70
70

80
120
70
100
120

50
80
50
75
80

Determina:
a) La distribucio de freq
u`encies dels preus.
(a.1) Sense agrupar.
(a.2) Agrupant les dades en 5 intervals de la mateixa amplitud.
b) Representa gr`acament ambdues distribucions.
c) Percentatge dhotels amb un preu superior a 75 euros.
d ) Quants hotels tenen un preu superior o igual que 50 euros per`o inferior
o igual que 100?

(7) Completa la taula seg


uent:
[li , Li [

ni

fi

Ni

[0, 10[ 60
[10, 20[
0,4
[20, 30[ 30
[30, 40[
0,1
[40, 50]

60
170
200

(8) Les dades proporcionades a continuacio corresponen al pes, en kg, de 80


persones:
60
69
67
76

66
80
54
61

77
59
65
67

70
66
65
67

66
70
69
64

68
67
61
72

57
78
67
64

70
75
73
73

66
64
57
79

52
71
62
58

75
81
67
67

65
62
68
71

69
64
63
68

71
69
67
59

58
68
71
69

66
72
68
70

67
83
76
66

74
56
61
62

61
65
62
63

63
74
63
66

a) Obtn la distribucio de freq


u`encies de manera que les dades estiguen
agrupades en intervals damplitud 5.

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

15

Estadstica. Volum I - UJI

15

c UJI

b) Calcula el percentatge de persones que pesen menys de 65 kg.


c) Representa gr`acament les freq
u`encies absolutes acumulades.
(9) A lentrada dun centre comercial, un enquestador recull informacio sobre el
nombre de desplacaments que fan al mes les persones que hi acudeixen. Quan
ha entrevistat 60 persones entrega la informacio obtinguda, que resulta ser la
seg
uent:
2 8 5 6 1 3 2 8 5 3 2 4 1 3 4 4 3 5 2 6
1 7 6 2 5 3 8 4 6 2 8 7 6 4 3 2 6 1 1 1
2 2 4 7 6 2 1 3 4 5 8 2 2 6 5 3 2 3 4 3
a) Representa en una taula de freq
u`encies, sense agrupar, les observacions
anteriors. Quin percentatge de persones fa tres o menys visites al mes?
Quantes persones en fan entre 4 i 7 (ambdos inclosos) al mes?
b) Representa les dades en una taula de freq
u`encies, agrupant les dades
en tres intervals. Quin percentatge de persones hi acudeix mes de tres
vegades al mes?
(10) El gr`ac seg
uent representa el diagrama de una distribucio de freq
u`encies
absolutes acumulades. Troba la taula de freq
u`encies completa.

15 +
10 +

3+
+
100

+
200

+
300

SOLUCIONS
(1)

una variable qualitativa discreta: color A, color B, color C, etc.


a) Es
una variable qualitativa discreta: marca X, marca Y, marca Z, etc.
b) Es
una variable quantitativa contnua: 1.93, 1.935, 1.76, 1.67, etc.
c) Es
una variable qualitativa discreta: sense estudis, elementals, etc.
d ) Es
una variable quantitativa discreta: 0, 1, 2, 3, etc.
e) Es
una variable quantitativa discreta: 0, 1, 12, 3033, 5004, etc.
f ) Es
una variable quantitativa contnua: 36.1, 36.51, 36.512, 36.78, 37.1,
g) Es
39.12, etc.
una variable qualitativa discreta: metge, professor, pallasso, etc.
h) Es

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

16

Estadstica. Volum I - UJI

16

c UJI

(2)

a) Distribucio de freq
u`encies:
xi

ni

fi

Fi

0
1
2
3
4
5
6
7
8
9
10

6
10
13
11
13
16
11
10
6
2
2

0.06
0.10
0.13
0.11
0.13
0.16
0.11
0.10
0.06
0.02
0.02

Ni

0.06 6
0.16 16
0.29 29
0.40 40
0.53 53
0.69 69
0.80 80
0.90 90
0.96 96
0.98 98
1.00 100

n = 100

b) El 16 %.
c) 31 estudiants.
d ) El 47 %.
Freq
u`encies absolutes
16
13
e)

13
11

10

11

10

6
2 2

Qualicacions examen 0 1 2 3 4 5 6 7 8 9 10

Freq
u`encies absolutes acumulades

69

f)

80

90

96 98 100

53
29
6

40

16

Qualicacions examen 0 1 2 3 4 5 6 7 8 9 10
Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

17

Estadstica. Volum I - UJI

17

c UJI

(3)

a) Distribucio de freq
u`encies:
[li , Li [

ni

fi

Fi

Ni

[0, 100[
[100, 200[
[200, 300[
[300, 400[
[400, 500[
[500, 600[
[600, 700[
[700, 800[
[800, 900[
[900, 1000]

25
37
12
22
0
21
13
5
3
2

0.18
0.26
0.09
0.16
0
0.15
0.09
0.04
0.02
0.01

0.18
0.44
0.53
0.69
0.69
0.84
0.93
0.97
0.99
1.00

25
62
74
96
96
117
130
135
138
140

n = 140

b) 44.
c) El 93 %.
Freq
u`encies relatives

0.26
d)

0.09
0.16

0.18

0.15

0.09
0.04
0.02 0.01
+ + + + +0 + + + + + +
Nombre de places 0 1 2 3 4 5 6 7 8 9 10
(en centenars)

Freq
u`encies relatives acumulades
0.93 0.97
0.84
0.69

e)
0.44

0.99 1

0.53

0.18
+ + + + + + + + + + +
Nombre de places 0 1 2 3 4 5 6 7 8 9 10
(en centenars)
Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

18

Estadstica. Volum I - UJI

18

c UJI

(4) Distribucio de freq


u`encies:
[li , Li [
[54.5,
[59.5,
[64.5,
[69.5,
[74.5,
[79.5,
[84.5,
[89.5,
(5)

59.5[
64.5[
69.5[
74.5[
79.5[
84.5[
89.5[
94.5[

ci

ni

fi

Fi

Ni

57
62
67
72
77
82
87
92

4
0
2
3
5
2
8
1

0.16
0
0.08
0.12
0.20
0.08
0.32
0.04

0.16
0.16
0.24
0.36
0.56
0.64
0.96
1.00

4
4
6
9
14
16
24
25

n = 25

a) Distribucio de freq
u`encies:
xi

ni

1
3.5
4
4.5
5
5.3
5.5
6
6.5
7
7.5
8
9.5

1
1
2
3
3
1
1
4
4
4
4
1
1

fi

Fi

Ni

0.035 0.035
0.035 0.07
0.07 0.14
0.1
0.24
0.1
0.34
0.035 0.375
0.035 0.41
0.13 0.54
0.13 0.67
0.13 0.80
0.13 0.93
0.035 0.965
0.035 1.00

1
2
4
7
10
11
12
16
20
24
28
29
30

n = 30

b) El 24 %.
c) El 69 %.
(6)

a.1) Distribucio de freq


u`encies:
xi

ni

fi

Fi

30 5 0,1 0,1
40 7 0,14 0,24
50 10 0,2 0,44
70 11 0,22 0,66
75 7 0,14 0,80
80 4 0,08 0,88
100 3 0,06 0,94
120 2 0,04 0,98
150 1 0,02
1

Ni
5
12
22
33
40
44
47
49
50

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

19

Estadstica. Volum I - UJI

19

c UJI

a.2) Distribucio de freq


u`encies (dades acumulades):
[li , Li [

ci

ni

fi

Fi

[25, 50[
37,5 12 0,24 0,24
[50, 75[
62,5 21 0,42 0,66
[75, 100[ 87,5 11 0,22 0,88
[100, 125[ 112,5 5 0,1 0,98
[125, 150] 137,5 1 0,02 1,00

Ni
12
33
44
49
50

Freq
u`encies absolutes

10
b.1)

11

Preu per habitacio


(en euros)

30 40 50 70 75 80 100 120 150

Freq
u`encies absolutes
21

b.2)

12

11
5

Preu per habitacio


(en euros)

+
25

+
50

1
+ +
+ +
75 100 125 150

c) El 34 %.
d) 35 hotels.

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

20

Estadstica. Volum I - UJI

20

c UJI

(7) Distribucio de freq


u`encies:
[li , Li [

ni

[0, 10[ 60
[10, 20[ 80
[20, 30[ 30
[30, 40[ 20
[40, 50] 10

(8)

fi

Ni

0.3
0,4
0.15
0,1
0.05

60
140
170
190
200

a) Distribucio de freq
u`encies:
[li , Li [
[50,
[55,
[60,
[65,
[70,
[75,
[80,

55[
60[
65[
70[
75[
80[
85[

ci

ni

fi

Fi

Ni

52.5 2 0.025 0.025


57.5 7 0.0875 0.1125
62.5 17 0.2125 0.325
67.5 11 0.375
0.7
72.5 11 0.175 0.875
77.5 5 0.0875 0.9625
82.5 1 0.0375
1

2
9
26
56
70
77
80

b) El 32.5 %.
c)
Freq
u`encies absolutes acumulades

70

77 80

56
26
2

Pes en kg

+ + + + + + + +
50 55 60 65 70 75 80 85

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

21

Estadstica. Volum I - UJI

21

c UJI

(9) a.1) Distribucio de freq


u`encies:
xi

ni

1
3

0,1166 0,1166
13 0,266
0,33
10 0,166
0,5

0,133

0,1

0,133

0,05
0,0833

fi

Fi

Ni
7
20
30

0,633
0,733

38

0,866
0,9166

52

60

44
55
n = 60

a.2) El 66.6 %.
a.3) 25 persones.
b.1) Distribucio de freq
u`encies:
[li , Li [

ci

[1, 4[

2.5 30

[4, 7[
[7, 9[

ni

fi

Fi

0.5
0.5
5.5 22 0.366 0.833
8
8 0.133
1

Ni
30
52
60

b.2) El 50 %.

(10) Distribucio de freq


u`encies:
[li , Li [

ni

[100, 200[

[200, 300[

[300, +[

fi

Fi

0,2
0,2
0,466 0,66
0,33
1

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

Ni
3
10
15

n = 15

22

Estadstica. Volum I - UJI

22

c UJI

TEMA 2
DUNA MOSTRA: MESURES
DESCRIPCIO
DESCRIPTIVES
Per a dades qualitatives, la distribucio de freq
u`encies proporciona un resum
concs i complet de la mostra, per`o per a variables quantitatives pot complementarse utilitzant mesures descriptives num`eriques tretes de les dades.
Les mesures descriptives son valors num`erics calculats a partir de la mostra
i que ens resumeixen la informacio que aquesta conte. En la part dinfer`encia estadstica, les anomenarem estadstics.

2.1. MESURES DE POSICIO


Ens donen el valor que ocupa una determinada posici
o respecte de la resta de
la mostra.
`
2.1.1. MESURES DE TENDENCIA
CENTRAL
Ens donen un centre de la distribucio de freq
u`encies. Son valors que poden
considerar-se com a mesura resum de totes les dades. Hi ha diferents formes de
denir el centre de les observacions dun conjunt de dades. Per ordre dimport`ancia
son:
1. Mitjana aritm`
etica (o simplement mitjana) (x): es el quocient entre la
suma de totes les dades i el nombre total daquestes (tenint en compte que
si un valor es repeteix, cal considerar-ne totes les repeticions). Es calcula
mitjancant:
k

x=

1
xi n i =
xi fi .
n i=1
i=1

Si les dades estan agrupades en intervals, usarem la marca de classe, ci , en


lloc de xi .
la mesura de centralitzacio mes important.
Es
Exemple 2.1 En lexemple 1.1, del tema anterior, la mitjana de lls per
famlia es:

x=

126
0 2 + 1 4 + 2 21 + 3 15 + 4 6 + 5 1 + 6 1
=
= 2.52 lls.
50
50

Haurem pogut calcular-la tambe com x =

xi fi , es a dir:

i=1

x = 00.04+10.08+20.42+30.3+40.12+50.02+60.02 = 2.52 lls.

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4


Estadstica. Volum I - 2009/2010

23

Estadstica. Volum I - UJI


23

c UJI

Exemple 2.2 El preu mitj`a de les habitacions en lexemple 1.2, del tema
anterior, el calculem utilitzant les marques de classe, es a dir:

x=

34.5 2 + 39.5 7 + 44.5 12 + 49.5 10 + 54.5 4 + 59.5 5


= 47.25 e.
40

O, equivalentment:

x = 34.50.05+39.50.175+44.50.3+49.50.25+54.50.1+59.50.125 = 47.25 e.

Les propietats mes importants de la mitjana son:


(a) Si a tots els valors duna variable els sumem una constant C, la mitja a dir, queda
na aritm`etica queda augmentada en aquesta constant. Es
afectada pels canvis dorigen de la mateixa manera que les dades:
yi = C + xi y = C + x.
Demostraci
o:

1
1
1
1
y=
y i ni =
(C + xi )ni = C
ni +
xi ni = C + x,
n i=1
n i=1
n i=1
n i=1
ja que

ni = 1

i=1

(b) Si tots els valors duna variable els multipliquem per una constant C,
la seua mitjana aritm`etica queda multiplicada per la mateixa constant.
a dir, la mitjana aritm`etica queda afectada pels canvis descala de la
Es
mateixa manera que les dades:
yi = Cxi y = Cx.
Demostraci
o:
k

1
1
1
yi ni =
Cxi ni = C
xi ni = Cx
y=
n i=1
n i=1
n i=1

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

24

Estadstica. Volum I - UJI

24

c UJI

(c) Com a corollari dambdues propietats anteriors, si considerem la transformacio lineal yi = A + Cxi , on A i C son dues constants qualssevol, la
mitjana arirm`etica de la nova variable es: y = A + Cx.
Demostraci
o:

Es evident a partir de les propietats anteriors.


(d) La suma de totes les difer`encies entre els valors de la variable i la mitjana
es 0.
k

i=1

(xi x)ni = 0,

es a dir, la mitjana es el centre de gravetat de les observacions.


Demostraci
o:
k

i=1

(xi x)ni =

i=1

xi n i

i=1

xni = nx nx = 0

(e) La suma de les desviacions al quadrat dels valors de la variable respecte a


una constant C qualsevol es mnima quan aquesta constant es la mitjana
a dir:
aritm`etica. Es
k

i=1

(xi x) ni

i=1

(xi C)2 ni , per a qualsevol constant C.

2. Mediana (M e): es el valor per al qual, quan totes les observacions sordenen
de mes baixa a mes alta, la meitat daquestes es mes petita que aquest valor
i laltra meitat, mes gran. Si el nombre de dades es imparell, la mediana ser`a
el valor central; si es parell, prendrem com a mediana la mitjana aritm`etica
dels dos valors centrals.
La forma mes c`omoda de calcular-la es usant les freq
u`encies acumulades.
(a) Distribucions no agrupades
n
1) Calculem .
2
2) Mirem en la distribucio de freq
u`encies la columna de les freq
u`encies
absolutes acumulades i hi busquem la freq
u`encia Ni que faca complir
n
que Ni1 < Ni :
2
n
Si
< Ni , aleshores la mediana es aquell valor la freq
u`encia
2
acumulada del qual es Ni , es a dir:
M e = xi , de manera que

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

25

n
< Ni .
2

Estadstica. Volum I - UJI

25

c UJI

n
Si = Ni (noteu que aix`o nomes pot passar quan n es parell), la
2
mediana es la mitjana aritm`etica daquells valors la freq
u`encia
acumulada dels quals es Ni i Ni+1 , respectivament, es a dir:
Me =

xi + xi+1
n
, de manera que = Ni .
2
2

Exemple 2.3 Mediana del nombre de lls de lexemple 1.1:

xi

ni

Ni

n = 50

62

21

27

n
= 25
2

15

42

48

49

50

N2 = 6 < 25 27 = N3
Per tant, M e = x3 = 2 lls.

(b) Distribucions agrupades per intervals

1) Calculem

n
.
2

2) Mirem en la distribucio de freq


u`encies la columna de les freq
u`encies
absolutes acumulades i hi busquem la freq
u`encia Ni que faca comn
plir que Ni1 < Ni . A aquesta freq
u`encia, li correspon linterval
2
[li , Li [ (que anomenarem interval medi`
a); a continuacio, per obtindre la mediana, aplicarem la formula seg
uent:
n

Ni1 ai
M e = li + 2
.
ni
El raonament per a justicar la utilitzacio daquesta formula es el
seg
uent: la freq
u`encia absoluta acumulada ns a linterval anterior
al medi`a es Ni1 . Per a arribar a la meitat de
n les dades,
es a dir,
n
per a arribar ns a , necessitem prendre
Ni1 dades de
2
2
linterval medi`a (el qual conte ni ) repartides en una amplitud ai .
Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

26

Estadstica. Volum I - UJI

26

c UJI

Com que a cada dada correspon una longitud


dades, els corrrespondr`a la longitud:
n

Ni1 ai
2
.
ni

ai
, a les
Ni1
ni
2

Exemple 2.4 Mediana del preu de les habitacions dels 40 hotels


de lexemple 1.2:

[li , Li [

ni

Ni

[32, 37[

[37, 42[

[42, 47[ 12

21

N2 = 9 < 20 21 = N3

[47, 52[ 10

31

Interval medi`a: [37, 42[

[52, 57[

35

[57, 62]

4
5

n = 40
n
2

= 20

M e = 37 +

40

9)5
( 40
2
7

= 44,86 e

Les propietats mes importants de la mediana son:


(a) Si a tots els valors duna variable els sumem una mateixa constant C, la
a dir, la mediana
mediana queda augmentada en aquesta constant. Es
queda afectada pels canvis dorigen de la mateixa manera que les dades:
y i = C + xi M ey = C + M e x .
(b) Si tots els valors duna variable els multipliquem per una constant C, la
a dir, la
seua mediana queda multiplicada per la mateixa constant. Es
mediana queda afectada pels canvis descala de la mateixa manera que
les dades:
yi = Cxi M ey = CM ex .
(c) Com a corollari de totes dues propietats anteriors, si considerem la
transformacio lineal yi = A+Cxi , on A i C son dues constants qualssevol,
la mediana de la nova variable es: M ey = A + CM ex .
(d) La mediana fa mnima la suma de totes les desviacions absolutes dels
a dir:
valors de la variable respecte a una constant C qualsevol. Es
k

i=1

|xi M e| ni

i=1

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

|xi C| ni , per a qualsevol constant C.


27

Estadstica. Volum I - UJI

27

c UJI

3. Moda (M o): es el valor de la variable que mes es repeteix, es a dir, la


freq
u`encia (absoluta o relativa) del qual es mes alta. No te per qu`e ser u
nica.
Per a calcular-la distingirem:
(a) Distribucions no agrupades
Simplement observem en la columna de les freq
u`encies absolutes i triem
aquell valor o aquells valors de la variable que tenen mes freq
u`encia.
Quan trobem dues modes, diem que la distribucio es bimodal; quan en
trobem tres, trimodal, etc.
Exemple 2.5 Moda del nombre de lls per famlia de lexemple 1.1:
xi
0
1
2
3
4
5
6

ni
2
4
21
15
6
1
1

ni mes alt = 21
Correspon a n3 .
Per tant, M o = x3 = 2 lls.

ai

ni+1

li

Li

Figura 2.1: Representacio de la moda en distribucions agrupades

(b) Distribucions agrupades per intervals


1) Intervals digual amplitud: observant les freq
u`encies absolutes, determinem linterval amb mes freq
u`encia [li , Li [ (que anomenarem
interval modal). A continuacio, per a calcular la moda, aplicarem
la formula seg
uent:

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

28

Estadstica. Volum I - UJI

28

c UJI

M o = li +

ni+1
ai .
ni1 + ni+1

El raonament per a justicar la utilitzacio daquesta formula (observeu la gura 2.1) es el seg
uent: considerem els intervals anterior i
posterior al modal, amb freq
u`encies respectives ni1 i ni+1 . Si aquestes freq
u`encies son iguals, la moda es el centre de linterval modal.
En cas contrari, la moda estar`a mes prop daquell interval contigu,
la freq
u`encia del qual es mes alta, es a dir, les dist`ancies de la moda
als intervals contigus al modal son inversament proporcionals a les
freq
u`encies daquests intervals. Com a conseq
u`encia dac`o, tindrem:
m
ni+1
=
.
ai m
ni1
Si allem m i substitum, obtenim la formula anterior.
M o = li + m, on m permet que

Exemple 2.6 Moda del preu de les habitacions dels 40 hotels de


lexemple 1.2:
[li , Li [

ni

[32, 37[

[37, 42[

ni mes alt = 12, correspon a n3 .


Interval modal: [42, 47[

[42, 47[ 12
[47, 52[ 10
[52, 57[

[57, 62]

M o = 42 +

10
5 = 44,94 e
7 + 10

2) Intervals de diferent amplitud: en primer lloc hem de calcular la


densitat de freq
u`
encia de cada interval, que es deneix com:
ni
.
ai
Linterval modal, [li , Li [, ser`a ara el que tinga la densitat de freq
u`encia mes alta, i per a calcular la moda aplicarem la formula anterior,
i substituirem les freq
u`encies per les densitats de freq
u`encia, es a
dir:
di =

M o = li +

di+1
ai .
di1 + di+1

Nota 2.1 Comparaci


o entre mitjana, mediana i moda:
Aquestes tres mesures de tend`encia central son les mes importants i les mes
usuals, per`o quan utilitzem luna o laltra?

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4


Estadstica. Volum I - 2009/2010

29

Estadstica. Volum I - UJI


29

c UJI

La mitjana es la millor perqu`e fa u


s de tota la informacio, es a dir, pren en
consideracio tots els valors de la distribucio. Tambe te com a avantatge que
es u
nica. Linconvenient principal es que es molt sensible a la presentacio de
dades an`omales o atpiques, que fan que el seu valor es desplace cap als dits
valors. Aix doncs, no es recomanable usar la mitjana en aquests casos. Un
altre desavantatge es que pot no coincidir amb un dels valors de la distribucio.
Usarem la mediana quan falle la mitjana. Aquella usa menys informacio que
aquesta, ja que no depen dels valors de la variable, sino del lloc que ocupen. Per aquest motiu, te lavantatge de no estar afectada per observacions
extremes. Un altre avantatge davant de la mitjana es que quasi sempre coincideix amb un valor de la variable.
La moda es la que menys informacio utilitza i es, per tant, la pitjor. A mes, pot
no ser u
nica, la qual cosa es un altre inconvenient. Lavantatge mes important
es que podem obtindre-la, tambe, per a dades qualitatives.
Si la distribucio es sim`etrica i campaniforme, la mitjana, la mediana i la moda
coincideixen.
En el cas de distribucions campaniformes, la mediana est`a, amb freq
u`encia,
entre la mitjana i la moda (un poc mes prop de la mitjana).
La relacio seg
uent ens permet calcular aproximadament (en distribucions
campaniformes) una daquestes mesures en funcio de les altres:
M o 3M e 2x.
Les mesures de centralitzacio seg
uents tenen un signicat estadstic menys intutiu i sutilitzen en situacions mes especques.
4. Mitjana geom`
etrica (G): es deneix com larrel en`esima del producte de
les n dades:

n
xni i .
G=
i=1

La mitjana geom`etrica sol emprar-se per a fer mitjanes amb percentatges,


taxes i nombres ndexs.
Propietat 2.1 El logaritme de la mitjana geom`etrica es igual a la mitjana
aritm`etica dels logaritmes dels valors de la variable.

5. Mitjana harm`
onica (H): es deneix com el recproc de la mitjana aritm`etica dels recprocs de les dades:
n
.
H= k
1
ni
i=1 xi
Sol utilitzar-se per a fer mitjanes amb velocitats, rendimients i, en general,
magnituds expressades en termes relatius.

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

30

Estadstica. Volum I - UJI

30

c UJI

Nota 2.2 Si les dades estan agrupades, per a calcular totes dues mesures anteriors
utilitzarem les marques de classe, es a dir, ci en lloc de xi .
Propietat 2.2 Les tres mitjanes estan relacionades mitjancant:
H G x.

NO CENTRALS: QUANTILS
2.1.2. MESURES DE POSICIO
Els quantils son valors de la distribucio que la divideixen en parts iguals, es
a dir, en intervals que contenen el mateix nombre de valors de la distribucio. Els
mes usuals son:
1. Percentils: son 99 valors que divideixen la distribucio en 100 parts iguals,
despres dhaver ordenat les dades. El percentil dordre p (Pp ) es el menor
valor superior al p % de les dades (ordenades les dades de mes baixa a mes alta,
deixa el p % de les dades per davant). Els calculem a partir de les freq
u`encies
acumulades.
(a) Dades no agrupades:
pn
.
100
Es busca en la taula el valor la freq
u`encia acumulada del qual es la
primera superior o igual al p % de n, es a dir:
pn
Pp = xi que permeta que Ni1 <
Ni .
100
Calculem el p % de n, es a dir,

(b) Dades agrupades (utilitzem la mateixa idea que en el c`alcul de la mediana):


pn
Calculem el p % de n, es a dir,
.
100
Busquem linterval [li , Li [ la freq
u`encia acumulada del qual verica
pn
Ni1 <
Ni .
100
A continuacio, per a trobar el percentil, apliquem la formula seg
uent:
p n

Ni1 ai
Pp = li + 100
.
ni

2. Quartils (Qi ): son els tres valors que divideixen el conjunt de dades ordenades en quatre parts iguals. Son un cas particular dels percentils, de forma
que:
Q1 = P25 , Q2 = P50 i Q3 = P75 .

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

31

Estadstica. Volum I - UJI

31

c UJI

Exemple 2.7 Calcula els tres quartils per a la distribucio del nombre de lls
de les 50 famlies de lenquesta de lexemple 1.1:
xi
0
1
2
3
4
5
6

ni

Ni

2
4
21
15
6
1
1

2
6
27
42
48
49
50

Q1 = P25 ;

25 50
= 12,5 Q1 = 2 lls
100

Q2 = P50 ;

50 50
= 25 Q2 = 2 lls
100

Q3 = P75 ;

75 50
= 37,5 Q3 = 3 lls
100

Exemple 2.8 Calcula els tres quartils per a la distribucio del preu per
habitacio dels 40 hotels de lenquesta de lexemple 1.2:

25 40
= 10 Q1 [42, 47[
100

[li , Li [

ni

Ni

Q1 = P25 ;

[32, 37[

[37, 42[

[42, 47[ 12

21

25 40
9
Q1 = 42 + 100
5 = 42,42 e
12

[47, 52[ 10

31

[52, 57[

35

[57, 62]

40

50 40
= 20 Q2 [42, 47[
100

q2 = P50 ;

50 40
9
Q2 = 42 + 100
5 = 46,58 e
12
75 40
= 30 Q3 [47, 52[
100

Q3 = P75 ;

75 40
12
Q3 = 47 + 100
5 = 56 e
10
3. Decils (Di ): son els nou valors que divideixen la distribucio, una vegada
ordenades les dades de mes baixa a mes alta, en deu parts iguals. Tambe son
un cas particular dels percentils:
D1 = P10 ,

D2 = P20 ,

...,

D9 = P90 .

Propietat 2.3 Evidentment, per a qualsevol distribucio es verica:


M e = P50 = Q2 = D5 .

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

32

Estadstica. Volum I - UJI

32

c UJI

2.2. MOMENTS
Els moments duna distribucio es deneixen com una generalitzacio de la mitjana aritm`etica i, com veurem mes endavant, serveixen per a descriure algunes
caracterstiques importants de les distribucions de freq
u`encies. La propietat mes
important es que dues distribucions son iguals quan tenen iguals tots els moments,
i com mes moments iguals tenen mes paregudes son.

1. El moment respecte a lorigen dordre r (ar ) es la mitjana aritm`etica de


a dir:
les pot`encies r-`esimes de les dades. Es
k

1 r
ar =
x ni .
n i=1 i
`
Propietat 2.4 Obviament
es veriquen:
k

a0 =

n
1
1 0
xi ni = = 1 i a1 =
xi ni = x.
n i=1
n
n i=1

2. El moment dordre r respecte a la mitjana aritm`


etica es:
k

1
mr =
(xi x)r ni .
n i=1
Propietat 2.5 Els moments dordre r respecte a la mitjana aritm`etica mes
comuns veriquen:

1
n
1
m0 =
(xi x)0 ni = = 1 i m1 =
(xi x)r ni = x x = 0.
n i=1
n
n i=1

2.3. MESURES DE DISPERSIO


Les mesures de tend`encia central tenen com a objectiu sintetitzar les dades en
un valor representatiu. Les mesures de dispersio ens diuen ns a quin punt les de
tend`encia central son representatives com a sntesi de la informacio. Les mesures
de dispersio quantiquen la separacio, la dispersio, i la variabilitat dels valors de
la distribucio respecte dels valors centrals.
Distingirem entre mesures de dispersio absolutes, que no son comparables entre
diferents mostres, i les relatives, que ens permeten comparar-ne diverses.

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

33

Estadstica. Volum I - UJI

33

c UJI

ABSOLUTES
2.3.1. MESURES DE DISPERSIO
Per ordre dimport`ancia tenim:
1. Vari`
ancia (s2 ): es la mitjana dels quadrats de les dist`ancies entre cada observacio i la mitjana aritm`etica del conjunt de les observacions:
k

1
s =
(xi x)2 ni =
(xi x)2 fi .
n i=1
i=1
2

Si les dades estan agrupades per intervals, usarem les marques de classe per
a calcular-la, es a dir, ci en lloc de xi .
En el cas extrem que totes les observacions siguen iguals, la mitjana coincideix
amb aquest valor com
u i, en conseq
u`encia, la vari`ancia es 0. En general, com
mes disperses siguen les observacions, mes grans seran les difer`encies dins dels
quadrats i per tant, mes alt es el valor de s2 .
Nota 2.3 La vari`ancia es el moment dordre 2 respecte de la mitjana, es a
dir, s2 = m2 .
Les propietats mes importants de la vari`ancia son:
(a) La vari`ancia mai pot ser negativa: s2 0.

(b) Una forma mes senzilla de calcular la vari`ancia es:


k

1 2
s =
xi ni x = x2 x = a2 a21
n i=1
2

Demostraci
o:
k

1
1 2
=
(xi x)2 ni =
(xi 2xi x + x2 )ni =
n i=1
n i=1
k

1 2
1
1
=
xi ni 2x
xi + x2
ni =
n i=1
n i=1
n i=1
k

1 2
x ni 2x2 + x2 = x2 x2 = a2 a21
=
n i=1 i
(c) Si a tots els valors duna variable, els sumem la mateixa constant C, la
vari`ancia no canvia:
yi = C + xi s2y = s2x .
Demostraci
o:
k

s2y =

1
1
1
(yi y)2 ni =
(C +xi C x)2 ni =
(xi x)2 ni = s2x
n i=1
n i=1
n i=1

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

34

Estadstica. Volum I - UJI

34

c UJI

(d) Si tots els valors duna variable, els multipliquem per una mateixa constant C, la seua vari`ancia queda multiplicada pel quadrat de la constant:
yi = Cxi s2y = C 2 s2x .
Demostraci
o:
k

s2y

1
1
1
=
(yi y)2 ni =
(Cxi Cx)2 ni = C 2
(xi x)2 ni = C 2 s2x
n i=1
n i=1
n i=1

(e) Com a corollari de les propietats anteriors, si considerem la transformacio lineal yi = A + Cxi , on A i C son dues constants qualssevol, la
nova vari`ancia queda s2y = C 2 s2x .

Exemple 2.9 Vari`ancia del nombre de lls per famlia de lexemple 1.1:

xi
0
1
2
3
4
5
6

ni
2
4
21
15
6
1
1

x = 2.52 lls
02 2 + 12 4 + 22 21 + 32 15 + 42 6 + 52 1 + 62 1
s =

50
2

(2.52)2 = 1.25 (lls)2

Altres mesures de dispersio directament relacionades amb la vari`ancia son les


dues seg
uents:

2. Desviaci
o tpica (s): es larrel quadrada positiva de la vari`ancia. El motiu
principal per a utilitzar-la es que la vari`ancia no est`a donada en les mateixes
unitats que la variable, sino en aquestes unitats al quadrat.
Les propietats mes importants de la desviacio tpica, que es dedueixen f`acilment
a partir de les corresponents propietats per a la vari`ancia, son:
(a) s 0

(b) yi = C + xi sy = sx

(c) yi = Cxi sy = |C| sx

(d) yi = A + Cxi sy = |C| sx


Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

35

Estadstica. Volum I - UJI

35

c UJI

Exemple 2.10 En lexemple 2.9, s =

1.25 = 1.12 lls.

3. Quasivari`
ancia (s ): la denicio es com la de la vari`ancia, per`o dividint
entre (n 1):
s

1
n
=

(xi x)2 ni =
s2 .
n 1 i=1
n1

Exemple 2.11 En lexemple 2.9, s =

50
1.25 = 1.27 (lls)2 .
49

4. Desviaci
o mitjana respecte de la mitjana aritm`
etica (Dx ): es deneix
com la mitjana aritm`etica de les desviacions, en valor absolut, respecte de la
mitjana aritm`etica:
k
1
Dx =
|xi x| ni .
n i=1
Si pren valors grans, signica que els valors de la variable es distribueixen en
valors allunyats de la mitjana.
Exemple 2.12 Per al nombre de lls per famlia de lexemple 1.1:
xi

ni

0
1
2
3
4
5
6

2
4
21
15
6
1
1

|xi x| |xi x| ni
2.52
1.52
0.52
0.48
1.48
2.48
3.48

50

5.04
6.08
10.92
7.2
8.88
2.48
3.48

1
44.08
Dx =
= 0.88 lls.
|xi x| ni =
n i=1
50

44.08

5. Desviaci
o mitjana respecte de la mediana (DM e ): es deneix com la
mitjana aritm`etica de les desviacions, en valor absolut, respecte de la mediana:
k
1
DM e =
|xi M e| ni .
n i=1

Si pren valors grans, signica que els valors de la variable estan dispersos
respecte de la mediana.

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

36

Estadstica. Volum I - UJI

36

c UJI

Exemple 2.13 Per al cas del nombre de lls:


xi

ni

0
1
2
3
4
5
6

2
4
21
15
6
1
1

|xi M e| |xi M e| ni
2
1
0
1
2
3
4

50

4
4
0
15
12
3
4

DM e =

1
42
|xi M e| ni =
= 0.84 lls.
n i=1
50

42

6. Recorregut o rang mostral (Re ): es la difer`encia entre els valors mes alt
i mes baix de les observacions:
Re = xmax xmn .
Com mes recorregut, mes dispersio.
Exemple 2.14 Per al cas del nombre de lls: Re = 6 0 = 6 lls.
7. Recorregut interquartlic (RQ): es la difer`encia entre el tercer i el primer
quartil.
RQ = C3 C1 .
Com mes RQ, mes dispersio.
Exemple 2.15 Per al cas del nombre de lls: RQ = 3 2 = 1 ll.

RELATIVES
2.3.2. MESURES DE DISPERSIO
Nomes considerarem el coecient de variaci
o de Pearson, que es deneix
com el quocient entre la desviacio tpica i el valor absolut de la mitjana aritm`etica:
CV =

s
.
|x|

adimensional i val per a comparar dues distribucions que no venen en les mateiEs
xes unitats. Representa quantes vegades la mitjana aritm`etica est`a continguda en
la desviacio tpica. Com mes alt es CV , mes gran es la dispersio i menor la representativitat de la mitjana aritm`etica.

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

37

Estadstica. Volum I - UJI

37

c UJI

Exemple 2.16 El coecient de variacio del nombre de lls es:


CV =

1.12
= 0.44
2.52

DUNA DISTRIBUCIO
DE FREQU
ENCIES
`
2.4. TIPIFICACIO
Es diu que una variable estadstica est`a tipicada quan la seua mitjana
arim`etica es 0 i la seua vari`ancia (o la seua desviacio tpica) es 1.
Suposem que apliquem a les dades la transformacio seg
uent:
zi =

xi x
,
sx

es a dir, a cada valor de la variable, li restem la mitjana i despres dividim entre


la desviacio tpica. Es tracta, doncs, duna transformacio lineal zi = A + Cxi ,
on A = sxx i C = s1x . Usant la propietat c de la mitjana i la propietat d de la
desviacio tpica, es f`acil demostrar que la nova distribucio de freq
u`encies te mitjana
0 i desviacio tpica 1.
Aleshores direm que la mostra o la distribuci
o de freq
u`
encies est`a tipicada
i la transformacio realitzada, lanomenarem tipicaci
o.
2.5. MESURES DE FORMA
Comparen la forma que te la representacio gr`aca de la distribucio, be siga
lhistograma o el diagrama de barres, amb la distribucio normal.
2.5.1. MESURES DASIMETRIA
Mesuren la simetria de la distribucio. Suposem que hem representat gr`acament
una distribucio de freq
u`encies; tracem una perpendicular a leix dabscisses per
o es sim`
etrica si a ambdos
labscissa corresponent a x. Direm que la distribuci
costats de la perpendicular tracada existeix el mateix nombre de valors, equidistants
dos a dos, i cada parell de punts equidistants amb la mateixa freq
u`encia.
1. El coecient dasimetria de Fisher (g1 ):
g1 =

k
1
m3
3
(x

x)
n
=
.
i
i
ns3 i=1
s3

Si la distribucio es sim`etrica, en el numerador tindrem tantes desviacions


positives com negatives i per tant, g1 = 0.
Si g1 > 0, la distribucio es asim`etrica positiva o asim`etrica per la dreta.
Si g1 < 0, la distribucio es asim`etrica negativa o asim`etrica per lesquerra.

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

38

Estadstica. Volum I - UJI

38

c UJI

Exemple 2.17 Coecient dasimetria de Fisher per al nombre de lls:


xi

ni

xi x

(xi x)3

(xi x)3 ni

0
1
2
3
4
5
6

2
4
21
15
6
1
1

-2.52
-1.52
-0.52
0.48
1.48
2.48
3.48

-16.003
-3.512
-0.141
0.11
3.242
15.253
42.144

-32.006
-14.047
-2.953
1.658
19.451
15.253
42.144

50

x = 2.52 lls
sx = 1.12 lls
g1 =

29.5
= 0.42 > 0
50 (1.12)3

Distribucio asim`etrica per la dreta

29.5

En el dibuix seg
uent poden observar-se els diferents tipus dasimetries:

Sim`etrica

Sim`etrica

Asim`etrica per la dreta

Asim`etrica per lesquerra

Asim`etrica per la dreta

Asim`etrica per lesquerra

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

39

Estadstica. Volum I - UJI

39

c UJI

2. El coecient dasimetria de Pearson (As ): es molt mes f`acil de calcular


que lanterior, per`o sols es aplicable a les distribucions que nomes tenen una
moda i que tenen forma de campana. Es deneix com:

As =

x Mo
.
s

Si la distribucio es sim`etrica, x = M o i per tant, As = 0. Si As > 0, la


distribucio es asim`etrica positiva. Si As < 0, la distribucio es asim`etrica
negativa.

Exemple 2.18 Per al cas de lexemple 1.1: M o = 2 lls, x = 2.52 lls i


s = 1.12 lls. Per tant:

As =

x Mo
2.52 2
=
= 0.46 > 0 Distribucio asim`etrica positiva.
s
1.12

2.5.2. MESURES DAPUNTAMENT O CURTOSI


Mesuren la quantitat de dades que sagrupen en torn a la mitjana. Sols tenen
sentit en les distribucions campaniformes, es a dir, unimodals sim`etriques o lleugerament asim`etriques.
Si per a valors pr`oxims a la mitjana les freq
u`encies son mes altes que en la
distribucio normal, la gr`aca ser`a molt apuntada en aquesta zona, i es diu que la
distribuci
o es leptoc
urtica. Quan son mes baixes que en la normal, direm que
la distribuci
o es platic
urtica. Finalment, quan la distribucio de freq
u`encies es
igual dapuntada que la normal, direm que es una distribuci
o mesoc
urtica.

El coecient dapuntament o curtosi (g2 ) es deneix com:


g2 =

k
1
m4
(xi x)4 ni 3 = 4 3.
4
ns i=1
s

Si g2 > 0, es leptoc
urtica; si g2 < 0, platic
urtica i si g2 = 0, mesoc
urtica. En la
gura 2.2, pot observar-se una representacio gr`aca de la curtosi.

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

40

Estadstica. Volum I - UJI

40

c UJI

Exemple 2.19 Curtosi per al nombre de lls de lexemple 1.1:

xi

ni

xi x

(xi x)4

(xi x)3 ni

0
1
2
3
4
5
6

2
4
21
15
6
1
1

-2.52
-1.52
-0.52
0.48
1.48
2.48
3.48

40.327
5.338
0.073
0.053
4.798
37.827
146.662

80.655
21.352
1.533
0.795
28.788
37.827
146.662

50

g2 =

317.612
3 = 1.037 > 0
50 (1.12)4

Distribucio leptoc
urtica

317.612

Normal

Normal

Platic
urtica

Leptoc
urtica

Figura 2.2: Representacio de diversos tipus dapuntament

2.6. MESURES DE CONCENTRACIO


Les mesures de concentracio tracten de posar de maniest el grau digualtat
en el repartiment total dels valors de la variable. Son, per tant, indicadors del
grau dequidistribucio de la variable. Aquestes mesures tenen especial aplicacio a
variables de tipus econ`omic: rendes, salaris, etc.
Suposem que tenim n subjectes i els valors de la variable (rendes, salaris, etc.)
son:
x1 x2 xn
i ens interessa estudiar ns a quin punt la suma total de valors (renda total, suma
dels salaris, etc.) est`a equitativament repartida. Les dues situacions extremes son:

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

41

Estadstica. Volum I - UJI

41

c UJI

Concentracio m`axima: dels n subjectes, nomes un rep el total i la resta, res:


x1 = x2 = = xn1 = 0,

xn = 0.

Concentracio mnima: tots tenen el mateix valor:


x1 = x2 = = xn1 = xn .

Nota 2.4 Cal considerar que, des dun punt de vista estadstic, els termes dispersio i concentracio no son oposats. Recordem que el primer fa refer`encia a la
variabilitat de les dades respecte de la mitjana; mentre que el segon, com acabem
dassenyalar, a la no-equitat en el repartiment de la suma total de la variable.
1. Index de concentraci
o de Gini (Ico ). Es construeix a partir de les quantitats seg
uents:
(a) Calculem, en primer lloc, els productes xi ni , que ens indiquen el total
percebut (renda total, guanys totals, etc.) pels ni subjectes amb valor xi
(renda, guany, etc.). Aquest producte, es anomenat riquesa de li-`
esim
grup.
(b) Calculem les riqueses acumulades de la variable, que denotarem per ui :
u1 = x 1 n 1
u2 = x 1 n 1 + x 2 n 2
u3 = x 1 n 1 + x 2 n 2 + x 3 n 3
..
.
uk = x 1 n 1 + x 2 n 2 + + x k n k
(c) Les riqueses acumulades (ui ), les representem en tant per cent del total
(uk ). Denotem aquests percentatges per qi :
ui
qi =
100.
uk
(d) Expressem les freq
u`encies relatives acumulades en tant per cent. Denotem aquests percentatges per pi :
pi =

Ni
100 = Fi 100.
n

Una vegada efectuats aquests c`alculs, es deneix lndex de concentracio de


Gini a partir de la formula:

Ico =

k1

i=1

(pi qi )

k1

pi

i=1

Shi obte que 0 Ico 1.


Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

42

Estadstica. Volum I - UJI

42

c UJI

Podem observar que:

Si qi = 0, per a i = 1, 2, . . . , (k 1) i qk = 0, aleshores Ico =

k1

i=1
k1

pi
=1i
pi

i=1

la concentracio es m`axima.

Si per a cada i, qi = pi , aleshores Ico = 0 i el repartiment es equitatiu,


ja que cada percentatge dindividus poseeix el mateix percentatge de
riquesa.

2. Corba de Lorenz: una forma destudiar gr`acament la concentracio es mitjancant la corba de Lorenz. Es construeix representant en leix dabscisses el
percentatge de freq
u`encies acumulades (pi ) i en el dordenades, els percentatges acumulats del total de la variable (qi ). En unir aquests punts obtenim la
corba de Lorenz. Per a una millor interpretacio, se sol dibuixar un quadrat
de costat 100 (en la gura 2.3 OABC) i la seua diagonal (OB).
Noteu que:
Com que per a pi = 0, es qi = 0, la gr`aca sempre passa pel punt (0, 0).
Com que per a pi = 100, es qi = 100, la gr`aca sempre passa pel punt
(100, 100).
Com que pi qi , la gr`aca sempre est`a situada per davall de la diagonal
del quadrat (OB) o hi coincideix.
En el cas dexistir repartiment equitatiu, es a dir, concentracio mnima
(pi = qi ), la corba coincideix amb la diagonal.
Si la concentracio es m`axima, la corba de Lorenz est`a formada pels
costats del quadrat: OA i OB (observeu la gura 2.4).

Es demostra que, aproximadament:


Ico =

`
Area
entre la corba i la diagonal OB
.
`
Area
del triangle OAB

Nota 2.5 Lndex de Gini te lavantatge, sobre la corba de Lorenz, de resumir la


informacio en una sola xifra, per`o quan realitzem comparacions entre dues distribucions, aquest avantatge te com a contrapartida negativa que dues distribucions amb
aspectes molt diferents poden tindre el mateix ndex de Gini.

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

43

Estadstica. Volum I - UJI

43

c UJI

Figura 2.3: Corba de Lorenz

Distribucio de concentracio mnima

Distribucio de concentracio m`axima

Figura 2.4: Comparacio de dues corbes de Lorenz

Exemple 2.20 Est`a el nombre de lls molt concentrat en unes poques famlies en
lexemple 1.1?
xi

ni

xi n i

ui

qi

0
1
2
3
4
5
6

2
4
21
15
6
1
1

0
4
42
45
24
5
6

0
4
46
91
115
120
126

0
3.17
36.51
72.22
91.27
95.24
100

Fi

pi

0.04 4
0.12 12
0.54 54
0.84 84
0.96 96
0.98 98
1
100

pi q i
4
8.83
17.49
11.78
4.73
2.76

Ico =

49.59
= 0.142
348

Poca concentracio

49.59
Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

44

Estadstica. Volum I - UJI

44

c UJI

2.7. PROBLEMES PROPOSATS


(1) Donada la distribucio xi = {45924, 45926, 45928, 45930, 45932} amb freq
u`encies respectives ni = {5, 7, 5, 2, 9}, calculan la mitjana artim`etica. Pots proposar-ne un m`etode senzill de c`alcul?
(2) La taula seg
uent mostra la distribucio dels salaris (en euros) en 2005 en la
ind
ustria turstica dun determinat pas:
li L i

ni

0 600
600 900
900 1200
1200 1500
1500 1800
1800 2100
2100 2700
2700 4000
> 4000

2140
1525
845
950
1105
2347
615
323
150

Calcula:
a) El salari mitj`a per treballador (pren com a marca de classe de l
ultim
interval 5000).
b) El salari mes freq
uent.
c) El salari que permet ser superior a la meitat dels restants.

(3) Demostra que la mitjana aritm`etica de la variable Z, obtinguda com a suma


de les dades daltres dues variables X i Y , es la suma de les mitjanes aritm`etiques daquestes.
(4) Calcula la mediana, la moda, el primer i el tercer quartil, el quart decil i el
nonag`esim centil de la distribucio:
xi

10

15

20

25

ni

(5) Donada la distribucio de freq


u`encies seg
uent:
xi

10

20

30

40

ni

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

45

Estadstica. Volum I - UJI

45

c UJI

Calcula:
a) Mitjana, moda, mediana, primer i tercer quartil, i quaranta-cinque centil.
b) Vari`ancia, desviacio tpica, coecient de variacio, i desviacio mitjana
respecte de la mitjana i respecte de la mediana, i recorregut i recorregut
interquartlic.
c) El coecient dasimetria i la curtosi.
d ) Comenta els resultats.

(6) Dues empreses A i B tenen 100 treballadors cadascuna. Els salaris per dia i
treballador son:
A lempresa A, 20 persones perceben 15 euros i 80 perceben 120 euros.
A lempresa B, 20 persones perceben 120 euros i 80 perceben 15 euros.
a) Calcula mitjana, vari`ancia, desviacio tpica i coecient de variacio en
cada cas. Compara els resultats.
b) Obtn la corba de Lorenz i lndex de concentracio de Gini en cada cas.
Analitza-ho i compara els resultats.

SOLUCIONS
(1) x = 45928.2143
(2)

a) x = 1366.35 euros
b) M o = 1865.31 euros
c) M e = 1354.74 euros

(4) M e = 12.5, M o = 10, C1 = 10, C3 = 15, D4 = 10, P90 = 20


(5)

a) x = 20.5, M o = 20, M e = 20, C1 = 10, C3 = 30, P45 = 20


b) s2x = 124.75, sx = 11.17, CV = 0.55, Dx = 8.65, DM e = 8.5, Re = 40,
RQ = 20
c) As = 0.045, g1 = 0.09848, g2 = 0.65

(6)

a) Empresa A: x = 99, s2x = 1764, sx = 42, CVx = 0.42


Empresa B: y = 36, s2y = 1764, sy = 42, CVy = 1.17
b) Empresa A: Ico = 0.84, Empresa B: Ico = 0.58

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

46

Estadstica. Volum I - UJI

46

c UJI

TEMA 3
DISTRIBUCIONS BIDIMENSIONALS

3.1. INTRODUCCIO
Es vol fer un estudi dacceptacio de dos models dimpressores. Per a aquest , es
consideren les vendes en una tenda durant un perode de 25 dies, durant els quals
les vendes foren:
Model A

0 2

4 4

Model B

2 1

0 1

Model A

3 3

3 3

Model B

1 1

2 2

En molts processos de la vida ordin`aria es necessari estudiar simult`aniament dues


caracterstiques en una determinada poblacio, es a dir, dues variables. Lestudi
conjunt permet determinar les relacions que guarden. Suposarem, inicialment, que
estem observant dues variables encara que el tractament que presentarem es podria
generalitzar sense dicultat per a qualsevol nombre de variables.
Al llarg del tema usarem la notacio seg
uent:
Representarem les variables per X i Y . En lexemple anterior, X = nombre
dimpressores del model A que es venen en un dia. Y = nombre dimpressores
del model B que es venen en un dia.
n: nombre de parells dobservacions. En lexemple, n = 25.
xi : cada dada diferent observada en la mostra de X.
k: nombre de valors diferents de X. En lexemple, k = 5.
yj : cada dada diferent observada en la mostra de Y .
h: nombre de valors diferents de Y . En lexemple, h = 4.
ENCIES
`
3.2. DISTRIBUCIONS DE FREQU
BIVARIANTS
CONJUNTA
3.2.1. DISTRIBUCIO
Com en el cas duna variable, quan volem descriure conjuntament dues variables,
el primer que farem ser`a representar les dades en una taula de freq
u`encies.
Denici
o 3.1 La freq
u`
encia absoluta conjunta (nij ) dun parell (xi , yj ) es el
nombre de vegades que aquest apareix en la mostra.
Exemple 3.1 Per al parell (x1 , y3 ) = (0, 2) de lexemple de la introduccio es te que
n13 = 1.

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4


Estadstica. Volum I - 2009/2010

47

Estadstica. Volum I - UJI


47

c UJI

Propietat 3.1 La suma de totes les freq


u`encies absolutes conjuntes es el nombre
k
h

total de parells dobservacions, es a dir,


nij = n.
i=1 j=1

Denici
o 3.2 La freq
u`
encia relativa conjunta (fij ) dun parell (xi , yj ) es:
fij =

nij
.
n

Exemple 3.2 Per al cas de lexemple anterior, f13 = 0.04.


Propietat 3.2 La suma de totes les freq
u`encies relatives conjuntes es la unitat, es
k
h

fij = 1.
a dir,
i=1 j=1

Denici
o 3.3 Una distribuci
o de freq
u`
encies conjunta es una taula de doble
entrada on, en la primera columna, representarem, ordenats de mes baix a mes alt,
els valors observats de la variable X i en la primera la, els de la variable Y . Al
centre, les corresponents nij , fij o ambdues.
Exemple 3.3 Per a lexemple introductori de les impressores es te:
yj

ni

0
1
2
3
4

0
0
0
0
1

0
0
3
8
2

1
0
5
4
0

0
1
0
0
0

1
1
8
12
3

nj

13 10 1

25

xi

3.2.2. DISTRIBUCIONS MARGINALS


Denici
o 3.4 Les distribucions marginals son les dues distribucions unidimensionals que podem obtindre considerant separadament les dades de cadascuna de
les variables X i Y .
Denici
o 3.5 Les freq
u`
encies marginals son les que sobtenen en les distribucions marginals. Les obtindrem a partir de les conjuntes.
(1) La freq
u`
encia absoluta marginal per a X (ni ) es el nombre de vegades
que es repeteix el valor xi sense tindre en compte els valors de Y (observeu
la taula de lexemple 3.3), es a dir:
ni =

nij

(noteu que sumem la la i).

j=1

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

48

Estadstica. Volum I - UJI

48

c UJI

(2) La freq
u`
encia absoluta marginal per a Y (nj ) es el nombre de vegades
que es repeteix el valor yj sense tindre en compte els valors de X (observeu
la taula de lexemple 3.3), es a dir:
nj =

nij

(noteu que sumem la columna j).

i=1

Exemple 3.4 En lexemple de la introduccio: x3 = 2; n3 = 3 + 5 = 8. Daltra


banda, y2 = 1; n2 = 3 + 8 + 2 = 13.
De la mateixa forma podem denir les freq
u`encies relatives marginals: fi i fj ,
que es calculen a partir de les freq
u`encies absolutes marginals.
Les distribucions daquestes freq
u`encies marginals poden tabular-se de forma
separada, com ho hem fet al tema anterior, o en la taula conjunta, collocant les
ni i les fi en les dues u
ltimes columnes, i les nj i les fj en les dues u
ltimes les.
3.2.3. DISTRIBUCIONS CONDICIONADES
A partir de la distribucio de freq
u`encies conjunta, podem denir un altre tipus de distribucions unidimensionals, tant per a X com per a Y , que denim a
continuacio.
Denici
o 3.6 Les distribucions condicionades son les que sobtenen a partir
de les conjuntes xant el valor duna de les variables.
Exemple 3.5 Nombre dimpressores venudes del model A, ates que sabem que se
nha venut una del model B.
Denici
o 3.7 Les freq
u`
encies condicionades son les que sobtenen en les distribucions condicionades. Les obtindrem a partir de les conjuntes.
(1) La freq
u`
encia absoluta condicionada per a X = xi donada Y = yj
(ni(j) ) es el nombre de vegades que es repeteix xi quan nomes considerem els
a dir, ni(j) = nij ; (1 i k).
casos en qu`e Y = yj . Es
(2) La freq
u`
encia absoluta condicionada per a Y = yj donada X = xi
(n(i)j ) es el nombre de vegades que es repeteix yj quan nomes considerem els
a dir, n(i)j = nij ; (1 j h).
casos en qu`e X = xi . Es
Propietat 3.3

i=1

ni(j) = nj

n(i)j = ni .

i=1

En les distribucions condicionades no se solen usar les freq


u`encies absolutes,
perqu`e, com ja sabem, depenen del nombre de dades i el nombre de dades es
diferent per a cada distribucio, ja que dependr`a de la freq
u`encia del valor que xem
de laltra variable. Son molt mes u
tils les freq
u`
encies relatives condicionades,
que denim a continuacio:

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

49

Estadstica. Volum I - UJI

49

c UJI

Denici
o 3.8 Freq
u`encia relativa condicionada per a X = xi donada Y = yj
(fi(j) ):
nij
fi(j) =
.
nj
Denici
o 3.9 Freq
u`encia relativa condicionada per a Y = yj donada X = xi
(f(i)j ):
nij
f(i)j =
.
ni
Exemple 3.6 Calcula la distribucio de freq
u`encies del nombre dimpressores ve
nudes del model A, quan sabem que del model B sha venut una impressora. Es
a dir, calcula la disribucio de freq
u`encies de X condicionada que Y = 1, o siga,
condicionada a y2 .

xi

ni(2)

fi(2)

0
1
2
3
4

0
0
3
8
2

0
0
0.23
0.62
0.15

13

Nota 3.1 Si la taula resulta molt gran caldr`a agrupar una o ambdues variables en
intervals de classe, de la mateixa manera que hem vist al tema 1. En aquest cas,
totes les denicions que hem vist en aquest tema, es generalitzen como ho v`arem
fer al tema 1.
`
3.2.4. INDEPENDENCIA
ESTADISTICA
Des dun punt de vista exclusivament intutiu, podem dir que dues variables son
independents quan en xar el valor duna no canvia la distribucio de freq
u`encies
de laltra. Mes precisament:
Denici
o 3.10 Direm que X i Y son variables independents estadsticament
quan totes les freq
u`encies relatives condicionades son iguals a les corresponents
a dir:
freq
u`encies marginals. Es
fi(j) = fi ;

j = 1, . . . , h i f(i)j = fj ;

i = 1, . . . , k.

Denici
o 3.11 Direm que X i Y son variables independents estadsticament
quan la freq
u`encia relativa conjunta es igual al producte de les freq
u`encies relatives
a dir:
marginals. Es
fij = fi fj ;

i = 1, . . . , k

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

i
50

j = 1, . . . , h
Estadstica. Volum I - UJI

50

c UJI

o, equivalentment:
nij
ni nj
=

;
n
n n

i = 1, . . . , k

j = 1, . . . , h.

GRAFICA:
`

3.3. REPRESENTACIO
DIAGRAMA DE DISPERSIO
Com en el cas univariant, la forma de la distribucio conjunta saprecia a primera
vista, i es rete mes f`acilment en la mem`oria, amb una adequada representacio gr`aca.
El diagrama de dispersi
o (tambe anomenat n
uvol de punts) sobte representant cada parell observat (xi , yj ) com un punt en el plan cartesi`a. Sol utilitzar-se
amb les dades sense agrupar. Si les dades estan agrupades per intervals, prenem les
marques de classe.
el tipus de gr`ac mes u
Es
til, ja que ens permet visualitzar la relacio entre
ambdues variables.
Exemple 3.7 Com podem observar en el diagrama de dispersio per a lexemple
de les impressores, en augmentar X disminueix Y .

4
3.5
3
2.5
2
1.5
1
0.5
0
0.5
1
1

Figura 3.1: Diagrama de dispersio de lexemple 3.3


Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

51

Estadstica. Volum I - UJI

51

c UJI

Alguns casos que se solen presentar en la pr`actica son els seg


uents:
1. Els punts sagrupen al voltant duna recta y a + bx.
a) Pendent positiu (b > 0): relacio lineal directa.

b) Pendent negatiu (b < 0): relacio lineal inversa.

2. Els punts sagrupen al voltant duna par`abola y ax2 +bx+c: relacio quadr`atica.

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

52

Estadstica. Volum I - UJI

52

c UJI

3. No saprecia cap relacio.

3.4. MESURES DESCRIPTIVES DUNA DISTRIBUCIO


BIDIMENSIONAL
3.4.1. MOMENTS
De la mateixa forma que es deneixen els moments en les distribucions unidimensionals, tambe es poden denir en les distribucions bidimensionals. De nou,
algun cas particular ens donar`a certa informacio sobre la distribucio de freq
u`encies
i, en general, podrem armar que els moments la caracteritzen.

1. Moments respecte a lorigen: es deneix el moment dordre r, s respecte


a lorigen (ars ) (r = 0, 1, . . .; s = 0, 1, . . .) com:
k

1 r s
ars =
x y nij .
n i=1 j=1 i j
Alguns casos particulars interessants son:
a00 =

k
h
1
n
x0i yj0 nij = = 1.
n i=1 j=1
n

k
h
k
1
1
x1i yj0 nij =
xi ni = x, que es la mitjana marginal de
n i=1 j=1
n i=1
la variable X.
k
h
h
1
1
a01 =
yj nj = y, que es la mitjana marginal de
x0i yj1 nij =
n i=1 j=1
n j=1
la variable Y .

a10 =

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

53

Estadstica. Volum I - UJI

53

c UJI

2. Moments centrals o respecte a la mitjana: es deneix el moment dordre


r, s respecte a la mitjana (mrs ) (r = 0, 1, . . .; s = 0, 1, . . .) com:
k

1
mrs =
(xi x)r (yj y)s nij .
n i=1 j=1
Alguns casos particulars interessants son:
m00 =
m10 =
m01 =
m20 =
m02 =

k
h
1
n
(xi x)0 (yj y)0 nij = = 1.
n i=1 j=1
n

k
h
k
k
1
1
1
(xi x)1 (yj y)0 nij =
xi ni
xni = x x = 0.
n i=1 j=1
n i=1
n i=1
k
h
h
h
1
1
1
(xi x)0 (yj y)1 nij =
yj nj
ynj = y y = 0.
n i=1 j=1
n j=1
n j=1
k
h
k
1
1
(xi x)2 (yj y)0 nij =
(xi x)2 ni = s2x .
n i=1 j=1
n i=1

k
h
h
1
1
(xi x)0 (yj y)2 nij =
(yj y)2 n j = s2y .
n i=1 j=1
n j=1

`
3.4.2. MESURES DE DEPENDENCIA
LINEAL
En lestudi conjunt de dues variables, el que ens interessa principalment es saber
si existeix algun tipus de relacio entre aquestes variables. En lapartat anterior, amb
la representacio gr`aca del diagrama de dispersio, hem pogut fer-nos una primera
idea de si hi existeix algun tipus de relacio. En aquesta seccio, presentem mesures
descriptives que ens permetran analitzar si hi existeix alguna relacio de tipus lineal,
es a dir, de la forma Y = a + bX.
Denici
o 3.12 Covari`
ancia (sxy ). Es deneix com:
k

sxy

1
(xi x)(yj y)nij .
=
n i=1 j=1

a dir, sxy = m11 .


Es
Si hi ha relacio lineal directa (a valors grans de X corresponen valors grans
de Y ), aleshores sxy > 0 i es gran en valor absolut.
Si hi ha relacio lineal inversa (a valors grans de X corresponen valors xicotets
de Y ), aleshores sxy < 0 i es gran en valor absolut.
Si no hi ha relacio lineal, aleshores sxy 0.
Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

54

Estadstica. Volum I - UJI

54

c UJI

La formula seg
uent ens permet calcular la covari`ancia duna forma mes senzilla:
k
h
1
xi yj nij xy = a11 a10 a01 .
sxy =
n i=1 j=1

Les propietats mes importants de la covari`ancia son:


(1) Si a tots els valors de la variable X sumem una constant C, i a tots els valors
a dir:
de la variable Y sumem una constant C , la covari`ancia no varia. Es
zi = C + x i ,

tj = C + yj szt = sxy .

(2) Si tots els valors de la variable X els multipliquem per una constant C, i tots
els valors de la variable Y els multipliquem per una constant C , la covari`ancia
a dir:
queda multiplicada pel producte de les constants. Es
zi = C x i ,

tj = C yj szt = CC sxy .

(3) Com a corollari de totes dues propietats anteriors, si considerem les transformacions lineals zi = a + bxi i tj = a + b yj , on a, b, a , b son constants
qualssevol, aleshores szt = bb sxy .

Exemple 3.8 Per al cas dels models dimpressores, es te: x = 2.6 impressores,
y = 1.44 impressores i, en conseq
u`encia:
sxy =

0 0 0 + 0 1 0 +
(2.6 1.44) = 0.344.
25

Suposem ara que cada impressora del model A val 120 euros i que el preu duna
impressora del model B es de 150 euros. Aleshores, la quantitat invertida en la
compra dimpressores model A i impressores model B la podem obtindre posant:
Z = 120 X,

T = 150 Y .

Daquesta manera, Z representa els diners invertits en la compra dimpressores


del model A, i T els diners invertits en la compra dimpressores del model B, i
sobte aix:
szt = 120 150 sxy = 6192.
Linconvenient principal de la covari`ancia com a mesura de la relacio lineal entre
dues variables es la dep`endencia respecte de les unitats i, en conseq
u`encia, respecte
dels canvis descala. Denim a continuacio una mesura que no est`a afectada per les
unitats i, en conseq
u`encia, tampoc pels canvis dunitats de mesura.

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

55

Estadstica. Volum I - UJI

55

c UJI

Denici
o 3.13 Coecient de correlaci
o (rxy ). Es deneix com:
rxy =

sxy
.
sx sy

Les propietats principals son:


adimensional.
(1) Es
(2) 1 rxy 1.
(3) Si hi ha relacio lineal directa, aleshores rxy > 0 i pr`oxim a 1.
(4) Si hi ha relacio lineal inversa, aleshores rxy < 0 i pr`oxim a 1.
(5) Si no hi ha relacio lineal, aleshores rxy 0.

Exemple 3.9 Per al cas dels dos models dimpressores:


sx =

0.8 = 0.89,

sy =

0.41 = 0.64 rxy =

0.344
= 0.9427.
0.89 0.41

Finalitzarem el tema donant una condicio necess`aria per a la independ`encia


estadstica.
Teorema 3.1 Si X i Y s
on independents, aleshores sxy = 0.
Demostraci
o: Aplicant la primera propietat de la covari`ancia, i tenint en
nij
compte que fij =
, podem escriure:
n
sxy =

k
h

i=1 j=1

xi yj fij xy.

Ara be, com que les variables son independents, la freq


u`encia relativa conjunta
es el producte de les freq
u`encies relatives marginals. Per tant:

sxy =

k
h

i=1 j=1

i=1

xi yj fij xy =

xi fi

j=1

i=1 j=1

xi yj fi fj xy =

yj fj xy = xy xy = 0.

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

k
h

56

Estadstica. Volum I - UJI

56

c UJI

Corollari 3.1 Si X i Y son independents, aleshores rxy = 0.


evident, tenint en compte el resultat anterior, ja que:
Demostraci
o: Es
rxy =

sxy
.
sx sy

Nota 3.2 Existeixen casos en qu`e la covari`ancia entre dues variables pot ser zero
sense que aquestes siguen independents.

3.5. PROBLEMES PROPOSATS


(1) Les seg
uents son les qualicacions obtingudes per 25 alumnes de 2n curs de
la Diplomatura en Ci`encies Empresarials en les assignatures Matem`atiques i
Comptabilitat:
Matem`atiques

7 7

Comptabilitat

7 7

Matem`atiques

10

Comptabilitat

8 10

10

10

a) Obtn la taula de freq


u`encies conjunta.
b) Quina proporcio dalumnes obte mes dun 5 en ambdues assignatures?
Quina proporcio dalumnes obte mes dun 5 en Matem`atiques? Quina
proporcio dalumnes obte mes dun 5 en Comptabilitat?
c) Son independents les qualicacions en Matem`atiques i Comptabilitat?
d ) Representa el diagrama de dispersio i comental.
e) Calcula el coecient de correlacio i interpretan el resultat.

(2) Es preten fer un estudi sobre la utilizacio dun esc`aner en una determinada
ocina. Per a aquest es van mesurar, durant un dia, els minuts transcorreguts entre les successives utilitzacions (X) i el nombre de p`agines escanejades (Y ), i es van obtindre els resultats seg
uents:
X

8 8

5 8

2 7

7 2

7 11

11

11

14

11 11

11

11 19

19

19

11

19

19

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

57

Estadstica. Volum I - UJI

57

c UJI

a) Escriu la distribucio de freq


u`encies conjunta. Quin es el percentatge de
vegades que transcorren mes de 8 minuts des de la utilitzacio anterior
de lesc`aner i sescanegen menys d11 p`agines?
b) Escriu les distribucions de freq
u`encies marginals. Quantes vegades sescanegen com a m`axim 11 p`agines? Quantes p`agines sescanegen com a
m`axim el 80 % de les ocasions?
c) Troba la distribucio de freq
u`encies del nombre de p`agines escanejades
condicionada que hagen transcorregut 8 minuts entre utilitzacions successives.
d ) Dibuixa el diagrama de dispersio.

(3) De la distribucio (xi , yj , nij ), per a 100 observacions, es te que:

xi ni = 500,
yj nj = 1000,
xi yj nij = 6000.
i

a) Quant val la covari`ancia entre X i Y ?


3U + 4
2Z + 3
iY =
?
b) I la covari`ancia entre U i Z, si X =
2
2

(4) Lassignatura Comptabilitat Financera consta de dues parts, una de te`orica


i una altra de pr`actica. A lexamen nal es varen presentar 10 alumnes, que
van obtindre les qualicacions seg
uents:
Teoria

5 7

Pr`actica

6 5

Calcula la covari`ancia i el coecient de correlacio lineal. Dibuixa el n


uvol de
punts. Comentan els resultats.

(5) Entre els empleats duna empresa es disposa dinformacio sobre els seus salaris
(en milers deuros) i el nombre de vehicles de motor que shan adquirit en els
u
ltims 5 anys:

Vehicles

0 1

2 3
0 0

1
2

0
2

Salaris
[18, 27[
[27, 45]

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

58

Estadstica. Volum I - UJI

58

c UJI

Calcula:
a) El percentatge dempleats que cobra menys de 27000 euros i que te mes
dun vehicle.
b) La covari`ancia.
c) Lajuda mitjana per empleat si lempresa dona una ajuda de 100 euros
per a ladquisicio dels vehicles a tots els empleats (adquirisquen o no
vehicle) mes 300 euros per cada vehicle adquirit.
d ) La covari`ancia entre lajuda i el salari.

SOLUCIONS
(1)

a)
yj

3 5

6 7

9 10

ni

xi
4

1
2

10
nj

1 2

1 8 10 0

25

b) 84 %, 84 %, 88 %
c) No son independents.
e) rxy = 0.8782

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

59

Estadstica. Volum I - UJI

59

c UJI

(2) a.1)
yj

11 19

ni

xi
3

11

11

14

nj

4 14

1
5

28

a.2) 21.43 %
b.1) Mireu la taula anterior.
b.2) 23
b.3) 23
c)

(3)

y(5)j

n(5)j

2
7
11
19

2
4
3
2

a) sxy = 10
20
b) suz =
3

(4) sxy = 4.6, rxy = 0.8


(5)

a) 10 %
b) sxy = 5.4
c) 550 e
d ) 1620 e

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

60

Estadstica. Volum I - UJI

60

c UJI

TEMA 4
I CORRELACIO
LINEAL
REGRESSIO
METODE
`
4.1. INTRODUCCIO.
DELS MINIMS QUADRATS
En el tema anterior v`arem veure que el diagrama de dispersio o n
uvol de punts
ens permet visualitzar la relacio entre dues variables X i Y . En representar el
diagrama de dispersio podem trobar les situacions seg
uents:
Distribucions estadstiques per a les quals el n
uvol de punts es disposa de tal
forma que existeix una funcio matem`atica els punts de la qual son una part
de la seua representacio gr`aca.
Distribucions estadstiques per a les quals el n
uvol de punts, sense coincidir
exactament amb la gr`aca duna funcio matem`atica, shi aproxima encara
que siga poc.
Distribucions estadstiques per a les quals el n
uvol de punts presenta un
aspecte de tal manera que no existeix concentracio de punts pr`oxima a cap
gr`aca duna funcio matem`atica, i es distribueix duna forma uniforme en
una regio del pla.
En el primer cas es diu que hi ha una depend`
encia funcional o exacta entre les
variables X i Y , es a dir, existeix una funcio matem`atica de manera que Y = f (X).
En el segon cas es diu que hi ha una depend`
encia estadstica o aproximada
entre ambdues variables: Y f (X). I en l
ultim cas diem que les variables son
independents.
Y

X
Depend`
encia funcional

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

61

Estadstica. Volum I - UJI

61

c UJI

X
Depend`
encia estadstica

X
Independ`
encia entre variables

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4


Estadstica. Volum I - 2009/2010

62

Estadstica. Volum I - UJI


62

c UJI

Les t`
ecniques de regressi
o socupen del segon cas que hem citat anteriorment i tenen per objecte modelitzar, es a dir, trobar una funcio que aproxime el
m`axim possible la relacio de depend`encia estadstica entre variables i predir-ne els
valors duna (Y ) a partir dels valors de laltra (o les altres): (X o X1 , X2 , . . . , Xn ).
La variable (o variables) coneguda, lanomenarem variable(s) independent(s) o
explicativa(ves), i la variable que volem predir, variable dependent o explicada.
Anomenarem regressi
o de Y sobre X la funcio que explica la variable Y
(dependent) per a cada valor de la variable X (independent):
Y f (X).
Diem que la regressio es:
Lineal, quan el model o funcio de regressio seleccionada es una recta. En
qualsevol altre cas lanomenarem regressi
o no lineal.
Simple, quan sols tenim una variable independent. M
ultiple, quan tenim
dues o mes variables independents.
El procediment que seguirem per a efectuar la regressio ser`a el seg
uent:
1) Elegir un tipus de funcio o corba que creguem que millor relaciona ambdues
variables. Ac`o, ho podrem fer observant el n
uvol de punts.
2) Obtindre lequacio de la corba entre les innites daquest tipus que hi ha en
el pla, que millor sadapte al conjunt de punts. Lobjectiu dobtindre aquesta
equacio es predir el valor de la variable Y per a un valor concret, x0 , de la
variable X.
3) Obtindre una mesura del grau daquesta associacio o correlacio. Ac`o ens dona
la abilitat de les prediccions que farem amb aquesta equacio.
Els dos primers passos sengloben dins del que es coneix com a teoria de la
regressi
o, mentre que el tercer es el que es coneix com a teoria de la correlaci
o.
El problema que planteja el segon pas, lobtencio de la funcio, es coneix com a
problema de lajustament, i es poden usar diferents m`etodes matem`atics per tal
de resoldrel, com per exemple: el dels mnims quadrats, el dels polinomis ortogonals, el dels moments, el de la corba logstica, etc. Nosaltres sols desenvoluparem
el primer.
Nota 4.1 En aquest tema, nomes considerarem la mostra original, sense ordenar
ni agrupar en una taula de freq
u`encies, es a dir:
X

x1

x2

xn

y1

y2

yn

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

63

Estadstica. Volum I - UJI

63

c UJI

`
4.1.1. EL METODE
DELS MINIMS QUADRATS
Donats els punts (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ), suposem que hem elegit una funcio y = f (x/a1 , a2 , . . . , ar ) que volem ajustar a aquest conjunt de punts i en la qual
intervenen r par`ametres (a1 , a2 , . . . , ar ). Considerem el n
uvol de punts corresponent:

Y
f (x/a1 , a2 , . . . , ar ) y = a1 x + a2
yi

} e =y y
i

yi

xi

Per a cada valor xi de X, tenim dos valors de Y :


El valor observat, yi , en la mostra (o en el n
uvol de punts).
El valor te`
oric, yi (en general distint de lanterior), que sobte en substituir
xi per x en la funcio, es a dir, yi = f (xi /a1 , a2 , . . . , ar ) (yi = a1 xi + a2 , en el
cas lineal).
Aix, per a cada xi tenim una difer`encia entre tots dos valors de Y . Aquesta
difer`encia sanomena residu(ei ):
ei = yi yi .
El m`
etode dels mnims quadrats consisteix a determinar els par`ametres
a
(a1 , a2 , . . . , ar ) de tal forma que la suma dels residus al quadrat siga mnima. Es
dir, busquem minimitzar lexpressio:
=

e2i

i=1

i=1

(yi

yi )2

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

i=1

(yi f (xi /a1 , a2 , . . . , ar ))2 .

64

Estadstica. Volum I - UJI

64

c UJI

Nota 4.2 Observeu que minimitzem la suma de les dist`ancies verticals dels punts
a la funcio que pretenem aproximar, es a dir, les desviacions, al quadrat, dels
valors yi que realment te la variable respecte dels valors yi que ens subministra el
model que volem aproximar. Es considera el quadrat daquesta difer`encia perqu`e les
desviacions, realment, sumen i no es compensen les que es produeixen per defecte
amb les que es produeixen per exces.
La teoria de lan`alisi matem`atica ens diu que la condicio necess`aria per a
obtindre el mnim es que les primeres derivades parcials respecte a cada un dels
par`ametres sanullen, es a dir:

(a1 , a2 , . . . , ar )

=0

a1

(a1 , a2 , . . . , ar )

=0
a2

..

(a1 , a2 , . . . , ar )

=0
ar
Resolent aquest sistema, denominat sistema dequacions normals, queden
determinats els par`ametres (a1 , a2 , . . . , ar ), aix com la funcio corresponent.
LINEAL SIMPLE
4.2. MODEL DE REGRESSIO

4.2.1. RECTA DE REGRESSIO


En el model de regressio lineal simple la funcio elegida per a aproximar la
relacio entre les variables es una recta, es a dir, una funcio de la forma y = a + b x,
on a i b son els par`ametres que hem de determinar. Aquesta recta sanomena recta
de regressi
o de Y sobre X.
A continuacio, en deduirem lequacio usant el m`etode dels mnims quadrats:
donat un valor xi de X, tenim els corresponents valors de Y, lobservat yi , i el
te`oric yi = a + b xi . Aix doncs, hem de minimitzar:
=

i=1

e2i

i=1

(yi

yi )2

i=1

(yi (a + bxi ))2 .

Derivant respecte als par`ametres a i b i igualant a zero:

(a, b)

= 2
(yi a b xi ) = 0,

i=1

(a, b)

= 2
(yi a b xi ) xi = 0,

b
i=1

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

65

Estadstica. Volum I - UJI

65

c UJI

obtenim un sistema de dues equacions normals i dues inc`ognites a i b. Aquest


sistema pot escriures com:
n
n
n

a+b
xi =
yi ,

i=1
i=1
i=1
(4.1)
n
n
n

xi + b
x2i =
xi yi .

a
i=1

i=1

i=1

Allant a de la primera equacio i operant, sobte que:


na =

i=1

yi b

i=1

xi a =

1
1
yi b
xi a = y b x.
n i=1
n i=1

Substituint el valor obtingut per a a en la segona equacio del sistema (4.1) i


n

tenint en compte que


xi = n x, sobte que:
i=1

(y b x)
y

i=1

xi + b

i=1

xi b x

i=1

xi + b

i=1

x2i

i=1

nx

x2i

xi y i ,

xi y i ,

i=1

x2i

i=1

i=1

i=1

ynx bxnx + b
n

x2i =

x2i ,

i=1

i=1

x2i n x y .

(4.2)

Dividint per n ambdos membres de (4.2) i operant:

1 2
x x2
n i=1 i

1 2
x xy
n i=1 i

b s2x = sxy
b=

sxy
.
s2x

Per tant, la recta de regressio de Y sobre X es:


y = a + bx

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

66

Estadstica. Volum I - UJI

66

c UJI

on:

b=

sxy
s2x

a = y bx

El pendent de la recta de regressio de Y sobre X (par`ametre b) es denomina


coecient de regressi
o de Y sobre X.
Aplicant un raonament an`aleg a lanterior podem obtindre lexpressio de la
recta de regressi
o de X sobre Y. En aquest cas, lequacio quedaria establerta
per:
x = a + b y
on:

b =

sxy
s2y

a = x b y

El pendent de la recta de regressio de X sobre Y (par`ametre b ) es denomina


coecient de regressi
o de X sobre Y.

Nota 4.3 La recta de regressio de X sobre Y no sobte allant la X de la recta de


regressio de Y sobre X.

Exemple 4.1 La despesa dels consumidors dun pas en bens i serveis (Y ) i la


renda corresponent (X) (ambdues en milions deuros), en deu anys, han sigut:

xi

5.4

7.2 8.4

yi

3.6 3.6 4.2 4.8 5.4

10.2 11.4 12.6 15 16.2


6

6.6

7.2

9.6

Per a calcular la recta de regressio de la despesa dels consumidors (Y ) en funcio de la seua renda (X), construm la taula que apareix a continuacio, a partir de
la qual ens resultar`a mes senzill calcular els par`ametres dels quals depen la recta
de regressio:

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

67

Estadstica. Volum I - UJI

67

c UJI

Sumes:

xi

yi

x2i

xi yi

5.4
6
7.2
8.4
9
10.2
11.4
12.6
15
16.2

3.6
3.6
4.2
4.8
5.4
6
6.6
7.2
9
9.6

29.16
36
51.84
70.56
81
104.4
129.96
158.76
225
262.44

19.44
21.6
30.24
40.32
48.6
61.2
75.24
90.72
135
155.52

101.4

60

1149.08 677.88

101.4
= 10.14,
10

x=

y=

60
=6
10

s2x =

1149.08
(10.14)2 = 12.0884
10

sxy =

677.88
10.14 6 = 6.948
10

b=

6.948
= 0.5748
12.0884

a = 6 0.5748 10.14 = 0.1715

Aix, la recta de regressio es:


y = 0.1715 + 0.5748 x

Algunes propietats de les rectes de regressi


o:
Les dues rectes de regressio es tallen en el punt (x, y), el qual es denomina
centre de gravetat de la distribucio conjunta.
Les seues equacions en la forma punt-pendent queden establertes per:
Y sobre X: y y =

sxy
(x x)
s2x

X sobre Y : x x =

sxy
(y y)
s2y

Tant el signe de b com el de b coincideixen amb el signe de la covari`ancia


(ja que les vari`ancies son sempre positives). Una covari`ancia positiva ens
conduir`a a dos coecients de regressio positius i aix els pendents de les rectes
de regressio seran positius i donaran lloc a rectes creixents. Tanmateix, una
covari`ancia negativa ens conduir`a a dos pendents negatius i aix les rectes
de regressio seran decreixents. En cas que la covari`ancia siga zero, aquestes
seran paralleles als eixos coordenats i perpendiculars entre si.

4.2.2. MESURES DE LA BONDAT DAJUSTAMENT. CORRELACIO


Recordem que per a cada valor xi de X podem calcular la difer`encia (el residu)
entre el valor observat de Y , yi , en el n
uvol de punts i el corresponent valor te`oric,

yi , obtingut en la recta de regressio. Si tots els punts del n


uvol estan sobre la recta,
els residus valen zero i, en conseq
u`encia, la depend`encia es funcional i, per tant,
el grau de depend`encia es el m`axim possible. A mesura que sallunyen els punts

Castell
/ Sim - ISBN: 978-84-692-9048-4
Estad
stica./ Ibez
Volum/ Martnez
I - 2009/2010

68

68

Estadstica. Volum I -
cUJI UJI

observats de la funcio (es a dir, a mesura que els residus augmenten) anem perdent
intensitat en la depend`encia.
En aquesta seccio denirem alguns par`ametres que ens donaran una mesura
daquest grau dintensitat en la depend`encia.
Denici
o 4.1 Es deneix la vari`
ancia residual com la mitjana aritm`etica de
tots els residus elevats al quadrat:
n

s2e

1
1
=
(yi yi )2 =
(yi a bxi )2 .
n i=1
n i=1

Si la vari`ancia residual es gran, els residus son grans i la depend`encia es xicoteta.


Per tant, lajustament es ron. Si la vari`ancia residual es xicoteta (prop de zero),
la depend`encia es gran i aleshores lajustament es bo.
f`acil demostrar que la mitjana aritm`etica dels residus en la regresNota 4.4 Es
sio lineal de Y sobre X es zero, es a dir, e2 = 0. Per tant, la vari`ancia residual rep
aquest nom per ser la vari`ancia dels residus.
Denici
o 4.2 Anomenarem vari`
ancia deguda a la regressi
o la vari`ancia dels

valors te`orics, es a dir, dels yi . Tenint en compte que la mitjana aritm`etica daquests
es la mateixa que la dels valors observats, es a dir: y = y, la vari`ancia deguda a la
regressio es:
n

s2y =
i pot provar-se que:

1
(y y)2
n i=1 i

s2y = s2e + s2y ,


es a dir, la vari`ancia total de la variable Y es la suma de dues vari`ancies: la vari`ancia
de Y , que representa la part de la dispersio o variabilitat de la variable Y explicada
per la regressio (es a dir, per la relacio lineal amb la variable X), i la vari`ancia
residual, que representa la part de la varibilitat no explicada per la regressio.
Aix doncs, quan augmenta la vari`ancia deguda a la regressio, disminueix la
vari`ancia residual i lajustament es bo. I al contrari, quan disminueix la vari`ancia
deguda a la regressio, augmenta la vari`ancia residual i lajustament es ron.
La vari`ancia deguda a la regressio serveix per a veure en quina mesura millora
la descripcio duna variable a traves de laltra.
El problema dutilitzar la vari`ancia residual es que queda afectada per les unitats de mesura i aix`o impossibilita la comparacio de la depend`encia entre grups de
variables. Tenint en compte la relacio entre els difrents tipus de vari`ancies, podem
obtindre una mesura relativa (es a dir, que no depenga de les unitats) que estiga
entre 0 i 1, per a la bondat dajustament dividint la vari`ancia deguda a la regressio entre la vari`ancia total de Y . En la denicio seg
uent, precisem amb mes detall
aquest concepte:

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

69

Estadstica. Volum I - UJI

69

c UJI

Denici
o 4.3 Es deneix el coecient de determinaci
o (R2 ) com:
s2y
R = 2
sy
2

o be, R2 = 1

s2e
.
s2y

El coecient de determinacio (multiplicat per cent) representa el percentatge de


la variabilitat de Y explicada per la recta de regressio, es a dir, per la relacio amb
la variable X.
Algunes propietats del coecient de determinaci
o:
0 R2 1
Si R2 = 1, aleshores tots els residus valen zero i lajustament es perfecte; si
R2 = 0, lajustament es inadequat.
El coecient de determinacio de la recta de regressio de Y sobre X es el
mateix que el de la recta de regressio de X sobre Y , i es verica que:
R2 = b b ,
es a dir, el coecient de determinacio es una mesura del grau de relacio lineal
entre les variables.
Demostraci
o: per denicio, yi = a + b xi . Aplicant les propietats de la
vari`ancia:
s2y = b2 s2x
don:
sxy

s2
s2y
b2 s2x
sxy
s2x x
R = 2 = 2 = b 2 = b 2 = b b .
sy
sy
sy
sy
2

El coecient de determinacio es el quadrat del coecient de correlacio lineal,


es a dir:
2
R2 = rxy
.
Demostraci
o:
sxy sxy
R =bb = 2 2 =
sx sy
2

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

70

sxy
sx sy

2
= rxy
.

Estadstica. Volum I - UJI

70

c UJI


4.2.3. PREDICCIO
Lobjectiu u
ltim de la regressio es la prediccio duna variable per a un valor
determinat de laltra.
La predicci
o de Y per a X = x0 es, simplement, el valor obtingut en la recta
de regressio de Y sobre X en substituir el valor de x per x0 , es a dir: y0 = a + bx0 .
Evidentment, la abilitat daquesta prediccio augmentar`a quan la correlacio entre
les variables ho faca (es a dir, quan R2 augmente).

Exemple 4.2 En lexemple anterior, determina la despesa per a enguany si la renda es de 45.3 milions deuros. Dona una mesura de la bondat de la prediccio. Quin es
el percentatge de variabilitat en la despesa atribuble a la renda dels consumidors?
Soluci
o Ja hem calculat la recta de regressio de la despesa en funcio de la renda:
y = 0.1715 + 0.5748 x.
Com que la renda es mesura en milions deuros, la prediccio de la despesa ser`a:
y(45.3) = 0.1715 + 0.5748 45.3 = 26.21 milions deuros.
Una mesura de la bondat de la prediccio, ens la proporciona el coecient de
correlacio lineal entre ambdues variables:
rxy =

sxy
6.948

=
= 0.9952 .
sx s y
12.0884 4.320

Aix doncs, com que est`a pr`oxim a la unitat, la prediccio es molt able.
El percentatge de variabilitat en la despesa atribuble a la renda dels consumidors, ens el dona el coecient de determinacio:
2
R2 = rxy
= 0.9904.

La bondat de la prediccio, tambe sol expressar-se en termes de percentatge, en


aquest cas seria un valor prop del 99 %.
LINEAL MULTIPLE

4.3. REGRESSIO
En aquesta seccio considerarem que estem estudiant p + 1 variables i que el
nostre objectiu es obtindre una funcio que modelitze la relacio de depend`encia duna
daquestes variables (Y ), que anomenarem variable dependent o explicada com
a funcio de les p restants (X1 , . . . , Xp ), que anomenarem variables independents
o explicatives. Els valors de la mostra, ara estaran ordenats de la manera seg
uent:
Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

71

Estadstica. Volum I - UJI

71

c UJI

y1

y2

yn

X1

x11

x12

x1n

X2

x21

x22

x2n

..
.

..
.

..
.

Xp

xp1

xp2

..
.

xpn

Nomes estudiarem el cas en qu`e la funcio de regressio considerada siga una


funcio de tipus lineal, es a dir:
y = b0 + b1 x1 + + bp xp ,
on b0 , b1 , . . . , bp son els par`ametres. Aquesta equacio es lequacio dun hiperpl`a en
lespai Rp , anomenat hiperpl`
a de regressi
o de Y sobre X1 , . . . , Xp .
Per a la deduccio de lhiperpl`a de regressio usarem `algebra matricial, denotarem
per:

y1
y2

y = ..
.
yn
el vector de valors observats de la variable Y . Per:

b0
b1

b = ..
.
bp
el vector dels par`ametres. Per:

X=

1 x11
1 x12
.. ..
. .
1 x1n

xp1
xp2

v
xpn

la matriu en la qual tots els elements de la primera columna son iguals a 1 i la resta
de columnes contenen els valors observats de les variables explicatives X1 , . . . , Xp .
Finalment, per:

y1
y
2
y = ..
.
yn
Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4
Estadstica. Volum I - 2009/2010

72

Estadstica. Volum I - UJI


72

c UJI

el vector de valors te`orics, on:


yi = b0 + b1 x1i + + bp xpi .
Matricialment aquest vector pot escriures com:
y = X b.
Per a trobar el valor de b apliquem el m`etode dels mnims quadrats. En aquest
cas, haurem de minimitzar la funcio:
= (y y ) (y y )t = (y X b) (y X b)t ,
on usem el superndex t per a representar la matriu transposada.
Derivant en lexpressio anterior respecte a b i igualant a 0, obtenim el vector
dels par`ametres:
b = (X t X)1 X t y
Exemple 4.3 Les dades seg
uents representen la formacio xa del capital brut (Y ),
el PIB a preus de mercat (X1 ) i la formacion xa del capital brut dun any anterior
(X2 ), per al perode 81-85. Ajusteu un model lineal que explique la formacio xa
del capital brut dun any en funcio del PIB i de la formacio xa del capital brut
de lany anterior.
Y

X1

X2

3.26
3.27
3.19
3.03
3.15

15.2
15.4
15.6
15.9
16.3

3.37
3.26
3.27
3.19
3.03

Soluci
o Utilitzant les dades de la taula construm les

1 15.2
3.26
1 15.4
3.27

,
1 15.6
3.19
X
=
y=

1 15.9
3.03
1 16.3
3.15

matrius seg
uents:

3.37
3.26

3.27
,
3.19
3.03

a partir de les quals calculem:

5
78.4
16.12
X t X = 78.4 1230.06 252.55 ,
16.12 252.55 52.0344
Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

(X t X)1

73

16354.92 -612.84

-612.84
23.20
=
-2092.26 77.27

-2092.26
77.27 ,
273.15
Estadstica. Volum I - UJI

73

c UJI

15.9
X t y = 249.196 ,
51.2879

I aix, lequacio del model es:

19.242664
b = (X t X)1 X t y = -0.6580132 .
-1.7795794

y = 19.242664 0.6580132 x1 1.7795794 x2


`

4.3.1. VARIANCIA
RESIDUAL. COEFICIENT DE DETERMINACIO

MULTIPLE
Una mesura de la bondat dajustament, tambe en el cas de la regressio lineal
m
ultiple, es la vari`
ancia residual (s2e ), que en aquest cas ser`a:
n

s2e

1
1
=
(yi yi )2 =
(yi b0 b1 x1i bp xip )2 ,
n i=1
n i=1

la qual podem expressar matricialment com:

1 t
y y bt X t y
n
i te el mateix signicat que en el cas de la regressio lineal simple.
s2e =

Perqu`e la mesura de la bondat dajustament no depenga de les unitats de


mesura, denim, de la mateixa forma que en el cas de la regressio simple, el coecient de determinaci
o m
ultiple:
R2 = 1

s2e
,
s2y

que mesura el grau dassociacio lineal simult`ania entre les p variables.


Exemple 4.4 Considerem les dades de lexemple anterior, calculant:
bt X t y = 50.59157235,

y t y = 50.6 s2e = 0.00168552944,

s2y = 0.0076.

Per tant,
R2 = 1

0.00168552944
= 0.77822.
0.0076

Aix, la abilitat de lajustament ser`a del 77.82 %.

4.3.2. UN CAS PARTICULAR: EL PLA DE REGRESSIO


En cas que h`agem de trobar el pla de regressio de Y sobre X1 i X2 , podem obtindre els coecients en funcio de les mitjanes aritm`etiques, vari`ancies i covari`ancies
de les variables que intervenen en el problema:

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4


Estadstica. Volum I - 2009/2010

74

Estadstica. Volum I - UJI


74

c UJI

b0 = y b1 x1 b2 x2 ,
b1

sx1 y s2x2 sx2 y sx1 x2


=
,
s2x1 s2x2 s2x1 x2

b1

sx2 y s2x1 sx1y sx1 x2


=
,
s2x1 s2x2 s2x1 x2

on el coecient de determinacio m
ultiple, en aquest cas es:
R 2 = b1

sx1 y
sx y
+ b2 22 .
2
sy
sy

NO LINEAL. COEFICIENT DE CORRELACIO

4.4. REGRESSIO
GENERAL
NO LINEAL SIMPLE
4.4.1. MODELS DE REGRESSIO
El model lineal de regressio es el mes senzill, per`o en ocasions el n
uvol de punts
ens pot indicar que no es adequat. Per tant, haurem de recorrer a altres models, es
a dir, a buscar altres funcions que ajusten millor les dades que tenim.
Model potencial: busquem una funcio de regressio de la forma:
y = k xb ,
on k i b son els par`ametres que cal determinar. Aquest model, podem reduir-lo
al cas lineal prenent logaritmes:
ln y = ln k + b ln x.
Si ara fem el canvi de variables z = ln y i t = ln x i posem a = ln k, nomes
hem de calcular la recta de regressio de Z sobre T :
z = a + bt
i despres, una vegada calculats els par`ametres a i b daquesta recta, obtindre
els par`ametres buscats k i b, tenint en compte que:
k = ea

b = b.

Model exponencial: busquem una funcio de regressio de la forma:


y = c kx,

Estad
stica./ Ibez
Volum/ Martnez
I - 2009/2010
Castell
/ Sim - ISBN: 978-84-692-9048-4

75 75

cUJI UJI
Estadstica. Volum I -

on c i k son els par`ametres que cal determinar. Aquest model, tambe podem
reduir-lo al cas lineal prenent logaritmes:
ln y = ln c + (ln k) x.
Si ara fem el canvi de variable z = ln y i posem a = ln c i b = ln k, nomes
hem de calcular la recta de regressio de Z sobre X
z = a + bx,
i despres, una vegada calculats els par`ametres a i b daquesta recta, obtindrem
els par`ametres buscats c i k, tenint en compte que:
c = ea

k = eb .

Model parab`
olic: busquem una funcio de regressio de la forma:
y = a + b x + c x2 ,
on a, b i c son els par`ametres que cal determinar.
En aquest cas, utilitzarem el m`etode dels mnims quadrats per a la determinacio dels par`ametres. Considerem:
ei = yi yi = yi a b xi c x2i
i minimitzem:
(a, b, c) =

i=1

e2i

2
=
yi a b xi c x2i .
i=1

Derivant parcialment respecte de cadascuna de les variables daquesta equacio


(que son els par`ametres que busquem) i igualant a zero:

(a, b, c)

= 2
yi a b xi c xi = 0

i=1

(a, b, c)
2
= 2
yi a b xi c xi xi = 0
b

i=1

(a, b, c)

2
2

= 2
yi a b xi c xi xi = 0

c
i=1

i simplicant, obtenim el sistema dequacions normals:

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

76

Estadstica. Volum I - UJI

76

c UJI

an + b

xi + c

i=1

x2i

i=1

xi + b

x2i

+c

yi

i=1

x3i

xi y i

n
n
n
n

2
3
4
2

xi =
xi y i
a
xi + b
xi + c

i=1

i=1

i=1

i=1

i=1

i=1

i=1

i=1

que, una vegada resolt, ens proporciona la par`abola de regressio de Y sobre


X.

4.4.2. MESURES DE LA BONDAT DAJUSTAMENT


De nou, la bondat dajustament de cada un dels models analitzats, la mesurarem
mitjancant la vari`
ancia residual:
n

s2e

1
=
(yi yi )2
n i=1

o mitjancant el coecient de determinaci


o general:
R2 = 1
larrel quadrada positiva del qual
R=

s2e
s2y

s2e
s2y

rep el nom de coecient de correlaci


o general de Pearson.
Exemple 4.5 Donada la distribucio
xi

11

14

yi

12

21

25

estima un model de regressio parab`olic i calcula el coecient de correlacio general.


Soluci
o Per tal dajustar una par`abola a aquestes dades, plantegem el sistema
dequacions normals:

n
n
n

an + b
xi + c
xi =
yi

i=1
i=1
i=1

n
n
n
n

2
3
a
xi + b
xi + c
xi =
xi y i

i=1
i=1
i=1
i=1

n
n
n
n

2
3
4
2

a
xi + b
xi + c
xi =
xi y i

i=1

i=1

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4


Estadstica. Volum I - 2009/2010

i=1

i=1

77

Estadstica. Volum I - UJI

77

c UJI

i per a aquest formem la taula seg


uent:
yi

Sumes:

x2i

xi

x3i

x4i

y i xi

yi x2i

4 2
7 5
12 8
21 11
25 14

4
8
16
25 125
625
64 512 4096
121 1331 14641
196 2744 38416

8
35
96
231
350

16
175
768
2541
4900

69 40

410 4720 57764

720

8400

don obtenim el sistema:

que te per solucio:

5 a + 40 b + 410 c = 69

40 a + 410 b + 4720 c = 720

410 a + 4720 b + 57764 c = 8400


a = 1.057,

b = 1.1105,

c = 0.048,

don la par`abola de regressio de Y sobre X es:


y = 1.057 + 1.105 x + 0.048 x2

Per a calcular el coecient de correlacio general, calcularem pr`eviament la


vari`ancia residual. Per a aix`o formem una altra taula:

yi

xi

yi = 1.057 + 1.105 xi + 0.048 x2i

ei = yi yi

e2i

yi2

3.459
7.782
12.969
19.020
25.935

0.541
-0.782
-0.969
1.980
-0.935

0.292681
0.611524
0.938961
3.920400
0.874225

16
49
144
441
625

4 2
7 5
12 8
21 11
25 14
69

6.637791 1275

a partir de la qual calculem:


69
1275
6.637791
= 13.8, s2y =
13.82 = 64.56, s2e =
= 1.327,
5
5
5

1.327
R= 1
= 0.9897 abilitat del 98.97 % .
64.56
y=

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

78

Estadstica. Volum I - UJI

78

c UJI

4.5. PROBLEMES PROPOSATS


(1) El Ministeri de Turisme dun determinat pas ha observat que el nombre
de places hoteleres ocupades es diferent segons el preu de lhabitacio. En la
taula seg
uent es detallen el total de places ocupades en un any amb els preus
corresponents:
Preu (en euros)

Nombre dhabitacions ocupades

40
80
120
200
350

4720
2615
1870
945
450

a) Representa gr`acament les dades i comprovar que existeix una relacio lineal entre el nombre dhabitacions ocupades i el preu per habitacio.
b) Troba lequacio de la recta de regressio. Quantes habitacions socuparien
a 275 e?
c) En quina mesura podem considerar que el nivell docupacio depen de
lestructura dels preus?

(2) Donades les seg


uents dades:
xi
yi

2 1 0
4

a) Analitza-les gr`acament. Raona si escau o no fer-hi un ajustament lineal.


b) Ajusta el model no lineal mes adequat tenint en compte la representacio
gr`aca feta en lapartat anterior.
c) Interpreta la bondat dajustament.

(3) Donada la distribucio


xi

yi

3
7
13
16
21

1
6
11
24
36

a) Ajusta un model exponencial.


b) Calcula el coecient de correlacio general de Pearson.

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

79

Estadstica. Volum I - UJI

79

c UJI

(4) Un determinat partit poltic es planteja el problema de ns a quin punt li


poden compensar les despeses en publicitat de la pr`oxima campanya electoral
segons el resultat obtingut. En els u
ltims processos electorals les despeses en
publicitat (en milers deuros) i el nombre de diputats elegits van ser:
Despeses en publicitat

Diputats elegits

12
18
27
33
51

3
4
4
6
8

La comissio electoral del partit est`a estudiant la possibilitat de realitzar una


despesa de 60000 e en publicitat per a la pr`oxima campanya electoral.
a) Quin ser`a el nombre de diputats elegits daquest partit dacord amb
el pressupost esmentat si la imatge del partit no varia respecte a les
eleccions anteriors?
b) Amb quina conanca pot esperar-se aquest resultat?
c) Quin ser`a el percentatge de causes diferents de la publicitat que inuiran
en les eleccions?
(5) Coneixent les dades seg
uents: x = 3, y = 2, s2x = 6, s2y = 8 i que la recta de
regressio de Y sobre X es y = 4 0.667 x, obteniu la recta de regressio de X
sobre Y.

SOLUCIONS

(1)

a) Es representa el n
uvol de punts
b) y = 3976.5 11.75 x, y(275) 745 habitacions
c) rxy = 0.86. Aix tenim un 86 % de abilitat

(2)

a) rxy = 0. Per tant, no existeix relacio lineal entre les variables


b) y = x2
c) Ajustament perfecte

(3)

a) y = 0.93 (1.21)x
b) R = 0.83

(4)

a) 9 diputats
b) La prediccio es molt able, ja que rxy = 0.96
c) 7.3 %

(5) x = 4 0.5 y

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

80

Estadstica. Volum I - UJI

80

c UJI

TEMA 5
NOMBRES INDEXS

5.1. INTRODUCCIO
En moltes ocasions les variables socioecon`omiques com el volum dimportacions,
el nombre de vendes duna empresa, o el valor del PIB, varien amb el temps i pot
apareixer la necessitat de fer comparacions en funcio de les dites variables per a
diferents temps, tant per separat, com en grups o conjunts de les variables. En
aquest tema tractarem el problema de la comparacio duna s`erie dobservacions
respecte a una situacio inicial xada arbitr`ariament. Les mesures estadstiques que
descriuen aquests canvis son els nombres ndexs.
Els exemples de nombres ndexs son molt abundants: a mes dels mes coneguts,
com poden ser lndex de preus de consum (consulteu la p`agina web de lInstitut
Nacional dEstadstica: http://www.ine.es/) o els indicadors de la borsa, nexisteixen daltres, menys coneguts popularment, per`o que tenen una gran inu`encia
en leconomia mundial. En citarem dos, i indicarem algunes p`agines web on sen
pot ampliar la informacio. Per`o es necessari advertir que per a consultes posteriors
a la publicacio daquest text es convenient actualitzar les dates.
Index de Conanca de Mercats Emergents
Poden consultar-se, per exemple, les p`agines web:
http://www.iberglobal.com/Newsletter/alerta geo abril 2006.htm
http://www.iberglobal.com/Newsletter/alerta geo abril 2007.htm

http://www.iberglobal.com/ (busqueu notcies sobre el dit ndex)


Index de Conanca dels Consumidors
Consulteu:
http://www.nanzas.com/id.4892123/noticias/noticia.htm

http://economy.blogs.ie.edu/archives/2007/01/indice de con.php
http://www.cincodias.com/ (buscar notcies sobre dit ndex)
http://www.agendadeprensa.com/informes/ico enero08.pdf
A continuacio, formalitzarem el concepte de nombre ndex:
Denici
o 5.1 Nombre ndex es aquella mesura estadstica que ens permet estudiar els canvis que es produeixen en una magnitud simple o complexa respecte
al temps.
Anomenarem perode base o perode de refer`
encia el perode inicial, i la
situacio que volem comparar, lanomenarem perode actual o perode corrent.

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4


Estadstica. Volum I - 2009/2010

81

Estadstica. Volum I - UJI


81

c UJI

Els nombres ndexs poden ser: simples, si nomes comparem una variable, o
complexos, si comparem un grup de variables. Aquests u
ltims poden ser: ponderats o sense ponderar.
5.2. INDEXS SIMPLES I COMPLEXOS
5.2.1. INDEXS SIMPLES
Denici
o 5.2 Siga X una variable i siguen x0 i xt els valors de la dita variable
mesurats en els perodes base i actual, respectivament. El nombre ndex simple
I per a la magnitud citada es deneix com el quocient entre ambdos valors:
xt
I = I0t =
.
x0
a dir:
Es
xt
actual
= actual .
I = Ittbase
xtbase
El nombre ndex simple I mesura en tant per u la variacio que ha experimentat
la magnitud X entre els perodes considerats. De vegades es multipliquen per 100
i expressen percentatges.
I > 1 (o 100) augment,

I < 1 (o 100) disminucio.

Exemple 5.1 Donats els preus de dos articles A i B per la taula seg
uent:
Anys

Preus
Article A

Article B

10
12
15

20
25
28

1994
1995
1996

els ndexs simples amb base en 1994 son:


Indexs simples

Anys

Article A

Article B

1
1.2
1.5

1
1.25
1.4

1994
1995
1996

on els valors dels ndexs shan obtingut aplicant la denicio. Per exemple, per a
larticle A:
12
15
I095 =
= 1.2, I096 =
= 1.5.
10
10

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

82

Estadstica. Volum I - UJI

82

c UJI

Els ndexs simples mes usuals son:


El preu relatiu: es la rao entre el preu dun be en el perode actual (pt ) i el
preu del mateix be en el perode base (p0 ):
pt0 =

pt
.
p0

(Si seguim la notacio anterior: X = P = preu dun be, aleshores xt = pt i


x0 = p0 ).
La quantitat relativa: es el quocient entre la quantitat produda o venuda
dun be en el perode actual (qt ) i la quantita produda o venuda del mateix
be en el perode base (q0 ).
qt
q0t = .
q0
(Si posem: X = Q = quantitat produda o venuda dun be, aleshores xt = qt
i x0 = q0 ).
El valor relatiu: anomenarem valor dun b
e en un perode arbitrari el
producte del preu daquest be per la quantitat produda (o venuda). Per
tant, el valor relatiu (V0t ) es:
V0t =

pt q t
.
p 0 q0

Aix, el valor relatiu dun be es igual al producte del seu preu relatiu per la
seua quantitat relativa, es a dir:
V0t = pt0 q0t ,
ja que:
V0t =

pt q t
p t qt
=

= pt0 q0t .
p0 q 0
p 0 q0

5.2.2. INDEXS SIMPLES EN CADENA


Els ndexs en cadena son un conjunt dndexs per als quals la base es sempre
el perode precedent. Daquesta manera, cadascun representa una comparacio percentual respecte al perode anterior.
Exemple 5.2 Per a les mateixes dades de lexemple anterior es te que:
Indexs en cadena

Anys

Article A

Article B

1.2
1.25

1.25
1.12

1994
1995
1996

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

83

Estadstica. Volum I - UJI

83

c UJI

on, per exemple, per a larticle A:


95
I96
=

15
= 1.25.
12

5.2.3. INDEXS COMPLEXOS: NO PONDERATS I PONDERATS


En la realitat succeeix que, generalment, no estem interessats a comparar preus,
quantitats o valors de bens individuals, sino que les dites magnituds es comparen per
a dir, habitualment ser`a necessari estudiar les variacions dun conjunt
a grups. Es
de N variables. Per exemple, analitzar levolucio de preus dels quatre cereals b`asics
a Espanya. Per a aquest , la informacio subministrada pels ndexs simples de
cadascuna de les variables sha de resumir en un u
nic ndex que anomenarem ndex
complex.
Existeixen dos tipus dndexs complexos: ponderats i no ponderats.
NOMBRES
INDEXS COMPLEXOS NO PONDERATS

Per a resumir la informacio obtinguda a traves dels ndexs simples, el mes l`ogic
es calcula dalguna forma la mitjana daquests. Segons el tipus de mitjana que
sutilitze, apareixen els diferents nombres ndexs complexos.
Considerem les variables X1 , X2 , . . . , XN que fan prendre els valors:
Perode actual Indexs simples

Variable

Perode base

X1

x10

x1t

I1 =

..
.
Xi
..
.
XN

..
.
xi0
..
.
xN 0

..
.
xit
..
.
xN t

..
.
xit
Ii =
xi0
..
.
xN t
IN =
xN 0

x1t
x10

A partir de la taula i prenent els ndexs simples, podem denir els seg
uents
ndexs complexos no ponderats. Per ordre dimport`ancia, considerarem:
Index mitjana aritm`
etica dndexs simples: consisteix a calcular la mitjana aritm`etica simple dels ndexs de totes les variables:
N
1
I=
Ii .
N i=1

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

84

Estadstica. Volum I - UJI

84

c UJI

Index mitjana agregativa: quan les mitjanes en qu`e estan expressades les
variables siguen homog`enies, es poden comparar les mitjanes dels valors de
les variables en cada perode (base i actual):

IA =

xit

i=1

.
xi0

i=1

Index mitjana geom`


etrica dndexs simples:

N
IG =
Ii .
i=1

Index mitjana harm`


onica dndexs simples:
IH =

N
.
N

1
Ii

i=1

Exemple 5.3 Donada la produccio de tres tipus de ctrics expressades en milions de quilograms, calculeu-ne els ndexs complexos, mitjana aritm`etica i mitjana
agregativa amb base en 1994.
Anys

Taronges Mandarines

1994
1995
1996

450
400
425

200
180
220

Pomelos
120
98
150

Soluci
o:
Indexs simples
Taronges Mandarines
100
88.89
94.44

100
90
110

xit

IA

Pomelos

I. C.

Total ctrics

I. C.

100
81.67
125

100
86.85
109.81

770
678
795

100
88.05
103.25

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

85

Estadstica. Volum I - UJI

85

c UJI

Els ndexs complexos no ponderats mes usuals son:


Index de preus de Sauerbeck: es lndex mitjana aritm`etica dels preus
relatius:
N
1
Sp =
Ii ,
N i=1
on Ii =

pit
.
pi0

Index de preus Bradstreet-D


utot: es lndex mitjana agregativa dels
preus relatius:
N

pit
i=1
BDp = N
.

pi0
i=1

Index de quantitats de Sauerbeck: es lndex mitjana aritm`etica de les


quantitats relatives:
N
1
Sq =
Ii .
N i=1
on Ii =

qit
.
qi0

Index de quantitats Bradstreet-D


utot: es lndex mitjana agregativa de
les quantitats relatives:
N

qit
i=1
BDq = N
.

qi0
i=1

NOMBRES
INDEXS COMPLEXOS PONDERATS

En els ndexs anteriors no hem tingut en compte la diferent import`ancia relativa


necessari de
que pot tindre cadascuna de les variables simples dins del conjunt. Es
vegades que, als ndexs simples, sels assignen pesos o ponderacions (i ) que en
consideren la import`ancia relativa.
Daquesta forma obtindrem els seg
uents ndexs complexos ponderats:
Index mitjana aritm`
etica ponderat:

I =

i Ii

i=1
N

.
i

i=1

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

86

Estadstica. Volum I - UJI

86

c UJI

Index mitjana agregativa ponderat:

IA

i=1
N

xit i
.
xi0 i

i=1

Index mitjana geom`


etrica ponderat:

i
IG =
Iii .
i=1

Index mitjana harm`


onica ponderat:

IH

i=1
N

i=1

i
.
i
Ii

Els ndexs complexos ponderats mes usuals son:


Index de preus de Laspeyres: es la mitjana aritm`etica ponderada dels
ndexs simples de preus usant els pesos i = pi0 qi0 (valor de la quantitat
consumida del be i-`esim en el perode base, a preus del dit perode):
N p
N

it
pi0 qi0
pit qi0
i=1 pi0
i=1
Lp =
= N
.
N

pi0 qi0
pi0 qi0
i=1

i=1

Index de preus de Paasche: es la mitjana aritm`etica ponderada dels ndexs


simples de preus usant els pesos i = pi0 qit (valor de la quantitat consumida
del be i-`esim en el perode actual, a preus del perode base):
N p
N

it
pi0 qit
pit qit
i=1 pi0
i=1
Pp =
= N
.
N

pi0 qit
pi0 qit
i=1

i=1

Lndex de Paasche requereix calcular les ponderacions per a cada perode


corrent, per la qual cosa la seua elaboracio es mes costosa; per aix`o sutilitza
menys que el de Laspeyres.
Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

87

Estadstica. Volum I - UJI

87

c UJI

Index de preus dEdgeworth: es la mitjana agregativa ponderada dels


preus, amb pesos i = qi0 + qit (quantitat total consumida del be i-`esim en el
perode base i en lactual):

Ep =

pit (qi0 + qit )

i=1
N

.
pi0 (qi0 + qit )

i=1

Index de preus de Fisher: es la mitjana geom`etrica dels ndexs de preus


de Laspeyres i Paasche, es a dir:

Lp Pp .

Fp =

Index de quantitats de Laspeyres: es la mitjana aritm`etica ponderada


dels ndexs simples de quantitats usant els pesos i = pi0 qi0 , i te lexpressio seg
uent:
N

Lq =

pi0 qit

i=1
N

pi0 qi0

pit qit

i=1

Index de quantitats de Paasche: es la mitjana aritm`etica ponderada dels


ndexs simples de quantitats usant els pesos i = pit qi0 (valor de la quantitat
consumida del be i-`esim en el perode base, a preus actuals):

Pq =

i=1
N

i=1

pit qi0

Index de quantitats dEdgeworth: es la mitjana agregativa ponderada


amb pesos i = pi0 + pit , i te lexpressio seg
uent:

Eq =

i=1
N

qit (pi0 + pit )


.
qi0 (pi0 + pit )

i=1

Index de quantitats de Fisher: es la mitjana geom`etrica dels ndexs de


quantitat de Laspeyres i Paasche, es a dir:
Fq =

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

Lq P q .

88

Estadstica. Volum I - UJI

88

c UJI

Exemple 5.4 Donats els preus i les quantitats de tres articles de consum des de
1990 ns a 1994, calculeu els ndexs complexos ponderats de preus de Laspeyres i
Paasche prenent com a base 1990.
Soluci
o:
Anys

Article A

Article B

Article C

P. C.

P. C.

P. C.

2
3
2
4
5

3
4
5
7
8

1
2
2
4
5

1990
1991
1992
1993
1994

8
7
10
12
11

5
6
6
7
8

3
3
5
8
10

Indexs
Lp

Pp

100
147.06
138.23
232.35
279.41

100
145.71
139.53
243.40
302.78

on, per exemple:


L91
90 =

38+45+23
50
28+55+23
47
=
= 1.1405, L92
=
= 1.3823,
90 =
28+35+13
34
28+35+13
34

91
P90
=

37+46+23
51
2 10 + 5 6 + 2 5
60
92
=
= 1.4571, P90
=
= 1.3953 .
=
27+36+13
35
2 10 + 3 6 + 1 5
43

5.3. PROPIETATS DELS NOMBRES INDEXS


Existeixen una s`erie de propietats que han de ser vericades pels nombres
ndexs; aquestes son:
Exist`
encia: tot nombre ndex ha dexistir i ha de tindre un valor nit distint
de zero, es a dir:
< I < +.
I = 0.

Aquesta propietat, no la compleixen els ndexs complexos mitjana geom`etrica


i mitjana harm`onica.
Identitat: si es fan coincidir el perode base i el perode actual, el nombre
ndex ha de ser igual a la unitat, es a dir, I00 = 1. Tots els ndexs mes usuals
ho veriquen.
Inversi
o: si denotem per I0t un ndex amb base 0 i perode actual t, en
1
intercanviar els perodes entre si (It0 ) el nou ndex es: It0 = t . Aix`o implica
I0
t
0
que It I0 = 1. Aquesta propietat, la compleixen els ndexs simples i entre
els complexos, els de Bradstreet-D
utot, Edgeworth i Fisher.

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

89

Estadstica. Volum I - UJI

89

c UJI

Proporcionalitat: si en el perode actual totes les magnituds experimenten


una variacio proporcional, el nombre ndex ha de quedar afectat per aquesta
variacio.
Aquesta propietat, la compleixen tots els ndexs simples: suposem que els
valors xt experimenten una variacio proporcional dordre k, i en el perode t
son xt = k xt , aleshores el nou ndex simple ser`a:
I =

xt
k xt
=
= k I.
x0
x0

Els ndexs complexos mes usuals compleixen aquesta propietat.


Exemple 5.5 Vejam que lndex de preus de Paasche compleix aquesta propietat. Siguen pit = k pit , aleshores:

Pp

i=1
N

i=1

pit qit

pi0 qit

k pit qit

i=1
N

i=1

=k

pi0 qit

i=1
N

i=1

pit qit

= k Pp .

pi0 qit

Per`o en el cas dels ndexs de Paasche, Edgeworth i Fisher es pot plantejar


una objeccio de tipus econ`omic: en variar els preus en qualsevol proporcio es
difcil mantindre el sup`osit que les quantitats romanguen constants, o en el
cas variar les quantitats, que els preus romanguen constants.
Aix doncs, entre els ndexs complexos ponderats, lndex de Laspeyres es
l
unic que compleix adequadament la propietat de proporcionalitat i es, per
tant, el que mes sutilitza.
Homogenetat: un nombre ndex no ha de veures afectat per les unitats de
mesura.
Circular: si considerem els perodes 0, t, t , t , sha de complir que:

I0t Itt = I0t ,

Itt Itt = Itt

I0t Itt Itt = I0t .

Ac`o, ho compleixen tots els ndexs simples i el de Bradstreet-D


utot.

5.4. ALGUNS PROBLEMES EN LA CONSTRUCCIO


DELS NOMBRES INDEXS
I LA UTILITZACIO
Variables: en ndexs simples les variables seran les donades; per`o si selaboren
ndexs complexos, de primer cal plantejar-se quines seran les variables que
se seleccionaran. El mes habitual es prendre una subpoblacio integrada pels
productes que es consideren mes rellevants. En lexemple que hem vist dels
ctrics: taronges, mandarines i pomelos.

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

90

Estadstica. Volum I - UJI

90

c UJI

Perode de temps pres com a base: sen sol elegir un de no allunyat excessivament del perode corrent, o lndex perdr`a representativitat, es quedar`a
obsolet. Per aix`o cal renovar peri`odicament la informacio relativa a lany base.
Renovaci
o de lndex: canvi de base i enllac:
En els ndexs simples el canvi del perode pres com a base es fa per la
propietat circular, igualant a 1 (o 100) el valor, preu o quantitat del nou
any base. Si representem per h el nou perode base:
Iht =

1
I0t ,
h
I0

t.

El problema que es planteja te mes dicultat en els ndexs complexos,


sobretot en els ponderats, ja que shan de canviar les ponderacions,
encara mes quan per a ponderar magnituds actuals sutilitzen pesos
relatius referits al perode base. En aquest cas la nova s`erie ha de ser
recalculada. Daltra banda, per a poder relacionar s`eries dndexs referits
a diferents perodes base, cal enllacar ambdues s`eries, lantiga i la nova.
Loperacio denllac es molt senzilla matem`aticament; de nou, nhi ha
prou dassignar al nou any base lndex 1 (o 100, en percentatges), i
aplicar la propietat circular a la s`erie dndexs antiga. Si representem
per h el nou perode base:
Iht =

1
It,
I0h 0

t < h.

Daquesta forma ambdues s`eries senllacen num`ericament, encara que


sempre cal tindre en compte, en fer les comparacions, les ponderacions
que veritablement es van utilitzar en la construccio de lndex.

Exemple 5.6 Suposem que per a un conjunt de bens tenim les dades seg
uents:
Anys

pit qi0

1980
1981
1982
1983
1984
1985
1986

5
5.5
6
6.5

pit qi0

8
9
10
10.5

Calcula els ndexs de preus de Laspeyres corresponents sobre la base dels anys 1980
i 1983. Calcula tambe els ndexs de preus dels perodes 80, 81 i 82 sobre la base de
lany 1983.

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

91

Estadstica. Volum I - UJI

91

c UJI

Soluci
o:
Els ndexs de preus de Laspeyres son:
L80
80 =

5
5.5
6
= 100 %, L81
= 110 %, L82
= 120 %,
80 =
80 =
5
5
5

L83
82 =

8
9
10
10.5
= 100 %, L84
= 112.5 %, L85
= 125 %, L86
= 131.25 %,
83 =
83 =
83 =
8
8
8
8

L83
80 =

6.5
= 130 %,
5

i els ndexs de preus dels perodes 80, 81 i 82 sobre la base de lany 1983:
L80
83 =

L80
100 %
80
=
= 76.9 %,
83
L80
130 %

81
80
L81
83 = L80 L83 = 110 % 76.9 % = 84.6 %,
82
80
L82
83 = L80 L83 = 120 % 76.9 % = 92.3 %.

5.5. DEFLACIO
Una de les aplicacions mes importants dels nombres ndexs es la possibilitat de
ben
provocar deacio en les s`eries (de preus, de valors, de rendes, de sous, etc.). Es
conegut de tots que el poder adquisitiu dels diners varia amb el temps. El fenomen
es coneix com a inaci
o.
Anomenarem preus constants els preus que regeixen un determinat perode
x, i preus corrents els preus que regeixen al llarg de diversos perodes.
Si es te una variable en moneda corrent de cada any (euros, d`olars, etc.) difcilment sen pot analitzar el creixement o el decreixement real. El mateix ocorreria si es desitja establir comparacions amb altres variables expressades en unitats
monet`aries distintes. Ac`o es degut que lactivitat econ`omica te un fort component monetari, per la qual cosa les variacions que reecteixen les s`eries, a mes de
tindre increments o decrements reals, estan inudes per efectes monetaris molt
importants que cal eliminar si es preten estudiar levolucio en termes reals duna
economia.
Loperacio de convertir les s`eries monet`aries en valors reals (constants) sanomena deaci
o. Per a expressar una s`erie donada en diners corrents, en diners constants dun any T, cal dividir la s`erie primitiva entre els ndexs de preus adequats
xt
(eliminem la inu`encia dels preus), prenent com a base lany T , es a dir: t .
IT
Nota 5.1 Lndex ha destar expressat en tant per u, i si ho necessitem, podem
1
utilitzar la relacio ITt = T .
It
Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

92

Estadstica. Volum I - UJI

92

c UJI

Si volem obtindre una formula de f`acil aplicacio, en aquests casos, podem denir
les variables seg
uents:
xt = quantitat amb valor en diners de lany t,
xT = quantitat xt amb valor en diners corrents de lany T .
Aix obtenim:
xT =

xt
ITt

xT = xt ItT .

Lndex utilitzat per a aquesta operacio es denomina deactor. Podem usar


com a deactors els ndexs de preus mes usuals, el de Laspeyres i el de Paasche.
En general, el que se sol utilitzar es lndex de preus de consum.

Exemple 5.7 La mitjana dels sous que una empresa ha pagat mensualment als
empleats, durant els anys que sindiquen en la taula, ha sigut:
Any

Sou mitj`a Sou mitj`a en PTA constant de 1982

1982
1983
1984
1985
1986
1987

98735
113940
131373
147663
162282
178834

98735
101641.39
105266.83
108735.64
109872.71
114931.88

Sabent que lIndex de Preus de Consum corresponent a aquest perode est`a


donat per la taula seg
uent:
Any

IPC (base 1972)

1982
1983
1984
1985
1986
1987

463.3
519.4
578.1
629.0
684.4
720.7

determina levolucio dels sous a preus constants de 1982.

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

93

Estadstica. Volum I - UJI

93

c UJI

Soluci
o:

Any

IPC (base 1972) I0t

t
IPC (base 1982) Ih=T

1982
1983
1984
1985
1986
1987

463.3
519.4
578.1
629.0
684.4
720.7

463.3:463.3=1.00
519.4:463.3=1.121
578.1:463.3=1.248
629.0:463.3=1.358
684.4:463.3=1.477
720.7:463.3=1.556

i usant aquesta taula per a provocar deacio en els sous resulta que:
Any

Sou (en PTA constant de 1982)

1982
1983
1984
1985
1986
1987

98735:1.00=98735
113940:1.121=101641
131373:1.248=105267
147663:1.358=108736
162282:1.477=109873
178834:1.556=114932

5.6. INDEX DE PREUS DE CONSUM I ALTRES INDEXS


ELABORATS A ESPANYA
5.6.1. INDEX DE PREUS DE CONSUM
LIndex de Preus de Consum, IPC, es un dels ndexs de mes import`ancia
en lactualitat. Shi preten analitzar levolucio en el temps de la despesa en consum
privat a preus constants (dun any pres com a base) per a un determinat estrat
de poblacio. A Espanya lelabora lInstitut Nacional dEstadstica (INE). Al nostre
pas va comencar a publicar-se en 1939 sobre la base de 1936 i ha experimentat
diverses renovacions sobre les bases de 1958, 1964, 1976, 1983, 1992, 2001 i 2006.
Per a elaborar-lo se selecciona una s`erie de bens. Aquests bens, una seleccio de
491 articles, formen el que sanomena cistell de consum. Els componentes del
cistell de consum es determinen a traves de lEnquesta de Pressupostos Familiars i son el conjunt de bens i serveis que les famlies adquireixen normalment;
canvien amb el temps en funcio dels usos de consum.
Es publica cada mes i es pren com a base la mitjana aritm`etica simple dels
ndexs mensuals de lany 2006.
Una vegada determinat el cistell de consum, es valoren les quantitats corresponents consumides a preus del perode base i de lactual. Lndex de preus utilitzat

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

94

Estadstica. Volum I - UJI

94

c UJI

en la majoria dels pasos, i en particular a Espanya, es lndex de Laspeyres encadenat amb actualitzacio de ponderacions anuals. Aquesta actualitzacio anual te els
avantatges seg
uents:
LIPC sadapta als canvis del mercat i dels h`abits de consum en un termini
molt breu de temps.
En lIPC es poden incloure nous bens o serveis quan apareixen en el mercat,
aix com eliminar els que es consideren poc signicatius.
Es calculen dotze ndexs independents, per a dotze grups de bens i serveis de
consum en qu`e sestructura el cistell de consum: aliments i begudes no alcoh`oliques,
begudes alcoh`oliques i tabac, vestit i calcat, habitatge, parament, medicina, transport, comunicacions, cultura i oci, ensenyament, hotels, cafes i resturants, altres
bens i serveis.
A lndex poden desagregar-se tantes variables com es vulga. LINE elabora
aquest ndex a escala general o global, per a comunitats aut`onomes, per a capitals
de provncia, per a nuclis urbans i per a `arees rurals.
Com que es obvi que en lestudi no poden incloures totes les famlies, shi pren
un conjunt de la forma mes `amplia possible i representativa, anomenat estrat de
ref`
erencia.
5.6.2. ALTRES INDEXS
Index de preus de consum harmonitzat (IPCA): es un indicador estadstic que proporciona una mesura comuna de la inacio entre els pasos de
la Unio Europea. En la p`agina web de lINE en podem trobar la metodologia
i els resultats detallats.
Indexs implcits de preus: mesuren levolucio dels preus i es deriven de la
Comptabilitat Nacional (valors del producte nacional, despeses de consum i
inversio, estalvi, etc.). Aquests valors contenen, implcitament, les variacions
en els preus de les magnituds macroecon`omiques. Els ndexs que shi calculen
son ndexs de preus de Paasche. Susen tambe per a la deacio de s`eries de
valors.
Indexs de producci
o industrial: hi ha dues s`eries dndexs de produccio industrial de periodicitat mensual: luna recull les variacions de loferta
industrial dins de la majoria de les branques de lactivitat industrial i laltra
especica les variacions en la produccio de bens dequipament.
Indexs de preus industrials: mesuren levolucio dels preus dels bens dequipament. Susen per a provocar deacio en les s`eries de valors industrials.
Indexs de preus agrcoles: selaboren dos ndexs, lndex de preus pagats (pels bens i serveis que es necessiten) i lndex de preus percebuts. La
s`erie formada pel quocient daquests ndexs sanomena relaci
o de paritat i
mostra les variacions del poder adquisitiu del sector agrcola.

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

95

Estadstica. Volum I - UJI

95

c UJI

Indexs de lactivitat comercial: selaboren ndexs que reecteixen levolucio del comerc interior del pas, com ara els ndexs de vendes de preus
al detall i de lengr`
os. El comportament del comerc exterior sestudia amb
els ndexs de preus i de quantitats dexportacions i importacions. El
quocient entre lndex de preus dimportacions i exportacions rep el nom de
relaci
o real dintercanvi i permet coneixer levolucio del poder de compra
dun pas davant de lestranger.
Indexs dactivitat nancera: selabora una gran quantitat dndexs: ndexs de cotitzacions de borsa, ndexs de fons dinversi
o, etc. Generalment sutilitza lndex mitjana aritm`etica ponderat, on les ponderacions
son el volum de contractacio negociat de cada ttol en lany base.

5.7. PROBLEMES PROPOSATS


(1) Donada lestadstica sobre la contractacio efectiva de les borses espanyoles,
en milions de pessetes:
Anys

Madrid Barcelona

Bilbao

Val`encia

1972
1973
1974
1975
1976
1977

67993
100049
113385
102500
131180
74279

12179
19782
21198
23582
14350
16724

2817
3865
6892
6837
4775
7839

28878
43360
40685
31116
35426
17253

a) Calcula els ndexs simples sobre la base de 1972.


b) Calcula els ndexs de Sauerbeck i de Bradstreet-D
udot.

(2) Les quantitats emprades en jocs datzar a Espanya, en milions de pessetes,


durant el perode 1982-1987, han sigut:
Any
Quantitat

1982

1983

1984

1985

1986

1987

1700470 1829785 2011267 2147043 2238579 2518765

Expressa aquesta s`erie en pessetes constants de 1982 tenint en compte que


lIPC sobre la base de 1980 ha sigut:
Any
IPC (base 1980)

1982

1984

1985

1986

1987

131.1 147.0 163.6 178.0 193.7 204.0

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

1983

96

Estadstica. Volum I - UJI

96

c UJI

(3) Si tenim la informacio seg


uent sobre un conjunt de nombres ndexs simples
81
83
83
85
I83
= 0.95, I85
= 0.8, quant valdran I81
i I81
?
(4) Les relacions entre dos pasos, Libert`onia i Esl`avia, queden reectides en les
taules seg
uents:
Libert`onia va exportar a Esl`avia
2000

2006

Producte

Preu

Quantitat

Preu

Quantitat

E1
E2
E3

20
7
12

800
1500
200

32
11
14

1400
600
500

Libert`onia va importar dEsl`avia


2000

2006

Producte

Preu

Quantitat

Preu

Quantitat

C1
C2
C3
C4

4
10
11
8

200
100
50
320

5
9
15
10

410
300
100
150

Calcula:
a) Els ndexs de preus de Laspeyres i Paasche per a lexportacio i per a la
importacio sobre la base de lany 2000.
b) Els corresponents ndexs de quantitats.
c) La rao real dintercanvi.
(5) El propietari dun apartament te pactat, en 2002, un lloguer amb el seu
inquil de 300 e mensuals. Es vol revisar el lloguer sobre la base de lIPC
grup habitatge. Quant caldr`a que pague en els anys 2003, 2004 i 2005?
Anys
IPC grup habitatge (base 2001)

2002

2003

2004

2005

102.257 105.215 108.895 114.689

(Font: INE, Espanya)

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

97

Estadstica. Volum I - UJI

97

c UJI

SOLUCIONS

(1)

a)
Anys

Madrid

Barcelona

Bilbao

Val`encia

1972
1973
1974
1975
1976
1977

1
1.47
1.67
1.51
1.93
1.09

1
1.50
1.41
1.08
1.23
0.60

1
1.62
1.74
1.94
1.18
1.37

1
1.37
2.45
2.43
1.70
2.78

74
77
b) Sp 73
72 = 1.49, Sp 72 = 1.82, Sp 74 = 0.75, ....
BD73 = 1.493, BD74 = 1.628 ....

(2)
Anys

Quantitat en milions de pessetes de lany 1982

1982
1983
1984
1985
1986
1977

1700470
1631843
1611721
1581376
1515113
1618640

83
85
(3) I81
= 1.0526, I81
= 1.315

(4)

a) Per a lexportacio: Lp = 155.4 %, Pp = 152.9 %


Per a la importacio: Lp = 119.1 %, Pp = 111.7 %
b) Per a lexportacio: Lq = 132.2 %, Pq = 130.1 %
Per a la importacio: Lq = 141.3 %, Pq = 132.5 %
2006
c) R2000
= 1.37

(5) Caldr`a que pague 308.68 e en 2003, 319.45 e en 2004, i 336.44 e en 2005.

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

98

Estadstica. Volum I - UJI

98

c UJI

TEMA 6
`
SERIES
TEMPORALS

6.1. INTRODUCCIO
Una s`
erie temporal consisteix, tpicament, en un conjunt dobservacions duna
variable Y , preses al llarg del temps en intervals regulars (cada dia, cada mes, etc.),
i es, per tant, un conjunt de dades de la forma:
{yt : t = 1, 2, , n}
en el qual el subndex t indica el temps en qu`e la dada yt va ser observada.
El seu estudi permet analitzar levolucio que en el transcurs del temps ha experimentat la variable, tant per a descriuren les propietats com per a caracteritzarne els trets principals i poder predir-ne els valors futurs. Aquesta descripcio pot
consistir en mesures descriptives i representacions gr`aques.
Normalment, en problemes destadstica b`
asica, les observacions son m
utuament independents, per`o en estudiar variables mesurades en el temps, les observacions son clarament no independents. Cadascuna tendeix a un valor que est`a
mes prop al de les observacions mes pr`oximes que al de les mes allunyades. Aquest
tipus de comportament sanomena correlaci
o serial.
Exemple 6.1 Xifres ocials de poblacio espanyola des de 1997 ns a 2007, segons
la revisio anual del padro municipal de l1 de gener de cada any.
Any

Poblacio

Any

Poblacio

1997
1998
1999
2000
2001
2002

39669394
39852651
40202160
40499791
41116842
41837894

2003
2004
2005
2006
2007

42717064
43197684
44108530
44708964
45200737

Exemple 6.2 Consum delectricitat: en la taula seg


uent tenim el consum mensual
delectricitat a Espanya en el perode 2002-2006. Cal destacar que no hi estan
incloses les energies renovables ja que no nexisteixen dades mensuals. Les dades
estan expressades en milers de TEP (tona equivalent de petroli, es una unitat
denergia equivalent a lenergia que hi ha en un tona de petroli).
(Fonts: INE, Ministeri dInd
ustria, Turisme i Comerc)

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4


Estadstica. Volum I - 2009/2010

99

Estadstica. Volum I - UJI


99

c UJI

Any

2002

2003

2004

2005

2006

1.616
1.424
1.483
1.433
1.450
1.463
1.555
1.406
1.434
1.492
1.497
1.552

1.691
1.570
1.554
1.438
1.499
1.596
1.695
1.589
1.542
1.585
1.587
1.691

1.711
1.640
1.732
1.544
1.566
1.634
1.746
1.619
1.640
1.617
1.694
1.770

1.880
1.762
1.782
1.614
1.631
1.740
1.829
1.676
1.664
1.645
1.743
1.899

1.964
1.782
1.842
1.579
1.720
1.759
1.942
1.750
1.765
1.731
1.730
1.920

Mes
Gener
Febrer
Marc
Abril
Maig
Juny
Juliol
Agost
Setembre
Octubre
Novembre
Desembre

GRAFICA
`
6.2. REPRESENTACIO
Tota an`alisi duna s`erie temporal ha diniciar-se amb una representacio gr`aca
daquesta; en leix dabscisses cal posar el temps i en el dordenades, els valors de
la s`erie. Ac`o ens permet detectar les caracterstiques mes importants del fenomen,
com ara el moviment a llarg termini, lamplitud de les oscillacions, la possible
exist`encia de cicles, les ruptures, els valors an`omals, etc.
Mirem els gr`acs de les s`eries temporals que hem vist en els exemples.
Exemple 6.3 Xifres de poblacio. Vegeu la gura 6.1.
Exemple 6.4 Consum delectricitat. Vegeu la gura 6.2.
`
6.3. CARACTERISTIQUES DUNA SERIE
TEMPORAL
Una de les formes mes senzilles danalitzar una s`erie temporal es descompondrela en una suma de quatre sumands:
yt = mt + st + ct + ut
on mt rep el nom de tend`
encia i recull el component de la s`erie que representa
levolucio a llarg termini de la s`erie; st representa un component estacional x,
per exemple aquelles oscillacions duna s`erie temporal que es completen dins dun
any (o un perode inferior a un any); ct representa el component cclic x, per
exemple les oscillacions que es produeixen en un perode superior a un any i que
es deuen principalment a lalternanca detapes de prosperitat i de depressio en
lactivitat econ`omica. Per a acabar, ut recull la variaci
o residual i representaria
la part aleat`oria, la deguda a latzar. El component cclic es molt difcil dobtindre
i es necessita una s`erie temporal molt llarga per a poder separar-lo de la resta.

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4


Estadstica. Volum I - 2009/2010

100
100

Estadstica. Volum I - UJI


c UJI

Nota 6.1 En lexemple 6.1 observem que nomes hi ha tend`encia; en lexemple 6.2
podem veure tend`encia i estacionalitat.

4.5107

Poblacio

4.4107
4.3107
4.2107
4.1107
4.0107
1997

1999

2001

2003

2005

2007

Any
Figura 6.1: Xifres de poblacio a Espanya des de 1997 ns 2007

Consum delectricitat

1.9
1.8
1.7
1.6
1.5
1.4
2002

2003

2004

2005

2006

2007

Any

Figura 6.2: Dades de consum delectricitat en milers de TEP per mesos

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

101

101

Estadstica. Volum I - UJI

c UJI

`
`
6.4. ANALISI
DE LA TENDENCIA
En aquest apartat estudiem procediments per a allar la tend`encia i les variacions estacionals. Es pot fer amb dos objectius diferents: estimacio de la tend`encia
amb objecte de coneixer quines son les pautes de comportament al llarg del temps
de la variable objecte destudi, o per a la prediccio de valors futurs. Existeixen
molts m`etodes, entre els quals nestudiarem u
nicament dos: un de global i un altre
de local.
`
6.4.1. ANALISI
SENSE COMPONENT ESTACIONAL
Suposem que tenim una s`erie temporal que podem descompondre com:
y t = mt + u t
No tenim ni component estacional, ni component cclic. A continuacio, veurem
com calcular la tend`encia en aquest cas.
`
POLINOMICA
`
METODE
DE REGRESSIO

Consisteix a ajustar un polinomi a les dades usant el m`etode dels mnims


quadrats, es a dir, tractar yt com a variable resposta i t com a variable independent,
com vam veure en el tema 4 (nomes hem vist p = 1 o p = 2).
p

En aquest cas, podrem expressar la tend`encia com mt =


bj tj , on bj sestima
a partir de les dades, minimitzant:

t=1

j=0

(yt mt )2 .

Nota 6.2 Recordem que en el tema 4 tambe vam veure que prenent logaritmes en
la s`erie podem usar una regressio lineal per a estimar una tend`encia exponencial.
El gran avantatge que representa aquest m`etode es que podem donar-hi una
mesura de la bondat calculant el coecient de determinacio i interpretant-lo de la
manera ja coneguda.
Exemple 6.5 Ajustament de la tend`encia de les dades de la poblacio espanyola
en el perode 1996-2007:
mt = 1.25824 1011 1.26241 108 t + 31675 t2 .

`
`
METODE
DE MITJANES MOBILS

Es basa en la suavitzacio de la s`erie a partir del c`alcul reiterat de valors mitjans.


Una mitjana m`
obil duna s`erie temporal yt es una s`erie temporal denida per:
p

1
xt+j
mt =
2p + 1 j=p

on p es un enter positiu. 2p + 1 sanomena ordre de la mesura m`obil.

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

102

Estadstica. Volum I - UJI

102

c UJI

Nota 6.3 Observeu que el valor de mt est`a indenit prop del principi i del nal
de la s`erie. Una forma de completar aquesta denicio, per als valors extrems, es
deixar que la suma vaja des de m`ax(p, 1 t) ns a mn(p, n t) i dividir entre el
nombre dels sumands corresponents.

Exemple 6.6 Calculem les mitjanes m`obils dordre 5 (p = 2) amb les dades de
lexemple 6.1.
Any

Tend`encia (mt )

Any

Tend`encia (mt )

1997
1998
1999
2000
2001
2002

39908068
40055999
40268168
40701868
41274750
41873855

2003
2004
2005
2006
2007

42595603
43314027
43986596
44303979
44672744

4.4107

Poblacio

4.3107

4.2107

4.1107

4.0107
1998

2000

2002

2004

2006

Any
Figura 6.3: S`erie de poblacio despres dhaver-hi aplicat el m`etode de les mitjanes
m`obils
Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

103

103

Estadstica. Volum I - UJI

c UJI

`
6.4.2. ANALISI
AMB COMPONENT ESTACIONAL
Els m`etodes utilitzats per a eliminar la tend`encia poden adaptar-se duna forma
natural quan necessitem eliminar tant la tend`encia com lestacionalitat, es a dir,
quan tenim:
y t = m t + st + u t .
Nota 6.4 Observeu que, per la denicio de component estacional, existeix un d
(perode que tarda a completar-se una oscillacio) de tal manera que st = st+d i
d

sj = 0. (Per exemple, si lestacionalitat es anual, aleshores d = 12.)


j=1

`
`
METODE
DE LES MESURES MENSUALS (TENDENCIA
LINEAL)

Suposem que la tend`encia es lineal, es a dir: mt = a + b t. Aleshores:


(1) Estimem aquesta tend`encia usant les mesures anuals de les dades observades:

yjanual
on N =

yj1)d+k

k=1

j = 1, . . . , N

n
es el nombre de perodes o anys, i hi ajustem una recta
d
yjanual = a + bj

pel m`etode dels mnims quadrats (tema 4).


(2) Calculem les mitjanes mensuals:
N
1
yk =
y(j1)d+k
N j=1

k = 1, . . . , d .

(3) Per a allar el component estacional de la variacio deguda exclusivament al


pas del temps restem a cada mitjana mensual la proporcio que hi correspon
de lincrement anual:
yk = yk

b(k 1)
d

k = 1, . . . , d .

(4) Finalment, per a estimar-ne el component estacional, restem a cada mitjana


mensual corregida la mitjana global corregida:
d

sk = yk

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

1
y .
d k=1 k
104

Estadstica. Volum I - UJI

104

c UJI

Exemple 6.7 Apliquem aquest m`etode per a estimar el component estacional de


les dades de lexemple 6.2.
(1) Mitjanes anuals:
Any

2002 (1)

2003 (2)

2004 (3)

2005 (4)

2006 (5)

Mitjana

1.48

1.59

1.66

1.74

1.79

Ajustant una recta a aquestes dades obtenim b = 0.08.


(2) Mitjanes mensuals:
Mes

Gener

Mitjana

1.77

Mes

Agost

Mitjana

1.61

Febrer Marc Abril


1.64

1.68

1.52

Setembre Octubre
1.61

Maig

Juny Juliol

1.57

1.64

1.75

Novembre Desembre

1.61

1.65

1.77

(3) Mitjanes mensuals corregides:


Mes

Gener

Mitjana

1.77

Mes

Agost

Mitjana

1.56

Febrer Marc Abril


1.63

1.66

1.50

Setembre Octubre
1.56

Maig

Juny Juliol

1.54

1.60

1.71

Novembre Desembre

1.55

1.58

1.69

(4) Component estacional:


Mes

Gener

Component

0.15

Mes

Agost

Component

-0.05

Febrer Marc Abril


0.01

-0.11

Setembre Octubre
-0.06

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

0.05

-0.06

105

105

Maig

Juny Juliol

-0.07

-0.01

0.09

Novembre Desembre
-0.03

0.08

Estadstica. Volum I - UJI

c UJI

Component estacional

0.15
0.10
0.05
0.00
-0.05
-0.10
2002

2003

2004

2005

2006

2007

Any

Figura 6.4: Component estacional de lexemple 2 amb el m`etode de les mitjanes


mensuals

`
`
METODE
DE LES MITJANES MOBILS

(1) Es tracta, en primer lloc, daplicar una mitjana m`obil per a suavitzar la
tend`encia (prenem tots els valors i mitjanem), distingint si el perode es parell
o imparell. Aix doncs:
q
1
a) Si d = 2q + 1 m
t =
yt+j .
d j=q

q1

1
b) Si d = 2q m
t = (0.5 ytq +
yt+j + 0.5 yt+q ) q < t n q .
d
j=q+1

En el cas mes habitual de d = 12 i:


m
t =

1
(0.5 xt6 + xt5 + + xt+5 + 0.5 xt+6 ).
12

(2) El segon pas consisteix a estimar el component estacional.


a) Per a cada k = 1, . . . , d calculem la mitjana wk de les desviacions
a dir:
{yk+jd m
k+jd : q < k + jd n q}. Es
N 1
1
wk =
(yk+jd m
k+jd ).
N 1 j=1

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4


Estadstica. Volum I - 2009/2010

106

Estadstica. Volum I - UJI


106

c UJI

Com que aquestes mitjanes no sumen zero, estimem el component estacional com:
d
1
sk = wk
wi ,
k = 1, . . . , d
d i=1

que ja sumen 0.

(3) Per a acabar, reestimem la tend`encia de {dt }, amb:


dt = yt st ,
utilitzant un ltre de mitjanes m`obils per a dades sense estacionalitat (vist
anteriorment), o ajustant un polinomi a les {dt }.
Exemple 6.8 Apliquem aquest m`etode per a estimar el component estacional de
les dades de lexemple 2:
Mes

Gener

Component

0.15

Mes

Febrer Marc Abril


0.02

0.05

-0.13

Agost Setembre Octubre

Component

-0.03

-0.05

Maig

Juny Juliol

-0.08

-0.01

0.07

Novembre Desembre

-0.05

-0.01

0.07

Component estacional

0.15
0.10
0.05
0.00
-0.05
-0.10
2002

2003

2004

2005

2006

2007

Any

Figura 6.5: Component estacional de lexemple 2 amb el m`etode de les mitjanes


m`obils

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

107

107

Estadstica. Volum I - UJI

c UJI

6.5. PROBLEMES PROPOSATS


(1) Amb quin component duna s`erie temporal associareu cadascun dels fets
seg
uents:
a) Una vaga de treballadors.
b) Un increment de la produccio del blat a causa de la incorporacio de
noves t`ecniques de conreu.
c) Un augment de les vendes dautom`obils durant el mes de maig.
d ) Una recessio en el volum de construccio dhabitatges durant tres anys.
(2) En la gura 6.6 veiem la representacio gr`aca de cinc s`eries temporals recollides en estudis independents. Identica els components de cadascuna sabent
que es corresponen amb els estudis seg
uents:
a) S`erie temporal dexportacions anuals de taulells a It`alia (en milers de
metres quadrats) des de 1990 ns a 2003.
b) S`erie del nombre mensual dautom`obils matriculats a Espanya en el
perode de 1998-2003.
c) Dades mensuals proporcionades per lINE sobre el consum de gasolina
a Espanya, des de gener de lany 2000 ns gener de 2007. (Les dades
estan en milers de tones.)
d ) La Conselleria de Medi Ambient de la Generalitat Valenciana, desenvolupa una campanya de vigil`ancia dels nivells de contaminacio per ozo en
latmosfera. Per a aquest disposa de diverses estacions de mesurament repartides per tota la comunitat. En la gura 6.6 es consideren les
dades recollides di`ariament en lestacio meteorol`ogica de Penyeta Roja
(Castello), durant els anys 2006 i 2007.
e) Dades de vendes mensuals duna empresa durant els u
ltims anys.
(3) El volum de facturacio (en milers deuros) dun hipermercat durant els 15
anys que est`a obert, ha seguit levolucio seg
uent:
Anys
Facturacio
Anys
Facturacio

2500

3400

3800

4200

4700

5200

5500

6000

10

11

12

13

14

15

6500

6200

7500

8200

9000

9300

9000

a) Estima quin ser`a el volum de facturacio daquest hipermercat dac a 3


anys a traves de la recta de tend`encia.
b) Calcula el coecient que mesura el grau de bondat dajustament i comenta el resultat obtingut.

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

108

108

Estadstica. Volum I - UJI

c UJI

(4) Shan recollit dades de levolucio de les despeses en vestit i en calcat per
persona i dia durant els anys 2005, 2006 i 2007:
Any 2005 2006 2007
Trimestre
1r
2n
3r
4t

8
11
6
16

9
14
8
18

11
16
9
19

a) Identica si aquesta s`erie temporal presenta tend`encia i component estacional.


b) Calcula els components que hages identicat en lapartat anterior.
(5) LInstitut Nacional dEstadstica, en lapartat Estadstica de Transport de
Viatgers, publica les dades de milers de viatgers que han utilitzat el ferrocarril com a mitj`a de transport interurb`a. Les dades estan presentades amb
mesures mensuals, des de lany 1996 ns a nal de 2007. En la gura 6.7
veiem la representacio daquestes dades. A continuacio es detallen les dades
dels quatre u
ltims anys:
Anys

Gener

Febrer

Marc

Abril

Maig

Juny

2004
2005
2006
2007

47424
49220
50808
51067

46820
47225
50012
49175

50148
49305
52291
54683

45446
52144
48557
49288

50141
52769
53890
53762

49013
50978
51260
50565

Anys

Juliol

Agost

Set.

Oct.

Nov.

Des.

2004
2005
2006
2007

45578
46700
49034
48489

35083
37162
38196
35856

47275
48535
48593
46582

51468
52693
55246
53909

50495
51913
52961
51133

45820
48215
48000
45980

a) Quins components pots identicar en aquesta s`erie temporal? Utilitza


el m`etode de les mitjanes m`obils per a calcular el component estacional
daquesta s`erie. Dibuixa-la.
b) Resta a cada dada el seu component estacional. Dibuixa la s`erie resultant.
c) Ajusta un model lineal a la s`erie obtinguda en lapartat anterior.

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

109

109

Estadstica. Volum I - UJI

c UJI

(a)

(b)

(c)

(d)

(e)

Figura 6.6: S`eries temporals del problema 2


Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

110

110

Estadstica. Volum I - UJI

c UJI

Figura 6.7: S`erie temporal del problema 5. Milers de viatgers (per mesos) que utilitzen el tren per als trajectes interurbans

SOLUCIONS
(1)

a) Variacio residual
b) Tend`encia
c) Component estacional
d ) Component cclic

(2)

a) Tend`encia
b) Component estacional
c) Tend`encia i estacionalitat
d ) Variacio residual
e) Tend`encia, estacionalitat i un componente cclic de 2 anys de duracio

(3)

a) mt = 2229.52 + 479.64 t. Prediccio: 10863.10 milers deuros


b) 0.98

(4)

a) Tend`encia component estacional


b) Pel m`etode de les mitjanes mensuals (en aquest cas trimestrals)
Tend`encia: yt = 8.58 + 1.75 t
Component estacional: 1.6875, 0.9375, 4.4375, 5.1875

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

111

111

Estadstica. Volum I - UJI


c UJI

(5)

a) Tend`encia i component estacional


b)
Mes

Component
estacional

Gener
Febrer
Marc
Abril
Maig
Juny
Juliol
Agost
Setembre
Octubre
Novembre
Desembre

1087.63
524.54
2763.35
642.41
4076.98
1526.56
1640.54
12014.18
789.20
4095.78
2646.13
1870.38

c) yt = 47292.81 + 60.25 t

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

112

112

Estadstica. Volum I - UJI

c UJI

BIBLIOGRAFIA
[1] Calot, G., Curso de Estadstica Descriptiva, Paraninfo, 1988.
[2] Canavos, G. C., Probabilidad y Estadstica, McGraw-Hill, 1988.
[3] Dura, J. M. y Lopez, J. M., Fundamentos de Estadstica, Ariel, 1992.
[4] Escuder Valles, R., Metodos Estadsticos Aplicados a la Economa, Ariel, 1987.
[5] Garca Barbancho, A., Estadstica Elemental Moderna, Ariel, 1992.
[6] Lopez de la Manzanera, J., Problemas de Estadstica, Piramide, 1989.
[7] Martn Guzman, P. y Martn-Pliego J., Curso Basico de Estadstica Econ
omica, A.C., 1993.
[8] Martn Pliego, F. J., Curso practico de estadstica econ
omica, A.C., 1987.
[9] Martn Pliego, F. J., Introducci
on a la Estadstica Econ
omica y Empresarial,
A.C., 1994.
[10] Mendenhall, W. y Reinmuth, J., Estadstica para Administraci
on y Economa,
Grupo Editorial Iberoamerica, 1981.
[11] Montiel, A. M., Rius, F. y Baron, F. J., Elementos Basicos de Estadstica
Econ
omica y Empresarial, Prentice Hall, 1997.
[12] Murgui, J. S., Aybar, C., Casino, A., Colom, C., Cruz, M. y Yag
ue, R., Estadstica para Economa y Administraci
on de Empresas: Aplicaciones y Ejercicios, Puchardes, 1992.
[13] Newbold, P., Estadstica para los negocios y la Economa, Prentice Hall, 1997.
[14] Pe
na, D., Estadstica: modelos y metodos, Vol. 1 (Fundamentos), Alianza Universidad, 1991.
[15] Spiegel, M. R., Estadstica, McGraw Hill, 1997.
[16] Tomeo Perucha, V. y U
na Juarez, I., Lecciones de Estadstica Descriptiva.
Curso teorico-pr
actico, Thomson, 2003.

Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4

Estadstica. Volum I - 2009/2010

113
113

Estadstica. Volum I - UJI

c UJI

You might also like