Professional Documents
Culture Documents
Estadística. Volumen I
Estadística. Volumen I
Volum I
Joaqun Castell Benavent
Mara Victoria Ibez Gual
Vicente Martnez Garca
Amelia Sim Vidal
Departament de Matemtiques
Codi dassignatura C23
INDEX
1. Descripci
o duna mostra: distribucions
gr`
acs
1.1. Introduccio . . . . . . . . . . . . . . .
1.2. Conceptes b`asics . . . . . . . . . . . .
1.3. Distribucions de freq
u`encies . . . . . .
1.4. M`etodes gr`acs . . . . . . . . . . . . .
1.4.1. Diagrama de sectors . . . . . .
1.4.2. Diagrama de barres . . . . . . .
1.4.3. Polgon de freq
u`encies . . . . .
1.4.4. Histogrames . . . . . . . . . . .
1.4.5. Pictogrames . . . . . . . . . . .
1.5. Problemes proposats . . . . . . . . . .
de freq
u`
encies i m`
etodes
.
.
.
.
.
.
.
.
.
.
5
5
6
6
10
10
10
11
12
13
13
.
.
.
.
.
.
.
.
.
.
.
.
.
23
23
23
31
33
33
34
37
38
38
38
40
41
45
.
.
.
.
.
.
.
.
.
.
.
47
47
47
47
48
49
50
51
53
53
54
57
4. Regressi
o i correlaci
o lineal
4.1. Introduccio. M`etode dels mnims quadrats . . . . . . . . . . . . . .
4.1.1. El m`etode dels mnims quadrats . . . . . . . . . . . . . . . .
4.2. Model de regressio lineal simple . . . . . . . . . . . . . . . . . . . .
61
61
64
65
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2. Descripci
o duna mostra: mesures descriptives
2.1. Mesures de posicio . . . . . . . . . . . . . . . .
2.1.1. Mesures de tend`encia central . . . . . . .
2.1.2. Mesures de posicio no centrals: quantils .
2.2. Moments . . . . . . . . . . . . . . . . . . . . . .
2.3. Mesures de dispersio . . . . . . . . . . . . . . .
2.3.1. Mesures de dispersio absolutes . . . . . .
2.3.2. Mesures de dispersio relatives . . . . . .
2.4. Tipicacio duna distribucio de freq
u`encies . . .
2.5. Mesures de forma . . . . . . . . . . . . . . . . .
2.5.1. Mesures dasimetria . . . . . . . . . . . .
2.5.2. Mesures dapuntament o curtosi . . . . .
2.6. Mesures de concentracio . . . . . . . . . . . . .
2.7. Problemes proposats . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3. Distribucions bidimensionals
3.1. Introduccio . . . . . . . . . . . . . . . . . . . . . . .
3.2. Distribucions de freq
u`encies bivariants . . . . . . . .
3.2.1. Distribucio conjunta . . . . . . . . . . . . . .
3.2.2. Distribucions marginals . . . . . . . . . . . . .
3.2.3. Distribucions condicionades . . . . . . . . . .
3.2.4. Independ`encia estadstica . . . . . . . . . . .
3.3. Representacio gr`aca: diagrama de dispersio . . . . .
3.4. Mesures descriptives duna distribucio bidimensional .
3.4.1. Moments . . . . . . . . . . . . . . . . . . . . .
3.4.2. Mesures de depend`encia lineal . . . . . . . . .
3.5. Problemes proposats . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
c UJ
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
65
68
71
71
74
74
75
75
77
79
5. Nombres ndexs
5.1. Introduccio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2. Indexs simples i complexos . . . . . . . . . . . . . . . . . . . . . . .
5.2.1. Indexs simples . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2.2. Indexs simples en cadena . . . . . . . . . . . . . . . . . . . .
5.2.3. Indexs complexos: no ponderats i ponderats . . . . . . . . .
5.3. Propietats dels nombres ndexs . . . . . . . . . . . . . . . . . . . .
5.4. Alguns problemes en la construccio i la utilitzacio dels nombres ndexs
5.5. Deacio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.6. Index de preus de consum i altres ndexs elaborats a Espanya . . .
5.6.1. Index de preus de consum . . . . . . . . . . . . . . . . . . .
5.6.2. Altres ndexs . . . . . . . . . . . . . . . . . . . . . . . . . .
5.7. Problemes proposats . . . . . . . . . . . . . . . . . . . . . . . . . .
6. S`
eries temporals
6.1. Introduccio . . . . . . . . . . . . . . . . .
6.2. Representacio gr`aca . . . . . . . . . . . .
6.3. Caracterstiques duna s`erie temporal . . .
6.4. An`alisi de la tend`encia . . . . . . . . . . .
6.4.1. An`alisi sense component estacional
6.4.2. An`alisi amb component estacional .
6.5. Problemes proposats . . . . . . . . . . . .
Bibliograa
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
81
81
82
82
83
84
89
90
92
94
94
95
96
99
99
100
100
102
102
104
108
113
TEMA 1
DUNA MOSTRA: DISTRIBUCIONS
DESCRIPCIO
ENCIES
`
`
`
DE FREQU
I METODES
GRAFICS
1.1. INTRODUCCIO
Ates laspecte aplicat que fonamentalment te lestadstica, comencarem amb
alguns exemples:
Exemple 1.1 La regidoria de Benestar Social duna determinada ciutat desitja
esbrinar si la mitjana de lls per famlia ha baixat respecte a la d`ecada anterior.
Per a aquest , ha enquestat 50 famlies i nha obtingut les dades seg
uents:
2 3 4 3 2 4 3 5 1 2 2 0 4 3 2 2 3 1 0 2 2 3 2 2 2
2 3 3 2 1 6 4 2 2 3 3 2 2 2 4 3 3 2 3 3 2 3 2 4 1
Exemple 1.2 Una cadena hotelera te la intencio dobrir un nou hotel en una
determinada ciutat. Abans de decidir el preu de les habitacions, el gerent de la
cadena investiga els preus per habitacio de 40 hotels de la mateixa categoria de la
dita ciutat. Les dades obtingudes, en euros, varen ser:
39
53
33
40
49
39
43
54
37
43
41
39
56
50
58
47
43
60
44
33
49
47
38
45
50
51
61
47
61
42
43
42
51
44
53
45
45
58
45
48
c UJI
`
1.2. CONCEPTES BASICS
Anomenarem poblaci
o el conjunt dindividus o ents subjectes a estudi (en
lexemple 1.1, el conjunt de totes les famlies de la ciutat; en lexemple 1.2, el
conjunt de tots els hotels daquesta categoria en la dita ciutat). Algunes poblacions
son nites i poden coneixer-se (el conjunt de tots els hotels), altres son innites o
abstractes (el conjunt de totes les peces fabricades per una m`aquina).
Anomenarem variable la caracterstica que volem estudiar en la poblacio (en el
primer exemple, el nombre de lls; en el segon, el preu per habitacio). Les denotarem
mitjancant lletres maj
uscules: X, Y . . . Podem classicar les variables en dos grans
grups, les variables qualitatives i les variables quantitatives.
Les variables qualitatives son aquelles que no es poden mesurar, es a dir,
aquelles que prenen valors als quals no es pot assignar cap n
umero. Expressen
qualitats o categories; per exemple: sexe, professio, color dels ulls, etc.
Les variables quantitatives, al contrari, son mesurables, es a dir, els valors
que shi observen poden expressar-se de forma num`erica. Aquestes variables poden
classicar-se en:
Discretes, quan prenen els seus valors en un conjunt nit o numerable. Per
exemple, el nombre de lls, el nombre dobrers en una f`abrica, les vegades que ix
cara en llancar una moneda 10 vegades, etc.
Contnues, quan poden prendre qualsevol valor en un interval. Per exemple,
el pes, lestatura, etc.
Nota 1.1 La distincio entre variables discretes i variables contnues es mes te`orica
que pr`actica, ja que les limitacions en els aparells de mesura fan que totes les
variables quantitatives es comporten com a discretes quan es preten observar-les.
Aquesta distincio ser`a important en els models te`orics, quan estudiem la part de
teoria de la probabilitat. De moment, farem mes exible el concepte de variable
contnua considerant contnua aquella variable que pren un gran nombre de valors
diferents. En aquest sentit, podem considerar la variable preu com a contnua.
Anomenarem mostra un subconjunt nit delements seleccionats entre els de
la poblacio. Per exemple, les 50 famlies del primer exemple o els 40 hotels del
segon. El nombre dobservacions de la mostra lanomenarem grand`
aria mostral.
Normalment el denotarem per n.
Anomenarem dada cada valor observat de la variable. Si la variable la representem per X, cada dada diferent de la mostra la representarem per xi . El subndex
i indica el lloc que la dada ocupa en la mostra, quan totes les dades diferents shan
ordenat de mes xicoteta a mes gran. En lexemple 1.1: x1 = 0, x2 = 1 . . . En
lexemple 1.2: x1 = 33, x2 = 37 . . .
ENCIES
`
1.3. DISTRIBUCIONS DE FREQU
Si observem les dades dels exemples anteriors, es obvi que el primer pas en
lorganitzacio de les dades consistir`a a agrupar aquelles que es repeteixen. Per a
aquest prop`osit establim les denicions seg
uents:
Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4
c UJI
Denici
o 1.1 La freq
u`
encia absoluta (ni ) dun valor xi de la variable es el
nombre de vegades que aquest valor es repeteix en la mostra.
Propietat
1.1 La suma de totes les freq
u`encies absolutes es la grand`
aria mostral:
ni = n.
Denici
o 1.2 La freq
u`
encia relativa (fi ) dun valor xi de la variable es el quoni
cient entre la freq
u`encia absoluta del valor i la grand`aria mostral: fi = .
n
Propietat 1.2 La suma de totes les freq
u`encies relatives es la unitat.
Denici
o 1.3 La freq
u`
encia absoluta acumulada (Ni ) dun valor xi de la variable es el nombre de dades en la mostra iguals o inferiors a xi . Es calcula com
i
Ni =
nk = Ni1 + ni .
k=1
Propietat 1.3 L
ultima freq
u`encia absoluta acumulada es la grand`
aria mostral.
Denici
o 1.4 La freq
u`
encia relativa acumulada (Fi ) dun valor xi de la variable es el quocient entre la freq
u`encia absoluta acumulada del valor i la grand`aria
i
Ni
mostral. Es calcula com Fi =
=
fk .
n
k=1
Propietat 1.4 L
ultima freq
u`encia relativa acumulada es la unitat.
Denici
o 1.5 Una distribuci
o de freq
u`
encies duna variable es una taula que
conte els diferents valors de la variable, sense repetir-los, ordenats de mes baix a
mes alt amb les freq
u`encies corresponents.
Exemple 1.3 Per a les dades de lexemple 1.1 tenim:
xi
ni
fi
Ni
Fi
0.04
0.04
0.08
0.12
21 0.42
27
0.54
15 0.30
42
0.84
0.12
48
0.96
0.02
49
0.98
0.02
50
1.00
Una vegada ordenades les dades, es molt f`acil obtindre informacio de la mostra.
Exemple 1.4 Responeu les preguntes seg
uents:
1. Quantes famlies tenen com a m`axim dos lls?
Podem mirar en la columna de les ni : 2 + 4 + 21 = 27, o en la de les Ni = 27.
c UJI
ni
fi
Ni
Fi
36
37
38
39
40
41
42
43
44
45
47
48
49
50
51
..
.
2
1
1
3
1
1
2
4
2
4
4
1
1
2
2
..
.
0.05
0.025
0.025
0.075
0.025
0.025
0.05
0.1
0.05
0.1
0.1
0.025
0.025
0.05
0.05
..
.
2
3
4
7
8
9
11
15
17
21
25
26
27
29
31
..
.
0.05
0.075
0.1
0.175
0.2
0.225
0.275
0.375
0.425
0.525
0.625
0.650
0.675
0.725
0.775
..
.
La taula es enorme!!!
Quan els valors diferents que pot prendre una variable son molts, sobte una
taula molt gran i, en conseq
u`encia, es poc aclaridora. Aix`o passar`a sovint, quan la
variable objecte destudi siga contnua. La solucio es agrupar els diferents valors
de la variable en intervals de classe, tenint sempre en compte que el que es guanya
quant a lorganitzacio i la facilitat per a manipular les dades, es perd en informacio.
Agrupar en intervals de classe consisteix a agrupar les dades en un nombre
xicotet dintervals que veriquen:
Que no se superposen entre si, de forma que no existisca ambig
uitat respecte
a la classe a qu`e pertany una dada particular.
Que cobrisquen tot el rang de valors de la variable.
Anomenarem:
Lmits superior i inferior de la classe els extrems de linterval. Els representarem per Li i li , respectivament.
c UJI
Li + li
.
2
Re
.
nombre d intervals
ci
ni
fi
Ni
Fi
0.05
0.05
0.175
0.225
0.3
21
0.525
0.25
31
0.775
0.1
35
0.875
0.125
40
1.00
c UJI
`
`
1.4. METODES
GRAFICS
1.4.1. DIAGRAMA DE SECTORS
un diagrama en forma circular en el qual, a cada valor de la variable, sassocia
Es
adequat per a representar
un sector circular proporcional a la seua freq
u`encia. Es
variables qualitatives.
Exemple 1.7 Una mostra de determinada poblacio es enquestada abans de la
convocat`oria dun refer`endum, per poder efectuar una prediccio sobre el resultat.
El 50 % dels enquestats ha contestat que shi pronunciar`a a favor, el 40 %, en contra
i el 10 % restant ha dit que sabstindr`a.
El gr`ac seg
uent mostra el diagrama de sectors daquest exemple:
Abstencions: el 10 %
A favor: el 50 %
En contra: el 40 %
10
10
c UJI
Freq
u`encies absolutes
21
15
2
Nombre de lls
Freq
u`encies relatives acumulades
Sobre cada valor de la variable (o interval) tracem una alcada igual a la seua
freq
u`encia (absoluta o acumulada). En el cas de dades discretes, unim mitjancant
segments de recta lextrem de cada ordenada amb la seg
uent. En la gura 1.3 pot
veures el polgon de freq
u`encies relatives acumulades (Fi ) de lexemple 1.6.
1
0.875
0.775
0.525
0.225
0.05
34.5
39.5
44.5
49.5
54.5
59.5
Preu
Figura 1.3: Polgon de freq
u`encies relatives acumulades de lexemple 1.6
11
11
c UJI
1.4.4. HISTOGRAMES
la representacio equivalent al diagrama de barres, per`o per a dades agruEs
pades per intervals. Sobre cada classe alcem un rectangle d`area proporcional a la
freq
u`encia de la classe. Caldr`a, doncs, parar compte i veure si tots els intervals
tenen la mateixa amplitud abans de fer el dibuix.
8
10
9
8
6
7
5
5
4
3
2
2
1
0
1
1
0
0
1
(a)
(b)
11
10
9
8
7
6
3
5
4
3
2
1
0
1
0
2
(c)
(d)
12
12
c UJI
1.4.5. PICTOGRAMES
Expressen, amb dibuixos allusius al tema destudi, les freq
u`encies de les modalitats de la variable. Els gr`acs es fan de forma que queden representades les diferents escales del mateix dibuix en correspond`encia amb la grand`aria de la seua
freq
u`encia. Lescala dels dibuixos ha de ser de tal manera que l`area de cadascun
siga proporcional a la freq
u`encia de la modalitat que representa. Son molt utilitzats
en variables qualitatives.
Exemple 1.8 Per a mostrar el consum de carn de porc en un mes en diferents
ciutats, susaria la representacio seg
uent:
100 kg a la ciutat A
60 kg en B
40 kg en C
22 kg en D
b) Marques dautom`obil.
d) Nivell destudis.
f ) Nombre dalumnes duna classe.
h) Professio.
(2) Els 100 estudiants duna classe que es van presentar al primer examen parcial
destadstica en la convocat`oria de febrer varen obtindre les qualicacions
seg
uents:
7
2
0
6
4
3
5
2
1
7
2
6
1
0
6
4
5
5
5
3
5
4
6
7
5
1
7
4
8
0
8
1
3
5
2
6
3
5
2
8
1 5 3
0 5 8
2 3 9
3 10 4
2 7 8
2
6
7
6
5
13
4
3
3
2
2
9
4
4
1
7
8 1 0 2 4
0 10 2 5 7
3 5 7 4 6
1 2 6 7 4
1 4 6 3 5
1
4
5
5
6
13
c UJI
Nre. dhotels
[0, 100[
[100, 200[
[200, 300[
[300, 400[
[400, 500[
[500, 600[
[600, 700[
[700, 800[
[800, 900[
[900, 1000]
25
37
12
22
0
21
13
5
3
2
14
14
c UJI
30
75
50
40
80
50
30
30
70
75
40
70
50
40
70
50
100
100
70
75
70
150
30
50
80
40
50
40
40
70
75
75
50
70
70
80
120
70
100
120
50
80
50
75
80
Determina:
a) La distribucio de freq
u`encies dels preus.
(a.1) Sense agrupar.
(a.2) Agrupant les dades en 5 intervals de la mateixa amplitud.
b) Representa gr`acament ambdues distribucions.
c) Percentatge dhotels amb un preu superior a 75 euros.
d ) Quants hotels tenen un preu superior o igual que 50 euros per`o inferior
o igual que 100?
ni
fi
Ni
[0, 10[ 60
[10, 20[
0,4
[20, 30[ 30
[30, 40[
0,1
[40, 50]
60
170
200
66
80
54
61
77
59
65
67
70
66
65
67
66
70
69
64
68
67
61
72
57
78
67
64
70
75
73
73
66
64
57
79
52
71
62
58
75
81
67
67
65
62
68
71
69
64
63
68
71
69
67
59
58
68
71
69
66
72
68
70
67
83
76
66
74
56
61
62
61
65
62
63
63
74
63
66
15
15
c UJI
15 +
10 +
3+
+
100
+
200
+
300
SOLUCIONS
(1)
16
16
c UJI
(2)
a) Distribucio de freq
u`encies:
xi
ni
fi
Fi
0
1
2
3
4
5
6
7
8
9
10
6
10
13
11
13
16
11
10
6
2
2
0.06
0.10
0.13
0.11
0.13
0.16
0.11
0.10
0.06
0.02
0.02
Ni
0.06 6
0.16 16
0.29 29
0.40 40
0.53 53
0.69 69
0.80 80
0.90 90
0.96 96
0.98 98
1.00 100
n = 100
b) El 16 %.
c) 31 estudiants.
d ) El 47 %.
Freq
u`encies absolutes
16
13
e)
13
11
10
11
10
6
2 2
Qualicacions examen 0 1 2 3 4 5 6 7 8 9 10
Freq
u`encies absolutes acumulades
69
f)
80
90
96 98 100
53
29
6
40
16
Qualicacions examen 0 1 2 3 4 5 6 7 8 9 10
Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4
17
17
c UJI
(3)
a) Distribucio de freq
u`encies:
[li , Li [
ni
fi
Fi
Ni
[0, 100[
[100, 200[
[200, 300[
[300, 400[
[400, 500[
[500, 600[
[600, 700[
[700, 800[
[800, 900[
[900, 1000]
25
37
12
22
0
21
13
5
3
2
0.18
0.26
0.09
0.16
0
0.15
0.09
0.04
0.02
0.01
0.18
0.44
0.53
0.69
0.69
0.84
0.93
0.97
0.99
1.00
25
62
74
96
96
117
130
135
138
140
n = 140
b) 44.
c) El 93 %.
Freq
u`encies relatives
0.26
d)
0.09
0.16
0.18
0.15
0.09
0.04
0.02 0.01
+ + + + +0 + + + + + +
Nombre de places 0 1 2 3 4 5 6 7 8 9 10
(en centenars)
Freq
u`encies relatives acumulades
0.93 0.97
0.84
0.69
e)
0.44
0.99 1
0.53
0.18
+ + + + + + + + + + +
Nombre de places 0 1 2 3 4 5 6 7 8 9 10
(en centenars)
Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4
18
18
c UJI
59.5[
64.5[
69.5[
74.5[
79.5[
84.5[
89.5[
94.5[
ci
ni
fi
Fi
Ni
57
62
67
72
77
82
87
92
4
0
2
3
5
2
8
1
0.16
0
0.08
0.12
0.20
0.08
0.32
0.04
0.16
0.16
0.24
0.36
0.56
0.64
0.96
1.00
4
4
6
9
14
16
24
25
n = 25
a) Distribucio de freq
u`encies:
xi
ni
1
3.5
4
4.5
5
5.3
5.5
6
6.5
7
7.5
8
9.5
1
1
2
3
3
1
1
4
4
4
4
1
1
fi
Fi
Ni
0.035 0.035
0.035 0.07
0.07 0.14
0.1
0.24
0.1
0.34
0.035 0.375
0.035 0.41
0.13 0.54
0.13 0.67
0.13 0.80
0.13 0.93
0.035 0.965
0.035 1.00
1
2
4
7
10
11
12
16
20
24
28
29
30
n = 30
b) El 24 %.
c) El 69 %.
(6)
ni
fi
Fi
30 5 0,1 0,1
40 7 0,14 0,24
50 10 0,2 0,44
70 11 0,22 0,66
75 7 0,14 0,80
80 4 0,08 0,88
100 3 0,06 0,94
120 2 0,04 0,98
150 1 0,02
1
Ni
5
12
22
33
40
44
47
49
50
19
19
c UJI
ci
ni
fi
Fi
[25, 50[
37,5 12 0,24 0,24
[50, 75[
62,5 21 0,42 0,66
[75, 100[ 87,5 11 0,22 0,88
[100, 125[ 112,5 5 0,1 0,98
[125, 150] 137,5 1 0,02 1,00
Ni
12
33
44
49
50
Freq
u`encies absolutes
10
b.1)
11
Freq
u`encies absolutes
21
b.2)
12
11
5
+
25
+
50
1
+ +
+ +
75 100 125 150
c) El 34 %.
d) 35 hotels.
20
20
c UJI
ni
[0, 10[ 60
[10, 20[ 80
[20, 30[ 30
[30, 40[ 20
[40, 50] 10
(8)
fi
Ni
0.3
0,4
0.15
0,1
0.05
60
140
170
190
200
a) Distribucio de freq
u`encies:
[li , Li [
[50,
[55,
[60,
[65,
[70,
[75,
[80,
55[
60[
65[
70[
75[
80[
85[
ci
ni
fi
Fi
Ni
2
9
26
56
70
77
80
b) El 32.5 %.
c)
Freq
u`encies absolutes acumulades
70
77 80
56
26
2
Pes en kg
+ + + + + + + +
50 55 60 65 70 75 80 85
21
21
c UJI
ni
1
3
0,1166 0,1166
13 0,266
0,33
10 0,166
0,5
0,133
0,1
0,133
0,05
0,0833
fi
Fi
Ni
7
20
30
0,633
0,733
38
0,866
0,9166
52
60
44
55
n = 60
a.2) El 66.6 %.
a.3) 25 persones.
b.1) Distribucio de freq
u`encies:
[li , Li [
ci
[1, 4[
2.5 30
[4, 7[
[7, 9[
ni
fi
Fi
0.5
0.5
5.5 22 0.366 0.833
8
8 0.133
1
Ni
30
52
60
b.2) El 50 %.
ni
[100, 200[
[200, 300[
[300, +[
fi
Fi
0,2
0,2
0,466 0,66
0,33
1
Ni
3
10
15
n = 15
22
22
c UJI
TEMA 2
DUNA MOSTRA: MESURES
DESCRIPCIO
DESCRIPTIVES
Per a dades qualitatives, la distribucio de freq
u`encies proporciona un resum
concs i complet de la mostra, per`o per a variables quantitatives pot complementarse utilitzant mesures descriptives num`eriques tretes de les dades.
Les mesures descriptives son valors num`erics calculats a partir de la mostra
i que ens resumeixen la informacio que aquesta conte. En la part dinfer`encia estadstica, les anomenarem estadstics.
x=
1
xi n i =
xi fi .
n i=1
i=1
x=
126
0 2 + 1 4 + 2 21 + 3 15 + 4 6 + 5 1 + 6 1
=
= 2.52 lls.
50
50
xi fi , es a dir:
i=1
23
c UJI
Exemple 2.2 El preu mitj`a de les habitacions en lexemple 1.2, del tema
anterior, el calculem utilitzant les marques de classe, es a dir:
x=
O, equivalentment:
x = 34.50.05+39.50.175+44.50.3+49.50.25+54.50.1+59.50.125 = 47.25 e.
1
1
1
1
y=
y i ni =
(C + xi )ni = C
ni +
xi ni = C + x,
n i=1
n i=1
n i=1
n i=1
ja que
ni = 1
i=1
(b) Si tots els valors duna variable els multipliquem per una constant C,
la seua mitjana aritm`etica queda multiplicada per la mateixa constant.
a dir, la mitjana aritm`etica queda afectada pels canvis descala de la
Es
mateixa manera que les dades:
yi = Cxi y = Cx.
Demostraci
o:
k
1
1
1
yi ni =
Cxi ni = C
xi ni = Cx
y=
n i=1
n i=1
n i=1
24
24
c UJI
(c) Com a corollari dambdues propietats anteriors, si considerem la transformacio lineal yi = A + Cxi , on A i C son dues constants qualssevol, la
mitjana arirm`etica de la nova variable es: y = A + Cx.
Demostraci
o:
i=1
(xi x)ni = 0,
i=1
(xi x)ni =
i=1
xi n i
i=1
xni = nx nx = 0
i=1
(xi x) ni
i=1
2. Mediana (M e): es el valor per al qual, quan totes les observacions sordenen
de mes baixa a mes alta, la meitat daquestes es mes petita que aquest valor
i laltra meitat, mes gran. Si el nombre de dades es imparell, la mediana ser`a
el valor central; si es parell, prendrem com a mediana la mitjana aritm`etica
dels dos valors centrals.
La forma mes c`omoda de calcular-la es usant les freq
u`encies acumulades.
(a) Distribucions no agrupades
n
1) Calculem .
2
2) Mirem en la distribucio de freq
u`encies la columna de les freq
u`encies
absolutes acumulades i hi busquem la freq
u`encia Ni que faca complir
n
que Ni1 < Ni :
2
n
Si
< Ni , aleshores la mediana es aquell valor la freq
u`encia
2
acumulada del qual es Ni , es a dir:
M e = xi , de manera que
25
n
< Ni .
2
25
c UJI
n
Si = Ni (noteu que aix`o nomes pot passar quan n es parell), la
2
mediana es la mitjana aritm`etica daquells valors la freq
u`encia
acumulada dels quals es Ni i Ni+1 , respectivament, es a dir:
Me =
xi + xi+1
n
, de manera que = Ni .
2
2
xi
ni
Ni
n = 50
62
21
27
n
= 25
2
15
42
48
49
50
N2 = 6 < 25 27 = N3
Per tant, M e = x3 = 2 lls.
1) Calculem
n
.
2
Ni1 ai
M e = li + 2
.
ni
El raonament per a justicar la utilitzacio daquesta formula es el
seg
uent: la freq
u`encia absoluta acumulada ns a linterval anterior
al medi`a es Ni1 . Per a arribar a la meitat de
n les dades,
es a dir,
n
per a arribar ns a , necessitem prendre
Ni1 dades de
2
2
linterval medi`a (el qual conte ni ) repartides en una amplitud ai .
Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4
26
26
c UJI
Ni1 ai
2
.
ni
ai
, a les
Ni1
ni
2
[li , Li [
ni
Ni
[32, 37[
[37, 42[
[42, 47[ 12
21
N2 = 9 < 20 21 = N3
[47, 52[ 10
31
[52, 57[
35
[57, 62]
4
5
n = 40
n
2
= 20
M e = 37 +
40
9)5
( 40
2
7
= 44,86 e
i=1
|xi M e| ni
i=1
27
c UJI
ni
2
4
21
15
6
1
1
ni mes alt = 21
Correspon a n3 .
Per tant, M o = x3 = 2 lls.
ai
ni+1
li
Li
28
28
c UJI
M o = li +
ni+1
ai .
ni1 + ni+1
El raonament per a justicar la utilitzacio daquesta formula (observeu la gura 2.1) es el seg
uent: considerem els intervals anterior i
posterior al modal, amb freq
u`encies respectives ni1 i ni+1 . Si aquestes freq
u`encies son iguals, la moda es el centre de linterval modal.
En cas contrari, la moda estar`a mes prop daquell interval contigu,
la freq
u`encia del qual es mes alta, es a dir, les dist`ancies de la moda
als intervals contigus al modal son inversament proporcionals a les
freq
u`encies daquests intervals. Com a conseq
u`encia dac`o, tindrem:
m
ni+1
=
.
ai m
ni1
Si allem m i substitum, obtenim la formula anterior.
M o = li + m, on m permet que
ni
[32, 37[
[37, 42[
[42, 47[ 12
[47, 52[ 10
[52, 57[
[57, 62]
M o = 42 +
10
5 = 44,94 e
7 + 10
M o = li +
di+1
ai .
di1 + di+1
29
c UJI
n
xni i .
G=
i=1
5. Mitjana harm`
onica (H): es deneix com el recproc de la mitjana aritm`etica dels recprocs de les dades:
n
.
H= k
1
ni
i=1 xi
Sol utilitzar-se per a fer mitjanes amb velocitats, rendimients i, en general,
magnituds expressades en termes relatius.
30
30
c UJI
Nota 2.2 Si les dades estan agrupades, per a calcular totes dues mesures anteriors
utilitzarem les marques de classe, es a dir, ci en lloc de xi .
Propietat 2.2 Les tres mitjanes estan relacionades mitjancant:
H G x.
NO CENTRALS: QUANTILS
2.1.2. MESURES DE POSICIO
Els quantils son valors de la distribucio que la divideixen en parts iguals, es
a dir, en intervals que contenen el mateix nombre de valors de la distribucio. Els
mes usuals son:
1. Percentils: son 99 valors que divideixen la distribucio en 100 parts iguals,
despres dhaver ordenat les dades. El percentil dordre p (Pp ) es el menor
valor superior al p % de les dades (ordenades les dades de mes baixa a mes alta,
deixa el p % de les dades per davant). Els calculem a partir de les freq
u`encies
acumulades.
(a) Dades no agrupades:
pn
.
100
Es busca en la taula el valor la freq
u`encia acumulada del qual es la
primera superior o igual al p % de n, es a dir:
pn
Pp = xi que permeta que Ni1 <
Ni .
100
Calculem el p % de n, es a dir,
Ni1 ai
Pp = li + 100
.
ni
2. Quartils (Qi ): son els tres valors que divideixen el conjunt de dades ordenades en quatre parts iguals. Son un cas particular dels percentils, de forma
que:
Q1 = P25 , Q2 = P50 i Q3 = P75 .
31
31
c UJI
Exemple 2.7 Calcula els tres quartils per a la distribucio del nombre de lls
de les 50 famlies de lenquesta de lexemple 1.1:
xi
0
1
2
3
4
5
6
ni
Ni
2
4
21
15
6
1
1
2
6
27
42
48
49
50
Q1 = P25 ;
25 50
= 12,5 Q1 = 2 lls
100
Q2 = P50 ;
50 50
= 25 Q2 = 2 lls
100
Q3 = P75 ;
75 50
= 37,5 Q3 = 3 lls
100
Exemple 2.8 Calcula els tres quartils per a la distribucio del preu per
habitacio dels 40 hotels de lenquesta de lexemple 1.2:
25 40
= 10 Q1 [42, 47[
100
[li , Li [
ni
Ni
Q1 = P25 ;
[32, 37[
[37, 42[
[42, 47[ 12
21
25 40
9
Q1 = 42 + 100
5 = 42,42 e
12
[47, 52[ 10
31
[52, 57[
35
[57, 62]
40
50 40
= 20 Q2 [42, 47[
100
q2 = P50 ;
50 40
9
Q2 = 42 + 100
5 = 46,58 e
12
75 40
= 30 Q3 [47, 52[
100
Q3 = P75 ;
75 40
12
Q3 = 47 + 100
5 = 56 e
10
3. Decils (Di ): son els nou valors que divideixen la distribucio, una vegada
ordenades les dades de mes baixa a mes alta, en deu parts iguals. Tambe son
un cas particular dels percentils:
D1 = P10 ,
D2 = P20 ,
...,
D9 = P90 .
32
32
c UJI
2.2. MOMENTS
Els moments duna distribucio es deneixen com una generalitzacio de la mitjana aritm`etica i, com veurem mes endavant, serveixen per a descriure algunes
caracterstiques importants de les distribucions de freq
u`encies. La propietat mes
important es que dues distribucions son iguals quan tenen iguals tots els moments,
i com mes moments iguals tenen mes paregudes son.
1 r
ar =
x ni .
n i=1 i
`
Propietat 2.4 Obviament
es veriquen:
k
a0 =
n
1
1 0
xi ni = = 1 i a1 =
xi ni = x.
n i=1
n
n i=1
1
mr =
(xi x)r ni .
n i=1
Propietat 2.5 Els moments dordre r respecte a la mitjana aritm`etica mes
comuns veriquen:
1
n
1
m0 =
(xi x)0 ni = = 1 i m1 =
(xi x)r ni = x x = 0.
n i=1
n
n i=1
33
33
c UJI
ABSOLUTES
2.3.1. MESURES DE DISPERSIO
Per ordre dimport`ancia tenim:
1. Vari`
ancia (s2 ): es la mitjana dels quadrats de les dist`ancies entre cada observacio i la mitjana aritm`etica del conjunt de les observacions:
k
1
s =
(xi x)2 ni =
(xi x)2 fi .
n i=1
i=1
2
Si les dades estan agrupades per intervals, usarem les marques de classe per
a calcular-la, es a dir, ci en lloc de xi .
En el cas extrem que totes les observacions siguen iguals, la mitjana coincideix
amb aquest valor com
u i, en conseq
u`encia, la vari`ancia es 0. En general, com
mes disperses siguen les observacions, mes grans seran les difer`encies dins dels
quadrats i per tant, mes alt es el valor de s2 .
Nota 2.3 La vari`ancia es el moment dordre 2 respecte de la mitjana, es a
dir, s2 = m2 .
Les propietats mes importants de la vari`ancia son:
(a) La vari`ancia mai pot ser negativa: s2 0.
1 2
s =
xi ni x = x2 x = a2 a21
n i=1
2
Demostraci
o:
k
1
1 2
=
(xi x)2 ni =
(xi 2xi x + x2 )ni =
n i=1
n i=1
k
1 2
1
1
=
xi ni 2x
xi + x2
ni =
n i=1
n i=1
n i=1
k
1 2
x ni 2x2 + x2 = x2 x2 = a2 a21
=
n i=1 i
(c) Si a tots els valors duna variable, els sumem la mateixa constant C, la
vari`ancia no canvia:
yi = C + xi s2y = s2x .
Demostraci
o:
k
s2y =
1
1
1
(yi y)2 ni =
(C +xi C x)2 ni =
(xi x)2 ni = s2x
n i=1
n i=1
n i=1
34
34
c UJI
(d) Si tots els valors duna variable, els multipliquem per una mateixa constant C, la seua vari`ancia queda multiplicada pel quadrat de la constant:
yi = Cxi s2y = C 2 s2x .
Demostraci
o:
k
s2y
1
1
1
=
(yi y)2 ni =
(Cxi Cx)2 ni = C 2
(xi x)2 ni = C 2 s2x
n i=1
n i=1
n i=1
(e) Com a corollari de les propietats anteriors, si considerem la transformacio lineal yi = A + Cxi , on A i C son dues constants qualssevol, la
nova vari`ancia queda s2y = C 2 s2x .
Exemple 2.9 Vari`ancia del nombre de lls per famlia de lexemple 1.1:
xi
0
1
2
3
4
5
6
ni
2
4
21
15
6
1
1
x = 2.52 lls
02 2 + 12 4 + 22 21 + 32 15 + 42 6 + 52 1 + 62 1
s =
50
2
2. Desviaci
o tpica (s): es larrel quadrada positiva de la vari`ancia. El motiu
principal per a utilitzar-la es que la vari`ancia no est`a donada en les mateixes
unitats que la variable, sino en aquestes unitats al quadrat.
Les propietats mes importants de la desviacio tpica, que es dedueixen f`acilment
a partir de les corresponents propietats per a la vari`ancia, son:
(a) s 0
(b) yi = C + xi sy = sx
35
35
c UJI
3. Quasivari`
ancia (s ): la denicio es com la de la vari`ancia, per`o dividint
entre (n 1):
s
1
n
=
(xi x)2 ni =
s2 .
n 1 i=1
n1
50
1.25 = 1.27 (lls)2 .
49
4. Desviaci
o mitjana respecte de la mitjana aritm`
etica (Dx ): es deneix
com la mitjana aritm`etica de les desviacions, en valor absolut, respecte de la
mitjana aritm`etica:
k
1
Dx =
|xi x| ni .
n i=1
Si pren valors grans, signica que els valors de la variable es distribueixen en
valors allunyats de la mitjana.
Exemple 2.12 Per al nombre de lls per famlia de lexemple 1.1:
xi
ni
0
1
2
3
4
5
6
2
4
21
15
6
1
1
|xi x| |xi x| ni
2.52
1.52
0.52
0.48
1.48
2.48
3.48
50
5.04
6.08
10.92
7.2
8.88
2.48
3.48
1
44.08
Dx =
= 0.88 lls.
|xi x| ni =
n i=1
50
44.08
5. Desviaci
o mitjana respecte de la mediana (DM e ): es deneix com la
mitjana aritm`etica de les desviacions, en valor absolut, respecte de la mediana:
k
1
DM e =
|xi M e| ni .
n i=1
Si pren valors grans, signica que els valors de la variable estan dispersos
respecte de la mediana.
36
36
c UJI
ni
0
1
2
3
4
5
6
2
4
21
15
6
1
1
|xi M e| |xi M e| ni
2
1
0
1
2
3
4
50
4
4
0
15
12
3
4
DM e =
1
42
|xi M e| ni =
= 0.84 lls.
n i=1
50
42
6. Recorregut o rang mostral (Re ): es la difer`encia entre els valors mes alt
i mes baix de les observacions:
Re = xmax xmn .
Com mes recorregut, mes dispersio.
Exemple 2.14 Per al cas del nombre de lls: Re = 6 0 = 6 lls.
7. Recorregut interquartlic (RQ): es la difer`encia entre el tercer i el primer
quartil.
RQ = C3 C1 .
Com mes RQ, mes dispersio.
Exemple 2.15 Per al cas del nombre de lls: RQ = 3 2 = 1 ll.
RELATIVES
2.3.2. MESURES DE DISPERSIO
Nomes considerarem el coecient de variaci
o de Pearson, que es deneix
com el quocient entre la desviacio tpica i el valor absolut de la mitjana aritm`etica:
CV =
s
.
|x|
adimensional i val per a comparar dues distribucions que no venen en les mateiEs
xes unitats. Representa quantes vegades la mitjana aritm`etica est`a continguda en
la desviacio tpica. Com mes alt es CV , mes gran es la dispersio i menor la representativitat de la mitjana aritm`etica.
37
37
c UJI
1.12
= 0.44
2.52
DUNA DISTRIBUCIO
DE FREQU
ENCIES
`
2.4. TIPIFICACIO
Es diu que una variable estadstica est`a tipicada quan la seua mitjana
arim`etica es 0 i la seua vari`ancia (o la seua desviacio tpica) es 1.
Suposem que apliquem a les dades la transformacio seg
uent:
zi =
xi x
,
sx
k
1
m3
3
(x
x)
n
=
.
i
i
ns3 i=1
s3
38
38
c UJI
ni
xi x
(xi x)3
(xi x)3 ni
0
1
2
3
4
5
6
2
4
21
15
6
1
1
-2.52
-1.52
-0.52
0.48
1.48
2.48
3.48
-16.003
-3.512
-0.141
0.11
3.242
15.253
42.144
-32.006
-14.047
-2.953
1.658
19.451
15.253
42.144
50
x = 2.52 lls
sx = 1.12 lls
g1 =
29.5
= 0.42 > 0
50 (1.12)3
29.5
En el dibuix seg
uent poden observar-se els diferents tipus dasimetries:
Sim`etrica
Sim`etrica
39
39
c UJI
As =
x Mo
.
s
As =
x Mo
2.52 2
=
= 0.46 > 0 Distribucio asim`etrica positiva.
s
1.12
k
1
m4
(xi x)4 ni 3 = 4 3.
4
ns i=1
s
Si g2 > 0, es leptoc
urtica; si g2 < 0, platic
urtica i si g2 = 0, mesoc
urtica. En la
gura 2.2, pot observar-se una representacio gr`aca de la curtosi.
40
40
c UJI
xi
ni
xi x
(xi x)4
(xi x)3 ni
0
1
2
3
4
5
6
2
4
21
15
6
1
1
-2.52
-1.52
-0.52
0.48
1.48
2.48
3.48
40.327
5.338
0.073
0.053
4.798
37.827
146.662
80.655
21.352
1.533
0.795
28.788
37.827
146.662
50
g2 =
317.612
3 = 1.037 > 0
50 (1.12)4
Distribucio leptoc
urtica
317.612
Normal
Normal
Platic
urtica
Leptoc
urtica
41
41
c UJI
xn = 0.
Nota 2.4 Cal considerar que, des dun punt de vista estadstic, els termes dispersio i concentracio no son oposats. Recordem que el primer fa refer`encia a la
variabilitat de les dades respecte de la mitjana; mentre que el segon, com acabem
dassenyalar, a la no-equitat en el repartiment de la suma total de la variable.
1. Index de concentraci
o de Gini (Ico ). Es construeix a partir de les quantitats seg
uents:
(a) Calculem, en primer lloc, els productes xi ni , que ens indiquen el total
percebut (renda total, guanys totals, etc.) pels ni subjectes amb valor xi
(renda, guany, etc.). Aquest producte, es anomenat riquesa de li-`
esim
grup.
(b) Calculem les riqueses acumulades de la variable, que denotarem per ui :
u1 = x 1 n 1
u2 = x 1 n 1 + x 2 n 2
u3 = x 1 n 1 + x 2 n 2 + x 3 n 3
..
.
uk = x 1 n 1 + x 2 n 2 + + x k n k
(c) Les riqueses acumulades (ui ), les representem en tant per cent del total
(uk ). Denotem aquests percentatges per qi :
ui
qi =
100.
uk
(d) Expressem les freq
u`encies relatives acumulades en tant per cent. Denotem aquests percentatges per pi :
pi =
Ni
100 = Fi 100.
n
Ico =
k1
i=1
(pi qi )
k1
pi
i=1
42
42
c UJI
k1
i=1
k1
pi
=1i
pi
i=1
la concentracio es m`axima.
2. Corba de Lorenz: una forma destudiar gr`acament la concentracio es mitjancant la corba de Lorenz. Es construeix representant en leix dabscisses el
percentatge de freq
u`encies acumulades (pi ) i en el dordenades, els percentatges acumulats del total de la variable (qi ). En unir aquests punts obtenim la
corba de Lorenz. Per a una millor interpretacio, se sol dibuixar un quadrat
de costat 100 (en la gura 2.3 OABC) i la seua diagonal (OB).
Noteu que:
Com que per a pi = 0, es qi = 0, la gr`aca sempre passa pel punt (0, 0).
Com que per a pi = 100, es qi = 100, la gr`aca sempre passa pel punt
(100, 100).
Com que pi qi , la gr`aca sempre est`a situada per davall de la diagonal
del quadrat (OB) o hi coincideix.
En el cas dexistir repartiment equitatiu, es a dir, concentracio mnima
(pi = qi ), la corba coincideix amb la diagonal.
Si la concentracio es m`axima, la corba de Lorenz est`a formada pels
costats del quadrat: OA i OB (observeu la gura 2.4).
`
Area
entre la corba i la diagonal OB
.
`
Area
del triangle OAB
43
43
c UJI
Exemple 2.20 Est`a el nombre de lls molt concentrat en unes poques famlies en
lexemple 1.1?
xi
ni
xi n i
ui
qi
0
1
2
3
4
5
6
2
4
21
15
6
1
1
0
4
42
45
24
5
6
0
4
46
91
115
120
126
0
3.17
36.51
72.22
91.27
95.24
100
Fi
pi
0.04 4
0.12 12
0.54 54
0.84 84
0.96 96
0.98 98
1
100
pi q i
4
8.83
17.49
11.78
4.73
2.76
Ico =
49.59
= 0.142
348
Poca concentracio
49.59
Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4
44
44
c UJI
ni
0 600
600 900
900 1200
1200 1500
1500 1800
1800 2100
2100 2700
2700 4000
> 4000
2140
1525
845
950
1105
2347
615
323
150
Calcula:
a) El salari mitj`a per treballador (pren com a marca de classe de l
ultim
interval 5000).
b) El salari mes freq
uent.
c) El salari que permet ser superior a la meitat dels restants.
10
15
20
25
ni
10
20
30
40
ni
45
45
c UJI
Calcula:
a) Mitjana, moda, mediana, primer i tercer quartil, i quaranta-cinque centil.
b) Vari`ancia, desviacio tpica, coecient de variacio, i desviacio mitjana
respecte de la mitjana i respecte de la mediana, i recorregut i recorregut
interquartlic.
c) El coecient dasimetria i la curtosi.
d ) Comenta els resultats.
(6) Dues empreses A i B tenen 100 treballadors cadascuna. Els salaris per dia i
treballador son:
A lempresa A, 20 persones perceben 15 euros i 80 perceben 120 euros.
A lempresa B, 20 persones perceben 120 euros i 80 perceben 15 euros.
a) Calcula mitjana, vari`ancia, desviacio tpica i coecient de variacio en
cada cas. Compara els resultats.
b) Obtn la corba de Lorenz i lndex de concentracio de Gini en cada cas.
Analitza-ho i compara els resultats.
SOLUCIONS
(1) x = 45928.2143
(2)
a) x = 1366.35 euros
b) M o = 1865.31 euros
c) M e = 1354.74 euros
(6)
46
46
c UJI
TEMA 3
DISTRIBUCIONS BIDIMENSIONALS
3.1. INTRODUCCIO
Es vol fer un estudi dacceptacio de dos models dimpressores. Per a aquest , es
consideren les vendes en una tenda durant un perode de 25 dies, durant els quals
les vendes foren:
Model A
0 2
4 4
Model B
2 1
0 1
Model A
3 3
3 3
Model B
1 1
2 2
47
c UJI
Denici
o 3.2 La freq
u`
encia relativa conjunta (fij ) dun parell (xi , yj ) es:
fij =
nij
.
n
fij = 1.
a dir,
i=1 j=1
Denici
o 3.3 Una distribuci
o de freq
u`
encies conjunta es una taula de doble
entrada on, en la primera columna, representarem, ordenats de mes baix a mes alt,
els valors observats de la variable X i en la primera la, els de la variable Y . Al
centre, les corresponents nij , fij o ambdues.
Exemple 3.3 Per a lexemple introductori de les impressores es te:
yj
ni
0
1
2
3
4
0
0
0
0
1
0
0
3
8
2
1
0
5
4
0
0
1
0
0
0
1
1
8
12
3
nj
13 10 1
25
xi
nij
j=1
48
48
c UJI
(2) La freq
u`
encia absoluta marginal per a Y (nj ) es el nombre de vegades
que es repeteix el valor yj sense tindre en compte els valors de X (observeu
la taula de lexemple 3.3), es a dir:
nj =
nij
i=1
i=1
ni(j) = nj
n(i)j = ni .
i=1
49
49
c UJI
Denici
o 3.8 Freq
u`encia relativa condicionada per a X = xi donada Y = yj
(fi(j) ):
nij
fi(j) =
.
nj
Denici
o 3.9 Freq
u`encia relativa condicionada per a Y = yj donada X = xi
(f(i)j ):
nij
f(i)j =
.
ni
Exemple 3.6 Calcula la distribucio de freq
u`encies del nombre dimpressores ve
nudes del model A, quan sabem que del model B sha venut una impressora. Es
a dir, calcula la disribucio de freq
u`encies de X condicionada que Y = 1, o siga,
condicionada a y2 .
xi
ni(2)
fi(2)
0
1
2
3
4
0
0
3
8
2
0
0
0.23
0.62
0.15
13
Nota 3.1 Si la taula resulta molt gran caldr`a agrupar una o ambdues variables en
intervals de classe, de la mateixa manera que hem vist al tema 1. En aquest cas,
totes les denicions que hem vist en aquest tema, es generalitzen como ho v`arem
fer al tema 1.
`
3.2.4. INDEPENDENCIA
ESTADISTICA
Des dun punt de vista exclusivament intutiu, podem dir que dues variables son
independents quan en xar el valor duna no canvia la distribucio de freq
u`encies
de laltra. Mes precisament:
Denici
o 3.10 Direm que X i Y son variables independents estadsticament
quan totes les freq
u`encies relatives condicionades son iguals a les corresponents
a dir:
freq
u`encies marginals. Es
fi(j) = fi ;
j = 1, . . . , h i f(i)j = fj ;
i = 1, . . . , k.
Denici
o 3.11 Direm que X i Y son variables independents estadsticament
quan la freq
u`encia relativa conjunta es igual al producte de les freq
u`encies relatives
a dir:
marginals. Es
fij = fi fj ;
i = 1, . . . , k
i
50
j = 1, . . . , h
Estadstica. Volum I - UJI
50
c UJI
o, equivalentment:
nij
ni nj
=
;
n
n n
i = 1, . . . , k
j = 1, . . . , h.
GRAFICA:
`
3.3. REPRESENTACIO
DIAGRAMA DE DISPERSIO
Com en el cas univariant, la forma de la distribucio conjunta saprecia a primera
vista, i es rete mes f`acilment en la mem`oria, amb una adequada representacio gr`aca.
El diagrama de dispersi
o (tambe anomenat n
uvol de punts) sobte representant cada parell observat (xi , yj ) com un punt en el plan cartesi`a. Sol utilitzar-se
amb les dades sense agrupar. Si les dades estan agrupades per intervals, prenem les
marques de classe.
el tipus de gr`ac mes u
Es
til, ja que ens permet visualitzar la relacio entre
ambdues variables.
Exemple 3.7 Com podem observar en el diagrama de dispersio per a lexemple
de les impressores, en augmentar X disminueix Y .
4
3.5
3
2.5
2
1.5
1
0.5
0
0.5
1
1
51
51
c UJI
2. Els punts sagrupen al voltant duna par`abola y ax2 +bx+c: relacio quadr`atica.
52
52
c UJI
1 r s
ars =
x y nij .
n i=1 j=1 i j
Alguns casos particulars interessants son:
a00 =
k
h
1
n
x0i yj0 nij = = 1.
n i=1 j=1
n
k
h
k
1
1
x1i yj0 nij =
xi ni = x, que es la mitjana marginal de
n i=1 j=1
n i=1
la variable X.
k
h
h
1
1
a01 =
yj nj = y, que es la mitjana marginal de
x0i yj1 nij =
n i=1 j=1
n j=1
la variable Y .
a10 =
53
53
c UJI
1
mrs =
(xi x)r (yj y)s nij .
n i=1 j=1
Alguns casos particulars interessants son:
m00 =
m10 =
m01 =
m20 =
m02 =
k
h
1
n
(xi x)0 (yj y)0 nij = = 1.
n i=1 j=1
n
k
h
k
k
1
1
1
(xi x)1 (yj y)0 nij =
xi ni
xni = x x = 0.
n i=1 j=1
n i=1
n i=1
k
h
h
h
1
1
1
(xi x)0 (yj y)1 nij =
yj nj
ynj = y y = 0.
n i=1 j=1
n j=1
n j=1
k
h
k
1
1
(xi x)2 (yj y)0 nij =
(xi x)2 ni = s2x .
n i=1 j=1
n i=1
k
h
h
1
1
(xi x)0 (yj y)2 nij =
(yj y)2 n j = s2y .
n i=1 j=1
n j=1
`
3.4.2. MESURES DE DEPENDENCIA
LINEAL
En lestudi conjunt de dues variables, el que ens interessa principalment es saber
si existeix algun tipus de relacio entre aquestes variables. En lapartat anterior, amb
la representacio gr`aca del diagrama de dispersio, hem pogut fer-nos una primera
idea de si hi existeix algun tipus de relacio. En aquesta seccio, presentem mesures
descriptives que ens permetran analitzar si hi existeix alguna relacio de tipus lineal,
es a dir, de la forma Y = a + bX.
Denici
o 3.12 Covari`
ancia (sxy ). Es deneix com:
k
sxy
1
(xi x)(yj y)nij .
=
n i=1 j=1
54
54
c UJI
La formula seg
uent ens permet calcular la covari`ancia duna forma mes senzilla:
k
h
1
xi yj nij xy = a11 a10 a01 .
sxy =
n i=1 j=1
tj = C + yj szt = sxy .
(2) Si tots els valors de la variable X els multipliquem per una constant C, i tots
els valors de la variable Y els multipliquem per una constant C , la covari`ancia
a dir:
queda multiplicada pel producte de les constants. Es
zi = C x i ,
tj = C yj szt = CC sxy .
(3) Com a corollari de totes dues propietats anteriors, si considerem les transformacions lineals zi = a + bxi i tj = a + b yj , on a, b, a , b son constants
qualssevol, aleshores szt = bb sxy .
Exemple 3.8 Per al cas dels models dimpressores, es te: x = 2.6 impressores,
y = 1.44 impressores i, en conseq
u`encia:
sxy =
0 0 0 + 0 1 0 +
(2.6 1.44) = 0.344.
25
Suposem ara que cada impressora del model A val 120 euros i que el preu duna
impressora del model B es de 150 euros. Aleshores, la quantitat invertida en la
compra dimpressores model A i impressores model B la podem obtindre posant:
Z = 120 X,
T = 150 Y .
55
55
c UJI
Denici
o 3.13 Coecient de correlaci
o (rxy ). Es deneix com:
rxy =
sxy
.
sx sy
0.8 = 0.89,
sy =
0.344
= 0.9427.
0.89 0.41
k
h
i=1 j=1
xi yj fij xy.
sxy =
k
h
i=1 j=1
i=1
xi yj fij xy =
xi fi
j=1
i=1 j=1
xi yj fi fj xy =
yj fj xy = xy xy = 0.
k
h
56
56
c UJI
sxy
.
sx sy
Nota 3.2 Existeixen casos en qu`e la covari`ancia entre dues variables pot ser zero
sense que aquestes siguen independents.
7 7
Comptabilitat
7 7
Matem`atiques
10
Comptabilitat
8 10
10
10
(2) Es preten fer un estudi sobre la utilizacio dun esc`aner en una determinada
ocina. Per a aquest es van mesurar, durant un dia, els minuts transcorreguts entre les successives utilitzacions (X) i el nombre de p`agines escanejades (Y ), i es van obtindre els resultats seg
uents:
X
8 8
5 8
2 7
7 2
7 11
11
11
14
11 11
11
11 19
19
19
11
19
19
57
57
c UJI
xi ni = 500,
yj nj = 1000,
xi yj nij = 6000.
i
5 7
Pr`actica
6 5
(5) Entre els empleats duna empresa es disposa dinformacio sobre els seus salaris
(en milers deuros) i el nombre de vehicles de motor que shan adquirit en els
u
ltims 5 anys:
Vehicles
0 1
2 3
0 0
1
2
0
2
Salaris
[18, 27[
[27, 45]
58
58
c UJI
Calcula:
a) El percentatge dempleats que cobra menys de 27000 euros i que te mes
dun vehicle.
b) La covari`ancia.
c) Lajuda mitjana per empleat si lempresa dona una ajuda de 100 euros
per a ladquisicio dels vehicles a tots els empleats (adquirisquen o no
vehicle) mes 300 euros per cada vehicle adquirit.
d ) La covari`ancia entre lajuda i el salari.
SOLUCIONS
(1)
a)
yj
3 5
6 7
9 10
ni
xi
4
1
2
10
nj
1 2
1 8 10 0
25
b) 84 %, 84 %, 88 %
c) No son independents.
e) rxy = 0.8782
59
59
c UJI
(2) a.1)
yj
11 19
ni
xi
3
11
11
14
nj
4 14
1
5
28
a.2) 21.43 %
b.1) Mireu la taula anterior.
b.2) 23
b.3) 23
c)
(3)
y(5)j
n(5)j
2
7
11
19
2
4
3
2
a) sxy = 10
20
b) suz =
3
a) 10 %
b) sxy = 5.4
c) 550 e
d ) 1620 e
60
60
c UJI
TEMA 4
I CORRELACIO
LINEAL
REGRESSIO
METODE
`
4.1. INTRODUCCIO.
DELS MINIMS QUADRATS
En el tema anterior v`arem veure que el diagrama de dispersio o n
uvol de punts
ens permet visualitzar la relacio entre dues variables X i Y . En representar el
diagrama de dispersio podem trobar les situacions seg
uents:
Distribucions estadstiques per a les quals el n
uvol de punts es disposa de tal
forma que existeix una funcio matem`atica els punts de la qual son una part
de la seua representacio gr`aca.
Distribucions estadstiques per a les quals el n
uvol de punts, sense coincidir
exactament amb la gr`aca duna funcio matem`atica, shi aproxima encara
que siga poc.
Distribucions estadstiques per a les quals el n
uvol de punts presenta un
aspecte de tal manera que no existeix concentracio de punts pr`oxima a cap
gr`aca duna funcio matem`atica, i es distribueix duna forma uniforme en
una regio del pla.
En el primer cas es diu que hi ha una depend`
encia funcional o exacta entre les
variables X i Y , es a dir, existeix una funcio matem`atica de manera que Y = f (X).
En el segon cas es diu que hi ha una depend`
encia estadstica o aproximada
entre ambdues variables: Y f (X). I en l
ultim cas diem que les variables son
independents.
Y
X
Depend`
encia funcional
61
61
c UJI
X
Depend`
encia estadstica
X
Independ`
encia entre variables
62
c UJI
Les t`
ecniques de regressi
o socupen del segon cas que hem citat anteriorment i tenen per objecte modelitzar, es a dir, trobar una funcio que aproxime el
m`axim possible la relacio de depend`encia estadstica entre variables i predir-ne els
valors duna (Y ) a partir dels valors de laltra (o les altres): (X o X1 , X2 , . . . , Xn ).
La variable (o variables) coneguda, lanomenarem variable(s) independent(s) o
explicativa(ves), i la variable que volem predir, variable dependent o explicada.
Anomenarem regressi
o de Y sobre X la funcio que explica la variable Y
(dependent) per a cada valor de la variable X (independent):
Y f (X).
Diem que la regressio es:
Lineal, quan el model o funcio de regressio seleccionada es una recta. En
qualsevol altre cas lanomenarem regressi
o no lineal.
Simple, quan sols tenim una variable independent. M
ultiple, quan tenim
dues o mes variables independents.
El procediment que seguirem per a efectuar la regressio ser`a el seg
uent:
1) Elegir un tipus de funcio o corba que creguem que millor relaciona ambdues
variables. Ac`o, ho podrem fer observant el n
uvol de punts.
2) Obtindre lequacio de la corba entre les innites daquest tipus que hi ha en
el pla, que millor sadapte al conjunt de punts. Lobjectiu dobtindre aquesta
equacio es predir el valor de la variable Y per a un valor concret, x0 , de la
variable X.
3) Obtindre una mesura del grau daquesta associacio o correlacio. Ac`o ens dona
la abilitat de les prediccions que farem amb aquesta equacio.
Els dos primers passos sengloben dins del que es coneix com a teoria de la
regressi
o, mentre que el tercer es el que es coneix com a teoria de la correlaci
o.
El problema que planteja el segon pas, lobtencio de la funcio, es coneix com a
problema de lajustament, i es poden usar diferents m`etodes matem`atics per tal
de resoldrel, com per exemple: el dels mnims quadrats, el dels polinomis ortogonals, el dels moments, el de la corba logstica, etc. Nosaltres sols desenvoluparem
el primer.
Nota 4.1 En aquest tema, nomes considerarem la mostra original, sense ordenar
ni agrupar en una taula de freq
u`encies, es a dir:
X
x1
x2
xn
y1
y2
yn
63
63
c UJI
`
4.1.1. EL METODE
DELS MINIMS QUADRATS
Donats els punts (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ), suposem que hem elegit una funcio y = f (x/a1 , a2 , . . . , ar ) que volem ajustar a aquest conjunt de punts i en la qual
intervenen r par`ametres (a1 , a2 , . . . , ar ). Considerem el n
uvol de punts corresponent:
Y
f (x/a1 , a2 , . . . , ar ) y = a1 x + a2
yi
} e =y y
i
yi
xi
e2i
i=1
i=1
(yi
yi )2
i=1
64
64
c UJI
Nota 4.2 Observeu que minimitzem la suma de les dist`ancies verticals dels punts
a la funcio que pretenem aproximar, es a dir, les desviacions, al quadrat, dels
valors yi que realment te la variable respecte dels valors yi que ens subministra el
model que volem aproximar. Es considera el quadrat daquesta difer`encia perqu`e les
desviacions, realment, sumen i no es compensen les que es produeixen per defecte
amb les que es produeixen per exces.
La teoria de lan`alisi matem`atica ens diu que la condicio necess`aria per a
obtindre el mnim es que les primeres derivades parcials respecte a cada un dels
par`ametres sanullen, es a dir:
(a1 , a2 , . . . , ar )
=0
a1
(a1 , a2 , . . . , ar )
=0
a2
..
(a1 , a2 , . . . , ar )
=0
ar
Resolent aquest sistema, denominat sistema dequacions normals, queden
determinats els par`ametres (a1 , a2 , . . . , ar ), aix com la funcio corresponent.
LINEAL SIMPLE
4.2. MODEL DE REGRESSIO
i=1
e2i
i=1
(yi
yi )2
i=1
(a, b)
= 2
(yi a b xi ) = 0,
i=1
(a, b)
= 2
(yi a b xi ) xi = 0,
b
i=1
65
65
c UJI
a+b
xi =
yi ,
i=1
i=1
i=1
(4.1)
n
n
n
xi + b
x2i =
xi yi .
a
i=1
i=1
i=1
i=1
yi b
i=1
xi a =
1
1
yi b
xi a = y b x.
n i=1
n i=1
(y b x)
y
i=1
xi + b
i=1
xi b x
i=1
xi + b
i=1
x2i
i=1
nx
x2i
xi y i ,
xi y i ,
i=1
x2i
i=1
i=1
i=1
ynx bxnx + b
n
x2i =
x2i ,
i=1
i=1
x2i n x y .
(4.2)
1 2
x x2
n i=1 i
1 2
x xy
n i=1 i
b s2x = sxy
b=
sxy
.
s2x
66
66
c UJI
on:
b=
sxy
s2x
a = y bx
b =
sxy
s2y
a = x b y
xi
5.4
7.2 8.4
yi
6.6
7.2
9.6
Per a calcular la recta de regressio de la despesa dels consumidors (Y ) en funcio de la seua renda (X), construm la taula que apareix a continuacio, a partir de
la qual ens resultar`a mes senzill calcular els par`ametres dels quals depen la recta
de regressio:
67
67
c UJI
Sumes:
xi
yi
x2i
xi yi
5.4
6
7.2
8.4
9
10.2
11.4
12.6
15
16.2
3.6
3.6
4.2
4.8
5.4
6
6.6
7.2
9
9.6
29.16
36
51.84
70.56
81
104.4
129.96
158.76
225
262.44
19.44
21.6
30.24
40.32
48.6
61.2
75.24
90.72
135
155.52
101.4
60
1149.08 677.88
101.4
= 10.14,
10
x=
y=
60
=6
10
s2x =
1149.08
(10.14)2 = 12.0884
10
sxy =
677.88
10.14 6 = 6.948
10
b=
6.948
= 0.5748
12.0884
sxy
(x x)
s2x
X sobre Y : x x =
sxy
(y y)
s2y
Castell
/ Sim - ISBN: 978-84-692-9048-4
Estad
stica./ Ibez
Volum/ Martnez
I - 2009/2010
68
68
Estadstica. Volum I -
cUJI UJI
observats de la funcio (es a dir, a mesura que els residus augmenten) anem perdent
intensitat en la depend`encia.
En aquesta seccio denirem alguns par`ametres que ens donaran una mesura
daquest grau dintensitat en la depend`encia.
Denici
o 4.1 Es deneix la vari`
ancia residual com la mitjana aritm`etica de
tots els residus elevats al quadrat:
n
s2e
1
1
=
(yi yi )2 =
(yi a bxi )2 .
n i=1
n i=1
valors te`orics, es a dir, dels yi . Tenint en compte que la mitjana aritm`etica daquests
es la mateixa que la dels valors observats, es a dir: y = y, la vari`ancia deguda a la
regressio es:
n
s2y =
i pot provar-se que:
1
(y y)2
n i=1 i
69
69
c UJI
Denici
o 4.3 Es deneix el coecient de determinaci
o (R2 ) com:
s2y
R = 2
sy
2
o be, R2 = 1
s2e
.
s2y
s2
s2y
b2 s2x
sxy
s2x x
R = 2 = 2 = b 2 = b 2 = b b .
sy
sy
sy
sy
2
70
sxy
sx sy
2
= rxy
.
70
c UJI
4.2.3. PREDICCIO
Lobjectiu u
ltim de la regressio es la prediccio duna variable per a un valor
determinat de laltra.
La predicci
o de Y per a X = x0 es, simplement, el valor obtingut en la recta
de regressio de Y sobre X en substituir el valor de x per x0 , es a dir: y0 = a + bx0 .
Evidentment, la abilitat daquesta prediccio augmentar`a quan la correlacio entre
les variables ho faca (es a dir, quan R2 augmente).
Exemple 4.2 En lexemple anterior, determina la despesa per a enguany si la renda es de 45.3 milions deuros. Dona una mesura de la bondat de la prediccio. Quin es
el percentatge de variabilitat en la despesa atribuble a la renda dels consumidors?
Soluci
o Ja hem calculat la recta de regressio de la despesa en funcio de la renda:
y = 0.1715 + 0.5748 x.
Com que la renda es mesura en milions deuros, la prediccio de la despesa ser`a:
y(45.3) = 0.1715 + 0.5748 45.3 = 26.21 milions deuros.
Una mesura de la bondat de la prediccio, ens la proporciona el coecient de
correlacio lineal entre ambdues variables:
rxy =
sxy
6.948
=
= 0.9952 .
sx s y
12.0884 4.320
Aix doncs, com que est`a pr`oxim a la unitat, la prediccio es molt able.
El percentatge de variabilitat en la despesa atribuble a la renda dels consumidors, ens el dona el coecient de determinacio:
2
R2 = rxy
= 0.9904.
4.3. REGRESSIO
En aquesta seccio considerarem que estem estudiant p + 1 variables i que el
nostre objectiu es obtindre una funcio que modelitze la relacio de depend`encia duna
daquestes variables (Y ), que anomenarem variable dependent o explicada com
a funcio de les p restants (X1 , . . . , Xp ), que anomenarem variables independents
o explicatives. Els valors de la mostra, ara estaran ordenats de la manera seg
uent:
Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4
71
71
c UJI
y1
y2
yn
X1
x11
x12
x1n
X2
x21
x22
x2n
..
.
..
.
..
.
Xp
xp1
xp2
..
.
xpn
y1
y2
y = ..
.
yn
el vector de valors observats de la variable Y . Per:
b0
b1
b = ..
.
bp
el vector dels par`ametres. Per:
X=
1 x11
1 x12
.. ..
. .
1 x1n
xp1
xp2
v
xpn
la matriu en la qual tots els elements de la primera columna son iguals a 1 i la resta
de columnes contenen els valors observats de les variables explicatives X1 , . . . , Xp .
Finalment, per:
y1
y
2
y = ..
.
yn
Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4
Estadstica. Volum I - 2009/2010
72
c UJI
X1
X2
3.26
3.27
3.19
3.03
3.15
15.2
15.4
15.6
15.9
16.3
3.37
3.26
3.27
3.19
3.03
Soluci
o Utilitzant les dades de la taula construm les
1 15.2
3.26
1 15.4
3.27
,
1 15.6
3.19
X
=
y=
1 15.9
3.03
1 16.3
3.15
matrius seg
uents:
3.37
3.26
3.27
,
3.19
3.03
5
78.4
16.12
X t X = 78.4 1230.06 252.55 ,
16.12 252.55 52.0344
Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4
(X t X)1
73
16354.92 -612.84
-612.84
23.20
=
-2092.26 77.27
-2092.26
77.27 ,
273.15
Estadstica. Volum I - UJI
73
c UJI
15.9
X t y = 249.196 ,
51.2879
19.242664
b = (X t X)1 X t y = -0.6580132 .
-1.7795794
4.3.1. VARIANCIA
RESIDUAL. COEFICIENT DE DETERMINACIO
MULTIPLE
Una mesura de la bondat dajustament, tambe en el cas de la regressio lineal
m
ultiple, es la vari`
ancia residual (s2e ), que en aquest cas ser`a:
n
s2e
1
1
=
(yi yi )2 =
(yi b0 b1 x1i bp xip )2 ,
n i=1
n i=1
1 t
y y bt X t y
n
i te el mateix signicat que en el cas de la regressio lineal simple.
s2e =
s2e
,
s2y
s2y = 0.0076.
Per tant,
R2 = 1
0.00168552944
= 0.77822.
0.0076
74
c UJI
b0 = y b1 x1 b2 x2 ,
b1
b1
on el coecient de determinacio m
ultiple, en aquest cas es:
R 2 = b1
sx1 y
sx y
+ b2 22 .
2
sy
sy
4.4. REGRESSIO
GENERAL
NO LINEAL SIMPLE
4.4.1. MODELS DE REGRESSIO
El model lineal de regressio es el mes senzill, per`o en ocasions el n
uvol de punts
ens pot indicar que no es adequat. Per tant, haurem de recorrer a altres models, es
a dir, a buscar altres funcions que ajusten millor les dades que tenim.
Model potencial: busquem una funcio de regressio de la forma:
y = k xb ,
on k i b son els par`ametres que cal determinar. Aquest model, podem reduir-lo
al cas lineal prenent logaritmes:
ln y = ln k + b ln x.
Si ara fem el canvi de variables z = ln y i t = ln x i posem a = ln k, nomes
hem de calcular la recta de regressio de Z sobre T :
z = a + bt
i despres, una vegada calculats els par`ametres a i b daquesta recta, obtindre
els par`ametres buscats k i b, tenint en compte que:
k = ea
b = b.
Estad
stica./ Ibez
Volum/ Martnez
I - 2009/2010
Castell
/ Sim - ISBN: 978-84-692-9048-4
75 75
cUJI UJI
Estadstica. Volum I -
on c i k son els par`ametres que cal determinar. Aquest model, tambe podem
reduir-lo al cas lineal prenent logaritmes:
ln y = ln c + (ln k) x.
Si ara fem el canvi de variable z = ln y i posem a = ln c i b = ln k, nomes
hem de calcular la recta de regressio de Z sobre X
z = a + bx,
i despres, una vegada calculats els par`ametres a i b daquesta recta, obtindrem
els par`ametres buscats c i k, tenint en compte que:
c = ea
k = eb .
Model parab`
olic: busquem una funcio de regressio de la forma:
y = a + b x + c x2 ,
on a, b i c son els par`ametres que cal determinar.
En aquest cas, utilitzarem el m`etode dels mnims quadrats per a la determinacio dels par`ametres. Considerem:
ei = yi yi = yi a b xi c x2i
i minimitzem:
(a, b, c) =
i=1
e2i
2
=
yi a b xi c x2i .
i=1
(a, b, c)
= 2
yi a b xi c xi = 0
i=1
(a, b, c)
2
= 2
yi a b xi c xi xi = 0
b
i=1
(a, b, c)
2
2
= 2
yi a b xi c xi xi = 0
c
i=1
76
76
c UJI
an + b
xi + c
i=1
x2i
i=1
xi + b
x2i
+c
yi
i=1
x3i
xi y i
n
n
n
n
2
3
4
2
xi =
xi y i
a
xi + b
xi + c
i=1
i=1
i=1
i=1
i=1
i=1
i=1
i=1
s2e
1
=
(yi yi )2
n i=1
s2e
s2y
s2e
s2y
11
14
yi
12
21
25
n
n
n
an + b
xi + c
xi =
yi
i=1
i=1
i=1
n
n
n
n
2
3
a
xi + b
xi + c
xi =
xi y i
i=1
i=1
i=1
i=1
n
n
n
n
2
3
4
2
a
xi + b
xi + c
xi =
xi y i
i=1
i=1
i=1
i=1
77
77
c UJI
Sumes:
x2i
xi
x3i
x4i
y i xi
yi x2i
4 2
7 5
12 8
21 11
25 14
4
8
16
25 125
625
64 512 4096
121 1331 14641
196 2744 38416
8
35
96
231
350
16
175
768
2541
4900
69 40
720
8400
5 a + 40 b + 410 c = 69
b = 1.1105,
c = 0.048,
yi
xi
ei = yi yi
e2i
yi2
3.459
7.782
12.969
19.020
25.935
0.541
-0.782
-0.969
1.980
-0.935
0.292681
0.611524
0.938961
3.920400
0.874225
16
49
144
441
625
4 2
7 5
12 8
21 11
25 14
69
6.637791 1275
1.327
R= 1
= 0.9897 abilitat del 98.97 % .
64.56
y=
78
78
c UJI
40
80
120
200
350
4720
2615
1870
945
450
a) Representa gr`acament les dades i comprovar que existeix una relacio lineal entre el nombre dhabitacions ocupades i el preu per habitacio.
b) Troba lequacio de la recta de regressio. Quantes habitacions socuparien
a 275 e?
c) En quina mesura podem considerar que el nivell docupacio depen de
lestructura dels preus?
2 1 0
4
yi
3
7
13
16
21
1
6
11
24
36
79
79
c UJI
Diputats elegits
12
18
27
33
51
3
4
4
6
8
SOLUCIONS
(1)
a) Es representa el n
uvol de punts
b) y = 3976.5 11.75 x, y(275) 745 habitacions
c) rxy = 0.86. Aix tenim un 86 % de abilitat
(2)
(3)
a) y = 0.93 (1.21)x
b) R = 0.83
(4)
a) 9 diputats
b) La prediccio es molt able, ja que rxy = 0.96
c) 7.3 %
(5) x = 4 0.5 y
80
80
c UJI
TEMA 5
NOMBRES INDEXS
5.1. INTRODUCCIO
En moltes ocasions les variables socioecon`omiques com el volum dimportacions,
el nombre de vendes duna empresa, o el valor del PIB, varien amb el temps i pot
apareixer la necessitat de fer comparacions en funcio de les dites variables per a
diferents temps, tant per separat, com en grups o conjunts de les variables. En
aquest tema tractarem el problema de la comparacio duna s`erie dobservacions
respecte a una situacio inicial xada arbitr`ariament. Les mesures estadstiques que
descriuen aquests canvis son els nombres ndexs.
Els exemples de nombres ndexs son molt abundants: a mes dels mes coneguts,
com poden ser lndex de preus de consum (consulteu la p`agina web de lInstitut
Nacional dEstadstica: http://www.ine.es/) o els indicadors de la borsa, nexisteixen daltres, menys coneguts popularment, per`o que tenen una gran inu`encia
en leconomia mundial. En citarem dos, i indicarem algunes p`agines web on sen
pot ampliar la informacio. Per`o es necessari advertir que per a consultes posteriors
a la publicacio daquest text es convenient actualitzar les dates.
Index de Conanca de Mercats Emergents
Poden consultar-se, per exemple, les p`agines web:
http://www.iberglobal.com/Newsletter/alerta geo abril 2006.htm
http://www.iberglobal.com/Newsletter/alerta geo abril 2007.htm
http://economy.blogs.ie.edu/archives/2007/01/indice de con.php
http://www.cincodias.com/ (buscar notcies sobre dit ndex)
http://www.agendadeprensa.com/informes/ico enero08.pdf
A continuacio, formalitzarem el concepte de nombre ndex:
Denici
o 5.1 Nombre ndex es aquella mesura estadstica que ens permet estudiar els canvis que es produeixen en una magnitud simple o complexa respecte
al temps.
Anomenarem perode base o perode de refer`
encia el perode inicial, i la
situacio que volem comparar, lanomenarem perode actual o perode corrent.
81
c UJI
Els nombres ndexs poden ser: simples, si nomes comparem una variable, o
complexos, si comparem un grup de variables. Aquests u
ltims poden ser: ponderats o sense ponderar.
5.2. INDEXS SIMPLES I COMPLEXOS
5.2.1. INDEXS SIMPLES
Denici
o 5.2 Siga X una variable i siguen x0 i xt els valors de la dita variable
mesurats en els perodes base i actual, respectivament. El nombre ndex simple
I per a la magnitud citada es deneix com el quocient entre ambdos valors:
xt
I = I0t =
.
x0
a dir:
Es
xt
actual
= actual .
I = Ittbase
xtbase
El nombre ndex simple I mesura en tant per u la variacio que ha experimentat
la magnitud X entre els perodes considerats. De vegades es multipliquen per 100
i expressen percentatges.
I > 1 (o 100) augment,
Exemple 5.1 Donats els preus de dos articles A i B per la taula seg
uent:
Anys
Preus
Article A
Article B
10
12
15
20
25
28
1994
1995
1996
Anys
Article A
Article B
1
1.2
1.5
1
1.25
1.4
1994
1995
1996
on els valors dels ndexs shan obtingut aplicant la denicio. Per exemple, per a
larticle A:
12
15
I095 =
= 1.2, I096 =
= 1.5.
10
10
82
82
c UJI
pt
.
p0
pt q t
.
p 0 q0
Aix, el valor relatiu dun be es igual al producte del seu preu relatiu per la
seua quantitat relativa, es a dir:
V0t = pt0 q0t ,
ja que:
V0t =
pt q t
p t qt
=
= pt0 q0t .
p0 q 0
p 0 q0
Anys
Article A
Article B
1.2
1.25
1.25
1.12
1994
1995
1996
83
83
c UJI
15
= 1.25.
12
Per a resumir la informacio obtinguda a traves dels ndexs simples, el mes l`ogic
es calcula dalguna forma la mitjana daquests. Segons el tipus de mitjana que
sutilitze, apareixen els diferents nombres ndexs complexos.
Considerem les variables X1 , X2 , . . . , XN que fan prendre els valors:
Perode actual Indexs simples
Variable
Perode base
X1
x10
x1t
I1 =
..
.
Xi
..
.
XN
..
.
xi0
..
.
xN 0
..
.
xit
..
.
xN t
..
.
xit
Ii =
xi0
..
.
xN t
IN =
xN 0
x1t
x10
A partir de la taula i prenent els ndexs simples, podem denir els seg
uents
ndexs complexos no ponderats. Per ordre dimport`ancia, considerarem:
Index mitjana aritm`
etica dndexs simples: consisteix a calcular la mitjana aritm`etica simple dels ndexs de totes les variables:
N
1
I=
Ii .
N i=1
84
84
c UJI
Index mitjana agregativa: quan les mitjanes en qu`e estan expressades les
variables siguen homog`enies, es poden comparar les mitjanes dels valors de
les variables en cada perode (base i actual):
IA =
xit
i=1
.
xi0
i=1
N
IG =
Ii .
i=1
N
.
N
1
Ii
i=1
Exemple 5.3 Donada la produccio de tres tipus de ctrics expressades en milions de quilograms, calculeu-ne els ndexs complexos, mitjana aritm`etica i mitjana
agregativa amb base en 1994.
Anys
Taronges Mandarines
1994
1995
1996
450
400
425
200
180
220
Pomelos
120
98
150
Soluci
o:
Indexs simples
Taronges Mandarines
100
88.89
94.44
100
90
110
xit
IA
Pomelos
I. C.
Total ctrics
I. C.
100
81.67
125
100
86.85
109.81
770
678
795
100
88.05
103.25
85
85
c UJI
pit
.
pi0
pit
i=1
BDp = N
.
pi0
i=1
qit
.
qi0
qit
i=1
BDq = N
.
qi0
i=1
NOMBRES
INDEXS COMPLEXOS PONDERATS
I =
i Ii
i=1
N
.
i
i=1
86
86
c UJI
IA
i=1
N
xit i
.
xi0 i
i=1
i
IG =
Iii .
i=1
IH
i=1
N
i=1
i
.
i
Ii
it
pi0 qi0
pit qi0
i=1 pi0
i=1
Lp =
= N
.
N
pi0 qi0
pi0 qi0
i=1
i=1
it
pi0 qit
pit qit
i=1 pi0
i=1
Pp =
= N
.
N
pi0 qit
pi0 qit
i=1
i=1
87
87
c UJI
Ep =
i=1
N
.
pi0 (qi0 + qit )
i=1
Lp Pp .
Fp =
Lq =
pi0 qit
i=1
N
pi0 qi0
pit qit
i=1
Pq =
i=1
N
i=1
pit qi0
Eq =
i=1
N
i=1
Lq P q .
88
88
c UJI
Exemple 5.4 Donats els preus i les quantitats de tres articles de consum des de
1990 ns a 1994, calculeu els ndexs complexos ponderats de preus de Laspeyres i
Paasche prenent com a base 1990.
Soluci
o:
Anys
Article A
Article B
Article C
P. C.
P. C.
P. C.
2
3
2
4
5
3
4
5
7
8
1
2
2
4
5
1990
1991
1992
1993
1994
8
7
10
12
11
5
6
6
7
8
3
3
5
8
10
Indexs
Lp
Pp
100
147.06
138.23
232.35
279.41
100
145.71
139.53
243.40
302.78
38+45+23
50
28+55+23
47
=
= 1.1405, L92
=
= 1.3823,
90 =
28+35+13
34
28+35+13
34
91
P90
=
37+46+23
51
2 10 + 5 6 + 2 5
60
92
=
= 1.4571, P90
=
= 1.3953 .
=
27+36+13
35
2 10 + 3 6 + 1 5
43
89
89
c UJI
xt
k xt
=
= k I.
x0
x0
Pp
i=1
N
i=1
pit qit
pi0 qit
k pit qit
i=1
N
i=1
=k
pi0 qit
i=1
N
i=1
pit qit
= k Pp .
pi0 qit
90
90
c UJI
Perode de temps pres com a base: sen sol elegir un de no allunyat excessivament del perode corrent, o lndex perdr`a representativitat, es quedar`a
obsolet. Per aix`o cal renovar peri`odicament la informacio relativa a lany base.
Renovaci
o de lndex: canvi de base i enllac:
En els ndexs simples el canvi del perode pres com a base es fa per la
propietat circular, igualant a 1 (o 100) el valor, preu o quantitat del nou
any base. Si representem per h el nou perode base:
Iht =
1
I0t ,
h
I0
t.
1
It,
I0h 0
t < h.
Exemple 5.6 Suposem que per a un conjunt de bens tenim les dades seg
uents:
Anys
pit qi0
1980
1981
1982
1983
1984
1985
1986
5
5.5
6
6.5
pit qi0
8
9
10
10.5
Calcula els ndexs de preus de Laspeyres corresponents sobre la base dels anys 1980
i 1983. Calcula tambe els ndexs de preus dels perodes 80, 81 i 82 sobre la base de
lany 1983.
91
91
c UJI
Soluci
o:
Els ndexs de preus de Laspeyres son:
L80
80 =
5
5.5
6
= 100 %, L81
= 110 %, L82
= 120 %,
80 =
80 =
5
5
5
L83
82 =
8
9
10
10.5
= 100 %, L84
= 112.5 %, L85
= 125 %, L86
= 131.25 %,
83 =
83 =
83 =
8
8
8
8
L83
80 =
6.5
= 130 %,
5
i els ndexs de preus dels perodes 80, 81 i 82 sobre la base de lany 1983:
L80
83 =
L80
100 %
80
=
= 76.9 %,
83
L80
130 %
81
80
L81
83 = L80 L83 = 110 % 76.9 % = 84.6 %,
82
80
L82
83 = L80 L83 = 120 % 76.9 % = 92.3 %.
5.5. DEFLACIO
Una de les aplicacions mes importants dels nombres ndexs es la possibilitat de
ben
provocar deacio en les s`eries (de preus, de valors, de rendes, de sous, etc.). Es
conegut de tots que el poder adquisitiu dels diners varia amb el temps. El fenomen
es coneix com a inaci
o.
Anomenarem preus constants els preus que regeixen un determinat perode
x, i preus corrents els preus que regeixen al llarg de diversos perodes.
Si es te una variable en moneda corrent de cada any (euros, d`olars, etc.) difcilment sen pot analitzar el creixement o el decreixement real. El mateix ocorreria si es desitja establir comparacions amb altres variables expressades en unitats
monet`aries distintes. Ac`o es degut que lactivitat econ`omica te un fort component monetari, per la qual cosa les variacions que reecteixen les s`eries, a mes de
tindre increments o decrements reals, estan inudes per efectes monetaris molt
importants que cal eliminar si es preten estudiar levolucio en termes reals duna
economia.
Loperacio de convertir les s`eries monet`aries en valors reals (constants) sanomena deaci
o. Per a expressar una s`erie donada en diners corrents, en diners constants dun any T, cal dividir la s`erie primitiva entre els ndexs de preus adequats
xt
(eliminem la inu`encia dels preus), prenent com a base lany T , es a dir: t .
IT
Nota 5.1 Lndex ha destar expressat en tant per u, i si ho necessitem, podem
1
utilitzar la relacio ITt = T .
It
Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4
92
92
c UJI
Si volem obtindre una formula de f`acil aplicacio, en aquests casos, podem denir
les variables seg
uents:
xt = quantitat amb valor en diners de lany t,
xT = quantitat xt amb valor en diners corrents de lany T .
Aix obtenim:
xT =
xt
ITt
xT = xt ItT .
Exemple 5.7 La mitjana dels sous que una empresa ha pagat mensualment als
empleats, durant els anys que sindiquen en la taula, ha sigut:
Any
1982
1983
1984
1985
1986
1987
98735
113940
131373
147663
162282
178834
98735
101641.39
105266.83
108735.64
109872.71
114931.88
1982
1983
1984
1985
1986
1987
463.3
519.4
578.1
629.0
684.4
720.7
93
93
c UJI
Soluci
o:
Any
t
IPC (base 1982) Ih=T
1982
1983
1984
1985
1986
1987
463.3
519.4
578.1
629.0
684.4
720.7
463.3:463.3=1.00
519.4:463.3=1.121
578.1:463.3=1.248
629.0:463.3=1.358
684.4:463.3=1.477
720.7:463.3=1.556
i usant aquesta taula per a provocar deacio en els sous resulta que:
Any
1982
1983
1984
1985
1986
1987
98735:1.00=98735
113940:1.121=101641
131373:1.248=105267
147663:1.358=108736
162282:1.477=109873
178834:1.556=114932
94
94
c UJI
en la majoria dels pasos, i en particular a Espanya, es lndex de Laspeyres encadenat amb actualitzacio de ponderacions anuals. Aquesta actualitzacio anual te els
avantatges seg
uents:
LIPC sadapta als canvis del mercat i dels h`abits de consum en un termini
molt breu de temps.
En lIPC es poden incloure nous bens o serveis quan apareixen en el mercat,
aix com eliminar els que es consideren poc signicatius.
Es calculen dotze ndexs independents, per a dotze grups de bens i serveis de
consum en qu`e sestructura el cistell de consum: aliments i begudes no alcoh`oliques,
begudes alcoh`oliques i tabac, vestit i calcat, habitatge, parament, medicina, transport, comunicacions, cultura i oci, ensenyament, hotels, cafes i resturants, altres
bens i serveis.
A lndex poden desagregar-se tantes variables com es vulga. LINE elabora
aquest ndex a escala general o global, per a comunitats aut`onomes, per a capitals
de provncia, per a nuclis urbans i per a `arees rurals.
Com que es obvi que en lestudi no poden incloures totes les famlies, shi pren
un conjunt de la forma mes `amplia possible i representativa, anomenat estrat de
ref`
erencia.
5.6.2. ALTRES INDEXS
Index de preus de consum harmonitzat (IPCA): es un indicador estadstic que proporciona una mesura comuna de la inacio entre els pasos de
la Unio Europea. En la p`agina web de lINE en podem trobar la metodologia
i els resultats detallats.
Indexs implcits de preus: mesuren levolucio dels preus i es deriven de la
Comptabilitat Nacional (valors del producte nacional, despeses de consum i
inversio, estalvi, etc.). Aquests valors contenen, implcitament, les variacions
en els preus de les magnituds macroecon`omiques. Els ndexs que shi calculen
son ndexs de preus de Paasche. Susen tambe per a la deacio de s`eries de
valors.
Indexs de producci
o industrial: hi ha dues s`eries dndexs de produccio industrial de periodicitat mensual: luna recull les variacions de loferta
industrial dins de la majoria de les branques de lactivitat industrial i laltra
especica les variacions en la produccio de bens dequipament.
Indexs de preus industrials: mesuren levolucio dels preus dels bens dequipament. Susen per a provocar deacio en les s`eries de valors industrials.
Indexs de preus agrcoles: selaboren dos ndexs, lndex de preus pagats (pels bens i serveis que es necessiten) i lndex de preus percebuts. La
s`erie formada pel quocient daquests ndexs sanomena relaci
o de paritat i
mostra les variacions del poder adquisitiu del sector agrcola.
95
95
c UJI
Indexs de lactivitat comercial: selaboren ndexs que reecteixen levolucio del comerc interior del pas, com ara els ndexs de vendes de preus
al detall i de lengr`
os. El comportament del comerc exterior sestudia amb
els ndexs de preus i de quantitats dexportacions i importacions. El
quocient entre lndex de preus dimportacions i exportacions rep el nom de
relaci
o real dintercanvi i permet coneixer levolucio del poder de compra
dun pas davant de lestranger.
Indexs dactivitat nancera: selabora una gran quantitat dndexs: ndexs de cotitzacions de borsa, ndexs de fons dinversi
o, etc. Generalment sutilitza lndex mitjana aritm`etica ponderat, on les ponderacions
son el volum de contractacio negociat de cada ttol en lany base.
Madrid Barcelona
Bilbao
Val`encia
1972
1973
1974
1975
1976
1977
67993
100049
113385
102500
131180
74279
12179
19782
21198
23582
14350
16724
2817
3865
6892
6837
4775
7839
28878
43360
40685
31116
35426
17253
1982
1983
1984
1985
1986
1987
1982
1984
1985
1986
1987
1983
96
96
c UJI
2006
Producte
Preu
Quantitat
Preu
Quantitat
E1
E2
E3
20
7
12
800
1500
200
32
11
14
1400
600
500
2006
Producte
Preu
Quantitat
Preu
Quantitat
C1
C2
C3
C4
4
10
11
8
200
100
50
320
5
9
15
10
410
300
100
150
Calcula:
a) Els ndexs de preus de Laspeyres i Paasche per a lexportacio i per a la
importacio sobre la base de lany 2000.
b) Els corresponents ndexs de quantitats.
c) La rao real dintercanvi.
(5) El propietari dun apartament te pactat, en 2002, un lloguer amb el seu
inquil de 300 e mensuals. Es vol revisar el lloguer sobre la base de lIPC
grup habitatge. Quant caldr`a que pague en els anys 2003, 2004 i 2005?
Anys
IPC grup habitatge (base 2001)
2002
2003
2004
2005
97
97
c UJI
SOLUCIONS
(1)
a)
Anys
Madrid
Barcelona
Bilbao
Val`encia
1972
1973
1974
1975
1976
1977
1
1.47
1.67
1.51
1.93
1.09
1
1.50
1.41
1.08
1.23
0.60
1
1.62
1.74
1.94
1.18
1.37
1
1.37
2.45
2.43
1.70
2.78
74
77
b) Sp 73
72 = 1.49, Sp 72 = 1.82, Sp 74 = 0.75, ....
BD73 = 1.493, BD74 = 1.628 ....
(2)
Anys
1982
1983
1984
1985
1986
1977
1700470
1631843
1611721
1581376
1515113
1618640
83
85
(3) I81
= 1.0526, I81
= 1.315
(4)
(5) Caldr`a que pague 308.68 e en 2003, 319.45 e en 2004, i 336.44 e en 2005.
98
98
c UJI
TEMA 6
`
SERIES
TEMPORALS
6.1. INTRODUCCIO
Una s`
erie temporal consisteix, tpicament, en un conjunt dobservacions duna
variable Y , preses al llarg del temps en intervals regulars (cada dia, cada mes, etc.),
i es, per tant, un conjunt de dades de la forma:
{yt : t = 1, 2, , n}
en el qual el subndex t indica el temps en qu`e la dada yt va ser observada.
El seu estudi permet analitzar levolucio que en el transcurs del temps ha experimentat la variable, tant per a descriuren les propietats com per a caracteritzarne els trets principals i poder predir-ne els valors futurs. Aquesta descripcio pot
consistir en mesures descriptives i representacions gr`aques.
Normalment, en problemes destadstica b`
asica, les observacions son m
utuament independents, per`o en estudiar variables mesurades en el temps, les observacions son clarament no independents. Cadascuna tendeix a un valor que est`a
mes prop al de les observacions mes pr`oximes que al de les mes allunyades. Aquest
tipus de comportament sanomena correlaci
o serial.
Exemple 6.1 Xifres ocials de poblacio espanyola des de 1997 ns a 2007, segons
la revisio anual del padro municipal de l1 de gener de cada any.
Any
Poblacio
Any
Poblacio
1997
1998
1999
2000
2001
2002
39669394
39852651
40202160
40499791
41116842
41837894
2003
2004
2005
2006
2007
42717064
43197684
44108530
44708964
45200737
99
c UJI
Any
2002
2003
2004
2005
2006
1.616
1.424
1.483
1.433
1.450
1.463
1.555
1.406
1.434
1.492
1.497
1.552
1.691
1.570
1.554
1.438
1.499
1.596
1.695
1.589
1.542
1.585
1.587
1.691
1.711
1.640
1.732
1.544
1.566
1.634
1.746
1.619
1.640
1.617
1.694
1.770
1.880
1.762
1.782
1.614
1.631
1.740
1.829
1.676
1.664
1.645
1.743
1.899
1.964
1.782
1.842
1.579
1.720
1.759
1.942
1.750
1.765
1.731
1.730
1.920
Mes
Gener
Febrer
Marc
Abril
Maig
Juny
Juliol
Agost
Setembre
Octubre
Novembre
Desembre
GRAFICA
`
6.2. REPRESENTACIO
Tota an`alisi duna s`erie temporal ha diniciar-se amb una representacio gr`aca
daquesta; en leix dabscisses cal posar el temps i en el dordenades, els valors de
la s`erie. Ac`o ens permet detectar les caracterstiques mes importants del fenomen,
com ara el moviment a llarg termini, lamplitud de les oscillacions, la possible
exist`encia de cicles, les ruptures, els valors an`omals, etc.
Mirem els gr`acs de les s`eries temporals que hem vist en els exemples.
Exemple 6.3 Xifres de poblacio. Vegeu la gura 6.1.
Exemple 6.4 Consum delectricitat. Vegeu la gura 6.2.
`
6.3. CARACTERISTIQUES DUNA SERIE
TEMPORAL
Una de les formes mes senzilles danalitzar una s`erie temporal es descompondrela en una suma de quatre sumands:
yt = mt + st + ct + ut
on mt rep el nom de tend`
encia i recull el component de la s`erie que representa
levolucio a llarg termini de la s`erie; st representa un component estacional x,
per exemple aquelles oscillacions duna s`erie temporal que es completen dins dun
any (o un perode inferior a un any); ct representa el component cclic x, per
exemple les oscillacions que es produeixen en un perode superior a un any i que
es deuen principalment a lalternanca detapes de prosperitat i de depressio en
lactivitat econ`omica. Per a acabar, ut recull la variaci
o residual i representaria
la part aleat`oria, la deguda a latzar. El component cclic es molt difcil dobtindre
i es necessita una s`erie temporal molt llarga per a poder separar-lo de la resta.
100
100
Nota 6.1 En lexemple 6.1 observem que nomes hi ha tend`encia; en lexemple 6.2
podem veure tend`encia i estacionalitat.
4.5107
Poblacio
4.4107
4.3107
4.2107
4.1107
4.0107
1997
1999
2001
2003
2005
2007
Any
Figura 6.1: Xifres de poblacio a Espanya des de 1997 ns 2007
Consum delectricitat
1.9
1.8
1.7
1.6
1.5
1.4
2002
2003
2004
2005
2006
2007
Any
101
101
c UJI
`
`
6.4. ANALISI
DE LA TENDENCIA
En aquest apartat estudiem procediments per a allar la tend`encia i les variacions estacionals. Es pot fer amb dos objectius diferents: estimacio de la tend`encia
amb objecte de coneixer quines son les pautes de comportament al llarg del temps
de la variable objecte destudi, o per a la prediccio de valors futurs. Existeixen
molts m`etodes, entre els quals nestudiarem u
nicament dos: un de global i un altre
de local.
`
6.4.1. ANALISI
SENSE COMPONENT ESTACIONAL
Suposem que tenim una s`erie temporal que podem descompondre com:
y t = mt + u t
No tenim ni component estacional, ni component cclic. A continuacio, veurem
com calcular la tend`encia en aquest cas.
`
POLINOMICA
`
METODE
DE REGRESSIO
t=1
j=0
(yt mt )2 .
Nota 6.2 Recordem que en el tema 4 tambe vam veure que prenent logaritmes en
la s`erie podem usar una regressio lineal per a estimar una tend`encia exponencial.
El gran avantatge que representa aquest m`etode es que podem donar-hi una
mesura de la bondat calculant el coecient de determinacio i interpretant-lo de la
manera ja coneguda.
Exemple 6.5 Ajustament de la tend`encia de les dades de la poblacio espanyola
en el perode 1996-2007:
mt = 1.25824 1011 1.26241 108 t + 31675 t2 .
`
`
METODE
DE MITJANES MOBILS
1
xt+j
mt =
2p + 1 j=p
102
102
c UJI
Nota 6.3 Observeu que el valor de mt est`a indenit prop del principi i del nal
de la s`erie. Una forma de completar aquesta denicio, per als valors extrems, es
deixar que la suma vaja des de m`ax(p, 1 t) ns a mn(p, n t) i dividir entre el
nombre dels sumands corresponents.
Exemple 6.6 Calculem les mitjanes m`obils dordre 5 (p = 2) amb les dades de
lexemple 6.1.
Any
Tend`encia (mt )
Any
Tend`encia (mt )
1997
1998
1999
2000
2001
2002
39908068
40055999
40268168
40701868
41274750
41873855
2003
2004
2005
2006
2007
42595603
43314027
43986596
44303979
44672744
4.4107
Poblacio
4.3107
4.2107
4.1107
4.0107
1998
2000
2002
2004
2006
Any
Figura 6.3: S`erie de poblacio despres dhaver-hi aplicat el m`etode de les mitjanes
m`obils
Castell / Ibez / Martnez / Sim - ISBN: 978-84-692-9048-4
103
103
c UJI
`
6.4.2. ANALISI
AMB COMPONENT ESTACIONAL
Els m`etodes utilitzats per a eliminar la tend`encia poden adaptar-se duna forma
natural quan necessitem eliminar tant la tend`encia com lestacionalitat, es a dir,
quan tenim:
y t = m t + st + u t .
Nota 6.4 Observeu que, per la denicio de component estacional, existeix un d
(perode que tarda a completar-se una oscillacio) de tal manera que st = st+d i
d
`
`
METODE
DE LES MESURES MENSUALS (TENDENCIA
LINEAL)
yjanual
on N =
yj1)d+k
k=1
j = 1, . . . , N
n
es el nombre de perodes o anys, i hi ajustem una recta
d
yjanual = a + bj
k = 1, . . . , d .
b(k 1)
d
k = 1, . . . , d .
sk = yk
1
y .
d k=1 k
104
104
c UJI
2002 (1)
2003 (2)
2004 (3)
2005 (4)
2006 (5)
Mitjana
1.48
1.59
1.66
1.74
1.79
Gener
Mitjana
1.77
Mes
Agost
Mitjana
1.61
1.68
1.52
Setembre Octubre
1.61
Maig
Juny Juliol
1.57
1.64
1.75
Novembre Desembre
1.61
1.65
1.77
Gener
Mitjana
1.77
Mes
Agost
Mitjana
1.56
1.66
1.50
Setembre Octubre
1.56
Maig
Juny Juliol
1.54
1.60
1.71
Novembre Desembre
1.55
1.58
1.69
Gener
Component
0.15
Mes
Agost
Component
-0.05
-0.11
Setembre Octubre
-0.06
0.05
-0.06
105
105
Maig
Juny Juliol
-0.07
-0.01
0.09
Novembre Desembre
-0.03
0.08
c UJI
Component estacional
0.15
0.10
0.05
0.00
-0.05
-0.10
2002
2003
2004
2005
2006
2007
Any
`
`
METODE
DE LES MITJANES MOBILS
(1) Es tracta, en primer lloc, daplicar una mitjana m`obil per a suavitzar la
tend`encia (prenem tots els valors i mitjanem), distingint si el perode es parell
o imparell. Aix doncs:
q
1
a) Si d = 2q + 1 m
t =
yt+j .
d j=q
q1
1
b) Si d = 2q m
t = (0.5 ytq +
yt+j + 0.5 yt+q ) q < t n q .
d
j=q+1
1
(0.5 xt6 + xt5 + + xt+5 + 0.5 xt+6 ).
12
106
c UJI
Com que aquestes mitjanes no sumen zero, estimem el component estacional com:
d
1
sk = wk
wi ,
k = 1, . . . , d
d i=1
que ja sumen 0.
Gener
Component
0.15
Mes
0.05
-0.13
Component
-0.03
-0.05
Maig
Juny Juliol
-0.08
-0.01
0.07
Novembre Desembre
-0.05
-0.01
0.07
Component estacional
0.15
0.10
0.05
0.00
-0.05
-0.10
2002
2003
2004
2005
2006
2007
Any
107
107
c UJI
2500
3400
3800
4200
4700
5200
5500
6000
10
11
12
13
14
15
6500
6200
7500
8200
9000
9300
9000
108
108
c UJI
(4) Shan recollit dades de levolucio de les despeses en vestit i en calcat per
persona i dia durant els anys 2005, 2006 i 2007:
Any 2005 2006 2007
Trimestre
1r
2n
3r
4t
8
11
6
16
9
14
8
18
11
16
9
19
Gener
Febrer
Marc
Abril
Maig
Juny
2004
2005
2006
2007
47424
49220
50808
51067
46820
47225
50012
49175
50148
49305
52291
54683
45446
52144
48557
49288
50141
52769
53890
53762
49013
50978
51260
50565
Anys
Juliol
Agost
Set.
Oct.
Nov.
Des.
2004
2005
2006
2007
45578
46700
49034
48489
35083
37162
38196
35856
47275
48535
48593
46582
51468
52693
55246
53909
50495
51913
52961
51133
45820
48215
48000
45980
109
109
c UJI
(a)
(b)
(c)
(d)
(e)
110
110
c UJI
Figura 6.7: S`erie temporal del problema 5. Milers de viatgers (per mesos) que utilitzen el tren per als trajectes interurbans
SOLUCIONS
(1)
a) Variacio residual
b) Tend`encia
c) Component estacional
d ) Component cclic
(2)
a) Tend`encia
b) Component estacional
c) Tend`encia i estacionalitat
d ) Variacio residual
e) Tend`encia, estacionalitat i un componente cclic de 2 anys de duracio
(3)
(4)
111
111
(5)
Component
estacional
Gener
Febrer
Marc
Abril
Maig
Juny
Juliol
Agost
Setembre
Octubre
Novembre
Desembre
1087.63
524.54
2763.35
642.41
4076.98
1526.56
1640.54
12014.18
789.20
4095.78
2646.13
1870.38
c) yt = 47292.81 + 60.25 t
112
112
c UJI
BIBLIOGRAFIA
[1] Calot, G., Curso de Estadstica Descriptiva, Paraninfo, 1988.
[2] Canavos, G. C., Probabilidad y Estadstica, McGraw-Hill, 1988.
[3] Dura, J. M. y Lopez, J. M., Fundamentos de Estadstica, Ariel, 1992.
[4] Escuder Valles, R., Metodos Estadsticos Aplicados a la Economa, Ariel, 1987.
[5] Garca Barbancho, A., Estadstica Elemental Moderna, Ariel, 1992.
[6] Lopez de la Manzanera, J., Problemas de Estadstica, Piramide, 1989.
[7] Martn Guzman, P. y Martn-Pliego J., Curso Basico de Estadstica Econ
omica, A.C., 1993.
[8] Martn Pliego, F. J., Curso practico de estadstica econ
omica, A.C., 1987.
[9] Martn Pliego, F. J., Introducci
on a la Estadstica Econ
omica y Empresarial,
A.C., 1994.
[10] Mendenhall, W. y Reinmuth, J., Estadstica para Administraci
on y Economa,
Grupo Editorial Iberoamerica, 1981.
[11] Montiel, A. M., Rius, F. y Baron, F. J., Elementos Basicos de Estadstica
Econ
omica y Empresarial, Prentice Hall, 1997.
[12] Murgui, J. S., Aybar, C., Casino, A., Colom, C., Cruz, M. y Yag
ue, R., Estadstica para Economa y Administraci
on de Empresas: Aplicaciones y Ejercicios, Puchardes, 1992.
[13] Newbold, P., Estadstica para los negocios y la Economa, Prentice Hall, 1997.
[14] Pe
na, D., Estadstica: modelos y metodos, Vol. 1 (Fundamentos), Alianza Universidad, 1991.
[15] Spiegel, M. R., Estadstica, McGraw Hill, 1997.
[16] Tomeo Perucha, V. y U
na Juarez, I., Lecciones de Estadstica Descriptiva.
Curso teorico-pr
actico, Thomson, 2003.
113
113
c UJI