You are on page 1of 95

ESTADÍSTICA I

PROBABILITAT

Tema 8: Estadística

1
2
 L'estadística és la part de les
matemàtiques relacionada amb la
recopilació, anàlisi, interpretació i
representació de dades.

Tema 8: Estadística Descriptiva 3


8.1 Conceptes
 POBLACIÓ és el conjunt d'individus, amb alguna
característica comuna, sobre el qual es fa un estudi
estadístic.
 MOSTRA és un subconjunt de la població,
seleccionada de manera que posi de manifest les
característiques d'aquesta, i per això la propietat
més important de les mostres és la seva
representativitat.
 El procés seguit en l'extracció de la mostra
s'anomena mostreig.

4
 La característica que s'estudia en una població és la
variable estadística.
 Classificació:
 Les variables qualitatives són les que no apareixen de
forma numèrica, sinó com a una categoria o atribut.
 Les variables quantitatives són les que poden expressar-se
numèricament, i poden ser:
 Quantitatives discretes, si només poden prendre un nombre finit de
valors (valors aïllats)
 Quantitatives contínues quan poden prendre qualsevol valor d'un
interval.

5
 ESTADÍSTICA DESCRIPTIVA

Tracta d’estudiar i analitzar alguns caràcters dels individus


sense extreure’n conclusions per a un grup més gran.

1. Selecció de caràcters a estudiar


2. Recollida de les dades
3. Classificació i organització en taules dels resultats obtinguts.
Si cal, es fan representacions gràfiques.
4. Càlcul de paràmetres estadístics

6
 ESTADÍSTICA INFERENCIAL
Treballa amb mostres però pretén prendre com
a generals dades que només s’han verificat per
a una mostra.

Serà per tant molt important com s’ha fet el


mostreig i mesurar el grau de confiança del
resultat obtingut.

7
8.2 GRÀFIQUES ESTADÍSTIQUES
 Gràfiques en variables qualitatives.
El diagrama de sectors és el més indicat per a aquest
tipus d'informació. El percentatge de dades de cada
valor en una mostra es correspon amb el mateix
percentatge de sector d'un cercle.

8
 Gràfiques en variables discretes.
Diagrama de barres

9
 Gràfiques en variables contínues.
Histograma. Les dades es representen per rectangles
la base dels quals és l'amplitud de l'interval representat
i amb l'altura que ens indica la freqüència absoluta, si
tots els intervals són de la mateixa amplitud. Si no és
el cas, les altures es calculen de manera que les àrees
siguin proporcionals a les freqüències absolutes.
Polígon de freqüències. Unirem els centres de part
superior de tots els rectangles per obtenir-lo.

10
11
8.3 TAULES DE FREQÜÈNCIES
 TAULES AMB DADES AÏLLADES
xi Fi fri %i
0 3
1 2
2 5
3 12
4 18
5 20
6 16
7 12
8 6
9 6
10 4
12
TOTALS
 S’estudia d’una mostra de 35 treballadors de l’empresa
COFISA el nombre de dies de treball perdut per malaltia
durant el 1r. trimestre de l’any 2013:
Dies perduts per malaltia I trimestre de l’any 2006

2 1 0 1 1 3 0
0 2 7 5 0 1 3
0 0 4 1 2 4 0
5 3 0 6 0 4 0
2 6 2 3 0 1 1

 Construeix la taula de freqüències completa


 Representa amb un diagrama de barres

13
 TAULES AMB DADES AGRUPADES EN
INTERVALS
 Es localitzen els extrems a i b i es calcula la
diferència r = b – a
 Es fixa el nombre d’intervals (no ha de ser
inferior a 5 ni superior a 15)
 Es troba el primer múltiple del nombre
d’intervals que supera a r, per aconseguir
amplituds d’interval fàcils.
14
 Es formen els intervals de forma que l’extrem
inferior del primer interval sigui una mica més
petit que a i l’extrem superior de l’últim sigui
una mica superior a b.
 El punt mitjà serà la marca de classe i serà el
valor que representarà a tot l’interval quan
calculem paràmetres més endavant.

15
 Els 40 alumnes d’una classe han obtingut les següents
puntuacions, sobre 50, en un examen de Matemàtiques.

3, 15, 24, 28, 33, 35, 38, 42, 23, 38,


36, 34, 29, 25, 17, 7, 34, 36, 39, 44,
31, 26, 20, 11, 13, 22, 27, 47, 39, 37,
34, 32, 35, 28, 38, 41, 48, 15, 32, 13

a) Construeix la taula de freqüències amb 10 intervals


b) Representar amb un histograma i un polígon de
freqüències

16
xi Marca fi fii %i Fi Fri %ac i
[0,5) 2,5 1 0,025 2,5 1 0,025 2,5
[5,10) 7,5 1 0,025 2,5 2 0,050 5
[10,15) 12,5 3 0,075 7,5 5 0,125 12,5
[15,20) 17,5 3 0,075 7,5 8 0,200 20
[20,25) 22,5 4 0,100 10 12 0,300 30
[25,30) 27,5 6 0,150 15 18 0,450 45
[30,35) 32,5 7 0,175 17,5 25 0,625 62,5
[35,40) 37,5 10 0,250 25 35 0,875 87,5
[40,45) 42,5 3 0,075 7,5 38 0,950 95
[45,50] 47,5 2 0,050 5 40 1 100
TOTALS 40 1 100
17
18
PARÀMETRES ESTADÍSTICS
Paràmetres de centralització
 Un paràmetre de centralització és un valor
que representa i resumeix un caràcter
estadístic d’una població.

 Són la mitjana, la mediana i la moda.


Mitjana
 Mitjana o mitjana aritmètica: és el valor que s’obté
en dividir la suma de tots els valors observats de la
variable entre el nombre total d’observacions.

𝑥𝑖 · 𝑓𝑖
𝑥=
𝑓𝑖

 La mitjana només té sentit si el caràcter estadístic és


quantitatiu.
Exemple 1

 Calcula la mitjana aritmètica de la distribució


donada per la taula de freqüències següent:
xi fi xi fi
3 8 24
4 12 48
𝑥𝑖 ·𝑓𝑖 343
5 19 95
𝑥= = = 5,28
6 13 78 𝑓𝑖 65
7 6 42
8 7 56
65 343
Exemple 2

 Calcula la mitjana aritmètica de la distribució


donada per la taula de freqüències següent:
Pes (kg) Marca de classe fi x fi
xi

[60, 65[ 62,5 7 437,5


[65, 70[ 67,5 12 810
[70, 75[ 72,5 16 1160
[75, 80[ 77,5 11 852,5
[80, 85[ 82,5 5 412,5
[85, 90[ 87,5 4 350
55 4022,5
Moda
 Moda (Mo): és el valor o modalitat del caràcter
que té una freqüència més gran.

 La moda té sentit per a qualsevol caràcter estadístic.

 Si les dades es troben agrupades, prendrem com a moda la marca de classe que
té més freqüència (classe modal)

 La moda pot no existir (si totes les dades tenen la mateixa freqüència), pot ser
única (unimodal), pot haver-hi dues modes (bimodal), etc.
Mediana

 Mediana (Me): és el valor o modalitat del caràcter


estadístic que ocupa el valor central en ordenar les
dades.

 La mediana té sentit quan el caràcter és quantitatiu o qualitatiu ordenable.


Obtenció de la mediana I

A) Si hi ha poques dades:

 Primer s’ordenen de menor a major i es localitza l’element que ocupa la


posició central

Exemples:
Nombre imparell de dades: (N=9)
4, 5, 6, 6, 7, 7, 8, 9, 9 Me = 7

Nombre parell de dades: (N = 10)


3,4, 5, 6, 6, 7, 7, 8, 9, 9 Me = 6,5
(mitjana dels dos valors que ocupen les posicions centrals)
Obtenció de la mediana II
B) Taules de freqüències sense agrupar

Amb la freqüència absoluta acumulada (Ni) és fàcil trobar l’element que ocupa la posició central.

xi ni Ni
Primer calculem N/2 i busquem quin
3 8 8
és el valor que supera aquesta
4 12 20
freqüència acumulada.
5 19 39>32,5

65: 2 = 32,5 6 13 52
7 6 58
Per tant Me = 5 8 7 65
Total 65
Obtenció de la mediana III
C) Taules de freqüències agrupades en intervals
 L' interval que conté la mediana s’anomena classe de la mediana. De vegades es
pot prendre la marca de classe corresponent com a valor aproximat de la mediana
però es pot determinar amb més precisió amb l’expressió:
𝑁
− 𝐹𝑖−1
𝑀𝑒 = 𝐿𝑖 + ℎ · 2
𝑓𝑖

essent:
Li : extrem inferior de la classe de la mediana
h: amplitud dels intervals de classe
N: nombre total de dades
Fi-1: freqüència absoluta acumulada de l' interval anterior a la classe de la mediana
fi: freqüència absoluta de la classe de la mediana.
 Exemple:
Pes (kg) Marca fi Fi
Primer localitzem la classe de la classe (xi)
mediana
[60,65[ 62,5 7 7
[65,70[ 67,5 12 19

N/2 = 55/2 = 27,5 [70,75[ 72,5 16 35>27,5


[75,80[ 77,5 11 46
Li = 70
[80,85[ 82,5 5 51
h=5
[85,90[ 87,5 4 55
Fi-1= 19
55
fi = 16
Paràmetres de dispersió
 Els paràmetres de dispersió són valors que
informen sobre el grau de separació o concentració
de les dades. Els més habituals són:

 el rang
 la variància
 la desviació estàndard
 el coeficient de variació
 Rang o recorregut: És el més fàcil de calcular, ja
que és la diferència entre els valors màxim i mínim
de la variable:
R = xmàx - xmín
 Variància (2): És la mitjana aritmètica dels
quadrats de les desviacions respecte a la mitjana,
és a dir,
2
2
𝑥 𝑖 − 𝑥 · 𝑓𝑖
𝜎 =
𝑁
o també
2
2
𝑥 𝑖 · 𝑓𝑖
𝜎 = − 𝑥2
𝑁
 Desviació típica o desviació estàndard (): És
l'arrel quadrada de la variància (per tant, una
vegada calculada aquesta, trobar la desviació
típica és una cosa ben senzilla!):

𝜎= 𝜎2
 Coeficient de variació (CV): És el quocient entre la
desviació típica i la mitjana i es pot donar en tant
per un o en tant per cent:

𝜎 𝜎
𝐶𝑉 = 𝐶𝑉 = · 100
𝑥 𝑥
xi fi xi fi xi 2 ·fi Fi
3 8 24 8
4 12 48 20
5 19 95 39
6 13 78 52
7 6 42 58
8 7 56 65
65 343
PARÀMETRES ESTADÍSTICS
Paràmetres de posició
 Un paràmetre de posició divideix un conjunt ordenat
de dades en grups amb la mateixa quantitat
d’individus.
 Són la mediana, els percentils, els quartils i els decils.
Quartils
 Quartils: són els tres valors o modalitats del
caràcter que en ordenar les dades ocupen la
posició corresponent al primer (Q1), al segon (Q2) i
tercer (Q3) quart de les dades. El segon quartil
coincideix amb la mediana (Q2= Me).
Q1: el primer quartil és el valor que determina la primera quarta part de
la distribució (té el 25% de les dades inferiors)
Q2: el segon quartil és el valor que determina la segona quarta part de la
distribució (té el 50% de les dades inferiors). Evidentment coincideix amb
la mediana.
Q3: el tercer quartil és el valor que determina la tercera quarta part de la
distribució (té el 75% de les dades inferiors)
 L’amplitud interquartílica és la diferència
entre el tercer i el primer quartil.
AIQ = Q3 – Q2
Implica l’amplitud de l’interval en què es troben el 50% de les
dades centrals de la distribució.
Obtenció de quartils I
A) Dades no agrupades en intervals Nombre de ni Ni
fills
xi
càlcul de Q1
0 14 14
1 10 24
Q1: 100/4 = 25
2 15 39 >25
3 26 65
Q1 = 2
4 20 85
5 15 100
100
Anàlogament es calcula Q2 i Q3
Obtenció de quartils II
B) Dades agrupades en intervals
El procediment és molt semblant al de l’obtenció de la mediana. Primer
localitzarem l' interval on es troba el quartil Qk (k·N/4) i la següent expressió:

essent:

Li : extrem inferior de la classe del quartil


h: amplitud dels intervals de classe
N: nombre total de dades
Ni-1: freqüència absoluta acumulada de l' interval anterior a la classe del quartil
ni: freqüència absoluta de la classe del quartil.
 Exemple: càlcul de Q1 Pes (kg) Marca ni Ni
classe (xi)

N/4 =55/4 =13,75 [60,65[ 62,5 7 7


Li = 65 [65,70[ 67,5 12 19 > 13,75
h=5 [70,75[ 72,5 16 35
Ni-1= 7 [75,80[ 77,5 11 46
ni = 12 [80,85[ 82,5 5 51
[85,90[ 87,5 4 55
55
 Exemple: càlcul de Q3 Pes (kg) Marca classe ni Ni
(xi)

[60,65[ 62,5 7 7
3N/4 =3·55/4 = 41,25
[65,70[ 67,5 12 19
Li = 75
[70,75[ 72,5 16 35
h=5 [75,80[ 77,5 11 46>41,25
Ni-1= 35 [80,85[ 82,5 5 51
ni = 11 [85,90[ 87,5 4 55
55
Si hem de calcular l’amplitud interquartílica:

[Q1,Q3] = [67.8, 77.85 ]

AIQ = 77.85 - 67.8 = 10.05


Percentils
 Percentils són els valors del caràcter que en ordenar
les dades divideixen la distribució en 100 parts.

 Es representa: P1, P2, P3,......, P98, P99.

 P25 = Q1, P50 = Q2 = Me i P75 = Q3


Obtenció de percentils I
A) Dades no agrupades en intervals

Nombre de ni Ni
 Càlcul de P60 fills
xi
60N/100 = 60 0 14 14
1 10 24
2 15 39
P60 = 3
3 26 65>60
4 20 85
5 15 100
N=100
Obtenció de percentils II
B) Taules amb dades agrupades en intervals
 El procediment és molt semblant al de l’obtenció de la mediana i els quartils.
Primer localitzarem l' interval on es troba el percentil Pk (k·N/100) i la següent
expressió:

essent:

Li : extrem inferior de la classe del percentil


h: amplitud dels intervals de classe
N: nombre total de dades
Ni-1: freqüència absoluta acumulada de l' interval anterior a la classe del percentil
ni: freqüència absoluta de la classe del percentil.
 Exemple: Càlcul de P60 Pes (kg) Marca de ni xini
classe (xi)
60·N/100 = 33
Li = 70 [60,65[ 62,5 7 7
h=5 [65,70[ 67,5 12 19
Ni-1= 19
[70,75[ 72,5 16 35>33
ni = 16
[75,80[ 77,5 11 46
[80,85[ 82,5 5 51
[85,90[ 87,5 4 55
N=55

33 − 19
𝑃60 = 70 + 5 · = 75 + 5 · 0,875 = 79,375𝑘𝑔
16
Decils
 Decils són els valors del caràcter que en ordenar les
dades divideixen la distribució en 10 parts. Es
representen D1, D2,...., D9.

 Evidentment : D1=P10 D2 = P20 etc


D5 = P50 = Q2 = Me
Obtenció de decils I
A) Dades no agrupades en intervals

Nombre de ni Ni
 Càlcul de D7 fills
xi
7N/10 = 70 0 14 14
1 10 24
D7 = 4 2 15 39
3 26 65
4 20 85>70
5 15 100
N=100
Obtenció de decils
B) Dades agrupades en intervals
 El procediment és molt semblant al de l’obtenció de la mediana i els quartils. Primer
localitzarem l' interval on es troba el decil Dk (k·N/10) i aplicarem la següent
expressió:

essent:
Li : extrem inferior de la classe del decil
h: amplitud dels intervals de classe
N: nombre total de dades
Ni-1: freqüència absoluta acumulada de l' interval anterior a la classe del decil
ni: freqüència absoluta de la classe del decil.
 Càlcul de D4: Pes (kg) Marca de ni Ni
classe (xi)
4N/10=22 [60,65[ 62,5 7 7
Li = 70 [65,70[ 67,5 12 19
h=5 [70,75[ 72,5 16 35>22
Ni-1= 19 [75,80[ 77,5 11 46
ni = 16 [80,85[ 82,5 5 51
[85,90[ 87,5 4 55
N=55
Pàg 194 Exercici 5
 Calcula Q1, Me, Q3 i P40 en la distribució:
2, 3, 3, 3, 5, 6, 6, 7,,7, 8, 8, 9, 10, 10,
TEMA 9
DISTRIBUCIONS BIDIMENSIONALS
9.1 VARIABLES BIDIMENSIONALS. NÚVOLS DE
PUNTS I CORRELACIÓ
Variables estadístiques bidimensionals

 De vegades interessa conèixer si dues variables estadístiques


estan relacionades.

 Exemple 1.- Estudiem l’alçada (en cm) i el pes (en kg) d’un
grup de 10 persones, i obtenim els següents valors

Talla
160 165 168 170 171 175 175 180 180 182
(cms)
Peso
55 58 58 61 67 62 66 74 79 83
(kgs)
 Per començar l’estudi es pot considerar que les
variables estadístiques són les variables (X,Y) d’uns
eixos de coordenades i dibuixar tots els punts.

 Aquest dibuix s’anomena diagrama de dispersió o


núvol de punts i ens permet fer una primera
estimació de si la suposada relació existeix, de si és
forta o fluixa i de quin tipus de relació hi ha.
 Si existeix relació entre dues variables, aquesta pot ser
de molts tipus:
 Si es tracta, per exemple, de dos variables físiques relacionades
per alguna fórmula matemàtica direm hi ha una relació
funcional doncs existeix una funció (fórmula) que les relaciona.
En aquest cas, els punts del diagrama de dispersió estan
perfectament ordenats seguint una línia recta o corba.
 Quan dues variables estan relacionades però no existeix una
relació funcional entre elles els punts del diagrama de dispersió
envolten una recta o corba invisible. En aquests casos direm que
existeix una relació lineal o curvilínia segons el cas.
Diagrames de dispersió o núvols de punts

Relació directa Relació inversa


 En aquest tema estudiarem els casos en que hi hagi relació
lineal. En aquests casos, la recta a la que s’aproximen tots els
punts s’anomena recta de regressió.
 El problema matemàtic al que ens enfrontem consistirà, en
primer lloc en determinar la intensitat de la relació
(correlació) i en segon lloc, en trobar l’equació de la recta de
regressió per a poder fer prediccions fiables.
 Si la correlació és forta els punts del núvol s’aproximaran molt
a la recta de regressió i a l'inrevés.
 Veiem alguns exemples de núvols de punts:
 Existeix alguna relació entre les variables X i Y?
 Si existeix, és lineal, corbada,...?
 És la relació directa (positiva) o inversa (negativa)?
 És la relació funcional? Si és que no, és forta o fluixa?
TEMA 9
DISTRIBUCIONS BIDIMENSIONALS
9.2 MESURA DE LA CORRELACIÓ
A) Centre de gravetat


B) Covariància

 És un paràmetre que ens ajudarà a valorar la


correlació entre dues variables:
Estudi de la covariància de la següent distribució bidimensional

Talla
(cms) 160 165 168 170 171 175 175 180 180 182

Peso
(kgs) 55 58 58 61 67 62 66 74 79 83

Construim la següent taula i en la darrera fila calculem els totals:

Altura (cm) Pes (kg) xi2 yi2 xiyi


160 55
165 58
168 58
170 61
171 67
175 62
175 66
180 74
180 79
182 83
Altura (cm) Pes (kg) xi2 yi2 xiyi
160 55 25600 3025 8800
165 58 27225 3364 9570
168 58 28224 3364 9744
170 61 28900 3721 10370
171 67 29241 4489 11457
175 62 30625 3844 10850
175 66 30625 4356 11550
180 74 32400 5476 13320
180 79 32400 6241 14220
182 83 33124 6889 15106
1726 663 298364 44769 114987
CÀLCUL DE LA COVARIANCIA

N = 10 (nombre de dades)

Mitjana de x (altura): 172.6

Mitjana de y (peso): 66.3

 xy = (114987 / 10 ) – 11443.38
xy = 55.32
Hem obtingut un valor positiu per la covariància que
correspon a una dependència directa com ja havíem intuït
amb el núvol de punts
C) Correlació


 El coeficient de correlació:
 No té dimensions (no depèn de les unitats)
 El valor sempre està entre -1 i 1
 Si r = 1 o r = - 1, la correlació és perfecta (tots els punts
estan alineats (dependència funcional).
 Si r és pròxim a 1, la correlació és forta.
 Si r és pròxim a 0, la correlació és dèbil.

Exercici 2 a)

xi yi xi2 yi2 xiyi


2 2 4 4 4
3 5 9 25 15
4 2 16 4 8
4 7 16 49 28
5 5 25 25 25
6 4 36 16 24
6 6 36 36 36
7 6 49 36 42
7 7 49 49 49
8 5 64 25 40
10 5 100 25 50
10 9 100 81 90
72 63 504 375 411
mitjana x mitjana y
6 5,25
desv tip x desv tip y
2,45 1,92 covariancia 2,75
correlació 0,58
Exercici 2 b)

xi yi xi2 yi2 xiyi


1 9 1 81 9
2 10 4 100 20
3 6 9 36 18
4 4 16 16 16
5 2 25 4 10
6 0 36 0 0
7 1 49 1 7
8 0 64 0 0
36 32 204 238 80
xi yi xi2 yi2 xiyi
1 9 1 81 9
2 10 4 100 20
3 6 9 36 18
4 4 16 16 16
5 2 25 4 10
6 0 36 0 0
7 1 49 1 7
8 0 64 0 0
36 32 204 238 80
mitjana x mitjana y
4,5 4
desv tip x desv tip y
2,29 3,71 covariancia -8

correlació -0,94
Exercici proposat

xi yi xi2 yi2 xiyi


5 9
10 16
5 5
7 11
11 21
8 16
xi yi xi2 yi2 xiyi
5 9 25 81 45
10 16 100 256 160
5 5 25 25 25
7 11 49 121 77
11 21 121 441 231
8 16 64 256 128
46 78 384 1180 666
desviació
mitjana variància
típica

x 7,67 5,22 2,28

y 13,00 27,67 5,26

covariància 11,29

correlació 0,94
TEMA 9
DISTRIBUCIONS BIDIMENSIONALS
9.3 RECTES DE REGRESSIÓ
Rectes de regressió
La recta de regressió és una funció lineal del tipus y = mx + n
que millor representa el núvol de punts (minimitzant les distàncies
de cada punt a la recta).
Hi ha dues possibilitats: minimitzar les distàncies verticals o
minimitzar les horitzontals:
Opció 1: Recta de regressió y sobre x


Opció 2: recta de regressió x sobre y


Utilitat de la recta de regressió


Exemple 1 (Altura-pes)



Exemple 1. Estudi de la dependència del pes
respecte de l’altura (y sobre x)

Dependència directa - Pendent de la recta positiva - Funció creixent


Exemple 2 (Notes mates – filo)


Exemple 3 (distància – encistellades)



Exemple 4 (exercici proposat)


EXERCICI
 S’ha fet un estudi per a determinar els efectes de no dormir en
la capacitat de las persones per a resoldre problemes senzills.
Deu persones, d’un nivell cultural semblant, van participar en
l’estudi. Cada persona, després d’un periode específic sense
dormir, va resoldre un conjunt de problemes senzills de càlcul i
es va registrar el nombre d’errors comesos:

Nº de hores sense 8 8 12 12 16 16 20 20 24 24
dormir (X)
Nº de errores (Y) 8 6 6 10 8 14 14 12 16 12
a) Dibuixa el núvol de punts i les rectes de regressió.
b) Calcula el coeficient de correlació.
c) Una persona que porta 18 hores sense dormir
realitza la prova, quantes errors podem esperar?
d) Una altra persona comet 15 errors, quant de temps
porta sense dormir?
e) Són fiables les conjectures de c) i d) ?
 Centre de gravetat: P(16,10'6)
 r = 0,80

 Recta de regressió Y sobre X: y=0'475x+3


N d’errors y(18)=0'475·18+3=11'5512 errors
 Recta de regressió x sobre y: x=1'35y+1'67
N d’hores x(15) =1'35·15+1'67=21'92 22 hores

You might also like