Professional Documents
Culture Documents
PROBABILITAT
Tema 8: Estadística
1
2
L'estadística és la part de les
matemàtiques relacionada amb la
recopilació, anàlisi, interpretació i
representació de dades.
4
La característica que s'estudia en una població és la
variable estadística.
Classificació:
Les variables qualitatives són les que no apareixen de
forma numèrica, sinó com a una categoria o atribut.
Les variables quantitatives són les que poden expressar-se
numèricament, i poden ser:
Quantitatives discretes, si només poden prendre un nombre finit de
valors (valors aïllats)
Quantitatives contínues quan poden prendre qualsevol valor d'un
interval.
5
ESTADÍSTICA DESCRIPTIVA
6
ESTADÍSTICA INFERENCIAL
Treballa amb mostres però pretén prendre com
a generals dades que només s’han verificat per
a una mostra.
7
8.2 GRÀFIQUES ESTADÍSTIQUES
Gràfiques en variables qualitatives.
El diagrama de sectors és el més indicat per a aquest
tipus d'informació. El percentatge de dades de cada
valor en una mostra es correspon amb el mateix
percentatge de sector d'un cercle.
8
Gràfiques en variables discretes.
Diagrama de barres
9
Gràfiques en variables contínues.
Histograma. Les dades es representen per rectangles
la base dels quals és l'amplitud de l'interval representat
i amb l'altura que ens indica la freqüència absoluta, si
tots els intervals són de la mateixa amplitud. Si no és
el cas, les altures es calculen de manera que les àrees
siguin proporcionals a les freqüències absolutes.
Polígon de freqüències. Unirem els centres de part
superior de tots els rectangles per obtenir-lo.
10
11
8.3 TAULES DE FREQÜÈNCIES
TAULES AMB DADES AÏLLADES
xi Fi fri %i
0 3
1 2
2 5
3 12
4 18
5 20
6 16
7 12
8 6
9 6
10 4
12
TOTALS
S’estudia d’una mostra de 35 treballadors de l’empresa
COFISA el nombre de dies de treball perdut per malaltia
durant el 1r. trimestre de l’any 2013:
Dies perduts per malaltia I trimestre de l’any 2006
2 1 0 1 1 3 0
0 2 7 5 0 1 3
0 0 4 1 2 4 0
5 3 0 6 0 4 0
2 6 2 3 0 1 1
13
TAULES AMB DADES AGRUPADES EN
INTERVALS
Es localitzen els extrems a i b i es calcula la
diferència r = b – a
Es fixa el nombre d’intervals (no ha de ser
inferior a 5 ni superior a 15)
Es troba el primer múltiple del nombre
d’intervals que supera a r, per aconseguir
amplituds d’interval fàcils.
14
Es formen els intervals de forma que l’extrem
inferior del primer interval sigui una mica més
petit que a i l’extrem superior de l’últim sigui
una mica superior a b.
El punt mitjà serà la marca de classe i serà el
valor que representarà a tot l’interval quan
calculem paràmetres més endavant.
15
Els 40 alumnes d’una classe han obtingut les següents
puntuacions, sobre 50, en un examen de Matemàtiques.
16
xi Marca fi fii %i Fi Fri %ac i
[0,5) 2,5 1 0,025 2,5 1 0,025 2,5
[5,10) 7,5 1 0,025 2,5 2 0,050 5
[10,15) 12,5 3 0,075 7,5 5 0,125 12,5
[15,20) 17,5 3 0,075 7,5 8 0,200 20
[20,25) 22,5 4 0,100 10 12 0,300 30
[25,30) 27,5 6 0,150 15 18 0,450 45
[30,35) 32,5 7 0,175 17,5 25 0,625 62,5
[35,40) 37,5 10 0,250 25 35 0,875 87,5
[40,45) 42,5 3 0,075 7,5 38 0,950 95
[45,50] 47,5 2 0,050 5 40 1 100
TOTALS 40 1 100
17
18
PARÀMETRES ESTADÍSTICS
Paràmetres de centralització
Un paràmetre de centralització és un valor
que representa i resumeix un caràcter
estadístic d’una població.
𝑥𝑖 · 𝑓𝑖
𝑥=
𝑓𝑖
Si les dades es troben agrupades, prendrem com a moda la marca de classe que
té més freqüència (classe modal)
La moda pot no existir (si totes les dades tenen la mateixa freqüència), pot ser
única (unimodal), pot haver-hi dues modes (bimodal), etc.
Mediana
A) Si hi ha poques dades:
Exemples:
Nombre imparell de dades: (N=9)
4, 5, 6, 6, 7, 7, 8, 9, 9 Me = 7
Amb la freqüència absoluta acumulada (Ni) és fàcil trobar l’element que ocupa la posició central.
xi ni Ni
Primer calculem N/2 i busquem quin
3 8 8
és el valor que supera aquesta
4 12 20
freqüència acumulada.
5 19 39>32,5
65: 2 = 32,5 6 13 52
7 6 58
Per tant Me = 5 8 7 65
Total 65
Obtenció de la mediana III
C) Taules de freqüències agrupades en intervals
L' interval que conté la mediana s’anomena classe de la mediana. De vegades es
pot prendre la marca de classe corresponent com a valor aproximat de la mediana
però es pot determinar amb més precisió amb l’expressió:
𝑁
− 𝐹𝑖−1
𝑀𝑒 = 𝐿𝑖 + ℎ · 2
𝑓𝑖
essent:
Li : extrem inferior de la classe de la mediana
h: amplitud dels intervals de classe
N: nombre total de dades
Fi-1: freqüència absoluta acumulada de l' interval anterior a la classe de la mediana
fi: freqüència absoluta de la classe de la mediana.
Exemple:
Pes (kg) Marca fi Fi
Primer localitzem la classe de la classe (xi)
mediana
[60,65[ 62,5 7 7
[65,70[ 67,5 12 19
el rang
la variància
la desviació estàndard
el coeficient de variació
Rang o recorregut: És el més fàcil de calcular, ja
que és la diferència entre els valors màxim i mínim
de la variable:
R = xmàx - xmín
Variància (2): És la mitjana aritmètica dels
quadrats de les desviacions respecte a la mitjana,
és a dir,
2
2
𝑥 𝑖 − 𝑥 · 𝑓𝑖
𝜎 =
𝑁
o també
2
2
𝑥 𝑖 · 𝑓𝑖
𝜎 = − 𝑥2
𝑁
Desviació típica o desviació estàndard (): És
l'arrel quadrada de la variància (per tant, una
vegada calculada aquesta, trobar la desviació
típica és una cosa ben senzilla!):
𝜎= 𝜎2
Coeficient de variació (CV): És el quocient entre la
desviació típica i la mitjana i es pot donar en tant
per un o en tant per cent:
𝜎 𝜎
𝐶𝑉 = 𝐶𝑉 = · 100
𝑥 𝑥
xi fi xi fi xi 2 ·fi Fi
3 8 24 8
4 12 48 20
5 19 95 39
6 13 78 52
7 6 42 58
8 7 56 65
65 343
PARÀMETRES ESTADÍSTICS
Paràmetres de posició
Un paràmetre de posició divideix un conjunt ordenat
de dades en grups amb la mateixa quantitat
d’individus.
Són la mediana, els percentils, els quartils i els decils.
Quartils
Quartils: són els tres valors o modalitats del
caràcter que en ordenar les dades ocupen la
posició corresponent al primer (Q1), al segon (Q2) i
tercer (Q3) quart de les dades. El segon quartil
coincideix amb la mediana (Q2= Me).
Q1: el primer quartil és el valor que determina la primera quarta part de
la distribució (té el 25% de les dades inferiors)
Q2: el segon quartil és el valor que determina la segona quarta part de la
distribució (té el 50% de les dades inferiors). Evidentment coincideix amb
la mediana.
Q3: el tercer quartil és el valor que determina la tercera quarta part de la
distribució (té el 75% de les dades inferiors)
L’amplitud interquartílica és la diferència
entre el tercer i el primer quartil.
AIQ = Q3 – Q2
Implica l’amplitud de l’interval en què es troben el 50% de les
dades centrals de la distribució.
Obtenció de quartils I
A) Dades no agrupades en intervals Nombre de ni Ni
fills
xi
càlcul de Q1
0 14 14
1 10 24
Q1: 100/4 = 25
2 15 39 >25
3 26 65
Q1 = 2
4 20 85
5 15 100
100
Anàlogament es calcula Q2 i Q3
Obtenció de quartils II
B) Dades agrupades en intervals
El procediment és molt semblant al de l’obtenció de la mediana. Primer
localitzarem l' interval on es troba el quartil Qk (k·N/4) i la següent expressió:
essent:
[60,65[ 62,5 7 7
3N/4 =3·55/4 = 41,25
[65,70[ 67,5 12 19
Li = 75
[70,75[ 72,5 16 35
h=5 [75,80[ 77,5 11 46>41,25
Ni-1= 35 [80,85[ 82,5 5 51
ni = 11 [85,90[ 87,5 4 55
55
Si hem de calcular l’amplitud interquartílica:
Nombre de ni Ni
Càlcul de P60 fills
xi
60N/100 = 60 0 14 14
1 10 24
2 15 39
P60 = 3
3 26 65>60
4 20 85
5 15 100
N=100
Obtenció de percentils II
B) Taules amb dades agrupades en intervals
El procediment és molt semblant al de l’obtenció de la mediana i els quartils.
Primer localitzarem l' interval on es troba el percentil Pk (k·N/100) i la següent
expressió:
essent:
33 − 19
𝑃60 = 70 + 5 · = 75 + 5 · 0,875 = 79,375𝑘𝑔
16
Decils
Decils són els valors del caràcter que en ordenar les
dades divideixen la distribució en 10 parts. Es
representen D1, D2,...., D9.
Nombre de ni Ni
Càlcul de D7 fills
xi
7N/10 = 70 0 14 14
1 10 24
D7 = 4 2 15 39
3 26 65
4 20 85>70
5 15 100
N=100
Obtenció de decils
B) Dades agrupades en intervals
El procediment és molt semblant al de l’obtenció de la mediana i els quartils. Primer
localitzarem l' interval on es troba el decil Dk (k·N/10) i aplicarem la següent
expressió:
essent:
Li : extrem inferior de la classe del decil
h: amplitud dels intervals de classe
N: nombre total de dades
Ni-1: freqüència absoluta acumulada de l' interval anterior a la classe del decil
ni: freqüència absoluta de la classe del decil.
Càlcul de D4: Pes (kg) Marca de ni Ni
classe (xi)
4N/10=22 [60,65[ 62,5 7 7
Li = 70 [65,70[ 67,5 12 19
h=5 [70,75[ 72,5 16 35>22
Ni-1= 19 [75,80[ 77,5 11 46
ni = 16 [80,85[ 82,5 5 51
[85,90[ 87,5 4 55
N=55
Pàg 194 Exercici 5
Calcula Q1, Me, Q3 i P40 en la distribució:
2, 3, 3, 3, 5, 6, 6, 7,,7, 8, 8, 9, 10, 10,
TEMA 9
DISTRIBUCIONS BIDIMENSIONALS
9.1 VARIABLES BIDIMENSIONALS. NÚVOLS DE
PUNTS I CORRELACIÓ
Variables estadístiques bidimensionals
Exemple 1.- Estudiem l’alçada (en cm) i el pes (en kg) d’un
grup de 10 persones, i obtenim els següents valors
Talla
160 165 168 170 171 175 175 180 180 182
(cms)
Peso
55 58 58 61 67 62 66 74 79 83
(kgs)
Per començar l’estudi es pot considerar que les
variables estadístiques són les variables (X,Y) d’uns
eixos de coordenades i dibuixar tots els punts.
B) Covariància
Talla
(cms) 160 165 168 170 171 175 175 180 180 182
Peso
(kgs) 55 58 58 61 67 62 66 74 79 83
N = 10 (nombre de dades)
xy = (114987 / 10 ) – 11443.38
xy = 55.32
Hem obtingut un valor positiu per la covariància que
correspon a una dependència directa com ja havíem intuït
amb el núvol de punts
C) Correlació
El coeficient de correlació:
No té dimensions (no depèn de les unitats)
El valor sempre està entre -1 i 1
Si r = 1 o r = - 1, la correlació és perfecta (tots els punts
estan alineats (dependència funcional).
Si r és pròxim a 1, la correlació és forta.
Si r és pròxim a 0, la correlació és dèbil.
Exercici 2 a)
correlació -0,94
Exercici proposat
covariància 11,29
correlació 0,94
TEMA 9
DISTRIBUCIONS BIDIMENSIONALS
9.3 RECTES DE REGRESSIÓ
Rectes de regressió
La recta de regressió és una funció lineal del tipus y = mx + n
que millor representa el núvol de punts (minimitzant les distàncies
de cada punt a la recta).
Hi ha dues possibilitats: minimitzar les distàncies verticals o
minimitzar les horitzontals:
Opció 1: Recta de regressió y sobre x
Opció 2: recta de regressió x sobre y
Utilitat de la recta de regressió
Exemple 1 (Altura-pes)
Exemple 1. Estudi de la dependència del pes
respecte de l’altura (y sobre x)
Exemple 4 (exercici proposat)
EXERCICI
S’ha fet un estudi per a determinar els efectes de no dormir en
la capacitat de las persones per a resoldre problemes senzills.
Deu persones, d’un nivell cultural semblant, van participar en
l’estudi. Cada persona, després d’un periode específic sense
dormir, va resoldre un conjunt de problemes senzills de càlcul i
es va registrar el nombre d’errors comesos:
Nº de hores sense 8 8 12 12 16 16 20 20 24 24
dormir (X)
Nº de errores (Y) 8 6 6 10 8 14 14 12 16 12
a) Dibuixa el núvol de punts i les rectes de regressió.
b) Calcula el coeficient de correlació.
c) Una persona que porta 18 hores sense dormir
realitza la prova, quantes errors podem esperar?
d) Una altra persona comet 15 errors, quant de temps
porta sense dormir?
e) Són fiables les conjectures de c) i d) ?
Centre de gravetat: P(16,10'6)
r = 0,80