Professional Documents
Culture Documents
2 - La Recollida, L'organització I L'anàlisi de Dades
2 - La Recollida, L'organització I L'anàlisi de Dades
Índex
Estadística
Variables estadístiques
Taules de freqüència
Mesures de centralització
Mesures de dispersió
Estadística
Quan necessitem analitzar un conjunt de dades del nostre entorn hem d'aplicar tècniques
d'estadística.
Depenent de la quantitat de dades que haguem d'analitzar podem treballar amb una població o
amb una mostra.
La població és el conjunt de tots els elements que són objecte de l'estudi estadístic.
L'individu és cadascun dels elements que formen aquesta població.
Sempre que estudiem una mostra cometem un cert error. Com més gran sigui la mida de la mostra,
més petit serà l'error.
about:blank 1/20
9/2/23, 16:32 2 — LA RECOLLIDA, L’ORGANITZACIÓ I L’ANÀLISI DE DADES
Variables estadístiques
Les professions d'un grup de persones, per exemple, poden ser: metge, professor, lampista, jutge,
arquitecte, etc. Aquest és un exemple de variable qualitativa, perquè les diverses opcions són
paraules.
Quan les característiques que estudiem es poden comptar o expressar amb nombres,
constitueixen una altra mena de variables: les quantitatives.
Les variables quantitatives són les que s'expressen numèricament. Les classifiquem en:
Variables quantitatives discretes: si entre dos valors poden prendre un nombre limitat
de valors.
Variables quantitatives contínues: si entre dos valors poden prendre un nombre infinit
de valors.
Per exemple, en un estudi sobre hàbits alimentaris d'un grup de 30 estudiants, la quantitat de joves
que consumeixen, per exemple, carn (17) és una variable discreta, però el pes (75 kg, 68 kg, 70
kg…) o l'alçada (1,80 m, 1,77 m, 1,70 m…) de cada un és una variable contínua.
,
Quan portem a terme un estudi estadístic hem de triar el mètode més adient per recollir i
organitzar les dades. Podem, per exemple:
about:blank 2/20
9/2/23, 16:32 2 — LA RECOLLIDA, L’ORGANITZACIÓ I L’ANÀLISI DE DADES
Fer observacions.
Realitzar mesuraments.
Després, per organitzar les dades, les podem agrupar en conjunts i presentar-les en taules que en
facilitin la visualització i la interpretació.
Taules de freqüència
Per fer-nos una primera idea de com es distribueix un conjunt de dades, el podem ordenar en una
taula de freqüències.
Freqüència absoluta
La freqüència absoluta ens indica quants cops apareix una variable dins del conjunt de dades de
què disposem.
La freqüència absoluta, fi, d'un valor d'una variable estadística és el nombre de cops que
aquest es repeteix.
Si, per exemple, passem una enquesta entre els companys de classe per saber a quins aliments
són al·lèrgics, podem organitzar les dades en una taula de freqüències absolutes com aquesta:
Llet 5
Ous 4
Fruita seca 4
Fruita 3
Peix 2
Total 18
about:blank 3/20
9/2/23, 16:32 2 — LA RECOLLIDA, L’ORGANITZACIÓ I L’ANÀLISI DE DADES
Cada valor de freqüència absoluta indica la quantitat de companys que són al·lèrgia a cada
aliment. La suma de freqüències absolutes representa la quantitat total d'al·lèrgies.
Freqüència relativa
Les freqüències absolutes depenen de la mida de la mostra o de la població que estem estudiant.
Per això, per comparar dades de diferents estudis, són més útils les freqüències relatives.
Per exemple, en una recollida d'escombraries a la platja que ha organitzat un grup de voluntaris,
han amuntegat un seguit de deixalles en quantitats (freqüències absolutes) que es reflecteixen en
la taula següent. Amb aquestes dades calculem la mida de la mostra (total de deixalles recollides)
i les freqüències relatives (columna de la dreta):
5
Plàstic 5 18
= 0,2778 → 27,78 %
4
Paper i cartó 4 18
= 0,2222 → 22,22 %
4
Envasos de vidre 4 18
= 0,2222 → 22,22 %
3
Llaunes 3 18
= 0,1667 → 16,67 %
2
Orgànic 2 18
= 0,1111 → 11,11 %
Total 18 1 → 100 %
Les freqüències relatives les podem expressar en tant per u, i sumen 1; o en percentatge, i sumen
100.
Quan treballem amb variable quantitatives, de vegades necessitem saber quantes dades tenen un
valor igual o inferior a un altre. Aleshores, calculem les freqüències absolutes acumulades.
about:blank 4/20
9/2/23, 16:32 2 — LA RECOLLIDA, L’ORGANITZACIÓ I L’ANÀLISI DE DADES
La freqüència absoluta acumulada, Fi, d'un valor de la variable estadística és la suma de les
freqüències absolutes de tots els valors inferiors o iguals al valor considerat.
En un estudi sobre turisme local a Espanya consultem sobre la quantitat de persones que han
visitat una o més capitals de província, i amb les freqüències absolutes calculem les freqüències
acumulades.
Una 7 7
Dues 2 7+2=9
Tres 0 9+0=9
Quatre 3 9 + 3 = 12
Cinc o més 2 12 + 2 = 14
Total 14
Pel que fa a les freqüències relatives, també les podem calcular de forma acumulada.
La freqüència relativa acumulada, Hi, d'un valor de la variable estadística és la suma de les
freqüències relatives de tots els valors inferiors o iguals al valor considerat. O, el que és el
mateix, és igual al quocient entre la freqüència absoluta acumulada i la mida de la mostra.
Per exemple, volem saber quants dels nostres companys participen en activitats de voluntariat en
associacions de treball social.
about:blank 5/20
9/2/23, 16:32 2 — LA RECOLLIDA, L’ORGANITZACIÓ I L’ANÀLISI DE DADES
Freqüència Freqüència
Associacions en Freqüència Freqüència
absoluta relativa
què participen absoluta fi relativa hi
acumulada Fi acumulada Hi
7
Una 7 7 14
= 0,500 0,50
2
0,500 + 0,143 =
Dues 2 7+2=9 = 0,143 9
14
14
= 0,643
9
0 0,643 + 0 = =
Tres 0 9+0=9 14
=0 14
0,643
3 0,643 + 0,214 =
Quatre 3 9 + 3 = 12 = 0,214 12
14
14
= 0,857
2 0,857 + 0,143 =
Cinc o més 2 12 + 2 = 14 = 0,143 14
14
14
=1
Total 14 1
Una vegada hem obtingut un conjunt de dades podem analitzar-les a través del càlcul de
paràmetres estadístics. Aquests paràmetres indiquen el valor central al voltant del qual se situen
les dades.
Mesures de centralització
Aquestes mesures ajuden a determinar els valors més representatius d'un conjunt de dades.
Aquestes mesures són la mitjana aritmètica, la mediana i la moda.
Mitjana aritmètica
Per calcular la mitjana aritmètica sumem totes les dades de què disposem (o multipliquem cada
valor per la seva freqüència absoluta) i tot seguit dividim entre la mida de la mostra.
about:blank 6/20
9/2/23, 16:32 2 — LA RECOLLIDA, L’ORGANITZACIÓ I L’ANÀLISI DE DADES
Mediana
Per calcular la mediana ordenem totes les dades de més petita a més gran i després busquem la
dada que ocupa la posició central, és a dir, la que tingui la mateixa quantitat de dades inferiors i
superiors.
La mediana, Me, és el valor que ocupa la posició central de les dades quan estan ordenades
de més petita a més gran.
Si la mostra té un nombre senar d'elements, ens quedem amb la que ocupa la posició central.
Si la mostra té un nombre parell d'elements, calculem la mitjana aritmètica dels dos valors que
queden al mig.
Moda
Per calcular la moda busquem el valor que es repeteix més entre els subjectes de la mostra
estudiada.
Si hi ha dues dades que tenen la mateixa freqüència absoluta, hi ha dues modes i parlem de
distribució bimodal; quan hi ha tres modes, la distribució és trimodal.
about:blank 7/20
9/2/23, 16:32 2 — LA RECOLLIDA, L’ORGANITZACIÓ I L’ANÀLISI DE DADES
Exemple
Per seleccionar les atletes que formaran part d'una selecció nacional de waterpolo femení,
a les 20 aspirants se'ls ha mesurat la pressió arterial màxima (quan el cor es contreu) i la
mínima (quan el cor està en repòs, entre els batecs). Les dades obtingudes són:
Pressions màximes (mmHg)
121, 120, 120, 121, 122, 121, 118, 121, 120, 120, 120, 119, 121, 118, 119, 120, 120, 119, 121,
119
Freqüència Freqüència
Pressions Freqüència Freqüència
absoluta relativa
màximes absoluta fi relativa hi
acumulada Fi acumulada Hi
122 1 20 0,05 1
Total 20 1
about:blank 8/20
9/2/23, 16:32 2 — LA RECOLLIDA, L’ORGANITZACIÓ I L’ANÀLISI DE DADES
Exemple
Freqüència Freqüència
Pressions Freqüència Freqüència
absoluta relativa
mínimes absoluta fi relativa hi
acumulada Fi acumulada Hi
77 1 1 0,05 0,05
78 3 4 0,15 0,20
79 2 6 0,10 0,30
80 10 16 0,50 0,80
81 4 20 0,20 1
Total 20 1
Però també la podem calcular amb un full de càlcul. Per fer-ho, hi escrivim la funció
MITJANA. En el cas de les pressions mínimes:
Així, obtenim que la mitjana aritmètica de les pressions màximes és 120 mmHg i la de les
mínimes és 79,65 mmHg (en aquest cas, comprovem que la mitjana aritmètica no és
sempre igual a una de les dades).
about:blank 9/20
9/2/23, 16:32 2 — LA RECOLLIDA, L’ORGANITZACIÓ I L’ANÀLISI DE DADES
Exemple
Després, calculem la mediana de les pressions màximes. La nostra mostra té 20 valors, i
els que queden al mig són el número 10 i el número 11. A la columna de freqüències
absolutes acumulades observem que aquests dos valors queden a la fila de 120. Sabem
que la mitjana aritmètica de dos números iguals és aquest mateix número, per tant:
Me = 120
També podem calcular la mediana amb un full de càlcul escrivint-hi la funció MEDIANA. En
el cas de les pressions mínimes:
Per tant, la mediana de les pressions màximes és 120 mmHg i la de les mínimes és
80 mmHg (en aquest cas, igual que en la mitjana aritmètica, observem que la mediana no
sempre és igual a una de les dades).
Finalment, calculem la moda de les pressions màximes. Per això ens fixem, a la columna
de les freqüències absolutes, en el valor de pressió màxima que es repeteix en més atletes:
Mo = 120
També podem calcular la moda amb un full de càlcul escrivint-hi la funció MODA. En el cas
de les pressions mínimes:
about:blank 10/20
9/2/23, 16:32 2 — LA RECOLLIDA, L’ORGANITZACIÓ I L’ANÀLISI DE DADES
Exemple
Així, obtenim que la moda de les pressions màximes és 120 mmHg i la de les mínimes és
80 mmHg (aquí observem que, a diferència de les altres mesures de centralització, la moda
sí que és sempre una de les dades).
Mesures de dispersió
En un estudi estadístic, és important saber si les dades estan o no disperses respecte del centre.
Ho sabrem calculant les mesures de dispersió, que ens indiquen si les dades estan hi agrupades o
allunyades.
Rang
El rang ens permet saber quanta separació hi ha entre la dada més gran i la més petita d'un
conjunt. Per calcular el rang, restem la pressió més baixa a la pressió més alta.
El rang R és la diferència entre el valor més gran i el més petit del conjunt de les dades.
Desviació mitjana
about:blank 11/20
9/2/23, 16:32 2 — LA RECOLLIDA, L’ORGANITZACIÓ I L’ANÀLISI DE DADES
La desviació mitjana d'un conjunt de dades ens permet conèixer la distància mitjana de les dades
respecte de la mitjana. Per trobar-la calculem les diferències entre cada dada i la mitjana, les
sumem i les dividim entre el la mida de la mostra.
La desviació mitjana d és la mitjana dels valors absoluts de les diferències entre les dades i
la mitjana aritmètica.
x 1 − x + x 2 − x + x 3 − x + . . . + x N − x
dm =
N
Variància
La variància ens permet saber si les dades estan més o menys allunyades de la mitjana aritmètica.
Així, com més gran sigui la variància, més lluny es troben les dades de la mitjana, i, com més petita
sigui la variància, més a prop trobem les dades de la mitjana.
Per determinar la variància calculem les diferències al quadrat entre les dades i la mitjana, les
sumem i les dividim entre la mida de la mostra.
Desviació típica
(x 1 − x) 2 + (x 2 − x) 2 + (x 3 − x) 2 + . . . + (x N − x) 2
s = s2 =
N
about:blank 12/20
9/2/23, 16:32 2 — LA RECOLLIDA, L’ORGANITZACIÓ I L’ANÀLISI DE DADES
about:blank 13/20
9/2/23, 16:32 2 — LA RECOLLIDA, L’ORGANITZACIÓ I L’ANÀLISI DE DADES
Exemple
Una empresa emergent ha llançat al mercat una aplicació per escoltar i compartir música i
una altra per escoltar i compartir audiollibres. La direcció està analitzant el nombre de
descàrregues de l'aplicació durant els primers 20 dies des del llançament:
78, 79, 80, 81, 81, 80, 79, 81, 81, 80, 77, 80, 80, 80, 80, 78, 80, 80, 80, 78
Quins són el rang, la desviació mitjana, la variància i la desviació típica de les dades de
descàrregues de totes dues app?
Com que ja disposem dels valors calculats de les mesures de centralització (mitjana,
mediana i moda), calculem directament les mesures de dispersió.
R = 122 – 118 = 4.
I calculem amb Excel el rang de les descàrregues de l'app de música.
about:blank 14/20
9/2/23, 16:32 2 — LA RECOLLIDA, L’ORGANITZACIÓ I L’ANÀLISI DE DADES
Exemple
2 ·2 +1 ·4 +1 ·6 +2 ·1 4
= = = 0,8
20 5
about:blank 15/20
9/2/23, 16:32 2 — LA RECOLLIDA, L’ORGANITZACIÓ I L’ANÀLISI DE DADES
Exemple
D'aquesta manera tenim que la desviació mitjana de les descàrregues de l'app de lectura és
0,8 i la de l'app de música és 0,89.
Tot seguit, calculem la variància per a les dades de totes dues app. Primer, calculem
manualment la variància de les descàrregues de l'app de lectura:
(118 − 120) 2 · 2 + (119 − 120) 2 · 4 + (120 − 120) 2 · 7 + (121 − 120) 2 · 6 + (122 − 120) 2 · 1
s2 = =
N
22 · 2 + 12 · 4 + 12 · 6 + 22 · 1 11
= = = 1,1
20 10
about:blank 16/20
9/2/23, 16:32 2 — LA RECOLLIDA, L’ORGANITZACIÓ I L’ANÀLISI DE DADES
Exemple
Veiem que tenim que la variància de les descàrregues de l'app de lectura és 1,1 i la de l'app
de música és 1,23.
Finalment, calculem la desviació típica de les descàrregues. Com que la desviació típica és
la variància al quadrat (s2), i ja hem calculat la variància, fem aquesta operació
directament:
s = 1,1 = 1,05
I el càlcul de la desviació típica de les descàrregues de l'app de lectura el fem amb Excel:
about:blank 17/20
9/2/23, 16:32 2 — LA RECOLLIDA, L’ORGANITZACIÓ I L’ANÀLISI DE DADES
Exemple
Resum
La població és el conjunt de tots els elements que són objecte de l'estudi estadístic. L'individu
about:blank 18/20
9/2/23, 16:32 2 — LA RECOLLIDA, L’ORGANITZACIÓ I L’ANÀLISI DE DADES
Les variables quantitatives són les que s'expressen numèricament. Les classifiquem
en: variables quantitatives discretes, si entre dos valors poden prendre un nombre limitat de
valors, i variables quantitatives contínues, si entre dos valors poden prendre un nombre infinit
de valors.
La freqüència absoluta fi d'un valor d'una variable estadística és el nombre de cops que aquest
valor es repeteix.
freqüències relatives de tots els valors inferiors o iguals al valor considerat. O, dit d'una altra
x1 + x2 + x3 + . . . + xn
x =
N
La mediana Me és el valor que ocupa la posició central de les dades quan estan ordenades de
El rang R és la diferència entre el valor més gran i el més petit de les dades.
La desviació mitjana d és la mitjana dels valors absoluts de les diferències entre les dades i la
mitjana aritmètica.
about:blank 19/20
9/2/23, 16:32 2 — LA RECOLLIDA, L’ORGANITZACIÓ I L’ANÀLISI DE DADES
⎯⎯ ⎯⎯ ⎯⎯ ⎯⎯
x 1 − x + x 2 − x + x 3 − x + . . . + x N − x
dm =
N
aritmètica.
⎯⎯ 2 ⎯⎯ 2 ⎯⎯ 2 ⎯⎯ 2
(x 1 − x) + (x 2 − x) + (x 3 − x) + . . . + (x N − x)
s2 =
N
(x 1 − x) 2 + (x 2 − x) 2 + (x 3 − x) 2 + . . . + (x N − x) 2
s = s2 =
N
about:blank 20/20