You are on page 1of 20

9/2/23, 16:32 2 — LA RECOLLIDA, L’ORGANITZACIÓ I L’ANÀLISI DE DADES

Índex

Estadística

Variables estadístiques

Recollida i organització de dades

Taules de freqüència

Anàlisi dels resultats

Mesures de centralització

Mesures de dispersió

Estadística

Quan necessitem analitzar un conjunt de dades del nostre entorn hem d'aplicar tècniques
d'estadística.

L'estadística és una disciplina que s'encarrega de recollir, organitzar, representar i analitzar


dades obtingudes de la realitat per descriure-la i extreure'n conclusions.

Depenent de la quantitat de dades que haguem d'analitzar podem treballar amb una població o
amb una mostra.

La població és el conjunt de tots els elements que són objecte de l'estudi estadístic.
L'individu és cadascun dels elements que formen aquesta població.

La mostra és un subconjunt de la població que compleix les condicions de la característica


que s'estudia. Ha de ser representativa de la població.

Sempre que estudiem una mostra cometem un cert error. Com més gran sigui la mida de la mostra,
més petit serà l'error.

about:blank 1/20
9/2/23, 16:32 2 — LA RECOLLIDA, L’ORGANITZACIÓ I L’ANÀLISI DE DADES

Variables estadístiques

En un estudi estadístic podem considerar un gran nombre de característiques: l'alçada, el gènere, la


quantitat d'alguna cosa, els símptomes d'una malaltia, l'edat, etc.

Una variable és una característica o qualitat que s'estudia d'una població.

Les professions d'un grup de persones, per exemple, poden ser: metge, professor, lampista, jutge,
arquitecte, etc. Aquest és un exemple de variable qualitativa, perquè les diverses opcions són
paraules.

Les variables qualitatives són les que no es poden expressar numèricament.

Quan les característiques que estudiem es poden comptar o expressar amb nombres,
constitueixen una altra mena de variables: les quantitatives.

Les variables quantitatives són les que s'expressen numèricament. Les classifiquem en:

Variables quantitatives discretes: si entre dos valors poden prendre un nombre limitat

de valors.

Variables quantitatives contínues: si entre dos valors poden prendre un nombre infinit

de valors.

Per exemple, en un estudi sobre hàbits alimentaris d'un grup de 30 estudiants, la quantitat de joves
que consumeixen, per exemple, carn (17) és una variable discreta, però el pes (75 kg, 68 kg, 70
kg…) o l'alçada (1,80 m, 1,77 m, 1,70 m…) de cada un és una variable contínua.
,

Recollida i organització de dades

Quan portem a terme un estudi estadístic hem de triar el mètode més adient per recollir i
organitzar les dades. Podem, per exemple:

about:blank 2/20
9/2/23, 16:32 2 — LA RECOLLIDA, L’ORGANITZACIÓ I L’ANÀLISI DE DADES

Dissenyar una enquesta.

Fer observacions.

Realitzar mesuraments.

Després, per organitzar les dades, les podem agrupar en conjunts i presentar-les en taules que en
facilitin la visualització i la interpretació.

Taules de freqüència

Per fer-nos una primera idea de com es distribueix un conjunt de dades, el podem ordenar en una
taula de freqüències.

Freqüència absoluta

La freqüència absoluta ens indica quants cops apareix una variable dins del conjunt de dades de
què disposem.

La freqüència absoluta, fi, d'un valor d'una variable estadística és el nombre de cops que
aquest es repeteix.

Si, per exemple, passem una enquesta entre els companys de classe per saber a quins aliments
són al·lèrgics, podem organitzar les dades en una taula de freqüències absolutes com aquesta:

Aliments que produeixen al·lèrgia Freqüència absoluta fi

Llet 5

Ous 4

Fruita seca 4

Fruita 3

Peix 2

Total 18

about:blank 3/20
9/2/23, 16:32 2 — LA RECOLLIDA, L’ORGANITZACIÓ I L’ANÀLISI DE DADES

Cada valor de freqüència absoluta indica la quantitat de companys que són al·lèrgia a cada
aliment. La suma de freqüències absolutes representa la quantitat total d'al·lèrgies.

Freqüència relativa

Les freqüències absolutes depenen de la mida de la mostra o de la població que estem estudiant.
Per això, per comparar dades de diferents estudis, són més útils les freqüències relatives.

La freqüència relativa, hi, d'un valor de la variable estadística és el quocient entre la


freqüència absoluta i la mida de la mostra.

Per exemple, en una recollida d'escombraries a la platja que ha organitzat un grup de voluntaris,
han amuntegat un seguit de deixalles en quantitats (freqüències absolutes) que es reflecteixen en
la taula següent. Amb aquestes dades calculem la mida de la mostra (total de deixalles recollides)
i les freqüències relatives (columna de la dreta):

Tipus de deixalla Freqüència absoluta fi Freqüència relativa hi

5
Plàstic 5 18
= 0,2778 → 27,78 %

4
Paper i cartó 4 18
= 0,2222 → 22,22 %

4
Envasos de vidre 4 18
= 0,2222 → 22,22 %

3
Llaunes 3 18
= 0,1667 → 16,67 %

2
Orgànic 2 18
= 0,1111 → 11,11 %

Total 18 1 → 100 %

Les freqüències relatives les podem expressar en tant per u, i sumen 1; o en percentatge, i sumen
100.

Freqüència absoluta acumulada

Quan treballem amb variable quantitatives, de vegades necessitem saber quantes dades tenen un
valor igual o inferior a un altre. Aleshores, calculem les freqüències absolutes acumulades.

about:blank 4/20
9/2/23, 16:32 2 — LA RECOLLIDA, L’ORGANITZACIÓ I L’ANÀLISI DE DADES

La freqüència absoluta acumulada, Fi, d'un valor de la variable estadística és la suma de les
freqüències absolutes de tots els valors inferiors o iguals al valor considerat.

En un estudi sobre turisme local a Espanya consultem sobre la quantitat de persones que han
visitat una o més capitals de província, i amb les freqüències absolutes calculem les freqüències
acumulades.

Capitals de província visitades Freqüència absoluta fi Freqüència absoluta acumulada Fi

Una 7 7

Dues 2 7+2=9

Tres 0 9+0=9

Quatre 3 9 + 3 = 12

Cinc o més 2 12 + 2 = 14

Total 14

Efectivament, l'última freqüència absoluta acumulada coincideix amb la mida de la mostra o de la


població.

Freqüència relativa acumulada

Pel que fa a les freqüències relatives, també les podem calcular de forma acumulada.

La freqüència relativa acumulada, Hi, d'un valor de la variable estadística és la suma de les
freqüències relatives de tots els valors inferiors o iguals al valor considerat. O, el que és el
mateix, és igual al quocient entre la freqüència absoluta acumulada i la mida de la mostra.

Per exemple, volem saber quants dels nostres companys participen en activitats de voluntariat en
associacions de treball social.

about:blank 5/20
9/2/23, 16:32 2 — LA RECOLLIDA, L’ORGANITZACIÓ I L’ANÀLISI DE DADES

Freqüència Freqüència
Associacions en Freqüència Freqüència
absoluta relativa
què participen absoluta fi relativa hi
acumulada Fi acumulada Hi

7
Una 7 7 14
= 0,500 0,50

2
0,500 + 0,143 =
Dues 2 7+2=9 = 0,143 9
14
14
= 0,643

9
0 0,643 + 0 = =
Tres 0 9+0=9 14
=0 14
0,643

3 0,643 + 0,214 =
Quatre 3 9 + 3 = 12 = 0,214 12
14
14
= 0,857

2 0,857 + 0,143 =
Cinc o més 2 12 + 2 = 14 = 0,143 14
14
14
=1

Total 14 1

Les freqüències relatives acumulades les podem convertir en percentatges.


,

Anàlisi dels resultats

Una vegada hem obtingut un conjunt de dades podem analitzar-les a través del càlcul de
paràmetres estadístics. Aquests paràmetres indiquen el valor central al voltant del qual se situen
les dades.

Mesures de centralització

Aquestes mesures ajuden a determinar els valors més representatius d'un conjunt de dades.
Aquestes mesures són la mitjana aritmètica, la mediana i la moda.

Mitjana aritmètica

Per calcular la mitjana aritmètica sumem totes les dades de què disposem (o multipliquem cada
valor per la seva freqüència absoluta) i tot seguit dividim entre la mida de la mostra.

about:blank 6/20
9/2/23, 16:32 2 — LA RECOLLIDA, L’ORGANITZACIÓ I L’ANÀLISI DE DADES

La mitjana aritmètica, x , és la mitjana de les dades:


x1 + x2 + x3 + . . . + xn
x =
N

Mediana

Per calcular la mediana ordenem totes les dades de més petita a més gran i després busquem la
dada que ocupa la posició central, és a dir, la que tingui la mateixa quantitat de dades inferiors i
superiors.

La mediana, Me, és el valor que ocupa la posició central de les dades quan estan ordenades
de més petita a més gran.

Un cop ordenem les dades de més petita a més gran:

Si la mostra té un nombre senar d'elements, ens quedem amb la que ocupa la posició central.

Si la mostra té un nombre parell d'elements, calculem la mitjana aritmètica dels dos valors que

queden al mig.

Moda

Per calcular la moda busquem el valor que es repeteix més entre els subjectes de la mostra
estudiada.

La moda Mo és el valor amb freqüència absoluta més elevada.

Si hi ha dues dades que tenen la mateixa freqüència absoluta, hi ha dues modes i parlem de
distribució bimodal; quan hi ha tres modes, la distribució és trimodal.

about:blank 7/20
9/2/23, 16:32 2 — LA RECOLLIDA, L’ORGANITZACIÓ I L’ANÀLISI DE DADES

Exemple

Per seleccionar les atletes que formaran part d'una selecció nacional de waterpolo femení,
a les 20 aspirants se'ls ha mesurat la pressió arterial màxima (quan el cor es contreu) i la
mínima (quan el cor està en repòs, entre els batecs). Les dades obtingudes són:
Pressions màximes (mmHg)
121, 120, 120, 121, 122, 121, 118, 121, 120, 120, 120, 119, 121, 118, 119, 120, 120, 119, 121,
119

Pressions mínimes (mmHg)


80, 80, 80, 78, 81, 80, 79, 81, 81, 80, 77, 78, 79, 80, 81, 80, 80, 80, 80, 78
Quina és la mitjana, la mediana i la moda de la pressió arterial màxima i mínima d'aquest
grup d'esportistes?

Creem una taula de freqüències amb les pressions arterials.

Per a les pressions màximes:

Freqüència Freqüència
Pressions Freqüència Freqüència
absoluta relativa
màximes absoluta fi relativa hi
acumulada Fi acumulada Hi

118 2 2 0,10 0,10

119 4 6 0,20 0,30

120 7 13 0,35 0,65

121 6 19 0,30 0,95

122 1 20 0,05 1

Total 20 1

Per a les pressions mínimes:

about:blank 8/20
9/2/23, 16:32 2 — LA RECOLLIDA, L’ORGANITZACIÓ I L’ANÀLISI DE DADES

Exemple

Freqüència Freqüència
Pressions Freqüència Freqüència
absoluta relativa
mínimes absoluta fi relativa hi
acumulada Fi acumulada Hi

77 1 1 0,05 0,05

78 3 4 0,15 0,20

79 2 6 0,10 0,30

80 10 16 0,50 0,80

81 4 20 0,20 1

Total 20 1

Calculem la mitjana aritmètica de les pressions màximes:


118 · 2 + 119 · 4 + 120 · 7 + 121 · 6 + 122 · 1 2400
x = = = 120
20 20

Però també la podem calcular amb un full de càlcul. Per fer-ho, hi escrivim la funció
MITJANA. En el cas de les pressions mínimes:

Així, obtenim que la mitjana aritmètica de les pressions màximes és 120 mmHg i la de les
mínimes és 79,65 mmHg (en aquest cas, comprovem que la mitjana aritmètica no és
sempre igual a una de les dades).

about:blank 9/20
9/2/23, 16:32 2 — LA RECOLLIDA, L’ORGANITZACIÓ I L’ANÀLISI DE DADES

Exemple
Després, calculem la mediana de les pressions màximes. La nostra mostra té 20 valors, i
els que queden al mig són el número 10 i el número 11. A la columna de freqüències
absolutes acumulades observem que aquests dos valors queden a la fila de 120. Sabem
que la mitjana aritmètica de dos números iguals és aquest mateix número, per tant:
Me = 120
També podem calcular la mediana amb un full de càlcul escrivint-hi la funció MEDIANA. En
el cas de les pressions mínimes:

Per tant, la mediana de les pressions màximes és 120 mmHg i la de les mínimes és
80 mmHg (en aquest cas, igual que en la mitjana aritmètica, observem que la mediana no
sempre és igual a una de les dades).
Finalment, calculem la moda de les pressions màximes. Per això ens fixem, a la columna
de les freqüències absolutes, en el valor de pressió màxima que es repeteix en més atletes:
Mo = 120
També podem calcular la moda amb un full de càlcul escrivint-hi la funció MODA. En el cas
de les pressions mínimes:

about:blank 10/20
9/2/23, 16:32 2 — LA RECOLLIDA, L’ORGANITZACIÓ I L’ANÀLISI DE DADES

Exemple

Així, obtenim que la moda de les pressions màximes és 120 mmHg i la de les mínimes és
80 mmHg (aquí observem que, a diferència de les altres mesures de centralització, la moda
sí que és sempre una de les dades).

Mesures de dispersió

En un estudi estadístic, és important saber si les dades estan o no disperses respecte del centre.
Ho sabrem calculant les mesures de dispersió, que ens indiquen si les dades estan hi agrupades o
allunyades.

Rang

El rang ens permet saber quanta separació hi ha entre la dada més gran i la més petita d'un
conjunt. Per calcular el rang, restem la pressió més baixa a la pressió més alta.

El rang R és la diferència entre el valor més gran i el més petit del conjunt de les dades.

Desviació mitjana

about:blank 11/20
9/2/23, 16:32 2 — LA RECOLLIDA, L’ORGANITZACIÓ I L’ANÀLISI DE DADES

La desviació mitjana d'un conjunt de dades ens permet conèixer la distància mitjana de les dades
respecte de la mitjana. Per trobar-la calculem les diferències entre cada dada i la mitjana, les
sumem i les dividim entre el la mida de la mostra.

La desviació mitjana d és la mitjana dels valors absoluts de les diferències entre les dades i
la mitjana aritmètica.
 x 1 − x  +  x 2 − x  +  x 3 − x  + . . . +  x N − x 
       
dm =
N

Variància

La variància ens permet saber si les dades estan més o menys allunyades de la mitjana aritmètica.
Així, com més gran sigui la variància, més lluny es troben les dades de la mitjana, i, com més petita
sigui la variància, més a prop trobem les dades de la mitjana.

Per determinar la variància calculem les diferències al quadrat entre les dades i la mitjana, les
sumem i les dividim entre la mida de la mostra.

La variància s2 és la mitjana de les diferències al quadrat entre les dades i la mitjana


aritmètica.
⎯⎯ 2 ⎯⎯ 2 ⎯⎯ 2 ⎯⎯ 2
(x 1 − x) + (x 2 − x) + (x 3 − x) + . . . + (x N − x)
2
s =
N

Desviació típica

La desviació típica i la variància estan relacionades. Normalment es treballa amb la desviació


típica més que amb la variància, perquè la desviació típica té les mateixes unitats que les dades i
la variància té aquestes mateixes unitats al quadrat. La variància, doncs, és la desviació típica s al
quadrat: s2.

La desviació típica s és l'arrel quadrada de la variància.

(x 1 − x) 2 + (x 2 − x) 2 + (x 3 − x) 2 + . . . + (x N − x) 2
s = s2 =
N

about:blank 12/20
9/2/23, 16:32 2 — LA RECOLLIDA, L’ORGANITZACIÓ I L’ANÀLISI DE DADES

about:blank 13/20
9/2/23, 16:32 2 — LA RECOLLIDA, L’ORGANITZACIÓ I L’ANÀLISI DE DADES

Exemple

Una empresa emergent ha llançat al mercat una aplicació per escoltar i compartir música i
una altra per escoltar i compartir audiollibres. La direcció està analitzant el nombre de
descàrregues de l'aplicació durant els primers 20 dies des del llançament:

Descàrregues de l'aplicació d'audiollibres


120, 119, 121, 118, 119, 120, 120, 119, 121, 119, 121, 120, 120, 121, 122, 121, 118, 121, 120,
120
Descàrregues de l'aplicació de música

78, 79, 80, 81, 81, 80, 79, 81, 81, 80, 77, 80, 80, 80, 80, 78, 80, 80, 80, 78

En una feina prèvia ja han calculat les mesures de centralització:

Descàrregues de l'App de lectura: mitjana = 120; mediana = 120; moda = 120

Descàrregues de l'App de música: mitjana = 79,65; mediana = 80; moda = 80

Quins són el rang, la desviació mitjana, la variància i la desviació típica de les dades de
descàrregues de totes dues app?

Com que ja disposem dels valors calculats de les mesures de centralització (mitjana,
mediana i moda), calculem directament les mesures de dispersió.

Calculem manualment el rang de les descàrregues de l'app de lectura.

R = 122 – 118 = 4.
I calculem amb Excel el rang de les descàrregues de l'app de música.

about:blank 14/20
9/2/23, 16:32 2 — LA RECOLLIDA, L’ORGANITZACIÓ I L’ANÀLISI DE DADES

Exemple

Escrivim la funció MAX menys la funció MIN.

De manera que tenim que el rang de descàrregues de totes dues app és 4.


Ara, calculem manualment la desviació mitjana de les descàrregues de l'app de lectura.
 118 − 120  · 2 +  119 − 120  · 4 +  120 − 120  · 7 +  121 − 120  · 6 +  122 − 120  · 1
dm = =
         
20

2 ·2 +1 ·4 +1 ·6 +2 ·1 4
= = = 0,8
20 5

I calculem amb Excel la desviació mitjana de les descàrregues de l'app de música.

about:blank 15/20
9/2/23, 16:32 2 — LA RECOLLIDA, L’ORGANITZACIÓ I L’ANÀLISI DE DADES

Exemple

Escrivim la funció DESVMITJ.

D'aquesta manera tenim que la desviació mitjana de les descàrregues de l'app de lectura és
0,8 i la de l'app de música és 0,89.

Tot seguit, calculem la variància per a les dades de totes dues app. Primer, calculem
manualment la variància de les descàrregues de l'app de lectura:
(118 − 120) 2 · 2 + (119 − 120) 2 · 4 + (120 − 120) 2 · 7 + (121 − 120) 2 · 6 + (122 − 120) 2 · 1
s2 = =
N

22 · 2 + 12 · 4 + 12 · 6 + 22 · 1 11
= = = 1,1
20 10

I calculem amb Excel la variància de les descàrregues de l'app de música.

about:blank 16/20
9/2/23, 16:32 2 — LA RECOLLIDA, L’ORGANITZACIÓ I L’ANÀLISI DE DADES

Exemple

Escrivim la funció VAR.P.

Veiem que tenim que la variància de les descàrregues de l'app de lectura és 1,1 i la de l'app
de música és 1,23.

Finalment, calculem la desviació típica de les descàrregues. Com que la desviació típica és
la variància al quadrat (s2), i ja hem calculat la variància, fem aquesta operació
directament:
s = 1,1 = 1,05

I el càlcul de la desviació típica de les descàrregues de l'app de lectura el fem amb Excel:

about:blank 17/20
9/2/23, 16:32 2 — LA RECOLLIDA, L’ORGANITZACIÓ I L’ANÀLISI DE DADES

Exemple

Escrivim la funció DESVEST.P.


Amb la qual cosa tenim que la desviació típica de les descàrregues de l'app de lectura de
1,05, mentre que la de la música és 1,11.

Resum

Recorda algunes definicions clau d'aquest recurs teòric:

L'estadística és una disciplina d'estudi que s'encarrega de recollir, organitzar, representar i

analitzar dades obtingudes de la realitat per descriure-la i extreure'n conclusions.

La població és el conjunt de tots els elements que són objecte de l'estudi estadístic. L'individu

és cada un dels elements que formen aquesta població.

La mostra és un subconjunt representatiu de la població en la característica que s'estudia. Ha

de ser representativa de la població.

Una variable és una característica o qualitat que s'estudia d'una població.

about:blank 18/20
9/2/23, 16:32 2 — LA RECOLLIDA, L’ORGANITZACIÓ I L’ANÀLISI DE DADES

Les variables qualitatives són les que no es poden expressar numèricament.

Les variables quantitatives són les que s'expressen numèricament. Les classifiquem

en: variables quantitatives discretes, si entre dos valors poden prendre un nombre limitat de

valors, i variables quantitatives contínues, si entre dos valors poden prendre un nombre infinit

de valors.

La freqüència absoluta fi d'un valor d'una variable estadística és el nombre de cops que aquest

valor es repeteix.

La freqüència relativa hi d'un valor de la variable estadística és el quocient entre la freqüència

absoluta i la mida de la mostra.

La freqüència absoluta acumulada Fi d'un valor de la variable estadística és la suma de las

freqüències absolutes de tots els valors inferiors o iguals al valor considerat.

La freqüència relativa acumulada Hi d'un valor de la variable estadística és la suma de les

freqüències relatives de tots els valors inferiors o iguals al valor considerat. O, dit d'una altra

manera, és igual al quocient entre la freqüència absoluta acumulada i la mida de la mostra.

La mitjana aritmètica x és el quocient de la suma de valors d'un conjunt i del nombre

d'elements que el formen.

x1 + x2 + x3 + . . . + xn
x =
N

La mediana Me és el valor que ocupa la posició central de les dades quan estan ordenades de

més petita a més gran.

La moda Mo és el valor amb la freqüència absoluta més elevada.

El rang R és la diferència entre el valor més gran i el més petit de les dades.

La desviació mitjana d és la mitjana dels valors absoluts de les diferències entre les dades i la

mitjana aritmètica.

about:blank 19/20
9/2/23, 16:32 2 — LA RECOLLIDA, L’ORGANITZACIÓ I L’ANÀLISI DE DADES
⎯⎯  ⎯⎯  ⎯⎯  ⎯⎯ 
 x 1 − x  +  x 2 − x  +  x 3 − x  + . . . +  x N − x 
   
dm =
N

La variància s2 és la mitjana de les diferències al quadrat entre les dades i la mitjana

aritmètica.

⎯⎯ 2 ⎯⎯ 2 ⎯⎯ 2 ⎯⎯ 2
(x 1 − x) + (x 2 − x) + (x 3 − x) + . . . + (x N − x)
s2 =
N

La desviació típica s és l'arrel quadrada de la variància.

(x 1 − x) 2 + (x 2 − x) 2 + (x 3 − x) 2 + . . . + (x N − x) 2
s = s2 =
N

about:blank 20/20

You might also like