You are on page 1of 14

Les dades: una anàlisi prèvia

La informació: el respecte a les dades

0.- Ad introito al curs: la màgia del nombres en les Ciències


socials

Una de les qüestions que convé tenir present des de l’inici en qualsevol
enfocament quantitatiu de l’anàlisi de la realitat social és quelcom tant prosaic com
no sucumbir a la màgia dels nombres.
Perquè avui en el nostre món les xifres tenen màgia: ens les creiem acríticament,
de manera que un nombre que deriva de qualsevol procediment de recollida
d’informació quan es dóna a conèixer pren vida pròpia i ens domina.
Comentaris com “un 25% de l’economia està submergida”, o “enguany han passat
per Barcelona 8 milions de visitants”, quan han aparegut en els mitjans deixen de
ser quelcom que cal demostrar o que pot ser posat en dubte, i passen a ser una
veritat indiscutible, una veritable tautologia.
Massa vegades l’investigador rigorós es quedarà sol en l’intent de discutir com s’ha
obtingut la dada, la seva fiabilitat, i la seva validesa. Es per això que en el
tractament quantitatiu de la informació ens plantejarem el dubte com a principi
bàsic. Les preguntes per a què?, de qui?, com?, quan?, i on? són fonamentals i
prèvies a donar per vàlida una dada.

1
1.- La necessitat d’informació: tipus de dades

PREVI SOBRE MEDIR I COMPRENDRE


Els fets socials es poden mirar per fora, recomptant-los. Això és el que fa el mètode
quantitatiu, que pretén la quantificació de la realitat social: el mesurament objectiu
I també es poden mirar per dins, comprenent-los. Això és el que fa el mètode qualitatiu,
que pretén comprensió de la realitat social: interpretativa subjectiva

Per tant, la metodologia quantitativa proposarà investigacions per aconseguir


la mesurament o quantificació com a objecte d'estudi i la qualitativa té com a objectiu la
comprensió, la descripció i interpretació del fenomen que estudia.

En aquesta assignatura ens centrem en la metodologia quantitativa

o Dades primàries
o Dades secundàries

Hi ha dos tipus de fonts: les primàries i les secundàries. Les fonts primàries proporcionen
informació de primera mà, és a dir, són dades construïdes expressament per aconseguir
la informació que es vol.

Les fonts secundàries proporcionen dades elaborades i transmeses per altres. S’obtenen
de consultar documents ja existents (bàsicament les estadístiques). L’extracció
d’informació de fonts secundàries ha de fer-se amb rigor i precisió, perquè és sobre
aquestes dades que es basaran les anàlisis, interpretacions i conclusions posteriors.

En molt casos, els processos administratius i de gestió generen informació que pot esser
utilitzada com a dades per a determinats tipus d’anàlisis. Estem parlant de dades que no
s’obtenen directament per a aquestes anàlisis (primàries), i per tant des d’una perspectiva
metodològica parlarem de dades secundàries.
Aquestes dades provenen moltes vegades diferents entorns (instituts d’estadística,
ministeris o conselleries, ajuntaments, altres administracions, fundacions, empreses,...), i

2
caldrà fer-ne una anàlisi completa de la seva adequació per a la recerca específica que es
plantegi.
Si les dades secundaries són suficients, i s’ajusten als nostres objectius específics,
s’acostuma a treballar amb elles, donat que l’obtenció d’informació ad hoc acostuma a ser
un procés costós i dilatat en el temps. Ara bé, massa vegades l’informació disponible no
és suficient, o no és adient! En aquests casos caldrà treballar amb dades primàries,
específicament recollides per a aquella situació concreta.

En parlar de dades primàries cal fer una petita referència a la importància del moment de
la recollida de la informació: l’entrevista.

Les entrevistes poden ser :

o Cara a cara: són les més eficients en termes de garanties, ja que es pot
controlar el comportament de l’entrevistat, veient l’interès, el cansament, el
desconcert derivat de les preguntes i per tant el perill d’una resposta no
reflexiva que por dur a biaixos en les dades. Són, però, molt cares.

o Telefòniques: molt més econòmiques, no admeten, però, un control tant adient


del funcionament de la entrevista. És, avui, el format més utilitzat.

o En grup: encara més econòmiques; tenen sentit en entorns de mostreig molt


específics, quan la població està estructurada en grups estables on és més
senzill treballar amb tot el grup que seleccionar-ne una part (escoles,
universitats, ...)

L’entrevista és el moment crític de la recollida de dades primàries. En aquell


moment ha de confluir un disseny mostral correcte, que ha de permetre
seleccionar a individus representatius de la població, un qüestionari adient, que
contempli i pregunti sobre totes les qüestions objectiu de la recerca, i un
entrevistador preparat per aconseguir una conversa fluida en que l’entrevistat, de

3
manera natural, va donant resposta a tots els interrogants que planteja el
qüestionari.
Problemes, que més endavant es comentaran, en qualsevol dels tres aspectes
poden torpedinejar el procés de recollida de dades, i, per tant, impossibilitar-ne
una correcta gestió.

2.- La dada i la construcció social de la realitat

A. Les fonts de les dades

En l’anàlisi quantitativa de les Ciències Socials s’utilitzen diferents dades per a la


construcció de models, per a la contrastació d’hipòtesis, i/o per a la descripció, més o
menys ajustada, de la realitat social que l’investigador pretén conèixer.
Un element clau per a que aquesta anàlisi sigui el més ajustada possible consisteix en
veure d’on s’han obtingut les dades, és a dir, el seu origen. L’origen de les dades és
especialment important quan es treballa amb dades secundàries, ja que en aquests
casos l’investigador social no té informació construïda expressament ad hoc, i no pot
fer altra cosa que treballar en base a la confiança en qui les ha obtingut: en la font de
les dades.

Pel que fa a aquesta confiança, és a dir a la fiabilitat de les dades, hi ha diferents


categories segons les fonts que les proporcionen; això és degut a que mentre hi ha
fonts en entorns especialitzats en la construcció de dades sense que aquestes tinguin
a veure amb uns determinats objectius de qui les obté (els seus interessos o
necessitats: per tant es pot confiar en la seva fiabilitat), a la banda oposada hi ha les
dades subministrades per entitats o organitzacions que tenen interessos específics en
que apareguin determinats resultats (tenir una bona opinió d’un servei mèdic, policial,
educatiu, etc.), en aquests cassos, obtenir un determinat resultat i no un altre pot
formar part dels objectius dels responsables d’aquestes entitats o organitzacions ,
l’avaluació de les quals (i de vegades fins i tot la seva remuneració) poden estar

4
vinculades als resultats obtinguts: òbviament la fiabilitat d’aquestes dades és molt
menor!!.

Des d’una perspectiva de fiabilitat, i quan parlem de dades secundàries, hi ha diferents


nivells de garantia, que de més a menys seria:

1.- Els instituts d’Estadística (EUROSTAT, INE, IDESCAT, i els de les CCAA que en
tenen), i els instituts temàtics (institut de la dona, agència nacional de Turisme,...)
2.- Departaments d’estadística i publicacions de ministeris i conselleries: anuari del
ministeri de l’interior o del departament d’interior, per ex.
3.- Departaments municipals d’estadística (a les ciutats que en tenen, que normalment
son les grans),...
4.- Departaments d’estudis, especialitzats, de l’administració (CIS, CEO,...), de grans
fundacions, de entitats financeres, de cambres de comerç
5.- Dades de municipis no prou grans, departaments de l’administració, serveis locals
específics (hisendes locals, policies locals,..), mitjanes empreses
6.- Altres fonts de dades disponibles

Com a principi general també es pot dir que les dades d’origen extern a una institució
acostumen a ser més fiables que les dades internes. Es per això que en molts casos
les administracions, a qualsevol dels seus nivells, es plantegen la necessitat
d’avaluacions externes.
Quan s’avalua la fiabilitat de les dades, a més de qui les ha obtingut, val la pena
considerar si són dades administratives, d’aportació voluntària o obligatòria, si deriven
d’enquestes (cal analitzar-ne els aspectes metodològics), si són puntuals o de recollida
contínua,... Es a dir tots aquells aspectes que ajudaran a sentir-nos segurs en els
resultats que se’n derivin.

5
B. La qualitat de les dades: la seva capacitat d’informar

Percentatges i mitjanes (resumir, comparar, i sintetitzar)

Quan es disposa d’informació quantitativa d’una realitat social, la seva capacitat


explicativa estarà condicionada pel tractament estadístic que se’n pugui fer.
No és el mateix treballar amb dades numèriques que amb categories.
Les dades numèriques són resultats expressats en xifres exactes (per exemple una
escala de 0 a 10, el nombre de persones que composen la unitat familiar) i les dades
categòriques són els resultats expressats en categories o classes (molt, bastant, poc,
gens,o dona-home, per exemple).

Les dades numèriques admeten tractaments estadístics complexes, perquè d’una


banda es poden donar les freqüències amb que apareix cada valor, i d’altra banda es
poden fer servir estadístics, univariants i bivariants, més poderosos (per exemple la
mitjana, la desviació típica, el coeficient de variació, la correlació ,...) o aplicar
tècniques d’anàlisi multivariant que potencien la capacitat explicativa de les dades.
En canvi, amb les dades en categories es fan més complexes les comparacions (4 és
el doble que 2 mentre que “molt” no és el doble de “poc”), especialment quan hi ha
moltes categories, i s’acaba fent anàlisis més simples, i ajuntant categories o treballant
amb variables dicotòmiques per a fer més senzills els procediments.
Diríem que les dades quantitatives permeten sintetitzar molt més la informació.

Escales de mesurament (la construcció dels instruments)

En les Ciències Socials moltes vegades es recull informació sobre opinions,


satisfaccions, acords o desacords sobre qüestions, i en aquestes situacions no hi ha
formats de recollida de la informació específicament associats a la naturalesa del que
és vol saber. En aquests casos és l’investigador qui ha de decidir com ha de ser

6
l’instrument de recollida de la informació (el que es coneix com a escala de mesura), i
que ha de tenir totes les característiques d’una variable estadística.
Històricament aquestes escales acostumaven a esser de tipus qualitatiu, i
majoritàriament amb un nombre imparell de categories (3,5,7); avui en dia hi ha una
mena d’acord entre els investigadors en la utilització d’escales quantitatives naturals (0
a 10, o 0 a 100). Es tracta de que les relacions numèriques entre els valors d’avaluació
siguin aportats per qui dona la resposta, amb un ventall ampli de possibilitats,
establint proporcions i distàncies entre situacions diferents que són de tipus matemàtic
i que són reconegudes per tothom, i que , a més, admetin un tractament estadístic
numèric (mitjana,...).
Per exemple, si volem conèixer la valoració de diferents polítics, o diferents partits en
un format d’escala quantitativa des de 0 a 10, per a cada variable (líder A, líder B, ...)
disposarem, al final, d’una mitjana de tots els valors aportats per a cada variable, que
permetrà fàcilment comparar els resultats obtinguts per a cada un d’ells. Imagineu
que aquesta comparació s’ha de fer a partir de les freqüències obtingudes amb cincs
categories per a cadascuna de les diferents variables relatives als polítics que volem
avaluar (molt bé, bastant bé, ni bé ni malament, bastant malament, molt malament).
La possible comparació de les freqüències es complica molt més!

7
3.- Utilitat de les dades: per a què?

 Objectius

 A curt termini
 A llarg termini

Segons siguin els objectius de l’investigació, a curt o a llarg termini, els instruments de
recollida de informació (qüestionaris, protocols administratius,...) prenen
característiques diferents.
En estudis a llarg termini, les dades referides als objectius estructurals s’han de recollir
durant tot el període de la recerca; en canvi els aspectes conjunturals poden anar
adaptant-se al diferents moment de la recerca esdevenint objectius a curt termini de
la investigació.
També hi ha recerques que es mouen únicament en el curt termini, i per tant una
vegada obtinguts els resultats ja no segueix sent necessària la recollida d’informació
sobre aquelles qüestions.

 D’on obtenir les dades

 Dades Internes
 Dades Externes
 Dades Mixtes

Les dades es poden obtenir dins de la pròpia organització que les demanda. Són dades
internes, independentment de com s’hagin obtingut (enquesta, gestió
administrativa,...). Les dades internes haurien de ser correctes ja que en controlem els
procediments de recollida.

A vegades, caldrà utilitzar dades externes, és a dir obtingudes fora de la pròpia


organització o administració. En aquest cas caldrà, abans de donar les dades per
bones, aplicar tots els procediments de control que s’han exposat en parlar de fonts

8
de les dades, justament en funció de la qualitat com a font de dades que presenti
l’organisme que ens les proporciona.

En determinats estudis es treballa amb dades externes i internes, i cal aplicar els
criteris acabats d’esposar.

 Com obtenir les dades


Les dades poden ser administratives (per exemple, les dades de registres policials) i
dades d’obtenció específica (per exemple una enquesta sobre la satisfacció dels usuaris
en una comissaria de Policia)

 Dades administratives
o Pròpies
o D’altres organismes de l’administració
o D’altres institucions o entitats

Les dades administratives tenen avantatges i inconvenients, en relació a les dades


d’obtenció específica. El principal avantatge fa referència al fet que són dades
exhaustives i poblacionals, de manera que no tenen error estadístic derivat de
treballar amb mostres. Els principals inconvenients tenen a veure en que , en el cas de
dades electorals, acostumen a ser molt simples en quan a la informació recollida, i per
tant no es pot aprofundir suficientment en allò que s’investiga (gènere, edat, vot
declarat, nivell d’estudis, relació de convivència, entre d’altres possibles variables
explicatives, no són recollides).
Cal tenir present que, en funció de la proximitat entre l’origen de les dades i els
responsables de la gestió de les mateixes, s’hauran d’establir diferents nivells de
control de la qualitat de les mateixes. A major distància, major control, i a menor
fiabilitat de la font, també, major control.

9
 Dades d’obtenció específica
o Enquestes
o Observacions
o Contatges

Quan les dades s’obtenen específicament per una gestió o recerca determinada
acostumen a ser més fiables, Caldrà analitzar la metodologia emprada en cada cas, i
especialment quan. a efectes de la nostra operativa, les haguem de considerar com a
dades secundàries (obtingudes per altres!).

El conjunt de dades per a la gestió s’ubicaran en una base de dades que admeti el
tractament estadístic de les mateixes. Hi ha bases de dades estàndard de que
disposen la majoria d’administracions, i d’altres de específiques que s’han construït per
a tractaments i gestions específiques de la informació. Les estàndard més habituals
són l’EXCEL de Microsoft, i l’SPSS+ per a PC de IBM. Són compatibles entre elles i
permeten anàlisis que van des dels més senzills (EXCEL) als més complexos (SPSS+).

 Que fer amb les dades

 Tractament estadístic

El tractament estadístic de les dades te varis apartats:

 Definició de les variables


 Construcció de noves variables
 Anàlisi descriptiva univariant (freqüències, mitjanes,...)
 Anàlisi descriptiva bivariant (taules de contingència, correlacions, contrast
d’hipòtesis,...)
 Anàlisi descriptiva multivariant (models de regressió, models factorials,
anàlisi de components principals, arbres de classificació,...)

10
En funció de les necessitats derivades dels objectius que es vulguin assolir es
treballaran diferents aspectes del ventall de possibilitats que l’estadística ofereix.

 Anàlisi politològica

A partir dels resultats estadístics cal que els politòlegs, responsables de la gestió i
anàlisi de les dades, les treballin des d’una perspectiva científica. Serà a partir d’aquest
enfoc que es podran prendre les decisions que convingui en cada situació concreta.

 Validació de les dades

 Qualitat
 Acompliment d’objectius
 Satisfacció
o Interna
o Externa

Tot i que fins fa no massa temps la validació de les dades no era quelcom habitual,
cada vegada pren major importància, especialment des de que el concepte
d’excel·lència apareix com a objectiu fonamental en qualsevol gestió de les dades.
Per assolir l’excel·lència caldrà analitzar la qualitat de les dades i dels procediments de
gestió que s’utilitzen; també caldrà contemplar si s’han assolit els objectius a curt,
mig, i llarg termini que s’havien plantejat. Per acabar, recollir la satisfacció derivada de
la disponibilitat de les dades, i de la seva gestió és quelcom habitual avui per poder
saber si s’està actuant en la bona direcció, la que garantitzi una acceptació de les
propostes i anàlisis derivades d’aquestes dades.

11
4.- Problemes i errors en les dades: biaixos i altres galindaines

Un biaix és qualsevol diferència entre les dades reals i les dades recollides. Els biaixos
es poden produir treballant amb dades secundàries o amb dades primàries,
Els biaixos perillosos són els que no es poden controlar. De fet un biaix controlat es
pot corregir de forma senzilla (l’exemple més habitual és el del biaix que es produïa
antigament en tallar els joves que havien de fer la mili; al mesurar-ne l’alçada
s’acostumava a fer sense treure les sabates, de manera que s’obtenia una alçada
major; ara bé, en restar-li l’alçada mitjana de les sabates – que era bastant
homogènia, s’obtenia una bona aproximació a la realitat).
La majoria del biaixos, però, no són controlables, de manera que el que cal és intentar
que no es produeixin, o que siguin mínims, ja que una vegada produïts no s’hi pot fer
res. De fet aquests, els no controlables, són els que es comenten a continuació

o Biaixos en dades secundàries.

En les dades secundàries poca cosa s’hi pot fer. Es tracta d’avaluar tres aspectes
bàsics
o La fiabilitat de la font (INE, IDESCAT, altres fonts fiables,...):
o Com s’han obtingut les dades (metodologia, o processos i protocols): és
molt important disposar d’informació sobre la metodologia amb que
s’han aconseguit les dades
o Ajust entre les dades secundàries i les necessitats de la investigació (per
exemple el desfàs temporal entre les dades i la investigació, o l’ajust de
les variables d’aquestes dades i les necessitats concretes per a la gestió)

o Biaixos en dades primàries:

Error derivat de treballar amb mostres: no és de fet un biaix ja que al


treballar amb sols una part de la població a estudiar sempre existeix la
possibilitat de que hi hagi discrepància entre els resultats mostrals i la
realitat poblacional desconeguda. Ara bé, aquest error es pot minimitzar, i

12
acotar en un interval associat a una probabilitat (que en diem confiança)
molt elevada (entre el 90 i el 99%) de que els resultats obtinguts amb
aquella mostra continguin el valor poblacional (desconegut) en un interval
prou petit, a partir de que el procés contempli:
 Un disseny mostral aleatori
 Una grandària suficient de la mostra
 Un nivell de confiança en els resultats concretat
que determinaran l’interval de confiança i l’error estadístic màxim
associat.

Error en el disseny mostral (aquests errors sí són biaixos)


 Problemes de marc de mostratge: es pot accedir a tots els
individus de la població estadística que s’analitza?
 Problemes de no aleatorietat: tots els individus de la població
poden formar part de la mostra?
 Problemes de selecció dels individus: la manera de triar els
individus és aleatòria o es tria per quotes, o voluntariosament?
 Problemes en els criteris de substitució: quan un individu de la
mostra no vol participar en donar informació, quins són els criteris
per a substituir-lo? Existeixen, són prou clars, ens duen sempre al
mateix substitut?

Error en el qüestionari (també són biaixos)


El qüestionari és un instrument per a la recollida de la informació, per
tant el qüestionari ha de ser entenedor, senzill, el més breu possible,
amb parades. Que permeti que l’entrevista sigui una conversa dirigida
entre dues persones.
Si l’entrevistat es sent examinat, o no prou preparat per a respondre’l,
no respondrà .

13
Per tant, els errors més previsibles són:
 Fer preguntes que indueixin a una resposta determinada
 Utilitzar un llenguatge massa complexa, no adequat a la població
que s’investiga
 Fer servir referències temporals inadequades
 Realitzar preguntes de resposta òbvia
 Fer preguntes molt complexes
 Construir bateries de preguntes massa llargues
 Utilitzar escales numèriques amb els extrems no explicats, o
il·lògics

o Error en el treball de camp (generaran biaixos)


 El paper de l’entrevistador: neutralitat, paciència, imatge.
L’entrevistador ha de tenir clar que qualsevol resposta és
correcta!!!
 Problemes de llargada de l’entrevista: cansament,
 Problemes de llargada de les preguntes: cabuda en la memòria.
Un entrevistat que no es senti a gust tendirà a respondre sense
reflexionar, de manera que introduirà molts errors incontrolables.

o Error en el tractament de la informació: es podrien revisar amb


posterioritat
 Precodificació i gravació: la base de dades bruta
Control estadístic de valors fora de rang
 Depuració de les dades: la base de dades neta
Control de veracitat, control de congruència.

Josep Maria Aragay i Juli Sabaté


Barcelona, febrer de 2015

14

You might also like