Professional Documents
Culture Documents
a) A partir de les variables que es refereixen a les mesures de seguretat que els individus
tenen en compte (de la P1001 a la P1010) crea una nova variable que sigui el total de
mesures de seguretat que els individus prenen (per tal que te’n facis una idea, aquí sota es
mostra com ha estat formulada la pregunta 10). Per fer-ho considera que sinó han contestat
alguna de les qüestions (NA) és que no fan servir aquella mesura de seguretat. Podem
assegurar amb un 95% de confiança que hi ha diferències entre homes i dones en quant al
total de mesures? Arriba al màxim de conclusions que et sigui possible (de la P1001 a la
P1010 i SEXO).
En primer lloc, hem de construir la variable “total de mesures de seguretat”. Com que tenim
diferents mesures de seguretat (fins a 10 variables que ens informen sobre això), on hi ha el
codi “Si” quan disposa d’aquella mesura, i el codi “No” en cas contrari (i l’NA que l’enunciat
ens diu que el considerem com a No), haurem de transformar aquestes 10 variables a
quantitatives, per poder-les després sumar. Cal fer ambdós passos per la consola. En quant a
la transformació li haurem d’escriure:
Ens demanen la possible relació entre dues variables, el sexe i el nombre de mesures. El sexe
és la variable independent, i és una variable qualitativa que genera dues categories –home i
dona–, mentre que el total de mesures, la variable dependent, és quantitativa. Així doncs, es
tracta de la comparació de dues mitjanes independents. Les hipòtesis que contrastarem són:
H0: El nombre de mesures de seguretat que els homes prenen és el mateix que el nombre
de mesures que prenen les dones, és a dir, no hi ha relació entre el sexe i les mesures
de seguretat (µH=µD).
H1: El nombre de mesures de seguretat que els homes prenen és diferent que el nombre
de mesures que prenen les dones, és a dir, hi ha relació entre el sexe i les mesures de
seguretat (µH≠µD).
1
Ajenjo Cosp, Marc (2018) Pràctiques en Deducer d’inferència estadística aplicada al grau de
Criminologia. Departament de Sociologia, UAB, pp: 83-89.
83
CRIMINOLOGIA. ANÀLISI DE DADES CURS 2017-2018
BLOC 2 PRÀCTIQUES EN DEDUCER. PRÀCTICA 4: SOLUCIONS
El primer que hem de fer és avaluar si es compleixen o no les condicions per fer el test
paramètric. Molt probablement serà així, en tant que la mostra és suficient gran. Si volem
assegurar-nos-en podem demanar un descriptius de la nova variable en funció del sexe, i
veiem que tenim 520 homes i 981 dones, de manera que podem fer el test paramètric:
$`SEXO: Hombre `
Mean.seguretat St. Deviation.seguretat Valid N.seguretat
3.786538 1.816911 520.000000
$`SEXO: Mujer `
Mean.seguretat St. Deviation.seguretat Valid N.seguretat
4.605505 1.816683 981.000000
Demanem, a continuació, la comparació de les variàncies per saber en quin supòsit ens hem
de moure. Veiem que podem assumir variàncies iguals (p-valor=0,991):
Levene's Test for Homogeneity of Variance (center = median)
Df F value Pr(>F)
group 1 1e-04 0.9913
En fer el test (ara ja el definitiu) en cas de variàncies iguals obtenim un p-valor menor de
0,001, de manera que podem assegurar amb un 95% de confiança (p-valor<0,001) que el
nombre de mesures de seguretat que prenen els individus depèn del sexe (o bé, que homes i
dones prenen un nombre diferents de mesures de seguretat). Si observem la primera taula
que hem demanat (que també apareix en aquest test), podem concloure que les dones prenen
més mesures de seguretat que els homes (4,6 i 3,8, respectivament):
Two Sample t-test
mean of Hombre mean of Mujer Difference 95% CI Lower 95% CI Upper t df p-value
seguretat 3.786538 4.605505 -0.8189661 -1.012275 -0.6256575 -8.310243 1499 2.113178e-16
HA: two.sided
H0: difference in means = 0
b) L’Ajuntament de Madrid està preocupat per què ha detectat certes queixes dirigides a la
seva Policia Municipal entre el col·lectiu de persones de nacionalitat sud-americana. No sap
si és una cosa general o casual, de manera que es pregunta com valora aquest col·lectiu la
Policia Municipal. Ajuda als responsables municipals tenint en compte que només ens
interessen dos col·lectius, els que tenen nacionalitat sud-americana i la resta. Fes-ho amb un
95% de confiança arribant al màxim de conclusions que et sigui possible (municipio, P12PM i
P25).
Tal i com està formulat, ens demana que obtinguem un resultat per a la variable nacionalitat,
però tenint en compte només dos col·lectius, els sud-americans i la resta. Per tant, en primer
lloc, agrupem la variable nacionalitat en dues categories: nacionalitat sud-americana i resta.
Tot i que ho podem fer per finestretes, si ho volem fer mitjançant la sintaxi li direm:
L’enunciat ens demana la possible relació entre dues variables, la nacionalitat i l’avaluació a la
policia municipal. La variable independent (nacionalitat) és qualitativa i genera dues categories
–sud-americana i resta–, mentre que la variable dependent (valoració a la policia municipal) és
quantitativa. Així doncs, es tracta de la comparació de dues mitjanes independents, de manera
que les hipòtesis seran:
H0: La valoració de la Policia Municipal és la mateixa entre sudamericans que entre la resta,
és a dir, no hi ha relació entre nacionalitat i valoració de la policia (µSUD=µREST).
H1: La valoració de la Policia Municipal no és la mateixa entre sudamericans que entre la
resta, és a dir, hi ha relació entre nacionalitat i valoració de la policia (µSUD≠µREST).
84
CRIMINOLOGIA. ANÀLISI DE DADES CURS 2017-2018
BLOC 2 PRÀCTIQUES EN DEDUCER. PRÀCTICA 4: SOLUCIONS
Ens demana també que treballem només per al municipi de Madrid. Això ho podem fer de
diferents maneres. Probablement la més pràctica és crear un subftixer que contingui només
els residents a Madrid capital, i treballar posteriorment amb ells. Recordem que per a crear
aquest subfitxer anirem al Data: Subset i li direm:
Per saber si podem fer el test paramètric o no, demanem la normalitat per al col·lectiu de sud-
americans, on veiem que tenim 28 casos, i que no hi ha normalitat (p-valor=0,040). Com que
aquest col·lectiu ja no compleix les condicions per a fer el test paramètric, no ens cal
comprovar què passa amb la resta:
$`strata: all cases `
Mean.P12PM St. Deviation.P12PM Valid N.P12PM
7.071429 2.035401 28.000000
Ara bé, i a diferència del què ens temíem, si busquem el sentit de la relació, veiem que els de
nacionalitat sud-americana valoren millor la Policia Municipal (7,07) que la resta (6,03). Així,
doncs, podem tranquil·litzar al consistori, en el sentit que entre la població sud-americana no
hi ha cap indici de discriminació per part de la Policia Municipal, ans al contrari.
$`strata: No sudamerica `
Mean.P12PM St. Deviation.P12PM Valid N.P12PM
6.033422 2.359340 748.000000
$`strata: Sudamerica `
Mean.P12PM St. Deviation.P12PM Valid N.P12PM
7.071429 2.035401 28.000000
85
CRIMINOLOGIA. ANÀLISI DE DADES CURS 2017-2018
BLOC 2 PRÀCTIQUES EN DEDUCER. PRÀCTICA 4: SOLUCIONS
c) El municipi de Madrid es troba dividit en quatre grans àrees: Almendra Central, Periferia
Noroeste, Periferia Este i Periferia Sur. Hi ha diferències significatives en quant a la
percepció de la seguretat al barri en funció de l’àrea? Respon amb un 95% de confiança
arribant al màxim de conclusions que et sigui possible (municipi, Area, de la P8_DELIN a la
P8_INTIM).
Per generar la variable percepció de la seguretat utilitza totes les variables que fan
referència a la percepció dels problemes que hi ha al barri (de la P8_DELIN a la P8_INTIM).
Construeix-la de manera quantitativa, comptant quants problemes ha detectat, de manera
que si respon “molt” o “bastant” considerarem que ha detectat aquell problema i si contesta
“poc” o “gens” que no l’ha detectat. En aquest cas, considerarem les no respostes (NA) com
a valor perdut. Comprova aquí sota com ha estat formulada la pregunta.
Aquí, més que una percepció de seguretat, generarem una variable que sigui un índex de
percepció d’inseguretat. Es tractarà d’una variable quantitativa on els valors baixos estaran
associats a manca d’inseguretat (0 voldrà dir que no ha detectat cap problema de seguretat) i
els valors alts caldrà llegir-los com a sinònim d’una alta inseguretat (10 voldrà dir que ha
detectat fins a 10 problemes d’inseguretat al seu barri).
Per crear aquesta variable comptarem quantes vegades anomena Molt o Bastant en
cadascuna de les variables que fan referència a la pregunta 8 del qüestionari. En aquest cas la
sintaxi que haurem d’escriure a la consola és:
Compte! Si després de canviar el Mucha i el Bastante per 1, haguéssim dit else=0, ens hauria
agafat els valors Poca i Ninguna, així com els que estan en blanc (NA), i els hagués considerat
que no tenen percepció d’inseguretat.
86
CRIMINOLOGIA. ANÀLISI DE DADES CURS 2017-2018
BLOC 2 PRÀCTIQUES EN DEDUCER. PRÀCTICA 4: SOLUCIONS
En tant que el problema es planteja només en el municipi de Madrid, creem un fitxer amb
només aquests individus, tal i com ho hem fet en l’exercici anterior.
Un cop tenim les dades a punt, rellegim el problema. Ens demana la possible relació entre
dues variables, el barri i l’índex d’inseguretat. El barri és la variable independent, i és una
variable qualitativa que genera quatre categories –Almendra Central, Periferia Noroeste,
Periferia Este i Periferia Sur–, mentre que l’índex d’inseguretat, la variable dependent, és
quantitativa. Així doncs, es tracta de la comparació de més de dues mitjanes independents.
Les hipòtesis en aquest cas seran:
El primer que hem de fer és avaluar si es compleixen o no les condicions per fer el test
paramètric. Només demanant descriptius d’una variable en funció de l’altra ja veiem que es
compleix la condició de mostra gran, en tant que per als quatre barris supera amb escreix els
30 individus (212, 157, 74 i 203). Així podem fer el test anomenat com a anàlisi de la variància.
$`Area: Almendra Central `
Mean.perc_seg St. Deviation.perc_seg Valid N.perc_seg
2.367925 2.303204 212.000000
Comprovem, en primer lloc, si hi ha igualtat o no de variàncies. Tal i com veiem aquí sota (p-
valor=0,001) no podem assumir aquesta igualtat, de manera que haurem de fer l’ANOVA que
el Deducer coneix amb el nom de Welch:
Levene's Test for Homogeneity of Variance (center = median)
Df F value Pr(>F)
group 3 5.3624 0.001188 **
642
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
En fer el test en cas de variàncies diferents obtenim que podem assegurar amb un 95% de
confiança (p-valor<0,001) que la percepció de seguretat no és la mateixa en els quatre barris
de Madrid, sinó que hi ha barris on aquesta és millor i altres on és pitjor.
P value adjustment method: holm
Per saber on són les diferències, hem de fer els contrastos a posteriori seguint la lògica de
variàncies diferents (mètode de variàncies diferents, correcció de holm, per exemple). El
resultat és molt clar. Les úniques diferències significatives que es donen són entre la Periferia
Sur i la resta. Tots els p-valors associats a aquest barri són clarament inferiors a 0,05, mentre
que en la resta de comparacions tots els p-valor són molt superiors a 0,05 (tots donen 1):
87
CRIMINOLOGIA. ANÀLISI DE DADES CURS 2017-2018
BLOC 2 PRÀCTIQUES EN DEDUCER. PRÀCTICA 4: SOLUCIONS
Pairwise comparisons using t tests with pooled SD
d) A partir de la variable que has construït en l’exercici anterior, digues si a la Periferia Este
podem afirmar amb un 90% de confiança que aquesta percepció depèn de l’estatus
socioeconòmic. Per fer-ho agrupa la variable Estatus en tres grups: classe alta/mitjana alta,
classe mitjana, i obrers (municipio, Area, ESTATUS, de la P8_DELIN a la P8_INTIM).
Per tal de comprovar si en algun dels estatus la mostra és menor de 30 individus, demanem
descriptius de la variable perc_seg en funció de la nova variable d’Estatus. En el resultat veiem
que això es dóna en els tres nivells d’estatus, amb mostres de 27, 18 i 19:
$`Estatus_r: CA/CMA `
Mean.perc_seg St. Deviation.perc_seg Valid N.perc_seg
2.703704 2.554255 27.000000
$`Estatus_r: CM `
Mean.perc_seg St. Deviation.perc_seg Valid N.perc_seg
3.222222 2.646986 18.000000
$`Estatus_r: Obr `
Mean.perc_seg St. Deviation.perc_seg Valid N.perc_seg
1.526316 2.037657 19.000000
Si demanem la normalitat als tres grups obtenim que en dos d’ells –classe alta/mitjana alta i
obrers–, no es dona normalitat. Així, haurem de fer el test no paramètric de Kruskal-Wallis:
Shapiro-Wilk normality test Shapiro-Wilk normality test Shapiro-Wilk normality test
W p-value W p-value W p-value
perc_seg 0.8753428 0.003816849 perc_seg 0.9187904 0.1230496 perc_seg 0.7570646 0.0002897876
En fer el test corresponent obtenim que podem assegurar amb un 90% de confiança (p-
valor=0,061) que la percepció de seguretat no és la mateixa en els tres estatus
socioeconòmics:
Kruskal-Wallis rank sum test
Kruskal-Wallis chi-squared df p-value
perc_seg 5.577847 2 0.06148737
88
CRIMINOLOGIA. ANÀLISI DE DADES CURS 2017-2018
BLOC 2 PRÀCTIQUES EN DEDUCER. PRÀCTICA 4: SOLUCIONS
Per saber on són les diferències, hem de fer els contrastos a posteriori seguint la lògica no
paramètrica (mètode de Wilcoxon, correcció de Holm, per exemple). El resultat mostra que
l’única diferència significativa (p-valor=0,064) és entre els de categoria mitjana i els obrers,
mentre que no podem assegurar diferències entre els altres grups:
Pairwise comparisons using Wilcoxon rank sum test
CA/CMA CM
CM 0.460 -
Obr 0.186 0.064
Concloem doncs que la percepció de seguretat no és la mateixa entre els obrers i els de classe
mitjana i, si n’observem les mitjanes (vegeu la primera taula de l’exercici), la conclusió ha de
ser que entre els de classe mitjana la sensació d’inseguretat és superior que entre els obrers.
89