Pràctica 4 - Solucions

CRIMINOLOGIA.
ANÀLISI DE DADES CURS 2017-2018

BLOC 2 PRÀCTIQUES EN DEDUCER. PRÀCTICA 4: SOLUCIONS
Pràctica 4. Solucions als exercicis proposats1
a) A partir de les variables que es refereixen a les mesures de seguretat que els individus
tenen en compte (de la P1001 a la P1010) crea una nova variable que sigui el total de
mesures de seguretat que els individus prenen (per tal que te’n facis una idea, aquí sota es
mostra com ha estat formulada la pregunta 10). Per fer-ho considera que sinó han contestat
alguna de les qüestions (NA) és que no fan servir aquella mesura de seguretat. Podem
assegurar amb un 95% de confiança que hi ha diferències entre homes i dones en quant al
total de mesures? Arriba al màxim de conclusions que et sigui possible (de la P1001 a la
P1010 i SEXO).
En primer lloc, hem de construir la variable “total de mesures de seguretat”. Com que tenim
diferents mesures de seguretat (fins a 10 variables que ens informen sobre això), on hi ha el
codi “Si” quan disposa d’aquella mesura, i el codi “No” en cas contrari (i l’NA que l’enunciat
ens diu que el considerem com a No), haurem de transformar aquestes 10 variables a
quantitatives, per poder-les després sumar. Cal fer ambdós passos per la consola. En quant a
la transformació li haurem d’escriure:
DadesCAM$P1001_r<-Recode(DadesCAM$P1001,' "Si"=1; else=0 ',as.factor.result=FALSE)

I per fer la suma:
DadesCAM$seguretat<-DadesCAM$P1001_r + DadesCAM$P1002_r + DadesCAM$P1003_r +

DadesCAM$P1004_r + DadesCAM$P1005_r + DadesCAM$P1006_r + DadesCAM$P1007_r +
DadesCAM$P1008_r + DadesCAM$P1009_r + DadesCAM$P1010_r
Ens demanen la possible relació entre dues variables, el sexe i el nombre de mesures. El sexe
és la variable independent, i és una variable qualitativa que genera dues categories –home i
dona–, mentre que el total de mesures, la variable dependent, és quantitativa. Així doncs, es
tracta de la comparació de dues mitjanes independents. Les hipòtesis que contrastarem són:
H0: El nombre de mesures de seguretat que els homes prenen és el mateix que el nombre
de mesures que prenen les dones, és a dir, no hi ha relació entre el sexe i les mesures
de seguretat (µH=µD).
H1: El nombre de mesures de seguretat que els homes prenen és diferent que el nombre
de mesures que prenen les dones, és a dir, hi ha relació entre el sexe i les mesures de
seguretat (µH≠µD).
1
Ajenjo Cosp, Marc (2018) Pràctiques en Deducer d’inferència estadística aplicada al grau de
Criminologia. Departament de Sociologia, UAB, pp: 83-89.
83
CRIMINOLOGIA. ANÀLISI DE DADES CURS 2017-2018
El primer que hem de fer és avaluar si es compleixen o no les condicions per fer el test
paramètric. Molt probablement serà així, en tant que la mostra és suficient gran. Si volem
assegurar-nos-en podem demanar un descriptius de la nova variable en funció del sexe, i
veiem que tenim 520 homes i 981 dones, de manera que podem fer el test paramètric:
$`SEXO: Hombre `
Mean.seguretat St. Deviation.seguretat Valid N.seguretat
3.786538 1.816911 520.000000
$`SEXO: Mujer `
Mean.seguretat St. Deviation.seguretat Valid N.seguretat
4.605505 1.816683 981.000000
Demanem, a continuació, la comparació de les variàncies per saber en quin supòsit ens hem
de moure. Veiem que podem assumir variàncies iguals (p-valor=0,991):
Levene's Test for Homogeneity of Variance (center = median)
Df F value Pr(>F)
group 1 1e-04 0.9913
En fer el test (ara ja el definitiu) en cas de variàncies iguals obtenim un p-valor menor de
0,001, de manera que podem assegurar amb un 95% de confiança (p-valor<0,001) que el
nombre de mesures de seguretat que prenen els individus depèn del sexe (o bé, que homes i
dones prenen un nombre diferents de mesures de seguretat). Si observem la primera taula
que hem demanat (que també apareix en aquest test), podem concloure que les dones prenen
més mesures de seguretat que els homes (4,6 i 3,8, respectivament):
Two Sample t-test
mean of Hombre mean of Mujer Difference 95% CI Lower 95% CI Upper t df p-value
seguretat 3.786538 4.605505 -0.8189661 -1.012275 -0.6256575 -8.310243 1499 2.113178e-16
HA: two.sided
H0: difference in means = 0
b) L’Ajuntament de Madrid està preocupat per què ha detectat certes queixes dirigides a la
seva Policia Municipal entre el col·lectiu de persones de nacionalitat sud-americana. No sap
si és una cosa general o casual, de manera que es pregunta com valora aquest col·lectiu la
Policia Municipal. Ajuda als responsables municipals tenint en compte que només ens
interessen dos col·lectius, els que tenen nacionalitat sud-americana i la resta. Fes-ho amb un
95% de confiança arribant al màxim de conclusions que et sigui possible (municipio, P12PM i
P25).
Tal i com està formulat, ens demana que obtinguem un resultat per a la variable nacionalitat,
però tenint en compte només dos col·lectius, els sud-americans i la resta. Per tant, en primer
lloc, agrupem la variable nacionalitat en dues categories: nacionalitat sud-americana i resta.
Tot i que ho podem fer per finestretes, si ho volem fer mitjançant la sintaxi li direm:
DadesCAM$sudam<-Recode(DadesCAM$P25, ' "Sudamerica"="Sudamerica"; else="No sudamerica" ',

as.factor.result=TRUE)
L’enunciat ens demana la possible relació entre dues variables, la nacionalitat i l’avaluació a la
policia municipal. La variable independent (nacionalitat) és qualitativa i genera dues categories
–sud-americana i resta–, mentre que la variable dependent (valoració a la policia municipal) és
quantitativa. Així doncs, es tracta de la comparació de dues mitjanes independents, de manera
que les hipòtesis seran:
H0: La valoració de la Policia Municipal és la mateixa entre sudamericans que entre la resta,
és a dir, no hi ha relació entre nacionalitat i valoració de la policia (µSUD=µREST).
H1: La valoració de la Policia Municipal no és la mateixa entre sudamericans que entre la
resta, és a dir, hi ha relació entre nacionalitat i valoració de la policia (µSUD≠µREST).
84
Ens demana també que treballem només per al municipi de Madrid. Això ho podem fer de
diferents maneres. Probablement la més pràctica és crear un subftixer que contingui només
els residents a Madrid capital, i treballar posteriorment amb ells. Recordem que per a crear
aquest subfitxer anirem al Data: Subset i li direm:
Per saber si podem fer el test paramètric o no, demanem la normalitat per al col·lectiu de sud-
americans, on veiem que tenim 28 casos, i que no hi ha normalitat (p-valor=0,040). Com que
aquest col·lectiu ja no compleix les condicions per a fer el test paramètric, no ens cal
comprovar què passa amb la resta:
$`strata: all cases `
Mean.P12PM St. Deviation.P12PM Valid N.P12PM
7.071429 2.035401 28.000000
Shapiro-Wilk normality test

W p-value
P12PM 0.9223119 0.0395771
En el test no paramètric de Wilcoxon obtenim que sí que hi ha diferències significatives entre

la valoració que fan els uns i els altres (p-valor=0,014), de manera que podem assegurar amb
un 95% de confiança que l’avaluació de la Policia Municipal al municipi de Madrid no és la
mateixa entre els sud-americans que entre la resta.
Ara bé, i a diferència del què ens temíem, si busquem el sentit de la relació, veiem que els de
nacionalitat sud-americana valoren millor la Policia Municipal (7,07) que la resta (6,03). Així,
doncs, podem tranquil·litzar al consistori, en el sentit que entre la població sud-americana no
hi ha cap indici de discriminació per part de la Policia Municipal, ans al contrari.
$`strata: No sudamerica `
6.033422 2.359340 748.000000
$`strata: Sudamerica `
7.071429 2.035401 28.000000
Wilcoxon rank sum test

W p-value
P12PM 7646.5 0.01417441
HA: two.sided
H0: location shift = 0
85
c) El municipi de Madrid es troba dividit en quatre grans àrees: Almendra Central, Periferia
Noroeste, Periferia Este i Periferia Sur. Hi ha diferències significatives en quant a la
percepció de la seguretat al barri en funció de l’àrea? Respon amb un 95% de confiança
arribant al màxim de conclusions que et sigui possible (municipi, Area, de la P8_DELIN a la
P8_INTIM).
Per generar la variable percepció de la seguretat utilitza totes les variables que fan
referència a la percepció dels problemes que hi ha al barri (de la P8_DELIN a la P8_INTIM).
Construeix-la de manera quantitativa, comptant quants problemes ha detectat, de manera
que si respon “molt” o “bastant” considerarem que ha detectat aquell problema i si contesta
“poc” o “gens” que no l’ha detectat. En aquest cas, considerarem les no respostes (NA) com
a valor perdut. Comprova aquí sota com ha estat formulada la pregunta.
Aquí, més que una percepció de seguretat, generarem una variable que sigui un índex de
percepció d’inseguretat. Es tractarà d’una variable quantitativa on els valors baixos estaran
associats a manca d’inseguretat (0 voldrà dir que no ha detectat cap problema de seguretat) i
els valors alts caldrà llegir-los com a sinònim d’una alta inseguretat (10 voldrà dir que ha
detectat fins a 10 problemes d’inseguretat al seu barri).
Per crear aquesta variable comptarem quantes vegades anomena Molt o Bastant en
cadascuna de les variables que fan referència a la pregunta 8 del qüestionari. En aquest cas la
sintaxi que haurem d’escriure a la consola és:
DadesCAM$P8DELIN_r<-recode(DadesCAM$P8_DELIN,' "Mucha"=1; "Bastante"=1; "Poca"=0;

"Ninguna"=0 ', as.factor.result=FALSE)
DadesCAM$P8PROST_r<-recode(DadesCAM$P8_PROST,' "Mucha"=1; "Bastante"=1; "Poca"=0;
DadesCAM$P8MOBIL_r<-recode(DadesCAM$P8_MOBIL,' "Mucha"=1; "Bastante"=1; "Poca"=0;
DadesCAM$P8ILUM_r<-recode(DadesCAM$P8_ILUM,' "Mucha"=1; "Bastante"=1; "Poca"=0;
DadesCAM$P8COCH_r<-recode(DadesCAM$P8_COCH,' "Mucha"=1; "Bastante"=1; "Poca"=0;
DadesCAM$P8MEND_r<-recode(DadesCAM$P8_MEND,' "Mucha"=1; "Bastante"=1; "Poca"=0;
DadesCAM$P8VEC_r<-recode(DadesCAM$P8_VEC,' "Mucha"=1; "Bastante"=1; "Poca"=0;
DadesCAM$P8ESC_r<-recode(DadesCAM$P8_ESC,' "Mucha"=1; "Bastante"=1; "Poca"=0;
DadesCAM$P8DROG_r<-recode(DadesCAM$P8_DROG,' "Mucha"=1; "Bastante"=1; "Poca"=0;
DadesCAM$P8ALCOH_r<-recode(DadesCAM$P8_ALCOH,' "Mucha"=1; "Bastante"=1; "Poca"=0;
DadesCAM$P8INTIM_r<-recode(DadesCAM$P8_INTIM,' "Mucha"=1; "Bastante"=1; "Poca"=0;
Compte! Si després de canviar el Mucha i el Bastante per 1, haguéssim dit else=0, ens hauria
agafat els valors Poca i Ninguna, així com els que estan en blanc (NA), i els hagués considerat
que no tenen percepció d’inseguretat.
Per a obtenir l’indicador sumem les 11 variables creades de la següent manera:
DadesCAM$perc_seg<-DadesCAM$P8DELIN_r + DadesCAM$P8PROST_r + DadesCAM$P8MOBIL_r +

DadesCAM$P8ILUM_r + DadesCAM$P8COCH_r + DadesCAM$P8MEND_r + DadesCAM$P8VEC_r +
DadesCAM$P8ESC_r + DadesCAM$P8DROG_r + DadesCAM$P8ALCOH_r + DadesCAM$P8INTIM_r
86
En tant que el problema es planteja només en el municipi de Madrid, creem un fitxer amb
només aquests individus, tal i com ho hem fet en l’exercici anterior.
Un cop tenim les dades a punt, rellegim el problema. Ens demana la possible relació entre
dues variables, el barri i l’índex d’inseguretat. El barri és la variable independent, i és una
variable qualitativa que genera quatre categories –Almendra Central, Periferia Noroeste,
Periferia Este i Periferia Sur–, mentre que l’índex d’inseguretat, la variable dependent, és
quantitativa. Així doncs, es tracta de la comparació de més de dues mitjanes independents.
Les hipòtesis en aquest cas seran:
H0: La percepció d’inseguretat és la mateixa en tots els barris, és a dir, no hi ha relació

entre el barri de residència i la percepció d’inseguretat.
H1: La percepció d’inseguretat varia en funció del barri de residència, és a dir, hi ha relació
entre el barri de residència i la percepció d’inseguretat.
El primer que hem de fer és avaluar si es compleixen o no les condicions per fer el test
paramètric. Només demanant descriptius d’una variable en funció de l’altra ja veiem que es
compleix la condició de mostra gran, en tant que per als quatre barris supera amb escreix els
30 individus (212, 157, 74 i 203). Així podem fer el test anomenat com a anàlisi de la variància.
$Àrea: Almendra Central `
Mean.perc_seg St. Deviation.perc_seg Valid N.perc_seg
2.367925 2.303204 212.000000
$Àrea: Periferia Noroeste `

2.280255 2.171595 157.000000
$Àrea: Periferia Este `

2.554054 2.455867 74.000000
$Àrea: Periferia Sur `

3.738916 2.626184 203.000000
Comprovem, en primer lloc, si hi ha igualtat o no de variàncies. Tal i com veiem aquí sota (p-
valor=0,001) no podem assumir aquesta igualtat, de manera que haurem de fer l’ANOVA que
el Deducer coneix amb el nom de Welch:
Levene's Test for Homogeneity of Variance (center = median)
Df F value Pr(>F)
group 3 5.3624 0.001188 **
642
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
En fer el test en cas de variàncies diferents obtenim que podem assegurar amb un 95% de
confiança (p-valor<0,001) que la percepció de seguretat no és la mateixa en els quatre barris
de Madrid, sinó que hi ha barris on aquesta és millor i altres on és pitjor.
P value adjustment method: holm
One-way analysis of means (not assuming equal variances)

F (num df,denom df) p-value
perc_seg 14.0234 (3,264.234) 1.643593e-08
Per saber on són les diferències, hem de fer els contrastos a posteriori seguint la lògica de
variàncies diferents (mètode de variàncies diferents, correcció de holm, per exemple). El
resultat és molt clar. Les úniques diferències significatives que es donen són entre la Periferia
Sur i la resta. Tots els p-valors associats a aquest barri són clarament inferiors a 0,05, mentre
que en la resta de comparacions tots els p-valor són molt superiors a 0,05 (tots donen 1):
87
Pairwise comparisons using t tests with pooled SD
data: MAD_cap$perc_seg and MAD_cap$Area
Almendra Central Periferia Noroeste Periferia Este

Periferia Noroeste 1.0000 - -
Periferia Este 1.0000 1.0000 -
Periferia Sur 5.4e-08 7.9e-08 0.0012
Concloem doncs que la percepció de seguretat és significativament diferent a la Periferia Sur, i

si n’observem les mitjanes (vegeu la primera taula de l’exercici) la conclusió ha de ser que en
aquest barri la inseguretat és més elevada que a la resta de barris de Madrid, on les
diferències no són significatives.
d) A partir de la variable que has construït en l’exercici anterior, digues si a la Periferia Este
podem afirmar amb un 90% de confiança que aquesta percepció depèn de l’estatus
socioeconòmic. Per fer-ho agrupa la variable Estatus en tres grups: classe alta/mitjana alta,
classe mitjana, i obrers (municipio, Area, ESTATUS, de la P8_DELIN a la P8_INTIM).
Partim de l’exercici anterior, on ja tenim definit aquest indicador de percepció d’inseguretat i a

partir del Data: Subset, seleccionem els residents a la Periferia Este. A més, i a partir del Data:
Recode, agrupem la variable ESTATUS en una nova variable amb només tres categories.
Un cop ho tenim, formulem les hipòtesis:
H0: A la Periferia Este, la percepció d’inseguretat és la mateixa en tots els estatus

socioeconòmics, és a dir, no hi ha relació entre l’estatus i la percepció d’inseguretat.
H1: A la Periferia Este, la percepció d’inseguretat no és la mateixa en tots els estatus
socioeconòmics, és a dir, hi ha relació entre l’estatus i la percepció d’inseguretat.
Per tal de comprovar si en algun dels estatus la mostra és menor de 30 individus, demanem
descriptius de la variable perc_seg en funció de la nova variable d’Estatus. En el resultat veiem
que això es dóna en els tres nivells d’estatus, amb mostres de 27, 18 i 19:
$Èstatus_r: CA/CMA `
2.703704 2.554255 27.000000
$Èstatus_r: CM `
3.222222 2.646986 18.000000
$Èstatus_r: Obr `
1.526316 2.037657 19.000000
Si demanem la normalitat als tres grups obtenim que en dos d’ells –classe alta/mitjana alta i
obrers–, no es dona normalitat. Així, haurem de fer el test no paramètric de Kruskal-Wallis:
Shapiro-Wilk normality test Shapiro-Wilk normality test Shapiro-Wilk normality test
W p-value W p-value W p-value
perc_seg 0.8753428 0.003816849 perc_seg 0.9187904 0.1230496 perc_seg 0.7570646 0.0002897876
En fer el test corresponent obtenim que podem assegurar amb un 90% de confiança (p-
valor=0,061) que la percepció de seguretat no és la mateixa en els tres estatus
socioeconòmics:
Kruskal-Wallis rank sum test
Kruskal-Wallis chi-squared df p-value
perc_seg 5.577847 2 0.06148737
88
Per saber on són les diferències, hem de fer els contrastos a posteriori seguint la lògica no
paramètrica (mètode de Wilcoxon, correcció de Holm, per exemple). El resultat mostra que
l’única diferència significativa (p-valor=0,064) és entre els de categoria mitjana i els obrers,
mentre que no podem assegurar diferències entre els altres grups:
Pairwise comparisons using Wilcoxon rank sum test
data: Per_Este$perc_seg and Per_Este$Estatus_r
CA/CMA CM
CM 0.460 -
Obr 0.186 0.064
P value adjustment method: holm
Concloem doncs que la percepció de seguretat no és la mateixa entre els obrers i els de classe
mitjana i, si n’observem les mitjanes (vegeu la primera taula de l’exercici), la conclusió ha de
ser que entre els de classe mitjana la sensació d’inseguretat és superior que entre els obrers.
89

Pràctica 4 - Solucions

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Pràctica 4 - Solucions

Uploaded by

Copyright:

Available Formats

CRIMINOLOGIA.

ANÀLISI DE DADES CURS 2017-2018

Pràctica 4. Solucions als exercicis proposats1

DadesCAM$P1001_r<-Recode(DadesCAM$P1001,' "Si"=1; else=0 ',as.factor.result=FALSE)

I per fer la suma:

DadesCAM$seguretat<-DadesCAM$P1001_r + DadesCAM$P1002_r + DadesCAM$P1003_r +

DadesCAM$sudam<-Recode(DadesCAM$P25, ' "Sudamerica"="Sudamerica"; else="No sudamerica" ',

Shapiro-Wilk normality test

En el test no paramètric de Wilcoxon obtenim que sí que hi ha diferències significatives entre

Wilcoxon rank sum test

DadesCAM$P8DELIN_r<-recode(DadesCAM$P8_DELIN,' "Mucha"=1; "Bastante"=1; "Poca"=0;

Per a obtenir l’indicador sumem les 11 variables creades de la següent manera:

DadesCAM$perc_seg<-DadesCAM$P8DELIN_r + DadesCAM$P8PROST_r + DadesCAM$P8MOBIL_r +

H0: La percepció d’inseguretat és la mateixa en tots els barris, és a dir, no hi ha relació

$`Area: Periferia Noroeste `

$`Area: Periferia Este `

$`Area: Periferia Sur `

One-way analysis of means (not assuming equal variances)

data: MAD_cap$perc_seg and MAD_cap$Area

Almendra Central Periferia Noroeste Periferia Este

Concloem doncs que la percepció de seguretat és significativament diferent a la Periferia Sur, i

Partim de l’exercici anterior, on ja tenim definit aquest indicador de percepció d’inseguretat i a

Un cop ho tenim, formulem les hipòtesis:

H0: A la Periferia Este, la percepció d’inseguretat és la mateixa en tots els estatus

data: Per_Este$perc_seg and Per_Este$Estatus_r

P value adjustment method: holm

You might also like