Professional Documents
Culture Documents
4. Utilitzant les opcions de construcció de variables, creeu una nova variable amb el nom IMC
que correspongui al Índex de massa corporal d'acord amb l'expressió IMC = Pes/Talla^2 on el
Pes està mesurat en Kg i l'alçada en m.
10. Seleccioneu els individus (les) que compleixin la condició de ser dones amb 5 o més
cosins.
Apliquem doble filtre:
- Sexe == “D”
- N_cosins >= “5”
Comptem a ma els individus que compleixen ambdós filtres i son 24. Si fem una descriptiva o
una taula de freqüències tornem a veure que surt 24.
PRÀCTICA 2
1. Recodifica les variables Sexe, Origen, Classe i Supervivent.
Cliquem 2 vegades sobre la columna de la variable i veiem que ens apareix aquest requadre.
En Nivells canviem els números per les categories corresponents.
3. Fes una taula de freqüències de la variable sexe. Quants homes hi havia al Titanic? Quin
gràfic representaria millor aquesta variable?
Anàlisis -> Exploració -> Descriptives -> Seleccionar Sexe com a variable -> Activar opció “Taula
de Freqüències”. Veiem que hi ha 843 homes. El milor gràfic és un gràfic de barres perquè és
una variable qualitativa
4. Descriu la variable edat numèricament i gràficament. Quants nens i nenes (<18 anys) hi
havia a bord?
Fem una transformació de la columna edat (es crea una columna nova). En les condicions
posem un grup < 18 anys amb el nom de nens. La resta com a adults. (Incís: he provat aplicar
filtre de: edat<“18” però no em deixava).
Ara: Anàlisis -> Exploració -> Descriptives -> Seleccionar la columna nova que hem creat com a
variable -> Activar opció “Taula de Freqüències”. Veiem que de “Nens” tenim 154.
6. Descriu la variable preu. Repeteix la descriptiva segons sexe, classe i edat. Quina
era la mediana de preu que van pagar els passatgers que viatjaven en 2a classe?
Si comparem una variable quantitativa (preu) amb una qualitativa (sexe o classe) cal utilitzar
taules descriptives. No confondre amb les taules de contingència que s’utilitzen quan les dues
variables son qualitatives. En el cas de edat (quantitativa) hem d’agrupar-la en intervals i
convertir-la d’aquesta manera en una qualitativa ordinal. L’agrupem (com vulguem) en:
Nens <20
Joves:<40
Adults: <60
Grans: resta
Veiem que la mediana de preu que van pagar els passatgers de 2ª classe és de 15,1 euros.
Seleccionar columna de l’edat, la transformem. Fem desprès la descriptiva utilitzant aquesta columna
nova
Supervivents és variable qualitativa, sexe i classe també són variables qualitatives. Per això
utilitzem les taules de contingència en comptes de les descriptives.
Per saber el % d’homes que va sobreviure hem de mirar la columna de Home i fixar-nos en
aquells que es troben en la fila de Sí de sobreviscuts (161 homes). En el desplegable de Celdas
apliquem el percentatge per columnes i veiem que aquests 161 homes sobreviscuts
representen el 19,1% del total d’homes. (La resta, el 84,3% no va sobreviure).
Per saber quin % dels supervivents representaven les dones hem de començar mirant la fila de
Sí supervivents i seguir fins a arribar a la columna de dones (339 dones supervivents).
Apliquem el percentatge per fila i veiem que aquestes 339 dones supervivents representen el
67,8 % del total de supervivents.
Per saber el % de viatgers de 3ª classe que va sobreviure: primer ens fixem en la columna de 3ª
classe i seguim baixant amb la mirada fins arribar a la fila de Sí supervivents. Veiem que els
supervivents del total de passatger de 3ª classe són 181 persones. Apliquem el percentatge per
columna i ens dona que aquests 181 supervivents de 3ª classe forma el 25,5% del total de
passatgers de 3ª classe (és a dir, el 75% de viatgers de 3ª classe no va sobreviure).
PRÀCTICA 3
1-Treballem amb les mateixes dades que vam utilitzar a la Pràctica 1. Carrega el txer
PRACTICA-3- DIRIGIDA.txt i construeix la taula que descriu simultàniament les variables
nivell d'anglès escrit i consum de cafè.
44
P(angles=intermedi)= = 0,458
96
P(cafè<3)=( 42+37+
96
14
) = 0,968
P(anglès=superior ∪ cafè<2)= ( )+ ( )−(
96 )
10 42+37 6 +2
96 6
=0,844 Aplicar: P(A)+P(B)-P(A∩B) -> P(Anglès superior)
+ P(cafè=0 + cafè=1) – P(anglès=superior ∩ cafè<2)
2. Al país d'Invent un 18% de la població presenta un gen que els predisposa a patir la
malaltia de Falsen. Les anàlisis genètiques són cares i només podem estudiar una mostra de
20 persones
(a) Quina probabilitat hi ha d'identificar 5 persones amb el gen en qüestió? P=0,149
A Size posem el tamany de la mostra (20 persones en aquest cas). En probabilitat el 0,18 del
18% de probabilitat
Observar que posem P(X>=x1) (sent x1 = 3) perquè ens demana que sigui al menys 3.
(c) I entre 8 i 12?
P = 0,018
Observar que tornem a canviar de tipus de probabilitat, ens calen valors en el interval 8-12.
3. Al país d'Invent la longitud del peu segueix una distribució normal de mitjana 30.48
cm i variància 9 cm2
(b) Quina és
la probabilitat que una persona tingui un peu de 30 cm o menys? P = 0,436
(c) Quina és la probabilitat que una persona tingui un peu entre 30 i 40 cm? P= 0,563
(d) Quins són els dos valors que acoten un interval centrat en la mitjana que conté
el 50% de les observacions? El 50% de les observacions es contenen entre els quartils Q3 i Q1. Les
ratlles que veiem
ens indiquen
aquests quartils.
En “p” hem de
posar el
percentatge de
valors que volem
observar.
PRÀCTICA 4
Treballem amb les mateixes dades que vam utilitzar a la Pràctica 1. Carrega el fitxer
PRACTICA-4-DIRIGIDA.txt.
Anàlisi -> Exploració -> Descriptives -> Variable Sexe -> Taula de Freqüència
2. Podries donar una estimació de la proporció de dones amb una confiança del 95% que tingués en
compte la incertesa de l'estimació?
Freqüències -> 2 resultats prova binomial -> seleccionem sexe -> actives intervals de confiança (amb
interval de 95%)
4. Creus que els resultats de l'apartat 2) són compatibles amb la creença de que en aquesta
població 3 de cada 4 individus són dones? No, ¾=0,75 -> Està fora de l’interval de confiança
5. Quina mida de la mostra seria necessària perquè a l'estimar la proporció de dones
d'aquesta població, l'interval de confiança al 95% tingui una amplitud màxima de 0.1?
6. Calcula l'Índex de Ruffier-Dickson i realitza una estimació per interval de la mitjana amb
una confiança del 95% (revisa la definició del seu càlcul i la seva categorització en el guió de
la pràctica 1). [Demana que busquem la mitjana d’aquesta variable per aquesta mostra de
població]
Desprès de crear-la: Anàlisi -> Exploració -> Descriptives -> Variable IRD -> Gràfic Histograma
(només per tenir el
gràfic, res més)
Anàlisis -> proves T -> proves T en una mostra -> esculls variable IRD -> en comprovació de
supòsits li donem a prova de normalitat (perquè estigui correcte la p ha d’estar per sobre de
0,5) -> Seleccionem IC de 95%
Podem assumir que la nostra mostra conté el 95% dels resultats entre els valors (6,69-8).
7. Quin creus que és l'estat de forma, en mitjana, d'aquest col·lectiu? [Pregunta què significa la
mitjana que hem trobat d’aquesta mostra de població]
De mitjana la forma física de la mostra és aptitud bona doncs l’interval 6,69-8 es troba dins del 5-10.
2. Es considera que en una població universitària estàndard, al voltant d'un 75% dels
individus han de presentar una condició física bona (això és: un índex de Ruffier-Dixon, IRD,
per sota de 10). Planteja i resol una prova d'hipòtesi per posar a prova si la nostra població
“Alumnes del Grau d'Odontologia de la Universitat de Barcelona”, s'ajusta a aquest criteri, o
en cas contrari, si el percentage és superior i la població té una aptitud física molt bona.
Plantegem:
Condicions d’aplicació:
n≥30
n· π 0 ≥ 5
n·(1- π 0) ≥ 5
Anàlisi -> frecuencias -> Prueba para la porporción en una Muestra ->2 resultados -> Escollim la
variable (IRDmenor10 al requadre de la dreta) -> En valor de prueba posar el valor de la proporció
(0.75) -> Escollir la casella adequada en Hipòtesi per H1.
P valor > alfa. No rebutgem H0 amb un risc Beta associat, podem dir que la proporció d’individus que
tinguin un IRD menor a 10 es de 0,75
Recorda:
Distribució que segueix test t sota H0: distribució t-d’Student amb n-1 graus de llibertat -> 96 -
1=95
Condicions d’aplicació:
n ≥ 30 (es compleix) o
la variable segueix una distribució normal
Anàlisis -> Proves T -> Proves T en una mostra (perquè com que és contrast de conformitat
nomès tenim 1 població) -> Escollim variable IMC -> En Hipòtesis posem el valor 22 i en Valor
de Prueba el signe <
Les proves T en una mostra s’utilitzen en contrastos de conformitat, aquells en els que en
comptes de comparar 2 poblacions comparem 1 població a un número.
P-valor<0,001 < alfa --> l’estadístic és molt extrem respecte la distribució de la H0 (està molt al
marge). Per tant rebutgem H0 i acceptem H1 amb un risc alfa de 0,05.
Tinc evidències per dir que la mitjana de l’IMC en aquesta població és inferior a 22.
Tenim un IC de (20,6 – 21,6), com que no inclou el 22 (està per sota totalment) podem
concloure que la mitjana és inferior a 22.
PRÀCTICA 6
En el campus virtual de l'assignatura teniu unes dades PRACTICA-6-DIRIGIDA.txt
corresponents a una extensió de l'estudi que ja vàrem presentar en la pràctica anterior. A
partir d'aquell estudi es va decidir fer un disseny per avaluar comparativament l'efectivitat
de dos col·lutoris sobre la placa bacteriana, efectivitat avaluada amb diverses variables
indicadores. Es va recollir una mida mostral de 110 individus que van ser assignats
aleatòriament en dos grups, un d'ells es sotmetria al tractament amb el col·lutori A i l'altre
amb el col·lutori B durant tres mesos. Després d'aquests 3 mesos, els pacients van ser
reexaminats per mesurar variables indicadores de l'efectivitat dels col·lutoris. Disposem, per
a cada individu, d'una valoració del efecte del tractament sobre el sagnat de geniva
(valoraGIN), de dues valoracions de la placa basades en l'índex de Turesky (una primera
realitzada just abans de l'inici del tractament i una altra realitzada un cop finalitzat el
tractament amb el col·lutori i que comparant-les ens permeten definir una mesura de canvi
en l'índex (valoraTUR)) i finalment una mesura quantitativa de l'àrea afectada per presència
de placa. També es va mesurar el pH de la saliva després del tractament amb el col·lutori.
Mostra N=110
Col·lutori A: N=55
Col·lutori B: N=55
Hipòtesis:
H0: Proporció (1+)a = Proporció (1+)b i Proporció (2=)a = Proporció (2=)b i Proporció
(3)a = Proporció (3-)b
H1: Proporció (1+)a ≠Proporció (1+)b o Proporció (2=)a ≠ Proporció (2=)b o
Cal saber la distribució de l’estadístic sota H0. Els graus de llibertat es calcula: (columnes-1) ·
(files-1). Graus de llibertat: (2-1)·(3-1)=2
Ara cal comprovar condicions d’aplicació: Els valors esperats si H0 és certa siguin majors o
iguals a 5.
Veiem que segons Jamovi en la cel·la de Esperat tots són majors a 5 per la qual cosa les
condicions d’aplicació es compleixen
0,001 < 0,05 cosa que vol dir que el meu estadístic és molt extrem sota H0 per la qual cosa la
rebutjo amb risc alfa 0,05
Resultat: com que rebutjo H0 vol dir que tinc evidències per dir que les proporcions de
valoraTUR són diferents segons el col·lutori que hagin pres els pacients.
Sempre cal parlar en termes de H0, o bé la rebutgem o bé no la rebutgem, no podem dir que
acceptem H1.
2. Podríem utilitzar la mateixa tècnica estadística si en comptes de comparar dos col·lutoris,
n'haguessim provat tres o quatre?
Sí, podem fer servir la mateixa tècnica de chi quadrat per comparar diferents poblacions ja
siguin 2,3 o més.
(ESTADÍSTIC test o prova χ2. Si la H0 és certa, χ 2 segueix una distribució χ2 amb graus
de llibertat = (columnes - 1) · (files-1).
Podem fer servir el test chi quadrat perquè no importa la quantitat de categories que tingui la
variable (2 en el cas de valoraGIN).
Graus de llibertat: per saber-ho hem de comparar primer les variàncies (cal aquest pas previ):
Anàlisis -> Proves T -> Proves T per Mostres Independents. En files PH Saliva i en columnes
tractament.
Primer cal fer el test de Levene o homogeneïtat de variàncies. (On posa Proves de Supuestos
hem d’activar la prova de homogeneïtat)
Com que el p-valor = 0,0671 és major a 0,05 -> NO rebutjo H0.
Amb això donem per vàlid que les variàncies són iguals -> H0= variància(PH)a = variància (PH)b
Na ≥ 30 i Nb ≥ 30 O
La variable segueix una distribució normal en cada població.
Com que no hem rebutjat H0 hem d’escollir estadístic T d’Student en comptes el T de Welch.
Estadístic = -6,62
p-valor < 0,001 < 0,05 per tant rebutjo H0 amb risc alfa=0,05.
Per tant la conclusió és: tenim evidències per dir que el Ph de la saliva diferent segons el col·lutori.
5. Podem donar una mesura de l'efecte del col·lutori sobre aquest paràmetre?
Ens pregunta Mesura de l’efecte i per això hem d’utilitzar l’interval de confiança. L’activem en
Estadístiques Addicionals
Com que la resta de les mitjanes (diferencia de medias) és negativa podem dir que una mitjana
és més gran que l’altra. Per saber quina dada es resta a quina hem de mirar l’ordre en el que
apareixen, en aquest cas la A la trobem abans que la B per tant Jamovi ha fet:
Creus que es pot dir que el tríptic, i el consell dietètic implícit, té algun efecte i és capaç
d'induir un canvi en el pH salivar? Podries donar alguna mesura de la magnitud d'aquest
efecte?
Identifiquem que son dades aparellades perquè són les mateixes persones mesurades abans
que desprès.
Hipòtesis:
Utilitzem el test t-Students (recordar que per qualsevol estudi de mitjanes utilitzem el test t-
Student).
T-Student amb x graus de llibertat: número de parelles que tinguis – 1 = 35 (les files de Jamovi)
-1 = 34 graus de llibertat.
Definir el risc alfa: com que no especifiquen res doncs utilitzem alfa=0,05.
Conclusió estadística és que si comparo p-valor amb la alfa, el p-valor és més petit per tant
rebutjo la H0 amb un risc alfa 0,05 associat. Per tant tinc evidències per dir que el pH abans és
diferent del pH desprès de rebre el tríptic.
A part de mirar l’efecte del tríptic hem de donar una mesura de la magnitud
d’aquest efecte.
Com que l’investigador volia augmentar el valor del pH podem dir que ho ha
aconseguit perquè el post és més gran que el pre en un rang de valor entre 0,301
i 0,372.
2n Exemple:
2. Dos odontòlegs han avaluat independentment la necessitat de fer un
tractament d'ortodòncia a 100 nens. Per a cada nen tenim el resultat de les
dues avaluacions en dos categories, necessita tractament (T) o bé NO necessita
tractament (NoT). Les dades es troben en el fitxer PRACTICA-7B-DIRIGIDA.
Creus que la proporció de nens que necessiten tractament és la mateixa segons el criteri
d'ambdós odontòlegs?
Tornen a ser dades aparellades perquè l’han mesurat 2 odontòlegs amb els mateixos nens.
Hipòtesi:
Distribució que segueix l’estadístic sota H0: distribució Chi quadrat amb 1 grau de llibertat
(sempre, el grau de llibertat no depèn de res en el test de McNemar).
Condicions d’aplicació:
Per saber-ho hem d’anar: Anàlisis -> Freqüències -> Taules de Contingència -> Mostres
aparellades, Test de McNemar.
Posem en la taula de contingència que ens surt en les files els Odontòleg 1 i en les columnes el
odontòleg 2. (Recordar que les taules de contingència serveixen per comparar dues variables
qualitatives).
Ens fixem en el encreuament de T-NoT i NoT-T (les cel·les discordants) -> 8+5=13 > 10 i per tat
es compleixen les condicions d'aplicació
Ja amb la taula que ens ha donat (surt la taula de proves de McNemar) veiem que el valor de
l’estadístic és 0,692, grau de llibertat 1, i p-valor 0,405 que és > 0,05 (p-valor superior a alfa).
No rebutjo la H0, per tant no tenim evidències per dir que les proporcions del tractament en
cada odontòleg són diferents.