You are on page 1of 7

REPÀS EXERCICIS EXAMEN 2020

3. (1p) A la següent taula es presenten els resultats obtinguts en un estudi de cohorts


sobre la relació entre el consum de tabac i el càncer de pulmó. Discutiu quina seria la
mesura d’associació pertinent per estudiar l’associació entre les dues variables.
Calculeu-ne una estimació puntual i interpreteu el resultat obtingut.

ESTUDI DE COHORTS: És el seguiment en el temps


d’un grup, uns quants están exposats a la malaltia i
altres no i de cada grup d’aquests uns quants tenen la
malaltia i altres no.

En aquest cas:

-Factor que volem estudiar: si apareix cáncer o no.


-L’exposició: fumador o no fumador.

Es comença l’estudi amb pacients sans (en aquest cas alguns fumadors i alguns no) i els hi fem
un seguiment, finalment sabrem quants dels que fumen han acabat desenvolupant la malaltia i
quants no.

QUÈ ENS DEMANA EL PROBLEMA?

1- Mesura d’associació
2- Estimació puntual + interpretació dels resultats.

Mesura d’associació: OR (Odds Ratio) o RR (Risc Relatiu)

- Odds Ratio: Amb la odds ratio no puc calcular incidències (casos nous de la malaltia)
perquè el disseny de l’estudi no m’ho permet perquè no hi ha un seguiment. L’utilitzarem
quan no es puguin calcular els casos nous (casos i controls). Sempre tendeix a
sobreestimar, surten valors més grans.

- Risc Relatiu: Quocient entre la incidencia dels exposats i els no exposats. És la mesura
d’associació que utilitzem en aquest tipus d’estudis de cohorts.

 Si RR=1, la incidència en el grup d’exposats al factor és igual a la incidència en el grup


de n exposats. No s’observa associació entre l’exposició al factor i la característica
(malaltia. 
 Si RR>1, la incidència en el grup d’exposats al factor és superior a la incidència en el
grup de no exposats. S’observa associació positiva entre l’exposició al factor i la
característica(malaltia). L’anomenem factor de risc. 

 Si RR>1, la incidència en el grup d’exposats al factor és inferior a la incidència en el


grup de no exposats. S’observa associació negativa entre l’exposició al factor i la
característica (malaltia). L’anomenem factor protector.

En aquest cas com que parlem d’un estudi de cohorts i hi ha un seguiment i per tant puc
quantificar els casos nous, és més adient calcular el risc relatiu.

ESTIMACIÓ PUNTUAL

L’exposició al tabac és un factor de risc pel cáncer de pulmó perquè fa que tinguis 5,51
vegades més probabilitats de patir cáncer que no pas els que no fumen.

Com més gran és la mida de la mostra més estrets són els intervals de confiança. Si tinc
mostres de mida petita, tindré intervals de confiança molt grans.

OKS PERFECTE QUE HAGIS DECIDIT QUE LA MESURA ADIENT ÉS EL RR I PERFECTE


EL CÀLCUL QUE HAS FET I LA INTERPRETACIÓ DEL RESULTAT. SOBRE LA ÚLTIMA
FRASE DE L’INTERVAL DE CONFIANÇA, FIXA’T QUE AQUÍ NO L’HAS CALCULAT, PER
TANT, NO CAL DIR RES. AH I PER CERT, A MA, NO US FARÉ CALCULAR CAP INTERVAL
DE CONFIANÇA, OK?

4. (1p) En un dels nombrosos articles que apareixen sobre proves diagnòstiques de la


covid’19, els autors estudien la prova RT-PCR i mostren els següents resultats:

4.1. Interpreteu l’estimació puntual i l’interval de confiança de la sensibilitat,


l’especificitat i la raó de versemblança positiva (positive likelihood ratio).
S= 61% De cada 100 malalts 61 tenen una PCR positiva, la resta serán falsos negatius.
790/1193

E= 94,84% De cada 100 no malalts 94,84 em surt una prova negativa. 1065/1067

RV+= 11,81 Sensibilitat/1-Especificitat  Ens indica quan més probable és un positiu en el


grup de malalts que en els de no malalts. Ens interessa que sigui el més gran posible. Aquest
11,81 significa que en el grup de malalts, de pacients que tenen covid, tenim 11,81 més de
possibilitats de tenir un positiu que no pas en el grup de no malalts.

La RV es calcularía 1- sensibilitat/ Especificitat  és quan més probable és un negatiu en el


grup de malalts que en el grup de no malalts. Ens interessa que sigui el més proper a 0.

El veritable valor de la sensibilitat es troba practicament segur (95%) dins el rang de valors que
hi ha a l’interval de confiança. Igual amb l’especificitat, etc.

EN AQUEST APARTAT ET FALTARIA INTERPRETAR ELS INTERVALS DE CONFIANÇA. TE


N’INTERPRETO EL PRIMER, EL DE LA SENSIBILITAT. FIXA’T QUE L’ESTIMACIÓ PUNTUAL
DE LA S=61%, AIXÒ VOL DIR QUE EN LA MOSTRA QUE S’HA AGAFAT, DE 100
MALALATS, 61 ELS HA SORTIT LA PCR POSITIVA. PERO AIXÒ ÉS UNA ESTIMACIÓ
PUNTUAL, AIXÒ VOL DIR QUE SI REPETIM EL CÀLCUL AMB UNA ALTRA MOSTRA, ENS
PODEN SORTIR RESULTATS DIFERENTS. PER AIXÒ CALCULEM L’INTERVAL QUE
CONFIANÇA QUE SURT (58.29%, 63.67%), AIXÒ VOL QUE AMB UNA CONFIANÇA DEL
95%, EL VERITABLE VALOR DE LA SENSIBILITAT POBLACIONAL, ESTÀ DINS DE
L’INTERVAL.

4.2. En la població on hem pres aquesta mostra obtenim un individu amb resultat de la
RT-PCR positiu, quina és la probabilitat que realment tingui la covid’19? Serveix aquesta
probabilitat per un altre individu que ha donat positiu però que pertany a una altra
població diferent?

EN LA POBLACIÓ ON HEM PRES LA MOSTRA (HI HA UNA PREVALENCIA DEL 53.56%).


PODEM SABER LA PROBABILITAT QUE ES DEMANA EN L’ENUNCIAT. FIXA’T QUE ÉS EL
VALOR PREDICTIU POSITIU: 93.16% L’ESTIMACIÓ PUNTUAL I (91.35%, 94.61%)
L’INTERVAL DE CONFIANÇA.

PERÒ AQUESTA PROBABILITAT, NO VAL (COM MOLT BÉ DIUS) PER UN ALTRE INDIVIDU
QUE HA DONAT POSITIU PERÒ QUE PERTANY A UNA ALTRA POBLACIÓ AMB UNA
PREVALENCIA DIFERENT. EN TOT CAL HAURÍEM DE CALCULAR-LA AMB EL TEOREMA
DE BAYES QUE INDIQUES.

Sabem el resultat de la PCR però no la probabilitat de que tingui COVID. Volem saber quina és
la probabilitat de que realment tingui covid.

Probabilitat condicionada
No serveix perquè no pertany a la mateixa población, ja que en una altra población tindrpa una
altra prevalencia, que es calcula amb el teorema de Bayes.

4.3. A través de la corba ROC que es mostra, valoreu la utilitat d’aquesta prova
diagnòstica.

RESUM CORBES ROC

 Si la corba s’apropa al vèrtex superior esquerra (punt 0,1 del gràfic) millor discrimina
entre M i noM.
 Si la corba s’apropa a la diagonal, la prova no discrimina (és com decidir M i noM a
l’alzar).
 Quanta més àrea sota la corba (AUC), més bona discriminació entre M i noM.
 Problema de la determinació del punt de tall òptim. 

En aquest problema podem dir que aquesta prova diagnòstica no és gaire bona ja que la corba
esta allunyada del punt 0,1 del gràfic.

PERFECTE, A MÉS PODEM AFEGIR QUE L’ÀREA SOTA LA CORBA S’ALLUMYA


BASTANT DEL VALOR IDEAL DE 1.

5. (1p) Sobre l’anàlisi estadístic de dades composicionals:

5.1. Definiu què són les dades composicionals i doneu-ne un exemple diferent al que
s’indica en l’apartat següent.

S’anomenen dades composicionals les dades vectorials que contenen informació relativa de les
diverses parts en què es considera dividit o classificat un cert total, és a dir, són vectors de
components estrictament positives i de suma constant.

Les dades composicionals apareixen sempre que es treballa amb magnituds relatives com
concentracions, proporcions, freqüències relatives, etc

Les unitats corresponents són, per exemple, grams per centímetre cúbic (g/cm3), mil·ligrams
per litre (mg/L), quilograms per hectàrea (kg/ha), percentatges (%), parts per unitat (ppu) o
parts per milió (ppm) de massa o de volum, etc.

Exemples de dades composicionals: proporció de mascles i famelles els quals els hi ha anat bé
un tractament. Concentracions de substàncies contaminants d’una ciutat. Etc

OK

5.2. La captura de pantalla que teniu a continuació conté els resultats de l’anàlisi
composicional descriptiu de la composició de la microbiota intestinal amb 3 parts
(E=Escherichia coli proteobacteria, F1=Faecalibacterium prausnitzii Filogroup 1, F2
=Faecalibacterium prausnitzii filogroup 2) de dos grups de pacients (Grup 0: sans,
Grup3: amb malaltia de Crohn). Indiqueu quines són les diferències que observeu entre
els dos grups.
Tal i com veiem en les imatges, es mostren els resultats dels dos tipos de grups de pacients.
En el de l’esquerra, tenim els pacients del grup 0.0 on s’han agafat 47 mostres per estudiar-lo,
mentre que en el de la dreta, tenim els pacients del grup 3.0 en el qual s’han agafat 63 mostres.
En aquí ja podem veure que per fer l’estudi no s’han agafat el mateix nombre de mostres en un
grup que en l’altre per tant, com més mostres, més exemples de dades reals tindrem, que no
pas si agafem una mostra més petita com la de l’esquerra. Si calculessim l’interval de confiança
en els dos casos, el del grup 0.0 ens sortiria un interval de confiança més gran ja que la mostra
és més petita ( per tant més posibles valors “adequats”) en canvi, en el grup 3.0 com que la
quantitat de mostres és més gran el seu interval de confiança será més petit per tant més
concret. NOMÉS UN PETIT DETALL D’ESTADÍSTICA DE L’ANY PASSAT. LA LLARGADA DE
L’INTERVAL DE CONFIANÇA DEPÈN DE LA MIDA DE LA MOSTRA PERÒ TAMBÉ DE LA
VARIABILITAT DE LES DADES. SI LES DADES TENEN POCA VARIABILITAT, L’INTERVAL
POT SER MOLT PRECÍS.

Després veiem que les dades que s’han calculat del centre de les mostres pel que fa a la E-coli
tenim un valor més gran en el grup 3.0, en canvi per les altres dos malalties, tenim uns valors
més grans en la F1 i F2 del grup 0.0. EFECTIVAMENT, AQUESTA ÉS LA DIFERÈNCIA MÉS
GRAN QUE TROBEM COMPARANT ELS 2 CENTRES, EN EL GRUP 3 TENIM UNA
PROPORCIÓ MOLT GRAN DE E-COLI I MOLT BAIXA EN F1 I F2, EN CANVI EN EL GRUP 0
TENIM MENTS E-COLI I MÉS F1 IF2.

Pel que fa a la matriu veiem que els valors de les variàncies en general són més grans en la
mostra del grup 3.0 que no pas en el grup 0.0 OK, AIXÒ HO POTS VEURE EN LA PART
SUPERIOR D ELA MATRIU (LA PART QUE CONTÉ LES VARIÀNCIES) PERÒ TAMBÉ EN
LES VARIÀNCIES DELS CLR (COLUMNA DE COLOR GROC) I EN LA TOTAL VARIANCE.
SEMPRE ÉS SUPÈRIOR EN EL GRUP 3.

Què volia dir el requadre en vermell? I el blau? EL REQUADRE VERMELL INDICA


VARIÀNCIES MOLT GRANS EN CONPARACIÓ AMB LA RESTA DE VARIÀNCIES DEL
GRUP I EN BLAU LES VARIÀNCIES PETITES Què més caldria explicar? RES MÉS, JA
ESTÀ CORRECTE EL QUE HAS DIT

6. (1p) Amb les dades de l’estudi de Framingham sobre malalties cardiovasculars, hem
construït un model de regressió logística per explicar la variable cvd (esdeveniment
cardiovascular 1=si/0=no) a través de les variables:

 age1 (edat en anys) 


 cursmoke1 (1=Si/0=no)
 diabetes1 (1=Si/0=no) 
 sex1(1=male/0=female) 

Interpreteu els resultats que es mostren obtinguts amb l’R:


En aquest tipus d’estudis el que ens interessa és fixar-nos amb el p valor ja que aquest, té
relació amb la fiabilitat de l’estudi i la importancia clínica dels resultats.

Per tant, p és la probabilitat d'obtenir, per atzar, una diferència tan gran o més gran de
l'observada, complint-se que no hi hagi diferència real a la població de què provenen les
mostres.

- Si aquest valor de probabilitat és menor del 5% (0,05) és prou improbable que es degui a
l'atzar per rebutjar amb una seguretat raonable la H0 i afirmar que la diferència és real.
- Si és més gran del 5%, no tindrem la confiança necessària per poder negar que la
diferència observada sigui obra de l'atzar.

La hipòtesis nul·la és Ho: No hi ha regressió. Per tant, per un valor p < 2e-16, rebutjem Ho i
acceptem que hi ha regressió lineal. Com que acceptem que hi ha regressió, cal fer la
inferència sobre els coeficients de regressió parcials. . La hipòtesi nul·la H0: βi=0 diu que el
coeficient βi (o el terme independent β0) no és significativament diferent de 0. Mentre que la
hipòtesi alternativa H1: βi≠0 diu que aquest coeficient sí que ho és. A partir dels resultats que
ens dóna l’R, podem acceptar que tots aquests coeficients i el terme independent són
significativament diferents de 0.

Així doncs l’equació de regressió que obtenim és:

Y= -4.42+0,071x1 +0,285x2 + 1.316x3 – 0.87x4

Està bé? Que més puc dir? EL QUE PRIMER HAS DE DIR ÉS QUE ES TRACTA D’UNA
REGRESSIÓ LOGÍSTICA PERQUÈ LA VARIABLE Y=CVD ÉS CATEGÒRICA (1=SI, 0=NO).
LLAVORS FIXA’T EN EL P-VALOR DE CADA VARIABLES, COM QUE TOTS ET SURTEN
<0.05 TOTES LES VARIABLES SÓN IMPORTANTS PER EXPLICAR LA VARIABLE CVD.
AIXÒ ÉS EL QUE DIUS I ESTÀ CORRECTE.

FINALMENT POTS INTERPETAR ELS VALORS DEL COEFICIENTS PERÒ AL SER UNA
REGRESSIÓ LOGÍSTICA, ÉS MOLT MILLOR INTERPRETAR L’EXPONENCIAL DELS
COEFICIENTS, QUE ÉS LA TAULA DE TENS AL FINAL. T’INTERPRETO EL DE DIABETES
QUE ÉS UNA VARIABLE CATEGÒRICA (1=SI DIABETES, 0=NO DIABETES) QUE SURT
3.73. AIXÒ VOL DIR QUE ELS INDIVIDUS AMB DIABETES TENEN 3.73 VEGADES MÉS
RISC DE TENIR UN CVD QUE NO PAS ELS INDIVIDUS SENSE DIABETES. LA RESTA DE
VARIABLES CATEGÒRIQUES S’INTERPRETARIEN IGUAL. FINALMENT T’INTERPRETO EL
COEFICIENT DE LA VARIABLE AGE PERQUÈ ÉS NUMÈRICA. OBTENIM 1.07. AIXÒ VOL
DIR QUE PER CADA ANY DE MÉS QUE TÉ UN INDIVIDU, LA OR DE TENIR UN CVD ÉS
1.07.

I CADA OR LA POTS ACOMPANYAR I SI CAL INTERPRETAR EL SEU INTERVAL DE


CONFIANÇA. AQUÍ FIXA’T QUE CAP DELS INTERVALS CONTÉ EL VALOR 1 JA QUE
TOTES LES VARIABLE SSURTEN SIGNIFICATIVES EN EL MODEL DE REGRESSIÓ.

AH I UNA ÚLTIMA COSA. L’ANY PASSAT VÀREM DEDICAR MOLT MÉS TEMPS EN ELS
MODELS DE REGRESSIÓ LOGÍSTICA. AQUEST ANY ELS HE EXPLICAT MÉS PER SOBRE
JA QUE LA RESTA D’ALUMNES EM VAN DIR QUE NO TENIEN CLARS ELS MODELS DE
REGRESSIÓ LINEALS QUE VAREU FER L’ANY PASSAT I ELS VÀREM REPASSAR PER
PODER-LOS APLICAR A L’ABP1.

VINGA, ESPERO HAVER RESOLT ELS TEUS DUBTES!!!

You might also like