Professional Documents
Culture Documents
En aquest cas:
Es comença l’estudi amb pacients sans (en aquest cas alguns fumadors i alguns no) i els hi fem
un seguiment, finalment sabrem quants dels que fumen han acabat desenvolupant la malaltia i
quants no.
1- Mesura d’associació
2- Estimació puntual + interpretació dels resultats.
- Odds Ratio: Amb la odds ratio no puc calcular incidències (casos nous de la malaltia)
perquè el disseny de l’estudi no m’ho permet perquè no hi ha un seguiment. L’utilitzarem
quan no es puguin calcular els casos nous (casos i controls). Sempre tendeix a
sobreestimar, surten valors més grans.
- Risc Relatiu: Quocient entre la incidencia dels exposats i els no exposats. És la mesura
d’associació que utilitzem en aquest tipus d’estudis de cohorts.
En aquest cas com que parlem d’un estudi de cohorts i hi ha un seguiment i per tant puc
quantificar els casos nous, és més adient calcular el risc relatiu.
ESTIMACIÓ PUNTUAL
L’exposició al tabac és un factor de risc pel cáncer de pulmó perquè fa que tinguis 5,51
vegades més probabilitats de patir cáncer que no pas els que no fumen.
Com més gran és la mida de la mostra més estrets són els intervals de confiança. Si tinc
mostres de mida petita, tindré intervals de confiança molt grans.
E= 94,84% De cada 100 no malalts 94,84 em surt una prova negativa. 1065/1067
El veritable valor de la sensibilitat es troba practicament segur (95%) dins el rang de valors que
hi ha a l’interval de confiança. Igual amb l’especificitat, etc.
4.2. En la població on hem pres aquesta mostra obtenim un individu amb resultat de la
RT-PCR positiu, quina és la probabilitat que realment tingui la covid’19? Serveix aquesta
probabilitat per un altre individu que ha donat positiu però que pertany a una altra
població diferent?
PERÒ AQUESTA PROBABILITAT, NO VAL (COM MOLT BÉ DIUS) PER UN ALTRE INDIVIDU
QUE HA DONAT POSITIU PERÒ QUE PERTANY A UNA ALTRA POBLACIÓ AMB UNA
PREVALENCIA DIFERENT. EN TOT CAL HAURÍEM DE CALCULAR-LA AMB EL TEOREMA
DE BAYES QUE INDIQUES.
Sabem el resultat de la PCR però no la probabilitat de que tingui COVID. Volem saber quina és
la probabilitat de que realment tingui covid.
Probabilitat condicionada
No serveix perquè no pertany a la mateixa población, ja que en una altra población tindrpa una
altra prevalencia, que es calcula amb el teorema de Bayes.
4.3. A través de la corba ROC que es mostra, valoreu la utilitat d’aquesta prova
diagnòstica.
Si la corba s’apropa al vèrtex superior esquerra (punt 0,1 del gràfic) millor discrimina
entre M i noM.
Si la corba s’apropa a la diagonal, la prova no discrimina (és com decidir M i noM a
l’alzar).
Quanta més àrea sota la corba (AUC), més bona discriminació entre M i noM.
Problema de la determinació del punt de tall òptim.
En aquest problema podem dir que aquesta prova diagnòstica no és gaire bona ja que la corba
esta allunyada del punt 0,1 del gràfic.
5.1. Definiu què són les dades composicionals i doneu-ne un exemple diferent al que
s’indica en l’apartat següent.
S’anomenen dades composicionals les dades vectorials que contenen informació relativa de les
diverses parts en què es considera dividit o classificat un cert total, és a dir, són vectors de
components estrictament positives i de suma constant.
Les dades composicionals apareixen sempre que es treballa amb magnituds relatives com
concentracions, proporcions, freqüències relatives, etc
Les unitats corresponents són, per exemple, grams per centímetre cúbic (g/cm3), mil·ligrams
per litre (mg/L), quilograms per hectàrea (kg/ha), percentatges (%), parts per unitat (ppu) o
parts per milió (ppm) de massa o de volum, etc.
Exemples de dades composicionals: proporció de mascles i famelles els quals els hi ha anat bé
un tractament. Concentracions de substàncies contaminants d’una ciutat. Etc
OK
5.2. La captura de pantalla que teniu a continuació conté els resultats de l’anàlisi
composicional descriptiu de la composició de la microbiota intestinal amb 3 parts
(E=Escherichia coli proteobacteria, F1=Faecalibacterium prausnitzii Filogroup 1, F2
=Faecalibacterium prausnitzii filogroup 2) de dos grups de pacients (Grup 0: sans,
Grup3: amb malaltia de Crohn). Indiqueu quines són les diferències que observeu entre
els dos grups.
Tal i com veiem en les imatges, es mostren els resultats dels dos tipos de grups de pacients.
En el de l’esquerra, tenim els pacients del grup 0.0 on s’han agafat 47 mostres per estudiar-lo,
mentre que en el de la dreta, tenim els pacients del grup 3.0 en el qual s’han agafat 63 mostres.
En aquí ja podem veure que per fer l’estudi no s’han agafat el mateix nombre de mostres en un
grup que en l’altre per tant, com més mostres, més exemples de dades reals tindrem, que no
pas si agafem una mostra més petita com la de l’esquerra. Si calculessim l’interval de confiança
en els dos casos, el del grup 0.0 ens sortiria un interval de confiança més gran ja que la mostra
és més petita ( per tant més posibles valors “adequats”) en canvi, en el grup 3.0 com que la
quantitat de mostres és més gran el seu interval de confiança será més petit per tant més
concret. NOMÉS UN PETIT DETALL D’ESTADÍSTICA DE L’ANY PASSAT. LA LLARGADA DE
L’INTERVAL DE CONFIANÇA DEPÈN DE LA MIDA DE LA MOSTRA PERÒ TAMBÉ DE LA
VARIABILITAT DE LES DADES. SI LES DADES TENEN POCA VARIABILITAT, L’INTERVAL
POT SER MOLT PRECÍS.
Després veiem que les dades que s’han calculat del centre de les mostres pel que fa a la E-coli
tenim un valor més gran en el grup 3.0, en canvi per les altres dos malalties, tenim uns valors
més grans en la F1 i F2 del grup 0.0. EFECTIVAMENT, AQUESTA ÉS LA DIFERÈNCIA MÉS
GRAN QUE TROBEM COMPARANT ELS 2 CENTRES, EN EL GRUP 3 TENIM UNA
PROPORCIÓ MOLT GRAN DE E-COLI I MOLT BAIXA EN F1 I F2, EN CANVI EN EL GRUP 0
TENIM MENTS E-COLI I MÉS F1 IF2.
Pel que fa a la matriu veiem que els valors de les variàncies en general són més grans en la
mostra del grup 3.0 que no pas en el grup 0.0 OK, AIXÒ HO POTS VEURE EN LA PART
SUPERIOR D ELA MATRIU (LA PART QUE CONTÉ LES VARIÀNCIES) PERÒ TAMBÉ EN
LES VARIÀNCIES DELS CLR (COLUMNA DE COLOR GROC) I EN LA TOTAL VARIANCE.
SEMPRE ÉS SUPÈRIOR EN EL GRUP 3.
6. (1p) Amb les dades de l’estudi de Framingham sobre malalties cardiovasculars, hem
construït un model de regressió logística per explicar la variable cvd (esdeveniment
cardiovascular 1=si/0=no) a través de les variables:
Per tant, p és la probabilitat d'obtenir, per atzar, una diferència tan gran o més gran de
l'observada, complint-se que no hi hagi diferència real a la població de què provenen les
mostres.
- Si aquest valor de probabilitat és menor del 5% (0,05) és prou improbable que es degui a
l'atzar per rebutjar amb una seguretat raonable la H0 i afirmar que la diferència és real.
- Si és més gran del 5%, no tindrem la confiança necessària per poder negar que la
diferència observada sigui obra de l'atzar.
La hipòtesis nul·la és Ho: No hi ha regressió. Per tant, per un valor p < 2e-16, rebutjem Ho i
acceptem que hi ha regressió lineal. Com que acceptem que hi ha regressió, cal fer la
inferència sobre els coeficients de regressió parcials. . La hipòtesi nul·la H0: βi=0 diu que el
coeficient βi (o el terme independent β0) no és significativament diferent de 0. Mentre que la
hipòtesi alternativa H1: βi≠0 diu que aquest coeficient sí que ho és. A partir dels resultats que
ens dóna l’R, podem acceptar que tots aquests coeficients i el terme independent són
significativament diferents de 0.
Està bé? Que més puc dir? EL QUE PRIMER HAS DE DIR ÉS QUE ES TRACTA D’UNA
REGRESSIÓ LOGÍSTICA PERQUÈ LA VARIABLE Y=CVD ÉS CATEGÒRICA (1=SI, 0=NO).
LLAVORS FIXA’T EN EL P-VALOR DE CADA VARIABLES, COM QUE TOTS ET SURTEN
<0.05 TOTES LES VARIABLES SÓN IMPORTANTS PER EXPLICAR LA VARIABLE CVD.
AIXÒ ÉS EL QUE DIUS I ESTÀ CORRECTE.
FINALMENT POTS INTERPETAR ELS VALORS DEL COEFICIENTS PERÒ AL SER UNA
REGRESSIÓ LOGÍSTICA, ÉS MOLT MILLOR INTERPRETAR L’EXPONENCIAL DELS
COEFICIENTS, QUE ÉS LA TAULA DE TENS AL FINAL. T’INTERPRETO EL DE DIABETES
QUE ÉS UNA VARIABLE CATEGÒRICA (1=SI DIABETES, 0=NO DIABETES) QUE SURT
3.73. AIXÒ VOL DIR QUE ELS INDIVIDUS AMB DIABETES TENEN 3.73 VEGADES MÉS
RISC DE TENIR UN CVD QUE NO PAS ELS INDIVIDUS SENSE DIABETES. LA RESTA DE
VARIABLES CATEGÒRIQUES S’INTERPRETARIEN IGUAL. FINALMENT T’INTERPRETO EL
COEFICIENT DE LA VARIABLE AGE PERQUÈ ÉS NUMÈRICA. OBTENIM 1.07. AIXÒ VOL
DIR QUE PER CADA ANY DE MÉS QUE TÉ UN INDIVIDU, LA OR DE TENIR UN CVD ÉS
1.07.
AH I UNA ÚLTIMA COSA. L’ANY PASSAT VÀREM DEDICAR MOLT MÉS TEMPS EN ELS
MODELS DE REGRESSIÓ LOGÍSTICA. AQUEST ANY ELS HE EXPLICAT MÉS PER SOBRE
JA QUE LA RESTA D’ALUMNES EM VAN DIR QUE NO TENIEN CLARS ELS MODELS DE
REGRESSIÓ LINEALS QUE VAREU FER L’ANY PASSAT I ELS VÀREM REPASSAR PER
PODER-LOS APLICAR A L’ABP1.