You are on page 1of 56

ANALIZA DATELOR

C. Bicu, 2009

De ce avem nevoie de statistic?


Vrem sa tragem concluzii ct mai valide din cantiti limitate de date. Diferene importante sunt deseori mascate de variabilitatea biologic i/sau imprecizia experimental Mintea uman exceleaz n gsirea de tipare i relaii, dar tinde s generalizeze n exces.

De ce avem nevoie de statistic?

Calculele statistice extrapoleaz de la eantion la populaie


n cercetarea biomedical se presupune c populaia este infinit, sau cel puin foarte mare n comparaie cu eantionul nostru.

De ce avem nevoie de statistic?


Control de calitate O fabric de cmi: se extrage la ntmplare un eantion din ntreaga populaie de cmi, iar concluziile legate de calitatea eantionului se extrapoleaz la toat producia.

De ce avem nevoie de statistic?


Sondajul politic Se extrage la ntmplare un eantion de votani, iar rezultatul se extrapoleaz la ntreaga populaie de votani

De ce avem nevoie de statistic?

Studii clinice Eantionul de pacieni studiat este rareori extras la ntmplare. Totui, pacienii inclui n studiu sunt reprezentativi pentru ali pacieni similari, iar extrapolarea de la eantion la populaie se poate face.

Tipuri de variabile
Variabila = orice calitate, caracteristic sau constituent al unei persoane sau lucru, care poate fi msurat toat cercetarea medical = studiul relaiilor dintre variabile cercettorii medicali sunt interesai de studierea fie a asociaiilor, fie a diferenelor dintre variabile.

Tipuri de variabile
Variabile nominale
variabile sub form de nume sau alte simboluri reprezentnd categorii ce nu pot fi ordonate una n raport cu cealalt numele, grupa sanguin, sexul, rasa, culoarea ochilor, diagnosticul etc. variabile dihotomice (binare, bimodale) = variabile ce nu pot lua dect dou valori
mort/viu, fumtor/nefumtor, prezent/absent, normal/anormal - DA/NU

Tipuri de variabile

Variabile ordinale
variabile ce sunt clasificate n mai mult de dou categorii i la care exist o ordine natural ntre categorii evoluia, stadializri, clasificri, scoruri etc.

Tipuri de variabile
Variabile cantitative
continue
variabile cu un numr potenial infinit de valori de-a lungul unui continuum nlimea, greutatea, TA, vrsta etc.

discontinue (discrete)
variabile ce pot fi descrise numai prin uniti ntregi ce nu pot fi msurate n intervale mai mici dect unitatea AV, nr. copii etc.

Tipuri de variabile - statistic descriptiv

Variabile nominale tabel de frecven (frecvena observaiilor pe categorii) grafic: bare, plcint modul (categoria cea mai frecvent)

Figura II.3. Distribuia pe orae a cazurilor incluse n studiu

TIMISOARA

11 (6,7% ) 3 (1,8% ) 10 (6% ) 13 (8% ) 23 (14% )

TARGU MURES

SIBIU

IASI

CLUJ

BUCURESTI

98 (60% ) 6 (3,7% )

BRASOV

Tipuri de variabile - statistic descriptiv


Variabile ordinale tabel de frecven, mediana, modul utilitatea mediei este discutabil (intervalele dintre categorii nu sunt egale ca mrime) deseori, media este furnizat - se presupune c intervalele scalei sunt egale sau, cel puin aproximativ egale

Clasa NYHA I II III IV TOTAL

Frecventa Frecventa Frecventa relativa cumulata 23,8% 23,8% 50 % % 70 60 30 210


33,3% %
28,6% %

57% %
85,7% %

% 14,3% % 100%

% 100%

George J et al. Heart 2006;92:14201424.

Tipuri de variabile - statistic descriptiv


Variabile cantitative msura tendinei centrale (media, mediana, modul) msura dispersiei (deviaia standard, variana) distribuia normal

47,5%

SD =

(x-x)2
n-1

SD = deviatia standard
arata gradul de dispersie al valorilor

SEM = eroarea standard a mediei


CI95% al mediei SEM = SD / \/n

Comparaia a 2 grupuri distribuie normal teste parametrice Comparaia a 3 grupuri Corelaia a 2 variabile n acelai grup distribuie nonnormal Variabil ordinal teste nonparametrice Corelaia a 2 variabile n acelai grup Comparaia a 2 grupuri

Student (t) Test F (ANOVA) Corelaie (coeficient Pearson)/ regresie Corelaie (coef. Spearman)

Regresie linear multipl

Variabil cantitativ

Mann-Whitney U, Wilcoxon Kruskall-Wallis Regresie logistic Modelul lui Cox

Comparaia a 3 grupuri
Variabil dihotomic

X2 Fisher exact Log rank

Interval de timp

ANALIZA STATISTICA II

C. Bicu, 2005

P si intervalele de incredere

Cristian Baicus nov 2005

populaie

eantionare

p, CI

eantion

Incertitudinea statistica
Incertitudinea (prezenta chiar intr-un
esantion reprezentativ) care apare atunci

cand folosim datele esantionului pentru a


trage concluzii asupra populatiei

De ce apare incertitudinea statistica?


Nu putem include toti indivizii dintr-o populatie tinta intr-un studiu. De exemplu, intr-un RCT al unui tratament nou pentru HTA, nu este posibila includerea tuturor pacientilor cu HTA. In schimb vom folosi un esantion pentru a testa tratamentul nou si cel standard.

Masurarea incertitudinii statistice


Incertitudinea statistica poate fi
cuantificata prin:
testarea ipotezei (cu calculul valorii p)
calculul intervalelor de incredere (CI)

Marimea esantionului
1/~ p
1/~ largimea intervalului de incredere

p
H0: C=P H1: C>P 10x10.000
25% 20% 5C 20% 4C 6C 12% 3C 0,1%1% 0C 1C 4,5% 2C 12% 7C 4,5% 8C 1% 0,1% 9C 10C

37,5% p=0,375 unidirectional, one tailed (one sided)

p
H0: C=P H1: C>P
25% 20% 5C 20% 4C 6C 12% 3C 0,1%1% 0C 1C 4,5% 2C 12% 7C 4,5% 8C 1% 0,1% 9C 10C

~17,5% p=0,175 unidirectional, one tailed (one sided)

p
H0: C=P H1: C>P
25% 20% 5C 20% 4C 6C 12% 3C 0,1%1% 0C 1C 4,5% 2C 12% 7C 4,5% 8C 1% 0,1% 9C 10C

1% p=0,01 unidirectional, one tailed (one sided)

p
H0: C=P H1: CP
25% 20% 5C 20% 4C 6C 12% 3C 0,1%1% 0C 1C 4,5% 2C 12% 7C 4,5% 8C 1% 0,1% 9C 10C

37,5%

37,5%

p=0,75 bidirectional, two tailed (two sided)

p
H0: C=P H1: CP
25% 20% 5C 20% 4C 6C 12% 3C 0,1%1% 0C 1C 4,5% 2C 12% 7C 4,5% 8C 1% 0,1% 9C 10C

~17,5%

~17,5%

p=0,35 bidirectional, two tailed (two sided)

p
H0: C=P H1: CP
25% 20% 5C 20% 4C 6C 12% 3C 0,1%1% 0C 1C 4,5% 2C 12% 7C 4,5% 8C 1% 0,1% 9C 10C

1% p=0,02 bidirectional, two tailed (two sided)

1%

CI

Basescu 6/10

Procent 60%

CI

[27 ,86]

CI

Basescu 6/10 24/40

Procent 60% 60%

CI [27%, 86%]

[43%,

74%]

CI
Basescu 6/10 24/40 120/200 Procent 60% 60% 60% CI [27% 86%] [43% 74%]

[53%, 67%]

CI
Basescu 6/10 24/40 120/200 240/400 1200/2000 Procent 60% 60% 60% 60% 60% CI [27% 86%] [43% 74%] [53% 67%] [55% 65%] [58% 62%]

p i CI
p: probabilitatea ca diferena dintre tratamente observat n
studiul nostru s fie datorat ntmplrii, iar n realitate (la nivelul populaiei) s nu existe nici o diferen ntre tratamente. interval de ncredere: intervalul n care se afl parametrul respectiv n realitate (la nivelul populaiei) (cu o probabilitate de 95%). RR, OR, RRR, RRA, NNT

p i CI
Studiu terapeutic, RR=0,8 dac la nivelul populaiei nu exist nici o diferen ntre mortalitile la cei tratai i cei netratai, probabilitatea ca n studiul (eantionul) nostru s apar un RR=0,8 este p la nivelul populaiei (n realitate), RR[0.5, 0.9].

p i CI
Studiu etiologic de cohort, RR=7 dac la nivelul populaiei nu exist nici o diferen ntre incidenele cancerului pulmonar la fumtori i nefumtori, probabilitatea ca n studiul (eantionul) nostru s apar un RR7 este p la nivelul populaiei (n realitate), RR[3 , 15].

intervalul de ncredere d aceleai informaii ca i p (de fapt chiar mai multe)

Nesemnificativ statistic: atunci cnd CI include 1 (pt. RR, OR) 0 (pt. RRR sau RRA)

(pt. NNT)

CI

semnificaie statistic

semnificaie clinic

Efect important /efect surogat

p publicate sunt mai optimiste CI sunt optimiste (mai nguste dect n realitate)

Alegerea ntre un test parametric/nonparametric - cazurile simple


Alegem un test neparametric n 2 situaii: efectul este o variabil ordinal i populaia este clar non-Gaussian (de ex. notele studenilor, scorul Apgar, scala vizual analogic pt. Durere etc.)

efectul este o variabil cantitativ i suntem siguri c nu are o distribuie gaussian n populaie (transformare: log, reciproca, radical) efectul este o variabil cantitativ cu distribuie gaussian, dar dispersia este mult diferit

Alegerea ntre un test parametric/nonparametric - cazurile dificile


Cnd avem cazuri puine, este greu de spus dac distribuia este Gaussian, iar testele speciale (Kolmogorov-Smirnov) au putere mic ceea ce conteaz este distribuia la nivelul populaiei, i nu la nivelul eantionului nostru! De cutat n literatur

Alegerea ntre un test parametric/nonparametric - cazurile dificile


Cnd nu sunt siguri de tipul distribuiei, unii aleg un test parametric (deoarece nu sunt siguri c este violat prezumia de normalitate), iar alii aleg teste nonparametrice (deoarece nu sunt siguri c prezumia de normalitate este satisfcut)

Alegerea ntre un test parametric/nonparametric - cazurile dificile

n natur, distribuiile non-gaussiene sunt frecvente! Este valabil ndeosebi n cazul valorilor biologice

Alegerea ntre un test parametric/nonparametric - are importan?


Depinde de mrimea eantionului! Dac eantionul este mare (cel puin 24/30 de date n fiecare grup), este mai uor de spus dac eantionul provine dintr-o populaie Gaussian, dar nu are mare importan, putem folosi orice tip de test. Dac eantionul este mic, este greu de spus dac populaia este gaussian, dar este f. important: testele nonparametrice nu sunt puternice, iar cele parametrice nu sunt robuste.

Teste mperecheate sau nemperecheate? (paired / unpaired)


Nemperecheat cnd valorile individuale dintr-un grup nu sunt mperecheate cu cele din cellalt (grupurile/msurtorile sunt independente) mperecheat cnd valorile reprezint:
msurtori repetate asupra aceluiai subiect msurtori pe subieci mperecheai nainte de colectarea datelor

You might also like