You are on page 1of 37

BIOSTATISTICA

Cursul 4
Intervale de încredere

IM&Bs UMF "C. Davila" Biostatistica - cursul 4 - 2013 1

Reamintim: distribuţia normală
N( , )
 Densitatea de probabilitate

Pentru N(0, 0.25)

Pentru N(0, 1) Pentru N(2, 4)

IM&Bs UMF "C. Davila" Biostatistica - cursul 4 - 2013 2

Teorema limită centrală
 Dacă se extrag eşantioane de volum n dintr-o populaţie,
atunci pentru valori “mari” ale lui n mediile de eşantion
sunt distribuite (aproximativ) normal.

 În caz că populaţia este distribuită normal, de parametri
şi 2, atunci orice valoare extrasă x are o distribuţie
normală N( , 2), iar
statistica m = (x1+x2+ … +xn)/n
are o distribuţie normală N( , 2/n) , de aceeaşi medie.

 Iar dacă variabila aleatoare X este distribuită aproximativ
normal, atunci putem accepta că m va fi distribuită
normal chiar şi pentru valori “mici” ale lui n.
IM&Bs UMF "C. Davila" Biostatistica - cursul 4 - 2013 3

cursul 4 . Davila" Biostatistica .2013 4 . Teorema limită centrală IM&Bs UMF "C.

. ( xn m) 2 Var ( X ) s2 n 1 IM&Bs UMF "C. xn E( X ) m n La rândul ei.. x2 .cursul 4 . varianţa se estimează din datele eşantionului prin estimatorul “varianţa de eşantion”: ( x1 m) 2 .... o vom putea estima folosind un eşantion x1.2013 5 .. xn de valori ale variabilei.. Estimarea mediei şi varianţei În caz că nu cunoaştem media variabilei X.. prin media aritmetică x1 x2 . Davila" Biostatistica .

cursul 4 . Davila" Biostatistica .2013 6 . Estimarea prezice cea mai probabilă poziţie a parametrului. cu un grad calculat de (in)certitudine. Cele două forme tradiţionale de inferenţă statistică sunt estimarea şi testarea ipotezelor. Inferenţa statistică Inferenţa statistică este acţiunea de generalizare a rezultatelor de la un eşantion la întreaga populaţie. prin calculul riscului asociat acceptării variantei „da”. IM&Bs UMF "C. iar testarea ipotezelor (în particular testarea statistică de semnificaţie) oferă un răspuns de tipul „da”/„nu” unor întrebări statistice.

De exemplu. IM&Bs UMF "C. În fine.cursul 4 . dintr-un eşantion ar putea rezulta că „25% din populaţie fumează” (aceasta este o estimaţie punctuală). rezultatul ar putea fi că „între 20% şi 30% din populaţie fumează” (aceasta este o estimaţie prin interval). epidemiologii ar putea să dorească să afle dacă prevalenţa fumatului s-a modificat în timp sau nu. Davila" Biostatistica . Alternativ. Inferenţa statistică Este normal pentru epidemiologi să dorească să afle prevalenţa unui factor de influenţă („de condiţionare”) – de exemplu fumatul – folosind date despre prevalenţa factorului într-un eşantion.2013 7 .

2013 8 .cursul 4 . IM&Bs UMF "C. Atunci când „direcţia” şi „cantitatea” sunt cele importante. testarea este cea utilă. Inferenţa statistică Folosim estimarea sau testarea ipotezelor în funcţie de natura inferenţei şi de abilităţile investigatorului. Atunci când e nevoie de răspuns categorial („da” sau „nu”) la o întrebare. În practică ambele sunt importante. cea mai utilă pare a fi estimarea. Davila" Biostatistica .

IM&Bs UMF "C. Davila" Biostatistica . este important să distingem clar între parametrii ce sunt inferaţi şi estimatorii prin care-i inferăm (şi care dau ca rezultate estimaţii).  Parametrii sunt ipotetici. Parametri şi statistici Indiferent de metoda inferenţială utilizată. în timp ce estimatorii sunt formule ce sumarizează eşantioanele.  Parametrii sumarizează populaţia.cursul 4 .2013 9 . statisticile sunt calculate. Cele două noţiuni sunt legate între ele. în timp ce statisticile sunt „reale”.  Parametrii sunt necunoscuţi.

IM&Bs UMF "C.2013 10 . simbolul p̂ („p căciulă”) este folosit pentru a reprezenta proporţia de eşantion (care este un estimator) în care caz p este folosit pentru a reprezenta proporţia populaţiei (parametrul). Davila" Biostatistica . statisticile sunt variabile aleatoare. De exemplu.cursul 4 . Statisticienii folosesc diverse simboluri pentru a reprezenta estimatorii şi parametrii populaţiei. în care caz p reprezintă proporţia de eşantion iar proporţia populaţiei . Parametri şi statistici  Parametrii sunt numere „constante” (dar necunoscute). Uneori folosim litere greceşti pentru a reprezenta parametrii.

Estimarea punctuală ne oferă ca rezultat un singur punct. De exemplu.2013 11 . care este cel mai probabil reprezentant al parametrului. Estimarea prin interval ne oferă un interval care are o credibilitate calculată de a „captura” parametrul.cursul 4 . Davila" Biostatistica . IM&Bs UMF "C. o proporţie de eşantion ( p̂ ) ar putea fi văzută ca estimator punctual de verosimilitate maximă pentru proporţia populaţiei (p). Estimarea Există două forme de estimare: cea punctuală şi cea prin interval.

96 / n şi + 1. Intervale de încredere  Ceea ce ştim despre distribuţiile normale ne îndreptăţeşte să afirmăm că 95% dintre mediile de eşantion m se vor afla între limitele – 1. concluzionăm că avem şanse 95% ca “adevărata” medie a populaţiei originare să se afle între limitele m – 1. anume prin media de eşantion m (AVERAGE) şi respectiv prin abaterea standard de eşantion s (STDEV).96 s/ n şi m + 1.2013 12 .96 s/ n. Inversând raţionamentul anterior. IM&Bs UMF "C.96 / n . Estimăm parametrul şi/sau parametrul pe baza datelor pe care le obţinem dintr-un eşantion particular. Davila" Biostatistica .cursul 4 .

Davila" Biostatistica . IM&Bs UMF "C. Sub 30 coeficienţii sunt alţii. daţi de distribuţii Student (t).  Coeficienţii 1.65 s/ n .65. iar intervalele pe care le vom crea pe baza celorlalte eşantioane (10% dintre ele!) nu vor conţine pe . 1. Intervale de încredere  Dacă am fi ales un coeficient de încredere de doar 90%.cursul 4 . m + 1.96 sunt valabili pentru volume n mai mari decât 30. atunci intervalul de încredere 90% s-ar fi micşorat la [ m – 1.2013 13 .65 s/ n ]  Ceea ce ştim este că pe baza a 90% dintre eşantioanele posibile vom reuşi să creăm intervale ce vor conţine parametrul .

2013 14 .65 p(1–p)/n . Davila" Biostatistica .1 < < 0. Intervale de încredere  Pentru proporţia a imunităţii unei populaţii faţă de un virus / o bacterie. p + 1.65 p(1–p)/n ] Se presupun îndeplinite condiţiile 0. n > 5 .  Intervalul de încredere de 90% (pentru proporţia ) este [ p – 1. estimatorul punctual este “frecvenţa relativă de eşantion” p=s/n în care s este numărul de “succese” constatat la indivizii eşantionului.9 . n (1 – )>5 IM&Bs UMF "C.cursul 4 .

este exact b( M .Intervale de încredere pentru proporţii  Cum estimăm proporţia a vindecărilor printr-un interval de încredere? (Dispunem de informaţia că S pacienţi dintre cei M urmăriţi s-au vindecat.2013 15 . Davila" Biostatistica .)>5).) S  (1) Calculăm frecvenţa: p M O considerăm variabilă aleatoare.cursul 4 . atunci F are media şi varianţa (1 ) M IM&Bs UMF "C. ) P M  (2) Dacă M este suficient de mare (M > 5) şi suficient de mic (M(1.

2013 16 .Intervale de încredere pentru proporţii  (3) Pe de altă parte.s2) este o normală oarecare. M  (4) Dacă variabila X=N(m.cursul 4 . F este aproximată “bine” de normala: (1 ) N .1) IM&Bs UMF "C. atunci transformata ei Z X m s este o normală standard N(0. Davila" Biostatistica .

Intervale de încredere pentru proporţii  (5) Pentru un nivel de încredere c%. atunci ştim că Prob( 1.2013 17 .65 Z 1.cursul 4 . Davila" Biostatistica .65) 0.96 Z 1. ştim că pentru normala standard există un prag zc > 0 aşa încât: Prob( zc Z zc ) c În particular.90 iar dacă ne alegem nivelul de încredere 95%.96) 0. dacă ne alegem nivelul de încredere 90%.95 IM&Bs UMF "C. atunci ştim că Prob( 1.

2013 18 .Intervale de încredere pentru proporţii p  (6) Aşadar. 1) Din relaţia p Pr zc zc c (1 )/M putem determina extremităţile intervalului de încredere c% rezolvând o ecuaţie de gradul al doilea în “necunoscuta” IM&Bs UMF "C. este bine aproximată de o (1 )/M normală standard N(0. Davila" Biostatistica .cursul 4 .

cursul 4 . Davila" Biostatistica . este bine aproximat de intervalul cu extremităţile f zc p (1 p ) / M IM&Bs UMF "C.2013 19 .Intervale de încredere pentru proporţii anume (p )2 zc (1 )/M Rezultă că intervalul de încredere c% are extremităţile zc2 p(1 p) zc2 zc p zc / 1 2M M 4M 2 M şi în particular. atunci când M este “mare”.

Cum estimăm rezultatul pe care-l va obţine cineva care dă răspunsurile absolut la întâmplare? Avem p = 20/100 = 0.96 1.2013 20 .2 Rezultă că intervalul de încredere 95% are extremităţile 1 1 4 1 1 2 1 1.96 5 5 5 100 5 5 10 ceea ce corespunde unui număr de răspunsuri corecte cuprins între 12 şi 28. pentru fiecare întrebare fiind specificate 5 variante de răspuns. IM&Bs UMF "C. Davila" Biostatistica . doar una dintre acestea fiind corectă.Intervale de încredere pentru proporţii  Exemplul testului format din M = 100 întrebări.cursul 4 .

respectiv p.2013 21 . Stabilirea volumului eşantionului  Atât în cazul mediei .cursul 4 . de volumul eşantionului şi de varianţă. respectiv | – p | < L . Dacă notăm lungimea sa cu 2L.  Lungimea intervalului de încredere depinde de coeficientul de încredere. alegând anterior coeficientul de încredere). cât şi în cazul proporţiei . atunci îl vom putea exprima astfel: | – m | < L. prin folosirea datelor unui eşantion am obţinut două estimaţii: a) o estimaţie punctuală m. Davila" Biostatistica . IM&Bs UMF "C. b) o estimaţie printr-un interval de încredere (bineînţeles.

 Pentru coeficientul de încredere 90% va trebui să rezolvăm o ecuaţie care are soluţia n = 1. Davila" Biostatistica .  Dacă a fost ales atât coeficientul de încredere c % pentru estimarea unui interval de încredere (centrat pe estimaţia “punctuală” p). intervalul de încredere c % va fi [ p – L . p + L ].2013 22 .652 p (1 – p )/L2 (Rezultatele sunt improprii pentru studiile medicale obişnuite!) IM&Bs UMF "C. cât şi limita L a erorii de estimare. Stabilirea volumului eşantionului  Să punem problema în alt mod: să determinăm volumul unui eşantion care să permită obţinerea unui interval de încredere “suficient de îngust”.cursul 4 .

2013 23 .rezultate  Studii medicale • Transversale • Caz/control (martor) • Longitudinale  Rezultatul prelucrării datelor obţinute = evoluţia unei maladii • Tendinţa • Distribuţia pe categorii de vârstă • Variaţii sezoniere IM&Bs UMF "C.cursul 4 . Studii . Davila" Biostatistica .

Iată câteva lucruri care trebuie luate în considerare:  Cum va fi măsurat rezultatul studiului? Oare măsurătorile vor fi obiective (fără observaţii falsificate)? Oare măsurătorile vor fi de încredere (aşa încât observaţiile să poată fi repetate)? IM&Bs UMF "C.cursul 4 . Ea trebuie să fie exprimată limpede. Proiectarea studiului Atunci când începem să analizăm date. concis şi precis.2013 24 . Davila" Biostatistica . trebuie să ne fie clară problema care a declanşat cercetarea. După ce a fost definită problema. pentru a i se găsi rezolvarea va fi proiectat un studiu.

2013 25 . Davila" Biostatistica . Proiectarea studiului  Cum vor fi cuantificate relaţiile între diverşi factori? Care parametri vor fi estimaţi?  Cât de mare va trebui să fie eşantionul ales aşa încât să fie asigurată o precizie suficientă a răspunsului?  Studiul va fi experimental sau nu? (Studiile experimentale implică intervenţii. ce tip de grup de control va fi utilizat? Intervenţiile vor fi întâmplătoare? Subiecţilor li se va ascunde tipul de tratament?  Dacă studiul nu este experimental.cursul 4 . oare observaţiile vor fi longitudinale? Oare datele vor fi prospective sau retrospective? IM&Bs UMF "C.)  Dacă studiul este experimental.

Sursele de date trebuie examinate cu atenţie. eşantioane de mediu. De asemenea.cursul 4 . Dar. nu trebuie să fie presupus nimic dinainte. atunci întrebările trebuie să fie simple. testat cu atenţie. probe biologice. chestionare. Colectarea datelor Obţinerea de date bune este costisitoare şi financiar. şi din punct de vedere al consumului de timp. posibil de modificat. IM&Bs UMF "C. examinări „fizice”.2013 26 . chestionarele trebuie să nu fie prea lungi. lipsite de ambiguitate şi să nu sugereze vreun răspuns. Davila" Biostatistica . atunci când punem întrebări. Dacă se foloseşte un chestionar. examinări directe. Ele includ înregistrări medicale. Formularul de colectare a datelor trebuie să fie bine calibrat. directe.

IM&Bs UMF "C.2013 27 .cursul 4 . Odată ce datele au fost colectate. Cum va fi eşantionată populaţia? Cum trebuie procedat cu subiecţii care refuză participarea sau cu cei care nu pot fi urmăriţi în timp? Trebuie analizat ce se va întâmpla cu datele lipsă sau cu cele neclare. cum vor fi evitate erorile de prelucrare? Cine va răspunde de introducerea datelor. de corectitudinea lor. înainte ca să apară problemele. Davila" Biostatistica . de documentare? Cine va salva datele şi în ce formă? Toate aspectele „de bucătărie” ale prelucrării datelor trebuie lămurite înainte de a începe studiul. Colectarea datelor Protocolul studiului trebuie să fie documentat.

cursul 4 . Davila" Biostatistica . de dorit şi forma distribuţiei. IM&Bs UMF "C. Cele mai simple date. calcule de proporţii. Tipul de descriere care este adecvat analizei depinde de natura datelor.2013 28 . Statistici descriptive Analize rezonabile se pot face doar după ce s-a obţinut o descriere bună a situaţiei. În cazul datelor cantitative se va descrie centrul. rate şi rapoarte. cele calitative (categoriale) necesită contorizări. apoi împrăştierea.

Statistici descriptive Forma unei distribuţii se referă la configuraţia unor puncte desenate. intervalul inter-cuartile şi amplitudinea.2013 29 . Cele mai utilizate măsuri statistice pentru împrăştiere sunt abaterea standard. Diagrame utile sunt histogramele. Cele mai utilizate măsuri statistice pentru centrul datelor sunt media.cursul 4 . Împrăştierea unei distribuţii se referă la dispersia (variabilitatea) în jurul centrului. mediana şi modul. vom lua în considerare simetria datelor. Davila" Biostatistica . boxploturile şi altele. rozetele. IM&Bs UMF "C. eventual aplatizarea. Atunci când analizăm forma.

Exemple de măsuri de asociere: diferenţa mediilor. utilizabil în cazul unor valori ordonate! IM&Bs UMF "C. Asocierea se referă la gradul în care valorile a două variabile „se corespund”. negative sau neutre.2013 30 . Asocierile pot fi pozitive. raportul riscurilor. Statistici descriptive Suntem interesaţi de asemenea în descrierea asocierilor între variabile. Davila" Biostatistica . coeficientul de corelaţie. Dar şi coeficientul de concordanţă. Măsura asocierii depinde de natura datelor.cursul 4 .

Raportarea rezultatelor Metodele statistice trebuie descrise cu detalii suficiente pentru a permite unui cunoscător să aibă acces la datele originare pentru a putea verifica rezultatele raportate. IM&Bs UMF "C. Evitaţi folosirea unică a testării statistice de semnificaţie şi a valorilor p întrucât acestea nu reuşesc să transmită informaţie cantitativă importantă. Specificaţi ce program de calculator aţi folosit (International Committee.2013 31 . Atunci când este posibil.. 1988).cursul 4 .. cuantificaţi descoperirile şi prezentaţi-le împreună cu indicatorii corespunzători de măsurare a erorii sau incertitudinii. Davila" Biostatistica .

deviaţiile standard). Raportarea rezultatelor Numărul de zecimale raportat în final este determinat de precizia datelor.2013 32 .  Pentru statisticile descriptive (cum sunt mediile.1 ani). chiar dacă aşa este obţinut). cele imprecise puţine. IM&Bs UMF "C. nu cu patru (este greşit 68. vârsta medie a unui eşantion de adulţi va trebui raportată doar cu o zecimală (de exemplu 68. raportaţi o zecimală în plus decât au existat în datele originare brute. Davila" Biostatistica . Există câteva reguli de care ar trebui să se ţină seama atunci când se raportează rezultate. De exemplu. Datele precise garantează multe zecimale.1276 ani.cursul 4 .

folosiţi precizia de două zecimale.cursul 4 .2013 33 . statistica t. IM&Bs UMF "C. raportaţi statistica t = 2. Davila" Biostatistica . Observăm că cifrele zero din faţă nu contează ca semnificative.0062. rotunjirea la procentul întreg (de exemplu. statistica F. De exemplu.56. cum sunt statistica X pătrat. două cifre semnificative vor fi suficiente. De exemplu. 25%) este de obicei adecvată.4%). cu toate că multe reviste preferă raportarea procentajelor cu o zecimală (de exemplu 25. raportaţi p-value = 0.  Pentru statisticile test. Raportarea rezultatelor  Pentru procente.  Pentru valorile p.

1.  Fiecare jurnal îşi are propriul standard de raportare.05. De exemplu. Dar se va folosi cifra zero înainte de punctul zecimal atunci când numărul ar putea fi mai mare decât 1. De exemplu.973 mg/dl.2013 34 . Davila" Biostatistica . se va raporta a = . Raportarea rezultatelor  Riscul relativ şi odds ratio ar trebui raportate cu precizia de o zecimală (de exemplu OR = 3.cursul 4 .  Trebuie raportate obligatoriu unităţile de măsură. De exemplu. creatinina seroasă medie = 0. nivelul mediu al creatininei seroase se va raporta = 0.973 mg/dl.11). IM&Bs UMF "C. nu 3.  A nu se folosi cifra zero înainte de punctul zecimal atunci când numărul nu poate depăşi pe 1.

cursul 4 .2013 35 . Testul Fisher Testul Mantel- două grupuri nepereche Whitney (pentru Haenszel ne-pereche eşantioane mari. hi-pătrat sau testul Z IM&Bs UMF "C. Indicaţii de alegere a metodei statistice Tipul datelor Scopul Ranguri. Davila" Biostatistica . Proporţia Curba de grup standard intervalul inter. Rezultate din scoruri sau Binomial măsurători rezultate din (doar două Durate de (dintr-o măsurători (din valori posibile) supravieţuire populaţie populaţii ne- normală) normale) Descrierea unui Media. supravieţuire cuartile (Kaplan Meier) Compararea a Testul t Testul Mann. Deviaţia Mediana.

2013 36 . Davila" Biostatistica . Rezultate din scoruri sau Binomial măsurători rezultate din (doar două Durate de (dintr-o măsurători (din valori posibile) supravieţuire populaţie populaţii ne- normală) normale) Compararea a Testul t pereche Testul Wilcoxon Testul McNemar Regresie două grupuri specială pereche Compararea a One-way Testul Kruskal. Testul hi-pătrat Regresie trei sau mai ANOVA Wallis specială multe grupuri IM&Bs UMF "C. Indicaţii de alegere a metodei statistice Tipul datelor Scopul Ranguri.cursul 4 .

2013 37 . simplă măsurate sau multiplă IM&Bs UMF "C. Rezultate din scoruri sau Binomial măsurători rezultate din (doar două Durate de (dintr-o măsurători (din valori posibile) supravieţuire populaţie populaţii ne- normală) normale) Cuantificarea Corelaţia Corelaţia Coeficientul de asocierii între Pearson Spearman contingenţă două variabile Predicţia Regresion Regresia Regresia Regresia valorii din alte liniară sau neparametrică logistică simplă specială variabile neliniară.cursul 4 . Davila" Biostatistica . Indicaţii de alegere a metodei statistice Tipul datelor Scopul Ranguri.