Prelucrarea statistico-matematică Pentru prelucrarea datelor s-au folosit pachetele software EPI2000, distribuit de OMS, SPSS, specializat în calcule

statistice ştiinţifice, produs de firma SPSS şi modulul Data Analysis al programului MICROSOFT EXCEL, impreuna cu suita XLSTAT pentru MS Excel. Înregistrarea cu ajutorul programului EXCEL a datelor despre pacienţi a produs baza de date iniţială din care s-au extras aspectele semnificative ale acestui studiu. Prelucrarea propriu-zisă s-a făcut cu ajutorul: • comenzilor CrossTab, BasicTables, General Tables, Correlate, Regression şi Factor Analisys, ale programului SPSS, • modulului ANALYSIS al programului EPI2000 specializat în executarea de grafice, tabele şi teste statistice, • comenzilor Pivot Tables, Functions-Statistical şi Chart din MS Excel, si comenzile din modulul XLSTAT pentru realizarea de curbe ROC Interpretarea datelor (si cunostintelor) medicale trebuie sa se bazeze pe o întelegere exacta a termenilor folositi. Din acest punct de vedere, notiunea de prevalenta a unei maladii M este clara, fiind legata de frecventa indivizilor bolnavi. Mai precis, prevalenta maladiei M este numarul de indivizi bolnavi dintr-un esantion de 1000 de indivizi ai populatiei, alesi aleator. Sa ne imaginam ca un test biologic S – care ar putea sa dea rezultat pozitiv sau negativ – produce informatii asupra maladiei M. Ne intereseaza felul în care informatia privind rezultatul testului asupra unui individ va modifica probabilitatea ca acel individ sa aiba maladia M; cu alte cuvinte, cum se schimba probabilitatea apriorica P(M) în probabilitatea a posteriori P(M | S). Numar indivizi: care pentru care Testul S da rezultat pozitiv Testul S da rezultat negativ au maladia M TP FN nu au maladia M FP TN

Apar notiunile de senzitivitate si de specificitate a testului. Definirea lor este usoara daca vom considera urmatorul tabel de contingenta: Evident, un individ oarecare ar putea cadea în una dintre cele patru categorii: – TP (true positive), care au maladia M iar testul da rezultat pozitiv, – TN (true negative), care nu au maladia M iar testul da rezultat negativ, – FP (false positive), care nu au maladia M iar testul da rezultat pozitiv, – FN (false negative), care au maladia M iar testul da rezultat negativ. Cunoscând repartizarea indivizilor, putem defini cu usurinta senzitivitatea testului S prin proportia celor cu rezultat pozitiv în cadrul celor ce au maladia M: Sz =TP/(TP+FN) Analog, specificitatea testului S este proportia indivizilor care testeaza negativ în cadrul celor ce nu au maladia M: Sp=TN/(TN+FP) Testului Chi pătrat a fost folosit pentru a interpreta tabelele de incidenţă; datele au fost apreciate din punctul de vedere al dependenţei între cei doi factori de clasificare, reţinând doar rezultatele sub 5%, considerat un prag de semnificaţie suficient. La testul chi patrat de testare a dependentei intre doi factori s-a calculat rezultatul testului pentru datele din tabelele de incidenta, rezultat care a fost comparat cu valoarea prag care indica o dependenta semnificativa (prag de 95% sau 99%) sau o dependenta inalt semnificativa (prag de 99.9%) intre cei doi factori de clasificare.

01.5 unitati a diferentei dintre frecventa observata si cea probabila in cadrul numaratorului lui Chi patrat (din formula) inainte de ridicarea la patrat.frecventa observata. Pentru esantioane mici se poate folosi testul aplicand corectia Yates.05. Creste insa riscul unei erori de tipul II (acceptarea unei false ipoteze atunci cand ea este in fapt falsa).χ2 = ∑ i =1 n (| Oi − Ei |) 2 . ce implica micsorarea cu 0. ca si alte teste. c −1) in( unde r si c sunt nr. Unii statisticieni recomanda utilizarea corectiei de continuitate in cazul unui tabel de contingenta 2x2. atunci cand frecventele probabile sunt mici. • p < 0. V = χ2 / m r −1. • p > 0.001. furnizate direct de programul cu care se realizeaza prelucrarea statistica a datelor. si nu 50%-40%=10%. diferenţa între cele două medii este nesemnificativă(NS).frecventa teoretica Testul Chi patrat este valid daca cel putin 80% dintre frecventele probabile depasesc 5 si toate frecventele probabile depasesc 1. o valoare a lui p. Scazand valoarea lui Chi patrat. Testul Chi pătrat arata daca exista vreo legatura (influenta reciproca) intre doi factori. Testul exact al lui Fisher se regaseste in majoritatea pachetelor statistice existente si returneaza. de randuri si coloane din tabelul de incidenta studiat. care este si ea un procent. nu frecvente observate) Testul exact al lui Fisher reprezinta deci o alternativa a testului Chi patrat in examinarea asociatiilor in cadrul unui tabel de contingenta 2 x 2. • p < 0. Am folosit următoarea interpretare a valorilor lui p. valoarea coeficientului lambda arata cu cat se reduce erorea facuta la incadrarea unui subiect (pacient) intr-o categorie a unuia dintre factori daca stim din ce categorie a celuilalt factor face parte. In literatura medicala. Pentru tabele de incidenta care inregistreaza distributia unor factori nominali. . (Atentie: frecvente probabile calculate in cadrul testului. sau daca mai mult de 20% din frecventele probabile sunt sub valoarea 5. Testul Cramer verifica puterea de asociere dintre doi factori nominali si se foloseste pentru tabele cu mai multe randuri si coloane ( pt. decat daca il incadram fara sa stim ce rezultat s-a inregistrat la primul factor. este vorba de scadere exprimata in procente din valoarea initiala a erorii. prin aplicarea testului de mai sus. In cazul in care o frecventa probabila este sub valoarea 2. Testul lambda al lui Goodman şi Kruskal (λ) este o măsură de reducere proporţională a erorii. valoarea lui Chi patrat scade. cunoscuta si sub denumirea de corectie de continuitate. cat si in lipsa corectiei. Ei O . De exemplu. Conditia de aplicare a acestui test este ca totalurile pe randuri si pe coloane sa fie fixe. Altii se impotrivesc corectiei. mai precis masoara daca fiecare categorie a unuia dintre factori se asociaza in mod preferential cu una dintre categoriile celuilalt factori. diferenţa între cele două medii este foarte înalt semnificativă(VHS).05. tabele 2x2 este preferat coeficientul phi). diferenţa între cele două medii este înalt semnificativă(HS). sansele ca ipoteza nula sa fie respinsa scad. cunoscute dinainte. Rezultatul acestui test se noteaza cu V. astfel. astfel ca si riscul de a face o greseala de tipul I (respingerea ipotezei nule atunci cand aceasta este in fapt veridica) scade semnificativ. Conditia de validitate limiteaza semnificativ utilizarea testului Chi patrat. • p < 0. se recomanda utilizarea testului exact al lui Fisher. E . diferenţa între cele două medii este semnificativă (S). testul Chi patrat se aplica atat cu. Atentie. o reducere cu 40% a unei erori de 50% inseamna ca eroarea la final va fi 50% x (100%-40%)=50% x 60%=30%.

se apropie suficient de mult de acea valoarea reală. caz în care este asimilat cu un factor PROTECTOR. cât şi la neexpuşi. Are avantajul că se exprimă în procente. Se calculează pe un lot cum este cel din exemplul din tabel. şi trebuie considerat că factorul de risc respectiv nu are o influenţă reală asupra apariţiei bolii. atât la expuşi. sa facă boala (indiferent din ce motiv). înseamnă că la acea casă de . în aceste cazuri. şi numărul tuturor celor neexpuşi (c+d). corespunzătoare întregii populaţii. decît la cei neexpuşi. Se calculează pe un lot cum este cel din exemplul din tabel. şi se poate explica cum se determină cât de bună. sau de precisă este valoarea calculată a riscului relativ. Riscul la cei neexpuşi este probabilitatea ca un individ neexpus. cotele se folosesc la casele de pariuri. se interpretează de la caz la caz. valori ale riscului relativ apropiate de 1 arată aproximativ aceeaşi probabilitate de a face boala. ca raportul dintre numărul celor care au făcut boala fiind expuşi (a). De obicei riscul calculat ca mai sus. Dacă riscul relativ are valori mult mai mari ca 1. este o indicaţie că între factorul de risc şi boală este o legătură de corelaţie care. presupus a influenţa apariţia bolii. Boala "+" prezentă Factor de risc Expuşi"+" Neexpuşi"-" Total a c a+c "-"absentă b d b+d Total a+b c+d N=a+b+c+d Formulele sunt: • Riscul la cei expuşi: Re = a/(a+b) • Riscul la cei neexpuşi: Rn = c/(c+d) • Riscul relativ RR=Re/Rn. Se foloseşte termenul de “Raportul cotelor”. Odds Ratio Nu are traducere consacrată în limba română. cu cât numărul total de pacienţi din tabel este mai mare. Riscul la cei expuşi este probabilitatea ca un individ expus. Deoarece este raportul a două “cote”. În engleză. valoarea obţinută este numai o aproximare a valorii reale care s-ar obţine dacă ar fi consideraţi toţi indivizii populaţiei de referinţă (atât cei expuşi cât şi cei neexpuşi). Riscul atribuabil este diferenţa dintre riscul la cei expuşi şi riscul la cei neexpuşi. este raportul dintre riscul la cei expuşi. referitoare la un lot anume. sa facă boala (indiferent din ce motiv). Riscul relativ Este o măsură a legăturii între o boală şi prezenţa unui factor de risc. şi riscul la cei neexpuşi. sau mai puţin inspirat. trebuie întâi înţeles ce înseamnă cotă. este mai puţin utilizat în practică. Aceasta este o problemă separată. deşi nu este chiar obligatoriu ca factorul de risc să fie CAUZĂ pentru apariţia bolii. pe care nu o cunoaştem. Aceasta deoarece.Tot pentru testarea dependentei intre doi factori am mai folosit riscul relatv si odds ratio. sau RR=(a*(c+d))/(c*(a+b)) Interpretare: Riscul relativ ne spune de câte ori este mai mare probabilitatea de a face boala când eşti expus decât atunci când eşti neexpus. Există cazuri în care riscul relativ are valori subunitare (mai mici ca 1). care are un grad de obiectivitate mai mare. se apropie cu atât mai mult de cel real. şi este mai subiectiv decât riscul relativ. Ca interpretare. În general. este mai MIC riscul de a face boala la cei expuşi. O întrebare pertinentă este dacă valoarea obţinută prin calcule ca cele de mai sus. trebuie ştiut ce înseamnă aceste două riscuri. ca raportul dintre numărul celor care au făcut boala fiind neexpuşi (c). În toate cazurile. Deşi pare la prima vedere destul de util ca informaţie pe care o poartă. de obicei este interpretată ca fiind CAUZALĂ. “Raportul şanselor”. Deoarece se măsoară în funcţie de riscul la cei expuşi şi riscul la cei neexpuşi. Riscul Relativ. O cotă de 3 la 2 pentru un eveniment. şi numărul tuturor celor expuşi (a+b).

De exemplu. b. este nesemnificativă. Formula de calcul a intervalului de încredere de 95% este: I 95 % = [ OR −1. . arată o tendinţă de corelaţie între prezenţa expunerii şi a bolii la pacienţi.. în studiile de cohortă. Dispersia coeficientului OR este dată de formula: 1 1 1 1  2 σ OR = OR 2  + + +  a b c d  unde a. b. Sau. apoi σ . Valori mult sub 1 arată tot o corelaţie. d) se poate calcula OR aşa cum s-a vazut mai sus. este doar o aproximare a valorii reale a lui OR. două şanse să nu se întâmple. şi 32 contra. se foloseşte Odds Ratio. d sunt cele patru numere înscrise în cele patru celule ale tabelului de incidenţă. din cele patru numere ale unui tabel de incidenţă (numerele a. nu e corect să se spună “o şansă din 32….pariuri se consideră că sunt 3 şanse pentru şi 2 şanse contra ca evenimentul să se întâmpe. ca raportul între cota de îmbolnăviri la cei expuşi şi cota de îmbolnăviri la cei neexpuşi. avem nevoie de deviaţia standard a sa. valori apropiate de 1. dar în acest caz. Atenţie. valoarea indicatorului RR (sau OR).”. apoi intervalul de încredere. arată cote asemănătoare. nu indică o corelaţie reală între factorul de risc şi boală Dacă intervalul de încredere nu conţine numărul 1. şi trei să se întâmple. în special în studiile Caz-Martor sau. c. În cazul indicatorilor RR şi OR. Corect este 1 pentru şi 32 contra. expunerea este considerată un factor de PROTECŢIE. deşi nu totdeauna este cazul. adică o şansă pentru. este semnificativă. indică o corelaţie reală între factorul de risc şi boală Pentru a calcula un interval de încredere al lui OR. mai rar. • Cota de îmbolnăviri la cei expuşi este raportul dintre numărul celor expuşi la care boala este prezentă şi numărul celor expuşi la care boala este absentă • Cota de îmbolnăviri la cei neexpuşi este raportul dintre numărul celor neexpuşi la care boala este prezentă şi numărul celor neexpuşi la care boala este absentă Boala "+" prezentă "-"absentă Factor Expuşi"+" a de risc Neexpuşi"-" c Total a+c b d b+d Total a+b c+d N=a+b+c+d Formulele sunt: • Cota de îmbolnăviri la expuşi a/b • Cota de îmbolnăviri la neexpuşi c/d • Odds Ratio (a*d)/(b*c) Ca şi interpretare. corelaţie care este considerată de obicei ca fiind CAUZALĂ.96 ⋅σ OR .96 ⋅σ OR ] Deci. valoarea indicatorului RR (sau OR). cea ce înseamnă că expunerea nu influenţrază prezenţa bolii. În studiile clinice. cota echipei României la CM de fotbal a fost într-un an de 1 la 32. sau de dispersie. Estimarea indicelui OR Valoarea obţinută pentru OR folosind un lot extras dintr-o populaţie. Valori mult peste 1. Calitatea aproximării este dată de intervalul de încredere de 95% (sau de 99%). intervalul de încredere sre următoarea interpretare: • • Dacă intervalul de încredere conţine numărul 1. OR +1. c.

. xn =m n Media este indicatorul care arată tendinţa centrală a seriei de valori.. prin ANOVA se poate prezenta modul în care aceste variabile independente interacţionează una cu alta şi ce efecte au aceste interacţiuni asupra variabilei dependente.Testul t al lui Student de comparare a mediilor pentru 2 loturi propune doua ipoteze statistice: -ipoteza H0 (sau ipoteza de nul): diferenta intre medii este intamplatoare -ipoteza H1: diferenta intre medii este semnificativa statistic Rezultatul p al testului reprezinta probabilitate de a face o eroare dacă se respinge ipoteza H0 a testului. Se notează cu litera m sau. prin aplicarea testului de mai sus. k unde x – parametrul considerat -Ipoteza alternativă H1: cel puţin valorile a doi parametri sunt diferite între ele Pentru verificarea ipotezei H0. De cele mai multe ori. raportul dintre estimatorul varianţei intergrupe (between groups) şi estimatorul varianţei intragrupe (within groups). valorile din serie sunt situate în majoritate în apropierea mediei. • p < 0.. • p < 0. De asemenea. numită şi variabila independentă.05.05 respingem ipoteza H0.. Daca p este mai mic decat 0. fiind un foarte bun indiciu al valorii în jurul căreia se grupează datele.. si admitem ca este adevarata ipoteza H1.. iar o mai mică parte din ele sunt situate mult în stânga sau în dreapta mediei.01. În analiza variaţiei considerând un singur factor cauză se formulează următoarele 2 ipoteze: -Ipoteza nulă H0: 1= 1=.001. În astfel de cazuri. şi de obicei arată unde tind datele să se aglomereze. • p > 0. Variabila factor. rezultat furnizat ca un număr între 0 şi 1. furnizate direct de programul cu care se realizeaza prelucrarea statistica a datelor. Raportul F este calculat ca raport între doi estimatori ai varianţei. diferenţa între cele două medii este nesemnificativă(NS). Testul ANOVA (Analysis of Variance) este un procedeu de analiză a varianţei unei variabile numerice sub influienţa unei variabile de grupare.. X = . Formula este cea cunoscută: x1 + x2 +. Rezultatul acestui test poate fi exprimat ca o probabilitate p. media se notează cu X sau Y . de nul. în Anova se foloseşte testul statistic F – raportul Fisher.. La testul „t” de comparare a mediilor (testul Student). la situaţii în care variabila independentă (variabila de grupare) prezintă trei şi mai multe categorii (niveluri) pentru a verifica dacă sunt diferenţe semnificative între populaţiile din care s-au extras eşantionanele observate. am folosit următoarea interpretare a valorilor lui p.. trebuie să fie calitativă şi trebuie să aibă un număr redus de categorii (modalităţi). ANOVA poate fi folosită în analiza unor situaţii în care asupra variabilei numerice (variabila dependentă) acţionează simultan mai multe variabile independente.. ANOVA unifactorială (One Way ANOVA) este unul din procedeele de analiză a varianţei pentru o variabilă cantitativă dependentă de o singură variabilă factor (de grupare). • p < 0... care se interpreteaza ca si la testul Student. Este un indicator simplu şi în acelaşi timp foarte sintetic. aplicabil asupra a două medii. S-au folosit în toate calculele. şi anume. Prin ANOVA se compară medii pentru trei şi mai multe subpopulaţii definite de variabila de grupare (variabila independentă). diferenţa între cele două medii este înalt semnificativă(HS). următorii indicatori statistici: Media aritmetică a unei serii de valori. diferenţa între cele două medii este semnificativă (S). Aceasta metodă permite extensia analizei realizate prin testul t. dacă seria de valori este notată cu o majusculă ca X sau Y. diferenţa între cele două medii este foarte înalt semnificativă(VHS).05.

. Deviatia standard a MEDIILOR esantioanelor este numita eroare standard a mediei si are formula: . Suma obţinută ar trebui împărţită la numărul de abateri pentru a se obţine o medie. + ( xn − X ) 2 n −1 După cum se observă. atunci când media este diferită de 0. din motive teoretice.. + ( xn − X ) 2 n −1 Acest indicator se exprimă cu aceeaşi unitate de măsură ca şi valorile din seria considerată şi este un indicator foarte fidel al împrăştierii seriei. Dispersia se notează cu D şi are formula: D= ( x1 − X ) 2 + ( x2 − X ) 2 + . Coeficientul de variaţie este cel mai fidel indicator al împrăştierii unei serii statistice. • La deviaţii standard aproximativ egale. din acest motiv. şi are în general valori foarte mari. este cu atât mai fidel cu cât mediile sunt mai depărtate de 0.. şi când. numărătorul fracţiei din definiţia dispersiei este cu atât mai mare cu cât abaterile individuale de la medie sunt mai mari şi deci este natural să considerăm că o valoare mare a dispersiei arată o împrăştiere mare a valorilor din serie. Este raportul dintre deviaţia standard şi medie. cat si de dimensiunea esantionului. Unele abateri vor fi pozitive.V. adică la distanţe mari de medie. La medii foarte apropiate de 0 îşi pierde din fidelitate şi nu este indicat să fie folosit. Un mod de a ocoli faptul că suma abaterilor absolute este 0. Abaterea standard. este mai împrăştiată seria cu deviaţia standard mai mare. se exprimă în procente: C. este ridicarea la pătrat a acestora înainte de a fi adunate. deviatia standard) pot sa varieze de la un esantion la altul... deoarece. adică unitatea de măsură este aceeaşi cu a valorilor din serie şi are o valoare comparabilă cu abaterile individuale de la medie. altele negative. pentru a face să dispară diferentele.. Acest lucru se întâmplă mai ales atunci când valorile din serie sunt şi negative şi pozitive. Un mod de a măsura aceste abateri de la medie este să se facă diferenţa între toate aceste valori şi media lor. Mediile esantioanelor pot fi distribuie aproximativ normal daca dimensiunea esantionului este suficient de mare.Împrăştiere. În realitate. ridicate la pătrat. masurile statistice de tendinta centrala si variabilitate (media.. Ele nu pot fi adunate. Dispersia are dezavantajul că se exprimă cu unităţile de măsură ale valorilor din serie. Daca se iau esantioane repetate din aceeasi populatie.. Gradul de variatie depinde atat de variatia care exista in populatie. = σ X Aprecierea cu ajutorul coeficientului de variaţie se face mai ales atunci când două serii de valori au medii mult diferite şi deviaţiile standard pot să nu ne dea o indicaţie suficient de utilă. Dispersia. Abaterea standard nu are dezavantajele dispersiei. este mai împrăştiată seria cu media mai mică. Coeficientul de variaţie. C. media poate fi aproape de 0.. De reţinut : • La medii aproximativ egale.V . Valoarea care se obţine astfel se numeşte dispersie şi este un indicator al gradului de împrăştiere al seriei.. prin adunare dau suma apropiata de 0. dar are şi el un inconvenient.. Se notează cu σ şi are formula: σ = D sau σ = ( x1 − X ) 2 + ( x2 − X ) 2 + .. împărţirea se face la n-1. Valorile dintr-o serie de valori pot fi mai aglomerate în jurul mediei sau mai dispersate.

Cuartila Q3 este valoarea dintro serie de valori. pentru care trei sferturi din valorile seriei sunt mai mici decât Q3 şi un sfert mai mari. Coeficientul de corelaţie. x2 .. Deşi distribuţiile datelor nu sunt intotdeauna de aşa natură ca rezultatele obţinute folosind acest coeficient sa fie cele mai bune. t= r (1 − r 2 ) /( N − 2) ... coeficientul de corelaţie folosit este coeficientul lui Pearson. Mediana şi Q3) . xn şi Y ÷y1 ..S . 2 şi 3 (Q1.. y 2 .. X ÷x1 . Formula folosită pentru calculul coeficientului de corelaţie Pearson este: r= ∑(x − X ) ⋅( y i =1 i n i −Y ) i ∑(x − X ) i =1 i n 2 ⋅ ∑(y i =1 n −Y ) 2 unde .. se poate calcula paametrul t. pentru care jumătate din valorile seriei sunt mai mici decât mediana şi jumătate mai mari.. totuşi am considerat ca este cel mai sintetic indicator al corelaţiei.. sunt valorile măsurate pentru cei doi parametri a căror corelaţie o calculăm şi X .. notat r2 a fost considerat coeficient de determinare între cei doi parametri. Pentru două serii de date. y n ... = σ n = D n( n −1) Eroarea standard a mediei este uneori folosita incorect pentru a rezuma datele. Pentru a vedea daca valoarea lui r este semnificativa sau nu. calculate cu formula dată mai sus. Pătratul coeficientului de corelaţie.E.. care se poate transforma intr-o valoare p la fel ca rezultatul t al testului Student cu N-2 grade de libertate. pentru care un sfert din valorile seriei sunt mai mici decât Q1 şi trei sferturi mai mari. mediile de eşantionare respective. Cuartila Q1 este valoarea dintr-o serie de valori. Spre deosebire de deviatia standard. Mediana este valoarea dintr-o serie de valori. Cuartilele 1. Y . ea nu arata variabilitatea care apare in cadrul unui esantion (lot)..

Sign up to vote on this title
UsefulNot useful