You are on page 1of 31

Cursul 4.

Elemente de biostatistica

Sa ne imaginam ca studiem un numar de indivizi ai unei populatii, de exemplu studentii din anul I, Facultatea de Medicina. (De ce? Poate din motive sociale, politice, economice, medicale, ...) Putem lua n considerare, din multitudinea de caracteristici posibile, doar cteva: naltimea, greutatea, culoarea parului, numarul de membri ai familiei, nivelul cunostintelor de anatomie, nivelul de inteligenta. Exprimnd aceste caracteristici prin variabile (unele numerice, altele nu), admitem ca prin masurare sau evaluare vom obtine seturi de date care umplu tabele de date. ntrebarile esentiale care se pun de obicei sunt urmatoarele: cum putem sa descriem sintetic datele pe care le- am obtinut? cum putem sa transmitem altora informatiile pertinente despre ansamblul indivizilor, fara nsa a le transmite toate datele obtinute? La acest gen de ntrebari statistica poate da un raspuns. Dar, pentru a ntelege justificarile metodelor statisticii si a le interpreta corect rezultatele, va trebui sa ne familiarizam cu cteva distributii teoretice, dintre care cele normale sunt cele mai cunoscute.

Continutul acestui curs este urmatorul: 4.1. Distributii continue .....................................................................................................116 4.2. Distributii normale (Gauss)........................................................................................120 4.3. Populatii si esantioane, caracteristici si variabile ....................................................128 4.4. Reprezentari grafice ....................................................................................................132 4.5. Statistici descriptive. Centrarea unei variabile numerice.......................................135 4.6. Statistici descriptive. Deviatia n jurul centrului .....................................................137 4.7. Statistici descriptive pentru variabile calitative.......................................................141 4.8. Covarianta si corelatia ................................................................................................142

115

4.1. Distributii continue n toate consideratiile anterioare au fost abordate numai distributii pentru care variabilele aleatoare asociate lor au valori discrete, fie n numar finit ca n cazul distributiilor binomiale b (n , p ) , fie numarabile cazul distributiilor Poisson Po ( ) . Acestea sunt cunoscute ca distributii discrete. n cele ce urmeaza vom considera distributii pentru care variabilele aleatoare asociate sunt capabile sa ia valori ntrun do meniu continuu (interval) de pe axa reala. Acestea sunt cunoscute ca distributii continue . Evident, valorile unei asemenea variabile aleatoare/distributii apar ca rezultate ale unor masuratori (de lungimi, greutati, durate de timp, temperaturi, concentratii etc.). ntro figura din lectia anterioara au fost reprezentate, ntro forma asemanatoare histogramelor, distributiile binomiale b(15, 0.25) si b(25, 0.2). n ambele cazuri valorile posibile ale lui k au fost plasate pe abscisa, echidistant ntre valoarea minima 0 si cea maxima n (= 15, respectiv 25) Pe ordonata se masoara valorile probabilitatilor
P (b ( n, p ) = k ) . Ne dam seama ca, atunci cnd n creste nemarginit, pastrnd aceeasi

lungime pentru intervalul [0, n], segmentele verticale tind sa fo rmeze un domeniu continuu ca n figura de mai jos. Curba care delimiteaza acest domeniu, n partea superioara, este graficul unei densitati de probabilitate. Ca sa fim mai precisi, sa definim o densitate de probabilitate ca fiind o functie reala continua f asa nct: 1) are valori pozitive:
f ( x) 0 pentru orice x R , si

2) aria delimitata de graficul ei si de axa absciselor este 1, adica:


f ( x) dx = 1 .

116

De fapt, aria delimitata de graficul functiei, de axa absciselor si de numerele reale a si b,


b arie data de expresia a f ( x) dx , este legata de o distributie/ variabila aleatoare continua X

prin relatia:
b P (a < X b ) = a f ( x) d x .

Sa facem observatia ca pentru o distributie discreta este posibil sa- i listam toate valorile. Din contra, este imposibil sa listam toate valorile unei distributii continue. (Se stie din teoria multimilor ca este imposibil sa listam toate punctele unui interval.) Este important sa observam ca valoarea probabilitate nu este o probabilitate . Totusi, relatia urmatoare stabileste o legatura cu probabilitatile evenimentelor:
P ( X c) = c f ( x) d x . f ( x) a unei functii densitate de

Pentru o distributie continua, avnd asociata variabila aleatoare X, se defineste prin formule adecvate media si varianta. Anume:
E ( X ) = xf ( x) d x , si Var( X ) = E (( X E ( X )) 2 ) .

Nu este deloc obligatoriu ca graficul functiei densitate de probabilitate (asociata unei distributii continue) sa fie o curba continua. Ceea ce conteaza este faptul ca aria de sub curba sa fie egala cu 1. Distributiile continue pot fi descrise si prin asa- numita functie de distributie, care nu este altceva dect o functie reala
F : R [0, 1] 117

definita astfel
x F ( x) = P( X x) = f ( z) dz .

Ne dam seama cu usurinta ca F este o functie crescatoare si ca densitatea de probabilitate f se poate obtine din functia de distributie conform relatiei:
f ( x) = F ' ( x) .

(pentru punctele x n care functia de distributie F este derivabila). n figura de mai jos este prezentat graficul unei functii de distributie.

Ca exemplu evident, sa consideram functia al carei grafic este curba din figura de mai jos. Functia este constanta pe portiuni, mai precis
f ( x) = 1 pentru x [0 , 1] , n rest

f ( x ) = 0 . Distributia continua a carei densitate de probabilitate este aceasta functie poarta

numele de distributia uniforma. Variabila aleatoare asociata va fi notata cu U . Sa facem observatia ca, pentru orice a , b [0, 1]
b P (a < U b) = a dx = b a ,

ceea ce nseamna ca probabilitatea ca variabila U sa ia valori ntre a si b este exact lungimea intervalului [ a, b ] .

Sortii de izbnda ca variabila U sa ia valori n doua intervale de lungimi egale sunt astfel egali, ceea ce justifica numele de uniforma.
118

Un calcul rapid ne ajuta sa obtinem media si apoi varianta distributiei uniforme. Anume:
1 E (U ) = 0 xdx = 1 2

(ceea ce nu este deloc surprinzator), apoi:


Var(U ) = 0 ( x ) 2 dx =
1 1 2 1 12

Distributiile discrete pot fi asimilate distributiilor continue. ntr- adevar, daca


x1 < x 2 < ... < x n
< ...

este secventa de valori a variabilei aleatoare discrete X (asociata distributiei discrete), atunci distributia discreta este descrisa perfect de histograma sa. Graficul frecventelor (relative) cumulate nu este altceva dect o reprezentare a functiei de distributie. Pentru un numar x din intervalul ( x k , x k +1 ) , este evident ca
F ( x) = P ( X x) = P ( X xk ) = F ( xk )

ceea ce explica aspectul n trepte al functiei de distributie (vezi exemplul din figura de mai jos).

De multe ori, data o distributie discreta si una continua, ne punem ntrebarea daca ele sunt apropiate sau nu, cu alte cuvinte daca una dintre ele o reprezinta pe cealalta. De raspunsul la aceasta ntrebare poate depinde o decizie importanta. Raspunsul da este ntotdeauna subiectiv. Statistica ne permite sa evaluam riscul atasat deciziei.

119

4.2. Distributii normale (Gauss) n multe rationamente teoretice distributiile normale (Gaussiene) joaca roluri importante. O distributie normala, determinata de parametrii si 2 > 0 , notata cu
N(, 2 ) , este caracterizata prin densitatea de probabilitate:
f ( x) = ( x ) 2 1 exp 2 2 2 .

Graficul acestei functii este n forma de clopot fiind cunoscut sub numele de clopot al lui Gauss simetric n raport cu linia verticala x = . Dupa ce se calculeaza cteva integrale, se obtin urmatoarele rezultate:
E ( N(, 2 )) =

si
Var( N (, 2 )) = 2 ,

formule care ne ofera o interpretare evidenta pentru cei doi parametri. Despre parametrul se spune ca este media teoretica, iar despre 2 se spune ca este varianta teoretica. Aceasta din urma este patratul deviatiei standard teoretice > 0 a distributiei N(, 2 ) . Astfel ca nu este deloc surprinzator ca ntinderea clopotului depinde de marimea lui (a se vedea figura de mai jos pentru cteva exemple).

Graficul functiei densitate a distributiei normale pentru


2 = 0 , = 0. 25

Graficul functiei densitate a distributiei pentru = 0 , = 1 Graficul functiei densitate a distributiei pentru = 2 , 2 = 4

axa valorilor variabilei

Evident, variabila aleatoare asociata unei distributii normale ar putea lua ca valoare orice numar real. Totusi, probabilitatea valorilor scade pe masura ce ele se departeaza de media teoretica .
120

Este imposibil sa se completeze tabele de valori pentru toate distributiile normale. Urmatorul rezultat a fost folosit intens n trecut pentru a efectua calcule n legatura cu distributiile normale. Daca X este o distributie de tipul N(, 2 ) , atunci distributia
Z= 1 ( X )

este de tipul N(0 , 1) . Mai mult,


x P ( X x) = P Z

iar aceasta ne permite sa folosim datele ce se afla n tabelul asa- numitei distributii normale standard N (0 , 1) . Totusi, folosirea tabelelor este astazi depasita, iar softul general permite efectuarea cu usurinta a oricarui calcul n legatura cu distributiile normale. De exemplu, n Excel exista doua functii, numite NORMDIST si NORMINV, care depind de parametrii si . Caseta de dialog a primei este prezent ata n figura de mai jos. Pentru a calcula valorile n modul clasic, adica n legatura cu distributiile normale standard, exista doua functii suplimentare, usor de utilizat, numite NORMSDIST si NORMSINV.

Exercitiu. Identificati tipul si rolul celui de-al patrulea argument al functiei NORMDIST din Excel. O densitate de probabilitate de tip clopot Gauss ce corespunde unei distributii continue este ideala, ea nu poate aparea n legatura cu o populatie naturala. Totusi, importanta distributiilor normale este motivata de urmatoarele:

121

a) modeleaza bine numeroase variabile numerice care apar n practica n legatura cu populatii mari, cum ar fi naltimea, greutatea, coeficientul de inteligenta al oamenilor, dar si diametrul celulelor bacteriilor sau erorile de masurare; b) aproximeaza bine multe alte distributii, cum sunt cele binomiale; c) constituie fundamentul inferentei statistice, ntruct reprezinta distributia estimarilor parametrului unei populatii, estimarile fiind obtinute din toate esantioanele posibile. Sa ilustram ultima motivatie prin urmatorul exemplu. Sa presupunem ca populatia noastra are un numar de 25 de indivizi, carora le cunoastem talia (datele sunt n tabelul urmator). Individul 1 2 3 4 5 6 7 8 9 10 11 12 13 Talia medie este = Talia 0.1 0.1 0.3 0.1 0.5 0.1 0.1 0.3 0.3 0.9 0.7 0.1 0.3 Individul 14 15 16 17 18 19 20 21 22 23 24 25 Total Talia 0.7 0.3 0.1 0.1 0.9 0.3 0.1 0.7 0.1 0.7 0.3 0.3 8.5

8.5 = 0.34 , iar distributia indivizilor este prezentata n figura de mai 25

jos. Se observa ca este o distributie asimetrica (n jurul mediei).

Cum s -ar putea estima aceasta medie , masurnd doar indivizii unui esantion mic (format din doar 4 indivizi)? Evident, prin media aritmetica:
122

m=

x1 + x2 + x3 + x4 4

unde x i este talia individului i din esantion. Avem nsa posibilitatea de a alege foarte multe esantioane de cte 4 indivizi, mai precis se pot alege
4 C 25 =

25 24 23 22 = 12650 esantioane 1 2 3 4

Sa le luam unul dupa altul, si sa calculam pentru fiecare n parte media aritmetica: Esantionul nr. 1 2 12650 Indivizii ce-l compun 1, 2, 3, 4 1, 2, 3, 5 22, 23, 24, 25 Taliile corespunzatoare 0.1, 0.1, 0.3, 0.1 0.1, 0.1, 0.3, 0.5 0.1, 0.7, 0.3, 0.3 Media taliilor 0.15 0.25 0.35

Evident, nu se pune problema listarii tuturor celor 12650 esantioane posibile. Totusi, folosind un soft de calculator, putem programa cu usurinta obtinerea tuturor celor 12650 medii de esantion. Distributia lor este prezentata n figura alaturata. Se poate observa ca histograma este mai bine aproximata de o Gaussiana.

Sa retinem o idee fundamentala: atunci cnd avem de-a face cu o populatie mare de valori numerice, a carei distributie are media (necunoscuta!), mediile de esantion formeaza o noua populatie de numere, care este distribuita (aproximativ) normal cu aceeasi medie . n mod traditional se considera ca distributii normale cuantifica erorile involuntare ce apar n masuratorile lungimilor sau greutatilor (maselor). n aceste situatii, daca reprezinta valoarea masurata, atunci va reprezenta eroarea de masurare. Distributii
123

normale exprima de asemenea asa- numitul zgomot ce afecteaza transmisia datelor pe liniile de comunicatie. n general, despre curba Gaussiana asociata distributiei normale N(, 2 ) este de retinut ca:
a) Mediana, adica valoarea Me care separa populatia (infinita) n doua parti de marimi

egale, coincide cu media teoretica ;


b) ntre abscisele si + (care sunt situate la distanta fata de media , aria

de sub graficul functiei densitate este 0.683. Aceasta nseamna ca 68.3% dintre indivizii unei populatii normale sunt situati ntre si + ;
c) ntre abscisele 2 si + 2 (care sunt situate la distanta 2 fata de media ,

aria de sub graficul functiei densitate este 0.955. Aceasta nseamna ca peste 95% dintre indivizii unei populatii normale sunt situati ntre 2 si + 2 ;
d) Practic, ntreaga arie de sub grafic (de fapt 99.5%) se afla ntre abscisele 3 si + 3 . Acesta fapt conduce la asa-numita regula a celor sase sigma (cunoscuta sub acest

nume de catre cei ce iau decizii): presupunnd ca populatia este distribuita normal, deviatia ei standard este estimata la 1/6 din diferenta dintre valoarea maxima si cea minima, valori ce sunt obtinute dintr- un esantion suficient de mare. n particular, ne vom astepta ca 68.3% (adica ceva mai mult de 2/3) dintre oameni sa aiba un IQ ntre 84 si 116, si doar unul din 500 sa aiba IQ- ul peste 148. (Se stie ca IQ este distribuit normal cu media 100 si varianta 256.) Se practica aproximarea unor distributii binomiale b (n , p ) prin distributii no rmale, mai ales atunci cnd numarul n de ncercari este mare. Este obligatoriu nsa sa fim precauti, ntruct distributia binomiala este de regula asimetrica. De fapt, distributiile binomiale b (n , p ) sunt simetrice doar pentru p = 0 .5 , iar asimetria creste pe masura ce probabilitatea succesului p se departeaza de 0.5. Se accepta ca aproximarea binomiala b (n, p) prin normala N(, 2 ) este buna doar n cazurile n care
n p 5 si n (1 p ) 5 , iar n aceste cazuri parametrii distributiei normale se obtin prin

identificarea mediilor si variantelor: = n p , 2 = n p (1 p) .


124

Ca motivatie pentru asemenea aproximari este nevoia de aprecieri rapide asupra efectelor unor decizii pe care le luam. Ca exemplu, sa consideram cazul unei alegeri pentru un organism de conducere format din 20 de membri, care vor fi alesi de catre o adunare formata din 100 de delegati. Decizia care a fost luata este urmatoarea: fiecare delegat v a vota selectnd 20 de nume de pe buletinul de vot ce contine toate cele 100 de nume, iar comisia de validare va declara ca fiind alesi acei delegati ce totalizeaza cel putin 51 de voturi pentru. Ce efect are o asemenea decizie? Ce sanse exista ca sa se aleaga organismul de conducere n urma votului? n ipoteza ca fiecare delegat alege la ntmplare 20 de nume de pe buletinul de vot, probabilitatea succesului pentru un candidat va fi de
20 100

= 0 .2 . Presupunnd ca niciunul dintre

cele 100 de buletine nu este invalidat, numarul de voturi obtinute de catre un candidat (oarecare) este dat de variabila aleatoare asociata distributiei binomiale b (100 , 0.2) . S-o aproximam cu distributia normala
N (20 , 16 ) , ntruct = n p = 100 0 . 2 = 20 si

2 = n p (1 p ) = 20 0.8 = 16 de unde = 4 . Cunoscnd datele anterioare despre distributiile normale, putem evalua rapid ca 99.5% dintre rezultatele obtinute de catre candidati se vor situa ntre 3 = 20 3 4 = 8 si + 3 = 20 + 3 4 = 32 iar sansele ca vreun candidat sa fie ales cu cel putin 51 de voturi favorabile sunt practic nule. Fara crearea de coalitii premergatoare votului, alegerile pentru organismul de conducere pot continua la nesfrsit. (O solutie de iesire din impas ar fi sa se acorde fiecarui delegat dreptul de a alege nu 20, ci 40 de nume de pe buletinul de vot. n aceasta situatie p = 0 .4 , = 40 , 2 = 40 0.6 = 24 , adica

5 . De data aceasta ar fi 2% sanse ca numarul de voturi obtinute de un candidat sa fie mai mare
dect + 2 = 40 + 10 = 50 . Ne putem astepta la alegerea n organul de conducere a cel putin 2 delegati nca din primul tur.)

ntrun anume sens, o curba Gaussiana exprima distributia indivizilor din populatia infinita a numerelor reale, n raport cu anumite puncte speciale de pe axa absciselor.

125

Sa presupunem ca dispunem de o functie care, pentru orice numar pozitiv z , calculeaza aria de sub grafic, la stnga lui z a se vedea figura de mai sus. (O asemenea functie este NORMSDIST, atunci cnd Cumulative = TRUE, n Excel .) Atunci P (Z > z) este aria de sub grafic, la dreapta abscisei z, cu alte cuvinte:
P ( Z > z ) = 1 P( Z z ) .

Daca z este negativ, atunci z este pozitiv. ntruct graficul este simetric fata de origine, concludem ca:
P (Z < z ) = P ( Z > z ) = 1 P (Z z ) .

De asemenea,
P ( z ' < Z z ) = P (Z z) P( Z z ' ) . Ca exemplu, pentru
z =1 .96

obtinem P ( Z 1 .96 ) = 0 .975 = 97 .5 % ; din formulele de mai sus

rezulta P ( Z > 1.96 ) = 2.5 % si P ( Z < 1.96 ) = 2.5% !

Cteodata suntem interesati n pozitionarea (relativa) a unui individ ce face parte dintr-o populatie distribuita normal. Ca exemplu, stim ca un individ a obtinut scorul 68 la o competitie. Numarul 68 nu ne spune nimic despre clasarea acelui individ; la fel de bine ar putea fi apropiat de minim, de mediana, de maxim. Performanta reala nu este deloc evidenta! O procedura uzuala pentru descrierea performantei reale consta n indicarea scorului standard (cunoscut si ca scorul Z). Acest scor exprima ct de multa deviatie standard se afla sub rezultat. Scorul Z se calculeaza cu usurinta odata ce sunt cunoscuti parametrii populatiei, anume se scade media a populatiei din rezultatul x , apoi se mparte diferenta
x la deviatia standard :
z= x .

n practica si sunt estimate din datele pe care le avem la dispozitie. De exemplu, daca rezultatul 68 a fost obtinut de o persoana la un test IQ (pentru care se presupune ca
= 100 si = 16 , atunci scorul Z are valoarea 2, ce corespunde unei performante scazute!

126

Distributia normala ne ajuta sa definim ceea ce poate nsemna individ normal al unei populatii. n teoria calitatii, indivizii care au scoruri Z ntre 2 si +2 sunt etichetati ca standard, iar cei care au scoruri Z ntre 3 si +3 sunt etichetati ca normali. Sa observam ca, prin standardizare , o valoare a unei distributii normale arbitrare este nlocuita printr-o valoare a distributiei normale standard N(0, 1) . Sa retinem ca prin standardizare putem compara scorurile (indivizilor) din diversele populatii. Familia distributiilor normale prezinta o importanta deosebita si datorita unor rezultate utilizate n teoria esantionarii. Vom reveni ulterior asupra acestei teorii. Exercitii. 1) Admitem ca naltimea unui barbat adult este distribuita normal cu = 175 si = 7 (cm). Care este probabilitatea ca un barbat adult sa fie mai nalt de 185 cm, stiind ca este mai nalt de 180 cm? Asemenea aprecieri implica evaluarea unor probabilitati conditionate. Mai precis, notnd cu H naltimea unui barbat adult considerata ca variabila aleatoare cu distributia
N (175, 49 ) vom evalua folosind NORMDIST din Excel :

P ( H > 185 | H > 180 ) =

P ( H > 185 ) 1 NORMDIST(185 ,175 ,7 , True ) 0 .0766 = = = 0 .322 . P ( H > 180 ) 1 NORMDIST(180 ,175 ,7 , True ) 0 .2375

2) Admitnd ca numarul de leucocite pe unitatea de volum de snge diluat, evaluat la microscop, este distribuit Poisson cu media = 100 , care este probabilitatea ca sa fie observat un numar de cel mult 90? Evident, putem face apel la functia POISSON din Excel , formula =POISSON(90,100,True) oferindu-ne rezultatul dorit. Sa adoptam nsa o alta cale, anume prin aproximarea distributiei Poisson Po ( ) cu una normala N(, 2 ) . Determinarea parametrilor se va face prin egalarea mediilor distributiilor
= = 100

respectiv a variantelor distributiilor 2 = = 100 . n urma aproximarii, probabilitatea dorita va putea fi obtinuta si prin formula: =NORMDIST(90,100,10,True)
127

4.3. Populatii si esantioane, caracteristici si variabile Statistica este o stiinta care se ocupa cu tratamentul datelor obtinute din grupuri mici de indivizi si extinderea rezultatelor la populatii mari. Principala caracteristica a proceselor biologice este variabilitatea. Aceasta variabilite determina un anumit grad de incertitudine. Statistica ne permite sa stabilim legi n care sa tinem seama de incertitudine. Biostatistica este acel domeniu particular al stiintelor n care metodele specifice statisticii sunt aplicate problemelor biologice (inclusiv medicale), n particular diverselor fenomene si procese care afecteaza calitatea fizica si mentala a oamenilor. Biostatistica, fiind o ramura a statisticii, ne permite sa dam raspuns la ntrebari cum sunt urmatoarele: a. Care valori sunt normale pentru un anumit proces biologic? b. Ct de mult riscam atunci cnd alegem un anumit tratament? c. Este oare mai bun noul tratament dect cel clasic? Cuvntul populatie are, n limbajul de zi cu zi, un nteles evident. De obicei, atunci cnd ne referim la o populatie, consideram implicit ca numarul indivizilor ei este mare; aceasta nu exclude nsa multe situatii, cum este cea din exemplul formal populatia pacientilor dr. Ionescu ce sufera de cardiopatie ischemica, n care este clar ca acest numar nu este prea mare. Se subntelege ca o populatie are caracter dinamic (adica numarul indivizilor ei variaza n timp). Totusi, se presupune ca la un moment particular de timp sau ntrun interval de timp bine definit populatia este bine definita. Fiecare individ al unei populatii si are identitatea sa proprie, iar indivizii prezinta o anumita variabilitate. Atunci cnd studiem o populatie se iau n considerare doar anumite atribute importante ale indivizilor; aceste atribute poarta numele de caracteristici. De obicei studiile efectuate asupra indivizilor unei populatii sunt costisitoare si de durata; cteodata ele au ca efect chiar distrugerea indivizilor studiati. Este de neconceput sa poata fi studiati chiar toti indivizii unei populatii mari. Ratiunea esantionarii este limpede: prin efectuarea de studii asupra unei parti relativ mici din populatie parte care este numita esantion sa strngem suficienta informatie care sa ne permita sa inferam la nivelul ntregii populatii asupra caracteristicilor studiate.
128

Numarul indivizilor din esantionul ales este numit volumul esantionului si este notat de obicei, atunci cnd ne referim la un esantion potential (esantionul nu a fost precizat) prin litera n . Unele caracteristici cum ar fi greutatea unui pacient diagnosticat cu tuberculoza, naltimea sa, sau inteligenta unui student sunt masurate si exprimate prin numere. Alte caracteristici cum ar fi sexul sau categoria de vrsta nu sunt masurate, ci sunt identificate prin apartenenta la un grup. Caracteristica culoare a obiectelor ar putea fi masurata (exprimata prin lungimea de unda), nsa de obicei este identificata prin apartenenta la grupurile rosu, portocaliu, galben etc. Atunci cnd ncercam sa comparam sau sa clasificam indivizi, sa stabilim legaturi ntre caracteristicile lor, aceste caracteristici sunt reprezentate prin variabile. Pentru a reprezenta o caracteristica printr-o singura variabila va trebui sa introducem o scara, ceea ce nseamna: 1. Sa definim spatiul observabil , adica multimea tuturor valorilor posibile; 2. Sa definim o structura pe spatiul observabil, si 3. Sa admitem ca putem asocia fiecarui individ cte o (singura) valoare din spatiul observabil. Pentru a preciza ideile, sa consideram cteva exemple. Caracteristica naltime a pacientilor este reprezintata evident printr-o variabila, deoarece consideram n mod intuitiv ca valorile sunt numere reale (cu alte cuvinte spatiul observabil este R iar acest spatiu are o structura foarte bogata: operatii arit metice, ordonare totala etc.). Este clar ca daca ne alegem o unitate de masura (metrul, centimetrul, ) atunci pentru fiecare pacient vom putea sa obtinem e drept, cu o usoara cheltuiala de timp o unica valoare a naltimii sale. Numerele obtinute sunt reale, prin urmare le putem ordona ntre ele, de asemenea le putea aduna, scadea, etc. O asemenea variabila este numita variabila numerica . Aceeasi caracteristica naltime ar putea fi reprezentata de o variabila de cu totul alt tip. Spatiul observabil este acum format doar din etichetele foarte scund, scund, mediu, nalt si foarte nalt. Nu mai este necesara o masurare precisa a pacientilor, le vom putea aprecia vizual naltimea. Asemenea etichete nu pot fi adunate sau scazute, este definita doar ordonarea ntre ele. De data aceasta avem un exemplu de variabila ordinala .
129

Cteodata o caracteristica este exprimata printr-o variabila de decizie (sau variabila binara ) ce ia doar doua valori admis/respins (respectiv da/nu etc.). O alta situatie ce trebuie scoasa n evidenta este cea a caracteristicii inteligenta a unui student, care poate fi exprimata printr- un ansamblu de variabile. Asadar, o caracteristica studiata ar putea fi reprezentata, direct sau indirect, prin mai multe variabile . Atunci cnd avem de-a face cu un esantion mare (adica are un numar mare"de indivizi), de obicei variabilele numerice sunt nlocuite prin variabile calitative, ordinale (care reprezinta aceeasi caracteristica). Mai precis, datele numerice sunt grupate ntrun numar mic de clase. De exemplu, se utilizeaza foarte adesea clase de vrsta sau clase de naltime. Numarul K de clase este ales n strnsa dependenta de problema studiata si nu exista definit vreun algoritm de stabilire a sa. Un numar prea mic de clase are dezavantajul ca ascunde particularitatile claselor; din contra, un numar mare de clase face dificila reprezentarea grafica a rezultatelor. (Se recomanda reprezentarea grafica a rezultatelor datorita perceptiei mai rapide pe cale vizuala a informatiei.) Se poate face recomandarea de a se forma ntre 8 si 20 de clase. Sa luam de exemplu clasele de vrsta ale pacientilor, considernd ca studiem un esantion de indivizi diagnosticati cu o anumita maladie. Pare natural sa grupam vrstele lor n clase delimitate subiectiv dupa cum urmeaza C1 = 0-4 ani, C2 = 5-9 ani, C3 = 10-14 ani si asa mai departe. Observam ca toate clasele descrise anterior au aceeasi lungime, anume 5 ani. Aceasta este recomandat, dar nu este obligatoriu! n cazul n care fie indivizii sunt grupati natural n clase, fie datele colectate au fost grupate n clase, putem calcula frecvente. Pentru o clasa de date, frecventa absoluta este numarul indivizilor pentru care datele apartin acelei clase. Frecventa relativa se calculeaza prin mpartirea frecventei absolute la numarul total al indivizilor din esantion. Uneori se folosesc si asa- numitele frecvente cumulate .

130

Frecventele variabilelor (nu numai cu valori numerice) se obtin cu usurinta n Excel prin intermediul functiei FREQUENCY(). Aceasta functie are doua argumente: 1. Domeniul n care au fost plasate valorile variabilelor (data array ); 2. Domeniul n general pe o coloana n care se trec valorile de separare, n ordine crescatoare (bins array). Rezultatele aplicarii acestei functii sunt plasate ntrun domeniu ce are o celula n plus fata de domeniul valorilor de separare. n aceasta celula suplimentara va fi afisat numarul valorilor ce depasesc cea mai mare valoare de separare. Un exemplu de folosire a functiei FREQUENCY n Excel , n figura urmatoare

si rezultatul aplicarii, dupa extindere:

131

4.4. Reprezentari grafice Adeseori o reprezentare grafica, interpretata vizual, poate fi extrem de eficienta pentru prezentarea unor date sau rezultate. Sa consideram, de exemplu, cazurile de infarct nregistrate ntrun oras mare, grupate dupa zilele saptamnii: Ziua saptamnii Luni Marti Miercuri Joi Vineri Smbata Duminica TOTAL Frecventa absoluta a cazurilor de infarct 4 4 7 3 6 4 8 36

O inspectare vizuala a numerelo r din tabel nu este la fel de eficienta ca examinarea vizuala a unei diagrame cu bare sau a unei rozete. Iar reprezentarea datelor ntro diagrama cu bare sau de tip rozeta este o operatiune usoara, implementata n orice soft statistic sau de calcul tabelar. n figurile de mai jos diagrama cu bare a fost obtinua cu Excel , diagrama de tip histograma a fost obtinuta cu Statistica, iar diagramele de tip rozeta au fost obtinute cu Excel si EpiInfo.

132

n tabel, n diagrama cu bare, n histograma si n rozete este prezentata aceeasi informatie. Probabil ca suntem de acord cu totii ca informatia reprezentata grafic este mai usor de nteles. (O mica corectie: n diagrama de tip histograma este reprezentata o curba suplimentara, care nsa este inutila n cazul nostru. Vom aborda ulterior interpretarea acestei curbe.) Se poate observa, n cele doua rozete, ca prezentarea rezultatelor depinde de softul folosit, existnd unele diferente (datorate rotunjirilor). Exista si deosebiri n modul n care trebuie int roduse datele. Doar n Excel putem pleca de la tabelul de mai sus. n general se pleaca de la datele primare caz dupa caz. Att tabelele de frecvente, ct si diagramele sunt adecvate pentru afisarea variabilelor care au un numar mic de valori. Asemenea reprezentari tabelare sau diagramatice nu sunt deloc potrivite pentru variabilele care au un numar mare de valori numerice (asa cum este cazul greutatii pacientilor exprimata n grame). Evident, n asemenea situatii se practica gruparea valorilor n cteva intervale de valori, iar abia apoi rezultatele gruparii sunt prezentate n histograme. De exemplu, sa presupunem ca am cntarit 240 de indivizi (a caror naltime este de 1.65 m) si am obtinut rezultate care au fost grupate n 16 intervale (grupuri, clase), anume: C 1 = 41-45 kg 5 cazuri; C 2= 46-50 kg 10 cazuri; C 3 = 51-55 kg 20 cazuri; C 4 = 56-60 kg 36 cazuri; ... C 15 = 111-115 kg 0 cazuri; C 16= 116-120 kg 1 caz. Folosind Excel , Statistica si EpiInfo, din aceste date se obtin histogramele urmatoare:

133

Sa remarcam ca ntro histograma clasele sunt intervale de numere reale, iar ntro diagrama cu bare clasele sunt reprezentate prin etichete ( labels). Reprezentarea grafica a datelor ar putea fi folositoare si pentru identificarea datelor eronate sau a valorilor aberante ( outliers ). Aceste valori aberante, de orice fel ar fi, distorsioneaza serios rezultatele analizelor statistice. Atunci cnd se construieste o diagrama de tip histograma, pe axa orizontala se marcheaza punctele de separare ntre clase si, pentru fiecare clasa, se ridica pe verticala un dreptunghi cu naltimea proportionala cu frecventa (fie absoluta, fie relativa) clasei. Dreptunghiurile sunt de latimi egale. ntro histograma veritabila aria tuturor dreptunghiurilor este 1.) Sa ncheiem aceasta sectiune subliniind ca reprezentarile grafice sunt folosite pentru accelerarea transferului de informatie de la om la om. Acest transfer bazndu-se nsa pe perceptia vizuala, toate iluziile optice pot fi folosite pentru a induce o perceptie eronata asupra unor date. Trebuie sa fim atenti la corectitudinea tipului de diagrama, la falsificarea datelor prezentate, la modificarea nejustificata a scarilor de masurare, si nu n ultimul rnd la adecvarea textele titlur ilor, etichetelor si legendelor de pe diagrama.

134

4.5. Statistici descriptive. Centrarea unei variabile numerice Sa consideram ca, ntrun studiu efectuat asupra unei populatii mari, suntem interesati n a studia o anumita caracteristica reprezentata printr-o variabila numerica. Dupa ce am ales un esantion sa zicem de n indivizi si am facut masuratorile necesare, vom dispune de numerele reale x1 , x2 ,..., xn . Aceste numere sunt reprezentate prin puncte pe axa reala (a se vedea figura urmatoare) iar intuitia ne spune ca acestea sunt distribuite echilibrat n jurul unui centru. Pare evident cum putem obtine acest centru m : vom calcula media aritmetica a numerelor (adica nsumam numerele, apoi mpartim suma la numarul total n al indivizilor din esantion):
m= x1 + x2 + ... + x n n

Sa profitam de ocazie pentru a introduce al doilea nteles al cuvntului statistica, si anume urmatorul: un numar calculat folosind datele obtinute dintr-un esantion. Formula de mai sus ofera un prim exemplu de statistica. n formula de mai sus toate marimile masurate sunt tratate n mod echitabil (niciuna nu este tratata altfel dect celelalte). Mai mult, rezultatul este exprimat n aceleasi unitati de masura ca si valorile masurate. Aparitia nu neaparat din eroare! unei valori aberante (outlier) influenteaza pozitia mediei aritmetice, totusi nu prea mult a se vedea figura.

Functii care calculeaza instantaneu media aritmetica sunt implementate n orice soft statistic sau de calcul tabelar. De exemplu, n Excel aceasta functie este numita AVERAGE() si are un singur argument, anume domeniul n care au fost plasate datele numerice. nsa, n orice soft statistic media aritmetica este afisata mpreuna cu alte statistici elementare, care sunt considerate strict necesare pentru analiza.
135

De exemplu, Statistica, n modulul sau Basic Statistics/Tables contine o comanda Detailed Descriptive Statistics . Ca un alt exemplu, softul biostatistic EpiInfo 2004 are un modul numit Analysis ; aici se ntlneste comanda Means , mpreuna cu alte comenzi, grupate n grupul Statistics . n practica media aritmetica nu este singura statistica utilizata pentru a indica centrul datelor. n cazul n care datele sunt ordonate, ca de exemplu astfel:
x1 x2 ... xn

poate fi fo losita si mediana pentru a indica centrul. Mediana (Me) este punctul ce divide valorile n doua parti egale. n situatia n care toate valorile xi sunt distincte, iar n = 2m + 1 (adica numarul datelor este impar), mediana Me coincide cu valoarea xm+1 care este situata exact n mijloc; atunci cnd n = 2m (numarul datelor este par), mediana Me este media aritmetica a celor doua valori, xm si xm +1, situate n mijloc. n unele situatii, pentru a indica centrul mediei aritmetice si medianei i este preferat modul. Pentru date categoriale (nenumerice), modul Mo este o statistica definita ca acea valoare ce are frecventa maxima. Pentru date numeric e, modul Mo, ca centru al datelor, este dat de formula:
Mo = 3 Me 2 m .

136

4.6. Statistici descriptive. Deviatia n jurul centrului Adeseori evaluarea mprastierii datelor n jurul centrului, eventual o masura a acestei mprastieri, este la fel de importanta ca si aflarea centrului. Multe dintre statisticile care exprima mprastierea sunt definite plecnd de la notiunea de deviatie, ele diferind ntre ele doar prin ntelesul pe care-l acordam acestui termen. O prima statistica, evidenta, este amplitudinea, notata cu A, si care este definita ca diferenta ntre valorile maxima si minima ale seriei de date:
A = xmax xmin .

Amplitudinea ne informeaza asupra lungimii intervalului de variatie (n cazul unor date numerice); are dezavantajul ca depinde doar de doua dintre valorile seriei, si nu ne informeaza deloc asupra modului n care datele sunt mprastiate ntre extreme. Din contra, deviatia medie (abaterea medie) depinde echitabil de toate valorile seriei de date. Aceasta statistica presupune ca a fost calculata anterior media m a seriei. Definitia precisa este urmatoarea: deviatia medie este media aritmetica a abaterilor valorilor fata de media lor, abateri luate n valoare absoluta:
E= | xk m | . n

Din punct de vedere matematic aceasta formula nu este potrivita (functia modul nefiind derivabila). Acesta este motivul principal pentru nlocuirea sa cu urmatoarea statistica, numita varianta seriei de date:
V=
2 ( x k m) . n

Pentru a ntelege justificarea formulei urmatoare, sa ne imaginam ca valorile x1 , x 2 ,..., x n sunt variabile aleatoare distribuite normal, independente ntre ele, toate avnd aceeasi medie teoretica si aceeasi varianta teoretica 2 :
xk = N(, 2 ) , E ( x k ) = , Var( xk ) = 2 .

n aceste conditii, m =

x1 + x2 + ... + x n va fi o variabila aleatoare normala, avnd aceeasi n


2

medie teoretica , dar varianta mai mica Var(m) = . n


137

De asemenea, V va fi o variabila aleatoare. Prin calcul se obtine urmatorul rezultat:


E (V ) = n 1 2 . n

Observam ca media lui V nu coincide, asa cum ne-am fi asteptat, cu varianta teoretica
2 ! Avem de-a face cu un asa- numit fenomen de depla sare (bias). Daca nsa consideram

expresia
W =
2 ( x k m) n 1

atunci media E (W ) coincide cu varianta teoretica 2 , adica este nedeplasata (unbiased ). De aceea estimarea lui se face de obicei prin abaterea standard, definita mai jos. Deviatia medie este exprimata n aceeasi unitate de masura ca si valorile seriei de date, nsa acest lucru nu mai este valabil pentru varianta (nici pentru W ). Daca dorim o statistica ale carei valori sa fie exprimate n aceeasi unitate de masura ca si valorile seriei, care sa depinda echitabil de toate valorile, simultan sa aiba si proprietati matematice bune, atunci formula urmatoare satisface toate aceste conditii. Formula ne da asa- numita deviatie standard (sau abatere standard) a seriei de date:
s=
2 ( x k m) . n 1

(la numitor apare numarul valorilor din seria de date, diminuat cu 1). Formula de mai sus pentru s necesita foarte multe calcule; evident, ele sunt implementate n soft. Astfel aplicatia Excel d ispune de functia STDEV() al carui unic argument este, la fel ca n cazul functiei AVERAGE(), domeniul n care a fost plasata seria de date. n Excel avem la dispozitie multe alte functii statistice, ca de exemplu MEDIAN(), cu folosire evidenta. Statistica ne ofera, n modulul Basic Statistics/Tables, comanda Detailed Descriptive Statistics . Ca rezultat al ei se afiseaza media Mean , deviatia standard Std.Dev., valorile minima si maxima (vezi figura urmatoare).

138

Comanda Means (mpreuna cu altele, grupate n grupul Statistics) din modulul Analysis al aplicatiei EpiInfo ofera multe rezultate, incluznd media aritmetica,

mediana, varianta, deviatia standard (a se vedea figura alaturata). Sa rezumam cele de mai sus: daca dispunem de o serie de date numerice, pentru a le evalua centrul si mprastierea n jurul centrului putem folosi urmatoarele statistici: Media aritmetica m ; Mediana Me ; Modul Mo; Amplitudinea A ; Abaterea medie (deviatia medie) E; Varianta V; Abaterea standard (deviatia standard) s. (Terminologia dubla n limba romna este cauzata de adoptarea recenta a termenilor din engleza.) Lista anterioara nu este deloc exhaustiva; n practica sunt des utilizate si alte statistici: Cuartilele q1 (prima, de 25%) si q 3 (a treia, de 75%). Acestea sunt numerele care, mpreuna cu mediana Me = q 2 (considerata ca a doua cuartila) divid datele seriei n patru parti (de volume )egale; Asimetria ( skewness), care exprima evident lipsa de simetrie a seriei de date n jurul centrului. Sa ncheiem aceasta trecere n revista prin prezentarea unui tip special de diagrama, cunoscuta ca box-and-whisker plot, des folosita n reprezentarea grafica a datelor medicale. ntro astfel de diagrama:

139

o linie transversala sau un asterisc indica centrul; un dreptunghi indica variabilitatea n jurul centrului; acest dreptunghi (box ) a) b) fie contine 50% din datele seriei, anume cele aflate ntre cuartilele q1 si q 3 ; fie contine datele seriei aflate ntre m 2s si m + 2 s .

linii (whiskers ) extind dreptunghiul n ambele directii; aceste linii indica domeniul de variatie (excluzndu-se eventualele valori aberante, care sunt marcate special). Un exemplu de trei box-and-whisker plots realizate cu Statistica este prezentat n figura de mai jos. Ele arata distributii destul de dezechilibrate pentru valorile tuturor celor trei variabile GLIC_08, GLIC_14, GLIC_20.

140

4.7. Statistici descriptive pentru variabile calitative n cazul variabilelor cantitative datele sunt numerice, prin urmare putem calcula media lor prin operatii aritmetice de adunare si mpartire sau abaterea standard (pentru care calculele sunt ceva mai comple xe). n cazul variabilelor calitative nsa, valorile sunt etichete, iar operatiile aritmetice nu sunt definite! Am putea nlocui etichetele prin numere de exemplu am putea recodifica eticheta admis prin 1 iar eticheta respins prin 0 si apoi sa facem calculele cu aceste numere; dar, evident, nu avem nicio justificare n a face asa ceva. Data o variabila calitativa, am putea fixa o valoare particulara a ei si apoi, pentru fiecare individ din esantion, am putea nota prezenta respectiv absenta acestei valori. Prezenta este notata de obicei prin 1, iar absenta prin 0. Daca prezenta valorii este constatata la a indivizi ai esantionului, prin raportare vom obtine imediat frecventa relativa a acestei valori:
f = a . n

Pentru valoarea aleasa, acest raport joaca acelasi rol pe care- l joaca media aritmetica n cazul variabilelor cantitative. (De fapt, este media unor valori ce pot fi doar 1 sau 0.) Prin urmare este o statistica de centrare. mprastierea este evaluata, n aceasta situatie, prin asa- numita varianta a valorii alese, definita prin:
V = f (1 f )

sau prin deviatia standard a valorii:


s= f (1 f ) .

(Este vorba de fapt de formulele obisnuite, prezentate n paragraful anterior, adaptate pentru valorile xk = 0 sau 1.)

Adevarata statistica de centrare pentru ntreaga serie de date (asadar pentru ansamblul valorilor etichete) este, n acest caz, modul, care nu este altceva dect eticheta/etichetele avnd frecventa maxima.
141

4.8. Covarianta si corelatia Rare sunt studiile efectuate asupra unei populatii n care suntem interesati n a studia doar o anumita caracteristica (reprezentata printr-o variabila). Sa consideram printr-un exemplu cazul cel mai simplu, cel n care studiem doua caracteristici: se nregistreaza, pentru fiecare nou nascut, vrsta mamei (n ani) si greutatea noului nascut (n grame). Oare exista vreo legatura ntre aceste doua variabile? Si daca da, oare putem exprima aceasta legatura printr-o formula liniara? La prima vedere se pare ca raspunsurile la aceste ntrebari sunt fie da, fie nu. nsa modul binar de a raspunde la ntrebari nu este specific statisticii! n cadrul statisticii se dau raspunsuri diversificate, de exemplu exprimate printr-un numar ce exp rima intensitatea legaturii ntre cele doua variabile (?). Iar fiecare persoana ar putea sa-l interpreteze, dupa cum doreste, ca un da sau un nu! Una dintre posibilitatile de a da asemenea raspunsuri consta n folosirea coeficientului de corelatie (Pearson), al carui calcul se bazeaza pe calculul covariantei. n practica, atunci cnd studiem legatura ntre doua variabile numerice, ncepem prin a alege un esantion, apoi nregistram datele provenite din masuratorile efectuate asupra indivizilor; datele rezultate sunt prezentate fie ntrun tabel: Individul 1 2 ... k ... n Valorile variabilei X
x1 x2

Valorile variabilei Y
y1 y2

...
xk

...
yk

...
xn

...
yn

fie ca un nor de n puncte n plan (a se vedea figura alaturata).

142

n cazul n care (avem impresia ca) punctele sunt aliniate, ne exprimam spunnd ca exista o corelatie liniara ntre variabilele X si Y . Sa notam cu m X respectiv mY mediile celor doua serii de date. Covarianta ntre cele doua serii de date se calculeaza cu formula
C= 1 n

(x

m X )( y k mY ) .

(Se observa ca atunci cnd seria de date Y coincide cu seria de date X, expresia covariantei C devine expresia variantei V .) Corelatia (liniara) ntre cele doua serii de date este definita prin asa- numitul coeficient de corelatie Pearson:
rX ,Y = ( xi m X )( y i mY ) ( x i m X ) 2 ( y i mY ) 2

Acest numar este ntre 1 si 1. n cazurile extreme (adica atunci cnd numarul rX ,Y este apropiat fie de 1, fie de 1) avem de-a face cu o puternica legatura liniara ntre seriile de date, pe care o putem extrapola (asumndu- ne riscuri!) la o legatura liniara:
Y = X +

ntre variabile. Sa facem observatia ca formula de calcul a coeficientului de corelatie Pearson poate fi rescrisa n felul urmator:
rX ,Y = C s X sY

unde s X respectiv sY sunt abaterile standard ale celor doua serii de date. Calculul destul de dificil al numarului rX ,Y este efectuat n Excel prin intermediul functiei CORREL(). Aceasta functie are doua argumente care sunt, evident, domeniile n care am depus cele doua serii de date. Ca un caz concret, sa presupunem ca pentru 10 indivizi alesi n esantion au fost masurate temperatura axilara (n C) si pulsul (n numar de oscilatii/minut), obtinndu- se rezultatele din tabelul urmator:
143

k 1 2 3 4 5 6 7 8 9 10

Pulsul xk 75 80 70 90 75 85 80 90 100 95

Temperatur a axilara yk 38.2 37.5 36.5 38.3 37.1 38.0 37.6 38.5 39.4 38.9

Prin calcul (cu functia CORREL() din Excel ) obtinem (vezi figura de mai jos):
rX ,Y = 0.911885 0.912

care ne indica o legatura liniara puternica ntre puls si temperatura axilara. Coeficientul de corelatie Pearson poate fi calculat doar daca dispunem de date numerice. Sa consideram acum ca valorile variabilelor X si Y nu pot fi obtinute prin masuratori; dimpotriva , ele sunt numere de ordine, asa cum ar fi, de exemplu, rangurile acordate concurentilor de catre doi arbitri. Coeficientul de corelatie Pearson, chiar daca este calculabil, nu ofera o interpretare adecvata a concordantei ntre evaluarile arbitrilor. n situatii de acest fel se va calcula, cu formula
ro = 1 dk
2

N ( N 2 1)

n care d k este diferenta rangurilor obtinute de concurentul k , asa-numitul coeficient de corelatie Spearman.

144

Bibliografie 1. P. Armitage, G. Berry, Statistical Met hods in Medical Research. Blackwell, 1987 2. P. Degoulet, M. Fieschi, Introduction to Clinical Informatics. Springer Verlag, 1999 3. Andrei Dumitru Iacobas, Biostatistica Medicala. Bucura Mond, 1997 4. Paul G. Hoel, Introduction to Mathematical Statistics. J. Wiley & Sons, 1971 5. D. V. Lindley, Introduction to Probability and Statistics from a Bayesian Viewpoint. Part 1. Probability. Cambridge Univ. Press, 1969 6. Donald H. Sanders, Franois Allard, Les Statistiques. Une Approche Nouvelle. McGraw Hill, 1992 7. Peter Whittle, Probability. J. Wiley & Sons, 1970

145

You might also like