Constantin Mircioiu

Roxana Colette Sandulovici

STATISTICA APLICATA IN FARMACIE SI STUDII CLINICE
Editia a – II – a

EDITURA UNIVERSITARA “CAROL DAVILA” BUCURESTI, 2009

Prof. dr. farm., mat. CONSTANTIN MIRCIOIU Dr. farm., mat. ROXANA COLETTE SANDULOVICI

STATISTICA APLICATA IN FARMACIE SI STUDII CLINICE
Editia a II - a pentru

cursul de biostatistica Facultatea de Farmacie, Universitatea de Medicina si Farmacie “Carol Davila”, Bucuresti cursul de biostatistica doctoranzi Universitatea de Medicina si Farmacie “Carol Davila”, Bucuresti

cursul de biostatistica si farmacocinetica Masterul de Biostatistica Facultatea de Matematica, Universitatea Bucuresti

EDITURA UNIVERSITARA “CAROL DAVILA” BUCURESTI, 2009

PREFATA La numai un an dupa prima aparitie a cartii de fata, conceput initial ca un curs pentru studentii din anul IV ai facultatii de farmacie, contextul stiintific si didactic s-a schimbat “semnificativ statistic”. In urma experientei cursurilor si seminariilor din cadrul facultatilor de farmacie si facultatilor de matematica a aparut necesitatea de a revizui o parte din material in scopul cresterii ponderii exemplelor din cadrul cercetarilor experimentale si studiilor clinice, mai dificile de urmarit decat exemplele “ideale”, dar mai ilustrative in ceea ce priveste modul de rezolvare a unor probleme reale, complexe. S-au adaugat in primul rand cateva capitole noi de biostatistica “reala”: • estimarea bioechivalentei prin metode non-parametrice, problema amplu dezbatuta in acesti ani in contextul propunerii de a schimba regulile americane si europene de evaluare a bioechivalentei, • estimarea retrospectiva a factorilor de risc in cazul bolilor rare, • relatia intre evaluarea bioechivalentei si a echivalentei terapeutice, • aplicarea ANOVA in estimarea modelelor liniare. Necesitatea acestor din urma capitole au aparut, in primul rand, in cadrul masteratului de Biostatistica organizat de Facultatea de Matematica in colaborare cu Facultatea de Farmacie si au facut obiectul unor dezbateri multidisciplinare la care au participat matematicieni, medici, farmacisti, chimisti si biologi in cadrul seminariilor de biostatistica aplicata la studiile clinice. O alta directie a dezvoltarii a privit evaluarea statistica a datelor clinice in cadrul unor studii clinice concrete analizate la cursurile si seminariile de biostatistica la scoala doctorala de pe langa Universitatea de Medicina si Farmacie “Carol Davila”. In final, dincolo de insusirea unor reguli de baza privind evaluarile statistice in capitolele mentionate s-a incercat sa se acrediteze conceptul fundamental privind validarea in spirala: validarea rezultatelor prin analiza statistica, validarea rezultatelor statistice prin evaluarea fenomenologica, remodelarea fenomenelor, extrapolarea experimentului, evaluarea statistica, s.a.m.d. Rezumand intr-o singura fraza bunele intentii ale autorilor - acestia au vrut sa transmita ideea ca aplicarea in analiza datelor clinice numai a bunului simt sau numai a regulilor formale de calcul te pot rataci si uneori chiar sminti. Autorii Bucuresti, 2009

I.

Elemente de teoria probabilitatilor Campuri de probabilitate

1.1. CÂMPURI DE PROBABILITATE Teoria matematică a probabilităţilor porneşte de la faptul că fiecărui rezultat posibil al unui experiment aleator, rezultat pe care îl vom denumi eveniment, i se asociază o valoare numerică, numită “probabilitatea” evenimentului respectiv. Această valoare este o caracteristică obiectivă a evenimentului în condiţiile experimentului dat. Să efectuăm, de exemplu, un experiment de m ori. Dacă în cele m experienţe un eveniment A s-a produs de k ori, atunci 0 ≤ k ≤ m, de unde rezultă pentru frecvenţa relativă: k 0 ≤ ≤1 m adică frecvenţa relativă a unui eveniment este întotdeauna un număr cuprins între 0 şi 1. Ţinând cont că frecvenţa relativă oscilează în jurul probabilităţii evenimentului considerat şi că probabilitate este acea caracteristică a evenimentului care ne indică în ce proporţii se produce evenimentul în cazul repetării experimentului de un număr foarte mare de ori, rezultă că şi probalitatea este tot un număr între 0 şi 1. Din definiţia probabilităţii ca generalizare a conceptului de frecvenţă relativă, rezultă că probabilitatea unui eveniment imposibil este 0, iar probabilitatea unui eveniment sigur este 1. Evenimentele pot fi simple, în sensul că nu se pot descompune mai departe, sau compuse din alte evenimente ce se petrec simultan. În acest context putem considera două operaţii între evenimente. Scriem A ∩ B şi înţelegem prin aceasta un eveniment care constă în producerea evenimentelor A şi B, simultan. Scriem A ∪ B pentru cazul când se produce cel puţin unul din cele două evenimente. Fiind date două rezultate A şi B ale unui experiment efectuat de n ori, să presupunem că A s-a obţinut de k1 ori şi B de k 2 ori. Evenimentul A ∪ B, deci obţinerea unui eveniment din cele două rezultate, s-a obţinut ca k +k k k atare, de 1 2 = 1 + 2 ori, ceea ce sugerează o regulă de tipul n n n Probabilitate (A ∪ B) = Probabilitate (A) + Probabilitate (B) În cele ce urmează vom introduce o prezentare axiomatică a conceptului de probabilitate, după Kolmogorov 1 .
Andrei Nicolaevici Kolmogorov (1903-1987), fost profesor la Universitatea din Moscova, a avut contribuţii deosebite în analiza matematică, analiza funcţională şi teoria
1

1

I.

Elemente de teoria probabilitatilor Campuri de probabilitate

1.1.1. Corp borelian 1.1.1.1. Definiţie: Fie E o mulţime şi K o familie nevidă de părţi ale lui E, K ⊂ ℘(E) cu proprietăţile: 1. A ∈ K ⇒ CA ∈ K 2. ( Ai )i∈N ⊂ K ⇒

1

Ai ∈ K

3. E ∈ K Deci, este închisă la operaţiile de complementare şi reuniune. Se spune, în acest caz, că familia K, împreună cu operaţiile menţionate, formează un corp bolerian. Denumirea de borelian vine de la matematicianul Emil Borel, unul dintre fondatorii teoriei probabilităţilor. 1.1.1.2. Consecinţă: Un corp borelian este o familie închisă faţă de operaţiunea de intersecţie, indiferent de numărul elementelor sale pe care le intersectăm: ( Ai )i∈N ⊂ K ⇒ ∩ Ai ∈ K Demonstraţia se face imediat folosind faptul că proprietăţile 1 şi 2. 1.1.1.3. Propoziţie: Fiind dată o familie de corpuri boreliene (Ki )i ∈ I , intersecţia lor este tot un corp borelian. Demonstratia se face imediat, folosind proprietăţile corpului borelian şi ale operaţiilor de intersecţie, reuniune şi complementare. 1.1.1.4. Definiţie:

∩ A = C ⎜∪ A ⎟ ⎝ ⎠
i i i i

şi

probabilităţilor. Cartea sa “Grundbegriffe der Wahrscheinlichketetsrechnung”, Berlin, 1933, a însemnat o revoluţie în teoria probabilităţilor, arătând că, formal, această teorie se poate trata ca un caz particular de teorie a integralei (sau “teoria măsurii”).

2

b] = ∩∞=1 ⎛ a − 1 .1.2. ∀j ⇒ Ai ∩ Aj = φ 3. b + 1 ⎞ şi (a. A ∈ L ⇒ f-1(A) ∈ K sau.1. Într-adevăr. Deoarece orice interval închis se poate obţine prin operaţiile meţionate din intervale deschise şi invers. mulţimea intervalelor deschise de forma ( −∞. Definiţie O mulţime E împreună cu un corp borelian K formează un spaţiu măsurabil (E.2.K) si (F.2. orice interval deschis poate fi generat pornind de la intervale închise.2. H poate fi completată la un corp borelian.1.I. intersecţie şi complementare pornind de la elementele H ∈ Η.5. se poate scrie: [a. borelianul pe dreapta este în acelaşi timp generat de mulţimea intervalelor închise. Elemente de teoria probabilitatilor Campuri de probabilitate Fie H o familie oarecare de părţi ale unei mulţimi E .K). altfel spus: f-1(L) ⊂ K 1. o funcţie f: (E.3.1. Definiţie Fiind date (E. a ∈ R . b − 1 ⎤ ⎜ ⎟ ⎥ n n ⎢ ⎝ n n⎠ ⎣ n n⎦ 1. f +g şi f*g sunt măsurabile. ∀i. ∪ Ai = E 1.1. Proprietăţi a) Dacă f şi g sunt măsurabile. atunci f g. corpul borelian generat se numeşte simplu “borelianul pe dreapta” şi constituie baza teoriei probabilităţilor. I este cel mult numărabilă. 3 .L) spaţii măsurabile.L) se numeşte funcţie măsurabilă dacă îndeplineşte condiţia: ∀ A.2. dacă i se adaugă E şi toate mulţimile ce se formează prin reuniune. Definiţie: O familie ( Ai )i ∈ I se numeşte desfacere a lui E dacă: 1. Dacă luăm pe dreaptă. aşa cum va fi ea abordată în prezenta lucrare.1. 2.1. Elementele lui K se numesc mulţimi măsurabile. Spaţii măsurabile 1.K) → (F.1. 1. a ) . b ) = ∪∞=1 ⎡a + 1 . numit corpul generat de Η .

Definiţie Se numeşte măsură orice funcţie pozitivă definită pe corpul mulţimilor măsurabile. μ : K → R+ . ∪ Bn . atunci f + g şi f*g sunt continue. 1.2. A2 = Φ ⇒ μ ( Φ ) = μ ( Φ ∪ Φ ) = 2μ ( Φ ) ⇒ μ ( Φ ) = 0 μ (Φ ) = 0 1.2. An = {n.}. “aditivă” pe orice familie ( Ai )i ∈ I numărabilă de mulţimi măsurabile disjuncte: ∀n. n + 1.I. An ∩ Am = Φ ⇒ μ ∪1 An = ∑1 μ ( An ) ∞ ∞ ( ) a) Într-adevăr. Mulţimile Bn sunt disjuncte şi An = B1 ∪ B 2 ∪ . o funcţie este continuă dacă preimaginea oricărei mulţimi deschise este o mulţime deschisă iar măsurabilă este atunci când preimaginea oricărei mulţimi măsurabile este măsurabilă.. dacă f şi g sunt două funcţii continue. Observaţie Se poate face un paralelism între spaţiile topologice şi spaţiile măsurabile.. Deasemenea. A = ∪ An şi μ ( Ai ) < ∞ ⇒ μ ( An ) < μ ( A) ( ) ( ) ∩A n = Φ dar μ ( An ) = ∞ 1. dacă A este finită.4. dacă luăm A1 = A .2.2.1.1.1.5. ∀m. b) Fie un punct exterior x0 ∈ E fixat. 1. între funcţiile continue şi funcţiile măsurabile. Consecinţe b) Fie un şir de mulţimi A1 ⊆ A2 ⊆ .. ⎛ n ⎞ n Din aditivitatea lui μ rezultă μ ( An ) = μ ⎜ ∪ Bi ⎟ = ∑ μ (Bi ) = sn ⎜ ⎟ ⎝ i =1 ⎠ i =1 sn → s = μ ∪i =1 Bi = μ ∪n =1 An = μ ( A) ∞ ∞ Altfel. Definim: 4 . Exemple a) Fie μ definită după cum urmează: • μ ( A) = ∞ dacă A este infinită şi • μ ( A) = numărul elementelor din A ... şi fie A = ∪ An .. Elemente de teoria probabilitatilor Campuri de probabilitate b) Dacă f este continuă.7. Astfel.1. atunci μ ( An ) → μ ( A) Demonstraţie: Fie Bn = An + 1 \ An .6. Această măsură se numeşte în mod natural “măsura de numărare”.. atunci f este borelian măsurabilă.

Definiţie: Un câmp de evenimente (E.3. numită subaditivitate numărabilă ( ) .2. (∀n ) . 1. “spaţiul măsurabil” devine câmp de evenimente. 1. Probabilitate Vom defini probabilitatea ca o măsură particulară.1. K ) înzestrat cu probabilitatea P. mulţimile măsurabile devin evenimente. K ) . An ⊃ An + 1 ⇒ P(∩ An ) = lim n → ∞P( An ) 4.4.1. P(CA) = 1 − P( A) În contextul teoriei probabilităţilor. P(Φ ) = 0 7. (∀n ) . 1.1. se pot demonstra cu uşurinţă următoarele proprietăţi: 1.1. Elemente de teoria probabilitatilor Campuri de probabilitate • • μ x ( A) = 0 dacă x0 ∉ A Măsura este utilizată în mecanica cuantică şi se numeşte “măsura lui Dirac”.3. se numeşte câmp de probabilitate.3. O funcţie P: K → [0. 1. A ⊃ B ⇒ P( A / B ) = P( A) − P(B ) 2. Definiţie: Un eveniment care nu mai poate fi inclus în alt eveniment 5 5.1. P( A ∪ B ) = P( A) + P(B ) − P( A ∩ B ) 6.3.I.3. 0 μ x ( A) = 1 dacă x0 ∈ A şi 0 1.1] cu proprietăţile: a) P – măsură şi b) P (E ) =1 se numeşte probabilitate.1. probabilitatea ar fi o măsură “normată”. Definiţie: Fiind dat un spaţiu măsurăbil (E. An ⊂ An + 1 ⇒ P(∪ An ) = lim n → ∞P( An ) 3. iar E devine evenimentul total. Proprietăţi: Pe baza proprietăţilor măsurii şi a faptului că P (E ) =1.3. Deci. P ∪ An ≤ ∑ P( An ) .

Astfel. conform definiţiei clasice definite mai sus. Fig. formula: P ( A ∪ B ) = P ( A) + P ( B ) − P ( A ∩ B ) se poate citi ca: aria ( A ∪ B ) = aria ( A) + aria ( B ) − aria ( A ∩ B ) ceea ce pare ca evident. Definiţia clasică elementară a probabilităţii derivă în mod natural din noţiunea de frecvenţă. se calculează imediat şi este: k P ( A) = Cn p k q n −k a) P ( e j ) = De exemplu. şi deci a celor negre este q = 1 − p . A ⊂ B sau A ∩ B = Φ se numeşte eveniment elementar sau atom. dintr-o urnă în care se află bile albe şi negre se extrag n bile. oferă şi avantajul unor interpretări “fenomenologice” şi “picturale” pentru unele formule. ca din n bile extrase.n . Exemplu Exemplul clasic de câmp de probabilitate finit îl constituie evenimentele ce pot apărea atunci când. atunci : 1 m şi b) P ( A ) = n n 1. 1. Elemente de teoria probabilitatilor Campuri de probabilitate A ∈ K .3.I. dacă probabilitatea este o măsură. Dacă proporţia bilelor albe în urnă este p. Dacă un eveniment A se poate realiza în m feluri diferite dintr-un număr total n de evoluţii posibile (e j ) j =1. egal probabile. despre care am vorbit mai sus. 1). evenimentul ca din trei bile extrase. dincolo de formalismul simplu şi rigoare. Observaţii Prezentarea axiomelor teoriei probabilităţilor în contexul mai larg al teoriei măsurii.3. probabilitatea evenimentului A. două să fie albe a .1. ∀B ∈ K .şi una să fie neagră .1. la fel ca aria pentru figurile plane (Fig. k să fie albe. 1. n .6.5.se poate descompune în felul următor : A = ( a a n ) ∪ ( a n a )∪ ( n a a ) şi 6 .

A2. indiferent dacă s-a produs sau nu evenimentul B: P(A) = PB(A) Spunem. Dacă s-a constatat experimental o frecvenţă de apariţie kA şi. respectiv kB. condiţionată de B.4. când deja a apărut B. Probabilitatea evenimentului A condiţionată de B se notează. în acest caz. Ea reprezintă în acelaşi timp o desfacere pentru E cât şi pentru orice eveniment X ⊂ E . Probabilitate condiţionată Fie B un eveniment a cărei probabilitate este diferită de 0.…. prin formula: P (A ∩ B ) PB ( A) = P (B ) Un caz special îl constituie acela în care probabilitatea de apariţie a evenimentului A este aceiaşi.1. va fi: kAB k AB = n ≅ P (A ∩ B ) kB kB P (B ) n În acest context apare naturală definiţia probabilităţii evenimentului A. că evenimentele A şi B sunt evenimente independente. Elemente de teoria probabilitatilor Campuri de probabilitate P ( A) = P ( a a n ) + P ( a n a ) + P ( n a a ) = p 2 q + p 2 q + p 2 q = 3 p 2 q = C32 p 2 q3−2 1. Probabilitatea unui eveniment A. cu: P(A/B) sau PB(A). Formula probabilităţii cauzelor (Bayes) Fie A1.I. pentru A şi B. reprezintă proporţia în care ne aşteptăm să se realizeze A în cadrul tuturor evenimentelor câmpului de probabilitate la care aparţine A Probabilitatea lui A se mai poate analiza însă şi în contextul în care ştim că s-a produs anterior evenimentul B. E = ∪ Aj X = ∪ ( Ai ∩ X ) 7 . frecvenţa relativă de apariţie a lui A. An o desfacere a lui E pe care. rescriind formula anterioară P(A ∩ B ) ⇒ P( A ∩ B ) = PB( A) * P(B ) = P( A) * P(B ) PB ( A) = P(B ) se poate lua ca definiţie că două evenimente sunt independente atunci când: P ( A ∩ B ) = P ( A) * P ( B ) 1. în acest caz.1. o numim sistem complet de evenimente.5. Observăm că. în contextul teoriei probabilităţilor.

P( Ai ) ≠ 0 . Elemente de teoria probabilitatilor Campuri de probabilitate Să presupunem că ∀i. pentru că ele se cunosc înainte de eveniment. este egală cu suma probabilităţilor de producere a lui X. Teorema probabilităţii cauzelor Probabilitatea producerii oricărui eveniment X. În aceste condiţii avem următoarea teoremă: 1. n şi P(Aj )PAj (X ) PX ( Aj ) = ∑ P( Ai )PAi( X ) Demonstraţie: Dat fiind că evenimentele Ai ∩ X sunt disjuncte.5. Probabilităţile P(Ak) se numesc apriorice. probabilităţi aposteriorice. formula calculează probabilitatea lui X în funcţie de probabilităţile cauzelor care ar fi putut determina evenimentul X.1. avem P( X ) = ∑ P( Ai ∩ X ) . când un pacient intoxicat este adus la urgenţă el prezintă anumite simptome şi medicul. În acest caz. dar după ce s-a întâmplat evenimentul X.1. folosind experienţa sa. Probabilitatea de trecere de la o stare iniţială la o stare finală este dată de suma probabilităţilor de trecere pe anumite căi Ai ponderate fiecare cu 8 . Probabilităţile PX(Aj) sunt probabilităţile aceloraşi cauze. rezultatele determinărilor în sânge şi un sistem computerizat elaborează o listă cu probabilităţile ca intoxicaţia să se fi făcut cu o anumită substanţă. şi se numesc din acest motiv. P (X ∩ Aj ) P (X ) P ( Aj ) P ( X ∩ Aj ) P (X ∩ Aj ) P ( Aj ) deci. Exemplu. În fizica statistică parametrii termodinamici sau cuantici ai unui sistem rezultă din însumarea unui număr foarte mare de evenimente. condiţionate de evenimentele complete ale sistemului ( Ai )i = 1. PX(Aj) = = = P( Ai ∩ X ) P ( Ai ) ∑i P ( Ai ∩ X ) ∑i P ( Ai ) Din definiţie avem PX(Aj) = P( Aj )PAj ( X ) ∑ P( Ai )PAI ( X ) PX(Aj) poate fi interpretat ca fiind probabilitatea ca X să aibă cauza Aj.I.

P(B) este proporţia (probabilitatea) unei boli în populaţie şi cunoscând proporţia în care un test diagnostic este pozitiv la bolnavi PB(+) şi la sănătoşi PNB(+) putem calcula probabilitatea ca un pacient la care rezultatul testului este pozitiv să fie bolnav: PB ( + ) P ( B ) P+ ( B ) = PB ( + ) P ( B ) + PNB ( + ) P ( NB ) unde: PB ( + ) este probabilitatea ca un bolnav să fie catalogat pozitiv de către test şi se numeşte “sensibilitatea” testului. Formula probabilităţii cauzelor ne arată cum se transformă probabilităţile apriorice în probabilităţi aposteriorice.3.5.1. ştiind că un medicament se absoarbe în. Observaţie: Putem deasemenea să considerăm cazul particular al desfacerii evenimentului total în două evenimente A şi complementul său CA. ne punem problema ierarhizării suspiciunilor privind potenţialii criminali. şi se elimină din sânge pe mai mult căi. după apariţia evenimentului X. PNB ( − ) este probabilitatea ca un sănătos să fie catalogat negativ de către test şi se numeşte “specificitatea” testului. Deoarece numărul căilor poate fi de puterea continuului. De exemplu. Bayer a fost un episcop care s-a preocupat de cauzele evenimentelor din lumea aceasta şi legătura lor cu cauza finală – Dumnezeu. ne putem pune problema stabilirii ponderilor efective ale acestor căi. Problema nu este de loc “teoretică” dacă suntem de exemplu o societate de asigurări sau dacă testul este un test de malignitate.5. dacă s-ar produce o crimă. cu diferite probabilităţi date de considerente fizico-chimice şi fiziologice. de exemplu. în locul sumelor apar integrale. aposteriori. p(Ai). Elemente de teoria probabilitatilor Campuri de probabilitate probabilitatea. în scopul “individualizării” tratamentului. 1.2. sau altfel spus ponderea lor. în funcţie de rezultatul unor determinări a concentraţiei ale acestora în sângele unui pacient. Aplicaţie: Dacă. 9 . Formula lui Bayes devine în acest caz: PA( X )P( A) PX(A) = PA( X )P( A) + PCA( X )P(CA) 1.I. Sau.1.

de exemplu.I. este vorba de un test de depistare a cancerului 10 . Elemente de teoria probabilitatilor Campuri de probabilitate Problema devine teribil de importantă dacă.

⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎝2 2⎠ ⎝2 2⎠ ⎝4 2 4⎠ în timp ce. P ) → ( R. În termeni de teoria măsurii. Putem. Elemente de teoria probabilitatilor Variabile aleatoare 1. f ( E ) finită şi P ( f ( x ) = xi ) = P ( f −1 ( xi ) ) = pi c) Vom lucra. B ) . de exemplu. adică suma.I. să considerăm un experiment repetat de două ori rezultatele fiind independente ⎛1 2⎞ ⎛1 2⎞ ⎛2 3 4⎞ ⎜1 1⎟+⎜1 1⎟ = ⎜1 1 1⎟.2. măsurabilă. ∀ xi . Trebuie în acest context să fim atenţi la independenţa sau nonindependenţa variabilelor aleatoare implicate în operaţie. b) O variabilă aleatoare se numeşte variabilă aleatoare simplă dacă ia un număr finit de valori: f : E → R . K . în cele ce urmează. şi produsul a două variabile aleatoare este tot o variabilă aleatoare. dacă considerăm că X şi X nu iau valori independent. cu proprietatea că. mulţimea x ∈ K pentru care f ( x ) ≤ a este un eveniment din K . oricare ar fi numărul real a. cu variabile aleatoare independente.2. Practic vorbind avem definită probabilitatea ca variabila să aibă valori mai mici decât orice număr dat a. ca regulă.VARIABILE ALEATOARE 1. adică variabile ce iau valori independente una de cealaltă: P (( f ( x ) = xi ) ∩ (g ( y ) = y j )) = P ( f ( x ) = xi ) * P (g ( y ) = y j ).1. Operatii cu variabile aleatoare: Se poate verifica uşor că variabilele aleatoare formează o algebră.2.2. o variabilă aleatoare este o funcţie f : ( E . De exemplu putem citi X+X unde X este o variabilă aleatoare în două feluri. y j 1. atunci ⎛2 4⎞ X + X = 2X = ⎜ 1 1 ⎟ ⎜ ⎟ ⎝2 2⎠ 11 . mai mult compunerea a două variabile aleatoare este tot o variabilă aleatoare. Definiţii: a) Se numeşte variabilă aleatoare (întâmplătoare sau statistică) o funcţie reală f definită pe mulţimea K a evenimentelor.

Într-adevăr.2. ⎛1 2 3⎞ De exemplu. Functia de repartitie Funcţia de repartiţie asociată lui f este funcţia F ( x ) . X = ⎜ 1 1 1 ⎟ apare sub forma ⎜ ⎟ ⎝4 2 4⎠ Fig. P( f = 1) = P( f 〈 2) P( f = 2) = P(( f 〈3) ∩ ( f 〉2)) = P( f 〈 3) * P( f 〉 2) = P( f 〈 3) * (1 − P( f 〈 2)) P( f = 3) = 1 − P( f = 1) − P( f = 2) Ca regulă generală: P ( f = k ) = 1 − P ( f 〈 k + 1) − P ( f 〈 k ) Deci am determinat o distribuţie de probabilitate care poate fi reprezentată sub forma unei matrici: ⎛1 2 3⎞ P( f = k ) = ⎜ ⎜p p p ⎟ ⎟ 2 3⎠ ⎝ 1 12 .I. 3 Curba cumulativă a distribuţiei 1. F : definită de formula: F ( x ) = P ( f 〈 x ) = P ( f −1 ( −∞. de exemplu { . oricare ar fi acel interval.1] Importanţa acestei funcţii constă în faptul că.3 .3}. x ) ) → [ 0.2.2.3 . când cunoaştem P( f 〈 k ) ∀k = 1. 2 Reprezentarea probabilitatilor grafica a Fig. cunoaştem practic şi P( f = k ) ∀k = 1.2. Elemente de teoria probabilitatilor Variabile aleatoare Putem reprezenta grafic aceste probabilităţi. dacă F ( x ) este dată se poate determina probabilitatea ca f să ia valori într-un interval I ⊂ .3. 1 În cazul în care f ia un număr finit de valori.

I. Dacă ne punem problema ca temperatura să fie într-un anumit interval noţiunea de funcţie de repartiţie capătă un conţinut concret.+∞ ) .2.3.3. integrabilă pe intervalul (− ∞. În acest caz. cu proprietatea că pentru ∂F ∂x atunci.4. Exemplu : Dacă ne punem problema probabilităţii ca temperatura în cameră să fie t =20. Elemente de teoria probabilitatilor Variabile aleatoare 1. Dacă există o funcţie ρ ( x ) . P ( f ( x ) = ξ ) = 0 1.Proprietăţi Funcţia de repartiţie are următoarele proprietăţi: a) a ≤ b ⇒ F ( a ) ≤ F ( b ) b) lim F ( a ) = 0 c) lim F ( a ) = 1 a →+∞ a →−∞ d) F este continuă la stânga.347562 aceasta este evident zero şi de fapt problema nici nu are sens – în măsura în care temperatura este o valoare medie în jurul căreia avem fluctuaţii continue.3. ρ ( x ) se numeşte densitatea de repartiţie sau densitatea de orice x ∈ este verificată egalitatea: ρ ( x) = probabilitate a variabilei aleatoare ξ.2. Dacă F este continuă spunem că f este variabilă aleatoare continuă. probabilitatea ca f să ia orice valoare particulară este 0 ⇒ ∀ξ . 1.1. a ) este dată de formula: P (ξ ( x ) 〈 a ) = F ( a ) = ∫ ρ ( t )dt şi respectiv: a P ( b ≤ ξ ( x ) 〈 a ) = F ( a ) − F ( b ) = ∫ ρ ( t )dt − ∫ ρ ( t )dt = ∫ ρ ( t )dt b a −∞ −∞ b −∞ a 13 .2. Densitatea de repartitie Fie F ( x ) funcţia de repartiţie a unei variabile aleatoare ξ.3. probabilitatea ca variabila aleatoare să ia valori într-un interval ( −∞. 1. În acest caz.2.2.

I.

Elemente de teoria probabilitatilor Variabile aleatoare

1.2.5. Valoarea medie Se numeşte valoare medie (sau speranţă matematică) a unei valori aleatoare f, numărul M ( f ) = ∑ xipi , atunci când ξ este o variabilă aleatoare simplă şi,

respectiv

M(f )=∫

+∞

−∞

x ρ ( x )dx , atunci când ξ este o variabilă aleatoare continuă,

cu densitatea de probabilitate ρ. În literatură, operatorul de medie se mai notează şi cu E, de la “expectation” – speranţă în engleză. În cazul variabilelor simple se observă că valoarea medie a variabilei f este media ponderată a valorilor sale xi, cu ponderile pi, care reprezintă “frecvenţele” de apariţie ale valorilor respective.
1.2.5.1.Proprietăţi ale mediei: Dacă f şi g sunt independente, atunci avem: a) M ( af ) = aM ( f )

b) M ( f + g ) = M ( f ) + M ( g ) c) M ( f * g ) = M ( f ) * M ( g ) Vom schiţa o demonstraţie a proprietăţii b): M ( f + g ) = ∑ k ,l P ( Fk ∩ Gl )( xk + xl ) =
= ∑k

( ∑ P ( F ∩ G )) x + ∑ ( ∑
l k l k l

k

P ( Fk ∩ Gl ) xl

)

Dar, pe de altă parte, folosind proprietăţile intersecţiilor şi reuniunilor de mulţimi, respectiv distributivitatea intersecţiei faţă de reuniune şi a intersecţiei faţă de reuniune, şi faptul că ∪ l Gl = E avem

∑ P(F
l

k

∩ Gl ) = P Fk ∩
k

(

(∪ G )) = P ( F )
l l k

şi similar, Deci,

∑ P(F
k

∩ Gl ) = P ( Gl )

M ( f + g ) = ∑ k P ( Fk )xk + ∑ l P ( Gl )xl = M ( f ) + M ( g )

14

I.

Elemente de teoria probabilitatilor Variabile aleatoare

1.2.5.2. Definitie: a) Noţiunea de medie se generalizează, definindu-se momentul de ordin k al unei variabile aleatoare: M k ( f ) = ∑ xik pi , atunci când ξ este o variabilă aleatoare simplă şi •

respectiv,

Mk ( f ) = ∫

+∞

−∞

x k ρ ( x ) dx , atunci când ξ este o variabilă aleatoare

continuă. b) Se numeşte moment centrat de ordin k al variabilei aleatoare f momentul de ordinul k al abaterii sale faţă de medie. k M kc ( f ) = ∑ (xi − μ f ) p i
c şi respectiv, μ k = ∫

[x − M ( f )] ρ (x )dx −∞
+∞

k

,în cazul unei variabile aleatoare

continue. Dispersia de selecţie, sau varianta unui şir de rezultate numerice ale unui experiment este media aritmetică a pătratelor abaterilor acestor valori faţă de media lor aritmetică X . Dacă x1 , x2 ,..., xn sunt cele n valori ale seriei, dispersia de selecţie a
2 acestora, s X , este:
2 sX

n După cum vom vedea mai departe la statistică, o formulă mai utilă
n −1 Dispersia de selectie este indicatorul principal al împrăştierii datelor unui experiment. Dispersia unei variabile aleatoare este conceptul ce generalizează dispersia de selecţie.
2 pentru dispersia de selecţie este: s X

∑(x − X ) =
i
i

2

∑(x − X ) =

2

15

I.

Elemente de teoria probabilitatilor Variabile aleatoare

1.2.6. Dispersia Dispersia variabilei aleatoare X se notează cu D ( X ) sau σ 2 şi este, în particular, momentul centrat de ordinul doi:
+∞ 2 D ( X ) = σ 2 = M ⎡( X − M ( X ) ) ⎤ = ∫ ( x − M ( X ) ) ρ ( x ) dx , atunci ⎣ ⎦ −∞ când variabila aleatoare este continua, şi respectiv 2 2 • σ 2 = M ⎡( X − M ( X ) ) ⎤ = ∑ ( xi − μ X ) pi , atunci când variabila ⎣ ⎦ aleatoare este discretă. Rădăcina pătrată a dispersiei, σ, se numeşte abaterea medie pătratică a variabilei X, iar sx abaterea standard.

2

a) b)

1.2.6.1.Proprietăţi Pentru orice variabilă aleatoare X şi orice constante a şi b D ( aX + b ) = a 2 D ( X )

Dacă X, Y sunt două variabile aleatoare independente D ( X + Y ) = D ( X ) + D (Y )

Demonstraţie: Pentru orice două variabile aleatoare X şi Y , cu mediile μ X şi respectiv μY , avem

D ( X + Y ) = M ( X + Y − μ X − μY ) = M ( X − μ X ) + M (Y − μY ) +
2 2 2

+2M ⎡( X − μ X )(Y − μY ) ⎤ = D ( X ) + D (Y ) + 2M ⎡( X − μ X )(Y − μY ) ⎤ ⎣ ⎦ ⎣ ⎦ Dar, atunci când X şi Y sunt independente ⇒ M ( XY ) = μ X μY ,
M ⎡( X − μ X )(Y − μY ) ⎤ = M ( XY − X μY − Y μ X + μ X μY ) = ⎣ ⎦ = μ X μY − μ X μY − μ X μY + μ X μY = 0

⇒ M ⎡( X − μ X )(Y − μY ) ⎤ = 0 şi deci D ( X + Y ) = D ( X ) + D (Y ) ⎣ ⎦

c) Între dispersie, valoarea medie şi momentul de ordinul doi există relaţia:

D ( f ) = M ( f 2 ) − ( M ( f ))

2

Demonstraţie:

16

I.

Elemente de teoria probabilitatilor Variabile aleatoare
2

2 2 = M ( f 2 ) − 2μ X + μ X = M ( f 2 ) − ( M ( f ) )

2 D ( X ) = ∑ ( xi − μ X ) pi = ∑ xi2 pi − 2∑ xi μ X pi + ∑ μ X pi = 2

1.2.6.2.Observaţie

Dacă numim M ( f 2 ) – media pătratului si

( M ( f ))

2

– pătratul

mediei formula capătă o formulare uşor de reţinut:”Dispersia este egală cu media pătratului, minus pătratul mediei”. 2 2 Relaţia se mai poate scrie sub forma M ( X 2 ) = μ X + σ X şi am putea s-o numim „teorema lui Pitagora în probabilitate”.
1.2.6.3.Exemplu În modelul clasic al urnei cu bile pe care l-am prezentat mai sus, probabilitatea evenimentului “din n bile extrase, k sunt albe” era k p k = C n p k q n−k . Media variabilei aleatore X care da numărul de bile albe din n bile extrase va fi, prin definiţie, k M ( X ) = ∑ kCn p k q n −k

Pentru a calcula această sumă considerăm următoarea identitate n ( pt + q ) = ∑ Cnk p k t k q n−k , pe care o derivăm în raport cu t

(( pt + q ) )′ = ( ∑ C
n

k n

p k t k q n − k )′

np ( pt + q )

n −1

Am obţinut, deci, M ( X ) = np Folosind aceiaşi identitate, dar derivând de două ori se arată că: D ( X ) = npq . Cunoaşterea mediei şi dispersiei unei variabile aleatoare dă o indicaţie asupra intervalului în care se află valorile variabilei, cu cea mai mare probabilitate. Mai exact, după cum arată teorema următoare, cu cât ne îndepărtăm mai mult de valoarea medie, cu atât valorile respective sunt mai puţin probabile ca valori ale variabilei date.

k t = 1 ⇒ np = ∑ Cn p k kq n −k

k = ∑ Cn p k kt k −1q n − k şi apoi facem

17

I.

Elemente de teoria probabilitatilor Variabile aleatoare

1.2.7. Inegalitatea lui Cebâşev

Dacă σ2 este dispersia variabilei aleatoare X , probabilitatea ca modulul abaterii sale de la valoarea medie să ia valori mai mari decât un număr ε 〉 0 este mai mică decât

σ2 . ε2

σ2 P( x − m ≥ ε ) ≤ 2 ε
Demonstraţie: 2 2 Pornim de la definiţia dispersiei σ 2 = M ( xi − m ) = ∑ ( xi − m ) p i

[

]

şi împărţim suma în doi termeni: unul corespunzător valorilor xi pentru care

xi − m ≥ ε şi unul corespunzător valorilor lui xi pentru care xi − m 〈ε .

σ 2 = ∑ ( xi − m ) pi =
2

xi − m 〈

∑ ε ( x − m)
i

2

pi +

xi − m ≥

∑ ε ( x − m)
i

2

pi

Dacă neglijăm primul termen al sumei şi minorăm înlocuindu-l cu ε în al doilea termen, se obţine σ 2 ≥ ∑ ε 2 pi = ε 2 p k1 + p k2 + ... + p kn ,
xi − m ≥ε

xi − m

(

)

cu p k1 + p k 2 + ... + p kn suma
x ki − m ≥ ε .

probabilităţilor

valorilor

xk i pentru

care

σ 2 ≥ ε 2 P ( x − m ≥ ε ) ceea ce implică următoarea relaţie:
P( x − m ≥ ε ) ≤

Dar pk1 + pk2 + ... + pkn = P ( x − m ≥ ε ) şi deci am obţinut

σ2 . ε2 Deoarece suma între probabilitatea unui eveniment A şi probabilitatea evenimentului contrar CA este 1, avem P ( CA) = 1 − P ( A) şi inegalitatea se mai poate scrie sub forma σ2 P ( xi − m 〈ε ) 〉 1 − 2 ε

18

şirul ( f n ) converge către p în probabilitate.88 9 9 Exprimat în cuvinte.7. în cazul în care variabila aleatoare are suplimentar unele proprietăţi de regularitate.I.2. 1.12. este mai mică decât 0. Elemente de teoria probabilitatilor Variabile aleatoare 1. această inegalitate aparent banală. legătura care exprimă însăşi fundamentarea statisticii pe teoria probabilităţilor. Aceiaşi inegalitate ne permite înţelegerea legăturii între frecvenţa şi probabilitate. enorm de mult: Probabilitatea ca orice variabilă aleatoare să ia valori mai îndepărtate de valoarea sa medie decât de trei valori standard.2. spune din punct de vedere fenomenologic. această probabilitate este chiar mult mai mică.Exemplu: Fie ε = 3σ . 19 . Teorema lui Bernoulli (legea numerelor mari): Dacă se notează cu p probabilitatea ca un eveniment A (de exemplu k apariţia bilei albe) să se realizeze într-un experiment şi f n = este n frecvenţa cu care se realizează evenimentul A în n experimente identice consecutive.8. Altfel spus: Frecvenţa experimentala tinde în probabilitate la probabilitatea teoretică. Să considerăm variabila aleatoare care dă numărul de bile albe într-o extracţie de n bile din urnă. Vom vedea mai departe că. Pentru această variabilă avem următoarea teoremă. care se generalizează în teoria probabilităţilor în forme care depăşesc însă cadrul acestei lucrări. atunci inegalitatea Cebâşev dă: 1 8 P ( xi − m 〈 3ε ) = 1 − = = 0.1.

I. aplicând inegalitatea lui Cebâşev: P ( k − M (k ) ≥ nε ) ≤ σ2 şi deci n 2ε 2 ⎛k ⎞ σ2 lim n→∞ P⎜ − p ≥ ε ⎟ ≤ lim n→∞ 2 2 = 0 ⎜n ⎟ n ε ⎝ ⎠ Teorema lui Bernoulli afirmă numai că inegalitatea f n − p ≥ ε nu are şansa să fie realizată sau că inegalitatea f n − p 〈 ε are şanse mari să fie îndeplinită dacă n este suficient de mare 20 . Elemente de teoria probabilitatilor Variabile aleatoare Demonstraţie: ⎛k ⎞ lim n→∞ P⎜ − p ≥ ε ⎟ = lim n→∞ P( k − np ≥ nε ) = lim n→∞ P( k − M (k ) ≥ nε ) ⎜n ⎟ ⎝ ⎠ Dar.

ca: ∫ +∞ −∞ e − x2 2 dx = 2π +∞ − x2 2 0 Fie I = ∫ e 2 +∞ 0 dx = ∫ e 0 +∞ − y2 2 dy .3. dacă facem schimbarea de variabilă u = x−m ∫ ρ (x )dx = σ −∞ +∞ 1 2π ∫ +∞ −∞ e − ( x − m )2 2σ 2 σ avem dx = 1 σ 2π ∫ +∞ −∞ e − u2 2 σ du = 1 21 .I.σ ) = e 2σ σ 2π O primă condiţie ca ρ ( x ) să fie distribuţie de probabilitate este aceea ( x − m )2 că ∫ ρ (x )dx = P(− ∞ 〈 f (t )〈 +∞) = 1 −∞ +∞ Pentru a verifica această condiţie.3. vom demonstra mai intai. m. ⇒I = +∞ x2 − 2 π 2 = 2π 2 2π = 2π 2 ∫ +∞ −∞ e x2 − 2 dx = 2* ∫ e dx = 2* I = 2* În cazul nostru. atunci când densitatea sa de probabilitate este data de formula: ( ) − 1 2 ρ (x. − x2 + y 2 2 ⇒I =∫ e − x2 2 dx * ∫ e 0 +∞ − y2 2 dy = ∫∫ e D dxdy Facem schimabarea de variabila: x = ρ cos θ si y = ρ sin θ unde π ρ ∈ ( 0 . Distribuţia normală Spunem că o variabilă aleatoare este normal repartizată N m. σ 2 . ∞ ) si θ ∈ ⎡0 . ⎢ ⎥ ⎣ 2⎦ Vom obtine: I =∫ 2 π 2 0 ∫ +∞ 0 e − ρ2 2 ρd ρ dθ = π 2 0 π 2∫ +∞ 0 e − ρ2 2 ρd ρ = − e 2 π − ρ2 2 +∞ π = 0 2 Am obtinut ca I 2 = Dar. folosind integrala dublă.1. Elemente de teoria probabilitatilor Distributii de probabilitate 1. DISTRIBUŢII DE PROBABILITATE 1. ⎤ .

I. Să calculăm mai întâi media: M [X ] = 1 1 σ 2π +∞ ∫ +∞ −∞ xe − ( x − m )2 2σ 2 dx = 2 1 σ 2π ∫ (x − m + m)e −∞ +∞ − ( x − m )2 2σ 2 dx = σ (x − m) − 2 ⎜ = e ⎝ σ 2π ∫−∞ σ 1 ⎛ x−m ⎞ ⎟ σ ⎠ dx + m = 1 σ 2π ∫ +∞ −∞ ue − u2 2 σ 2 du + m = 0 + m = m Integrala este nulă deoarece funcţia de integrat este impară. Elemente de teoria probabilitatilor Distributii de probabilitate Vom arăta în continuare că o variabilă aleatoare normal repartizată are media m şi dispersia σ 2 . luând u = ϕ şi − ue = ψ ′ 1 Deci am obţinut M (X 2 ) = m 2 2π + σ 2 2π şi înlocuind în 2π expresia lui D( X ) obţinem: 1 D( X ) = m 2 2π + σ 2 2π − m 2 = σ 2 2π Pornind de la proprietăţile operatorilor de medie şi dispersie M ( X − m) = M ( X ) − m D( X − m ) = D( X ) şi ( ) ( ) 22 . Pentru calculul dispersiei ne folosim de identitatea: D ( X ) = M ⎡ X − M ( X )⎤ = M ( X 2 ) − ⎡ M ( X )⎤ ⎣ ⎦ ⎣ ⎦ 2 2 M X ( ) 2 = = 1 2π 1 2π − +∞ +∞ 1 1 2 2 − = x 2e 2σ dx = ∫− ∞ ∫− ∞ (m + σ u ) e 2 σ du = σ 2π σ 2π 2 2 u u u2 ⎞ − − − + ∞⎛ 2 2 2 ∫−∞ ⎜ m e 2 + 2mσ u e 2 + σ u e 2 ⎟du = ⎜ ⎟ ⎝ ⎠ u2 ⎛ 2 ⎞ +∞ − 2 2 ⎜ m 2π + σ ∫−∞ u e 2 du ⎟ ⎜ ⎟ ⎝ ⎠ ( x − m )2 u2 Calculăm separat integrala rămasă şi obţinem: 2 u2 u2 ⎞ u2 ⎛ −u +∞ +∞ ⎛ +∞ − − − +∞ 2 2 2 2 2 ∫−∞ u e du = −∫−∞ u ⎜ −ue ⎟du = ue −∞ − ∫−∞ 1* ⎜ −e ⎜ ⎟ ⎜ ⎝ ⎠ ⎝ − u2 2 ⎞ ⎟du = 2π ⎟ ⎠ unde am integrat prin părţi.

Distribuţie binomială Distribuţia binomială apare. La limită.I. iar evenimentul în a cărui apariţie suntem interesaţi are o probabilitate foarte mică. aşa cum s-a arătat mai sus.2. dar np rămâne constant.σ ) .. Distribuţia variabilei aleatoare “numărul de bile albe din n bile extrase” se poate reprezenta şi sub formă matricială: 1 k n ⎞ ⎛ 0 X =⎜ 0 0 n ⎜ C p q C 1 p1 q n −1 . se obţine distribuţia Poisson.. np = λ . deci cu distribuţia σ de probabilitate ρ (x ) = e − x2 2 t − x2 2 Funcţia de repartiţie asociată este funcţia Φ(t ) = ∫ e −∞ dx numită funcţia lui Laplace şi ale cărei valori se găsesc în tabelele din practic toate cărţile de statistică şi probabilităţi.1) . X −m variabila aleatoare redusă este repartizată N (0. Elemente de teoria probabilitatilor Distributii de probabilitate ⎛X⎞ 1 D⎜ ⎟ = 2 D ( X ) ⎝a⎠ a se obţine că. când n → ∞ . 23 .3. dacă o variabilă aleatoare este normal repartizată N (m.. C k p n q 0 ⎟ ⎟ n n n ⎝ n ⎠ După cum am arătat media şi dispersia unei variabile aleatoare repartizate binomial sunt M = np si D = npq Repartiţia binomială apare întotdeauna atunci când un experiment cu numai două răspunsuri posibile se repetă de n ori. la descrierea evenimentelor asociate extracţiilor dintr-o urnă cu bile albe şi bile negre. categorisit uzual ca “eveniment rar”. p → 0 . Un caz particular îl prezintă experimentele care se repetă de un număr foarte mare de ori. C k p k q n − k . 1..

= λe λ se obţine M ( X ) = ∑k ≥ 0 k λk e − λ k! =e −λ ∑ (k − 1)! = e λ ∑ (k − 1)! = e λ λ eλ = λ −λ − k ≥1 k ≥1 λk λk −1 ⎛ k 2λk kλk λk ⎞ = e− λ ⎜ ∑k ≥ 0 − 2λ ∑ k ≥ 0 + λ2 ∑ k ≥ 0 ⎟ = ⎜ k! k! k! k! ⎟ ⎝ ⎠ ⎡ ⎛ ⎞ λk λk λk ⎤ = e − λ ⎜ ∑ k ≥1 [k (k − 1) + k ] − λ2eλ ⎟ = e − λ ⎢∑ k ≥ 2 k (k − 1) + ∑ k ≥1 k ⎥ − λ2 = ⎜ ⎟ k! k! k! ⎦ ⎣ ⎝ ⎠ = e − λ (λ2eλ + λeλ ) − λ2 = λ D( X ) = e − λ ∑ k ≥ 0 24 (k − λ )2 λk ..3... ∑ k ≥0 k λk k! = λe λ .(n − k + 1) λk ⎛ λ ⎞ ⎜1 − ⎟ k! nk ⎝ n⎠ n−k = şi ⎛ λ⎞ lim n → ∞ ⎜1 − ⎟ ⎝ n⎠ n−k n ⎡ − ⎤ ⎛ λ⎞ λ⎥ = lim n → ∞ ⎢⎜1 − ⎟ ⎢⎝ n ⎠ ⎥ ⎣ ⎦ n−k (− λ ) n = e − λ şi deci.. λk λn −λ ⎟ . media şi dispersia unei variabile aleatoare distribuite Poisson şi ţinând cont că limn → ∞ C p q k n k = λk e− λ ∑ ∑k ≥1 k λk k! λk k ≥0 k! =e λ . după definiţie. Elemente de teoria probabilitatilor Distributii de probabilitate 1. ∑ k ≥2 k (k − 1) λk k! = λ2 e λ . Distribuţia POISSON Considerăm deci că np = λ şi trecem la limită după n lim n → ∞ C p q k n k n−k = lim n → ∞ n ( n − 1) ..3.. n−k k! Deci. ( n − k + 1) k 1 ⎛ λ⎞ = *lim n →∞ λ lim n →∞ ⎜1 − ⎟ k k! n ⎝ n⎠ n(n − 1)...(n − k + 1) dar lim n → ∞ =1 nk n−k n(n − 1). X = e ⎜e e −λ e ⎟ 1! k! n! ⎝ ⎠ Calculând. distribuţia Poisson este dată de matricea k n ⎞ 1 ⎛ 0 ⎜ −λ λ −λ ...I.

5 aproximarea este bună pentru valori ale lui np şi nq mai mici decât 5. Pentru a afla media distributiei χ2 este necesară aflarea lui M u i2 . Repartitia χ2 Helmert . . M ( ui2 ) = M ( ui2 ) − ⎡ M ( ui ) ⎤ = D [ui ] = 1 ⎣ ⎦ 2 n n ⎡ ⎤ ⎡ ⎤ Ca urmare M ⎣ χ 2 ( n ) ⎦ = M ⎡ ∑1 ui2 ⎤ = ∑1 M ⎣ui2 ⎦ = n *1 = n ⎣ ⎦ Dispersia va fi: 25 . poate fi folosită aproximarea normală. 1. xn (variabile aleatoare independente) normal distribuite N ( m.3. Exemplu: Numărul evenimentelor adverse la un medicament dat este repartizat Poisson. σ 2 ) . Pentru distribuţiile binomiale în care p<0. …. Vom determina în continuare parametrii (media şi dispersia) unei variabile distribuite χ2. [ ] Deoarece M [u i ] = 0 . i = 1. n Se defineşte X = ∑1 u i2 . Aproximarea normală a distribuţiei binomiale Ca o regulă generală. n sunt de asemenea σ independente.1.I. Această transformare înlesneşte de obicei calculul probabilităţilor binomiale.4. este aproximativ normal distribuit cu pq npq n media 0 şi deviaţia standard 1.3. Variabilele standard ui = xi − m Distribuţia variabilei X rezultate se notează χ2(n) şi este diferită pentru fiecare valoare a lui n. Cel mai mult este utilizată distribuţia Poisson în fizica statistică.5. 1. Elemente de teoria probabilitatilor Distributii de probabilitate 1.3. k −p k − np n = În aceste condiţii. iar suma pătratelor lor va avea o distributie ce poate fi determinată. x2.3.Pearson Se consideră n observaţii independente x1. dacă np şi nq sunt mai mari sau egale cu 5. iar parametru n se defineşte ca numărul de gradelor de libertate.

. 26 . cu n grade de libertate. 2 +∞ 1 e 2π 2 u2 − 2 ∫ ∫ +∞ −∞ +∞ u ue ue 2 − du = ⎞ +∞ 1 ⎟ − ⎟ −∞ 2π ⎠ ⎛ −u ⎜ ∫−∞ 3u ⎜ −e 2 ⎝ +∞ 2 ⎞ 1 ⎟ du = 3 ⎟ 2π ⎠ u2 2 −∞ du = 3M ⎡u 2 ⎤ = 3 ⎣ ⎦ D u i2 = M u i4 − (M [u i ]) = 3 − (1) = 2 şi substituind în relaţia de mai sus se va obţine D ⎡ χ 2 ( n ) ⎤ = nD ⎡ui2 ⎤ = 2n ⎣ ⎦ ⎣ ⎦ 2 2 2 2 Deci variabila x 2 = x12 + x 2 + . având: • media E ( χ 2 ) = n . + x n este repartizată χ2(n). deci se va obţine: 3 − u2 2 M ⎡u ⎤ = ∫ u ρ ( u ) du = ∫ u ⎣ ⎦ −∞ −∞ 1 3 ⎛ − u2 u ⎜e 2π ⎜ ⎝ Atunci. 2 Se poate arăta că densitatea de probabilitate este dată de funcţia χ n − −1 1 f (χ ) = e 2 ( χ 2 )2 . respectiv [ ] [ ] • dispersia D ( χ 2 ) = 2n . 0 +∞ Repartitia χ 2 se foloseşte foarte mult în statistica matematică în verificarea ipotezelor asupra egalităţii dispersiilor.. n ⎛n⎞ Γ ⎜ ⎟ 22 ⎝2⎠ unde Γ este funcţia Euler de speţa I-a studiată la cursul de matematică şi 2 anume : Γ (α ) = ∫ e−t t α −1dt .I. Elemente de teoria probabilitatilor Distributii de probabilitate D ⎡ χ 2 ( n ) ⎤ = D ⎡ ∑1 ui2 ⎤ = ∑1 D ⎡ui2 ⎤ = ⎣ ⎦ ⎣ ⎦ ⎣ ⎦ n n 2 ⎡ ⎤ = nD ⎣ui2 ⎦ = n ⎡ M ( ui4 ) − M ( ui2 ) ⎤ = n ⎡ M ( ui4 ) − 1⎤ ⎣ ⎦ ⎢ ⎥ ⎣ ⎦ Pentru a obţine M u i4 se foloseşte regula integrării prin părţi: ∫ f (x )g ′(x )dx = f (x )g (x ) − ∫ f ′(x )g (x )dx g (x ) = e 4 [ ] ( ) În acest caz se va identifică: 4 i +∞ 4 f ( x ) = u 3 ⇒ f ′( x ) = 3u 2 − u2 2 ⇒ g ′( x ) = ue 1 du = 2π − u2 2 .

repartiţia t a fost propusă de Student (pseudonimul lui W. se spune că variabila Z Tn = ∈T (n) V n este repartizată Student cu n grade de libertate. Distribuţia de probabilitate a unei variabile aleatoare repartizate Student tinde pentru n → ∞ . Repatiţia STUDENT Analog cu distribuţia χ 2 . la distribuţia normală ρ (t ) → 1 −2 e 2π t2 Densitatea de probabilitate este dată de funcţia: ⎛ n +1⎞ n +1 Γ⎜ ⎟ 2 − 1 ⎝ 2 ⎠ * ⎛ 1 + x ⎞ 2 unde x ∈ R şi n ∈ N .1) si V ∈ χ 2 (n ) independente. pentru statistica selecţiilor mici şi exprimă deviaţiile mediilor de selecţie x .S. faţă de media s (abaterea standard a mediilor de întregii populaţii μ. chimist statistician englez).6.I.3. Elemente de teoria probabilitatilor Distributii de probabilitate 1. Dacă sunt date două variabile aleatoare Z ∈ N (0. f ( x) = * ⎜ ⎟ n ⎠ ⎛n⎞ nπ Γ⎜ ⎟ ⎝ ⎝2⎠ 27 . măsurate în n selecţie).Gosset. Mărimea t nu depinde decât de numărul gradelor de libertate.

V ∈ χ 2 (n2 ) .I. Repartiţia F (Behrens .Fisher – Snedecor) a raportului a două dispersii Se consideră frecvent în statistică raportul a două dispersii care estimează aceeaşi dispersie generală a unei colectivităţi. Elemente de teoria probabilitatilor Distributii de probabilitate 1.3. Raportul lor este o variabilă aleatoare repartizată F U n F = 1 ∈ F (n1 . n2 ) V n2 Examinând acest raport se observă că el nu conţine dispersia colectivităţii generale σ2 . Densitatea de probabilitate este dată de funcţia: ⎛n +n ⎞ n1 n +n − 1 2 Γ⎜ 1 2 ⎟ n1 ⎝ 2 ⎠ * ⎛ n1 ⎞ 2 * x n2 −1 * ⎛1 + n1 * x ⎞ 2 .7. f ( x) = ⎜ ⎟ ⎜ ⎟ ⎛ n1 ⎞ ⎛ n2 ⎞ ⎝ n2 ⎠ ⎝ n2 ⎠ Γ⎜ ⎟*Γ⎜ ⎟ ⎝2⎠ ⎝ 2⎠ când x 〉 0 . de unde rezultă că distribuţia acestui raport nu depinde decât de numărul gradelor de libertate n1 si n2 ale celor două dispersii. Dintr-o colectivitate generală se extrag două selecţii U ∈ χ 2 (n1 ) . 28 .

către funcţia Φ( x ) a lui Laplace. atunci funcţia de repartiţie a variabilei σ (n ) ξ1 + ξ 2 + . Exprimat mai riguros şi mai general. pe baza cunoaşterii unui număr restrâns dintre acestea şi extrapolării rezultatelor. în elaborarea unor concluzii plauzibile privitoare la colectivităţi mari de fenomene. atunci funcţia de repartiţie a variabilei aleatoare ξ este foarte apropiată de o funcţie de repartiţie normală.. Teorema limită centrală (A.. Statistica matematica si biostatistica Teorema limita centrala II..1. ξ n variabile aleatoare independente. ξ 2 . Gauss şi alţi matematicieni. au ajuns la concluzia că funcţia de repartiţie normală poate fi luată drept model teoretic pentru cercetarea probabilistică a aproape tuturor fenomenelor naturii. D (ξ k ) = σ k2 şi ρ k = M ( ξ k − a k Fie ξ1 . avem rezultatul că. STATISTICĂ MATEMATICĂ ŞI BIOSTATISTICĂ Statistica matematică este principala aplicaţie a teoriei probabilităţilor. studiind repartiţia erorilor. + an ) σ (n ) tinde.. în esenţă. n Notăm σ (2n ) = ∑1σ i2 .. Laplace.. fiecare variabilă aleatoare având o pondere mică în sumă. 29 .. x t2 − 1 Φ( x ) = ∫∞e 2 dt 2π − Teorema limită centrală este teorema fundamentală a teoriei erorilor. ) 3 când k = 1. Procedeele statistice constau.. când n → ∞ . ρ (3n ) = ∑1 ρ i3 n n Dacă lim n → ∞ ρ (n ) = 0 .M. + ξ n − (a1 + a2 + .Leapunov) 3 Fie M (ξ k ) = ak . dacă o variabilă este suma unui număr mare de variabile aleatoare aleatoare ξ independente. avem următoarea teoremă: 2.II. Legile care stau la baza statisticii şi care permit aceste generalizări sunt teorema limită centrală şi legea numerelor mari. Într-o exprimare intuitivă.

..... Statistica matematica si biostatistica Teorema limita centrala 2.. + M (ζ n ) − 〈ε n n tinde către 1.. atunci oricare ar fi numărul pozitiv ε.... + D (ζ n ) C + C + . Demonstraţie: ζ + ζ 2 + . Teorema lui Cebâşev Dacă ζ 1 .... atunci când numărul variabilelor aleatoare tinde către infinit. Având în n vedere liniaritatea operatorului de calcul a mediei avem M (ζ 1 ) + M (ζ 2 ) + . + C nC C ≤ = 2 = D⎜ 1 ⎟= n n2 n2 n n ⎝ ⎠ Deci ⎛ ζ + ζ 2 + .. + ζ n M (ζ 1 ) + M (ζ 2 ) + ..II.. + ζ n M (ζ 1 ) + M (ζ 2 ) + ... probabilitatea inegalităţii ζ 1 + ζ 2 + . + M (ζ n ) ⎞ C − 〈ε ⎟ ≥ 1 − 2 P⎜ 1 ⎜ ⎟ n n nε ⎝ ⎠ Trecând la limita pentru n → ∞ obţinem ⎛ ζ + ζ 2 + . + ζ n ⎞ D(ζ 1 ) + D(ζ 2 ) + ... + ζ n M (ζ 1 ) + M (ζ 2 ) + .. + M (ζ n ) ⎞ lim n →∞ P ⎜ 1 − 〈ε ⎟ = 1 ⎜ ⎟ n n ⎝ ⎠ 30 ... + M (ζ n ) ⎞ lim n→∞ P ⎜ 1 − 〈ε ⎟ ≥ 1 ⎜ ⎟ n n ⎝ ⎠ şi cum probabilitatea nu poate depăşi 1.... ζ n sunt variabile aleatoare (discrete sau continue) independente ale căror dispersii sunt mai mici decât o constantă C. + M (ζ n ) ⎞ P⎜ 1 − 〈ε ⎟ ≥ 1 − ⎜ ⎟ n n ⎝ ⎠ ⎛ ζ + ζ 2 + ...... + ζ n M (ζ 1 ) + M (ζ 2 ) + . + ζ n Să considerăm variabila aleatoare ζ = 1 ..2.. din proprietăţile operatorului D ⎛ ζ + ζ 2 + . + ζ n M (ζ 1 ) + M (ζ 2 ) + .. + ζ n ⎞ D⎜ 1 ⎟ n ⎝ ⎠ ε2 Mai departe. ⎛ ζ + ζ 2 + .. n Aplicând inegalitatea lui Cebâşev variabilei aleatoare ζ se obţine: ( ) ⎛ ζ + ζ 2 + . + M (ζ n ) M ζ = . ζ 2 ..

In cele mai multe probleme cu un singur parametru necunoscut. Derivatele . θ ) O radacina a ecuatiei de verosimilitate in care 〈 0 este ∂θ 2 un punct de maxim relativ. se compensează între ele.. deşi variabilele aleatoare independente pot lua valori îndepărtate faţă de mediile lor. Metoda verosimilitatii maxime Metoda verosimilitatii maxime da ca estimatie a parametrului θ aceea valoare θ care face maxima functia de verosimilitate.II.. 2. în practică. variabilele aleatoare ζ i au aceiaşi medie μ şi concluzia teoremei devine ⎛ ζ + ζ 2 + . teorema lui Cebâşev stabileşte că. + M (ζ n ) (sau μ atunci când mediile variabilelor sunt n egale între ele). Ca urmare. θ ) ∂ 2 ln P ( x. Explicaţia acestui fapt constă în aceea că abaterile diverselor variabile aleatoare sunt de semne diferite şi. ca urmare. între comportarea fiecărei variabile aleatoare şi comportarea mediilor lor există diferenţă esenţială. media aritmetică a unui număr suficient de mare de astfel de variabile aleatoare ia cel mai probabil valori apropiate de un număr constant M (ζ 1 ) + M (ζ 2 ) + . Valoarea lui θ care maximizeaza functia de verosimilitate maximizeaza si logaritmul functiei de verosimilitate.. Putem spune foarte precis ce valoare va lua media aritmetică a acestor variabile aleatoare.3. θ ) si ∂θ ∂θ 2 vor exista in toate punctele interioare ale multimii ( H ) EVM se gaseste ca radacina a ecuatiei de verosimilitate ∂ ln P ( x. Statistica matematica si biostatistica Teorema limita centrala Cel mai frecvent. Astfel estimatia de verosimilitate maxima (EVM) este o valoare a lui θ care maximizeaza functia de verosimilitate si logaritmul functiei de verosimilitate.. + ζ n ⎞ − μ 〈ε ⎟ = 1 lim n→∞ P⎜ 1 ⎜ ⎟ n ⎝ ⎠ În esenţă. θ ) =0 ∂θ ∂ 2 ln P ( x. multimea valorilor parametrului θ : ( H ) este un interval al ∂ ln P ( x. 31 dreptei reale.

.. maximul global al functiei de verosimilitate poate sa se realizeze pe frontiera spatiului parametrilor ( H ) Aplicatie: Fie X 1 . Statistica matematica si biostatistica Teorema limita centrala Printre radacinile ecuatiei de verosimilitate pot aparea si puncte de minim relativ. De exemplu. Cum ∂2 L nx n 1 − x =− 2 − 〈0 ∂p 2 p (1 − p )2 ( ) putem concluziona ca p = x este unicul punct de maxim al lui L .II.. 32 . X n ) = ( x1 . trebuie sa determinam maximul functiei l ( p ) sau echivalent al functiei de log – verosimilitate care este L ( p ) = ln l ( p ) .. X 2 . i =1 n verosimilitate este: l ( p ) = ∏ p xi (1 − p ) i =1 = p n x (1 − p ) n 1− x ( ) Pentru a gasi EVM pentru parametrul p . 1} se poate verifica separat ca unicul punct critic al lui L este tot p = x ).. X 2 .. Cand ( X1 . x2 . Asrfel este necesar sa determinam semnul derivatei de ordinul doi sau sa se verifice daca radacina obtinuta este un maxim relativ... Se observa ca ∂L nx n 1 − x = − =0 1− p ∂p p ( ) are ca unica solutie p = x ∈ ( 0 . xn ) n 1− xi este observata.. si prin urmare x este unicul EVM pentru p. functia de . unde x = ∑ xi . X n variabile aleatoare independente (si identic repartizate) binare cu P ( X 1 = 1) = p ∈ Θ = ( 0 . 1) (pentru x ∈ {0 . Apar situatii in care θ nu poate fi obtinut rezolvand ecuatia de verosimilitate. 1) ....

x2 .. σ 2 ) este dat de: 2 1 n 1 n ∑ xi .. Statistica matematica si biostatistica Teorema limita centrala Aplicatie: repartizate cu repartitia normala N ( μ .. xn . functia de logverosimilitate este: L (θ ) = ln l (θ ) = − 1 2σ 2 ∑(x − μ) i =1 i n 2 n n − ln σ 2 − ln ( 2π ) 2 2 dat fiind ca. Atunci probabilitatea de a gasi xi bacterii intr-o proba de volum unitate este data de repartitia Poisson: 33 . Presupunem ca bacteriile sunt dispersate la intamplare in apa raului si ca localizarile bacteriilor sunt puncte aleatoare in spatiu. iar n ≥ 2 . identic θ = (μ . σ 2 )∈Θ = × (0 . media numarului de bacterii coliform in unitatea de volum a apei raului.. X 2 .. ∞) sunt parametri necunoscuti..... ( x − μ )2 μ=x= ( ) Aplicatie: In multe teste de laborator se iau probe din apa unui rau pentru a se vedea daca apa este buna pentru inot. σ 2 ) .. Pentru o observatie ( X 1 . Numarul de bacterii coliform este determinat pentru fiecare din cele n probe din apa raului. σ 2 = n ∑ xi − x n i =1 i =1 Astfel gasim o proprietate specifica repartitiei normale: media si abaterea medie patratica ale unui esantion sunt estimatori de verosimilitate maxima (EVM-uri) pentru media si dispersia populatiei. unde Fie X 1 . S-a obtinut rezultatele x1 . gasim ca unicul punct de maxim al lui L . X n ) = ( x1 . xn ) . X 2 . x2 .....II.. in acest caz.. In particular prezinta interes concentratia in bacterii coliform a apei. Problema care se pune este de estima pe μ . − 1 2 fθ ( x ) = e 2σ σ 2π Rezolvand din nou o problema standard de extrem (pentru functia de 2 variabile L ). si deci unicul EVM pentru θ = ( μ . X n variabile aleatoare independente.

. probabilitatea celor n masuratori x1 .. M μ =M X = ( ) ( ) 34 . Observam ca 1 1 ∑ M ( X i ) = nnμ = μ n ceea ce arata ca μ = x este un estimator nedeplasat pentru μ . avem μ = x .. x! Deoarece volumele disjuncte sunt independente. xn este x n μ ∑ i e − nμ P ( x. unde xi = 0. Astfel. si 0 ≤ μ 〈 ∞ . Daca ∑x i = 0 . in fiecare caz. Probabilitatea variabilelor de selectie este maxima daca media populatiei μ este estimata prin media de selectie x . Deoarece P ( x. ceea ce indica ca avem un maxim relativ. x2 . ∂ ln P ( x.. Statistica matematica si biostatistica Teorema limita centrala . x este un maxim absolut.1. μ ) ∂μ Daca = ∑x μ 1 i − n si ∂ 2 ln P ( x.. μ ) = ∏ f ( xi ) = n i =1 ∏ xj ! j =1 f ( xi ) = μ x e− μ i Avem: ln P = ∑ xi ln μ − nμ ∂ ln P ( x. μ ) ∂μ = 0 nu are solutie si maximul se realizeaza pe frontiera spatiului parametrilor: μ = 0 . μ ) → 0 cand μ → ∞ . ecuatia ∂ ln P ( x.II.. 0 ) = 0 si P ( x. n In acest punct a doua derivata este negativa. μ ) ∂μ 2 =− 1 ∑x i 〉 0. 2. μ ) ∂μ μ2 ∑x i = 0 are solutia unica μ = 1 ∑ xi = x ..

4874 . 27 (2008)... Se numeste test al raportului de verosimilitate LR 1.II. Statistics in Medicine.. A survey of the likelihood approach to bioequivalence trials. H A : θ ∈ Θ1 unde Θ0 ∪ Θ1 = Θ si Θ0 ∩ Θ1 = Φ . ar Xiv:0901. unde: λ(X ) = supθ ∈Θ0 l (θ ) supθ ∈Θ l (θ ) 1 Choi L. Caffo B.2 (Likelihood ratio test) orice test care respinge ipoteza H 0 daca si numai daca λ ( X ) 〈 c ∈ [ 0 . Definitie: Fie X un esantion dintr-o populatie P ∈℘ = P θ ∈ Θ ⊂ θ { k }.4894 2 Zhang Z. ST) 35 .0463 (math. Rohde C. 1] . pentru care se considera urmatorul set de ipoteze : H 0 : θ ∈ Θ0 vs.. Statistica matematica si biostatistica Teorema limita centrala Observatie: Cu ajutorul functiei de verosimilitate se construieste unul dintre cele mai utilizate teste statistice pentru modele parametrice: testul raportului de verosimilitate. A law of Likelihood for composite hypotheses.

comparată cu aceeaşi perioadă a anului precedent. Exemplu Putem dori să tragem concluzii despre evoluţia rezistentei unei tulpini de germeni patologeni la un medicament dat şi.II.1. P ) în care elementele lui Ω sunt chiar elementele populaţiei. Inferenţa statistică În practică avem adesea nevoie să facem judecăţi asupra unor mari colecţii de rezultate posibile experimental ori a altor cantităţi. În astfel de cazuri. numărul indivizilor populaţiei – N. în ultimul caz.se mai numeşte şi volumul populaţiei.1. În mod 36 . iar procedeul de extrapolare a concluziilor la întreaga populaţie este cunoscut ca inferenţa statistică. numită şi teorema fundamentală a statisticii matematice. Procedeul de obţinere a probelor este numit tot selecţie. K. concluziile le extindem la scara întregii populaţii. examinăm rezultatele antibiogramelor făcute într-un eşantion de spitale întro perioadă recentă (luniile de iarnă).4. Teorema lui Leapunov. 2. dar nu putem sau este extrem de scump. TEORIA SELECŢIEI 2.4. Vom considera că o caracteristică dată a populaţiei este o variabilă aleatoare pe un câmp de probabilitate (Ω. să examinăm toate aceste date. Exemplu Rezultatele privind absorbţia unui medicament după administrarea orală prin determinarea nivelurilor din plasma ale medicamentului la un lot de voluntari sănătoşi le considerăm ca rezultate probabile pentru întreaga populaţie ce include şi potenţiali pacienţi. Deşi rezultatele obţinute se referă la spitale şi mai precis numai la o parte din ele. 2. iar P este o probabilitate cunoscută sau nu. Enumerarea valorilor observate ale caracteristicii urmărite şi a frecvenţelor lor relative defineşte repartiţia statistică a selecţiei. care justifică utilizarea metodei selecţiei stabileşte că funcţia de repartiţie statistică a caracteristicilor selecţiilor tinde la funcţia teoretică de repartiţie a caracteristicii studiate când volmul selecţiei tinde la ∞. în acest scop.1. în loc să examinăm întregul set de date pe care îl numim în cele ce urmează populaţie. alese la întâmplare. tragem concluziile după examinarea a o parte din ele. Populaţia poate fi infinită sau finită. Statistica matematica si biostatistica Teorema limita centrala 2. parte pe care o numim selecţie.4.2.4.1. Populaţii şi selecţii.

D se alcătuieşte un tabel de felul urmator Tabelul nr. şi mai multe medicamente A. în două perioade diferite. se administrează amândouă medicamentele la toţi membri lotului. în studiile de bioechivalenţă. B. alegerea indivizilor care vor primi în prima perioadă primul medicament se face în mod aleator. evident. 1: I II III IV A B D C B C A D C D B A D A C B aşa zisul pătrat “latin”. de exemplu doza din fiecare medicament. unde observăm că fiecare literă apare o singură dată în fiecare linie şi în fiecare coloană. ceea ce. Fiecare component al lotului primeşte unul din medicamente în prima perioadă şi celălalt în a doua perioadă. de exemplu I-IV. Deoarece perioada de administrare poate influenţa şi ea rezultatul experimentului. pornind de la ipoteza că modificările de biodisponibilitate asociate stărilor patologice sunt aceleaşi pentru cele două medicamente testate. În toate experimentele biologice. alcătuindu-se pătrate “greco-latine”. Deasemenea.II. Pentru populaţii finite aceasta înseamnă că fiecare membru al populaţiei are aceeaşi şansă să fie selectat. În practică. numărul de indivizi sau valori din cadrul unei probe este denumit volumul probei sau volumul eşantionului. se folosesc şi litere grecesti. În cazurile în care avem motive să credem că patologia căreia se adresează medicamentul nu afectează funcţiile metabolice şi de excreţie. această aproximare este acceptată pentru motivul că o selecţie corectă ar implica loturi mult mai mari cu cheltuieli şi timp de lucru mult crescute. în cazul în care mai intervine şi o altă variabilă. studiile de bioechivalenţă se fac tot pe voluntari sănătoşi. pentru reducerea volumului loturilor pe care se fac testările. este numai în parte adevărat. Valabilitatea concluziilor despre populaţie depinde de “reprezentativitatea” probei. Desigur că selecţia unor voluntari sănătoşi pentru determinarea parametrilor farmacocinetici ai unui medicament nu este din acest punct de vedere o selecţie reprezentativă. planificarea experimentului trebuie făcută în aşa fel încât diferenţele în tratament să nu coincidă cu diferenţe în 37 . cum se va arata mai departe. În cazul când sunt mai multe perioade. C. Statistica matematica si biostatistica Teorema limita centrala similar. când spunem că selecţia este o selecţie la întâmplare sau “selecţie aleatoare”. Se numeşte pătrat latin deoarece.

obţinem o variabilă aleatoare X asociată cu rezultatul experimentului corespunzător.. “parametri ai populaţiei”. Dacă în exemplul al doilea Xi este concentraţia de medicament în sângele bolnavului i.4. X n .N (μ . x n ale varibilelor aleatoare independente X 1 . datorită linearităţii operatorului M care defineşte media. etc.4. obţinem M X = μ X = μ adică valoarea pentru media mediei de selecţie este media ( ) populaţiei. prin abuz de limbaj. x 2 .3. la primul voluntar putem obţine o valoare x1. Parametrii acestei variabile aletoare sunt denumiţi.. Dacă la datele experimentale se adaugă o constantă.II.. 2.. femeile din lot primesc primul medicament şi bărbaţii al doilea. Dacă. În acest caz nu se poate spune dacă diferenţele obţinute se datorează tratamentului sau diferenţei de sex. Parametrii de selecţie ai unei variabile aleatoare : Dacă printr-un procedeu oarecare cuantificăm răspunsul culturilor microbiene la antibioticele din exemplul 1. Media de selecţie este o variabilă aleatoare: X + X 2 + .. aceiaşi pentru fiecare i. la o oră de la administrare. 2. şi probabilităţile ca valorile să aparţină unor intervale diferite.2. de exemplu. sau dacă luăm în consideraţie concentraţiile de medicament în sânge. n 1 i + a) ∑ kX media de selecţie Z se înmulţeşte cu aceeaşi contantă: Z = n i = kX 38 . dacă fiecare valoare se înmulţeşte cu o constanta Z i = kX i . sex. X i′ = X i + a ... n ∑ (X media de selecţie creşte cu aceeaşi constantă: W = 1 = X +a n Similar.. Statistica matematica si biostatistica Teorema limita centrala vârstă. pentru al doilea voluntar o valoare x2. se spune ca diferenţele de sex sunt “confundate” cu diferenţele de tratament. + X n X = 1 n Dacă distribuţia lui X este normală . sau alţi parametri. din al doilea exemplu. X 2 . σ ) ... În acest fel găsim valorile x1 .1.

Statistica matematica si biostatistica Teorema limita centrala 2.3. Covarianta de selecţie Covarianta de selecţie 1 n s XY = ∑ xi − X y i − Y n −1 1 ( )( ) se defineşte prin formula 39 .II. precum şi “abaterea standard a mediei” (prescurtarea SEM – standard error of mean) definită prin s raportul SEM = X n s • precum şi coeficientul de variatie v = x *100 . pentru reducerea numărului de calcule.4. formula se aduce la o altă formă şi anume: 2 2 1 1 n n n 2 sX = ⎜ ⎟ ∑1 xi − X = n − 1 ⎛ ∑1 xi2 − 2 X ∑1 xi + n X ⎞ = ⎝ ⎠ n −1 2 2 1 n = ∑1 xi2 − 2n X + n X = n −1 2 n ⎛ ⎞ 2 1 ⎛ n 2 1 ⎜ n 2 ∑1 xi ⎟ xi − n X ⎞ = xi − ⎟ ⎜∑ ∑ ⎟ ⎠ n −1⎜ 1 n −1⎝ 1 n ⎜ ⎟ ⎝ ⎠ 2 2 2 Dacă zi = kxi + a ⇒ sZ = k s X . Dispersia de selecţie Ca o măsură a abaterii datelor faţă de media de selecţie. Se mai utilizează în practică şi noţiunile: 2 1 n • Dispersia”populaţiei” = ∑1 xi − X şi respectiv n −1 • Deviaţia standard a “populaţiei”. când nu este pericol de confuzie privind variabila aleatoare la care se referă folosindu-se şi notaţia sd .4. se introduce 2 1 n 2 noţiunea de dispersie de selecţie S X = xi − X . ∑ n −1 1 În aplicaţiile practice.4. Într-adevăr 2 2 1 n 1 n 2 2 sZ = ∑1 zi − Z = n − 1 ∑1 kxi + a − k X − a = k 2 sX n −1 s X se numeşte abaterea standard de selecţie sau deviaţie standard. X ( ) ( ) ( ) ( ) ( ) ( ) ( ) 2.

5. Propoziţie Media dispersiei de selecţie este egală cu dispersia populaţiei 2 M ( sX ) = σ 2 Demonstraţie: 40 . M X = μ ( ) Demonstraţie: M ( ∑ xi ) ∑ M ( xi ) nμ = = =μ M X = n n n ( ) 2.4.4. y ) = XY = = 2 2 s X sY n n 1 1 ∑ xi − X n − 1 ∑1 yi − Y n −1 1 ( )( ) ( ) ( ) = ∑ ( x − X )( y − Y ) ∑ (x − X ) ∑ ( y −Y ) n 1 i i n 2 n 1 i 1 i 2 2.4. Statistica matematica si biostatistica Teorema limita centrala Se observă că aceasta se mai poate scrie şi sub altă formă. 1 n n n s XY = ∑1 xi yi − X ∑1 yi − Y ∑1 xi + n X Y = n −1 1 n = ∑1 xi yi − n X Y − n X Y + n X Y = n −1 n n 1 1 ⎛ n n ∑1 xi ∑1 yi ⎞ ⎜ ∑ xi yi − n X Y = n − 1 ⎜ ∑1 xi yi − n ⎟ ⎟ n −1 1 ⎝ ⎠ ( ) ( ) ( ) 2. Coeficientul de corelaţie de selecţie Coeficientul de corelaţie de selecţie se defineşte prin formula n 1 ∑1 xi − X yi − Y s n −1 ρ ( x.6. Proprietăţi ale caracteristicilor de selecţie Considerăm în continuare o selecţie de volum n dintr-o populaţie cu media μ si dispersia σ 2 2.II.6. mai utilă în sensul simplificărilor de calcul în anumite aplicaţii.1.6. Propoziţie Media mediei de selecţie este egală cu media populaţiei.2.4.

II. Statistica matematica si biostatistica Teorema limita centrala n ⎛ 1 2 M ( sX ) = M ⎜ ∑1 xi − X ⎝ n −1 2 2 1 n M ∑1 xi2 − 2n X + n X n −1 2 n ⎛ ∑1 xi ⎞ 1 ⎜ n ⎟ = M ⎜ ∑1 xi2 − ⎟ n −1 ⎜ n ⎟ ⎝ ⎠ Dar. + xn − (μ1 + μ 2 + .. Într-adevăr aplicând teorema lui Leapunov pentru variabilele aleatoare x. + σ 2 tinde către o variabilă aleatoare N (0..4.. + μ n ) σ 2 + σ 2 + ..3.1) Aceasta este o consecinţă a teoremei limită centrală şi este aplicabilă atât variabilelor continue cât şi celor discrete. când n → ∞ către o variabilă N (0.1) . = nX − nμ nσ 2 = X −μ σ n 41 . x2 ..6.. ... xn obţinem că: x1 + x2 + ... mai departe ( ) 2 ( ) 1 ⎞ M ⎟= ⎠ n −1 1 =− M n −1 ( (∑ x − n X ) = ∑ n n 1 2 i 2 x 2 − 2 X ∑1 xi + ∑1 x 1 i n n 2 )= ( ) n ( n − 1) M ( xi ) M ( x j ) = 2 = n (σ 2 + μ 2 ) + n ( n − 1) μ 2 = nσ 2 + n 2 μ 2 = ∑1 M ( xi2 ) + 2 n ( ∑ x ) = n (σ + μ ) ⎛ M ( ∑ x ) = M ⎜ ∑ x + 2∑ ⎝ M n 1 2 i 2 2 n 2 n 1 i 1 2 i n 1 i≠ j ⎞ xi x j ⎟ = ⎠ şi M (s 2 X înlocuind în n −1 expresia =σ2 lui )= n (σ 2 + μ 2 ) − σ 2 − n μ 2 2 M ( sX ) obţinem 2. Propoziţie Variabila aleatoare Z = x−μ σ n tinde .

Deci.. atunci variabila aleatoare X −μ T = este repartizată Student cu n grade de libertate..1) în conformitate cu teorema limită centrală.II. Propoziţie Dacă x1 . atunci variabila s2 aleatoare V = (n − 1 ) X2 este repartizată χ 2 (n − 1) σ Demonstraţie: V = (n − 1) 2 sX σ2 2 ∑ (x = n 1 n i −X σ2 ) = ∑ [(x n 1 i − μ)− X − μ ( )] 2 ∑ (x = n 1 i − μ ) − 2∑1 (xi − μ ) X − μ + ∑1 X − μ n ( ) σ2 = ( ) 2 ∑ (x = n 1 n i − μ ) − 2 n X − nμ X − μ + n X − μ 2 ( σ2 σ2 = )( ) ( ) 2 = 2 ⎞ ⎛ ⎟ ⎜ 2 ( xi − μ ) − n X − μ n⎛ x i − μ ⎞ ∑1 ⎜ X −μ⎟ = = ∑1 ⎜ ⎟ − σ2 ⎝ σ ⎠ ⎜ σ ⎟ ⎟ ⎜ ⎝ n ⎠ x −μ Dar variabila aleatoare i este repartizată N (0.1) . x2 .4..5. Statistica matematica si biostatistica Teorema limita centrala 2.6. s n Demonstraţie: 42 . iar ⎟= ⎟= σ σ2 ⎝ σ ⎠ ⎝ σ ⎠ σ (X − μ ) σ n este repatizată tot N (0. xn este o selecţie dintr-o populaţie normal distribuită.6. 2. Propoziţie Dacă variabila aleatoare X este normal distribuită.4.1) deoarece ( ) ⎛ x − μ ⎞ D( xi ) ⎛ x − μ ⎞ M ( xi ) − μ M⎜ i şi D⎜ i = 1 .. V este o sumă de n-1 pătrate de variabile de tip N (0.4.

Statistica matematica si biostatistica Teorema limita centrala X −μ σ X −μ σ X −μ = s n unde Z = X −μ n s = σ ∑ (x n n −X (n − 1)σ 2 1 i ) 2 = Z V n −1 σ este repartizată N (0. χ 2 (n1 − 1) χ 2 (n2 − 1) şi . σ 1 ) şi N (μ 2 . respectiv n1 − 1 n2 − 1 43 .6.4... x 22 .6. n2 − 1) Demonstraţie: Avem într-adevar F= σ 12 2 σ2 2 S2 S12 ∑ (x n1 1 = ∑ (x n2 1 (n1 − 1)σ 12 2i 1i − X1 ) 2 (n2 − 1)σ 22 − X2 ) 2 iar număratorul şi numitorul sunt repartizate..1) .3.4. conform propozitiei 2. x1n1 si x 21 . Propoziţie Date fiind două selecţii aleatoare independente x11 .5. σ 2 ) . x12 .. iar ∑ (x − X ) V = n 1 i 2 σ2 este n repartizată χ (n − 1) .II.. 2 2. T este repartizată Student cu n-1 grade de libertate.. Deci.... x n2 din populaţii normal distribuite N (μ1 . S12 variabila aleatoare F= σ 12 2 S2 2 σ2 este repartizată Fisher – Snedecor F (n1 − 1.

Evident: ⎞ α ⎛ α P⎛ x 〈 x1− α ⎞ = 1 − P⎜ x 〈 xα ⎟ = ⎜ ⎟ ⎟ 2 ⎜ 2 ⎠ ⎝ 2 2 ⎠ ⎝ ⎛ ⎞ α α P⎜ xα 〈 x 〈 x1− α ⎟ = 1 − − = 1 − α ⎜ ⎟ 2 2 2 ⎝ 2 ⎠ Pentru a estima un interval se alege 1 − α . M X = μ adică media de selecţie ( ) este un estimator nedeplasat al mediei.99) iar intervalul (θ L .3.θ U ) să fie cât mai mic. Este de dorit ca 1 − α să fie cât mai mare (de obicei este cuprins între 0. Problema estimării intervalelor se reduce la găsirea unui interval de încredere (θ L .2.3. În prealabil. Se numesc cuantile de ordin β valoarea x β a variabilei aleatoare x pentru care F (x β ) = P (x 〈 x β ) = β adică valoarea variabilei aleatoare care are la stânga ei aria β sub curba densităţii de probabilitate.9 şi 0. adică media estimaţiei este egală chiar cu () valoarea teoretică a parametrului estimat. Estimaţii Teoria estimaţiei urmăreşte evaluarea parametrilor unei repartiţii în general cunoscute.5.5. în 1− 2 2 funcţie de mărimea pentru care se caută intervalul se precizează cu care din repartiţiile cunoscute trebuie lucrat. O estimaţie este ˆ nedeplasată dacă M θ = θ .θ U ) cu un coeficient de încredere 1 − α astfel încât P(θ L 〈θ 〈θU ) = 1 − α . Valorile numerice obţinute se numesc estimaţii sau estimatori. se citesc din tabelele cuantilele. de exemplu x α şi xα şi se precizează intervalul. iar conform proprietăţii 2. M ( s 2 ) = σ 2 adică dispersia de selecţie este un estimator nedeplasat al dispersiei. Conform proprietăţii 2. cu o anumită probabilitate valoarea estimată.. ˆ Un estimator al parametrului θ se va nota cu θ .II. 44 .1. Statistica matematica si biostatistica Teorema limita centrala 2. În stabilirea intervalelor se utilizează caracteristicile numerice cuantile. Se obţin estimaţii punctuale în cazul în care se folosesc datele selecţiei pentru a obţine valorile parametrilor şi estimaţii ale intervalelor de încredere în cazul în care se determină un interval în care se află.5.

Se consideră o populaţie repartizată normal N μ . Se ( ) σ notează cu zα cuantila de ordinul α pentru repartiţia N (0.Cazul când se cunoaste dispersia. X + z1−α σ ⎟ ⎜ n n⎟ 2 2 ⎝ ⎠ 45 .θ U ) = ⎜ X − z1−α σ . Statistica matematica si biostatistica Teorema limita centrala 2. Dacă se cunoaşte X −μ dispersia se poate folosi faptul că Z = este repartizată N (0. egală cu .II. z α ⎟ este un interval de estimare cu coeficientul ⎜ ⎟ ⎝ 2 1− 2 ⎠ de încredere 1 − α .1) este simetrică faţă de axa Oy avem relaţia zα = − z α 2 1− 2 Din relaţiile −z 1− α 2 〈 Z 〈 z 1− α 2 ⇒ −z 1− α 2 〈 X −μ σ 〈 z 1− α 2 ⇒ n ⇒ −z −X − z rezultă X −z 1− 1− α 2 * * σ n 〈 X −μ 〈 z 1− α 2 * α 2 σ n * ⇒ σ n 1− α 2 〈 −μ 〈 − X +z σ n 1− σ α 2 n 〈 μ 〈 X +z σ α 2 1− n Aşadar intervalul căutat este ⎛ ⎞ (θ L .5. Din anumite puncte de vedere este recomandabil să se utilizeze acele intervale care lasă atât la dreapta cât şi la stânga lor aceeaşi α arie. Estimarea intervalelor de încredere pentru medii 2.5. Evident n ⎛ ⎞ ⎛ ⎞ ⎛ ⎞ α α P ⎜ zα 〈 Z 〈 z α ⎟ = F ⎜ z α ⎟ − F ⎜ zα ⎟ = 1 − − = 1 − α 1− 1− 2 2 ⎝ 2 ⎝ 2⎠ ⎝ 2⎠ 2 ⎠ ⎛ ⎞ Aşadar intervalul ⎜ z α . σ 2 .1.1) . 2 Deoarece repartiţia N (0.1.1) .1.

2 2 ⎟ ⎠ ⎜ ⎟ n ⎝ ⎠ sX s şi X − t 〈 μ 〈 X +t α α n −1. ⎟ n −1. σ X ) ..5. Statistica matematica si biostatistica Teorema limita centrala Mărimea E = z σ α 2 1− n poartă numele de eroare şi serveşte la calculul 2 ⎛z α ⎞ ⎜ 1− ⎟ numărului de experienţe n = ⎜ 2 ⎟ atunci când este impusă eroarea şi se ⎜ E ⎟ ⎝ ⎠ alege un coeficient 1 − α Metoda descrisă mai poate fi aplicată şi în cazul în care x nu este repartizată normal deoarece z este repartizată N (0... Conform celor arătate anterior mărimea T = T (n − 1) şi.. se obţine n −1.1− sX ⎜ n −1. 2 46 .1) indiferent de repartiţia variabilelor X 1 ..Cazul când dispersia este necunoscută Dacă nu se cunoaste dispersia în estimarea intervalelor se utilizează dispersia de selecţie care este un estimator nedeplasat al dispersiei deoarece 2 E ( sX ) = σ 2 2 Se consideră x1 .1− 2 2 2 2 ⎠ ⎝ ⎝ n −1. 2 ⎠ Deoarece repartitia Student este simetrică faţă de origine t α = −t α şi înlocuindu-l pe T în relaţia anterioară..II.1− n n 2 2 Ca urmare intervalul căutat este ⎛ P⎜t α 〈 T 〈 t α n −1.1− n −1.1− 2 ⎠ ⎝ n −1. ca urmare ⎛ ⎞ ⎛ ⎞ ⎛ ⎞ α α ⎟ ⎜ ⎟ ⎜ α ⎟ =1− − =1−α P⎜ t α 〈 T 〈 t α ⎟ = F⎜t α ⎟ − F⎜t ⎜ n −1..1− X −μ este repartizată sX n 2 n −1.1− 2 ⎝ n −1. x 2 .. X 2 .2.1. X n (teorema limită centrală). 2. x n o selecţie dintr-o populaţie de tipul N ( μ .1− 2 ⎛ ⎞ ⎜ ⎟ ⎞ X −μ = P⎜t α 〈 〈t ⎟ α ⎟ = 1−α n −1.

1− 2 1− 2 2. x 2 n2 dintr-o populaţie N (μ 2 . σ 2 cunoscute. se poate folosi aproximaţia t α = z α n −1.σ 2 .1.... x12 . σ 2 ) . x 22 .. Cazul dispersiilor σ 12 . Estimatorii nedeplasaţi ai mediilor μ1 şi μ 2 sunt: X 1 X2 ∑ = n1 1 x1i n1 si ∑ = n2 1 x2 i n2 Considerând variabila aleatoare X 1 − X 2 .II. σ 12 ) şi o 2 2.1− n n⎠ 2 sX n −1. x1n1 din populaţia N (μ1 .1− n 2 Dacă numărul de experienţe este n 〉 30 .5. variabila aleatoare X 1 − X 2 − ( μ1 − μ2 ) X 1 − X 2 − ( μ1 − μ2 ) este repartizată N(0. Mai departe.2. Z= = 2 σ 12 σ 2 D X1 − X 2 + n1 n2 ( ( ) ( ) 47 ..2. X +t ⎟ α n −1. Statistica matematica si biostatistica Teorema limita centrala (θ L ...θU ) = ⎜ X − tn−1.1−α ⎝ În acest caz eroarea este E = t α ⎛ 2 sX sX ⎞ . ( ) ( ) 2 selecţie x 21 . ea este normal repartizată iar estimaţia şi dispersia ei vor fi M ( X 1 − X 2 ) = M ( X 1 ) − M ( X 2 ) = μ1 − μ 2 şi D X1 − X 2 = D X1 + D X 2 = ( ) ( ) ( ) ) σ 12 n1 + 2 σ2 n2 unde am ţinut cont că x1i şi x 2i sunt independente.. Considerăm o selecţie aleatoare x11 . σ 12 şi 2 N μ 2 .Estimarea intervalului de încredere 1 − α pentru diferenţa a două medii Se consideră două selecţii din populaţii normal repartizate N μ1 .5.1).

5. X 1 − X 2 + z1− α σ 1 + σ 2 ⎜ n1 n2 n1 n2 2 2 ⎝ 1 (X − X2 − z ) 1− α σ 12 ( ) σ 12 σ 22 2 ( ) ( ) ⎞ ⎟ ⎟ ⎠ În acest caz. ( n1 − 1) M ( s12 ) + ( n2 − 1) M ( s22 ) ( n1 − 1) σ 12 + ( n2 − 1) σ 22 2 2 M ( sp ) = = =σ n1 + n2 − 2 n1 + n2 − 2 În continuare vom arăta că mărimea T = repartizată T (n1 + n2 − 2) (X 1 − X 2 − (μ1 − μ 2 ) este 1 1 sp + n1 n2 ) 48 . Dispersii necunoscute dar presupuse egale În cazul în care nu cunoaştem dispersiile dar ştim că sunt egale 2 2 σ 1 = σ 2 = σ 2 utilizăm dispersia ponderată de selecţie s2 = p ( n − 1) s12 + ( n2 − 1) s22 = n1 − 1 n2 − 1 2 s12 + s2 = 1 n1 + n2 − 2 ( n1 − 1) + ( n2 − 1) ( n1 − 1) + ( n2 − 1) n1 1i ∑ (x = 1 − X1 ) + ∑ (x 2 n2 1 2i − X2 ) 2 n1 + n2 − 2 ca un estimator nedeplasat pentru σ 2 . Θ2 ) = ⎜ X 1 − X 2 − z1− α σ 1 + σ 2 . P ⎜ zα 〈 Z 〈 z α 1− ⎝ 2 2 ⎞ ⎟ = 1 − α şi z α = − z1−α rezulta ⎠ 2 2 2 σ2 + 〈 μ1 − μ2 〈 X 1 − X 2 + z α + 1− n1 n2 n1 n2 2 Aşadar.2.2. 2. Avem într-adevăr. intervalul de estimaţie pentru diferenţa mediilor este 2 2 2 2 ⎛ (Θ1 .II. Statistica matematica si biostatistica Teorema limita centrala ⎛ Deoarece. eroarea este E = z 1− α 2 σ 12 n1 + 2 σ2 n2 .

1− α s p ⎜ ⎝ 1 2 ⎛ cu eroarea E = t n1 + n2 − 2 .1− α 2 sp 1 1 1 1 + 〈 μ1 − μ 2 〈 X 1 − X 2 − t + α sp n1 + n 2 − 2 .1− n1 n2 n1 n2 ⎟ 2 21 ⎠ 1 1 + . n1 + n 2 − 2.II. X1 − X 2 + t sp + + ⎟ α n + n 2 − 2 .1− α 2 rezultă că X1 − X 2 − t Deci.1− n1 n2 n1 n2 2 1 1 1 1 ⎞ .1) şi deoarece sp σX 1−X2 σ 1 1 + n1 n2 n sp s2 1 1 p + = = = σ2 n1 n2 σ ⎛ x1i − X 1 ⎞ ⎛ x − X2 ⎞ ⎜ ⎟ + ∑ n2 ⎜ 2i ⎟ 1 ⎜ ⎜ σ ⎟ ⎟ σ ⎝ ⎠ ⎝ ⎠ n1 + n2 − 2 2 2 ∑ (x n1 1 1i − X 1 + ∑1 2 x2i − X 2 2 (n1 + n2 − 2)σ 2 ) ( ) 2 ∑ = n1 1 variabila sp σX 1−X2 1 1 este de tipul + n1 n2 2 χ 2 (n1 + n 2 − 2 ) n1 + n 2 − 2 2 ⎛ x − X1 ⎞ n 2 ⎛ x2 i − X 2 ⎞ 2 ⎟ ⎜ ⎟ este Dar ∑1 ⎜ 1i ⎜ σ ⎟ este repartizat χ (n1 − 1) iar ∑1 ⎜ σ ⎟ ⎝ ⎠ ⎝ ⎠ 2 repartizat χ (n2 − 1) .1− 2 2 2 2 ⎠ ⎝ Deoarece repartiţia Student este simetrică t α = −t n1 + n2 − 2 . Θ 2 ) = ⎜ X 1 − X 2 − tn + n − 2.1− α 2 sp 49 . n1 + n 2 − 2 . n1 n2 (Θ1 . deci T este repartizat T (n1 + n2 − 2) şi n1 ⎛ ⎞ α α ⎟ P⎜ t − = 1−α α 〈T 〈 t α ⎟ = 1− ⎜ n1 + n2 − 2. Statistica matematica si biostatistica Teorema limita centrala (X Se observă că T = 1 − X 2 − (μ1 − μ2 ) σX ) 1−X2 sp σX sp 1 1 + = n1 n2 1−X2 1 1 + n1 n2 este raportul între o variabila aleatoare repartizată N(0. 2 n1 + n2 − 2 .

iar intervalul de 〈 f α 〈 α 2 s1 n1 −1. 2 σ 12 s12 n1 −1. Estimarea intervalelor de încredere pentru dispersie Considerăm o selecţie de volum n dintr-o populaţie normală N μ .4. n −1.3. 2 2 o selecţie x 21 . n −1. n2 −1. σ 12 şi ( ) s12 Conform cu cele arătate anterior. n −1. x1n1 dintr-o populaţie N μ . s22 f n −1. . Estimarea intervalului de încredere pentru raportul a două dispersii Se consideră selecţia aleatoare x11 . n2 − 1) şi deci P⎜ f − = 1−α α 〈 F〈 f α ⎟ = 1− ⎜ n1 −1.5. n 2 −1.. χ 2 α 〈 (n − 1) 2 〈 χ 2 α si 2 n −1. n 2 −1.1− 2 n −1. raportul F = σ 12 2 s2 2 σ2 este repartizat ⎛ ⎞ α α ⎟ F (n1 − 1. x 22 ..1− 2 2 ⎝ n −1. ΘU ) = ⎜ s22 f n −1. Statistica matematica si biostatistica Teorema limita centrala 2.5. Conform celor arătate anterior variabila aleatoare V = repartizată χ 2 (n − 1) şi ca urmare ( n − 1) s σ2 ( ) 2 este ⎛ ⎞ α α P ⎜ χ 2 α 〈 V 〈χ 2 α ⎟ = 1− − = 1−α n −1....II. 2. n1 −1. α . x12 . n 2 −1. x 2 n2 dintr-o populaţie N (μ 2 .. s2 Deci. 2 2 ⎠ (n − 1)s 2 〈 σ 2 〈 (n − 1)s 2 .1− α ⎟ ⎜s 1 2 ⎟ s1 1 2 2 2 ⎠ ⎝ 1 50 .1− χ χ2 α σ α 2 2 n −1. σ 2 .1− 2 2 2 2 ⎠ ⎝ 2 2 2 σ 2 s2 s Rezultă că 2 f ...1− 2 estimaţie pentru raportul dispersiilor este: 2 ⎛ 2 ⎞ (Θ L . σ 2 ) .

Westlake: Use of confidence intervals in analysis of comparative biovalability trials. Pharm. 25 R μ AUC unde indicele T se referă la medicamentul testat şi R desemnează medicamentul referinţă. X R − X T − ( μ R − μT ) este repartizată Pornind de la faptul ca T = 1 1 sp + nR nT ( ) T ( nR + nT − 2 ) se deduce un interval de încredere cu probabilitatea 1 − α XT − X R −t α 2 pentru μT − μ R 1− 〈 μT − μ R 〈 X T − X R + t 1− α 2 1 1 + . 0.J. Sci.1. iar interschimbabilitatea care necesită bioechivalenţă trebuie să se bazeze pe intravariabilitate.5. J. Statistica matematica si biostatistica Teorema limita centrala 2.5. . 1340 – 1. această estimare este puţin utilă în caz că s p reprezintă practic intervariabilitatea. Aplicaţie: Utilizarea intervalelor de încredere în studiile de comparare a biodisponibilităţii medicamentelor 3 La introducerea în terapie de către un producător a unui medicament ce reprezintă o reproducere a altui medicament deja în uz. unde am notat s = s p 3 W. 1972 51 .25.II. nR nT După cum se va arăta mai departe. se pune problema comparării biodisponibilităţii acestora.8 〈 μT AUC 〈 1. 61 (8).8 . În practică se cere ca raportul ariilor de sub curbele concentraţiilor plasmatice ale celor două medicamente să se afle in intervalul 0. Atunci însă când ariile de sub curbă prezintă variabilităţi intra şi interindividuale considerabile (determinările de biodisponiblitate se fac pe loturi de circa 10 – 20 de voluntari sănătoşi) este de preferat a se determina un interval de încredere pentru media ariei realizată de medicamentul nou.

II. în mod normal se respinge HA şi invers. Notaţii conventionale Ipoteza testată. Probabilitatea unei decizii gresite La verificarea ipotezelor se pot comite două feluri de erori: 1. Erorile de tipul 2 constau în acceptarea ipotezei H0 atunci când aceasta este falsă. Probabilitatile celor două tipuri de erori se notează de obicei cu α respectiv β: α = P (respinge H0 / H0 adevărată) β = P (acceptă H0 / H0 falsă) = P (respinge HA / HA adevărată) 53 . Erorile de tipul 1 constau în respingerea ipotezei H0 atunci când aceasta este adevărată. presupusă adevarată. Dacă se acceptă H0. suntem în cazul unei ipoteze compuse. iar dispersia este necunoscută. ipotezele se numesc “ipoteze compuse”. distribuţiile ρ ( x.θ 0 ) şi ρ (x. În acest caz. fie la legea propriu zisa de repartiţie. ipotezele H0 si HA se aleg să fie complementare. după acceptarea uneia din cele două ipoteze. Ele se referă fie la parametrii repartiţiei. Testarea necesită şi formularea unei ipoteze complementare. de exemplu H 0 : θ = θ 0 şi H A : θ = θ 1 se poate întâmpla ca toţi ceilalţi parametri ce caracterizează distribuţiile să fie cunoscuţi şi. se numeşte ipoteza nulă şi se notează H0. numită ipoteză alternativă şi notată HA. Dacă însă ceilalţi parametric nu sunt cunoscuţi complet. Teste statistice Metodele de verificare a ipotezelor se bazează pe teste statistice care constau în examinarea selecţiilor obţinute pentru o variabilă aleatoare şi a unor funcţii de elementele selecţiilor. dacă distribuţia este normală şi parametrul cautat este μ . De exemplu. Verificarea ipotezelor statistice Ipoteze statistice Ipotezele statistice sunt ipoteze asupra repartiţiei unor variabile aleatoare. Dacă testul priveşte valoarea unui parametru θ .6.θ 1 ) devin complet definite. ipotezele sunt numite “simple”. 2. Statistica matematica si biostatistica Verificarea ipotezelor statistice 2. Din acest motiv.

este de preferat a alege α între 0. Desigur că este de dorit ca valorile α şi β să fie cât mai mici. Metodologia de verificare cuprinde în principiu următoarele etape: 1. 3. în funcţie de rezultat. Valoarea lui α se alege şi în funcţie de importanţa implicaţiilor acceptării sau respingerii ipotezelor testate. Ipoteze asupra mediei 2. 4. Dacă însă este vorba de un medicament foarte activ cum ar fi digoxina.05 este considerat ca bun pentru majoritatea problemelor din practică. o repartiţie pentru populaţia statistică din care se face selectia. 2. Probabilitatea de a respinge ipoteza H0 atunci când aceasta este falsă π = 1 − β se numeşte puterea testului. respectiv respingere.01 si 0. Statistica matematica si biostatistica Verificarea ipotezelor statistice Deci. se acceptă sau se respinge.6. Coeficientul α este numit şi nivel de semnificaţie.1. σ 2 . ipoteza H0.Dispersia cunoscută Se consideră o selecţia dintr-o populaţie normală N μ .II. se calculează valoarea testului ales şi se compară cu limitele de acceptare. pe baza unor teste anterioare sau pe baza structurii fenomenului studiat. Pentru a verifica o ipoteză se folosesc datele de selecţie pentru calcularea unui test statistic. Considerăm ( ) variabila aleatoare X . Domeniul de valori ale testului care corespunde respingerii ipotezei H0 cu probabilitatea α se numeşte regiune critică.05. se formulează ipoteza. De exemplu. α este riscul de a respinge în mod greşit H0 şi β este riscul de a respinge în mod greşit HA.1. ( ) ⎛ ∑n xi În aceste condiţii se obţine D ⎜ 1 ⎜ n ⎝ 2 ⎞ ⎟= ⎟ ⎠ ∑ D ( x ) = nσ n 2 1 i 2 n2 n2 = σ2 n 54 . un coeficient de 0.6. se presupune. 2.1. Datorită linearităţii operatorului de mediere avem: ⎛ ∑ n xi ⎞ ⎛ ∑ nM ( xi ) ⎞ nμ ⎟= M X = M⎜ 1 ⎟ = ⎜ 1 =μ ⎟ ⎜ n ⎟ ⎜ n n ⎠ ⎝ ⎠ ⎝ Pentru dispersia lui X ţinem cont că D 2 (ax + b ) = a 2 D 2 ( x ) şi că rezultatele xi reprezintă variabile aleatoare independente 2 2 2 D (xi + x j ) = D ( xi ) + D (x j ) .

variabila aleatoare X −E X X −μ = este repartizata N (0.Dispersia necunoscută În acest caz se înlocuieşte în formula anterioară σ cu estimaţia sa X −μ s X şi se ţine cont că variabila aleatoare T = este repartizată Student sX n cu n-1 grade de libertate. ipotezele şi criteriile de acceptare sau respingere conform cu tabelul de mai jos: ( ) ( ) Tabelul nr.II.2.1.6. 55 . Statistica matematica si biostatistica Verificarea ipotezelor statistice Ca urmare a teoremei limită centrală.1) . 2: H0 μ = μ0 HA μ ≠ μ0 Regiunea critică Z〉z 1− α 2 Z 〈− z 1− α 2 μ = μ0 μ〉μ0 Z 〉 z1−α μ = μ0 μ 〈μ 0 Z 〈− z1−α 2. dacă vom alege un risc α . σ DX n Avem în acest caz.

6.Cazul când se cunosc dispersiile 2 Se consideră două populaţii normale N μ1 . σ 12 şi o selecţie aleatoare ( 2 x 21 . media lui d va fi zero: E d = 0 . σ 12 şi N μ 2 .2.2.Cazul dispersiilor necunoscute.6. După cum s-a arătat anterior. În cazul în care selecţiile aparţin la aceiaşi populaţie.. σ 2 .Cazul observaţiilor perechi In cazul când observaţiile formează în mod natural perechi.. ( ) ( ) ) ( ) Variabila aleatoare X 1 − X − ( μ1 − μ 2 ) X 1 − X 2 − ( μ1 − μ 2 ) este. Ipoteze asupra diferenţelor a două medii 2.6. x1n1 din populaţia N μ1 ..2.2. dar presupuse egale În cazul în care nu cunoaştem dispersiile dar ştim că sunt egale σ 12 = σ 22 = σ 2 utilizăm dispersia ponderată de selecţie s 2 p (n − 1)s12 + (n2 − 1)s22 = 1 n1 + n2 − 2 ∑ (x = n1 1 2 1i − X 1 + ∑1 2 ( x2i − X ) 2 n ) 2 n1 + n2 − 2 ca un estimator nedeplasat pentru σ .. () 56 .II. dupa cum s-a Z= = 2 σ 12 σ 2 D X1 − X 2 + n1 n2 aratat anterior. mărimea Tn1 + n2 − 2 = (X 1 − X 2 − ( μ1 − μ2 ) sp 1 1 + n1 n2 ) este repartizată T (n1 + n2 − 2) 2. cum ar fi de exemplu când se măsoară concentraţiile în n probe. repartizată N(0. ( ( ) ) ( ) 2. x 2 n2 din populaţia N μ 2 .6. o selecţie aleatoare din x11 .1..2. în două perioade diferite.3. Considerăm în acest caz variabila aleatoare d = X 1 − X 2 .... fiecare din ele cu două metode diferite sau cazul când două medicamente se administrează unui aceluiaşi lot de voluntari.1). Statistica matematica si biostatistica Verificarea ipotezelor statistice 2. x12 . σ 2 . x 22 .

1) . de volum n1 şi respectiv n 2 presupunem că s-a obţinut răspuns “pozitiv” de k1 şi respectiv k 2 ori. k Fie hi = i . etc. Deoarece avem.6. 2. numărul de rezultate k de un anumit tip în n repetări ale experimentului este o variabilă aleatoare repartizată binomial. D(k ) npq pq n Fie două populaţii de tip “urna Poisson cu bile albe şi bile negre”. de exemplu vindecare sau nevindecare. variabila aleatoare standardizată k −p k − E (k ) k − np n z= = = se aproximează ca fiind normal repartizată. este cont că variabila aleatoare sd n repartizată Student cu n-1 grade de libertate.4. variabila ni aleatoare h1 − h2 va fi distribuită cu media 0 şi dispersia D(h1 − h2 ) = ⎛1 p1 (1 − p1 ) p 2 (1 − p 2 ) 1⎞ + = p(1 − p )⎜ − ⎟ ⎜n n ⎟ n1 n2 2 ⎠ ⎝ 1 57 .2 .2. Compararea proporţiilor Dacă vom considera un experiment în care răspunsul este de tip da sau nu. i = 1. În cazul ipotezei nule H 0 : p1 = p 2 = p . după cum s-a calculat anterior E (k ) = np şi D(k ) = npq .. În două selecţii din cele două populaţii. cu parametrii (probabilitatea bilei albe) p1 şi respectiv p 2 . supravieţuire sau moarte.II. Când nu se cunosc dispersiile se folosesc dispersiile de selecţie şi se ţine d după cum se poate arăta uşor. Statistica matematica si biostatistica Verificarea ipotezelor statistice Când se cunosc dispersiile avem D d = σ = 2 d () σ 12 n + 2 σ2 n şi variabila aleatoare d σd este repartizată N (0.

3. dintr-o populaţie şi o selecţie aleatoare x 21 . 2 s2 58 .. σ 2 .II.. n1 + n2 O îmbunătăţire a aproximării se poate obţine prin introducerea unor ⎛ 1 ⎞ ⎛ 1 ⎞ ⎜ h1 − ⎟ − ⎜ h2 − ⎟ 2n1 ⎠ ⎝ 2n2 ⎠ “corecţii de continuitate” pentru h1 şi h2 : Z = ⎝ ⎛1 1⎞ p (1 − p ) ⎜ + ⎟ ⎝ n1 n2 ⎠ O estimare naturală a lui p este p = 2..6. n2 − 1) ... x1n1 2 1 2 2 ( n − 1) s σ2 ( ) 2 este N (μ 2 . Estimarea dispersiei Considerăm o selecţie de volum n dintr-o populaţie normală N μ . x 22 . raportul F = σ 12 2 s2 2 σ2 este repartizat F (n1 − 1. Conform celor arătate anterior variabila aleatoare V = repartizată χ 2 (n − 1) . Se calculează F = s12 2 luându-se s12 〉 s2 .1. x 2 n2 dintr-o populaţie s12 Conform cu cele arătate anterior. k1 + k 2 . x12 ..Estimarea raportului a două dispersii Se consideră selecţia aleatoare x11 . σ N (μ1 . σ ) ).6. Statistica matematica si biostatistica Verificarea ipotezelor statistice În aceste h1 − h2 condiţii se aproximează că variabila aleatoare ⎛1 1⎞ p (1 − p )⎜ + ⎟ ⎜n n ⎟ 2 ⎠ ⎝ 1 va fi repartizată N (0.1) ... 2.3.

. n2 .6.Compararea mai multor dispersii.... σ m pe baza unor selecţii de volume n1 .1) căci E ⎜ i = 0 şi Dar i ⎟= σ σ ⎝ σ ⎠ ⎛x −μ⎞ D2⎜ i ⎟ =1 ⎝ σ ⎠ Deci v este o sumă de n-1 pătrate de variabile de tip N(0.. = nk = n . atunci se calculeaza valoarea G max = ∑s 2 s max k 2 1 i care se compară cu o valoare maximă admisă pentru acceptarea ipotezei nule.II...1)...2. Statistica matematica si biostatistica Verificarea ipotezelor statistice (n − 1)s 2 v= σ2 i ∑ (x = n 1 2 i −X ∑ (x = n 1 − μ ) − 2 X − μ n X − nμ + n X − μ ( σ2 ) = ∑ [(x − μ ) − (X − μ )] 2 n 1 i 2 )( ) ) ( σ2 = ) 2 σ2 = 2 ⎛ ⎞ n ⎜ ⎟ 2 (xi − μ )2 − n X − μ n⎛ xi − μ ⎞ ∑1 ⎜X −μ⎟ = = ∑1 ⎜ ⎟ − σ2 ⎝ σ ⎠ ⎜ σ ⎟ ⎜ ⎟ ⎝ n ⎠ x −μ ⎛ x − μ ⎞ E ( xi ) − μ este repartizat N(0. ( 2.303 k ln s 2 − ∑ k i ln s i2 = ln ( ) este repartizată χ 2 (m − 1) ... k = ∑ k i şi s dispersia ponderată a întregului set de date... (s ) ∑ (s ) 2 k m 1 2 ki i b) Testul rapid Cochran pentru selecţii de acelaşi volum Daca selectiile considerate au acelasi volum n1 = n2 = . Se pune problema verificării ipotezei privind egalitatea acestor dispersii 2 2 H 0 : σ 12 = σ 2 = . s 2 . unde k i = ni − 1 ... s m pentru dispersiile σ 1 . In formula de mai sus avem: 59 . a) Testul Bartlett pentru verificarea omogenităţii dispersiilor Fie m estimări independente s1 .. = σ m În acest caz Bartlet a arătat că variabila aleatoare 2. σ 2 . nm .3.

Statistica matematica si biostatistica Verificarea ipotezelor statistice tabelele Cochran la perechea (k . o atenţia deosebită 2 1 n 2 ∑ xij − xi si s max = max 1≤i≤k si2 n − 1 j =1 Ipoteza H 0 se respinge daca Gmax 〉 c(α ) unde c(α ) se gaseste din si2 = ( ) 60 . Deoarece acesta este poate cel mai utilizat în analiza medicamentelor. în funcţie de valoarea medie a conţinutului pentru cele 10 comprimate şi variabilitatea celor 10 valori. numit şi testul Student. În acest caz aplicarea testului t în verificarea ipotezei asupra mediei. vom face câteva consideraţii asupra aplicării practice a acestuia. Dacă. Deoarece rezultatele provin din testarea unor eşantioane reduse. apar rezultate diferite acolo unde ne aşteptăm ca acestea să fie egale.000. asumându-ne un risc mai mare sau mai mic. diferenţele constatate în practică sunt “semnificative” sau nu. 2. putem spune. nu putem fi niciodată siguri în ceea ce priveşte parametrii întregii populaţii. dozăm cantitatea de substanţă activă din 10 comprimate care provin dintr-o şarjă de 1. de exemplu. Totuşi. la compararea rezultatului determinărilor analitice cu valoare impusă de standardul de control asupra medicamentului precum şi în multe alte situaţii. numite în experimentele cu medicamente “grupuri paralele”.II. este imediată. n − 1) grade de libertate si la probabilitatea P(Gmax 〈 c(α ))= 1 − α . Aplicaţie: Utilizarea testului t în analiza comparativă a medicamentelor În compararea mediilor am utilizat testul t. aşa cum s-a arătat mai sus. Ne punem întotdeauna problema dacă.3. asumându-ne un anumit risc. La compararea mediilor a două selecţii independente.000 de comprimate. trebuie să luăm decizii. La compararea efectului a două medicamente. c) Testul Hartley Daca selectiile au acelasi volum se poate aplica pentru k ≤ 12 testul max si2 H calc = min si2 iar ipoteza H 0 se respinge daca H calc〉 H (α ) unde H (α ) se gaseste din tabelele Hartley la probabilitatea P(H max 〈 H (α ))= 1 − α .3. că valoarea medie a concentraţiei în substanţa activă pentru tot lotul este cea declarată.6. alegerea celor 10 comprimate se presupune că s-a făcut aleator şi ele reprezintă un eşantion reprezentativ pentru întreaga şarjă. Problema este dacă.

de regulă decât intervariabilitatea. Testul pereche oferă apoi avantajul că lotul poate fi mai mic. În experimentul pereche apare “intravariabilitatea”. Statistica matematica si biostatistica Verificarea ipotezelor statistice trebuie acordată verificării independenţei efective a acestora. în cazul medicamentelor cu timp de înjumătăţire mare cum ar fi de exemplu piroxicamul. Când dozăm cantitatea de substanţă activă din comprimate sau determinăm timpul de dizolvare. in cazul clomifenului sau al penicilinei retard fiind nevoie de perioada intre cele doua administrari. În experimentul pereche numai 10 subiecţi pot primi în prima administrare un medicament şi în a doua perioadă al doilea medicament. defavoriza un grup în lupta animalelor pentru hrană şi adaugă efecte suplimentare asupra rezultatelor finale ale testului. poate duce la o îmbunătăţire a stării de sănătate a acestora şi la o modificare considerabilă a răspunsului la al doilea tratament. aşa numita “intervariabilitate”. un caz foarte frecvent în testările comparative ale efectelor sau nivelelor plasmatice ale medicamentelor. în experimentul pe grupe paralele. în cazul că experimentele se fac pe pacienţi. În experimentul pe grupe paralele. În aceste situaţii se prelungeşte destul de mult timpul pentru definitivarea studiului. este acela al observaţiilor pereche. când lotul de subiecţi trataţi se constituie ca propriul martor. medicamentul poate favoriza sau din contra. Desigur că acestă cuplare nu este întotdeauna posibilă. de exemplu două loturi de 10 subiecţi primesc două medicamente diferite. Acestea oferă unele avantaje asupra experimentului pe grupuri paralele. efectul primului medicament. testul pereche oferă avantajul unei variabilităţi mai mici. variabilitatea rezultă din diferenţele de răspuns la medicament între cele două grupuri. intervariabilitatea include şi intravariabilitatea şi deci nu poate fi mai mică decât aceasta. De exemplu la testarea efectelor unui medicament asupra unui grup de pacienţi în comparaţie cu un alt grup ce se numeşte placebo. În primul rând. acestea sunt consumate în timpul testării. Din aceste motive. variabilitatea în răspunsul aceluiaşi subiect la două tratamente diferite şi avem motive să presupunem că aceasta este mai mică. de mai multe luni. Teoretic. Deasemenea. trebuie avut în vedere că pacienţii să nu se influenteze ca urmare a discuţiilor între ei. Trebuie menţionat că testul pereche prezintă dezavantajul că între cele două tratamente trebuie să existe o perioada destul de lungă pentru ca primul medicament administrat să se elimine din organism care. Dacă loturile sunt de animale ce trăiesc în aceiaşi cuşcă. 61 .II. În sfârşit. depăşeşte 30 de zile.

.

înlocuiesc valorile variabilei cantitative observate cu rangurile lor. 63 . dacă vom considera mediile. tehnicile statistice care se ocupă de variabilele continue se bazează pe ipoteza că variabila aleatoare are o distribuţie normală de bază. Ipoteza nu este atât de restrictivă. o cale alternativă este să aplicăm teste care nu necesită ipoteze despre tipul de distributie. De regulă. dar sunt mai puţin eficiente. cu cât creşte volumul probelor. aproximativ normal distribuită. Teste neparametrice Testul t pentru compararea mediilor depinde. deoarece de multe ori este posibil să o modificăm astfel încât să obţinem alta. numite şi teste de rang. Pentru cazurile când nu stim distribuţia variabilei. distribuţia mediei probelor se aproprie cu atât mai mult de distribuţia normală. Testele independente de distributie. Suplimentar. In acelasi timp este de retinut ca testele neparametrice nu sunt un paraceu universal: aplicarea lor este posibila atunci cand sunt continue si independente. în concordanţă cu teorema limită centrală. ca o concluzie practică. de ipoteza că cele două populaţii sunt distribuite aproximativ normal şi că dispersiile sunt practic egale. erorile se datorează mai curând lipsei de constanţă a dispersiei sau lipsei de independenţă a variabilelor decât deviaţiilor de la normalitate. în special pentru selecţiile de volum mic.II. Statistica matematica si biostatistica Teste neparametrice 2.7. Testele neparametrice sunt valabile şi pentru variabile normal distribuite. pentru acelaşi prag de semnificaţie fiind necesare eşantioane mai mari decât pentru testele parametrice. Şi astfel.

. x N −n+ 2 .1. xn+1 ) ... xn−1 . xn ) (x1 . Statistica matematica si biostatistica Teste neparametrice 2. . x N . Dacă presupunem că toate elementele au aceeaşi 1 probabilitate . x 2 . presupunem că fiecare 1 probă are aceeaşi probabilitate de a fi selectată. n . putem calcula media şi dispersia populaţiei: N 1 N N (1) μ = E ( X ) = ∑1 xi pi = ∑1 xi N şi (2) σ 2 = D( X ) = E (X 2 ) − (E ( X ))2 = ∑1 xi2 pi − N 2 1 N 2 1 N ∑1 xi − N 2 ∑1 xi = N 1 ⎞ N 2 2 N −1 N 2 ⎛1 = ⎜ − 2 ⎟∑1 xi2 − 2 ∑ xi x j = xi − 2 2 ∑1 N i≠ j N N ⎝N N ⎠ = ( ) (∑ N 1 xi pi ) 2 = ∑x x i≠ j i j Multimea tuturor selecţiilor posibile de mărimea n din populaţie va include: (x1 . Să considerăm o populaţie finită de N elemente. Există n C N căi de a alege o astfel de probă. CN 1 n Să considerăm media selecţiei j: X j = ∑ x ji şi să considerăm n i =1 variabila aleatoare X = X j ( ) n j =1. Media şi dispersia eşantioanelor dintr-o populaţie finită. xn−1 .. x2 ... x2 ........ .. C N Valoarea medie a variabilei X este 64 ..7.. (x N −n+1 . x N ) Aceste probe sunt formate prin alegerea a n elemente din N. Încă o dată.II. la care asociem numerele x1 .

. + xN ) ⎢ n N − n +1 ⎥ ⎣ ⎦ Acum să considerăm de câte ori intră în sumă orice xi particular. să spunem x1 ... Statistica matematica si biostatistica Teste neparametrice 1 E X = ∑ X j pj = n CN j =1 ( ) n CN ∑X j =1 n CN j = ⎡1 (x1 + x2 + . Vor fi deci C N−11 probe conţinând x1 şi la fel se aplică − − pentru fiecare xi .. Probele care conţin x1 se obţin prin selectarea a (n-1) alte elemente din populaţia disponibilă de (N-1) elemente şi. putem scrie 65 ... Pentru calcularea dispersiei folosim identitatea ( ) ( ) − ( E ( X )) Să considerăm E (X ) = ∑ X p (4) D X = E X ( ) 2 2 2 n CN 2 j j =1 j 1 = n CN 2 ∑X j =1 n CN 2 j Mai departe ⎡1 ⎤ ⎡1 ⎤ ∑ X = ⎢ n (x1 + x2 + .. + xN )⎥ ⎣ ⎦ ⎣ ⎦ j =1 Când ridicăm la pătrat fiecare termen... + ⎢ n (xN − n +1 + xN − n + 2 + . + xn −1 + xn +1 ) + ⎤ ⎥ 1 ⎢n n = n ⎢ ⎥ CN ⎢ 1 ⎥ (x + xN − n + 2 + ... + x N ) + .. Astfel − n CN 2 (5) ∑ X j = j =1 n CN 1 n −1 2 2 2 C N −1 (x1 + x 2 + . fiecare xi va deveni x i2 şi. n2 Ridicarea la pătrat a sumei dă deasemenea termeni de forma x i x j şi 2 n fiecare termen va apare de C N− 22 . + xn −1 + xn )⎥ + . 2 j n după cum vedem.. − În consecinţă..II. aceasta se poate n n face în C N−11 moduri. + xn −1 + xn ) + 1 (x1 + x2 + .. (N − 1)! = N C n −1 N! N n CN = = N −1 n!( N − n )! n (n − 1)!( N − n )! n În consecinţă 1 ⎛1 n N ⎞ 1 N (3) E X = n ⎜ C N−1 ∑1 xi ⎟ = ∑1 xi = μ −1 CN ⎝ n ⎠ N ceea ce înseamnă că media mediei probei este egală cu media populaţiei.. fiecare xi apare de C N−11 ori.

... astfel încât σ2 N −n n N −1 = (10) D X = ( ) σ2 ⎛ n −1 ⎞ ⎜1 − ⎟ n ⎝ N −1 ⎠ 66 .. + x N + − ⎜C n ⎟ N ⎠ ⎝ N (8) ⎛ 1 2 n 2 ⎞ + ⎜ n 2 C N− 22 − 2 ⎟( x1 x 2 + . Statistica matematica si biostatistica Teste neparametrice (6) 1 n CN ∑X j =1 n CN 2 j = 1 ⎡ 1 n −1 2 2 n ⎤ 2 2 C N −1 x1 + x2 + .. + x x )⎫ ⎨ 1 2 N 1 2 N −1 N ⎬ n( N − 1) ⎩ N 2 N2 ⎭ 2 Partea din { } este exact σ . + xN −1 xN )⎥ − n ⎢ 2 CN ⎣ n n ⎦ ( ) Pentru a înlocui în (4) punem E X (7) ( ( )) 2 în forma: 2 ⎡1 ⎤ = ⎢ ( x1 + x 2 + ..... + x 2 ) − 2 (x x + . + x N −1 x N ) = 1 + N2 N2 Substituind (6) şi (7) în (4) . + xN + 2 CN− 22 ( x1 x2 + ..... + x N −1 + x N )⎥ = ⎣N ⎦ 2 2 2 x + x 2 + .II. + x n 2( x1 x 2 + . obţinem: (9) D X = 2 2 Coeficientul lui (x12 + x 2 + ... + x N −1 x N ) − ⎜C n N ⎟ ⎝ N ⎠ 2 (E (X )) ( ) ( ) şi coeficientul lui (x1 x 2 + ..... obţinem: ⎛ 1 1 n 1 ⎞ 2 2 D X = ⎜ n 2 C N−11 − 2 ⎟ x12 + x 2 + . + x N ) se poate scrie ca 1 1 n −1 1 1 1 n −1 1 1 1 N −n C N −1 − 2 = C N −1 − 2 = − 2 = = n 2 2 CN n N N nN N nN 2 n −1 N n C N −1 n N − n N −1 = n ( N − 1) N 2 ( ) (N − n ) ⎧ N − 1 (x 2 + x 2 + . + x N −1 x N ) este 1 2 n−2 2 2(n − 1) 2 2 N −n C N −2 − 2 = − 2 =− 2 2 N (N − 1) n nN ( N − 1) N N N n( N − 1) n C N− 22 − n(n − 1) Apoi substituind aceste rezultate în (8)....

4 7 39. Să presupunem că o probă este de mărime n şi alta de mărime N-n. Numărul total de moduri de grupare a rangurilor este C N .2.1947 67 .04 8 Privind rezultatele în a treia zi de tratament la proba de mărime n.. selectia (1.II.8 1 28.4 5 PM 32.2 6 BL 22.4 rangurile 4 IA 25. . De exemplu. Statistica matematica si biostatistica Teste neparametrice Observam ca avem aparent o contradictie cu regula: ⎛ ∑ xi ⎞ 1 nσ 2 σ 2 D X = D⎜ ⎜ n ⎟ = n 2 ∑ D ( xi ) = n 2 = n ⎟ ⎝ ⎠ In fapt.7 2 DP 48. de exemplu. in aceasta regula X este media unui experiment repetat de n ori.1.180-83.. toate elementele selectate fiind distincte. extragerea consecutive. Rangurile sunt repartizate la valorile din selecţii în ordinea creşterii mărimii fără să ţină cont de probele cărora le aparţin.7. Biometrics Bul. Testul presupune că orice combinaţie de ranguri în aceste două grupuri este n egal probabilă. Testul de rang Wilcoxon Este de notat că dacă N → ∞ .1 3 31. sau pentru experimentul de tip extracţie din urnă cu întoarcerea bilelor extrase în urnă.Wilcoxon: Individual comparisons by ranking methods. Tabelul 3. pe cand X de mai sus semnifica extragerea a n bile dintr-odata. Testul înlocuieşte observaţiile prin rangurile lor. atunci dispersia lui X → σ2 Testul de rang Wilcoxon 1 este un test cu ipoteza nulă că două populaţii sunt identice.1) nu este posibila in cazul nostru si altfel nici o repetare. una cate una a n bile.2 10 MC 23.3 rangurile 9 a-3-a zi 25. Voluntar CE Prima zi 33. fată de ipoteza alternativă că ele diferă printr-o translaţie lineară. suma rangurilor este 4+6+5+10=25.. Combinaţiile de ranguri pentru care 1 F. forma n ei obişnuită pentru o populaţie infinită. ( ) . 2. .33 11 SL 33.m. Consideram urmatorul exemplu Nivelele plasmatice maxime ale ionului EDTA 4− după administrare i.

.2. 1+2+3+5=11. 1+2+3+6=13.In cazul nostru N xi sunt rangurile de N valori însemnând numerele 1.. n cu n1 si N–n cu n2 obtinandu-se: 68 N +1 2 va fi (N + 1)(N − n ) 12n R− . Pentru exemplul nostru găsim în tabele.N.. valoarea medie a lui R este E R = ∑1 xi . pentru α = 0. N şi riscul asumat. Statistica matematica si biostatistica Teste neparametrice putem obţine o sumă a rangurilor mai mică decât aceasta. Fie R suma rangurilor şi R media rangurilor probei de mărime n. 1+2+3+8=15 etc. n1 = 4 şi n2 = 7 intervalul 11 – 25. pentru un n = 4 dat sunt 1+2+3+4=10. + N ) = ⇒ER = N N N 2 2 2 Calculul lui σ dă: 2 1 N 1 N σ 2 = D( X ) = E (X 2 ) − (E ( X ))2 = ∑1 xi2 − 2 ∑1 xi = N N () () () ( ) = 1 N ∑ N 2 1 i − 1 N2 (∑ i ) N 1 2 = 1 N ( N + 1)(2 N + 1) 1 ⎛ N ( N + 1) ⎞ N 2 −1 − 2⎜ = ⎟ 6 2 12 N N ⎝ ⎠ 2 Dispersia lui R se obţine prin înlocuirea lui σ în (10) σ2 ⎛ n − 1 ⎞ N 2 − 1 N − n ( N + 1)(N − n ) = (11) D R = ⎜1 − ⎟= n ⎝ N −1⎠ 12n N − 1 12n () În concluzie. 1+2+3+7=14. Sunt disponibile tabelele care dau limitele de acceptare a ipotezei H 0 pentru suma obţinută. În consecinţă 1 1 1 N ( N + 1) N +1 N E R = ∑1 xi = (1 + 2 + .II. variabila aleatoare R−E R ( )= D (R ) repartizată aproximativ N (0. 1 N Conform (1). ca o funcţie de n. astfel încât vom folosi faptul că media rangurilor unei probe este distribuită aproximativ normal cu parametri care sunt calculati în continuare.….05 . După cum se poate vedea nu este uşor să calculăm toate posibilităţile. Intr – o notatie alternativa N poate fi notat cu n1 + n2 .1) .

N = 11. Se amplifica cu n1 .583-621. 25 In exemplul nostru n = 4.1952 69 . 0. R = 25. distribuţia de probabilitate a sumei rangurilor pozitive R se poate calcula direct.) pentru R se găsesc în tabele.Allen Wallis: Use of ranks in one-criterion analysis of variance.47.19 7 ( N + 1)( N − n ) (11 + 1)(11 − 4 ) 4 12n 12* 4 Valoarea obţinută ne asigură că nu apare o acumulare a EDTA la orice nivel de risc α din cele uzual utilizate. 25 2 2 Z= = = = 0. R = = 6.25 şi 4 N +1 11 + 1 R− 6. Intervalele de încredere cu diverse probabilităţi (0. etc. W.Kruskal. Am. 25 − 0. 2n În literatura medicală şi biologică testul se mai numeşte Mann – Whitney şi se utilizează notaţiile n = n1 şi N − n = n2 ( n1 ≤ n2 )..II. Când cel puţin unul din numerele n1 şi n 2 sunt mai mici decât 10.95.H. Dacă facem corecţia pentru continuitate R− obtine Rn1 = R si 2 W. J.02 prin aducerea lui R mai aproape de media 1 lui cu . Statistica matematica si biostatistica Teste neparametrice Z= R− n1 + n2 + 1 2 n1 + n2 + 1) n2 ( 12n1 Se mai utilizeaza si alta forma a formulei. Stat. se n1 ( n1 + n2 + 1) 2 Z= ( n1 + n2 + 1) n1n2 12 Kruskal si Wallis 2 au observat ca aproximaţia este îmbunătăţită când valoarea α este mai mare de 0.99. Assoc.

..375 = 0.. 285 Z= 7 ( N + 1)( N − n ) (11 + 1)(11 − 4 ) 4 12n 12* 4 concluzia nu se schimba. + ( m + k ) 2 2 ⎡ ( k + 1) ⎤ = − k ⎢m + ⎥ 2 ⎦ ⎣ 2 2 2 2 k ( k + 1) = km + 2 (1 + 2 + ..7.. + x N ) este astfel redusă prin ( m + 1) + ( m + 2 ) 2 2 2 + .. 25 − + 2 2n = 2 8 = 0.3.II. + (m + k ) = k +1 2 = m+ 2 k k 2 2 2 Suma pătratelor (x1 + x 2 + . o alternativă pentru neglijarea lor este de a repartiza la aceste observaţii media rangurilor pe care le-ar fi primit dacă nu erau egale. R− 2.. Ajustarea pentru valori egale în testul Wilcoxon Dacă apar egalităţi.. + k ) − km − km ( k + 1) − 4 2 2 N ( N + 1)(2 N + 1) − T − 3 N ( N + 1) = = 12 N N ( N + 1)(4 N + 2 − 3 N − 3) − T N N 2 − 1 − T = = 12 N 12 N 2 N ( N − 1) − T N − n şi D R = 12nN N −1 2 k ( k + 1) k ( k + 1)( 2k + 1) k ( k + 1) =2 − k ( k + 1) m − = m+ 2 6 4 k ( k + 1) ( k − 1) k ( k + 1) = T = ( 4k + 2 − 3k − 3) = 12 12 12 Suma rangurilor rămâne neschimbată. + k ) m + (1 + 2 + . …. Statistica matematica si biostatistica Teste neparametrice N +1 1 11 + 1 1 + 6. Numerele întregi m+1.. m+k sunt înlocuite cu media lor. k (k + 1) km + (m + 1) + (m + 2) + . Astfel: 2 2 1 N 1 1 ⎛ N (N + 1)(2 N + 1) T ⎞ 1 ⎡ N ( N + 1) ⎤ N σ 2 = ∑1 xi2 − 2 ∑1 xi = ⎜ − ⎟− 2 ⎢ ⎥ = 6 12 ⎠ N ⎣ 2 N N N⎝ ⎦ 2 ( ) ( ) ( ) 70 . Să considerăm un grup de k egalităţi.. m+2.

Presupunem continuitatea distribuţiei de grup originală ρ (x. Statistica matematica si biostatistica Teste neparametrice 2.Testul semnelor plasmatice maxime după trei zile de tratament. Distribuţia de grup ρ (x.4. Dacă medicamentul nu se acumulează în organism. cele două seturi de concentraţii sunt selecţii ale aceleiaşi populaţii şi ρ ( xi . ∑1 z i are o distribuţie binomială cu parametrii p = şi 2 n. 1 1 sau P( y − x 〈 0 ) = P( y − x 〉 0 ) = care Avem că P ( y 〈 x ) = P( y 〉 x ) = 2 2 1 este mai departe echivalent cu P (z 〈 0 ) = P( z 〉 0) = . Aceasta implică simetria lui ρ (x. z va fi deasemenea continuă.1. Teste referitoare la perechi de observaţii 2. xi ) pentru toate perechile. astfel încât suntem în situaţia binomială de a face 1 n încercări independente. y ) poate fi diferită în fiecare încercare. probabilitatea de succes z i = 1 fiind la fiecare 2 n 1 încercare. Astfel. Astfel z va avea o 2 mediană zero. şi “intersecţiile” (cazurile xi = y i ) vor avea probabilitatea zero. y i ) = ρ ( y i .7. Fie ρ (x.7. Să definim variabila aleatoare z = y − x . însă de n 1 fiecare dată P ( z i = 1) = şi astfel distribuţia lui ∑1 z i va fi neschimbată. 2 Să considerăm nivelele plasmatice maxime xi ale unui medicament după o primă administrare la un număr de n voluntari sănătoşi şi yi nivelele 71 . Mai departe definim variabilele z i după cum urmează z i = 1 pentru z i 〉0 şi z i = 0 pentru zi 〈 0 . z i sunt independente.4. y ) . y ) faţă de linia y − x = 0 . y ) probabilitatea de apariţie a valorilor x şi y.II.

4: Voluntar Prima zi a-3-a zi CE 33.2 +6. p = ⎟ = ∑ ziCn ⎜ ⎟ ⎜1 − ⎟ = n ∑ Cn = 2 ⎠ i =k 2 i=k n ⎝2⎠ ⎝ 2⎠ ⎝ 1 n n −i 1 n−k Cn = n ∑ Cnj ∑ 2n i = k 2 j =0 În cazurile simple.9 0 IA 25.4 39.1 31. În acest caz ρ ( x′.6 1 PM 32.8 1 zi zi Avem 3 1 ⎞ 1 4− 4 1 0 1 ⎛ 4 P⎜ ∑ z i 〉 . dă pentru probabilitatea a k diferenţe pozitive i n −i 1⎞ n 1⎞ 1 n i k ⎛ n i⎛1⎞ ⎛ P⎜ ∑1 zi ≥ .4 -7. = Tabelul nr.2 +6. p = ⎟ = 4 ∑ C 4j = 4 C 4 = 4 = 0. ci deplasat spre stânga şi ′ ′ 1 P( z i 〉 0 ) = P⎛ y i − xi 〉 0 ⎞ = P⎛ y i 〉 xi ⎞〉 . pentru k şi n mici. P( z i 〉 0) nu va mai fi în mod necesar constantă şi distribuţia lui ∑z n 1 i nu va mai fi o distribuţie binomială. Sa luăm în considerare valorile nivelelor plasmatice ale ionului EDTA 4− (Tabelul3) după administrarea i. Testul semnelor. ⎜ ⎟ ⎜ ⎟ ⎝ ⎠ ⎝ ⎠ 2 Astfel.8 28. y ) nu va mai fi simetric. la patru voluntari sănătoşi. ceea ce înseamnă că fiecare xi descreşte cu o cantitate d i .4 +5.1 1 BL 22. Pentru esantioane mai mari de 20 se poate folosi aproximarea formala a distributiei binomiale: 1 1 P− − 2 2n Z= 1 1 n* * 2 2 72 . Pentru valori mai mari. această probabilitate se poate calcula direct.06 4 2 ⎠ 2 j =0 2 2 ⎝ 1 ceea ce înseamnă că putem accepta ipoteza nulă privind egalitatea constantei de eliminare în prima zi cu cea din ziua a treia. Statistica matematica si biostatistica Teste neparametrice ′ Alternativa ipotezei nule este ca în locul lui xi să avem xi = xi − d i . unde d i 〉 0 . se poate folosi aproximaţia normală.m.3 25.II.

Statistica matematica si biostatistica Teste neparametrice unde p este proportia diferentelor pozitive. Să ataşăm rangurilor i variabilele aleatoare di ce iau valorile di=1 când i este pozitiv şi di=0 când i este negativ. Numărul total de moduri de sume de ranguri ce se pot obţine este 2 N .7. Valorile egale primesc ca rang media rangurilor grupului.Testul Wilcoxon pentru observaţii perechi Wilcoxon a propus deasemenea un test pentru determinări pare în care rangurile sunt atribuite mărimii absolute a diferenţelor şi apoi se dă rangurilor semnul diferenţelor.4. Să considerăm suma rangurilor pozitive s = ∑ d i i . astfel orice rang este pozitiv sau negativ cu aceiaşi probabilitate.2. Ipoteza nulă este că distribuţia diferenţelor este simetrică faţă de zero. se foloseste insa cea mai mica valoare dintre suma rangurilor pozitive si a celor negative.II. Dar E (d i ) = 1 ∗ 1 1 1 N ( N + 1) N 1 + 0 ∗ = şi E (s ) = ∑1 i = 2 2 2 2 4 2 ⎛ N ⎞ N E ( s 2 ) = E ∑1 idi = E ⎜ ∑1 i 2 di2 + 2∑ ijdi d j ⎟ = i≠ j ⎝ ⎠ Media ei va fi E (s ) = E ∑1 d i i = ∑1 iE (d i ) N N ( ) ( ) = ∑1 i 2 E ( di2 ) + 2∑ ijE ( di d j ) N i≠ j 1 1 1 + 0 2 ∗ = si 2 2 2 1 1 1 1 1 E (d i d j ) = 0 ∗ 0 ∗ + 0 ∗ 1 * + 1 * 0 * + 1 * 1 * = 4 4 4 4 4 În consecinţă 1 N 1 1 N 1 N 2 N E (s 2 ) = ∑1 i 2 + ∑ 2ij = ∑1 i 2 + ⎡ ∑1 i − ∑1 i 2 ⎤ ⎢ ⎥ ⎦ 2 4 i≠ j 2 4⎣ Acum putem calcula dispersia lui s 2 N ⎤ 1 ⎛ N ⎞2 1 N 2 1 ⎡⎛ N ⎞ 2 2 2 D(s ) = E s − (E (s )) = ∑1 i + ⎢⎜ ∑ i ⎟ − ∑ i ⎥ − ⎜ ∑ i ⎟ = 2 4 ⎢⎝ 1 ⎠ 1 ⎥ 4⎝ 1 ⎠ ⎣ ⎦ N 1 N ( N + 1)(2 N + 1) = ∑ i2 = 4 1 24 Însă E (d i2 ) = 12 ∗ ( ) ( ) 73 . 2.

Krusskal – Wallis.Am.II.1 31. Tabelul 5.27 = D (s ) 4*5*9 N ( N + 1)(2 N + 1) 24 24 apropiat de valorile obţinute anterior.2 +6.8 28.Kruskal.7. 2.1952 74 .47.Wallis. W. observaţiile primesc ranguri. (N + 1)(N − ni ) R N +1 R şi D 2 Ri = unde R i = i si R = E Ri = N ni 2 12ni ( ) ( ) 3 W.Assoc.3. Testul H. Use of ranks in the one – criterion analysis of variance.4 +5.4 -7. Să considerăm acum observaţiile pare din experimentul ce a dus la datele din tabelul 5.8 1 3 EDTA 4− după (k − 1)k (k + 1) S=3+2+1=6 N=4 care este si foarte caz avem N ( N + 1) s− s − E (s ) 6−5 4 z= = = 0. Voluntar Prima zi a-3-a zi Diferenţa di Rangul În CE 33.9 0 -4 acest IA 25.. Statistica matematica si biostatistica Teste neparametrice trebuie să fie scăzut pentru 48 fiecare grup de egalitati. Nivelele plasmatice maxime ale administrarea i. sau testul Kruskal – Wallis 3 este o generalizare a testului Wilcoxon în cazul a k probe. J.4 39.3 25. La fel ca şi în testul Wilcoxon.Stat.2 +6. În cazul în care apar egalităţi.6 1 1 PM 32. şi media rangurilor Ri se calculează pentru fiecare grup.4.583-621. k 〉 2 .m.A.H. de analiza a variatiei “pe o cale” aplicata rangurilor Testul H.1 1 2 BL 22. O alternativă este de a scoate toate valorile egale din probă.

Statistica matematica si biostatistica Teste neparametrice Raportul centrala. Pentru probe mici aproximaţia nu este prea bună şi Kruskal şi Wallis au dat tabele pentru k=3 şi ni ≤ 5. Am folosit. cu un factor de n ⎞ ⎛ ponderare ⎜1 − i ⎟ are aproximativ distribuţia χ 2 (k − 1) ⎜ N⎟ ⎝ ⎠ ⎡ ⎢ K ⎢ H = ∑⎢ i =1 ⎢ ⎢ ⎣ K i K 12n R − R 12∑ ni Ri − R i i N − ni H =∑ ⋅ =∑ = N N ( N + 1) N ( N + 1) i =1 ( N + 1)( N − ni ) i =1 12ni deci. cu dispersii egale. Ri − E Ri D2 i ( ) (R ) va fi repartizat N (0. H trebuie să fie împărţit la factorul 1 − ∑T legături. 75 . testul este in esenta un fel de ANOVA pe o cale si se aplica si atunci cand datele nu sunt normal repartizate.1) .II. conform teoremei limita Kruskal şi Wallis au arătat că suma pătratelor lor. deoarece sumam suma patratelor diferentelor intre mediile grupurilor si media totala. 2 2 2 2 R2 ni R i − R = ∑ ni R i − 2 R ∑ R i ni + N R = ∑ i − N R = ∑ ni ( R − R) ⎤ N +1 ⎥ Ri − ⎥ 2 ⎥ ( N + 1)( N − ni ) ⎥ ⎥ 12ni ⎦ 2 2 ⎛ ni ⎞ 2 ⎜1 − N ⎟ ≅ χ ( k − 1) ⇒ ⎝ ⎠ ( ) 2 ( ) 2 ( ) ( N + 1) R2 =∑ i −N 4 ni In final H se mai poate scrie : Ri2 12 H= ∑ n − 3 ( N + 1) N ( N + 1) i 2 N3 − N unde T = ( k − 1) k ( k + 1) = k 3 − k este calculat pentru fiecare grup de Dacă apar valori egale.

În condiţia în care în ultima întâlnire A l-a omorât pe B. ipoteza ca grupurile sunt selectate din aceiaşi populaţie este acceptată. In altă ordine de idei.m.25 * 4 7 9. 2. 05 = 0.0. 9 + 3 +1+ 7 2 + 11 + 8 4 + 6 + 5 + 10 = 5 .5 = + + = = 0.II.25 − 4 2 2 ⎥ ⎛1 − 3 ⎞ + ⎢ ⎥ ⎛1 − ⎞ = +⎢ ⎜ ⎟ ⎜ ⎟ ⎢ (11 + 1)(11 − 3) ⎥ ⎝ 11 ⎠ ⎢ (11 + 1)(11 − 4) ⎥ ⎝ 11 ⎠ ⎥ ⎢ ⎥ ⎢ 12 * 3 12 * 4 ⎦ ⎣ ⎦ ⎣ 4 7 3 8 6.86 7 11 8 11 7 11 11 2 Dat fiindcă χ 2. conduita de urmat în alegerea unui tip sau altul de test ar fi după cum urmează: 76 . deoarece înlocuirea valorilor cu rangurile lor semnifică pierderea a o parte din informaţie.7. De exemplu am spune ca doi boxeri sunt de aceiasi valoare deoarece fiecare a câţtigat câte 5 meciuri din 10 întâlniri dintre ei.5. considerând două grupuri de observaţii după prima administrare şi un grup de observaţii după a – 5.25 R1 = 4 3 4 ⎡ ⎢ H = ∑⎢ ⎢ ⎢ ⎢ ⎣ ⎤ ⎡ N +1 ⎥ Ri − ⎢ ⎥ ⎛1 − n i ⎞ = ⎢ 2 ⎜ ⎟ (N + 1)(N − ni ) ⎥ ⎝ N ⎠ ⎢ ⎥ ⎢ 12ni ⎣ ⎥ ⎦ 2 2 ⎤ 11 + 1 5− ⎥ 4 2 ⎥ ⎛1 − ⎞ + ⎜ ⎟ (11 + 1)(11 − 4) ⎥ ⎝ 11 ⎠ ⎥ 12 * 4 ⎦ 2 2 ⎡ ⎡ 11 + 1 ⎤ 11 + 1 ⎤ ⎥ ⎢ 7− ⎥ ⎢ 6. Ca urmare. Această pierdere de informaţie este reală în cazul testelor neparametrice atunci când efectiv variabilele aleatoare sunt repartizate normal şi au dispersiile egale. deoarece diferenţa de valoare între ei la ultimul meci a fost cu mult mai mare decât celelate diferenţe. sunt în tabelul3. Alegerea între testele laplaciene şi testele neparametrice Testele nonparametrice au o putere mai mică decât cele clasice. concluzia trebuie schimbată.a administrare: Nivelele plasmatice maxime ale ionului EDTA 4− după administrarea i. În caz contrar se poate întâmpla ca un test neparametric să fie chiar mai eficient decât cele parametrice. este foarte laborioasă. R2 = = 7 si R3 = = 6. Statistica matematica si biostatistica Teste neparametrice Să aplicăm testul pentru acelaşi experiment.103 valoarea obţinută pentru test aparţine zonei de acceptare. aplicarea testelor neparametrice în cazul selecţiilor de volume mari.

Wiley. Testul Friedman 4 Consideram compararea a k esantioane de aceeasi marime. 4 Hollander. 6 subiect 1 2 3 4 5 Ri Valoarea masurata a dozei A B C 1 2 3 2 1 3 1 2 3 1 3 2 1 3 2 6 11 13 Putem testa daca se produce o crestere semnificativa a valorilor masurate (de exemplu cmax ) o data cu cresterea dozei. J. Când se ştie că selecţiile aparţin la populaţii repartizate normal şi cu dispersii egale.6. Statistica matematica si biostatistica Teste neparametrice 1. Analiza de variatie pe doua cai a rangurilor. Non parametric statistical methods. Când nu se cunosc repartiţiile variabilelor. 4. 2. 2. ni = k . În cazul eşantioanelor mici sunt de preferat testele neparametrice deoarece calculele sunt mai rapide şi eficienţa este comparabilă cu cea a testelor clasice.7. New York. testele clasice sunt mai eficiente. 3.o matrice. de exemplu. alegerea şi concluziile se vor face în funcţie de alte informatii privitoare la experiment. aplicam testul Friedman 12 χ c2−1 = ∑ Ri2 − 3l ( c + 1) lc ( c + 1) unde l este numarul de linii si c este numarul de coloane. In acest caz datele se inscriu intr. Wolfe DA. 1973 77 . Tabelul nr. Când se ştie că variabilele aleatoare testate nu sunt repartizate normal sau este vorba de variabile care se bazează pe o scală arbitrară (“scoruri”) sau clasificări pe criterii preponderant calitative (de exemplu “ameliorarea” stării subiecţilor trataţi) se apelează la testele neparametrice. Daca rangurile le stabilim pe fiecare linie.II.

Statistica matematica si biostatistica Teste neparametrice 78 .II.

Y = A + BX unde : • A reprezintă interceptul lui Y (valoarea lui Y când X=0) şi • B este panta ΔY Y −Y B= = 2 1 ΔX X 2 − X 1 pentru oricare două puncte de pe dreaptă.II. Panta şi interceptul definesc dreapta: pentru oricare A şi B date. In terapie. fig. X şi Y. Statistica matematica si biostatistica Regresia liniara 2. Această soluţie consideră punctele ca fiind “exacte”. dreapta este definită. Regresia liniară Dreptele sunt construite din mulţimi de perechi de date. se incearca sa se simplifice lucrurile prin « liniarizare » in studiile de stabilitate ale medicamentelor. o soluţie a acestei probleme o constituie “dreapta prin cele mai mici pătrate”. legea Lambert-Beer fiind cel mai cunoscut exemplu. o aproximare statistică pentru a defini dreapta nu este necesară. După cum s-a discutat la capitolul privind extremele funcţiilor de mai multe variabile. Dacă reprezentarea grafică a două mărimi ce sunt observate simultan sugerează o dependenţă liniară. unde semnalul este proportional.8. Cazurile din farmacie cele mai frecvente in acest sens privesc chimia analitica. dreapta pentru care suma pătratelor distantelor de la ea la punctele experimentale este minimă. intre anumite limite. În exemplul elementar a două puncte date. cu concentratia. ajungem la problema determinării dreptei ce descrie “cel mai bine” această dependenţă. In acelasi timp. 1. Două asemenea perechi (de exemplu două puncte) definesc în mod unic o dreaptă. o intrebare obligatorie la care trebuie sa raspunda prezentarea oricarui medicamente se refera la “liniaritatea farmacocineticii”. Problema capătă cu totul altă înfăţişare atunci 79 .

Un alt exemplu de variabila X care este adesea folosit este timpul care poate fi masurat cu suficienta precizie si acuratete. 2. avem motive sa credem ca X si Y sunt corelate liniar. dar dependenta nonliniara Fig. si in aceste conditii presupunerea poate fi considerata adevarata. sunt alte metode pentru a estima panta si ordonata dreaptei . dependenta semnalului masurat de concentratie 25 20 15 10 5 0 0 5 10 15 120 100 80 60 40 20 0 -20 0 5 10 15 fitare liniara. 4. facem implicit urmatoarele ipoteze: 1.x pentru ă arata ca valoarea lui Y este o functie de X. y este independent si normal distribuit. Eroarea in “dozare” este foarte mica. a.II. X este doza “nominala” care se considera ca a fost administrata. cel mai adesea X este masurat cu erori relativ mici. Pentru fiecare X. Desi nu este totdeauna adevarat. Daca variatia lui y nu este constanta. In cazul unor teste privind un medicament administrat in mai multe doze. Datele sunt afectate de erori si dependenta este mai mult parabolica decat liniara In general. Intre X si Y exista o relatie de liniaritate. Variatia lui y se presupune a fi aceeasi pentru fiecare X. b. Statistica matematica si biostatistica Regresia liniara când punctele experimentale sunt considerate valori ale unor variabile aleatoare. devenind o problemă de statistică matematică şi analiză numerică în acelaşi timp. Bazandu-ne pe teorie sau experiente. Variabila X este masurata fara eroare. 3. unde A si B sunt parametri adevarati. 2b se vede ca dreapta care aproximeaza “cel mai bine” dependenta intre cele doua variabile nu 80 . dependenta este efectiv liniara dar datele sunt afectate de erori. Adesea vom folosi notatia Y. chiar daca nu constientizam acest fapt. Y = A + BX . dar este fie cunoscuta. fie asemanatoare cu cea a lui X intr-un anume fel. 2 Dreapta prin cele mai mici patrate care aproximeaza dependenta intre variabile. de fiecare data cand incercam sa gasim o dependenta liniara intre doua variabile. In fig.

in locul constantei de viteza k . pentru valori mici ale lui t exponentiala este aproximata de o dreapta c (t ) = c0e − kt ≈ c0 (1 − kt ) Ca parametri esentiali ai cineticii de degradare se folosesc.. y ini . media distribuţiei lui y descreşte pe măsură ce creşte X (panta e negativă). dar este de subliniat că şi în cazul când aceştia sunt diferiţi de 1 poate fi tratat în 81 .. Examinăm în continuare aspectele matematice pentru cazul cel mai simplu când valorile variabilei x (care în cele mai multe cazuri corespunde timpului) nu sunt afectate de erori şi. În exemplul acesta. pentru fiecare valoare a lui x corespund un număr de valori y. pentru x1 . timpul de injumatatire si timpul de “siguranta” sau timpul la care concentratia scade la 90 % din valoare sa initiala.. In cazul studiilor de stabilitate.. Statistica matematica si biostatistica Regresia liniara corespunde legii reale care guverneaza fenomenul. “cel mai bine” nefiind de fapt bine.….II. valoarea medie) distribuţia lui y este aceeaşi la fiecare valoare a lui X. in cel mai bun caz o exponentiala c (t ) = c0e − kt Dar . 3. pentru xi . Aceste premise sunt descrise în: Fig. y12 .2. determinate într-un singur experiment printr-o metodă afectată de erori întâmplătoare: y11 .. Media si dispersia in regresia liniara Exceptând poziţionarea (media... y i 2 . dependenta concentratiei substantei active de timp este. i=1.. y i1 .k Cazul când pentru orice i avem ni = 1 este relativ mai simplu. y1n1 ..

Să admitem că pentru un x fixat. Statistica matematica si biostatistica Regresia liniara aceiaşi manieră admitând că între perechile (xi . Pentru aflarea parametrilor a şi b.II. din datele experimentale yi . dar aceasta este necesară pentru construirea unor intervale de încredere şi pentru testarea unor ipoteze privind aceiaţi estimatori. şi să determinăm distribuţiile acestor estimaţii. să obţinem nişte estimări a. β si σ2. valoarea măsurată y este o variabilă aleatoare cu urmatoarea structură: (1) y = η + ε = α + β x + ε distribuită normal cu dispersia σ 2 şi media η = α + βx Problema care ne-o punem este aceea ca. Valorile lui a şi b care minimizează suma pătratelor erorilor sunt soluţiile sistemului ⎧ ∂SS ⎪ ∂a = 0 ⎧ ⎧ na + b∑ xi = ∑ yi ⎪ ⎪ −2∑ ( yi − a − bxi ) = 0 ⎪ ⇔⎨ ⇔⎨ (4) ⎨ 2 ∂SS ⎪−2∑ ( yi − a − bxi )xi = 0 ⎪a ∑ xi + b∑ xi = ∑ xi yi ⎩ ⎩ ⎪ =0 ⎪ ∂b ⎩ Rezolvând sistemul prin regula lui Cramer se obţin ca estimatori pentru α şi β: 2 n ∑ xi y i − ∑ xi ∑ y i ∑ Yi ∑ xi − ∑ xi ∑ xi y i şi b = a= 2 2 2 n ∑ xi2 − (∑ xi ) n ∑ xi − (∑ xi ) Numărătorul expresiei lui b poate fi scris şi în forma x ⎛ ⎞ n ∑ x i y i − ∑ x i ∑ y i = n⎜ ∑ x i y i − ∑ i ∑ y i ⎟ = n ∑ x i − x y i n ⎝ ⎠ ( ) Deoarece ∑ xi − x = 0 şi y ∑ xi − x = 0 . mai putem scrie 82 ( ) ( ) . Estimarea ecuaţiei de regresie o notam : (2) Y = a + bx Metoda celor mai mici pătrate dă valorile a şi b care minimizează suma pătratelor deviaţiilor (erorilor) între valorile observate yi şi cele prezise de ecuaţia de regresie (2): 2 2 (3) SS E = ∑ ( y i − Yi ) = ∑ ( yi − a − bxi ) Metoda este în principal datorată lui Gauss. b şi s2 pentru α. Metoda celor mai mici pătrate oferă avantajul că estimatorii pe care îi dă sunt deplasaţi şi au o dispersie minimă în clasa estimatorilor nedeplasaţi. nu este necesară ipoteza privind distribuţia normală a erorilor. y i ) să fie şi perechi cu acelaşi xi .

S a = ∑x n 2 i Sb2 83 . Statistica matematica si biostatistica Regresia liniara ∑ xi − x y i = ∑ xi − x y i − y ∑ xi − x = ∑ xi − x y i − y Similar. Atunci: ∑ xi − x E yi − y = ∑ xi − x (α + β xi ) = E (b ) = 2 2 ∑ xi − x ∑ xi − x ) 2 ( ( ) ( ) ) ( ( ) ) ∑ ( x − x) + β ∑( x − x) x =α ∑ ( x − x) ∑ ( x − x) i i 2 2 i i i = 0+β ∑x 2 i − ∑( 2 1 ( ∑ xi ) n =β 2 xi − x ) Dispersiile lui a şi b pot fi obţinute direct. cu dispersia σ 2 : ⎡ ∑ x − x y ⎤ ∑ x − x 2 D( y ) σ2 i i i i ⎥= D(b ) = D ⎢ = 2 2 2 ⎢ ∑ xi − x ⎥ ∑ xi − x ⎣ ⎦ ∑ xi − x ( ( ) ) ( ( ( ) )) ( ) 2 Din prima ecuaţie a sistemului (4) avem: a = Y − b X . 2 2 σ2 1 ⎛ ∑ yi ⎞ D(a ) = D⎜ ⎟ + x D(b ) = 2 ∑ D( y i ) + x n ⎝ n ⎠ ∑ xi − x ( ) 2 = 2 + ∑x − ⎞ ⎛1 x n2 n2 ⎟ =σ2 ⎜ + =σ 2 2 ⎟ ⎜n n ∑ xi − x ∑ xi − x ⎠ ⎝ 2 2 σ2 ∑ xi ∑ xi D(b ) = = n ∑ x −x 2 n 2 2 i (∑ xi )2 (∑ xi )2 ( ) ( ) = ( i ) Deci. pentru un x = xi . avem: n ∑ xi2 − (∑ xi ) = n ∑ xi − x 2 ( ) ( ) ( ) ( )( ( ) ). după cum se poate uşor verifica. care valori sunt presupuse independente şi distribuite normal. deoarece sunt funcţii liniare de yi . o formă alternativă pentru b este b = ∑ xi − x y i − y ( )( ∑ xi − y Putem verifica uşor că b este un estimator nedeplasat pentru β.II. ( ) 2 În consecinţă. Presupunem valoarea aşteptată yi dată de ecuaţia α + βxi .

Dacă yi sunt punctele experimentale. Statistica matematica si biostatistica Regresia liniara 2. iar Yi estimările lor teoretice.II. Estimaţii şi ipoteze asupra coeficientului b Coeficientul b are o importanţă deosebită şi prin aceea că el reprezintă o măsură a corelării între x şi y. E ( A) = E ∑ y i − y E i i [ ( ) ] = E (∑ y 2 2 i − ny 2 ) = E (∑ y ) − nE (y ) 2 i 2 2 În continuare. suma pătratelor erorilor va fi SS E = ∑ ( yi − Yi ) .1. 1. ∑ (x − x ) Deci avem SS = ∑ (y − y ) − b ∑ (x − x ) = A − B = ∑ y i − y + y − a − bxi 2 i i 2 2 i i 2 2 i i i i i i 2 [( = ∑ [(y 2 2 i i i i 2 2 2 Calculăm separat E ( A) şi E (B ) . folosind identitatea D (Y ) = E (Y 2 ) + (E (Y )) şi faptul că E y = α + β x şi D y = () () σ2 n obţinem ⎡ 2 E ( A ) = ∑ ⎡(α + β xi ) + σ 2 ⎤ − n ⎢ α + β X ⎣ ⎦ ⎣ ( ) 2 + σ2⎤ = n ⎥ ⎦ = ∑ ⎡(α + β xi ) − α + β X ⎢ ⎣ 2 ( ) ⎤= ⎥ ⎦ 2 84 . Yi = a + bxi . Vom 2 arăta că: ⎛ SS ⎞ E⎜ E ⎟ = σ 2 ⎝n−2⎠ Pentru a demonstra aceasta relaţie plecăm de la definiţia sumei erorilor 2 SS E = ∑ [ y i − (a + bxi )] = ) ( )] = ∑ [(y − y ) + (a + b x − a − bx )] = − y ) − b(x − x )] = ∑ (y − y ) − 2b∑ (x − x )(y − y ) + b ∑ (x − x ) ∑ (x − x )(y − y ) Dar b = şi putem înlocui ∑ (x − x )(y − y ) = b ∑ (x − x ) . Coeficientul b este. repartizat normal cu media β şi dispersia ∑ xi − x ( σ2 ) 2 2.8. după cum s-a arătat.

1) . Pe baza acestor trei proprietăţi putem estima intervalele de încredere pentru β şi verifica ipoteze asupra valorilor sale. ( ) E (SS E ) = (n − 1)σ 2 + β 2 ∑ (xi − X ) − β 2 ∑ (xi − X ) − σ 2 = (n − 2 )σ 2 2 2 3. Variabila aleatoare SS E σ 2 este repatizată χ 2 (n − 2) . = 1 D(b ) 2 ⎡ ⎤ σ2 ⎢ ⎥ 2 ⎢ ∑ xi − x ⎥ ⎣ ⎦ ( ) 85 .II. Statistica matematica si biostatistica Regresia liniara ⎡ 2 = ∑ ⎡(α + β xi ) + σ 2 ⎤ − n ⎢ α + β X ⎣ ⎦ ⎣ ( ) 2 + σ2⎤ ⎥= n ⎦ )( ) = β ∑ ( x − X ) ( 2α + β ( x + X ) ) = β ⎡ 2α ∑ ( x − X ) + β ( x + X ) ⎤ = ⎣ ⎦ = β ∑( x − X ) = β (∑ x − n X ) = β ∑( x − X ) = = ∑ α + β xi + α + β X α + β xi − α − β X = i i i i 2 2 i 2 2 2 i 2 2 2 i = ∑ ⎡(α + β xi ) − α + β X ⎢ ⎣ 2 ( ( ) ⎤= ⎥ ⎦ 2 = nσ 2 − nσ 2 + β 2 ∑ xi − x n ( ) 2 = ( n − 1) σ 2 + β 2 ∑ xi − x ( ) 2 Mai departe. a) Cazul dispersiilor cunoscute În cazul în care se cunoaşte dispersia erorilor de măsurare se foloseşte faptul că variabila D (ε i ) = D ( y i ) = σ 2 b−β b−β aleatoare z = este repartizată N (0. E (B ) = ∑ x i − x E b 2 = ∑ x i − x 2 ( ) ( ) ( ) [D(b) + (E (b)) ] = 2 2 ⎞ 2⎛ σ2 = ∑ xi − x ⎜ +β2⎟ ⎟ ⎜ ∑ (x − X )2 i ⎠ ⎝ şi deci.

Estimarea dispersiei punctelor dreptei de regresie Considerăm un punct x 0 fixat şi punctul corespunzător lui: y 0 . Ca urmare putem determina intervalele în care se află β cu diverse probabilităţi sau verifica ipoteze privind valoarea lui. Avem E (Y0 ) = Y0 = α + βx0 şi 2 2 D ( y0 ) = σ y0 = σ y + σ b2 x0 − x ( ) ( ) 2 = σ2 n + ∑ ( x − x) i σ2 2 (x 0 −x ) 2 86 .1− 2 2.1− 2 n − 2 . Intervalul de încredere pentru β este: b−t α Sb 〈 β 〈 b + t α Sb ∑ xi − x ( σ2 ) 2 cu ( ) ( ) ( ) n − 2 . Statistica matematica si biostatistica Regresia liniara b) Cazul dispersiilor necunoscute În acest caz se înlocuieşte dispersia lui b: σ b = 2 SS E ∑ ( y i − Yi ) n−2 estimatorul numit “ dispersia de selecţie”: S b = = n−2 2 .8. pe dreapta de regresie y y = α + βx + ε = a + bx Y = a + bx y 0 = a + bx0 = Y − b x + bx0 y 0 = Y + b x0 − x estimatia lui y 0 este o variabilă aleatoare distribuită normal. 2 ∑ xi − x ∑ xi − x Variabila aleatoare b−β σb b−β Z = T= = 1 1 χ 2 n−2 ⎡ ⎤ 2 ⎡ SS E ⎤ 2 SS E ⎢ ⎥ ⎢ n−2 2 ⎥ 2 ⎣ (n − 2 )σ ⎦ ⎢ (n − 2 )∑ xi − x ⎥ ⎣ ⎦ este repartizată Student cu n-2 grade de libertate.2. exact cum este utilizat testul t pentru testarea ipotezei privind media necunoscută.II.

⎛ − 2 − 2 ⎛ ⎞ ⎛ ⎞ ⎜ ⎜x− x⎟ ⎜x− x⎟ 1 1 ⎠ . estimate de drepta de regresie. Facem observaţia că dispersia determinată în punctul y 0 este dispersia datorată regresiei. numarul gradelor de libertate. numarul de puncte utilizate pentru determinarea dreptei si valoarea sa este minimă atunci când x0 = x . În acest caz. În acest caz.II. Statistica matematica si biostatistica Regresia liniara 2 ⎡ x0 − x ⎤ SS E 2 2 ⎢1 ⎥. variabilitatea datelor individuale faţă de valorile corespunzătoare regresie Y. pentru valorile de selecţie devine s y0 = s 2 ⎢1 + + 2 ⎢ n ∑ xi − x ⎥ ⎢ ⎥ ⎣ ⎦ ( ( ) ) 87 . x ) 0 ⎜ 0 α . iar limitele de ⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ incredere ale lui Y pentru valori specifice ale lui x depind de dispersie.y +t ⎠ ⎜ y −t S + ⎝ + ⎝ α . y0 = Y şi s y 0 = s y . ( ) a cărei dispersie este egală cu σ 2 . x ) n − 2 − 2 n ⎛ ⎞ ⎛ ⎜ ⎟ ∑ ⎜x− x⎟ ∑ ⎜x − x⎞ ⎜ ⎝ ⎠ ⎝ ⎠ ⎝ Dispersia sY0 depinde de distanţa între x 0 şi x . ceea ce . valorile individuale vor avea dispersia: σ 2 y0 =σ + 2 σ2 n +σ 2 (x − x ) ∑ (x − x ) 2 0 i 2 2 ⎡ x0 − x ⎤ 1 2 ⎥. Ca urmare.n − 2 ( Y . valoarea individuală determinată diferă faţă de valoarea Y0 printr-o eroare ε. Valorile experimentale nu sunt însă valori ale regresiei y 0 = Y + b x0 − x . Estimând valoarea lui σ prin s = avem s y0 = s + 2 ⎢n n−2 ∑ xi − x ⎥ ⎢ ⎥ ⎣ ⎦ y0 − (α + βx0 ) este repartizată Student cu Variabila aleatoare T = s y0 2 2 ( ( ) ) n − 2 grade de libertate şi permite calculul intervalelor de încredere pentru α + βx0 .n − 2 ( S Y .

Pentru cele mai multe produse. Calculul intervalelor de încredere pentru dreapta de regresie în cazul stabilităţii formelor farmaceutice. este mai bine sa contam pe acest timp.3. Banda de incredere 95% pentru linia de « stabilitate » “Banda” de încredere are formă de hiperbolă şi ilustrează variaţia lărgimii intervalului de încredere pentru diferite valori ale lui X. presupune calcularea bandei de incredere pentru un domeniu suficient de intins pentru X. FDA sugereaza ca ar fi mult mai potrivita abordarea folosind un interval de incredere unilateral decat unul bilateral pentru a estima data de expirare. curba timpului pot fi considerata relevanta. Pentru o concentratie data. Pentru a obtine acest domeniu de valori pentru X (timpul pentru continutul de minim 90%) folosind metoda estimatiei grafice asa cum este descrisa mai sus.II. (o exceptie poate fi in cazul produselor lichide unde evaporarea solventului duce la cresterea concentratiei substantei active). 88 . In cazul studiilor de stabilitate avem doua tipuri de probleme. deci timpul pentru care suntem siguri ca nu a scazut concentratia sub 90 %. Statistica matematica si biostatistica Regresia liniara 2. Din punct de vedere al sigurantei pacientilor . de exemplu 90 % din cea initiala. respectiv Y. Fig. in afara de timpul de pe dreapta de regresie cand se atinge acest prag. continutul in substanta activa poate doar sa descreasca in timp. si numai marginea inferioara a intervalului de incredere vs. 5.8. ne intereseaza si marginea inferioara a intervalului de timp.

m. şi este analizat gradul de de stabilitate/descompunere a medicamentului la intervale de timp specificate. sticlelor şi tabletelor trebuie analizate luând probe pentru studiile de stabilitate. Termenul de expirare trebuie să fie “statistic valid”.8. intervalele pentru fiecare atribut/caracteristică măsurată fiind folosite pentru asigurarea validităţii estimărilor statistice de stablitate.4. Condiţiile fizice ale testului stabilităţii (de exemplu: temperatură. datele de stabilitate fiind de regulă analizate prin metode statistice. umiditate). incluzând mărimea probelor test in functie de cele de referinţă (observarea şi măsurarea). 2 unde g = 2 t2 Sy ( ) 2 2.a. Stabilirea unei date de expirare a medicamentului defineşte pragul de viaţă a acestuia. ca de altfel şi numărul loturilor. O definiţie şi o implementare atente a acestor condiţii sunt importante deoarece validitatea şi precizia recomandării termenului fina de expirare depinde de cum este realizat experimentul. programul analizei. medicamentul este stocat/depozitat în condiţii variate de temperatură. 89 . Reglementările GMP (Good Manufacturing Practice) stabilesc criteriile statistice. Experţii stabilesc datele de expirare a medicamentului bazându-se pe datele ştiinţifice referitoare la stabilitatea medicamentelor. Studiul stabilităţii medicamentelor Exemplul 1: Studiul stabilităţii în cazul comprimatelor de vitamina B1 (tiamimă). În mod tipic.II.d. durata testării. umiditate. Măsurătorile privind rata de descompunere a unui medicament au mare importanţă în studiile despre medicamente. lumină (intensitate a luminii) ş. Statistica matematica si biostatistica Regresia liniara Calcularea intervalului de incredere pentru un X la o valoare specifica lui Y este ⎡ − 2 − 2 ⎢ (1 − g ) / N + ⎛ X − X ⎞ / ∑ ⎛ X − X ⎞ ( X − g X ) ± [t ( S y ) / b] ⎜ ⎟ ⎜ ⎟ ⎝ ⎠ ⎝ ⎠ ⎢ ⎣ 1− g − ⎤ ⎥ ⎥ ⎦ − ⎛ ⎞ b ∑⎜ X − X ⎟ ⎠ ⎝ Aceasta procedura de estimare a lui X pentru o valoare data a lui Y se numeste adesea “predictie inversa”.

În situaţiile practice se va urmări informaţia privind punctele de la începutul şi finalul analizei pentru a evaluarea ratei descompunerii pe durata studierii procesului de stabilitate precum şi verificarea linearităţii ratei de descompunere în funcţie de timp. 6. 12. 6. O altă cauză pentru care se folosesc mai multe loturi pentru testarea/determinare stabilităţii este acela de a asigura că toate caracteristicile de stabilitate sunt similare de la un lot la altul. Cu cât se studiază mai multe puncte experimentale se îndeplinesc mai bine cerinţele regulatorii ale FDA-ului. Este necesar a se înţelege că pentru loturi diferite se pot obţine rezultate de stabilitate diferite. De obicei condiţiile extreme sunt utilizate în testarea stabilităţii pentru a economisi timpul şi pentru a obţine o dată de expirare mai aproape de realitate. mai ales în situaţiile în care excipienţii pot afecta stabilitatea. 3. cum ar fi cele pentru “accelerarea” studiilor de stabilitate (de exemplu temperatură ridicată şi condiţii de umiditate ridicate). Totuşi. mai ales atunci când sunt utilizate condiţii extreme. din punct de vedere statistic. 90 . Datele sunt prezentate în tabelul de mai jos. se analizează la: 0. Această problemă este dezbătută pe larg de literatura farmaceutică. panta eficacităţii/concentraţiei funcţie de timpul (graficul ratei descompunerii) se obţine cu mai multă precizie dacă jumătate din totalul punctelor observate sunt obţinute la timpul 0. Numitorul creşte în aceste condiţii. Se aleg trei tablete la întâmplare. Un model “statistic” optim pentru studiul stabilităţii ţine seama de timpul de depozitare prevăzut până când medicamentul va fi supus analizei. Să luăm în considerare o anumită formulare (ex. Statistica matematica si biostatistica Regresia liniara Mecanismul determinării duratei de viaţă a medicamentului poate fi complex. iar cealaltă jumătate la finalul timpului de testare. Toate produsele trebuie testate pentru stabilitate şi în condiţiile recomandate de producător (deci nu accelerate). FDA a sugerat ca cel puţin trei loturi de produse să fie testate pentru a li se determina termenul de expirare. De exemplu. 12 şi 18 luni. modelele rezultate din asemenea premise sunt de obicei greoaie şi nepractice. invers proporţional cu variabilitatea pantei.: comprimate) care fac obiectulul studiului stabilităţii.II. În aceste cazuri variaţia între calitate şi cantitate a aditivilor (excipienţilor) între loturi poate afecta stabilitatea. Intervalurile de timp alese pentru analiza păstrării probelor-martor depind de caracteristicile majore ale produsului şi de stabilitatea anticipată. 9. în condiţiile temperaturii camerii (20 de grade Celsius). după producţie. Cei mai folosiţi timpi pentru efectuarea analizelor sunt la timpii t: 0. 9. 18 şi 24 luni şi apoi la intervale anuale de timp.3.

7 51.II. 54 53 52 Concentratie (mg) 51 50 49 48 47 46 45 44 0 2 4 6 8 10 timp (luni) 12 14 16 18 20 Aplicarea metodei dreptei celor mai mici pătrate este cel justificată în situaţiile în care există un model teoretic care să arate că scăderea în concetraţie este lineară în raport cu timpul (în acest exemplu. Figura arată că datele sunt variabile.0 50. 48. se presupune că concetraţia şi timpul sunt în relaţie lineară: C ( t ) = C0 − kt unde • • C(t) = concentraţia la timpul t C0 = concentraţia la timpul 0 (interceptul Y. 52. 51. O examinare atentă a acestui grafic sugerează că dreapta este reprezentarea adecvată a acestor date. În cazul de faţă. 47 47. 53 51. 49 Media 51. A) 91 .3 48. 51. în acest caz producătorul va fabrica tablete cu o concentraţie de 52 mg de substanţă activă. 45.0 Timp X (luni) 0 3 6 9 12 18 Luând în considerare aceste date.0 50. 50. 51 49. se propune stabilirea termenului de valabilitate care se defineşte ca durata de timp de la data fabricaţiei până când un comprimat conţine 90% din substanţa activă declarată. Cinetica scăderii concetraţiei substanţei active în timpul depozitării în cazul formelor dozate solide este complexă şi un modelul este greu de conceput. 52 50. Produsul luat în considerare are o concentraţie declarată de 50 mg şi cu o specificaţie tehnică care prevede o supradozare de 4%. 48 49. un proces de ordin zero).0 47. Statistica matematica si biostatistica Regresia liniara Concentratia Y * 51.

... 267 ) *8 = 51.. + 47 + 45 + 49 = 50 18 ∑ Xy = ( 0*51 + 0*51 + 0*53) +.II. cea mai uşoară metodă de analiză a acestor date este estimarea pantei şi interceptului dreptei celor mai mici pătrate.. Dacă calculăm C0 şi K. fiecare valoare de timp este numărată de trei ori şi N este egal cu 18.. reţinem că fiecare valoare a timpului (X) este asociată cu trei valori ale concentraţiei medicamentului (y)...80 − 0...... + (18*47 + 18* 45 + 18*49 ) = 6984 y= ∑( X − X ) 2 2 ∑( y − y) 2 2 = 3* ⎡( 0 − 8 ) + .. + (18 + 18 + 18) = 8 2 = ( 02 + 0 2 + 0 2 ) + (12 + 12 + 12 ) + .... + ( 49 − 50 ) = 74 2 2 2 2 Avem: n∑ Xy − ∑ X ∑ y 18*6984 − 144*894 b= = = −0.(La o primă vedere putem estima panta şi interceptul “din ochi” (metodă grafică). 267 mg / luna 2 18*1782 − 1442 n∑ X 2 − ( ∑ X ) a = y −b* X = 894 − ( −0... Când facem calculele celor mai mici pătrate. + (18 + 18 + 18) = 144 • • ∑X X= 2 18 ∑ y = ( 51 + 51 + 53) +... Statistica matematica si biostatistica Regresia liniara k = constanta t = timpul de depozitare Având ca obiectiv estimarea perioadei de valabilitate a medicamentului. + ( 47 2 + 452 + 492 ) = 44476 51 + 51 + 53 + . 267 * t Ca estimare a dispersiei folosim: 92 . + ( 47 + 45 + 49 ) = 894 ( 0 + 0 + 0 ) + (1 + 1 + 1) + . + (18 − 8 ) ⎤ = 630 ⎣ ⎦ = ( 51 − 50 ) + ( 51 − 50 ) + ( 53 − 50 ) + . + (182 + 182 + 182 ) = 1782 ∑ y = ( 51 2 + 512 + 532 ) +.... Avem: ∑ X = ( 0 + 0 + 0) + (1 + 1 + 1) + .80 18 Ecuaţia dreptei de regresie este: C ( t ) = 51.

t este timpul). 267 * t ⇒ t = 25. C = 51. Cu toate acestea.II. adică 45 mg. timpul de descompunere la 90% din cantitatea declarată de substanţă activă variază în funcţie de cantitatea de substanţă activă iniţială (la t = 0.2 Timpul mediu este: t = 0 + 3 + 6 + 9 + 12 = 6 luni 5 În tabelul urmator sunt calculate: 93 .8 96. Exemplul 2:Studiul stabilitǎţii tiaminei (forma farmaceuticǎ – comprimate) In tabelul următor se va lua un studiu al stabilitaţii tiaminei (vitamina B1). 267 * t pentru calcularea lui t (timpul) pentru o concetraţie de 45 mg (C = concetraţia la care comprimatul conţine 90% din substanţa activă declarată).80 − 0. Aceasta este un rezultat mediu bazat pe datele a 18 tablete. timpul (luni) t 0 3 6 9 12 concetratia in tiamina C (mg/tableta) 100 98. 267 ) *630 = = 1.80 − 0.5 luni de la data fabricaţiei).1825 18 − 2 Calcularea timpului în care concetraţia comprimatului este de 90% din cantiatea de substanţă activă declarată. Statistica matematica si biostatistica Regresia liniara exp i n−2 = SSE ∑ ( y = − yith ) 2 2 n−2 n ∑( y − y) = i 2 − b2 ∑ X − X n−2 ( ) 2 = ∑y 2 (∑ y) − − b2 ∑ X − X 2 ( ) 2 n−2 = 44476 − 8942 /18 − ( −0.1 96. perioada de valabilitate a medicamentului se estimează pe baza rezultatelor mediilor. Pentru o singură tabletă. 5 luni Estimarea timpului la care concetraţia comprimatului va fi de 90% din cantitatea declarată iniţial (se regăsesc 45 mg de substanţă activă după 25. se foloseşte ecuaţia C ( t ) = 51.9 98.

n − 2 = 0.01 0.100. 264 = 100 ± 0. 04 SSE s2 = = 0.1 96.8 96.1. 01 + 0. 04 + 0. 423 1.01 0.1 -0.35 (avem 3 grade de libertate) Ts = s * tα .18 5−3 n−2 tα .II.04 0. 2 + 2 ∑ (t − 6) Pentru t=0 se obtine 100 ± 0.2 0.2 (C d −C ) 2 36 9 0 9 36 total=90 0 0. 465 . 423*1.9 98. 03 . 423 Dar. ( ( ) ) 94 .2 Cd 100 99 98 97 96 Cd − C 0 0.35 = 0. adică s = = 0.3 = 2.5− 2 = t0. pentru un t fixat. 6 = 100 ± 0. Vom putea construi un interval de incredere s y0 = s ⎢ + 2 ⎢ n ∑ xi − x ⎥ ⎣ ⎦ pentru punctul y fixat (deci o concentratie data).1 -0. considerand si eroarea de determinare experimentala: 1 C ( t ) = C0 − k0t − Ts 1 + + n (t − t ) ∑ (t − t ) 2 2 2 Se obţine un interval de încredere de 95% egal cu: 100 − 0.535 ⇒ [99.1 unde: C = concentratia in tiamina (mg/tableta) Cd = concentratia calculata din dreapta de regresie t = timpul Dispersia se obţine astfel: 0 + 0.1. Statistica matematica si biostatistica Regresia liniara t 0 3 6 9 12 t −t 6 3 0 3 6 (t − t ) 2 C 100 98. 423 (t − 6) 1.04 Total=0. 01 + 0.18* 2.n − 2 = t0.535] Daca vom considera numai eroarea fata de dreapta de regresie 2 ⎡1 x0 − x ⎤ 2 ⎥ .3* t ± 0.

8. n − 2 (S Y .3* t ± 0. Un caz frecvent este acela cand variatia lui y este proportionala cu X. Doua din abordarile posibile in rezolvarea acestei probleme sunt: a) O transformare a lui y pentru a face variatia omogena. 1/n=1/5=0. b) O analiza de regresie ponderata. y +t + ⎝ + ⎝ ⎜ y 0 − t α . 2 + ∑ (t − t ) 2 2 Pentru t=0. 03 . concentratia activa initiala este estimata : 36 100 ± 0. 673 .II. 2 ⎛ − − ⎛ ⎞ ⎛ ⎞ ⎜ ⎜x − x⎟ ⎜x − x⎟ ⎜ 1 1 ⎠ ⎠ . Statistica matematica si biostatistica Regresia liniara Variabila aleatoare T = y0 − (α + βx0 ) este repartizată Student cu ns y0 2 grade de libertate şi permite calculul intervalelor de încredere pentru α + βx0 . 423 0. observat de obicei in metodele de analiza instrumentala in chimia analitica. 423 (t − t ) 0. 95 . Apar multe situatii in practica atunci cand aceasta presupunere nu este respectata. 2 + = 100 ± 0.327 ⇒ [99. x ) α .2 2 ⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ Se obţine un interval de încredere de forma: 100 − 0. n − 2 (S Y .100. cum ar fi transformarea logaritmica .327 ] 90 2. Regresia ponderata Una din presupunerile implicite in aplicarea inferentei statistice este acela ca variatia lui y este aceeasi la fiecare valoare a lui X. x ) 0 − 2 − 2 N N ⎛ ⎞ ⎛ ⎞ ⎜ ⎜x − x⎟ ⎜x − x⎟ ⎜ ⎝ ⎠ ⎝ ⎠ ⎝ unde SY . x = s = 0. Aceasta apare cand y are un coeficient constant al variatiei (CV) si y este proportional cu X (y = BX).5.

96 . Figura 6 arata un grafic al reziduurilor ca functie de X.8. Daca modelul liniar si presupunerile in analiza prin cele mai mici patrate sunt valabile. numeam ca „erori”) Examinarea reziduurilor poate dezvalui variatia heterogenitatii sau nonlinieritatea. in formulele pentru calculul Xi coeficientilor A si B valorile yi se vor inlocui cu valorile wi y i = 2. sugereaza folosirea unei transformari logaritmice sau utilizarea unor ponderi pentru a reduce heterogeneitatea variatiei. Analiza reziduala in testarea ipotezelor privind corelatia yi X i2 Se numesc reziduuri diferentele intre valorile calculate prin regresie si cele experimentale ( ceea ce .II. marindu-se pe masura ce X creste. reziduurile ar trebui sa fie aproximativ normal distribuite si nar trebui sa apara nici o tendinta. in alt context. Deci. Faptul ca reziduurile prezinta o forma de palnie.6. Statistica matematica si biostatistica Regresia liniara O pondere uzuala in chimia analitica pentru valoarea la concentratia Xi 1 este inversul patratutului acesteia 2 .

6b Valorile reziduale in raport cu distributia log normala. Mare parte din heterogenitatea variatiei a fost inlaturata. N corespunzatoare pentru j un xi dat : 97 . 6a Valorile reziduale in raport cu distributia normala Fig. o estimare a dreptei ˆ y = a + bx daca vom considera un set de determinari ( y ij ) j =1. Putem insa.II. prin metoda celor mai mici patrate. Statistica matematica si biostatistica Regresia liniara Valori reziduale Valori reziduale logaritmate 10 9 8 Valoare reziduala 7 6 5 4 3 2 1 0 0 50 Concentratia 100 Valori reziduale 10 9 8 7 6 5 4 3 2 1 0 1 2 Concentratia (ln) 3 4 5 Fig. Consideram o variabila aleatoare y care depinde liniar de variabila aleatoare x : y = α + βx Atunci cand facem determinarile experimentale noi nu stim nici daca cele doua variabile se coreleaza liniar si nici care este dreapta care descrie dependenta lor. prin analiza datelor experimentale sa determinam.

daca toate punctele ar fi pe o dreapta SS deviatie de la linearitat e va fi zero. Se definesc coeficientul de corelatie si a raportului de corelare ca : ( ) ( ) 98 . deci aceasta suma este o masura a corelarii liniare. Statistica matematica si biostatistica Regresia liniara Distanta de la un punct dat y ij la y se poate descompune in trei componente: distanta pana la y i . distanta de la media ˆ grupului la valoarea estimata prin dreapta yi si distanta de la punctele de pe dreapta la media totala y : ˆ ˆ y ij − y = y ij − y i + y i − y i + y i − y Ridicand la patrat. Intr-adevar : Sy ˆ y − y = a + bx − a − bx = b x − x = r x−x Sx Facem observatia ca datele pot fi aproximate foarte bine dupa o alta lege (de exemplu y = k x cum este in cazul in care se aplica la dizolvare legea lui Higuchi).media punctelor y ij . se obtine : ( ) ( ) ( ) ∑ (y ij −y ) = ∑ (y 2 ij − yi ) + ∑ N (y 2 i i ˆ − yi ˆ ) + ∑ N (y 2 i i −y ) 2 sau SS T = SS eroare + SS deviatie de la linearitat e + SS linearitat e Observam ca.II. sumand si tinand cont ca sumele de produse mixte sunt zero.

• Coeficientul de determinare (corelatie) este proportia de variabilitate a lui Y atribuabila covariantei liniare cu X . b = r Sy Sx 99 . panta dreptei prin cele mai mici patrate b este: ∑ xi − x y i − y = ∑ xi − x y i − y = ∑ xi − x y i − y S y = r S y b= 2 Sx SxSy Sx S x2 ∑ x −x 2 ( ⎛ x − x ⎞⎛ a + bxi − a − b x ⎞ 1 b∑ xi − x ⎟= ∑ ⎜ iS ⎟⎜ ⎟⎜ ⎜ ⎟ N Sy SxSy x ⎠⎝ ⎝ ⎠ ( ) 2 ) ( ( )( i ) ) ( )( ) ( )( ) Deci.II. S 2 y ∑ (a + bx = − a − bx ) 2 = b 2 ∑ xi − x N ( ) 2 = b 2 S x2 S2 1 b∑ xi − x r= = x2 = 1 N S x bS x Sx Cand punctele nu sunt pe dreapta. Statistica matematica si biostatistica Regresia liniara 2 2 sY − sY SS linear + SS deviatie de la linearitate SS linear X r2 = = si η 2 = 2 SS total SS total sY Raportul de corelare η 2 este proportia de variabilitate a lui • Y atribuabila covariantei cu X . Legatura intre panta dreptei de regresie si coeficientul de corelatie Avem dupa definitie r= 1 N ∑⎜ ⎜ ⎛ xi − x ⎞⎛ y i − y ⎞ ⎟ ⎟⎜ S x ⎟⎜ S y ⎟ ⎝ ⎠⎝ ⎠ In cazul in care punctele yi sunt toate pe o dreapta y i = a + bxi 1 r= N ⎛ x − x ⎞⎛ a + bxi − a − b x ⎞ 1 b∑ xi − x ⎟= ∑ ⎜ iS ⎟⎜ ⎟⎜ ⎜ ⎟ N Sy SxSy ⎝ x ⎠⎝ ⎠ i ( ) 2 N Deci. inlocuind mai sus 1 r= N dar.

este necesara o cunoastere a metodei analitice este foarte importanta in luarea deciziilor pentru una dintre cele 2 drepte. Un test statistic al interceptului poate fi pornind de la ipoteza nula ca interceptul este 0. ambele drepte au fost construite din acelaşi date experimentale. vom obţine răspunsuri care sunt diferite faţă de cele previzionate de dreapta trasată anterior. Desi nu putem spune cu încredere care dreapta este mai potrivita. sugerează fie nonlinearitatea pentru un sir de analize fie prezenţa unei substanţe care interferează în proba de analizat. Dreapta pe care o vom folosi se va face pe baze statistice. la stabilirea dreptei “de etalonare” se fac mai multe determinari. dacă interceptul este zero. “Este vre-o dreapta care este corecta?” sau “Este una din cele 2 drepte mai “buna” decat cealalta?”. Calcularea pantei este simplificată dacă dreapta este forţată să treacă prin punctul de (0. 100 .II.8. 7. Respingerea ipotezei este o dovadă puternică că dreapta cu intereceptul pozitiv este cea mai adecvata pentru aceste date. (H0: A = 0). În cazul acesta nostru. 0).7. adica in cazul acesta rezultatul trebuie să fie 0 dacă concentraţia de medicament este 0. Statistica matematica si biostatistica Regresia liniara 2. pentru fiecare concentratie. Stabilitatea dreptei de regresie in bioanalitica In bioanalitica si in chimia analitica in general. panta este: ∑ Xy b= ∑X2 Fig. un intercept diferit de zero. Curbele de etalonare (dreptele) trebuie sa treaca prin origine. De exemplu. Cu toate acestea. Curba care trece prin origine si are interceptul 0 Dacă această dreaptă urmează să fie folosită pentru a prevedea concetraţiile actuale bazându-se pe rezultatele analizei experimentale.

II.3294 0.5 2. Sa evaluam ce efect are asupra acuratetei punctelor o eroare de 10 % la limita de cuantificare (LLOQ) si o eroare de 10 % la limita superioara de cuantificare. Statistica matematica si biostatistica Regresia liniara Se calculeaza apoi “acuratetea” sau “exactitatea “ acestor determinari.0019 R 0. concentratia care s-a preparat efectiv ( pe care o consideram ca nu este afectata de erori). experimentale la diferite limite de cuantificare 101 .5 3.5 0.0079 B 0. In mod concret .0 Linear Regression Y = B*X + A Parameter Value Error A -0.9999 0 2 4 6 Conc (µg/mL) 8 10 12 Fata de concentratia “nominala’.0 1. sa afecteze putin acuratetea “dreptei”.0029 0. cuantificata prin distanta valorii calculate prin regresie Piroxicam 3. 5). Acuratetea punctelor dupa o schimbare de 10% a conc. Este de dorit o dependenta stabila a acuratetei punctelor de acuratetea datelor de intrare.5 1. consideram datele experimentale de la determinarea dreptei de etalonare a piroxicamului in probe de plasma (fig. Orice eroare in preparare sau masurare schimba dreapta. in sensul ca o eroare mica in preparare sau in masurare. In momentul in care media determinarilor efective la una din aceste concentratii se modifica.0 Area Analit/Area SI 2. si dreapta de regresie se va modifica si deasemena si distantele tuturor punctelor experimentale la aceasta dreapta.0 0.

7 91.1570 0.7 Acc initial 90.3 103. indiferent de forma farmaceuticǎ luatǎ în calcul.164 0. respective dozatǎ.786 Limita superioara de cuantificare Conc 0. estimarea dreptei de regresie. este practice sub data efectivǎ de expirare şi se înlaturǎ eventualele erori care apar în calculul statistic.99 96.014 102.4 104. De regulǎ durata de valabilitate se calculeazǎ astfel încât la termenul de expirare.168 Acc 164. aplicarea metodei regresiei lineare are un rol important.037 2.7 99.1 105.8 Acc initial 90. respective a parametrilor ei joacǎ un rol foarte important in studiul stabilitǎţii unui medicament. se ia in considerare limita inferioarǎ in calculul stabilitǎţii unui medicament.752 10. pe lângǎ determinariile practice de stabilitate.01 102.84 97.25 0.7903 1.786 Se observa ca efectul erorilor la concentratii mici asupra celorlalte concentratii este neglijabil.083 9.321 101.1 0.070 103.083 0.6711 3. Aşa cum s-a aratat in exemplul tabletelor cu tiaminǎ. Tabelul nr.0818 0. În acest fel putem fi siguri ca data de expirare care este înscrisa pe cutie. Astfel determinarea intervalului de încredere pentru a stabili termenul de valabilitate al unui medicament se obţine folosind aceasta metoda. Cu ajutorul dreptei de regresie (dreapta celor mai mici pǎtrate) se pot face estimari pentru a stabili valabilitatea unui produs.6711 3.0240 0.5 5 10 A/SI 0.1 127.8 95.294 4.643 99.5 1 2.318 0.07 103.259 0.978 Acc 83.0267 0.0 101.5 1 2. transformandu-le pe acestea in “valori discordante”.991 96.5 103.527 1. forma farmaceuticǎ luatǎ în considerare (în cazul nostru tabletele de tiaminǎ) sǎ conţinǎ cel puţin 90% din substanţa activǎ declaratǎ.841 97.041 2.487 1.409 5.7903 1.5 5 10 A/SI 0.643 99.25 0.6124 Conc exp 0.II. deoarece practic durata de viaţǎ a unui medicament se situeazǎ intre limitele acestui interval.1 96.2840 Conc exp 0.4 101.3396 0.3396 0. in timp ce efectul erorilor la valori mari asupra acuratetei concentratiilor mici este “critic” . 7 Statistica matematica si biostatistica Regresia liniara Limita inferioara de cuantificare Conc 0.32 101. Luând în considerare aceste lucruri.4 97.0818 0. 102 . Concluzii În studiul stabilitaţii medicamentului.1 0.1570 0.

12 luni. 9. 3. În acest mod se eliminǎ o parte din erori. analizele se fac de regulǎ la 0. la timpi mai scurţi dar în condiţii de temperaturǎ şi umiditate crescute. În estimarea întervalelor de încredere pentru stabilirea valabilitǎţii unui medicament. iar mai apoi anual. Practic ele conduc la stabilirea valabilitǎţii acestor. În momentul datei limitǎ a valabilitǎţii unui medicament. De asemenea se pot efectua şi studii de stabilitate accelerate. 103 . Statistica matematica si biostatistica Regresia liniara Calculul intervalelor de încredere sunt necesare de asemenea pentru a stabili durata de viaţa a unui medicament. 6. Tocmai de aceea se ia în considerare limita inferioarǎ a acestor intervale. acesta trebuie sa nu fi pierdut mai mult de 10% din cantitatea aflatǎ iniţial în produsul luat în calcul.II.

Statistica matematica si biostatistica Regresia liniara 104 .II.

în plus faţă de mijloacele de calcul a “tendinţei centrale” a rezultatelor experimentelor repetate. deci că excipienţii folosiţi nu influenţează semnificativ cedarea şi absorbţia substanţei active: H 0 : μ1 = μ 2 = μ 3 = μ 4 faţă de ipoteza alternativă că cel puţin două medii nu sunt egale. de exemplu. în aceeaşi doză. în final. Fie. factori locali. nici măcar μ1 = μ 4 nu implică în acest caz μ 2 = μ 3 din cauza dependenţei rezultatului testelor de relaţiile între dispersiile populaţiilor din care provin selecţiile. inevitabili. Metode statistice de analiza factorilor de variabilitate în experimentul biologic (ANOVA) Să cercetăm. Vrem să verificăm ipoteza compusă că acestea provin de fapt din aceiaşi populaţie. de exemplu concentraţiile plasmatice realizate de tablete care conţin diferiţi excipienţi. problema comparării mai multor selecţii (loturi) trebuie abordată prin alte metode care să facă compararea tuturor selecţiilor în acelasi timp. O variantă de rezolvare a problemei ar fi compararea mediilor de selecţie două câte două prin metodele prezentate anterior. Analiza dispersională este o altă metodă fundamentală a statisticii care.9. Motivul acestei erori este legat în primul rând de violarea unui principiu de bază al teoriei selecţiei: alegerea la întâmplare a selecţiilor. Ori compararea loturilor după criteriul “a posteriori”. al mărimii mediilor de selecţie este într-adevăr o abatere de la acest principiu. determinând o fluctuaţie mai mică. problema comparării mai multor selecţii provenite din populaţii pe care le ştim ca fiind normal repartizate. dar care au aceeaşi substanţă activă. Mai mult. a unor factori aleatori de fluctuaţie mai pronunţată şi. relaţia între mediile de selecţie x1 〈 x2 〈 x3 〈 x4 . în continuare. Statistica matematica si biostatistica ANOVA 2. caracterizează mai ales variabilitatea acestora şi factorii ce o determină. Ca urmare.II. având media μ şi dispersia σ. definita “ca 105 . Variabilitatea se poate datora existenţei unor factori cu influenţe sistematice. O astfel de abordare se bazează pe compararea dispersiilor de selecţie şi se numeşte analiză dispersională. Este evident greşit a aplica o relaţie de tranzitivitate şi a spune că μ1 = μ 2 şi μ 2 = μ 3 şi μ 3 = μ 4 ⇒ μ1 = μ 2 = μ 3 = μ 4 .

deci tratamentele sunt echivalente între ele. este separată într-o parte datorită variaţiei între grupuri (within).9. În consecinţă. se testează ipoteza nulă că toate valorile parametrului testat sunt egale în populaţia corespunzătoare diferitelor tratamente testate. După măsurarea unui parametru dat. la care se poate adauga şi un grup “placebo”. Statistica matematica si biostatistica ANOVA fluctuaţie experimentală”. Principial datele experimentale se grupează în funcţie de diferite criterii şi se urmăresc efectele asupra variabilitatii în funcţie de aceste criterii. dispersia totală. De exemplu.1. 2. variabilitatea factorilor cu efecte aleatoare. Voluntarii se distribuie aleator în toate grupurile. Analiza dispersională îşi propune separarea “variabilităţii totale” în: variabilitatea datorată factorilor sistematici. “experiment cu grupuri paralele”.II. sau variabilităţii “interioare” şi o parte datorită variabilităţii “dintre” (between) grupuri: SS T = SSW + SS B . Din aceste variabilităţi se evaluează dispersiile parţiale corespunzătoare diferiţilor factori. corespunde testului t de analiză a două eşantioane independente şi compară două sau mai multe grupuri. calculându-se semnificaţia rapoartelor lor prin aplicarea testului F. In ipoteza că toate grupurile aparţin aceleiaşi populaţii. plus o variabilitate “reziduală” (diferenţa până la variabilitatea totală). Putem să comparăm efectele a două medicamente administrate la mai multe grupuri de voluntari. efecte care se cuantifică în raport cu variablitatea reziduală. ideea testului este aceea că variabilitatea în interiorul grupurilor trebuie să fie de acelaşi ordin cu variabilitatea între mediile grupurilor. n pacienţi sunt grupaţi în k scheme de tratament. evaluată ca suma a pătratelor diferenţelor între valorile individuale şi media întregii populaţii selectate SST. care reprezintă de fapt variabilitatea experimentală. numită analiză dispersională unidimensională sau unifactorială (numită în literatura engleză şi “one-way ANOVA”) sau “experiment complet aleator”. Dacă numărul de grupuri este k şi numărul de subiecţi în grupul i este ni această egalitate poate fi explicitată după cum urmează: 106 . Analiza dispersională este cunoscută în aplicaţiile de biofarmacie şi farmacocinetică sub denumirea de ANOVA (de la Analysis of Variance). Analiza funcţională unifactorială Cea mai simplă analiză dispersională.

sB = B şi sW = . j 2 Deci. Considerăm variabilele aleatoare: SSW SSW SS T SS T SS 2 2 2 sT = = = . SSW = ∑ xij − x.II. k −1 ∑ ni − 1 N − 1 ∑ ni − k N − k Ţinând cont de regula generală demonstrată mai înainte că. n i ni Statistica matematica si biostatistica ANOVA SS T = ∑∑ xij − X j =1 ( ) i 2 (1) ij unde X = media ∑∑ x mare = ∑n j i ∑nX = ∑n k 1 i k 1 i i = ∑x N şi X i este media grupului i. Fixând grupul i putem scrie ∑ (x ni j ni j ij −X ) = ∑ [(x 2 ni j =1 2 ni j ij − Xi + Xi − X −X ) ( ) 2 )] 2 = = ∑ xij − X i ( ) + ∑ (X i + 2∑ xij − X i X i − X j ni ( )( ) Ultimul termen este egal cu ⎛ ni ⎞ 2 X i − X ⎜ ∑ xij − X i ⎟ = 2 X i − X ni X i − ni X i = 0 ⎜ ⎟ ⎝ j ⎠ şi (1) devine ( ) ( )( ) SST = ∑ ni X i − X i k ( ) + ∑∑ (x 2 k i ni j ij − Xi ) 2 = SS B + SSW (2) relaţie cunoscută ca identitatea analizei dispersionale.i i. (n − 1)δ x2 ≈ σ 2 χ 2 (n − 1) avem. sW = ( ) = ∑ ( n − 1) 2 i i ∑( x j ij − x.i ) 2 ni − 1 = ∑ ( ni − 1) si2 i SSW ≈ σ 2 χ 2 (∑ (ni − 1)) = σ 2 χ 2 ( N − k ) ∑ (ni − 1) 107 .

N − k ) . Pentru simplificarea calculelor în aplicaţiile practice s-au introdus Se observă că de fapt notaţiile ∑ n (X k i i −X ) 2 ∑∑ x i j k ni ij = ∑ x şi ∑∑ x i j k ni 2 ij = ∑ x 2 şi formulele precedente se aduc la forme echivalente ce presupun un volum mai mic de calcule. deoarece fiecare valoare măsurată este raportată la însăşi media grupului respectiv. s B ≈ σ χ (k − 1) şi deci raportul F = 2 SSW SW N −k distribuit F ( k − 1. după cum urmează: SST (∑ x ) + N (∑ x ) = ∑ (x − X ) = ∑ x − 2 X ∑ x + N X = ∑ x − 2 N N (∑ x ) = x − (∑ x ) = ∑x − ∑ N N 2 2 ij 2 ij 2 ij 2 ij ij ij 2 2 2 2 ij ij 2 k 2 = SS B = ∑ ni X i − X 1 ( ) 2 ⎞ ⎛ ni ⎞ ⎛ ⎞ ⎛ ni ⎜ ∑ xij ⎟ ⎜ ∑∑ xij ⎟ ⎜ ∑ xij ⎟ 2 ⎟ ⎜ ⎟ ⎜ ⎟ k ⎜ ⎠ = k ⎝ j =1 ⎠ − (∑ x ) ⎝ j =1 ⎠ − ⎝ i j =∑ ∑1 n k k ni 1 i ∑1 ni ∑ ni 1 2 2 2 108 . Abaterile în interiorul grupurilor sunt independente de aceşti factori. Abaterile mediilor grupurilor faţă de media generală depind atât de hazardul măsuratorilor cât şi de factori ce ţin de însăsi natura grupurilor. Ele reprezintă fluctuaţii aleatoare. Variabilitatea în interiorul grupurilor reprezintă diferenţa între variabilitatea totală şi variabilitatea între grupuri.II. Statistica matematica si biostatistica ANOVA SS B 2 2 2 2 k − 1 = S B este Analog. SS B 2 = sx reprezintă = i k −1 k −1 dispersia de selecţie ponderată a mediilor de grup faţă de marea medie.

ˆ E (MS linear ) = E ∑ y i − y ( ( ) ) = E (∑ (a + bx − a − b x) ) = ∑ (x − x) E (b ) 2 2 2 2 i i 2 Dar. chiar si atunci cand evident evolutiile nu urmeaza un model liniar. Din acest motiv este nevoie si de teste statistice care sa verifice ipoteza ca efectiv un model liniar este aplicabil.1. Statistica matematica si biostatistica ANOVA 2. E (b 2 ) = D (b ) + [E (b )] = Folosind relatia b = r Sy Sx ∑ (x 2 σy i −x ) 2 + [E (b )] 2 ⇒ E (b ) = ρ σx si σy 2 σy ⎞ ⎟= 2 ⎟ σx 2 ⎛ σy E (MS linear ) = ∑ xi − x ⎜ ⎜ ⎝ ∑ xi − x ( ) 2 =σy + ∑ (x i 2 − x ρ 2σ y ) ( ) 2 + ρ2 ⎠ 2 σ 2 x 2 2 = σ y + Nρ 2σ y In fapt aici am presupus ca pentru fiecare punct xi valorile 2 corespunzatoare y ij au o dispersie σ y x care este aceeasi pentru toate 2 punctele xi si deci putem sa o notam cu σ y sau σ e2 . Aplicarea ANOVA in testarea ipotezei privind depdendenta liniara a datelor Evaluarile statistice de pana acum permit determinarea unei drepte sau a unui fascicul de drepte care aproximeaza evolutia fenomenului descris de datele experimentale. a) Testarea linearitatii : Pornind de la cele prezentate in capitolul privind regresia liniara. SS observam ca SS eroare are N − I grade de libertate si deci MS eroare = eroare N −I 2 avem ca E (MS eroare ) = σ e In cele ce urmeaza vom calcula media sumei MS linear . Un astfel de rezultat se poate obtine oricand. Deci.9.II. Lucrurile nu se intampla intotdeauna in acest fel.1. De exemplu in cazul dreptei de etalonare in bioanalitica dispersiile sunt practic semnificativ 109 . « cea mai buna dreapta” poate fi in fond foarte proasta.

N − I = MS linear . Compararea parametrilor farmacocinetici ai unui medicament după administrarea pe mai multe căi Să considerăm constanta de eliminare (Tabelul 8) pentru un medicament administrat într-o singură doză oral şi i. Este de aşteptat ca eliminarea să fie independentă de calea de administrare.9.v. Statistica matematica si biostatistica ANOVA mai mari la limita de cuantificare (pana la 20%) – fata de restul concetratiilor la care limita admisa pentru « precizie » este de 15%. FI −2. o doza 55 40 109 204 16506 3 2 68 i.2. 4 −1 Tabelul nr.m. 2. N − I = MS eroare testului • Raportul de corelare η 2 este proportia de variabilitate a lui Y atribuabila covariantei cu X .1. 8: Constanta de eliminare k e ∗ 10 min Oral prima doza 106 109 160 375 48717 3 2 125 i.. MS eroare b) Testarea ipotezei de nonlinearitate : H 0 : η 2 − ρ 2 = 0 Pentru aceasta se compara valorile MS deviatie de la linearitate cu valorile din distributia Fischer. iar i. Vom compara constantele de eliminare după administrarea orală şi i. timp de trei zile la diferite grupuri.m.m. Ipotezele de verificat sunt : H0 : ρ = 0 echivalenta cu H0 : β = 0 folosind variabila aleatoare F1.m.II. a-5-doza 84 105 174 363 48357 3 2 121 ∑x ∑x ni ij 2 ij ∑ x = 942 ∑ x = 113580 2 N=9 ni − 1 ∑ (n i − 1) = 6 xi 110 . • Coeficientul de determinare (corelatie) este proportia de variabilitate a lui Y atribuabila covariantei liniare cu X .

m.97 . 9: Constanta de eliminare k e ∗ 10 min 106 109 160 375 48717 3 2 125 i.6 ) = 2 = = 2. 6.v. ∑ ni − k ) = F (2. o doza 55 40 109 204 16506 3 2 68 2 2 ∑x ∑x ni ij 2 ij i. Statistica matematica si biostatistica ANOVA SST (∑ x ) = ∑ (x − X ) = ∑ x − N 2 2 ij k 2 = 113580 − 2 9422 = 14984 9 2 SS B = ∑ ni X i − X i =1 2 2 ( ) 2 ⎛ ni ⎞ ⎛ ⎞ ⎜ ∑ xij ⎟ ⎜ ∑∑ xij ⎟ ⎟ ⎜ ⎟ k ⎜ j =1 ⎠ −⎝ i j ⎠ = = ∑⎝ k ni 1 ∑ ni 1 2 2 = 375 204 363 942 + + − = 46875 + 13872 + 43923 − 98596 = 6074 3 3 3 9 SSW = SS T − SS B = 14984 − 6074 = 8910 SSW SS B 6074 8910 2 = = 1485 .5 = 7.26 si f 2. 4 −1 Tabelul nr.07 valoare aflată în zona de sW 1485 acceptare ( f 2. introducând şi administrarea i. 6. a-5-doza 84 105 174 363 48357 3 2 121 2 i.m.92 ) 2 sW = Aplicăm în continuare acelaşi procedeu. 63 70 133 8869 2 1 66 ∑ x = 1075 ∑ x = 122449 2 N=11 ni − 1 ∑ (n i − 1) = 7 xi SST (∑ x ) = ∑ (x − X ) = ∑ x − N ij 10752 = 122449 − = 17392 11 111 .II.v. s B = = = 3037 N −k k −1 6 2 2 s B 3037 F (k − 1.99 = 10.

Pentru verificarea acestei ipoteze se poate aplica testul F dispersiilor de selecţie luate două câte două.1. s B = = = 2809 N −k k −1 7 3 2 s B 2809 F (k − 1. ∑ ni − k ) = F (2. Statistica matematica si biostatistica ANOVA SS B = ∑ ni X i − X i =1 2 2 k ( ) 2 ⎛ ni ⎞ ⎛ ⎞ ⎜ ∑ xij ⎟ ⎜ ∑∑ xij ⎟ ⎟ ⎜ ⎟ k ⎜ j =1 ⎠ −⎝ i j ⎠ = = ∑⎝ k ni 1 ∑ ni 1 2 2 2 2 2 = 375 204 363 133 1075 + + + − = 11 3 3 3 2 = 46875 + 13872 + 43923 + 8844 − 105056 = 8428 SSW = SS T − SS B = 17392 − 8428 = 8964 SSW SS B 8428 8964 2 = = 1280 .3. Ca urmare rezultatul masuratorilor este o variabila aleatoare care se poate scrie: xij = μ + α i + ε ij cu E (ε ij ) = 0 şi D(ε ij ) = σ e2 unde μ este 112 . Dacă acest lucru nu se întâmplă. Condiţii necesare pentru aplicarea analizei dispersionale.97 . 2) Analiza dispersională compară dispersia între grupuri cu dispersia totală din interiorul grupurilor pentru punerea în evidenţă a efectelor sistemice. rămâne să fie aplicate teste neparametrice.5 = 7. a) Modelul variabilei aleatoare supusă măsuratorilor Subliniem ceea ce am spus sau am presupus ca şi condiţii prealabile pentru a putea aplica testul prezentat: 1) Pentru ca sumele calculate să fie repartizate χ 2 este obligatoriu ca selecţiile să provină din populaţii repartizate normal.19 valoare aflată în zona de sW 1280 acceptare ( f 2. Dispersiile în populaţiile din care provin grupurile s-au presupus egale. 3) Aditivitatea efectelor de intra şi intervariabilitate. sau se poate aplica testul Bartlett.92 ) 2 sW = 2.6) = 2 = = 2. 6. 6.99 = 10. fenomen care depinde de natura intimă a fenomenului măsurat.9.26 şi f 2.II. după cum s-a prezentat anterior.

α i este un factor fix ce variază de la un grup la altul şi este egal cu diferenţa între μ şi media grupului μi = μ + α i . Statistica matematica si biostatistica ANOVA 2 media generală a populaţiei. Sumând pentru toate grupurile se obţine 2 ⎛ ∑ ( ni − 1) Si2 ⎞ ∑ ( ni − 1) E ( Si ) N − k 2 2 σ = σ e2 E ( sw ) = E ⎜ = ⎟= ⎜ ⎟ N −k N −k N −i ⎝ ⎠ 2 Deci s w este un estimator nedeplasat al lui σ 2 indiferent dacă ipoteza H 0 este adevărată sau nu. = nk = n ( ) ( ni − 1 ) ni − 1 iar media ei este 2 sB = = σ e2 i n k −1 În ceea ce priveşte α avem două cazuri în funcţie de cum a fost ales: 2 2 2 a) α este o variabila aleatoare N (0. s x fiind un estimator nedeplasat al dispersiei). i Media generală va fi: M = μ + ∑α + ∑∑ ε ij interiorul grupului va fi: s 2 i 2 i ) ∑ (x − X ) = ∑ (ε = ij i ( ij − εi ) 2 2 2 ⎞ ⎛ ⎞ ⎛ ⎜ ∑ xij − X i ⎟ = E ⎜ ∑ ε ij − ε i ⎟ = σ 2 (din faptul că aşa cum s-a E (s ) = E e ⎜ ⎟ ⎜ ni − 1 ni − 1 ⎟ ⎠ ⎝ ⎠ ⎝ 2 2 arătat mai înainte E (s x ) = σ 2 .II. atunci s B = nsα + s e2 si i 2 2 E s B = nσ α + σ e2 ∑ (ε − ε ) n 2 2 2 ⎤ 1 n ⎡ SS B αi − α + ∑ ⎛ ε i − ε ⎞ ⎥ ni ⎛ X i − X ⎞ = = ⎜ ⎟ ⎜ ⎟ ∑ ⎝ ⎢∑ ⎝ ⎠ ⎦ ⎠ k −1 ⎣ k −1 k −1 2 ( ) = nsε2 şi E ( nsε2 ) = n σ e2 ( ) 113 . Dacă n1 = n2 = . D (α ) = σ α . Media a X i = μ + αi + n ∑ ε ij n determinări în interiorul unui grup este = μ + α i + ε i deoarece α i şi μ sunt constante.. iar ε ij este eroarea de măsurare.. σ α ) . Mai departe xij − X i = ( μ + α i + ε ij ) − μ + α i + ε i = ε ij − ε i şi dispersia în 2 = μ + α + ε deoarece k kn α i variază de la un grup la altul iar μ este acelaşi pentru întreaga populaţie.

Pentru simplificarea scrierii prezentăm pentru început cazul când testăm k medicamente continând aceeaşi substanţă activă. Scindarea dispersiei totale în dispersii parţiale ale treptelor. dar nu mai avem ∑α i = 0 pentru o grupă de selecţie oarecare. la întreaga populatie şi nu la şarjele cercetate. α i = μ − μ i ⇒ ∑α i = 0 şi α = 0 . Se consideră că efectele determinate de cei doi factori analizaţi sunt variabile aleatoare independente. Având doi factori. În continuare ne vom ocupa de cazul când vrem să determinăm ponderea a doi factori în acelaşi timp. alese întâmplator din toate selecţiile posibile din întreaga populaţie. liniile şi coloanele 114 .. atunci i − 0) 2 +s 2 e ∑α şi E (s ) = n 2 B 2 i + σ e2 SS B este o estimatie nedeplasată a lui σ e2 numai k −1 atunci când ipoteza H 0 este adevărată. Scindarea erorii totale în erorile parţiale ale fazelor oferă posibilitatea punerii în evidenţă a fazelor ce determină diminuarea reproductibilităţii şi a locului unde trebuie intervenit pentru îmbunătăţirea metodei. 2.. α este o variabilă aleatoare care aparţine 2 N (0.2. atunci când n1 = n2 = . folosind datele obţinute într-un singur experiment. s B = b) Clasificarea ierarhică în trepte. Analiza dispersională multifactorială În analiza anterioară criteriul de împărţire în grupuri a fost unul singur – calea de administrare sau perioada de administrare. administrate în n perioade diferite.9. se testează două ipoteze de nul. este de aşteptat ca aceasta să fie egală cu suma erorilor parţiale ale fazelor analizei. = nk = n . de exemplu cand dorim sa verificam omogenitatea populatiei. Dacă vom aşeza datele într-o matrice. σ α ) .II. Statistica matematica si biostatistica ANOVA b) α i k −1 k −1 Daca ne referim la grupe oarecare. Este cazul când concluziile ce ne interesează se referă. 2 Ca urmare. în principal. Dacă vom considera eroarea unei metode de analiză. 2 2 2 2 s B = nsα + s e2 şi E (s B ) = σ e2 + nσ α . s 2 B ∑ (α =n factori ficşi . Calcule similare arată că.

loturi ce difereau intre ele prin compozitia solului. reprezintă media valorilor din linia j. Tabelul nr. . Modelul acestui tip de experiment a fost dezvoltat in 1925 de catre R. 1 R. n Medicament 1 X11 X21 2 X12 X22 … k X1k X2k x1.Fischer. Statistical Methods for Research Works.A. iar xi. In acest fel fiecare bloc include toate tratamentele.Fischer 1 care a cercetat productivitatea mai multor soiuri de grau. Hafner. Distribuirea tratamentelor s-a facut aleator pe loturi in cadrul blocurilor. Statistica matematica si biostatistica ANOVA corespunzând respectiv pentru valori date ale primului şi ale celui de al doilea factor. In experimentele clinice analiza dispersionala pe 2 cai este asociata unui tip special de experiment numit “experiment cu blocuri complet randomizate”. j reprezintă media valorilor din coloana i. 1958 115 . 13-th Editions. Eficacitatea studiilor depinde de omogenitatea blocurilor.II.1 x. Xn1 Xn2 xnk x n. o primă ipoteză se referă la egalitatea mediilor liniilor.A. suplimentare conditiilor de distributie normala si de egalitate a dispersiilor. 10 : 1 Perioada Tratament 2 .2 x. numite de el tratamente. x 2. sunt greu de asigurat intotdeauna drept pentru care trebuiesc stabilite limitele abaterilor in functie de obiectivele studiului. Aceste conditii. Obiectivul studiului este de a separa efectele reziduale aleatoare de efectele de bloc. Distributia aleatoare se face in fiecarui bloc. New York. x. Ipoteza alternativă presupune existenţa unor diferenţe între linii sau respectiv între coloane. semanate in mai multe blocuri omogene formate din mai multe loturi. iar a doua la egalitatea mediilor coloanelor. k unde x. .

Voicu. Intr-o prezentare grafica. De exemplu. coloanelor şi erorilor întâmplătoare: xij = μ + α i + β j + ε ij unde α i este partea lui x ij datorată liniei (schemei de administrare).1. administrate la aceiasi subiecti 2 . atunci cand consideram raspunsurile pentru un factor tinut constant si un factor ce ia doua valori diferite (numite de regula « nivele ») sa obtinem linii paralele. Biointernational 2005. V. Valorile experimentale le considerăm ca rezultanta unor efecte aditive corespunzător liniilor. iar ε ij este eroarea experimentală. Difficulties in applying BE rules. Mircioiu.A. Propafenona C. London 2 116 . Statistica matematica si biostatistica ANOVA 2. β j reprezintă contribuţia coloanei (forma medicamentoasă). Modelul variabilei aleatoare. consideram liniile de sub curba (AUC) ale propafenonei si hidroxi-propafenonei pentru doua medicamente.9. testat T si referinta R. Drugs with active metabolites.2. Modelul este in esenta un model « aditiv » prin aceea ca nu presupune interactiuni intre factori. Octomber 24th-26th.II.

Scindarea sumei pătratelor abaterilor.2. expresie ce se poate scrie şi în forma: [( ) ( ) ( ∑ ∑ (x − x ) + ∑ ∑ (x − x ) + ∑ ∑ (x − x − x + x ) 2 2 2 L C ij L C SS T = ∑ ∑ (xij − x ) = ∑ ∑ x L − x + xC − x + x − x L − xC + x 2 )] 2 = = SS L + SS C + SS R Produsele mixte nu s-au mai trecut deoarece sunt nule. Corespunzător rezultatelor prezentate la analiza unifactorială. o componentă dată de coloane şi o componentă reziduală. Statistica matematica si biostatistica ANOVA Hidroxi-propafenona 2. Am scindat aşadar variabilitatea totală într-o componentă dată de linii. Suma pătratelor abaterilor valorilor individuale faţă de media generala M este: 2 SS T = ∑ ∑ (xij − x ) .II. aici se poate arăta că: E (SS T ) = (nC n L − 1)σ 2 + n L ∑ α i2 + nC ∑ β j2 E (SS C ) = (n L − 1)σ 2 + nC ∑ β j2 E (SS L ) = (nC − 1)σ 2 + n L ∑ α i2 E (SS R ) = (nC − 1)(nL − 1)σ 2 117 .2.9.

doza 55 40 109 204 16506 3 2 68 o i. ( H 02 ) : toate medicamentele (coloanele) sunt echivalente. sC si s L sunt estimaţiile nedeplasate ale lui σ 2 . Variaţia unui parametru farmacocinetic atât în funcţie de calea de administrare cât şi în funcţie de numărul de administrare Constanta de eliminare k e ∗ 10 4 min −1 Tabelul nr.II. Statistica matematica si biostatistica ANOVA In cazul analizei bifactoriale apar două ipoteze de nul pe care vrem să le testăm: ( H 01) : toate formele de tratament (liniile) sunt echivalente.m. 2 2 2 Dacă cele două ipoteze sunt adevărate: s e2 = s R . 2 Indiferent dacă ipotezele sunt adevărate sau nu. SS T = ∑ x (∑ x ) − 2 118 . adica β j = 0 . adica α i = 0 . Pentru a testa ipoteza H (2 ) (1) 2 sL este natural să considerăm raportul 2 . doza 84 105 174 363 48357 3 2 121 a-5- i. se 2 sC iar pentru ipoteza H raportul 2 .m.3. 11: Oral doza 106 109 160 375 48717 3 2 125 2 prima ∑x ∑x ni i i. variabilitatea se poate scinda în patru componente: SS T = SS L + SS C + SSW + SS R 2.2. 63 70 133 8869 2 1 66 2 i ∑ x = 1075 ∑ x = 122449 2 N=11 ni − 1 xi ∑ (n i − 1) = 7 = 17392 N Mai departe considerăm două grupuri: voluntarii cărora medicamentul li s-a administrat o dată şi voluntarii care au primit 5 doze.9.v. se În cazul în care pentru fiecare combinaţie de cauze se fac mai multe determinări folosind mai mulţi voluntari. E (s R ) = σ 2 .

∑ ni − k ) = F (1. 2 = 122449 − SS B (cale ) = ∑ ni xi − X i =1 2 2 2 k ( ) 2 ⎛ ni ⎞ ⎛ ⎞ ⎜ ∑ xij ⎟ ⎜ ∑∑ xij ⎟ ⎜ ⎟ ⎜ ⎟ k ⎝ j =1 ⎠ − ⎝ i j ⎠ = =∑ k ni 1 ∑ ni 1 2 2 2 375 204 133 1075 + + − = 3 3 2 11 46875 + 13872 + 43923 + 8844 − 105056 = 8428 2 363 2 (375 + 204 + 133) SS B (nr.doze ) = + − 105056 = 2235 3 8 SSW = SS T − SS B (cale ) − SS B (nr. SS T 2 2 (∑ x ) = ∑ (x − x ) = ∑ x − N (f 1. = = 15157 N −k 9 k −1 1 15157 F (k − 1. nici calea de administrare şi nici numărul de doze nu influenţează rata eliminării.9) = = 9 care aparţine zonei de acceptare 1684 pentru riscul α 〈 0. 9.6)=0.24 Între numarul de doze 1 2235 f(1. 12 Sursa de variaţie GL SS Rapotul F Între căile de administrare 3 8428 f(3.12) .56) dar nu aparţine zonei de acceptare pentru α 〈0.doze ) = 17392 − 2235 = 15157 SSW SS B 15157 15157 = = 1684 .32 Variaţia intragrupuri 6 6792 Variaţia totală 10 17392 şi comparând cu valorile din tabelele de repartiţie Fisher se constată că poate fi acceptată ipoteza că toate grupurile cercetate aparţin aceleiaşi populaţii statistice. Deci. Statistica matematica si biostatistica ANOVA 2 363 2 (375 + 204 + 133) SS B (nr.01 ( f1.II. 119 .95 = 5.9.6)=1.doze ) = 17392 − 8428 − 2235 = 6792 În acest fel am obţinut următoarele rezultate: = Tabelul nr.99 = 10.doze ) = + − 105056 = 2235 3 8 SSW = SS T − SS (nr.05 1075 2 = 17392 i 11 Un alt factor care poate influenţa concentraţia în sânge este calea de administrare.

2 33162.3 132.2 Pe aceasta cale obţinem: Sursa de variaţie Între pacienţi Între medicamente Între perioade Variaţia intragrupuri Total DF 8 2 2 14 26 Suma pătratelor 29834. perioadă. Compararea biodisponibilităţii unei substanţe active administrate în preparate diferite şi în perioade diferite de tratament.1 264.2. 120 .II.1 2 2 SS B (medicament ) = ∑ SS B I ( perioada ) = ∑ 2 (∑ medicament ) (∑ x ) − 9 N + ∑ II 2 + ∑ III 2 = 1116.3 1947.4.3 558.15 0. Trei medicamente au fost administrate la nouă subiecţi într-un studiu de biodisponibilitate obţinându-se ariile de sub curbă prezentate mai jos : Perioada Pacient 1 Pacient 2 Pacient 3 Pacient 4 Pacient 5 Pacient 6 Pacient 7 Pacient 8 Pacient 9 Suma pe perioadă Suma pe medicament Media pe medicament 1 B=107 A=100 B=98 C=71 A=92 C=113 B=169 C=88 A=122 I: 160 A: 945 105 2 C=102 C=106 A=90 B=54 B=111 A=115 A=107 B=95 C=168 II: 1028 B: 969 107. Statistica matematica si biostatistica ANOVA 2.1 Media 3729.9.1 177 Raportul F 3.1 116.8 Suma 308 295 316 188 310 319 551 260 445 ∑ x = 2992 ∑ x = 364720 2 Separăm acum varianta în patru componente: pacienţi.0.1 2 2 SS B ( pacienti ) = ∑ (∑ linie ) (∑ x ) − 3 N 3 i =1 = 29834.3 9 N SSW = SS T − SS B ( pacienti ) − SS B (medicament ) − SS B ( perioada ) = 1947.5 2 = 264.74 nu există diferenţe semnificative între cele două medicamente după administrare unică sau administrări multiple. medicament şi eroarea în interiorul tuturor grupurilor.7 3 A=99 B=89 C=128 A=63 C=107 B=91 C=195 A=77 B=155 III: 1004 C: 1078 119.99 = 3.75 (∑ x ) − Deoarece f 2. SS T = ∑ x 2 (∑ x ) − N 9 i =1 2 = 33162.14.

k ) + C( j −1. cu media 0 şi dispersia σ s2 .10. Rezultatele experimentului sunt variabile aleatoare Yijk pe care le considerăm având următoarea structură: Yijk = μ + Sik + Pj + F( j . este aceea că.II. asupra rezultatelor obţinute în perioada a doua. fix. 121 . k ) = 0. analiza datelor obţinute poate pune în evidenţă efectele reziduale. i = 1. pe când efectul carry – over este efectul pe care acesta îl are în perioada următoare administrării sale. iar cealaltă parte în secvenţa TR. unul de testat (T) şi altul de referinţă (R). Statistica matematica si biostatistica Estimarea efectelor intr-un experiment standard cross-over – prin teste t 2.k ) este efectul direct. C ( j −1.1. j este indicele pentru perioadă şi k este indicele pentru secvenţa. ale administrării în prima perioadă. i este indicele pentru subiect. ⎛ FR F T ⎞ ⎛ RT ⎞ Schema de administrare fiind ⎜ ⎜ ⎜ TR ⎟ avem că (F( j . În cazul existenţei unor astfel de efecte este necesar să se poată face distincţia între efectele “directe”şi efectele reziduale. efectul carry – over nu depăşeşte o perioadă). nk .k ) = 0 si ∑ C( j −1.10. Spunem că un medicament are un efect carry – over de ordin k.k ) + eijk unde μ este media totala. Modelul statistic Considerăm două medicamente. administrate în două perioade (I şi II). al medicamentului (formulării) administrat în perioada j. Estimarea efectelor intr-un experiment standard cross-over – prin teste t 2. σ e2 ) . În fapt. Considerăm ca variabilele S ik sunt repartizate identic. în secvenţa k (Observaţie: efectul este de fapt cantitatea de medicament măsurată). Efectul direct este efectul ce îl are medicamentul în perioada în care este administrat. eijk reprezintă eroarea aleatoare în măsurarea valorilor individuale pentru fiecare subiect. sau “carry – over”. iar variabilele eijk sunt repartizate N (0.k ) ) = ⎜ F F ⎟ şi. ⎟ ⎟ ⎝ ⎠ ⎝ T R⎠ din faptul că μ este media lui Yijk avem ∑ F( j . dacă efectul primei administrări se manifesta şi după k perioade de administrare. cum mai sunt numite. datorită existenţei unui interval de timp “de spălare”. dispersiile erorilor pot diferi de la un medicament la altul. Raţiunea principală a experimentului cross – over. F( j . k ) este efectul carry – over (fix) al medicamentului administrat în perioada j-1 (considerăm că. eveniment în care o parte din subiecţi primesc cele două medicamente în secvenţa RT.

2 (R+T si respective T+R) Valoarea medie şi dispersia variabilelor U ik vor fi: σ u2 = D (U ik ) = 2(2σ s2 + σ e2 ) pentru toţi subiecţii. C poate fi folosit pentru determinarea efectelor carry – over. Datorită restricţiei CT − C R = 0 efectele carry – over sunt egale pentru cele două formulări.2. considerând următoarele totaluri pe subiecţi în cadrul unei secvenţe date: U ik = Yi1k + Yi 2 k . adică C = 0 . pentru subiectii in sec venta 2⎭ D (U ik ) = D (2 S ik + ε i1k + ε i 2 k ) = 4σ s2 + 2σ e2 Diferenta aparenta R-T va fi: 1 [(PI − PII )sec v1 + (PII − PI )sec v 2 ] = 1 [(− 1) + 2] = 1 2 2 2 122 . Consideram de exemplu ca efectul medicamentului R este 9 si cel al medicamentului T este tot 9. Dacă efectele carry – over nu sunt egale. Vom avea rezultatele: Secv. nu există un estimator nedeplasat pentru efectul direct al medicamentului. efectul direct al medicamentului (F = FT − FR ) poate fi estimat pe baza datelor din amândouă perioadele. efectul de perioada este 0 si efectul rezidual este 1 pentru R si 2 pentru T. TR PI 9 9 PII 9+1 9+2 ⎧ 2μ + CR .II. testarea absenţei efectelor carry – over este echivalentă cu testarea egalităţii acestora. pentru subiectii in sec venta 1⎫ E (U ik ) = ⎨ ⎬ ⎩2μ + CT .10. Ca urmare. nk . Statistica matematica si biostatistica Estimarea efectelor intr-un experiment standard cross-over – prin teste t 2. Fie C = CT − C R . din acest motiv fiind necesară testarea prealabilă a existenţei efectelor carry – over. dacă şi numai dacă CT = C R = 0 . RT Secv. Când efectele carry – over sunt absente. k = 1. i = 1. Testarea efectului secvenţei de administrare Pentru efectul secvenţei de administrare sau a efectelor carry – over.

C este normal distribuit cu media C şi dispersia ( ) ( ) ⎛1 1⎞ 1⎞ 2⎛ 1 ˆ D C = 2 2σ s2 + σ e2 ⎜ + ⎟ = σ u ⎜ + ⎟ . trebuie sa testam in prealabil faptul ca nu avem efecte reziduale inegale. Ca urmare testarea se poate face utilizând testul t. atunci efectul de perioada este tot 0.1 = Y.11 + Y. pentru a ne asigura ca estimarea diferentei de formulare este corecta.II.2 sunt mediile de selecţie pentru eşantioane aleatoare independente din populaţii normale cu dispersii egale.22 Ţinând cont de presupunerile asupra variabilelor S ik prezentate ˆ anterior. RT Secv.5+1 10+1 Ceea ce inseamna ca diferenta aparenta R-T va fi: 1 [(PI − PII )sec v1 + (PII − PI )sec v 2 ] = 1 [(− 0. Statistica matematica si biostatistica Estimarea efectelor intr-un experiment standard cross-over – prin teste t Daca insa efectele de secventa sunt 10 pentru R si 9. TR PI 10 9. daca apar efecte reziduale inegale ele vor fi luate drept efecte de formulare. vom gasi: Secv. k = 1. C poate fi estimat prin diferenţa între mediile subiecţilor pentru cele două secvenţe: ˆ C = U .5 PII 9.21 − Y. Din acest motiv.1 şi U . iar efectele carry – over egale amandoua cu 1. Pentru testarea ipotezelor asupra lui C se folosesc următoarele medii de selecţie corespunzând fiecărei secvenţe: 1 nk U .5) + 1.2 n k i =1 U .k = ∑U ik .5 pentru T.5] = 1 2 2 2 Deci. ⎜n n ⎟ ⎜n n ⎟ 2 ⎠ 2 ⎠ ⎝ 1 ⎝ 1 () ( ) 123 .2 − U .12 + Y. Existenţa efectelor carry – over inegale poate fi determinată prin testarea următoarelor ipoteze: H 0 : C = 0 ⇔ CT = C R H 1 : C ≠ 0 ⇔ CT ≠ C R Respingerea ipotezei nule duce la concluzia prezenţei efectelor carry – over inegale.

Grizzle. vom respinge ipoteza nulă H 0 : CT = C R în favoarea ipotezei alternative H a : CT ≠ C R la un nivel α Tc = de semnificaţie. mărimea lotului de testat se alege pe baza calculelor privind puterea pornind de la efectul direct al medicamentului. dacă Tc 〉 t⎛ α Deoarece variabila testată Tc conţine estimarea σ u2 = 2(2σ s2 + σ e2 ) care se referă atât la variabilităţile între – şi intra – subiecţi. 1 J.II. Grizzle 1 a sugerat testarea ipotezei nule la un nivel de semnificaţie α = 10% în loc de 5%. atunci suntem în favoarea (sau de fapt nu putem respinge) ipotezei nule că nu există efecte carry – over sau că acestea sunt egale. Dacă intervalul nu conţine pe 0. 0 ˆ Mai departe. tragem concluzia că există efecte carry – over diferite pentru cele două formulări. n1 + n 2 − 2 ⎟ n1 n2 ⎝2 ⎠ Dacă intervalul conţine pe 0.k ⎟ n1 + n2 − 2 k =1 i =1 ⎝ n1 n2 ⎠ () () ( ) χ 2 (n1 + n2 − 2) este o variabilă distribuită χ 2 cu n1 + n2 − 2 grade de ˆ C. Pentru a creşte puterea testului. 467-480. ca regulă. În studiile de biodisponibilitate / bioechivalenţă. (n1 + n2 − 2 )σ u2 este distribuit σ u2 χ 2 (n1 + n 2 − 2 ) unde ˆ C X − XT +R = R +T are o repartiţie Student cu n1 + n2 − 2 1 1 1 1 ˆ ˆ + σu σu + n1 n2 n1 n2 grade de libertate. puterea testului va fi mai mică în cazul în care variabilitatea între – subiecţi este mai mare decât intravariabilitatea. Ca urmare. 21. Pe baza statisticii t. se poate calcula un interval de încredere 1 1 ˆ ˆ (1 − α ) *100% pentru C: C ± t⎛ α . libertate. ⎞ ⎜ . 1965 124 . independentă de Astfel. n1 + n 2 − 2 ⎟ ⎝2 ⎠ . Biometric. σ + ⎞ u ⎜ . Two period change-over design and its use in clinical trials. efect ce implică intravariabilitatea. în ipoteza H . Statistica matematica si biostatistica Estimarea efectelor intr-un experiment standard cross-over – prin teste t ˆ ˆ Dispersia D C poate fi estimată prin înlocuirea lui σ u2 cu σ u2 = Su2 dispersia de selecţie totală pentru subiecţii din cele două secvenţe: 2 nk 2 1 ˆ = σ 2 ⎛ 1 + 1 ⎞ unde σ 2 = ⎜ ⎟ ˆu ⎜ ˆu DC ∑∑ U ik − U.

Statistica matematica si biostatistica Estimarea efectelor intr-un experiment standard cross-over – prin teste t 2. Efectul direct al medicamentului În vederea testării efectului direct al medicamentului se pot folosi diferenţele între perioade în interiorul fiecărei secvenţe.11 − Y.1 − d . să considerăm mediile diferenţelor între perioade în interiorul fiecărei secvenţe: 1 nk d .2 ) este un estimator nedeplasat al lui F atunci când nu avem efecte carry – over inegale ( C R = CT ) (C − CT ) = F − C E d .II. nk .12 = YT − YR 2 ( ) [( ) ( )] 125 . Dacă însă CT = C R .1 − d . aceasta include atât efectul direct al medicamentului cât şi efectul rezidual (carry – over). 2 Valoarea medie şi dispersia pentru diferenţele din cadrul perioadelor sunt: ⎧1 ⎫ ⎪ 2 [(P2 − P1 ) + (FT − FR ) + C R ]. pentru subiectii in sec venta 1⎪ E (d ik ) = ⎨ ⎬ 1 ⎪ [(P2 − P1 ) + (FR − FT ) + CT ]. i = 1. atunci 1 ˆ F = d . k = 1. Pentru a verifica ipotezele statistice asupra lui F. În ceea ce priveşte media diferenţelor.2 . k = 1. 2 2 Ca urmare.22 − Y.k = ∑ d ik . ceea ce reprezintă de fapt avantajul experimentului de tip cross – over. pentru subiectii in sec venta 2⎪ ⎩2 ⎭ 2 σ MSE 2 2 D ( dik ) = σ d = e = = Sd 2 2 Se vede că dispersia diferenţelor între perioade include numai intravariabilitatea.2 = (FT − FR ) + R unde C = CT − C R . dacă CT ≠ C R nu avem un estimator nedeplasat pentru F din datele pentru amândouă perioadele. după cum urmează: 1 d ik = (Yi 2 k − Yi1k ) . nk i =1 Diferenţa între secvenţe ( d .3.21 − Y.2 . Sa notăm efectul perioadei şi efectul direct (efectul formulării) prin P = P2 − P1 şi F = FT − FR .10.1 − d .2 = Y.

i = 1.21 + Y. 2 2 ⎛ RT ⎞ 1 Schema de administrare fiind ⎜ ⎟ rezultă că YR = R 1 + R 2 .12 şi YR = Y. nu este un estimator nedeplasat pentru F decât atunci când n1 = n2 . F . T R n2 n2 ⎞ ⎞ ⎛ n1 1 ⎛ n1 ⎜ ∑ Yi11 + ∑ Yi 22 ⎟ şi YT* = ⎜ ∑ Yi 21 + ∑ Yi12 ⎟ ⎟ ⎟ ⎜ n1 + n2 ⎜ i =1 i =1 i =1 ⎠ ⎠ ⎝ i =1 ⎝ Când C R = CT . Remarcam faptul ca in practica. i = 1. F este estimată prin diferenţa directă între mediile celor două formulări ˆ F* = Y* −Y* . În practică. n1 si {d i 2 } . ⎜n n ⎟ 2 ⎠ ⎝ 1 1 unde Y = n1 + n2 * R ( ) ( ) ( ) () Deoarece {d i1 } . ⎜ TR ⎟ 2 ⎝ ⎠ ( ) ( ) ( ) YR si YT sunt aşa numitele “least squares means” (LS) – mediile cele mai mici pătrate – pentru produsul de referinţă şi cel testat. cu media F şi dispersia 1⎞ 2⎛ 1 ˆ D F =σd⎜ + ⎟. este normal distribuită. dupa cum se va arata mai departe.II.11 + Y. cazul n1 = n2 este foarte rar. E YT* − YR* = (FT − FR ) + [(n2 − n1 )P1 + (n1 − n2 )P2 ] n1 + n 2 ˆ Ca urmare. se obţine 1 [(n1 + n2 )μ + (n1 + n2 )FR + n1 P1 + n2 P2 ] şi E YR* = n1 + n 2 1 E YT* = [(n1 + n2 )μ + (n1 + n2 )FT + n1 P2 + n2 P1 ] . In ciuda acestui fapt unele softuri uzuale ignora aceste fapte ceea ce. diferenţa între mediile celor două formulări F * .22 ). Statistica matematica si biostatistica Estimarea efectelor intr-un experiment standard cross-over – prin teste t este un estimator nedeplasat cu dispersia minimă pentru F (unde 1 1 YT = Y. n 2 sunt două selecţii independente din populaţii normale cu dispersii egale (atunci când nu avem 126 . n1 + n 2 1 Deci. Diferenţa între mediile “least – square” pentru cele două ˆ formulari. din auza ca o parte din subiecti parasesc experimentul clinic inainte ca acesta sa se termina. poate duce la alterari semnificative ale rezultatelor.

dar cu o pierdere de informaţie şi. şi este un 2 estimator nedeplasat al lui σ d 2 nk 2 1 ∑∑ d ik − d .11 = (μ + P1 + FT ) − (μ + P1 + FR ) = FT − FR = F ˆ F C ( ) Să notăm Y. în consecinţă.12 − Y. atunci: E Y. Respingem H 0 dacă Td 〉 t ⎛ α ⎞ ⎜ . n1 + n2 − 2 ⎟σ d n1 n2 ⎠ ⎝2 Prezenţa efectului direct al medicamentului poate fi examinată prin testarea ipotezelor: H 0 : FT = FR si H 1 : FT ≠ FR .11 = .II. Avem că ˆ F C este un estimator nedeplasat al lui F. Statistica matematica si biostatistica Estimarea efectelor intr-un experiment standard cross-over – prin teste t efecte carry – over inegale) un test pentru efectul direct poate fi obţinut pe baza statisticii t – pereche.11 şi Y. Td este ˆ2 σd = ( ) distribuit t cu n1 + n2 − 2 grade de libertate.12 − Y. ˆ F Td = 1 1 ˆ + σd n1 n2 ˆ2 unde σ d este dispersia de selecţie pentru diferenţa între perioade. 127 . chiar şi în prezenţa efectelor carry – over inegale. F nu este un estimator nedeplasat al lui F în prezenţa efectelor carry – over inegale ( CT ≠ C R ). care va fi discutată mai departe. Un interval de încredere (1 − α ) *100% pentru F este următorul: 1 1 ⎞ ˆ ⎛α ˆ + F ± t ⎜ . Dacă Y.k n1 + n2 − 2 k =1 i =1 2 ˆ2 Deoarece (n1 + n 2 − 2 )σ d este distribuit σ d χ 2 (n1 + n 2 − 2 ) . de precizie. n1 + n2 − 2 ⎟ ⎠ ⎝2 . ˆ După cum s-a menţionat mai sus. Un estimator nedeplasat al lui F poate fi obţinut totuşi folosind numai datele din prima perioadă. Trebuie să observăm că această metodă de testare se referă la egalitatea efectelor celor două medicamente şi nu la “bioechivalenţa” lor.12 sunt mediile celor două formulări în prima perioadă.

Observăm ⎜n n ⎟ C C 2 ⎠ ⎝ 1 2 σ ⎞⎛ 1 1 ⎞ ˆ ˆ ⎛ deasemenea că D F − D F = ⎜ σ s2 + e ⎟⎜ + ⎟ . Intervalul de încredere (1 − α ) *100% pentru F în prezenţa efectelor carry – over inegale va fi ˆ F C ± t⎛ α ⎞ ⎜ . în practică. În practică. Deci. se poate verifica ipoteza privind inegalitatea efectelor şi se poate construi şi un interval de încredere (1 − α ) *100% pentru F folosind datele din prima perioadă.II. dar nu trebuie să uităm următoarele consecinţe ale acestei proceduri: 1) Puterea de detecţie a diferenţelor semnificative clinic este micşorată datorită creşterii dispersiei şi. n1 + n2 − 2 ⎟ ⎝2 ⎠ Sf 1 1 + .1k n1 + n2 − 2 k =1 i =1 nk 2 ( ) este D( ) = S ⎛⎜⎜⎝ n1 + n1 ⎞⎟⎟⎠ ˆ F ˆ F C C 2 f 1 2 ( ).n1 + n2 − 2 ⎟ ⎝2 ⎠ . în prezenţa efectelor carry – over inegale. 128 . pierderea de ⎜ C 2 ⎟⎜ n1 n2 ⎟ ⎠ ⎝ ⎠⎝ precizie ca urmare a folosirii numai a datelor din prima perioadă este de minim 50% atunci când σ s2 = 0 . este foarte importantă perioada de spălare pentru a dispărea efectele reziduale până la a două administrare. n1 n2 Ipoteza nulă privind absenţa efectului direct este respinsă dacă ˆ F C Sf 1 1 + n1 n 2 〉t ⎛ α ⎞ ⎜ . Din acest motiv. Statistica matematica si biostatistica Estimarea efectelor intr-un experiment standard cross-over – prin teste t ⎛1 1⎞ + σ e2 )⎜ + ⎟ . datele din prima perioadă sunt folosite efectiv pentru a testa bioechivalenţa. 2 Observăm ca S 2 este un estimator nedeplasat pentru σ s2 + σ e2 . dar f nu avem estimări individuale pentru σ s2 si σ e2 pornind numai de la datele din prima perioadă. În prezenţa efectelor carry – over inegale. Dispersia lui ˆ F este D ( ) = (σ ˆ F 2 s ( ) () Un estimator nedeplasat pentru D unde S 2 = f 1 ∑∑ Yi1k − Y.

4.2 pentru k = 2⎭ Un estimator nedeplasat pentru efectul perioadei P poate fi obţinut ca 1 ˆ P = O.1 şi O.21 − Y.II. Un interval de încredere (1 − α ) *100% pentru P este 2 D(Oik ) = σ d = σ e2 [( ) ( )] ˆ P ± t⎛ α ⎞ ⎜ . Avem ⎧ d pentru k = 1 ⎫ O. pentru subiectii in sec venta 2⎪ ⎩2 ⎭ şi 2 Fie O.subiectii in sec venta 1 (T − R ) ⎫ Oik = ⎨ ik ⎬ ⎩− d ik .1 ⎬ ⎩d .Efectul perioadei Să definim următoarele diferente: ⎧ d . n1 + n2 − 2 ⎟ ⎠ ⎝2 ˆ σd 1 1 . + n1 n2 129 . indiferent de prezenţa efectelor carry – over inegale.1 − O.2 mediile de selecţie ale diferenţelor în secvenţele 1 şi 2.2 = Y.22 2 ˆ Deoarece CT + C R = 0 .k = ⎨ . pentru. pentru subiectii in sec venta 1⎪ E (Oik ) = ⎨ ⎬ 1 ⎪ [(P1 − P2 ) + (FT − FR ) − CT ]. 2. P este un estimator de dispersie minimă pentru P. pentru.11 − Y.12 − Y.subiectii in sec venta 2 (R − T )⎭ Valoarea medie şi dispersia acestor diferenţe cross – over sunt: ⎧1 ⎫ ⎪ 2 [(P2 − P1 ) + (FT − FR ) + C R ].10. Statistica matematica si biostatistica Estimarea efectelor intr-un experiment standard cross-over – prin teste t 2) Pierderea de informaţie anulează însăşi avantajul experimentului crossover şi anume eliminarea variabilităţii între subiecţi în compararea formulărilor.

unde 1 ⎞ ⎜ .12 − 2⎣ ( ) ( P ± t⎛ α ⎞ ⎜ .12 − Y.2 = 1⎡ Y. în rezumat.1 − O.21 − Y. directe şi de perioada sunt prezentate.II.22 − 2⎣ ( ) ( F ± t⎛ α ⎞ ⎜ . n1 + n2 − 2 ⎟ ⎝2 ⎠ Tc = σu Td = C 1 1 + n1 n2 F 1 1 + n1 n2 Efect direct F = d.22 ) ( C ± t⎛ α ⎞ ⎜ .12 + Y.n1 + n2 − 2 ⎞ ⎜ ⎟ ⎝2 ⎠ 1 1 + n1 n2 Tf = Sf F C 1 1 + n1 n2 P 1 1 + n1 n2 Perioada P = O. H a : P1 ≠ P2 atunci când T0 〉 t ⎛ α . în tabelul urmator T0 = Tabel nr. 1 1 ˆ + σd n1 n2 Interferenţa statistică pentru efectele carry – over. n1 + n2 − 2 ⎟ ⎝2 ⎠ P .I .11 + Y. n1 + n2 − 2 ⎟ ⎝2 ⎠ σd 1 1 + n1 n2 To = σd 130 .11 C F Sf ±t C ⎛ α .1 − d.2 = 1⎡ Y.11 − Y. σu 1 1 + n1 n2 1 1 + n1 n2 Test statistic C = U . n1 + n2 − 2 ⎟ ⎝2 ⎠ σd σd Efect indirect Da F = Y.11 + Y. 15: Teste statistice pentru efectele fixe într-un experiment 2*2 cross – over. Efect Efecte carry – over inegale MVUE* (1 − α ) / 100%C.21 − Y.21 − Y.2 − U . Statistica matematica si biostatistica Estimarea efectelor intr-un experiment standard cross-over – prin teste t Respingem ipoteza nulă privind absenţa efectului de perioadă: H 0 : P = P2 .1 = - Carry over (Y Nu .

131 . Statistica matematica si biostatistica Estimarea efectelor intr-un experiment standard cross-over – prin teste t MVUE* – minimum variance unbiased estimate – estimare nedeplasata de dispersie minima.II.

Modelul Statistic General Analiza dispersională a datelor de bioechivalenta urmeaza un model statistic de ANOVA pe doua cai cu interactiuni de tipul: Yijk = μ + α k + β j + γ jk + ε ijk Să notăm că prezenţa unui efect de interacţiune este echivalentă cu ne-aditivitatea efectelor principale. secventele raman inegale. ca urmare si a interactiunii intre acestia. sufera o complicare majora atunci cand numarul nivelelor luate de un factor. la modul general. nu este acelasi in fiecare celula. De exemplu dacă factorul este perioada într-un experiment de bioechivalenţă nivelele sale sunt I. ceea ce este cu totul alt model de studiu. repetiţia înseamna administrarea aceluiaşi medicament de mai multe ori la acelaşi subiect deci in mai multe perioade. Termenul se referă in fapt la valorile (numerice sau calitative) pe care le poate lua factorul. In chiar cazurile ca modelul se aplica experimentelor clinice. Ipoteza de verificat este aceea a lipsei efectelor factorilor si. testat 1 şi testat 2). exista posibilitatea unei confuzii de termeni. in toate cartile si articolele publicate. Ne vom limita. caz in care se spune ca experimentul nu mai este echilibrat (balansat). II. 131 . in lucrarile de statistica observăm că „repetiţie” semnifică faptul că acelasi experiment se repetă pe mai multi voluntari sau pacienţi.11. in experimentele de bioechivalenta. pentru moment. Într-un experiment standard de bioechivalenţă secvenţa are două nivele RT şi TR. Suplimentar fata de conditiile puse la ANOVA pe doua cai. Trebuie avut totuşi în vedere că aceaşti factori nu sunt toţi independenţi unii din ei putându-se obţine prin combinaţii liniare de ceilalţi.II. Statistica matematica si biostatistica Estimarea efectelor prin ANOVA 2. vom avea ∑ γ jk =∑ γ jk =0 j k Statisticienii vorbesc despre “nivelele” pe care le iau factorii. in experimentul de biostatistica.11. III dacă experimentul are trei perioade.1. la studiul cazului echilibrat asa cum se face. În ceea ce priveşte factorul formulare nivelele acestea sunt medicamentele experimentate (de exemplu referinţă. datorita iesirii din experiment a unora dintre subiecti. Problema. Din pacate cazul mult mai frecvent in experimentele clinice este acela neechilibrat. Astfel . în timp ce. De exemplu. Estimarea efectelor prin ANOVA 2. se pare.

In biologie aceasta este foarte ∑ (Y ( SS T = ijk ) ∑ (Y − Y ) = ) + ∑ (Y − Y ) + ∑ (Y ijk ••• 2 • j• ••• • jk − Y• j • − Y•• k + Y••• ) 2 + 2 ( ) 132 . formulele pentru calculul mediilor prezentate mai sus nu mai raman valabile. Statistica matematica si biostatistica Estimarea efectelor prin ANOVA ⎧ H A : α k = 0 unde 1 ≤ k ≤ K ⎪ H0 : ⎨ H B : β j = 0 unde 1 ≤ j ≤ J ⎪ H : γ = 0 unde 1 ≤ j ≤ J si 1 ≤ k ≤ K jk ⎩ AB H alternativa : cel putin un factor este diferit de 0 Se notează cu: 1 Y••• = ∑∑∑ Yijk si cu Y••• = ∑∑∑ Yijk IJK i j k i j k Y• jk = ∑ Yijk şi cu Y • jk = i i k 1 I ∑Y i 1 IK ijk Y• j • = ∑∑ Yijk şi cu Y • j • = Y••k = ∑∑ Yijk şi cu Y ••k = i j ∑∑ Y ijk 1 IJ ∑∑ Y i j i k ijk Atragem atentia ca. Se observă că: ∑ Yijk − Y••• = ∑ Y••k − Y••• + ∑ Y• j• − Y••• + ( ∑ (Y ) ( • jk − Y• j • − Y•• k + Y••• + ) ∑ (Y 2 2 ) ( ijk − Y• jk ) ) Si.diferenta intre valoarea subiectului i si media subiectilor din perioada j si secventa k. In fapt experimentele sunt proiectate sa fie echilibrate dar pana la sfarsit ele devin neechilibrate. Deoarece indicele i se refera la subiectii experimentului Yijk − Y• jk . Mediile de selectie de tipul celor de mai sus sunt estimatori nedeplasati ai efectului celor doua formulari numai atunci cand secventele sunt egale.II. reprezinta o „intervariabilitate”. interacţiunilor şi unei fluctuaţii aleatoare. eroarea totala se poate descompune dupa cum urmeaza: = ∑ Y•• k − Y••• 2 2 2 2 − Y• jk = S A + S B + S AB + S R Termenii acestei diferenţe corespund respectiv efectelor principale. intr-un experiment neechilibrat. deoarece produsele mixte ale sumelor de mai sus sunt nule.

(ν B . Statistica matematica si biostatistica Estimarea efectelor prin ANOVA mare si ipoteza unor subiecti „identici” este departe de realitate sau se poate lua in calcul in cazul unor studii pe populatii foarte mari. Testarea ipotezelor privind actiunea factorilor asupra rezultatelor studiului incrucisat.ν R ) unde: νA = K −1 νB = J −1 ν AB = S = IJ ∑ Y ••k − Y ••• 2 A k ( ) 2 MS A = MS B = νA νB 2 SA FA = FB = MS A MS R MS B MS R MS AB MS R B S = IK ∑ Y • j • − Y ••• 2 B j 2 SAB = ( ) 2 2 SB Interacţiuni AB (J −1)(K −1) I ∑∑ Y • jk − Y • j• −Y ••k + Y ••• j k ( ) 2 MS AB = ν AB 2 S AB FAB = Rezidual R νR = JK (I − 1) 2 SR = ∑∑∑ Yijk − Y • jk i j k ( ) 2 MS R = νR 2 SR Total ν S = IJK − 1 SST = ∑∑∑ Yijk − Y ••• i j k ( ) 2 133 . Varia ţia A Grade libertate (df) de Suma pătratelor (SS) Media sumei pătratelor (MS=SS/df) Statistica F sunt respectiv (ν A . H B . S AB . Statistica F pentru verificarea ipotezelor H A . (ν AB .. ) ( ) ˆ μ = Y.ν R ) . dat fiind modelul statistic. ν B = J − 1 .. Pentru modelul echilibrat.ν R ) . β j = Y• j • − Y••• γˆ jk ( = (Y ) • jk − Y• j • − Y•• k + Y••• . iar la numitor 2 întotdeauna media sumei pătratelor rezidualelor S R . Gradele de libertate ν A = K − 1 . ν AB = (J − 1)(K − 1) si ν R = JK (I − 1) Sinteza formulelor de calcul este dată în tabelul urmator. sumele obtinute sunt estimari respectiv pentru parametrii cercetati de noi: ˆ ˆ α k = Y•• k − Y••• . S B .II. H AB are la 2 2 2 numărător respectiv mediile sumelor de pătrate S A .

k este efectul carry – over (fix) al medicamentului administrat în perioada j-1. i este indicele pentru subiect.11. incrucisat. C j −1. de obicei. cu doua perioade si doua secvente Modelul Biostatistic Se consideră două medicamente. i = 1. unul de testat (T) şi unul de referinţă (R). ANOVA in cazul unui studiu privind bioechivalenta a doua medicamente. Perioadele de administrare sunt. separate printr-o perioadă de „spalare ” de cel puţin de trei ori timpul de înjumătăţire al substanţei active din medicamentul administrat. nk . datorită existenţei unui interval de timp “de spălare” suficient intre administrari. fix. fie secvenţei 2 (TR). efectul carry – over nu depăşeşte perioada consecutiva celei in care a fost administrat medicamentul. Considerăm că.2. eijk reprezintă eroarea aleatoare în măsurarea valorilor individuale pentru fiecare subiect.II. Statistica matematica si biostatistica Estimarea efectelor prin ANOVA 2. Pentru aceasta se aplica modelul de analiză statistica prezentat anterior: Yijk = μ +αk + β j +γ jk +εijk Rezultatele experimentului sunt variabile aleatoare Yijk pe care le considerăm având următoarea structură: Yijk = μ + Cj−1. administrate unui lot de voluntari sănătoşi în două secvenţe (RT) şi (TR) şi două perioade (I şi II). de exemplu concentratia medicamentului ramas in organism in perioada II din administrarea in perioada I. Fiecare subiect este asignat aleator fie secvenţei 1 (RT). 134 . F jk este efectul direct. Subiecţii în cadrul secvenţei RT (TR) primesc medicamentul R (T) în prima perioadă şi medicamentul T (R) în cea de a doua perioadă. j este indicele pentru perioadă şi k este indicele pentru secvenţa.k + Pj + Fjk +εijk + Sik unde μ este media totala. Scopul experimentului este de a stabili bioechivalenţa dintre cele două medicamente („formulations” în literatura engleză). în secvenţa k (Observaţie: efectul este de fapt cantitatea de medicament măsurată sau un parametrul farmacocinetic calculat pornind de la aceasta). al medicamentului (formulării) administrat în perioada j.

135 . σ e2 ) . precum si a variabilitatilor intraindividuala ( SS int ra ) . Statistica matematica si biostatistica Estimarea efectelor prin ANOVA Considerăm ca variabilele S ik (“efectul de subiect”) sunt repartizate identic pentru toate formularile administrate. interindividuala ( SS int er ). 17: Componenta nealeatoare a parametrilor farmacocinetici Perioada (j=1. de formulare ( SS drug ). Procedand ca in cazul general prezentat mai sus. iar variabilele eijk sunt repartizate N (0. dupa cum a prezentat FDA ca argument pentru introducerea bioechivalentei individuale. de perioada ( SS P ). cu media 0 şi dispersia σ s2 . = ∑ Yi si Y. = ∑ Yi ( unde n este n i i numarul valorilor sumate). şi P1+P2 = FR+FT = CR+CT = 0. CR (CT) reprezintă efectul rezidual („carry-over”) al administrării medicamentului R (T).2) Secvenţa (k=1. 1 Se folosesc notatiile Y. În fapt. se descompune suma totala a erorilor in sume cu ajutorul carora se pot estima efectele de secventa ( SS carry ).II. Modelul se mai poate scrie si sub forma : Yijk = μjk +Sik +εijk unde efectul fix μ jk este de forma prezentata in tabelul nr. dispersiile erorilor pot diferi de la un medicament la altul.2) I II 1 (RT) μ11 = μ + P1 + FR μ12 = μ + P2 + FT + C R 2 (TR) μ 21 = μ + P1 + FT μ 22 = μ + P2 + FR + CT unde FR (FT) reprezintă efectul direct al administrării medicamentului R (T). P1 (P2) reprezintă efectul administrării în perioada I (II). 17 Tabelul nr.

18. Descompunerea sumei patratelor erorilor in sume corespunzatoare factorilor fixi si SSTotal = ∑ (Y ijk − Y••• ) 2 = ∑ (Y •• k − Y••• ) 2 + ∑ (Y • j• − Y••• ) 2 + ∑(Y ∑ (Y + • jk − Y• j• − Y••k + Y••• ) 2 ∑ (Y ijk − Y• jk ) 2 SS within = ∑ (Y ijk − Yi•k ) SSα 2 = ∑ (Y SS β • j• − Y••• ) SS γ 2 + • jk − Y• j • − Y•• k + Y••• ) 2 + ∑((Y ijk − Y• jk − Yi•k − Y••k ) ( )) 2 SS between = ∑ (Y i •k − Y••• ) 2 = ∑ (Y •• k − Y••• ) SS P + SS drug SS int ra 2 ∑(Y i•k − Y••k ) 2 SS carry SS int er interactiunile intre acestia 136 . Statistica matematica si biostatistica Estimarea efectelor prin ANOVA Tabelul nr.II.

Y i •k = 137 .i k 2n k Mai departe. nefiind clara legatura lor cu variabilitatile parametrilor studiati. In locul acestor formule se folosesc formule prescurtate. Y ••k = ••k se 2 2nk obtine formula „farmaceutica” a sumei patratelor intersubiecti: Yi. Statistica matematica si biostatistica Estimarea efectelor prin ANOVA Deci. se vede ca avem: • SS Between exprimă variabilitatea dintre subiecţi. • • în ambele secvenţe SS within exprimă variabilitatea intra-subiecţi. 2.II. deoarece prin definitie. si SS within = SS P + SS drug + SS int ra SSTotal are ν T = 2 ( n1 + n2 ) − 1 grade de libertate. Ele reprezinta avantajul unor calcule mai rapide si dezavantajul ca nu sunt „inteligibile”. iar SS Between are ν Between = n1 + n2 − 1 grade de libertate.3. Cum sunt n1 + n2 subiecţi SS within are ν Within = n1 + n2 grade de libertate. Mentionam aceste formule prescurate deoarece ele apar practic in toate cartile de farmacie sau de statistica aplicata in farmacie..2 SS int er = ∑ −∑ k 2 k .2k Y. Calculul variabilitatii interindividuale k i Vom deduce formula uzuala pentru SS int er = 2∑∑ Y i•k − Y •• k SSint er Ridicand la patrat se obtine = ( ) 2 2 2⎞ 2 2⎞ Y ⎛ ⎛ = 2∑ ⎜ ∑ Yi •k − 2Y••k ∑ Yi•k + nk Y••k ⎟ = 2∑ ⎜ ∑ Yi•k − 2Y••k ∑ i•k + nk Y••k ⎟ = 2 k ⎝ i i k ⎝ i i ⎠ ⎠ 2 2⎞ 2 2⎞ Y ⎛ ⎛ = 2∑ ⎜ ∑ Yi •k − 2Y••k ••k + nk Y••k ⎟ = 2∑ ⎜ ∑ Yi•k − 2Y••k * nk * Y••k + nk Y••k ⎟ = 2 k ⎝ i k ⎝ i ⎠ ⎠ = ∑∑ k i Yi•k 2 Y 2 − 2∑ nk ••k 2 2 k ( 2nk ) Yi•k Y .11.

motiv care justifica si utilizarea „interschimbabil” a celor doi termeni .11. Y•12 .II. k + ε ijk ) ( )⎤ ⎫ ⎦⎬ ⎭ este CT − CR 2 Calculand mediile corespunzatoare lui Y•11 . 2. n Y ••1 + n2 Y ••2 Intr-adevar. observând că Y ••• = 1 rezultă n1 + n2 SSCarry = 2n1 Y ••1 − Y ••• = = ( ) 2 + 2n2 Y ••2 − Y ••• ( ) 2 ( n1 + n2 ) 2n1n2 n1 + n2 2 2n1n2 2 (Y ••1 − Y ••2 ) 2 + ( n1 + n2 ) 2n12 n2 2 (Y •• 2 − Y ••1 ) 2 = 2n1n2 Y ••2 − Y ••1 n1 + n2 ( ) 2 { ( 1 2 ⎡ Y •12 + Y •22 − Y •11 + Y •21 ⎤ ⎣ ⎦ ) ( ( )} 2 ⎧1 Media parantezei ⎨ ⎡ Y •12 + Y •22 − Y •11 + Y •21 ⎩2 ⎣ conform demonstratiei ce urmeaza: Yijk = μ + Sik + Pj + F jk + C j −1. care este egala cu diferenta efectelor reziduale din cele doua secvente. Calculul efectelor de secventa In ceea ce priveste SS carry .4. Y•21 si Y•22 vom obtine: E Y•11 = μ + P + FR 1 •12 1 T ( ) E (Y ) = μ + P + F E (Y + Y ) = 2 μ + C •12 •22 T ⎛ ⎧1 De unde rezulta ca: E ⎜ ⎨ ⎡ Y •12 + Y •22 ⎝⎩2 ⎣ ( ( ) E (Y ) = μ + P + F + C E (Y + Y ) = 2μ + C ⎤⎫⎞ ) − (Y + Y ) ⎦ ⎭ ⎠ = C − C ⎬⎟ 2 •22 •11 2 R T E Y•21 = μ + P2 + FT + CR •21 R •11 •21 T R 138 . Statistica matematica si biostatistica Estimarea efectelor prin ANOVA Facem observatia ca la descompunerea sumelor am folosit termenii in engleza deoarece in aceasta limba exista cate doua cuvinte (provenind din latina si din saxona) corespunzand cuvintelor romanesti inter si intra. el se poate obtine din diferenta intre mediile secventelor.

Aplicand succesiv formula dupa cum urmeaza. Analiza efectelor fixe cu ajutorul dispersiilor Descompunerea lui SS within permite testarea ipotezei privind prezenţa variabilităţii inter-subiecţi. Statistica matematica si biostatistica Estimarea efectelor prin ANOVA Deci. adică: H 0 : σ s2 = 0 versus H a : σ s2 > 0 . efectul ce apare din diferenta intre secvente este in fapt legat de diferenta intre efectele rezidule din cele doua secvente. SSint ra este in fapt singurul termen legat de variabilitatea biologica intraindividuala. Calculul simplificat al erorii intraindividuale Dupa cum s-a aratat in tabelul de mai sus. SS int ra = ∑ (x 2 i −x ) = ∑x 2 2 i (∑ x ) − i 2 n se obtine ∑ ((Y ijk − Y • jk − Y i • k − Y • • k ) ( )) = ∑ (Y ijk − Y • jk ) −∑ 2 ⎡ ⎤ ⎢ ∑ Y ijk − Y • jk ⎥ ⎣ j ⎦ 2 ( ) 2 = = 2 ∑ Yijk − ∑ ⎛ ⎞ ⎜ ∑ Y ijk ⎟ Y −Y ⎝ i ⎠ − ∑i i • k 2 •• k nk k. 2 ( ) 2 = 2 ∑ Yijk − ∑ Y •2jk nk −∑ 2 Yi• k + 2 ∑ Y •2 k • 2nk 2.II. o componenta datorata perioadei ( SS P ) si o componenta datorata variabilitatii ( SS int ra ): SS within = SS P + SS drug + SS int ra intra – subiect Dintre aceste trei componente.5. SS within poate fi descompusa in trei componente: o componenta datorata efectului direct al medicamentului ( SS drug ). În acest sens se foloseşte statistica SS ν FV = Inter Inter . SS Carry şi SS Inter au respectiv ν Carry = 1 şi ν Inter = n1 + n2 − 2 grade de libertate. SS Intra ν Intra 139 .11. Vom deduce in continuare o formula de calcul “rapid” al acestui termen .

Sinteza formulelor de calcul este dată în tabelul urmator. Statistica matematica si biostatistica Estimarea efectelor prin ANOVA Similar.subiecti Secventa (carry . Tabelul nr.1 si Tabelul nr. Observatii Vom studia acum legătura dintre cele două modele reprezentate in Tabelul nr.over df SS MS F ν Carry = 1 SS Carry MS Carry = = SS Carry FCarry = = MS Carry MS int er MS int er ν Carry Reziduale ν Inter = n1 + n2 − 2 SS Inter MS int er = = SS Inter Fint er = = MS int ra ν Inter νF νP Intra .subiecti Efectul direct al medicamentului νF =1 νP =1 ν Intra = n1 + n2 − 2 ν Total = 2(n1 + n2 ) − 1 SS F MS F = SS F MS P = SS P MS Intra = = SS Intra FF = = MS F FP = = MS P MS int ra * MS int ra Perioada SS P Reziduale SS Intra ν Intra Total * SS Total Formula este validă doar dacă efectul carry-over este nul.II. 19: Analiza efectelor fixe cu ajutorul dispersiilor: Sursa de variatie Inter .4 140 . celelalte efecte se pot testa cu ajutorul raportului intre suma erorilor corespunzatoare si SSint ra (pe post de SS R in modelul general).

141 . este de neexplicat. ca prezentarea in foarte multe lucrari de biostatistica si bioechivalenta a efectului medicamentului ca interactiune intre secventa si perioada este de neinteles in lipsa identificarilor de mai sus.II. Statistica matematica si biostatistica Estimarea efectelor prin ANOVA Dacă factorul A este secvenţa de administrare a medicamentului si factorul B este perioada. In fapt. este vorba de combinatii intre variabile care sa permita separarea efectelor. atunci α este suma intre efectul carry-over si ⎛ FR FT ⎞ efectul subiectilor. Efectul de secventa (carry) ramane o piatra de incercare in experimentele de bioechivalenta si aparitia lui in studii efectuate pe baza de protocoale concepute astfel incat sa se evite complet aparitia efectelor reziduale. Se observă că sunt verificate conditiile specificate la prezentarea modelului general: α1 + α 2 = 0 = CR + CT β1 + β 2 = 0 = P1 + P2 γ 11 + γ 12 = 0 = FR + FT = γ 21 + γ 22 γ 11 + γ 21 = 0 = FT + FR = γ 12 + γ 22 Facem observatia. altfel esentiala. Aceste combinatii pot aparea ca efecte ai unor factori ce nu se regasesc intr-un tablou farmacologic al determinantilor diferentelor intre formulari. β = ( P1 P2 ) este efectul perioadei si γ = ⎜ ⎟ ⎝ FT FR ⎠ este efectul interacţiunii secvenţei de administrare a medicamentului cu perioada (adică efectul direct al medicamentului „formulation”).

Statistica matematica si biostatistica Estimarea efectelor prin ANOVA 142 .II.

2.12.II. 2 modelul 1 nu descompune pe S R .2. Mai exact: 2 2 2 2 SS T = S A + S B + S AB + S R = SS carry + SS P + SS drug + SS int ra + SS int er = = (SS carry + SS int er ) + (SS P + SS drug + SS int ra ) = = SS between + SS within = SS total Această descompunere modifică formulele statisticilor F .12. Compararea intre modelul statistic general si modelul statistic specific „cross – over” In esenta.1. Statistica matematica si biostatistica Legatura intre ANOVA si testul t in compararea efectelor 2. In modelul „biostatistic” se imparte cu un numar mai mic ( MSint ra ) ceea ce conduce la un interval de incredere mai larg pentru efectele de formulare si deci la cresterea probabilitatii de acceptare a „egalitatii efectelor”. Legatura intre ANOVA si testul t in compararea efectelor 2. Testarea efectului secvenţei de administrare folosind metoda ANOVA: MS carry = SS carry = 2n1 Y••1 − Y••• + 2n 2 Y••2 − Y••• 2 ( ) 2 ( ) 2 ⎛ n Y + n 2 Y••2 = 2n1 ⎜ Y••1 − 1 ••1 ⎜ n1 + n 2 ⎝ 2 n 2 n 12 Y • • 2 − Y • • 1 ⎞ ⎟ ⎟ ⎠ 2 ⎛ n Y + n2 Y••2 + 2n2 ⎜ Y••2 − 1 ••1 ⎜ n1 + n2 ⎝ 2 ⎞ 2n1 n 2 Y••1 − Y••2 ⎟ = ⎟ (n1 + n2 )2 ⎠ ( ) 2 + (n 1 ( + n2 ) ) 2 2 2 n1 n 2 Y ••2 − Y ••1 = n1 + n 2 ( ) = 2(Y 1 − Y1 ) 2 ••2 ••1 2 n1 + n2 ⎛ ⎜ ⎜ 2 Y − Y••1 = ⎜ ••2 1 1 ⎜ + ⎜ n n 1 2 ⎝ ( ) ⎞ ⎟ ⎟ ⎟ = ⎟ ⎟ ⎠ 143 2 .12. diferenta intre cele doua modele se refera la alegerea „termenului rezidual”. modelul 2 distinge între reziduale intra-individuale şi reziduale interindividuale.

MScarry MSint er ⎛ ⎜ U − U •2 = 2 ⎜ •1 ⎜ 1 1 ⎜ ⎜ n +n 2 ⎝ 1 ⎞ ⎛ ⎟ ⎜ ⎟ * 1 = ⎜ U •1 − U •2 ⎟ 2σ u2 ⎜ ˆ 1 1 ˆ + ⎟ ⎜ σu ⎟ ⎜ n1 n2 ⎠ ⎝ 2 ⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ Se observa ca decizia obtinuta prin ANOVA in ceea ce priveste efectul rezidual este acelasi cu rezultatul obtinut prin testul t.12. 2. sa facem aceiasi comparatie intre cele doua metode de evaluare a efectului de perioada. Testarea efectului perioadei folosind ANOVA SSP = ∑∑∑ Y • j • − Y ••• k j i ( ) = ∑∑ n (Y 2 k k j • j• − Y ••• ) 2 = ( n1 + n2 ) ⎡ Y •1• − Y ••• ⎢ ⎣ = ( n1 + n2 ) ⎡ n1n2n2 Y •1• − Y •2• ⎤ + ⎡ n1n1n2 Y •2• − Y •1• ⎤ ⎣ + ⎦ ⎣ + ⎦ = Observatie: 2 n12 + n2 Y •2• − Y •1• n1 + n2 { ( ) + (Y 2 •2• 2 2 − Y ••• ⎤ ⎥ ⎦ ) ( ) ( ) 2 } ( ) 2 Observam ca MS β MS int ra nu mai duce la acelasi rezultat ca in testul t efectuat pentru variabilele O•1 si O•2 .3.II. Statistica matematica si biostatistica Legatura intre ANOVA si testul t in compararea efectelor 2n1n2 n1 + n2 ⎧1 ⎡ ⎨ ⎣ Y•12 + Y•22 − Y•11 + Y•21 ⎩2 ( ) ( ) ⎤ ⎫ = 2n1n2 U •1 − U •2 ⎦ ⎬ n1 + n2 ⎭ 2 ( ) 2 ⎡ ⎤ ⎢ ⎥ ⎢ U •1 − U •2 ⎥ =2 ⎢ 1 1 ⎥ + ⎥ ⎢ ⎢ n1 n2 ⎥ ⎣ ⎦ 2 2 Deci. Incercam. 144 . in continuare.

în prezenţa efectelor carry – over inegale. mai avem si media totala cand apare problema folosirii mediei mediilor secventelor („least square”) sau media obisnuita. Concluzii: În practică. de cele mai multe ori. In fond se anulează avantajul major al experimentului crossover şi anume faptul ca fiecare subiect este propriul sau martor. Analiza dispersionala (ANOVA) se aplica in toata lumea in evaluarea studiilor de bioechivalenta. se recomanda a se folosi pentru a testa bioechivalenţa. Nu trebuie să uităm insa următoarele consecinţe ale acestei proceduri: 1) puterea de detecţie a diferenţelor semnificative clinic este micşorată datorită creşterii dispersiei ( se inlocuieste dispersia intraindividuala cu cea interindividuala) şi. Aparitia efectelor de formulare nu semnifica nimic! Egalitatea nu implica bioechivalenta si nici bioechivalenta nu implica egalitatea. Pe de alta parte insa. Efectele de perioada nu influenteaza estimarea efectelor de formulare. iar in aplicatiile efective sunt luate intotdeauna variante pentru cazul particular n1 = n2 (secvente egale). al secventelor inegale. dar in final rezultatele sale nu influenteaza in nici un fel decizia privind bioechivalenta.II. 2) pierderea de informaţie prin acceptarea existentei unor efecte de secventa si renuntarea la datele din perioada a – 2 – a. 145 . si deci a aparitiei efectelor de secventa. Aparitia efectelor de secventa invalideaza metoda de testare a efectelor de formulare. Statistica matematica si biostatistica Legatura intre ANOVA si testul t in compararea efectelor Nepotrivirea apare din aceea ca nu stim exact cum sa calculam media Y• j1 + Y• j 2 perioadei: media „least square” Y• j • = sau media obisnuita 2 Y• j • Y• j • = n1 + n2 In acelasi context. testarea egalitatii duce la o informatie nesemnificativa. Mentionam ca in literatura formulele finale sunt date fara demonstratie. la finalul experimentului de bioechivalenta nu mai avem n1 = n2 . datele din prima perioadă. Problema isi are importanta deoarece.

Ramane totusi ca ANOVA – in cazul in care pune in evidenta efectele de secventa – impune o examinare atenta a protocolului studiului si verificarea masurilor de indepartare a efectelor reziduale. Dar aceasta iarasi nu inseamna nimic. Statistica matematica si biostatistica Legatura intre ANOVA si testul t in compararea efectelor In acelasi timp este de mentionat ca toate ghidurile referitoare la analiza bioechivalentei recomanda utilizarea MSE „mean square erorr” in formula de testare a bioechivalentei. ANOVA nu este un instrument de decizie. Ca o concluzie finala. 146 . In fond 2 2 2 MSE = 2σ d si nimic nu ne impiedica sa estimam direct σ d prin S d care este mai usor calculat si rezultatul este acelasi.II. rolul sau fiind „informativ”.

iar = 0. 2. Biometrics. μR Aici trebuie facuta observatia ca. 30.13. 2 regula de acceptare devine: a) Produsele sunt bioechivalente daca intervalul de incredere 90% pentru μT − μ R este in limitele ± 20% din efectul produsului de referinta sau daca. μR atunci se accepta ca medicamentul testat este bioechivalent cu cel de α referinta. Estimarea bioechivalentei 2.13. ceea ce nu este niciodata cazul. Statistica matematica si biostatistica Estimarea bioechivalentei 2. testul de bioechivalenta descompunandu-se de fapt in doua teste unilaterale: H 01 : μ T − μ R ≤ θ I vs H a1 : μT − μ R 〉 θ I si H 02 : μ T − μ R ≥ θ S vs H a 2 : μ T − μ R 〈 θ S O biodisponibilitate mai mare a produsului testat decat cel de referinta.II.13.05 si. implica posibilitatea unor efecte secundare sau toxice crescute si o “siguranta” mai mica.1.1. aplicarea regulii presupune cunoasterea lui μ R . Schuirmann Ipoteza nula este ipoteza compusa din doua ipoteze simple. 209-317. Metoda celor “doua teste unilaterale”. metoda care a fost criticata de multi autori. 1974 147 .1.1. in acest caz. Bioavailabity: a problem of equivalence.Metzler. Bioechivalenta implica o echivalenta atat in ceea ce priveste efectul cat si in ceea ce priveste siguranta.13. 1 C. Uzual se aplica regula ± 20% . Metoda intervalului de incredere Anterior a fost prezentata modalitatea de testare a ipotezei nule ca doua produse sunt “egale” intre ele dupa efectuarea unui experiment 2*2 cross-over. Daca intervalul de incredere (1 − 2α ) *100% pentru diferenta μT − μ R sau pentru raportul μT se afla in limitele de acceptare impuse. In locul acesteia a fost propusa de Metzler 1 o metoda bazata pe intervale de incredere. Metode parametrice de estimare a bioechivalentei 2.2. in ambele cazuri. si se ia din acest motiv YR pe post de μ R . b) μT este intre 80% si 125% cu probabilitatea 90%.

Echivalenta este stabilita atunci cand YT − YR − θ I YT − YR − θ S 〈 − t (α . Statistica matematica si biostatistica Estimarea bioechivalentei Daca vrem sa testam ipotezele enuntate la un nivel de semnificatie α . ( ) ( ) 2.3. coeficientul de variatie obtinut din datele netransformate este o estimare a dispersiei datelor transformate. CV 2 ).13. E (ln X ) = ln μ si D(ln X ) = CV 2 μ Deci. 148 . ln X = N (ln μ . ⎛X −μ⎞ σ2 2 Pentru a demonstra aceasta observam ca : D⎜ ⎜ μ ⎟ = μ 2 = CV ⎟ ⎝ ⎠ X −μ este aproximat de zero si : Daca CV este suficient de mic μ ⎛X⎞ ⎛ X −μ⎞ X −μ ⎟≅ ln X − ln μ = ln⎜ ⎟ = ln⎜1 + ⎜μ⎟ ⎜ μ ⎟ μ ⎝ ⎠ ⎝ ⎠ X −μ Deci. Transformarea logaritmica a datelor Ghidurile de testare a bioechivalentei recomanda transformarea logaritmica a datelor. Daca datele initiale sunt repartizate normal si coeficientul de variatie este mic. atunci si datele transformate urmeaza aproximativ o distributie normala. n1 + n2 − 2 ) TI = 〉 t(α . n1 + n2 − 2 ) si TS = 1 1 1 1 ˆ ˆ + σd + σd n1 n2 n1 n2 2 MSE (MSE = Mean Square Error din ANOVA). in conditiile in care presupunem ca datele sunt normal repartizate. σd = 2 RMSE deci σ d = (RMSE = Root Mean Square Error) 2 Observam ca procedeul celor doua teste t unilaterale este echivalent cu metoda clasica de testare a includerii intervalului de incredere pentru μT − μ R cu probabilitatea (1 − 2α ) *100% in intervalul de acceptare.1.II. adica datele transformate sunt distribuite normal cu media ln μ si dispersia CV 2 . Deci. ln X ≅ ln μ + . putem aplica testul t.

intervalul de incredere se determina folosind testele nonparametrice.13.2. ∗ E (ln X T ) = μ T si μT = E ( X T ) = E ( eln X T ) ≅ E ⎛1 + ln X ⎜ ⎝ ∗ μR T + 1 2 ( ln X T ) ⎞ = ⎟ 2 ⎠ ∗ 1 1 σ2 2 ∗ ∗ ∗ = 1 + μT + E ( ln X T ) = 1 + μT + (σ 2 + μT 2 ) = e μT + 2 2 2 Similar obtinem: μ R = e + σ2 2 2 σ e + 2 μT 2 si cum σ este de asteptat sa fie = ln Ca urmare ln σ2 μR 2 μ ∗ μT 2 foarte mic in raport cu e si e . in particular ipotezele privind normalitatea si egalitatea dispersiilor. Intervalul de incredere pentru diferenta mediilor datelor transformate ∗ ∗ μ T − μ R sunt aproximativ egale cu cele pentru logaritmul raportului ⎛μ ⎞ mediilor netransformate ln⎜ T ⎟ . μ2 In cazul in care CV 2 nu este foarte mic lucrurile sunt cu mult mai complicate.II. exista indoieli si incertitudini in ceea ce priveste natura distributiei parametrilor farmacocinetici . Metode non – parametrice de testare a bioechivalentei Daca nu sunt verificate ipotezele necesare aplicarii ANOVA (si implicit a testului t). In analiza bioechivalentei. Metoda se bazeaza pe compararea rangurilor. Timp de multi ani parametrii 149 . D(ln X T ) = D(ln X R ) = σ Avem: 2 E(X R ) = μ R . Statistica matematica si biostatistica Estimarea bioechivalentei De obicei insa transformarea logaritmica are rostul de a corecta asimetria datelor initiale si a le « restrange » prin aceea ca σ 2 trece in σ2 . fie E ( X T ) = μT . avem : ∗ e μT μT ∗ ∗ ln ≅ ln μ ∗ = μT − μ R R μR e ∗ μR ∗ μT e ∗ R + 2. ⎜μ ⎟ ⎝ R⎠ Intr-adevar.

In fapt o decizie corecta privind aceste efecte se bazeaza numai pe evaluarea fenomenologica. pentru toate perechile posibile de N rapoarte individuale (R). In prezent. 1973 Steinijens V W. In prima faza se determina diferentele pentru fiecare subiect (Testat – Referinta). Statistical Analysis of Bioavailability Studies: Parametric and Non-parametric Confidence Intervals. Consideram N subiecti intr-un experiment cross-over cu doua perioade si doua secvente ( care insa nu se iau in calcul). analiza statistica se bazeaza pe transformarea logaritmica ⎛ A⎞ a AUC si a valoarii C max . Wolfe D A. Pe de alta parte. New York. Pharmacol 24. a considerentelor fiziologice si a caracteristicilor designului experimentului clinic. Eur. Hollander M. Non-parametric Statistical Methods. O metoda de calcul neparametric a intervalului de incredere pentru raportul parametrilor a fost data de Hollander si Wolfe 2 si extinsa ulterior alaturi de alte metode nonparametrice de Steinijens si Diletti 3 . nu avem nici o garantie ca acestea sunt reale. Metodele sunt tentante dar. Ulterior reglementarile oficiale au recomandat transformarea logaritmica a datelor. Deoarece ln A − ln B = ln⎜ ⎟ aceasta este o ⎝B⎠ analogie (dar nu acelasi lucru) cu analiza raportului parametrilor estimati.Wiley.1983 3 2 150 . Statistica matematica si biostatistica Estimarea bioechivalentei bioechivalentei au fost analizati ca valori netransformate. media geometrica pentru rapoarte. incluzand si raportul R/R intre subiecti. Exista 2 un subiect si el insusi. chiar daca statistica arata aparitia unor astfel de efecte. 127-136. pe baza proprietatilor fizicochimice ale substantelor active. Se compara R ′ .II. Diletti E. J. un lucru esential trecut de obicei sub tacere este acela ca se presupune ca nu apar efecte de perioada sau efecte de secventa. Clin. Pentru cazul unei transformari logaritmice a AUC se compara diferentele logaritmului raspunsurilor pentru fiecare subiect: ⎛ AUCT ln( AUCT ) − ln( AUC R ) = ln⎜ ⎜ AUC R ⎝ Se pot calcula si rapoartele ⎞ ⎟=R ⎟ ⎠ AUCT deoarece acestea sunt in relatie AUC R biunivoca cu diferentele logaritmurilor. unde N este numarul de N ( N + 1) astfel de perechi.

II. obtinem un interval de incredere pentru rapoartele directe dintre testat si referinta. 3 Valorile lui R ′ sunt apoi ordonate crescator in functie de rang. 8. sunt redate in tabelul privind intervalele de incredere folosind testul de rang Wilcoxon.3. In practica. 8) chiar si cu ochiul liber – ca fiind inechivalente. nu este necesara compararea logaritmica deoarece noi suntem interesati de rapoartele dintre testat si referinta. Limita inferioara si superioara a intervalului de incredere nonparametric de 90%. respectiv 95%. 2. Fig.13. Statistica matematica si biostatistica Estimarea bioechivalentei Facem observatia ca media geometrica a rapoartelor este in corespondenta biunivoca cu media aritmetica al logaritmului valorilor : ln a + ln b + ln c = ln 3 abc . dupa cum se poate vedea (fig. a fost aceea ca aplicand procedurile statistice standard produsele apareau.medicamentul testat si MELOXICAM . – Curbele medii pentru produsul testat si cel de referinta 151 . Compararea rezultatelor metodelor parametrice si non – parametrice in estimarea bioechivalentei unor forme farmaceutice cu meloxicam Problema studiului de bioechivalenta privind supozitoarele cu MELOXICAM . Daca noi comparam N ( N + 1) pentru rapoartele si folosim media geometrica a perechilor 2 ranguri.medicamentul de referinta. etc.

152 . relativ normala a profilelor in cazul medicamentului testat si o distributie absolut anormala in cazul produsului de referinta 4 . 326-331 (2005).Mircioiu.David. F.Georgita. Fig.Medvedovici. 9b– Profilele individuale dupa administrarea medicamentului testat 4 A. C.9a si fig 9b) arata o distribuite omogena.Arzneimittel Forschung/Drug Research. V. 9a– Curbele individuale pentru produsul de referinta Fig.II. Statistica matematica si biostatistica Estimarea bioechivalentei O examinare mai atenta insa a profilelor individuale (fig. A non-extracting procedure for the determination of meloxicam in plasma samples by HPLC-diode array detection.55 (6). C..Albu.

9 24931.5 11 40403. 2.9 299 3 64049.3 35726.5 6 3493.6 16 29062.65 12607.7 -6456 12 24822.8 10 21583.7 37064.6 5 47631.1 9731 23 23702. testarea uzuala a bioechivalentei parametrilor in cele doua populatii (R si T) si pe egalitatea dispersiilor.7 3901 19 48653.2 37006.6 42293 18 17423.2 50453.7 40641.1 25032.4 19996.9 39923.8 38427.7 17 25463. este departe de a fi cea mai indicata metoda.8 37547 21 31387.3 15 21321.7 12 24822.3 1230 15 21321. In acest context.9 39923.5 11172 11 40403.3.5 8002 6 3493.2 50453.7 19 48653.4 19996.7 37064. 5 voluntari cu valori mari si restul – un grup mai omogen – cu valori intermediare.6 30947.4 12024 AUCT − AUC R Subject AUC-R AUC-T AUCT − AUC R Tabel 21 Valorile egale (diferenta este zero) sunt inlaturate din calculele urmatoare.1 25032.4 2573 8 21132.1.II.4 25216.6 2822 16 29062.3 65279.4 25216.9 44936 13 24918.3 65279. Subject AUCT − AUC R Rang Subject 13 299 1 12 9731 10 3 1230 2 19 -10226 11 18 2573 3 20 11172 12 5 2822 4 17 11544 13 8 3901 5 23 12024 14 21 -6456 6 7 18130 15 16 8002 7 10 18340 16 1 8215 8 15 19320 17 6 9114 9 11 37547 18 AUCT − AUC R Rang 153 .6 30947.8 21 31387.6 42293 18130 18 17423.9 44936 8215 13 24918. Subject AUC-R AUC-T 1 36720.9 3 64049.2 37006.9 24931.9 18340 20 19775.13.7 40641. Vom ordona crescator aceste diferente netinandu-se cont de semn (Tabel 22).7 7 24162.65 12607.4 77950.4 Tabel 20 Studiem mai intai diferentele dintre AUC pentru medicamentul testat si referinta. Estimarea egalitatii mediilor plasmatice folosind testul “non – parametric” Wilcoxon La testarea egalitatii mediilor plasmatice a doua preparate farmaceutice (testat –T si referinta – R) continand MELOXICAM s-a constatat urmatoarea distributie a datelor: Subject AUC-R AUC-T Subject AUC-R AUC-T 1 36720.7 9114 17 25463.6 19320 5 47631.8 -10226 10 21583.5 34553.8 38427. Diferenta egala cu zero nu contribuie cu noi informatii privind diferenta dintre tratamente.5 34553.4 77950.7 11544 7 24162.9 20 19775.4 8 21132. Statistica matematica si biostatistica Estimarea bioechivalentei Apare ca profilele medicamentului testat se imparte in 3 grupe diferite: un subiect cu valori aberant de mici.3 35726.1 23 23702.

Vom calcula suma rangurilor pozitive si suma rangurilor negative: R+ = 1 + 2 + 3 + 4 + 5 + 7 + 8 + 9 + 10 + 12 + 13 + 14 + 15 + 16 + 17 + 18 = 154 si R− = 6 + 11 = 17 In tabelul de mai jos sunt prezentate valorile “critice” ale celor doua sume de ranguri necesare pentru nivelul de semnificatie 5%. Acelasi lucru se va intampla si cu subiectul 19 care va capata rangul -11. Cea mai mica suma a rangurilor trebuie sa fie cel mult egala cu cea din tabelul de mai jos (tabel 24)pentru a considera cele doua grupuri de rezultate ca fiind diferite la nivelul de incredere specificat.II. pentru N valori (N se considera numarul de perechi excluzand perechile a caror diferenta este 0). respectiv 1%. subiectul 21 care avea inainte rangul 6 va capata rangul -6 deoarece diferenta pentru acest subiect este negativa.01 subiecti N 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 0 2 3 5 8 10 13 17 21 25 30 35 40 46 52 0 1 3 5 7 10 13 16 19 23 28 32 37 154 .05 α = 0. Statistica matematica si biostatistica Estimarea bioechivalentei Dupa ordonarea completa a diferentelor (netinandu-se cont de semne) se vor adauga semnele corespunzatoare diferentelor originale care au determinat aceste ranguri: Subject AUCT − AUC R Rang + semn Subject 13 299 1 12 9731 10 3 1230 2 19 -10226 -11 18 2573 3 20 11172 12 5 2822 4 17 11544 13 8 3901 5 23 12024 14 21 -6456 -6 7 18130 15 16 8002 7 10 18340 16 1 8215 8 15 19320 17 6 9114 9 11 37547 18 AUCT − AUC R Rang + semn Tabel 23 Astfel. Numarul de α = 0.

deci. atunci cand nu avem garantia inplinirii conditiilor de aplicare a testului t. De aceea. testul de mai sus este un test de recomandat. suma minima a rangurilor este R− = 17 si 17 ≤ 40 (valoarea corespunzatoare din tabel).9832 .5 *17 12 Deci si aproximarea normala a distributiei rangurilor ne duce la aceiasi concluzie privind existenta unei diferente semnificative intre nivelele plasmatice ale lui R si T. Rezultatele acestui test sunt foarte aproape de cele obtinute cu testul t.II. N = 18 si R = 154 . Pentru valorile date aproximarea normala este mai la indemana pentru a compara mediile celor doua populatii: N ( N + 1) 4 N (2 N + 1)( N + 1) 24 R− Z= unde R este suma rangurilor (poate fi utilizata oricare dintre suma rangurilor pozitive sau negative) si N este numarul de elemente (exceptand valorile egale). In cazul nostru. Statistica matematica si biostatistica Estimarea bioechivalentei In studiul analizat N = 18 .0508 16 *16.05 . R− = 9 si 16 *17 127 − 4 Z= = 3. 18 *19 154 − 4 Z= = 2. spunem ca cele doua medicamente realizeaza nivele plasmatice diferite pentru α = 0. Considerand ca ipotezele testului Wilcoxon sunt mai putin restrictive in comparatie cu testul t. 18 *18.5 *19 12 In cazul in care se vor exclude subiectii 6 si 21 vom avea: N = 16 . R+ = 127 . 155 .

Estimarea bioechivalentei prin calculul “non – parametric” al intervalelor de incredere La testarea bioechivalentei acelor doua preparate farmaceutice (testat –T si referinta – R) s-au obtinut urmatoarele valori pentru Cmax .47 19 1795 1654 0.69 17 879 1132 1. Statistica matematica si biostatistica Estimarea bioechivalentei 3.24 8 698 1028 1.13 3 1739 1856 1.28 7 795 1726 2. Astfel: pentru subiectul 1 media geometrica este radicalul dintre produsul raportului subiectului 1 combinat cu el insusi: 1.94 16 643 968 1.3.17 18 787 981 1.2. Vom determina media geometrica pentru fiecare raport T 156 .78 12 1381 1206 1.13.50 6 173 639 3.93 5 770 728 0.39653 *1. N ( N + 1) 18 * 19 Se vor determina = = 171 de combinatii diferite incluzand 2 2 si fiecare raport cu el insusi.83 11 707 799 1.95 21 1030 809 0.06 15 641 1241 1.50 23 1401 1768 1.067 ≈ 1.77 20 865 1590 1.221 Acest rationament il vom aplica pentru fiecare dintre cei 18 subiecti.92 10 918 1626 1. media geometrica este radicalul produsului dintre raportul subiectului 1 si raportul subiectului 2: 1.26 C max T T/R Subiect C max R C max T T/R Tabel 25 adica R radicalul dintre produsul a doua rapoarte. Subiect C max R 1 923 1289 1.39 13 927 1048 1.II.397 Pentru subiectul 1 combinat cu subiectul 2.397 *1.39653 ≈ 1.

479 1.161 3 1.707 1.655 1.936 1.996 1.394 1.686 2.131 1.602 1.318 0.804 1.363 7 1.254 1.851 1.342 1.510 1.771 1.434 1.370 1.059 1.179 1.810 1.202 0.666 1.633 1.401 0.050 1.703 1.808 1.179 1.268 1.933 1.221 1.741 1.862 1.397 1.067 1.187 1.415 1.294 1.257 1.355 1.092 2.086 2.961 2.674 2.178 1.886 1.414 1.771 1.635 1.523 0.247 1.845 2.370 1.869 1.804 1.290 1.288 1.717 1.916 0.444 1.267 1.615 1.194 1.359 1.134 0.633 1.703 2.933 1.953 1.633 1.663 1.193 1.072 0.195 1.306 1.034 1.394 1.942 1.098 1.522 1.059 1.486 1.491 1.336 1.479 1.271 1.363 1.553 1.985 1.486 1.860 1.165 1.570 9 1.179 1.635 1.306 1.717 1.694 2.341 1.672 1.179 1.579 1.989 1.050 1.332 2.539 1.359 1.153 1.047 1.644 1.495 1.290 1.433 2.437 1.375 1.233 1.401 0.473 1.444 1.832 2.916 1.810 1.686 2.602 1.089 0.165 1.996 1.047 1.319 1.645 1.509 1.644 1.361 2.444 1.043 2.489 1.522 1.269 1.486 1.193 1.495 8 1.553 1.202 1.491 1.838 1.489 1.558 2.359 2.358 2.392 1.663 1.006 1.254 0.358 2.181 2.034 1.507 1.573 1.078 16 1.845 1.606 1.187 1.945 1.278 1.375 1.103 1.239 1.306 1.392 1.043 2.358 1.318 2.034 2.159 2.161 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 0.254 1.945 1.078 1.808 1.076 1.810 1.153 0.380 1.505 1.945 1.985 1.852 1.510 1.473 1.301 0.895 1.437 1.804 1.586 1.092 3.021 1.161 1.332 1.507 1.486 1.696 1.442 0.479 1.942 1.709 1.021 1.103 2.092 4 2.078 1.567 2.936 1.372 1.178 1.086 0.415 1.689 1.278 1.573 1.290 1.378 1.433 1.522 1.353 1.563 1.328 2 1.397 1.437 1.221 1.342 1.655 1.180 1.832 2.098 1.149 2.985 1.275 14 1.146 1.377 1.269 1.328 1.159 5 1.961 2.514 1.294 2.645 1.450 1.715 1.558 1.180 1.181 2.146 1.851 1.268 1. Statistica matematica si biostatistica Estimarea bioechivalentei Mediile geometrice determinate sunt: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 1 1.945 1.336 1.895 1.268 1.434 1.239 1.694 2.353 2.514 0.086 0.553 1.262 Mediile geometrice considerate o singura data sunt: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 1 1.486 1.560 1.306 1.089 1.514 0.377 1.178 1.271 1.573 1.378 13 1.652 1.233 1.089 1.392 1.486 1.288 1.005 0.363 1.505 1.005 1.171 1.689 1.050 1.319 1.560 1.353 1.886 1.067 1.278 1.788 1.089 1.442 0.254 1.377 1.539 1.644 1.655 6 1.195 2.171 1.852 1.233 1.072 1.785 0.933 1.489 1.586 1.380 1.207 1.869 1.652 1.509 1.305 1.663 1.370 1.267 1.361 2.450 1.567 2.149 2.361 1.862 1.635 1.202 1.615 1.271 1.059 1.318 0.414 1.355 1.452 1.645 1.689 1.342 1.076 1.558 2.179 1.715 1.134 1.507 1.895 1.523 0.567 1.301 1.193 2.355 1.845 2.305 1.860 1.131 1.181 1.674 2.523 17 1.715 1.434 1.645 1.992 1.961 1.294 1.707 1.II.328 2 1.992 0.862 1.275 1.450 1.005 1.006 0.945 1.149 1.672 1.153 0.785 0.087 1.006 1.869 3.570 1.433 1.916 1.207 1.703 2.305 1.336 1.579 1.172 1.380 10 1.741 1.257 1.452 1.332 2.195 1.257 1.341 1.606 1.267 1.087 1.043 1.306 1.275 1.788 1.852 1.269 1.606 1.788 1.666 1.696 1.159 1.394 1.539 1.207 1.254 1.372 1.717 1.194 1.172 1.921 1.996 18 1.998 1.989 0.832 2.179 1.194 11 1.921 1.674 2.341 1.741 1.076 1.165 1.134 1.602 1.180 2.645 1.254 15 1.146 1.221 1.375 1.089 1.560 1.998 1.709 1.992 1.187 1.563 12 1.247 1.301 0.372 1.942 1.378 1.098 1.707 1.645 1.579 1.989 1.262 157 .686 2.510 1.615 1.652 1.452 1.491 1.306 1.570 1.047 0.442 1.851 1.103 1.563 1.415 1.414 1.709 1.998 1.838 1.586 1.953 1.696 1.239 1.666 1.886 1.087 1.401 1.072 1.319 1.860 1.495 1.089 1.021 1.808 1.172 1.672 1.

194 =small(F3:Q20. deci am avut: • =small(F3:Q20. In cazul nostru array. respectiv 131 pentru intervalul de incredere CI 95% .247 =small(F3:Q20. 131)=1. iar cea superioara rangul 124 corespunzand astfel intervalului CI 90% = (1.48)=1. 1. in tabelul Exccel. in EXCEL.652) : • =small(F3:Q20. 1.652 • 158 .696 • ceea ce inseamna un interval de incredere CI 95% = (1. tabelul mediilor geometrice luate o singura data Vom folosi functia small(array. deoarece numarul de subiecti este N = 18 .194 .247 . Pentru a determina un rang al mediilor geometrice vom construi. 41)=1. k = 41 .696) In cazul intervalului de incredere 90% limita inferioara va avea rangul 48.III. Statistica matematica si biostatistica Estimarea bioechivalentei Tabel 26 Intervalele de incredere folosind testul de rang Wilcoxon Numarul de subiecti (N) 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Rangul limitei inferioare 95% 90% 1 3 3 4 4 6 6 9 9 11 11 14 14 18 18 22 22 26 26 31 30 36 35 42 41 48 47 54 53 61 59 68 66 76 74 84 82 93 Rangul limitei superioare 95% 90% 21 19 26 25 33 31 40 37 47 45 56 53 65 61 74 70 84 80 95 90 107 101 119 112 131 124 144 137 158 150 173 164 188 178 203 193 219 208 Dupa cum se observa. limita inferioara. respectiv 65 al mediilor geometrice determinate anterior.124)=1. respectiv superioara a intervalului de incredere 95% este valoarea rangului 14.k) care calculeaza valoarea de rang k dintr-un set de date (array). a fost F3:Q20.

unde: i = 1.13. Estimarea bioechivalentei folosind testul non – parametric Wilcoxon. reprezinta numarul de subiecti in cele doua • secvente P − P1 d ik = 2 • este jumatate dintre diferentele intre cea de-a II a 2 perioada si prima perioada • h = L sau U dupa cum ne referim la compararea cu limita inferioara sau cea superioara a intervalului de acceptare a bioechivalentei 159 . h = L.III.3. In ambele situatii se constata ca nu putem demonstra bioechivalenta celor doua produse. 2. 1.U pentru subiectii din sec venta 1 bhik = ⎨ ik . pentru subiectii din sec venta 2 ⎩ d ik . diferenta intre formularile testate θ = μT − μ R . Consideram testarea bioechivalentei folosind doua teste unilaterale: ∗ H 01 : θ L ≤ 0 vs ∗ ∗ H A1 : θ L 〉 0 unde θ L = θ − θ L si ∗ ∗ ∗ H 02 : θ U ≥ 0 vs H A 2 : θ U 〈 0 unde θ U = θ − θ U In vederea testarii ipotezelor enuntate consideram combinatia (“contrastul”): ⎧d − θ h .2 .3. pornind de la un model care ia in considerare si efectele de perioada Fie.25) . Statistica matematica si biostatistica Estimarea bioechivalentei Limitele inferioare si limitele superioare stabilite de FDA pentru bioechivalenta sunt (0. k = 1.800 . nk . folosind notatiile standard de la modelul incrucisat cu doua perioade si doua secvente.

Statistica matematica si biostatistica Estimarea bioechivalentei Folosind rationamentul de la testarea efectelor in experimentul cross-over pentru diferenta d ik intre valorile pereche ale unui subiect dat vom obtine: ⎧1 ⎪ 2 [(P2 − P1 ) + (θ − 2θ h )] pentru k = 1 E (bhik ) = ⎨ 1 ⎪ [(P2 − P1 ) + θ ] pentru k = 2 2 ⎩ D(bhik ) = D(d ik ) = σ = 2 d σ e2 2 Observam ca din definitiile de mai sus rezulta imediat ca: ∗ E (bhi1 ) − E (bhi 2 ) = (θ − θ h ) = θ h Media sumei rangurilor este Wilcoxon). E (W L ) = E (WU ) = si i =1 i =1 n1 (n1 + n2 + 1) n1 (n1 + 1) n1 n2 − = 2 2 2 n1 n2 (n1 + n2 + 1) 12 D(W L ) = D(WU ) = Tragem concluzia ca produsele sunt bioechivalente atunci cand amandoua ipotezele H 01 si H 02 sunt respinse. n1 (n1 + n2 + 1) (s-a demonstrat la testul 4 n1 n1 Consideram suma rangurilor: R L = ∑ R(bLi1 ) si RU = ∑ R (bUi1 ) si n (n + 1) n (n + 1) variabilele aleatoare WL = RL − 1 1 si WU = RU − 1 1 . unde valorile w(α ) se gasesc in tabele.III. 2 2 n(n + 1) este “testul Mann – Inlocuirea sumei rangurilor R cu R − 2 Whitney” care insa este in esenta acelasi test. implica biochivalenta celor doua produse. relatia: WU ≤ w(α ) si WL 〉 w(1 − α ) . iar valorile complementare se calculeaza cu formula: w(1 − α ) = n1 n2 − w(α ) . 160 Deci.

Subiecti secv 1 ZU = WU − E (WU ) D(WU ) n1 (n1 + n2 + 1) 2 P1 P2 Subiecti secv 2 1 RT 36721 44936 3 TR 65279 64049 6 RT 3494 12608 5 TR 50454 47631 7 RT 24163 42293 8 TR 25033 21132 10 RT 21584 39924 12 TR 34553 24823 11 RT 40403 77951 13 TR 25217 24918 15 RT 21322 40642 16 TR 37065 29063 19 RT 48654 38428 17 TR 37007 25463 20 RT 19776 30948 18 TR 19996 17423 21 RT 31387 24932 23 TR 35726 23702 P1 P2 P2 − P1 = jumatate dintre diferentele intre cea de2 a II a perioada si prima perioada Calculam Vom calcula d ik = 161 . Statistica matematica si biostatistica Estimarea bioechivalentei In cazul in care avem si un numar k de cozi (valori egale). mai mare de 40) se poate folosi aproximatia normala: ( ) ZL = WL − E (WL ) D(WL ) = RL − 1 n1 n2 (n1 + n2 + 1) 12 = RU − n1 (n1 + n2 + 1) 2 si 1 n1 n2 (n1 + n2 + 1) 12 Vom compara AUCtot pentru studiul de bioechivalenta privind produsul MELOXICAM testat(T) si referinta (R) efectuat pe 18 subiecti.III. (n1 + n2 )(n1 + n2 − 1) ν =1 Cand numarul de valori este suficient de mare (de exemplu. atunci valorile egale se inlocuiesc cu media rangurilor lor rν si dispersiile devin D (W L ) = D (WU ) = 1 n1 n 2 (n1 + n 2 + 1 − Q ) . 12 unde Q = k 1 3 ∑ rν − rν .

. Statistica matematica si biostatistica Estimarea bioechivalentei AUCR = = ∑ AUC n1 + n2 R = 36721 + 3494 + ..III.…... RL = ∑ R(bLi1 ) = 7 + 6 + 4 + 3 + 1 + 2 + 13 + 5 + 10 = 51 n1 i =1 WL = RL − n1 i =1 n1 (n1 + 1) 9 *10 = 51 − =6 2 2 n1 (n1 + 1) 9 * 10 = 78 − = 33 2 2 R(bLik ) 7 6 4 3 1 2 13 5 10 RU = ∑ R(bUi1 ) = 6 + 8 + 18 + 16 + 3 + 14 + 1 + 10 + 2 = 78 WU = RU − secv 1 RT RT RT RT RT RT RT RT RT P1 36721 3494 24163 21584 40403 21322 48654 19776 31387 P2 44936 12608 42293 39924 77951 40642 38428 30948 24932 d ik 4108 4557 9065 9170 18774 9660 -5113 5586 -3228 bLi1 = d i1 − θ L 13088 13537 18045 18150 27754 18640 3867 14566 5752 bUi1 = d i1 − θ U -4872 -4423 85 190 9794 680 -14093 -3394 -12208 R(bUik ) 6 8 18 16 3 14 1 10 2 162 .. + 23702 = 44900 9+9 Determinam: − θ L = θ U = 0. bL 91 = d 91 − θ L = −3228 + 8980 = 5752 bU 11 = d11 − θ U = 4108 − 8980 = −4872 . ……. bU 91 = d 91 − θ U = −3228 − 8980 = −12208 bL12 = bU 12 = d12 = −615 . respectiv R(bUik ) .…. + 31387 + 64049 + 47631 + . bL11 = d11 − θ L = 4108 + 8980 = 13088 .2 * AUC R = 8980 Deci. bL 92 = bU 92 = d 92 = −6012 Ordonam descrescator valorile absolute ale lui bLik .. respectiv bUik si vom determina rangurile corespunzatoare R(bLik ) ..

838936 Minimum detectable difference = 0.553007 .13.0993931 35035. CV = 0.52453 -------------------------------------------------------------------------------Root Mean Square Error = 0.320187 0.8586 NS Error 16 4.200369 29012.161064 1 .6284 -------------------------------------------------------------------------------N Mean SD SEM GeoMean Geo SD Formulation:num = R 18 10.650296 2.III.( Power of the test ) = 0.000350993 0.9.0327659 0.9734 NS Subject(Seq) 16 10.8 2.305816 Total 35 15.2 1. 05 = 22 si w(1 − α ) = n1n2 − w(α ) = 9 * 9 − 22 = 59 Intrucat 22 〈 33 ⇒ w (α ) 〈 WU si 6 〈 59 ⇒ w (1 − α ) 〉 WL putem afirma ca produsele sunt bioechivalente nu 2. 0.0100203 0.Calculul parametric LATIN SQUARE DESIGN : ANOVA TABLE for AUCtot LATIN SQUARE with Log (neperian) option SOURCE D.3214 NS Sequence 1 0.4047 0.33987 Formulation:num = T 18 10.188617 163 .00114772 0.04699 0.320187 1.421689 0.4641 0.3.000350993 0. Statistica matematica si biostatistica Estimarea bioechivalentei secv 2 TR TR TR TR TR TR TR TR TR P1 65279 50454 25033 34553 25217 37065 37007 19996 35726 P2 64049 47631 21132 24823 24918 29063 25463 17423 23702 d ik -615 -1411 -1950 -4865 -149 -4001 -5772 -1287 -6012 bLi 2 = d i 2 -615 -1411 -1950 -4865 -149 -4001 -5772 -1287 -6012 R(bLik ) 17 15 14 11 18 12 9 16 8 bUi 2 = d i 2 -615 -1411 -1950 -4865 -149 -4001 -5772 -1287 -6012 R(bUik ) 15 12 11 7 17 9 5 13 4 Din tabel avem: w(α ) = W9.0100203 0.12643 0.2755 0.07096 NS Formulation 1 0.850093 0.F SS MS F p Period 1 0.72353 Power of the test = 0.4.0533286 phi = 0.89306 0.

1. 1.05 .8.71008 0.1873 Upper: t( 16df) = 2.37291 164 .18169 0.66 Geo SD 1.22793 20.18169 3.2544.0747013 -------------------------------------------------------------------------------Root Mean Square Error = 0.229051 Error 16 0. Statistica matematica si biostatistica Estimarea bioechivalentei -------------------------------------------------------------------------------BIOEQUIVALENCE TESTS FOR Level R and level T Reference Confidence Interval: [ 0.0354889 90% standard confidence interval (around the ratio:[test form]/[ref form])=[ 1.2338 t(0.316931 0.6687] p 0.0601095 Total 35 7.05 .494661 0.7459 Cannot conclude equivalence.29438 4.7459 Cannot conclude equivalence LATIN SQUARE DESIGN : ANOVA TABLE for Cmax LATIN SQUARE with Log (neperian) option SOURCE D. -------------------------------------------------------------------------------TWO ONE-SIDED T-TESTS FOR Level R and level T Lower: t( 16df) = 0.4283 Sequence 1 0.0137681 0.09312 0.F SS MS F Period 1 0.16df) = 1.63994 1.001414 *** 0. CV = 0.22793 1.III.116593 Formulation:num = T 18 7.6387 NS GeoMean 831.02264 Subject(Seq) 16 4.0137681 0. 1.000349 *** 0.245172 .72375 0.05 .666] t(0.09523 -------------------------------------------------------------------------------N Mean SD SEM Formulation:num = R 18 6.1013 NS 0.927 1203.7459 Cannot conclude equivalence.89739 Formulation 1 1.961752 0.20758 90% standard confidence interval (around the ratio:[test form]/[ref form])=[ 0.16df) = 1. t(0.16df) = 1.25] Geomean Ratio (Test/Reference) = 1.87528.

165 . AUCtot vs TreatmentName 400000 01 05 07 10 12 15 17 19 21 03 06 08 11 13 16 18 20 23 Cmax vs TreatmentName 2000 01 05 07 10 12 15 17 19 21 03 06 08 11 13 16 18 20 23 300000 A U C t o t (n g / m L * h ) 1500 C m a x (n g / m L ) 200000 1000 100000 500 0 R TreatmentName T 0 R TreatmentName T Fig. Din pacate aceasta nu se poate obtine decat din experimente repetate.4.11. Statistica matematica si biostatistica Estimarea bioechivalentei 2.III. fig. in functie de intravariabilitatea referintei. Aceasta deoarece intr-adevar la aproape toti subiectii avem: R T AUC tot 〈 AUC tot Si totusi rezultatul este profund incorect deoarece intravariabilitatea si distributia non-normala a rezultatelor produsului de referinta indica foarte probabil si o intravariabilitate mare a produsului de referinta. dupa cum au propus aproape toti cercetatorii in ultimii ani ar trebui introduse criterii “scalate” – adica largirea limitelor de acceptare a bioechivalentei. avem o diferenta foarte mare intre medicamentul de referinta si medicamentul testat dar aceasta diferenta este o combinatie intre intravariabilitatea lui R si cea a lui T. Dupa cum se vede in fig.13. deci experimente in care medicamentul referinta este administrat de doua ori.Compararea rezultatelor Este de observat ca testele neparametrice. 11Valorile Cmax pereche pentru R si T In acest caz. 10Valorile AUCtot pereche pentru R si T Fig. 10. la fel ca cele parametrice indica faptul ca cele doua produse nu sunt bioechivalente. In experimentul cross-over fara repetitie se obtine o intravariabilitate 2 S d sau SS int ra din ANOVA care sunt o combinatie a variabilitatilor pentru medicamentul testat si referinta si acestea nu se pot estima separat.

Statistica matematica si biostatistica Estimarea bioechivalentei 166 .III.

Una dintre acestea. In acest caz. Cand este vorba de date multivaluate / structurate. Regresia liniara) caruia i se supun celelalte valori. in timp ce cealalta. corespunzator realitatii. analiza efectului lor de distorsionare a rezultatelor estimarilor parametrilor populatiei. b. drept pentru care nu vom discuta acest mecanism. Statistica matematica si biostatistica Teste statistice de discordanta 2. In principiu exista doua mecanisme care pot da nastere unui esantion ce pare sa contina valori outlier (daca excludem factorul de eroare umana sau defectiunile aparaturii folosite). „distributia de baza” genereaza „observatii bune”. Cand este vorba de un set de date universale. Daca distributia contaminanta are o descrestere asimptomatica mai lenta decat cea de baza. discordanta inseamna abaterea de la modelul statistic (de ex. Aceste mecanisme dicteaza in buna masura felul in care vor fi tratate aceste valori speciale. dar decizia de respingere sau non-respingere nu poate fi luata fara examinarea si a celorlate doua probleme enuntate. a.II. Datele provin dintr-o distributie heavy tailed (graficul functiei de repartitie se apropie relativ „incet” de asimptota data de axa Ox) precum distributia Student T. „distributia contaminata” creeaza „observatii discordante” sau „contaminanti”. Putem defini intuitiv notiunea de discordanta (outlier) astfel: o observatie care deviaza atat de tare de restul observatiilor incat poate fi suspectata ca a fost generata printr-un mecanism diferit. In vederea realizarii primului obiectiv se aplica testele de discordanta . In general. intr-un esantion. caracteristica principala a unei observatii discordante este “departarea” sau deviatia (masurata) la o scara adecvata) fata de grupul majoritatii observatiilor (inlying observations). valorile aparent indepartate de restul reprezinta un factor firesc. existenta unor factori neluati in seama si necesitatea elaborarii unui alt model statistic.14. intrisec legii de repartitie. TESTE STATISTICE DE DISCORDANTA In ceea ce priveste valorile anormale . Datele provin din doua distributii diferite. Acest fenomen nu este caracteristic distributiei normale sau distributiilor gamma (ce manifesta o apropiere rapida de asimptota Ox). atunci va fi evidenta tendinta 167 . numite si teste de respingere . se pun in principal trei probleme: decizia privind respingerea sau omisia acestor valori. putem spune ca. o valoare (sau o submultime de valori) este “discordanta” daca nu respecta patentul caruia ii apartin celelalte valori ( este inconsistenta cu restul observatiilor).

Totuşi avem nevoie de un criteriu de respingere care să asigure o anumită semnificaţie operaţiei ceea ce impune în mod esenţial elaborarea unor ipoteze de lucru privind distribuţia testului statistic sau măcar să ştim ceva despre distribuţia de probabilitate pe coadă. 1. 3. 2. Statistica matematica si biostatistica Teste statistice de discordanta contaminantilor de a se manifesta ca valori discordante.1.14. Alternativ putem să construim teste folosind o metodă larg acceptată cum ar fi metoda verosimilăţii maxime a rapotului. Care sunt proprietăţile dorite pentru testul de discordanţă. În orice context un test statistic poate fi construit pur şi simplu pe baza intuiţiei şi să respingem sau să acceptăm valorile extreme. 4. Definirea performanţei testului şi a conceptului asociat de putere. Probemele sunt foarte complicate motiv pentru care până în ultimii ani ele au fost comple ignorate. Construcţia testelor de discordanţă Testele aplicabile au fost clasificate în şapte clase. Statistici bazate pe raportul exces / dispersie. Evaluarea performanţei relative. În general există o gamă foarte largă de teste din care putem alege şi în mod natural ne punem problema care sunt criteriile de a alege un test sau altul într-o situaţie particulară şi cum putem defini performanţa testului ales. Sunt patru aspecte principale care trebuiesc luate în considerare. Modelul de bază şi determinarea semnificaţiei. de exemplu calculul puterii trebuie sau poate fi făcută când avem definită ipoteza alternativă şi distribuţia testului statistic în condiţiile ipotezei alternative. 1. indepartate de restul observatiilor. Astfel ne putem pune problema unui test uniform cel mai puternic sau măcar să ne mulţumim cu o optimalitate locală sau cu certitudinea unei nedeplasări sau cu satisfacerea unor proprietăţi de invarianţă. Ipoteza alternativă care să ne permită definirea valorilor anormale. Acestea sunt rapoarte ale diferenţelor între valoarea aberantă şi vecinul său cel mai apropiat sau imediat după acesta în şir şi intervalul valorilor sau alte măsuri ale dispersiei selecţiei.II. Ca exemplu avem xn − xn −1 xn − x2 Propus de Dixon pentru examinarea unei valori aberante superioare şi care evită valoarea x1 sau xn − xn −1 σ 168 . Alegerea dintre mai multe teste ar trebui să fie bazată pe performanţa lor relativă. 2.

Statistici bazate pe sume de pătrate. una inferioară sau de amândouă tipurile. Ca exemplu avem xn − x1 s unde s poate fi obţinut din întreg setul de valori sau dintr-un set restrâns prin eliminarea valorilor bănuite a fi aberante sau poate fi cunoscut din alte măsurători. Testul presupunea σ cunoscut şi o repartiţie normală a probelor. Statistici bazate pe raportul dintre lungimea domeniul de valori / dispersie. n −1 2 ) 2 ∑( x − x) unde x n . De exemplu raportul ∑(x − x i =1 i n i =1 i n−2 n . x poate fi calculat din intregul set de date sau dintr-o parte a acestuia. De exemplu putem considera raportul x − x1 s La fel ca şi s . 2.n −1 = . Statistici bazate pe raportul deviaţie / dispersie. Dezavantajul acestor teste este acela că el nu face distincţie între cazurile când avem o valoare aberantă superioară. Aceste statistici se bazează pe suma pătratelor restricţionate şi suma pătratelor pentru întregul set de valori.II. 3. 4. poate fi folosit pentru testarea a două valori aberante n−2 superioare xn şi xn-1 dintr-o populaţie normal distribuită. 169 ∑x i =1 n−2 i . Testele se obţin din cele de mai sus prin înlocuirea numărătorului cu lungimea domeniul valorilor. Statistica matematica si biostatistica Teste statistice de discordanta unde σ este deviaţia standard în modelul de bază. Aceste teste înlătură dezavantajul celor anterioare prin aceia că se înlocuieşte lungimea domeniului de valori cu distaţa dintre o valoare aberantă şi măsură a tendinţei centrale a datelor. Putem înlocui σ cu o estimare a sa dintr-o probă restrânsă din care s-au eliminat valorile bănuite ca aberante.

2. Alte teste examinează valorile extreme secvenţial. În fapt acestea examinează în principal valoarea aberantă maximă pe baza unui test deviaţie / dispersie şi dacă xn se devedeşte valoare aberantă el se repetă operaţia pentru xn-1 pe proba redusă. Exemplu: 1. O situaţie specială apare atunci când avem un grup de valori anormale superior sau inferior şi când testele enumerate mai sus nu pot pune în evidenţă aberaţii datorită unui efect de mascare.II. 3 O prima masura de precautie pe care trebuie sa o luam este aceea de a verifica faptul ca distributia datelor nu se modifica radical prin schimbarea unitatilor de masura. n ∑ xi − x ( ) 3 3 2 ⎡ x −x ⎤ ⎢∑ i ⎥ ⎣ ⎦ 2 ( ) şi n ∑ xi − x ( ) 4 2 2 ⎡ ∑ xi − x ⎤ ⎢ ⎥ ⎣ ⎦ ( ) 7. 6. in final decizia privind declararea unei valori ca discordante tinand de analiza fenomenului. deci la schimbari liniare sau la schimbarea de la o distributie normala la una exponentiala. Statistici W. se gasesc in tabele). 170 . 11. calculate in functie de parametrii selectiei . Procedura se continuă până când se găseşte o valoare neaberantă. Statistica matematica si biostatistica Teste statistice de discordanta 5. 4. Statistici care măsoară asimetria sau curbura pot fi folosite şi pentru testarea valorilor aberante. Aplicarea unui test sau altul ne poate duce la concluzii in general diferite. 6. Aceste statistici s-au dovedit în particular relevante pentru datele cu distribuţie de tip Gamma. Statistici bazate pe momente de ordin superior. Statistici pe baza raportului între valorile extreme şi valorile medii. De aceea s-au conceput teste pentru evaluarea mai multor valori aberante simultan (proceduri bloc). Aceste teste se bazează pe rapotul dintre pătratul unei combinaţii liniare a tuturor datelor şi suma pătratelor abaterilor faţă de medie. (∑ wi xi )2 W = 2 ∑ xi − x ( ) (ponderile w . 5.

1. unde M este media celorlalte 6 valori. la numitor în prima statistică întregul domeniu de variaţie al valorilor x −x 5 = 0.II. q ) = 171 .5 y ( 6. nr. 7 . 4. 5. 1. 7 . Statistica matematica si biostatistica Teste statistice de discordanta Prima operatiune.5 = = 2. cea mai apropiata de ea x7 − x6 . p. Pentru D putem considera fie lungimea intervalului de valori x 6 − x1 . este aceea de asezare a datelor in ordine crescatoare. 6 ) = 7 6 = x7 − x1 10 Statisticile sunt de forma y ( r . 6 ) = 7 6 = = 1 . Fig. in raport cu imprastierea datelor din selectie. 2. Aceasta ne duce in mod natural la ideia unei statistici bazata pe raportul A/D unde A este abaterea valorii extreme fata de restul datelor iar D este o masura a dispersiei datelor . 5.5 xs − xr xq − x p Am putea lua de exemplu. y ( 6. Pe post de A putem lua de exemplu diferenta intre valoarea extrema si urmatoarea valoare.1. s . 6 ) = 7 6 = = 5 x6 − x1 5 x6 − x5 1 T′ = x7 − x′ 11 − 3. 7 .14 s′ 3. indiferent de testul aplicat. sau distanta intre aceasta si restul datelor considerate ca un grup x7 − M . sau dispersia primelor 6 valori Consideraţiile de mai sus sugerează următoarele statistici pentru testarea valorilor extreme: x −x x −x 5 5 y ( 6. sau distanta intre urmatoarele doua valori x6 − x5 care este cu mult mai mic decat x7 − x6 . 6 . 11 Rezultatul este bine sa fie vizualizat printr-o asezare a punctelor pe o dreapta. 6 Motivul pentru care o prima sau ultima valoare pot fi considerate ca discordante este acela ca aceste valori apar a fi foarte separate de de restul datelor . 3 .

2 CMAX.96 3.6 CMAX.T (ng/ml) 65.94 29.T (ng/ml) 2 3 3 4 4 4 5 7 7 8 10 11 12 12 13 15 16 17 22 27 30 32 66 14 14.29 11. cat si raportul valorilor pentru un acelasi voluntar.54 6.08 23 13.54 3.01 14.31 CMAX.65 22. Statistica matematica si biostatistica Teste statistice de discordanta iar în loc de T ′ = x5 − x′ x −x sa folosim T = 5 . pentru a avea si o imagine a acestor valori si a raportului dintre ele.29 4.61 27. considera reprezentarile valorilor pentru medicamentul de referinta (R ) si pentru cel testat ( T ) precum si a raporturilor T/R si a „dependentei” T ( R ) ( care.96 1. dar statisticile rămân în s′ s esenţă aceleaşi. 21: Subject 1 2 3 4 5 6 7 8 9 10 11 13 14 15 16 17 18 19 20 21 22 23 24 N Mean CMAX.60 14.11 3. vom examina atat valorile individuale.72 36.76 3.95 16.R (ng/ml) 2 3 3 4 4 5 6 7 7 7 9 14 15 15 15 15 15 17 20 22 23 36 49 13 11.57 8.73 21.24 32.33 20.60 14. un metabolit activ al nicergolinei la 24 de voluntari sanatosi.70 7.75 14.72 14. daca valorile s-ar corela perfect.R (ng/ml) 48.09 15.58 6.85 10.79 17. Mai mult decat atat.03 15.23 7.76 2. Tabelul nr.II.48 5. Consideram spre exemplu valorile concentratiilor maxime ale MELUOL .30 6. ar trebui sa fie o dreapta).82 3.91 21.75 12.49 4.84 14. Pentru a lua o decizie cat mai corecta.475 T/R 134 117 46 149 131 71 115 89 263 133 185 141 88 62 92 47 111 102 106 144 78 56 90 media StDev T/R 46 47 56 62 71 78 88 89 90 92 102 106 111 115 117 131 133 134 141 144 149 185 263 111 48.94 4.84 5.4 172 .34 3.67 23 14.54 10.01 1.98 6.11 12.

00 30. 7 70.7497 50.00 0.00 T(R) 40. cel putin pentru T.00 20.T (ng/ml) CMAX.00 50.00 Fig.00 10. nr.00 60. ca valorile concentratiilor maxime pentru voluntarul 1 sunt cele mai mari si. 8 T 70 60 R T/ R 300 60 50 250 50 40 200 40 30 30 150 100 20 20 50 10 10 0 0 1 3 5 7 9 11 13 15 17 19 21 23 0 1 3 5 7 9 11 13 15 17 19 21 23 1 3 5 7 9 11 13 15 17 19 21 23 Observam dupa ordonare. mult mai mari (aparent discordante) decat pentru ceilalti voluntari. si probabil destul de indepartat de celelalte rapoarte.00 0.00 10.00 40.II.R (ng/ml) 60.00 20. Statistica matematica si biostatistica Teste statistice de discordanta Fig.00 50.00 0.00 40.00 10.00 R2 =0.00 70.00 30. Voluntarul 9 apare normal in contextul valorilor individuale pentru T si R dar raportul lor este cel mai mare.00 20.00 30. nr.00 0 5 10 15 20 25 30 CMAX.00 60. 173 .

41 >0. Statistica matematica si biostatistica Teste statistice de discordanta In tabelul de mai jos sunt redate rezultatele aplicarii testelor Dixon si Tn pentru R. Tabelul nr. decizia privind clasificarea unei valori drept discordante.82 Acelasi test arata insa ca voluntarul 1 este anormal din punct de vedere al celor doua valori. T si T/R . Dat fiind ca decizia privind bioechivalenta este influentata doar de intravariabilitate si nu depinde de intravariabilitate. Aplicand testul Tn .55 0.12 3. depinde de analiza fenomenologica si mai putin de rezultatul testelor statistice. voluntarul 1 nu este de eliminat. 22: voluntar 9 voluntar 1 voluntar 1 voluntar 1 voluntar 9 voluntar 1 voluntar 1 voluntar 1 T/R T/R = R T T/R T/R R T Dixon 134 Dixon Dixon Tn = Tn = Tn = Tn = (Xk-Xk-2)/(Xk-X3)= valoare normala (Xk-Xk-2)/(Xk-X3)= (Xk-Xk-2)/(Xk-X3)= ( Xk-Xmediu)/S= ( Xk-Xmediu)/S= ( Xk-Xmediu)/S= ( Xk-Xmediu)/S= 0. dar nu si din punct de vedere al raportului T/R.41 >2.II.82 <2.62 >0. 174 .58 3.82 >2. In final.48 3. toate valorile sunt discordante. Din punct de vedere al testului Dixon.14 0. voluntarul 9 este de eliminat dat fiind raportul T/R discordant.82 >2.57 0.41 >0.

413 0.440 0.615 daca cea mai mare valoare este suspecta 14 r22 = ( X k −2 − X 1 ) 0.780 daca cea mai mare valoare este suspecta 6 7 8 ( ) r11 = X 2 − X 1 r11 = r21 = ( X k −1 − X 1 ) (X k − X 2 ) ( X k −1 − X 1 ) (X k − X 2 ) 0.988 daca cea mai mica valoare este suspecta 4 5 ( X − X k −1 ) = k 0.II.535 0.642 0.505 0.546 0.561 0.765 0.547 0.679 daca cea mai mica valoare este suspecta 12 13 r21 ( X − X k −2 ) = k (X 3 − X 1 ) 0.421 0.683 daca cea mai mica valoare este suspecta 9 10 ( X k − X k −1 ) ( X 3 − X k −1 ) 0.889 0.477 0.475 0. Statistica matematica si biostatistica Teste statistice de discordanta 2.577 0.560 0.489 175 .14.521 0.595 daca cea mai mare valoare este suspecta 17 18 19 20 21 22 23 24 25 0.507 0.490 0.941 0.430 0.616 0.525 0.546 0.641 daca cea mai mica valoare este suspecta 15 16 r22 ( X − X k −2 ) = k (X k − X 3 ) 0. Criteriul Dixon pentru respingerea outliers Tabelul nr.512 0.635 0.642 0.637 0.576 0.554 0.462 0.698 0. 23 k 3 ( ) r10 = X 2 − X 1 r10 (X k − X 1 ) (X k − X 1 ) Nivel de semnificatie 5% 1% 0.406 0.2.597 daca cea mai mare valoare este suspecta 11 0.514 0.507 0.524 0.450 0.497 0.

979 3.215 2.651 2.549 2.155 1. Statistica matematica si biostatistica Teste statistice de discordanta Valorile critice pentru t ca test bilateral la nivelul de semnificatie 5 % pentru eliminarea valorilor discordante: Tabelul nr.3.14. si pentru un x dat se determina experimental mai multe valori y.887 2.412 2.585 2.908 2. se poate calcula un interval de incredere in afara caruia sa putem eticheta valorile drept discordante 176 .715 1. dar sa presupunem ca avem considerente fenomenologice care sa ne permita definirea unui domeniu in interiorul caruia punctele sa poata fi acceptate ca urmand modelul liniar.290 2.128 3.355 2.507 Valoare 15 16 17 18 19 20 25 30 35 40 50 100 T 2. 24: Valoare 3 4 5 6 7 8 9 10 11 12 13 14 T 1.II.709 2.126 2.681 2. Valori discordante fata de corelatia liniara Un tip special de valoare discordanta este cazul cand un punct experimental pare a nu se potrivi cu modelul corespunzator celorlalte date.481 1. Punctele P din interiorul cercului punctat corespund unui model de regresie liniara. si daca acestea sunt distribuite normal.822 2.462 2.383 2.036 3. Acest lucru este prezentat in figura 9 in contextul simplu al regresiei liniare. Daca presupunem ca variabila x nu este o variabila aleatoare. De remarcat totusi faptul ca “elipsa “ ce am desenat-o noi in jurul dreptei de regresie este arbitrara .020 2.620 2.

10 Distributia normala a punctelor in jurul valorilor de pe dreapta de regresie Sa consideram in continuare cateva tipuri de puncte in afara multimii de valori “normale”. 9 Estimarea dreptei care descrie relatia intre variabilele y si x Putem.10) . Dupa cum s-a prezentat la capitolul privind regresia liniara. la fel de bine considera dreapta de regresie drept valoarea adevarata si sa consideram un domeniu centrat pe aceasta.II. 177 . El va fi o valoare discordanta fata de multimea P sau in multimea P+A relativ la modelul regresiei liniare. Fie de exemplu punctul A in fig. a intregii multimi de puncte (fig. El este la o distanta mare de dreapta care fiteaza punctele. Aceasta este echivalent cu inlocuirea dispersiei in fiecare punct x cu o singura dispersie. 11. in sensul ca suma patratelor distantelor de la puncte la dreapta este minima (dreapta prin cele mai mici patrate). Fig. sau altfel spus. includerea sa in multimea de date mareste semnificativ variatia reziduala. dreapta “adevarata” y = α + β x (in cazul cand datele urmeaza efectiv un model liniar) este aproximata de dreapta care aproximeaza cel mai bine punctele experimentale y = a + b x . Statistica matematica si biostatistica Teste statistice de discordanta Fig.

in afara de considerarea efectului punctului asupra erorii reziduale. daca in loc de B luam punctul experimental discordant C (cu aceeeasi coordonata x ca a lui B). intrucat includerea sa in multimea punctelor care determina dreapta prin cele mai mici patrate creste substantial precizia cu care este estimata panta dreptei de regresie. Si aceasta deoarece x-ul sau este la o distanta considerabila fata de x-ul celorlalte puncte din P. Parametrii acesteia sunt dependenti de punctele pe care le fiteaza. in comparatie cu B. Pentru simplitate am introdus notiunile de valori discordante. Astfel. Deasemenea C este o valoare discordanta (relativ la modelul regresiei liniare ca in toate cazurile discutate). A se obseva ca punctul parghie este o componenta a variabilei independente si nu a raspunsului. Statistica matematica si biostatistica Teste statistice de discordanta Important este.II. In multimea P+A valoarea discordanta A are o parghie mai mica dar este influentiala pentru ordonata la origine si mai putin pentru panta. Fig. 11 Valori discordante fata de dreapta de regresie 178 . Dar. Spunem ca B este un punct cu “parghie mare”. puncte parghie si date influentiale in termeni de puncte individuale. In fapt el este o valoare discordanta in ce priveste coordonata x fata de complexul P+B. in particular. Spunem ca C este un punct influential in multimea P+C. obtinem multimea P+C si C are aceeasi parghie mare ca si B. sa evaluam si efectul asupra parametrilor dreptei de regresie. B nu apare a fi o valoare discordanta (un punct experimental discordant) relativ la estimarea regresiei liniare a modelului. Daca in loc de A consideram punctul experimental B obtinand multimea de date P+B. Totusi. includerea lui C schimba substantial estimarea liniei de regresie. aceste notiuni se aplica la fel de bine si grupurilor sau submultimilor de puncte. Dar punctul B are un efect considerabil asupra fitarii modelului.

3. dupa cum se observa in fig. in reprezentarea logaritmica cu inscrierea punctelor dincolo de tmax pe o dreapta.1.14. Statistica matematica si biostatistica Teste statistice de discordanta 2.10 pentru concentratia plasmatica a nicergolinei. ( ng/m l) 10 1 0 5 10 15 time ( hours) 20 25 30 Fig. Deci datele urmeaza un model biexponential si. pot aparea unul sau mai multi voluntari cu eliminare biexponentiala. Din alt unghi privind lucrurile. iar datele de la 8 h la 24 h pe o alta dreapta.Drepte si puncte discordante Problema “discordantei” se complica atunci cand in fapt datele nu se inscriu pe o singura dreapta ci pe doua sau mai multe drepte in functie de valorile lui x. Compararea datelor privind farmacocinetica nicergolinei la mai multi voluntari duce la concluzia ca nu este vorba de o supraestimare a concentratiilor la ultimele doua puncte ci efectiv avem doua faze de eliminare din sange. dupa logaritmare. una initiala rapida (de exemplu distributia in compartimentul profund) si una finala ( de exemplu eliminarea) . Deci avem un timp de injumatatire de distributie si un timp de injumatatire de eliminare. Exemplul cel mai sugestiv si cel mai important pentru farmacocinetica in acest sens este acela al medicamentelor cu doua etape de injumatatire. O analiza pur si simplu statistica ar duce la concluzia ca ultimele doua puncte reprezinta valori discordante. intr-un grup de subiecti caracterizati printr-o eliminare monoexponentiala si deci.II. lenta . Concentration of nycergoline after oral administration 100 c onc . In fapt este posibil ca toti 179 . se obtin doua domenii de dependenta liniara a logaritmului concentratiei de timp . notate uzual cu α si β . 12 Datele de la 4 h la 8 h se inscriu pe o dreapta .

apare o “degenerare” a modelului prin compensarea unor procese ce afecteaza concentratia plasmatica. poate fi de preferat eliminarea lui ca “outlier”. Voluntari discordanti in studii de bioechivalenta Cazul cel mai reprezentativ este acela al medicamentelor al caror metabolizare poate fi lenta la o mica parte din subiecti. Ca exemplu. dar modelul “aparent” in functie de intervalul de recoltare si evaluare a probelor de sange sa fie cand cel real. prezentam cazul ibuprofenului. Suntem interesati in vederea predictiei. Analiza curbelor din figura 4 duce la ideea ca doi dintre voluntari sunt metabolizori lenti. desi in fond. Ibuprofenul fiind cu mult mai solubil in lipide urmeaza un model farmacocinetic cu cel putin doua compartimente. Datele experimentale pot fi insa modelate la majoritatea subiectilor cu un model monocompartimental. 2.II. Unul dintre subiecti poate aparea discordant fata de medie. vom putea obtine o fitare corespunzatoare cu solutia unui model monocompartimental. de modele cat mai simple. Daca vom considera curba medie pentru un lot de voluntari carora li s-a administrat oral omeprazol. din cauza ca este instabil in mediu acid.3. el este mai aproape de realitate decat ceilalti subiecti. Statistica matematica si biostatistica Teste statistice de discordanta subiectii sa aiba o eliminare bifazica. de regula sub forma de capsule enterosolubile) acesta revine si el in rand cu ceilalti.14. 180 concentration (ng/ml) . Cand unul din subiecti apare efectiv cu o comportare mai complexa.2. In fapt. cand unul simplificat. Si aici lucrurile sunt relative. deoarece au concentratii mult mai mari decat restul voluntarilor Plasma levels of propafenone after repeted administration of RYTMONORM (KNOLL) TO 24 healthy volunteers 900 600 300 0 96 time (hour) 144 I II III IV V VI VII VIII IX X XI XII XIII XIV XV XVI XVII XVIII XIX XX XXI XXII XXIII XXIV Figura 13. Introducerea unui “time-lag” ce corespunde unei intarzieri in absorbtie (omeprazolul se administreaza.

in cele doua perioade ale experimentului. In acest caz insa. dupa cum se vede din figura 14.) and RYTMONORM (KNOLL) to 24 healthy volunteers 300 T c n e tra n (n /m o c n tio g l) R 200 100 0 96 time (hour) 144 Figura 14 De fapt. deci eliminarea lor poate fi luata in consideratie. ceea ce importa cu mult mai mult.II. variabilitatea unui subiect fata de sine insusi. Statistica matematica si biostatistica Teste statistice de discordanta Din punct de vedere “statistic” ei vor parea ca “discordanti” indiferent de testul aplicat. cei doi “ouliers” in ceea ce priveste intravariabilitatea au si o variatie semnificativa intre cele doua perioade. dupa cum este prezentat in capitolul privind evaluarea statistica a bioechivalentei. este intravariabilitatea.. 1000 con n tio (n /m ce tra n g l) 500 0 Figura 15 181 . ei nu ar trebui eliminati deoarece nu influenteaza rezultatul final – medicamentele apar a fi bioechivalente (fig. Din punct de vedere al scopului urmarit. curbele din figura 14 vor deveni si mai apropiate si nu se va schimba decizia privind bioechivalenta.14) Mean plasma levels of propaf enone af ter repeted administration of PROPAFENON (………. Dupa cum se vede in figura 15.

dar difera foarte mult la acelasi individ in perioade diferite. meloxicam. Dupa cum se vede din figura 17. caracteristica clasei “conazolilor” (ketoconazol. 182 . cat si intre ariile de sub curba si el este efectiv “outlier”. Deci curbele de meloxicam din figura 16 nu pot fi considerate curbe discordante.6 C n n tio (u /m o ce tra n g l) 0.8 R T 0 0 1 2 time (h) Figura 16. fluconazol. Statistica matematica si biostatistica Teste statistice de discordanta Uneori.II. Medicamentele sunt foarte apropiate in ceea ce priveste mediile lor. tenoxicam etc. In evaluarea bioechivalentei esentiala este compararea perechilor de curbe apartinand aceluiasi voluntar.). Daca este vorba insa de oxicami (piroxicam. Mean plasma levels of meloxicam 1 . cele doua curbe difera foarte mult. ceea ce reprezinta o intravariabilitate mare. itraconazol etc. unele curbe pot parea discordante prin aceea ca prezinta doua sau mai multe maxime. acest fenomen este normal datorita circulatiei enterohepatice a acestor medicamente. Voluntarul prezentat are un raport mult prea mare atat intre concentratiile maxime.). ceea ce este neuzual in farmacocinetica.

18 In concluzie. problema eliminarii unor puncte. Spunem ca aparent. 183 . de variabilele ce-l determina si de modelul teoretic urmat.II. sau a unor curbe. Aparent acelasi caz ar fi si in figura 18.5 R T 0 0 4 8 1 2 Time (hours) 1 6 20 24 Figura nr. sau a multimii curbelor pentru un subiect dat. Statistica matematica si biostatistica Teste statistice de discordanta Figura 17. Mean plasma levels of mefenamic acid 7 3. deoarece in cazul acidului mefenamic diferentele intre formularile farmaceutice sunt foarte frecvente si este vorba efectiv de bio-inechivalenta. nu este in principal o problema de statistica ci una tinand de analiza fenomenului studiat.

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari

2.15. Puterea testului. Calculul numarului de voluntari 2.15.1. Estimarea parametrilor. Calculul esantionului minim pentru obtinerea unei estimari a mediei cu o precizie fixata Pentru un interval de incredere (1- α ), pentru media une populatii precizia estimarii este in fapt definita de lungimea intervalului. Cu cat intervalul este mai mic, cu atat mai precisa va fi estimarea. De aceea, marimea esantionului se poate alege pornind de la lungimea intervalului de incredere care sa asigure o precizie stabilita anterior E, sau altfel spus, o limita a erorii. Astfel cand datele urmeaza o distributie normala, marimea esantionului necesar va fi data implicit de relatia: (1) n De exemplu, presupunem ca dorim sa avem 95% incredere si ca eroarea in media estimata sa fie mai mica de 10% din deviatia standard (i.e., E ≤ 0.1 σ ). 2 zα σ 2 σ 2 = 0.1 * σ si ca urmare n = Deci, z α = 384.2 ≈ 385 (0.1 * σ )2 n 2 Procedeul se extinde imediat la cazul estimarii intervalelor de incredere pentru diferenta intre mediile a doua selectii dupa cum se arata in tabelul urmator.
2

E = Y − μ = zα

σ

Tabelul 25 Determinarea marimii esantionului in functie de precizie: Parametru Estimarea Intervalul de incredere Marimea esantionului

μ

Y

Y ± zα
2

σ
n

2 n = zα 2

σ2
E2

μ1 − μ 2
p

Y1−Y 2
ˆ p

(Y 1 − Y 2 ) ± z α
2

σ 12
n

+

2 σ2

n

n = zα
2 2

2 1

2 +σ2 )

E2

ˆ p ± zα
2

ˆˆ pq n
ˆ ˆ ˆ ˆ p1 (1 − p1 ) p 2 (1 − p 2 ) + n n

2 n = zα * 2
2 n = zα * 2

ˆˆ pq E2
E2

p1 − p 2

ˆ ˆ p1 − p 2

ˆ ˆ p1 − p 2 ± ± zα
2

ˆ ˆ ˆ ˆ ( p1q1 + p2 q2 )

185

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari

E poate fi luat o valoare absoluta, o fractie din σ sau o fractie din valoarea mediei estimate. In lipsa unei estimari experimentale a lui p se poate lua un numar “maxim” prin aceea ca se ia p(1 − p ) maxim, deci 1 p= . 2 De retinut ca alegerea lui n astfel incat eroarea sa nu depaseasca un anumit prag urmareste atingerea unei precizii date in estimarea lui μ cu considerarea numai a erorii de tip I. O abordare independenta de distributie poate fi obtinuta folosind inegalitatea lui Cebasev:

1- α = P { Y − μ ≤ E

(2) nE Inlocuind inegalitatea cu egalitatea si luand, la fel ca mai sus E = 0.1 σ si α=0,05 obtinem :

2 }≥ 1− σ 2

σ2 σ2 = 2000 α = 2 si n = 2 = 0,05 ∗ 0,01σ 2 αE nE
σ2
Observam ca cifra « asiguratoare » este mult mai mare din aceea ca nu avem nici o informatie despre distributie.
2.15.2. Testarea ipotezelor. Calculul numarului de subiecti in functie de probabilitatile erorilor de tipul I si tipul II fixate in prealabil Pentru a calcula numarul de subiecti in functie si de puterea testului trebuie specificata diferenta semnificativa clinic in cazul parametrului masurat. In cele mai multe studii clinice obiectivul este demonstrarea eficientei si sigurantei unui medicament comparat cu placebo sau cu un alt medicament. Indiferent de comparator, este important sa se specifice ce diferenta este importanta din punct de vedere clinic sau stiintific. Aceasta diferenta o vom nota cu Δ . Aceasta diferenta defineste “grosismentul” microscopului definit de studiul clinic cu care comparam cele doua medicamente. Intuitia ne spune ca daca se va alege o diferenta mare atunci va fi nevoie de un numar mic de subiecti. Daca diferenta este relative mica, va fi nevoie de un grup de subiecti mai mare. Daca Δ → ∞ , puterea tinde la 1, iar cand Δ → 0 avem 1 − β → 0 . Practic se determina numarul de subiecti necesari asigurarii unei anumite puteri pentru un risc α dat sau, altfel spus selectarea unei

186

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari

probabilitati pentru eroarea de tip II acceptabila – in conditiile unui risc de eroare de tip I fixat. Raportul dintre α si β este ca cel din selectia de incertitudine a lui Heisenberg: daca scade probabilitatea erorii de tip I, creste probabilitatea erorii de tip II.
2.15.3. Testarea ipotezelor privind media unui lot Presupunem ca testam urmatoarele ipoteze: H0 : μ = μ 0 vs. H a : μ > μ0

cu riscul α cand dispersia σ 2 este cunoscuta. Simplificam ipoteza alternativa alternativa, luand H a : μ = μ0 + Δ unde Δ >0 este o diferenta minima pe care o consideram semnificativa clinic si vrem sa o punem in evidenta. Daca diferenta este mai mare decat Δ , n va fi mai mic. Deci noi luam in acest fel un n “asigurator” (conservativ) asumandu-ne un risc cat mai mic. Deoarece, in ipoteza alternativa ca μ = μ 0 + Δ , testul statistic Y − ( μ 0 + Δ)

σ/ n
urmeaza o distributie standard normala. Puterea testului este data de relatia 1 − β = P { H 0 respinsa H a ade var ata} =
⎧− ⎫ ⎪ Y − ( μ0 + Δ) ⎪. Δ = P⎨ > z1−α − μ = μ0 + Δ ⎬ σ/ n ⎪ σ/ n ⎪ ⎩ ⎭ ⎧ ⎧ Δ n⎫ Δ n⎫ ⎪ ⎪ ⎪ ⎪ = P ⎨ z > zα − ⎬ = 1 − P ⎨ z < zα − ⎬, σ ⎪ σ ⎪ ⎪ ⎪ ⎩ ⎭ ⎩ ⎭ de unde , din definitia cuantilelelor Δ n Δ n zβ = z1−α − = − zα − σ σ

187

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari

si de aici

Δ2 Acest rezultat este adevarat si pentru cazul cand ipoteza alternativa este H a : μ < μ0 . Pentru a testa ipoteza bilaterala H 0 : μ = μ0 vs. H a : μ = μ 0 − Δ sau H a : μ = μ 0 + Δ H 0 este respinsa in zona critica, adica pentru
x − μ0

n=

σ 2 [zα + z β ]2

σ

〉z

1−

α
2

sau

x − μ0

σ

〈−z

1−

α
2

.

n Deci
⎛ ⎜ x−μ 0 〈 zα 1− β = P ⎜ ⎜ σ 2 ⎜ ⎝ n

n

⎞ ⎟ x − μ0 〉 z α μ = μ1 ⎟ = sau 1− σ ⎟ 2 ⎟ n ⎠ ⎛ ⎞ σ σ P ⎜ x 〈 μ0 + zα * sau x 〉 μ0 + z α * μ = μ1 ⎟ = 1− n n ⎝ ⎠ 2 2 ⎛ ⎞ ⎜ x−μ μ −μ ⎟ x − μ1 μ0 − μ1 1 1 = P⎜ 〈 0 + zα sau 〉 +z α ⎟ 1− σ σ σ ⎜ σ 2 2 ⎟ ⎜ ⎟ n n n ⎝ n ⎠ x − μ1 Deoarece media adevarata este μ1 , este repartizat N (0,1) . Prin

σ

n

urmare

⎛ ⎜ μ − μ1 + zα 1 − β = Φ⎜ 0 ⎜ σ 2 ⎜ n ⎝

⎞ ⎛ ⎟ ⎜ ⎟ + 1 − Φ⎜ μ 0 − μ1 + z α ⎟ ⎜ σ 1− 2 ⎟ ⎜ n ⎠ ⎝

⎞ ⎟ ⎟ ⎟ ⎟ ⎠

188

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari

⎜ ⎟ μ − μ1 〈 − 0.5 se poate considera ca Φ⎜ μ 0 − μ1 + z ⎟ ≅ 0 , si deci Pentru 0 α σ ⎜ σ ⎟ 2

⎞ ⎟ ⎠

n
⎛ ⎜ μ − μ1 +z α β = Φ⎜ 0 ⎜ σ 1− 2 ⎜ n ⎝
1−

Conform definitiei avem Φ (z β ) = β , z

⎜ ⎝ ⎞ ⎟ ⎟ ⎟ ⎟ ⎠
2

n

α

= − zα si ca urmare
2

μ − μ1 μ − μ1 σ zβ = 0 − z α si = 0 . σ n zα + zβ 2
n Scotand pe n din ecuatie obtinem: ⎞ ⎛ σ ⎜ zα + zβ ⎟ ⎟ ⎜ ⎠ ⎝ 2 n= 2 (μ 0 − μ1 )
2 2 2

Daca impartim cu μ12 obtinem:
⎛ μ − μ1 ⎞ σ2 2 *100 = ( CV ) si ⎜ 0 ⎟ *100 = Δ % μ −1 ⎝ μ1 ⎠
2

si formula devine:
⎛ ⎞ ( CV % ) ⎜ zα + zβ ⎟ ⎝ 2 ⎠ n= 2 ( Δ% )
2 2

Cazul distributiei binomiale Fie Y variabila aleatoare Bernoulli cu probabilitatea de succes p si probabiliatae de esec 1-p. Obiectivul studiului este de a alege intre H0 : p = p0 si Ha : p = p1 (p1>p0) din evaluarea unui esantion de marime n. Proportia de selectie 1 n P = ∑ Yi n i =1 urmeaza aproximativ o distributie normala cu media p si dispersia p(1-p)/n .
189

Cele doua ipoteze sunt: H 0 : μ1 = μ 2 vs. simplificata H a : μ1 − μ 2 = Δ formula care da puterea testului este prin definitie 190 .II. Fie μ1 si μ 2 mediile tratamentului 1 si.15. Testul pentru compararea mediilor a doua populatii O procedura asemanatoare ca mai sus poate fi aplicata pentru determinarea marimii esantionului necesar pentru obtinerea unei puteri date in compararea a doua metode de tratament. tratamentului 2. Calculul numarului de voluntari Pentru testarea ipotezelor enuntate ne folosim de aproximarea normala P − E ( P) P − p0 = ≈Z D( P) p0 q0 n ⎧ ⎫ ⎪ p− p ⎪ ⎧ ⎫ p0 qo ⎪ ⎪ ⎪ ⎪ 0 〉 zα p = p1 ⎬ = ⎨ p〉 p 0 + zα p = p1 ⎬ = β =⎨ n ⎪ ⎪ p0 qo ⎪ ⎪ ⎭ ⎩ ⎪ ⎪ n ⎩ ⎭ ⎧ ⎫ ⎪p− p p − p p0 qo ⎪ ⎪ ⎪ 1 1 =⎨ 〉 0 − zα ⎬ p1 q1 ⎪ p1 q1 ⎪ p1 q1 ⎪ n ⎪ n ⎩ ⎭ zβ = Δ z β + zα In concluzie rezulta pentru n : ⎛ zβ ⎜ ⎜ ⎝ p1 q1 n p0 q0 = p1 q1 − zα p0 q0 p1 q1 Δ p1 q1 2 n p1 q 1 + z α Δ p0 q 0 ⎞ ⎟ =n ⎟ ⎠ 2. respectiv. H a : μ1 ≠ μ 2 2 Presupunand ca σ 12 si σ 2 sunt cunoscute si considerand o ipoteza alternativa specifica. Statistica matematica si biostatistica Puterea testului.4.

2 σd 2 Daca presupunem ca n = n1 = n2 si σ 12 = σ 2 = σ 2 atunci ⎡ ⎤ Δ2 Δ2 si deci ⎢ zα + z β ⎥ = 2 = 2 ⎣ 2 ⎦ σ d 2σ n 2 191 . in ipoteza alternativa. si neglijand ⎧− − ⎫ ⎪ Y 1 − Y2 ⎪ μ1 = μ2 + Δ ⎬ se obtine: P⎨ 〈 − zα 2 ⎪ σd ⎪ ⎩ ⎭ − − ⎧ ⎫ Δ ⎪ (Y − Y 2 ) − Δ ⎪ 1− β = P ⎨ 1 μ1 = μ2 + Δ ⎬ . Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari 1 − β = P { H 0 respinsa H a ade var ata} = ⎧− − ⎪ Y 1 − Y2 = P⎨ >z α 1− σd 2 ⎪ ⎩ unde σ d = sau Y 1 − Y2 − − σd 〈 − zα 2 ⎫ ⎪ μ1 = μ2 + Δ ⎬ ⎪ ⎭ σ 12 n1 + 2 σ2 n2 Dar. > − zα − σd σd 2 ⎪ ⎪ ⎩ ⎭ De aceea ⎛ Δ ⎞ β = Φ ⎜ − zα − ⎟ . statistica (Y 1 − Y 2 ) − Δ − − σd este o variabila normala standard. de punere in evidenta a variabilei normal repartizate. ⎝ 2 σd ⎠ de unde.II. z Facand aceleeasi operatii ca mai sus. Δ zβ = −zα − .

statistica Y − ( μ 0 + Δ) − s/ n distributie t necentrata cu parametrul de ne-centrare δ = Δ / σ . alegerea marimii lotului nu este o problema usoara. urmeaza o Tabelul de mai jos contine marimea calculata a loturilor pentru testul t privind meda si respectiv. in testarea ipotezei nule in expresia H0 : μ = μ 0 vs. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari ⎤ ⎤ ⎡ ⎡ (σ + σ ) ⎢ z α + z β ⎥ 2σ 2 ⎢ z α + z β ⎥ ⎦ = ⎦ ⎣ 2 ⎣ 2 n= 2 2 Δ Δ Pentru un test unilateral.II. H a : μ > μ 0 2 1 2 2 2 2 [ ] cand valoarea adevarata este μ = μ 0 + Δ . De exemplu. pentru diferite valori ale lui δ .“diferenta semnificativa” 192 . formula de mai sus pentru determinarea marimii esantionului devine: 2 2 (σ 12 + σ 2 ) zα + z β n= Δ2 De retinut ca atunci cand dispersia populatiei este necunoscuta. diferenta dintre mediile tratamentelor respective.

85 0.80 0.2 1.5 β= Δ= 0.5 μ − μ0 σ 139 97 72 55 44 36 30 26 22 19 17 15 14 13 11 11 9 8 7 7 6 6 5 101 71 52 40 33 27 22 19 17 15 13 12 11 10 9 8 7 6 6 5 122 70 45 32 24 19 15 13 11 9 8 8 7 6 6 5 5 5 μ1 − μ 2 σ 137 88 61 45 35 28 23 19 16 14 12 11 10 9 8 7 7 6 5 5 4 4 4 3 101 80 65 54 46 39 34 30 27 24 21 19 18 15 13 11 10 9 8 8 7 7 6 6 6 5 122 90 70 55 45 38 32 28 24 21 19 17 15 14 13 11 10 8 8 7 6 6 6 5 0.30 0.05 0.5 1.60 0.20 0.2 2.3 1.50 0.15 0.9 2.30 0.70 0.1 0.1 0.1 0.2 0.00 1.70 0.0 3.95 1.2 2.01 0.3 1.65 0.55 0.1 1.55 0.40 0.II.7 1.90 0.4 1.05 Test bilateral β= Δ= 0.9 2.60 0. Calculul numarului de voluntari Tabelul nr.1 1. 26: Test unilateral Riscul α = 0.75 0.0 2.4 1.1 2.05 0.85 0.01 0.5 4.80 0.3 2.5 α = 0.65 0.35 0.2 0.0 3.6 1.50 0.25 0.45 0.8 1.1 2.75 0.5 1.20 0.4 2.8 1.00 1.5 3.95 1.40 0. Statistica matematica si biostatistica Puterea testului.6 1.3 2.2 1.7 1.45 0.25 0.4 2.0 2.35 0.5 3.90 0.0 112 89 76 66 57 50 45 40 36 33 27 23 20 17 15 14 12 11 10 9 8 8 7 7 6 5 4 4 108 88 73 61 52 45 40 35 31 28 25 23 19 16 14 12 11 10 9 8 7 7 6 6 5 5 5 4 3 108 86 70 58 49 42 36 32 28 25 22 20 18 15 13 11 10 9 8 7 7 6 6 5 5 5 4 4 3 102 78 62 51 42 36 30 26 23 21 18 16 15 14 12 10 9 8 7 6 6 5 5 4 4 4 4 4 3 193 .

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari

2.15.5. Compararea a doua proportii

Cand variabilele rezultate sunt cu doua valori posibile (tratamentele fie imbunatatesc, fie nu imbunatatesc starea pacientului) variabilele care ne intereseaza mai mult sunt proportiile pacientilor a caror stare s-a ameliorat si nu media unor masuratori date. Fie p1 si p2 proportia de succes (e.g. vindecare sau imbunatatire) in grupul in care s-a facut tratamentul si, respective in grupul de control. Marimea esantionului se poate determina similar cu cazul testului t bilateral obtinandu-se pentru n :
⎤ ⎡ ⎢ z α 2 p(1 − p) + z β p1 (1 − p1 ) + p 2 (1 − p 2 ) ⎥ ⎦ n= ⎣ 2 2 ( p1 − p 2 ) p + p2 unde p = 1 . 2
2

2.15.6. Marimea esantionului pentru comparari de mai multe medii prin analiza dispersionala (ANOVA) Pentru analiza dispersionala pe o singura cale cu n observatii pe fiecare tratament, obiectivul principal este de a testa ipoteza H 0 privind provenienta esantioanelor din aceiasi populatie. Folosind notatiile de la capitolul privind analiza dispersionala avem: H 0 : τ 1 = τ 2 = … = τ k = 0 , si cu ipoteza alternativa

H a : cel putin un τ i nu este zero

Reamintim ca: ⎛ SSE ⎞ n k 2 ⎛ SSA ⎞ E ( MSA) = E ⎜ =σ2 + ⎟ ∑τ i si E (MSE ) = E ⎜ k (n − 1) ⎟ = σ 2 ⎜ ⎟ k − 1 i =1 ⎝ k −1⎠ ⎝ ⎠ Astfel, pentru o deviatie data de la ipoteza nula H 0 , masurata prin
n∑ τ i2 /( k − 1) , valori mari ale lui σ 2 micsoreaza sansele de obtinere a
i =1 k

valorii FA = MSA/MSE in zona critica a testului. Sensibilitatea testului descrie puterea procedurii de a detecta diferentele intre mediile grupurilor si reprezinta, in fapt, puterea testului.

194

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari

Aceasta putere se interpreteaza ca probabilitatea ca F sa cada in zona critica atunci cand ipoteza nula este falsa si mediile tratamentelor difera intre ele. Conform ipotezei nule FA=MSA/MSE urmeaza o distributie F cu (n1,n2) grade de libertate, unde v1 = k − 1 si v2 = k (n − 1) = N − k . Deci, pentru analiza dispersiei one-way, puterea este data de: 1 − β = P{FA > f (α , v1 , v 2 ) H a este ade var ata} =
⎫ ⎧ n k 2 = P ⎨ FA > f (α , v1 , v 2 ) ∑ τ i ≠ 0⎬ k − 1 i =1 ⎭ ⎩
k i =1

(3)

Pentru valori date pentru n∑ τ i2 /( k − 1) si σ 2 puterea poate fi crescuta folosind esantioane mai mari. Problema revine la proiectarea unui experiment cu o valoare a lui n astfel incat sa avem asigurata o putere data. In ipoteza alternativa ca

∑τ
i =1

k

2 i

≠ 0, FA urmeaza o distributie

noncentrata cu un parametru de noncentralitate δ unde δ 2 =

n∑τ i2
i =1

k

Asfel relatia (3) devine ⎫ ⎧ n k 2 1 − β = P ⎨ FA > f (α , v1 , v 2 ) ∑τ i ≠ 0⎬ = P{FA > f (α , v1 , v2 , δ )} k − 1 i =1 ⎭ ⎩ relatie care defineste implicit numarul necesar de subiecti.

2σ 2

.

2.15.7. Modelul crossover Ipoteze punctuale privind egalitati. FieYijk raspunsul voluntarului i in secventa k in perioada j. Consideram un model care neglijeaza efectele carryover inegale: Yijk = μ + S ik + Pj + T( j ,k ) + eijk ,

(4) unde i = 1,2, …, n k este numarul de voluntary, j este perioada, k = 1, 2 este secventa. In modelul de mai sus μ este media totala, S ik este efectul aleatoriu al voluntarului i in secventa k, Pj este efectul de perioada j, T( j ,k ) este efectul direct al tratamentului administrat in perioada j, secventa k, adica 195

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari

Placebo pentru k = j
T( j ,k ) =

si eijk

Medicamentul testat pentru k ≠ j, k = 1, 2; j = 1, 2 eroarea in masuratori. Pentru modelul (4) se presupune ca {S ik } sunt distribuite

2 independent si identic cu media zero si dispersia σ S si {eijk } sunt distribuite

independent cu media zero si dispersia σ 2 . Se presupune ca {S ik } si {eijk } sunt independente intre ele. Sa testam urmatoarele ipoteze: H 0 : μT = μ P

vs H a : μT ≠ μ P (5) Consideram diferentele intre perioade pentru fiecare voluntar in interiorul fiecarei secvente definite: 1 d ik = (Yi 2 k − Yi1k ), 2 unde i = 1,2, …, n k , k = 1, 2. Un test pentru ipotezele (5) poate fi un test t bilateral dupa cum urmeaza: Y T − YP Td = , 1 1 ˆ + σd n1 n2
− 1 − si (Y . 11 + Y . 22 ) 2 2 nk − − − 1 1 nk 1 nk 2 ˆ σd = ∑∑ (d ik − d . k ) , Y . jk = n ∑ Yijk , d . k = n ∑ d ik n1 + n2 − 2 k =1 i =1 k i =1 k i =1 n1 + n2 − 2 grade de Conform ipotezei nule, Td are o distributie t cu libertate. Daca nu se accepta ipoteza nula, atunci Td > t (1 − α / 2, n1 + n2 − 2).

unde

YT =

− 1 − (Y . 21 + Y . 12 ) 2

,

YP =

In ipoteza alternativa simplificata μ T = μ p + Δ puterea testului Td poate fi evaluat similar. In scop de echilibrare, presupunem ca n1 = n2 = n ; ceea ce inseamna ca fiecare secventa va avea acelasi numar de voluntari. 196

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari

Cele doua ipoteze de mai sus sunt de regula inlocuite cu doua perechi de ipoteze (metoda Schuirmann) H 01 : μT − μ P ≤ θ L vs. H a1 : μT − μ P > θ L si H 02 : μT − μ P ≤ θU vs. H a 2 : μ T − μ R 〉 θ U , unde θ L si θU sunt limitele pentru echivalenta semnificative clinic. Dupa cum se observa ipoteza nula este ca medicamentele nu sunt bioechivalente. Cu aceasta prezumtie de “vinovatie” este micsorat riscul pacientului. Daca studiul nu “dezvinovateste” medicamentul testt, acesta nu poate fi introdus in terapie. Putem sa nu acceptam ipoteza nula a inechivalentei daca:
Y T − Y P −θL TL = > t (α , n1 + n2 − 2) ˆ σ d (1/ n1 ) + (1/ n2 ) Y T − Y P − θU TU = < −t (α , n1 + n2 − 2) ˆ σ d (1/ n1 ) + (1/ n2 )
− − − −

si

Fie θ = μT − μ P si φ S (θ ) puterea testului bilateral Schuirmann pentru un θ dat. In cazul bioechivalentei observam ca, in contextul in care se doreste minimalizarea riscului pacientului, avem particularitatea ca functioneaza intr-un fel prezumtia de „vinovatie”, in sensul ca H 0 este ipoteza ca medicamentele nu sunt bioechivalente iar puterea testului este probabilitatea de a accepta ipoteza bioechivalentei in cazul cand acestea sunt echivalente α = P (respinge H 0 H 0 ade var ata ) = riscul pacientului

1 − β = P (respinge H 0 H a ade var ata )

β = P ( accepta H 0 H a ade var ata ) = riscul producatorului

In scopul calcularii puterii reformulam putin ipotezele H 0 in sensul ca vom lua θ L = θ u = Δ In acest context problema testului devine o problema de probabilitate de a detecta o diferenta Δ pe care o consideram ca semnificativa clinic; in cazul bioechivalentei aceasta diferenta este de 20%. 197

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari

Ipoteza complexa H 01 : μ T − μ R 〈 θ L H a1 : μ T = μ R H 02 : μ T − μ R 〉 θ u H a 2 : μT = μ R Analizam in continuare cazul

Ipoteza simplificata H 01 : μ T − μ R = − Δ H a1 : μ T = μ R H 02 : μ T − μ R = Δ H a 2 : μT = μ R

H 01 : μ T − μ R = − Δ vs. H a1 : μ T − μ R = 0
⎛ ⎞ ⎜ x+Δ 〉 t ⎟ 1 − β = P ( respinge H 0 H a ade var ata ) = P 1−α ,2 n − 2 μT = μ R ⎟ = ⎜ ˆ ⎜σd 2 ⎟ n ⎝ ⎠ ⎛ ⎞ x Δ ⎜ μT = μ R ⎟ = P⎜ 〉 t1−α ,2 n − 2 − ⎟ ˆ ˆ ⎜σd 2 ⎟ σd 2n n ⎝ ⎠ ⎛ ⎞ Δ x ⎜ 〈 t1−α ,2 n − 2 − 1− β = 1− P ⎜ μT = μ R ⎟ ⎟ 2 2 ˆ ˆ ⎜σd ⎟ σd n n ⎝ ⎠ Δ tβ ,2 n − 2 = t1−α ,2 n − 2 − σ d 2n Δ = t1−α ,2 n − 2 − tβ ,2 n − 2 = t1−α ,2 n − 2 + t1− β ,2 n − 2 ˆd 2 σ n 2 σ ˆ 2 n = 2 ( t1−α ,2 n − 2 + t1− β ,2 n − 2 ) * d2 Δ In fapt noi am notat

X = X T − X R si σ 2 = σ d 2 ,
dar dupa cum s-a arata anterior,

σ =
2 d

σ2
2 , deci
e

198

Statistica matematica si biostatistica Puterea testului. Δ Δ ' = *100 μ unde Δ ' = 0. 2 Pentru cazul bioechivalentei si pentru intreg experimental. 2 2 CV n = ( t1−α .2 n − 2 + t1− β .α ⎞ ⎟ μT − μ R = 0 ⎟ ⎟ ⎟ ⎠ ˆ σ 199 .2 n − 2 ) * '2 2 Δ .2 n − 2 + t1− β .II. Δ 2 n +t2 n − 2. Calculul numarului de voluntari 2 2 σ 1 e n = ( t1−α .2 n − 2 ) * 2 2 Δ si tinand cont ca Impartind termenii raportului cu se obtine pentru numarul de subiecti in fiecare secventa: 2 2 CV 1 n = ( t1−α .2 n − 2 ) * 2 20 Pornind de la grupul 2 de ipoteze se obtine H 01 : μ T − μ R = Δ H 02 : μ T − μ R = 0 μ2 CV = σe *100 μ 1 − β = P(respinge H 0 H a ade var ata ) ⎛ ⎞ ⎜ ⎟ ⎜ X −Δ 〈 t ⎟ 1− β = P 2 n − 2.α μT − μ R = 0 = ˆ ⎜ σ ⎟ ⎜ ⎟ 2 n ⎝ ⎠ ⎛ ⎜ X = P⎜ 〈 ˆ ⎜ σ ⎜ 2 n ⎝ si asa mai departe.2 n − 2 + t1− β .

2 n − 2 ⎟ * ⎝ 2 ⎠ (Δ −θ ) Observam ca puterea depinde de θ .2 n −2 = tβ . 2 n − 2 ⎝ ⎠ Δ − θ0 Deci σ 2 n + t1−α . iar numarul de subiecti necesar pentru detectarea unei diferente semnificative clinic data este cu atat mai mare cu cat cele doua medicamente sunt mai apropiate. Consideram din nou o ipoteza simplificata: H 02 : μ T − μ R = Δ vs H a 2 : μT − μ R = θ 0 si notam X = XT − X R si vom folosi statistica X − θ0 X T − X R − ( μT − μ R ) = σ d 1/ n + 1/ n σd 2/ n Calculam dupa acelasi procedeu ca mai sus numarul n de subiecti necesari pantru a asigura o putere data : 1 − β = Φ (θ ) = P ( respinge H 0 H a ade var ata ) = T2 n − 2 = ⎛ X −Δ ⎞ = P⎜ 〉 t α μT − μ R = θ0 ⎟ = ⎜σ 2 n ⎟ 1− .2 n − 2 + tβ .II. Calculul numarului de voluntari Cazul cand exista o diferenta intre medicamente Consideram in continuare cazul cand diferenta intre cele doua medii nu mai este zero ci are o valoare data θ0 : μT − μ R = θ 0 De regula pentru produsele bioechivalente θ0 este mai mic decat 7% din μ R . 2 200 . 2 n − 2 2 ⎝ ˆ ⎠ ⎛ X − θ0 ⎞ Δ − θ0 μT − μ R = θ0 ⎟ = P⎜ 〉 +t α ⎜ σ 2 n σ 2 n 1− .2 n −2 ˆ 2 ⎛ ⎞ ˆ σ2 2 de unde n = 2 ⎜ tα . 2 n − 2 ⎟ ˆ 2 ⎝ ˆ ⎠ ⎛ ⎞ Δ − θ0 β = P ⎜ T2 n −2 ≤ μT − μ R = θ 0 ⎟ +t α ⎜ ⎟ ˆ σ 2 n 1− 2 . Statistica matematica si biostatistica Puterea testului.

diferenta fiind in medie mai mica de 7 % .97% 4. Calculul in testarea bioechivalentei Medicamentele bioechivalente nu difera niciodata in ceea ce priveste concentratiile plasmatice cu mai mult de 20 % .25±2.8 〈 R 〈 1. Definitia exacta cere ca intervalul de incredere 90 % pentru diferenta intre nivelele plasmatice medii ale medicamentului testat si a celui de referinta sa sa fie mai mic decat 20 % : ⎛ ⎞ μT P⎜ 0.8.9 şi R ⎜ ⎟ μ AUC ⎝ ⎠ T ⎛ ⎞ μ c max P⎜ 0.25 ⎟ ≥ 0. 1999 201 . Practic se ajunge la aceea ca medicamentele bioechivalente difera in medie in ceea ce priveste concetratiile plasmatice.8.E. In acest fel. S-a considerat ca este posibil ca un medicament sa aiba concentratii 80 % din medicamentul de referinta iar altul sa aiba concentratii 120 % din medicamentul de referinta.15. Studiile de bioechivalenta au rostul de a verifica statistic faptul ca doua medicamente unul de referinta si unul testat difera in ceea ce priveste concentratiile in sange cu mai putin de 20 %.25 ⎟ ≥ 0.1. Hyojong (Hue) Kwon. JAMA 282: 1995. Biopharmaceutics Applications in Drug Development. Concluzia este falsa deoarece porneste de la o exprimare literar folclorica a definitiei matematice a bioechivalentei. diferenta care este considerata nesemnficativa clinic.84% 3. cu mai putin de 5-6 % ceea ce se si verifica efectiv in practica . Statistica matematica si biostatistica Puterea testului. Robert Lionberger and Lawrence Yu. J. Aceasta valoare a dus insa si la multe confuzii si controverse. Haidar.47 ±2. Calculul numarului de voluntari 2.29±3.II.15. cu cat aceasta este mai mare. Calculul comparativ al numarului de subiecti necesari in testarea bioechivalentei terapeutice a medicamentelor. dupa cum se poate vedea mai jos Statistica pe 273 aplicaţii generice în 1997 1 Pentru 127 studii de bio-echivalenţă in vivo AUC 0-t final (t-last) AUC 0 – Infinit C max 1 3.8 〈 AUC 〈 1.72% Sam H. Henney. cu atat diferenta medie intre parametrii farmacocinetici trebuie sa fie mai mica. 2.9 ⎜ ⎟ μ c max ⎝ ⎠ Intrucat lungimea intervalului de incredere este proportionala cu variabilitatea medicamentului. pacientul care ar schimba intre ele cele doua medicamente de referinta ar avea la un moment dat o variatie de 40 % in nivelele plasmatice.

64 . inlocuind in formula se obtine 202 . α 2 = 0. Calculul numarului de subiecti necesari pentru demonstrarea unui efect de reducere a unui marker biologic pentru o afectiune data. spunem H :μ = μ + Δ unde Δ >0 este o diferenta pe care o consideram semnificativa clinic. Pentru ipoteza alternativa specifica. Calculul in testarea echivalentei clinice Obiectiv de demonstrat: Testarea bioechivalentei pornind de la nivelele concentratiilor plasmatice necesita zeci de subiecti in timp ce testarea echivalentei terapeutice necesita zeci de mii de subiecti . H a : μ > μ0 cu riscul α cand dispersia σ 2 este cunoscuta. Presupunem ca testam urmatoarele ipoteze: H 0 : μ = μ0 vs.05 ⇒ z α = −1. Diferenta Δ semnificativa clinic pe care vrem sa o depistam este de 20 %.1 ⇒ z β = −1. Calculul numarului de voluntari De observat ca media diferenţei între generic şi inovator e mai mică decât diferenţa minimă de 5% in uniformitatea conţinutului permis de USP. de riscul asumat α si de puterea testului 1 − β . 2.15. in cazul in care acesta ia valori numerice continue si avem dovezi ca datele sunt distribuite normal se face in functie de diferenta semnificativa terapeutic in valorile markerului.2. β = 0.20 % ( dincolo de 30 % spunem ca medicamentul este cu variabilitate mare) . Statistica matematica si biostatistica Puterea testului.8. Numarul de subiecti necesari pentru testarea acestei ipoteze este a 0 σ ⎛z + z ⎞ σ ⎛z + z ⎞ ⎜ ⎟ ⎜ ⎟ ⎝ ⎠ = ⎝ ⎠ n= (μ − μ ) Δ 2 2 2 2 α β α β 2 2 2 2 0 1 In cazul bioechivalentei se ia un risc de 10 % si o putere de 90 %.3 si Δ = 0.II.2 2 Pentru un medicament cu variabilitate moderata .

puterea tinde la 1. 2 2 (1 .3. Ipoteze ce urmeaza a fi testate vor fi: 203 .8. 64 + 1 . va fi nevoie de un grup de subiecti mai mare. Mărimea eşantionului se poate determina similar cu cazul testului t bilateral. Indiferent de comparator. Consideram ipotezele: ⎧ H 0 : p1 = p 2 ⎧ H 0 : p1 − p 2 = 0 ⇔⎨ ⎨ ⎩ H a : p1 ≠ p 2 ⎩ H a : p1 − p 2 ≠ 0 Pentru a calcula numarul de subiecti in functie si de puterea testului trebuie specificata diferenta semnificativa clinic in cazul parametrului masurat. In cele mai multe studii clinice obiectivul este demonstrarea eficientei si sigurantei unui medicament comparat cu placebo sau cu un alt medicament. 28 ) 2 ≈ 9 0 .II. creste probabilitatea erorii de tip II. Practic se determina numarul de subiecti necesari asigurarii unei anumite puteri pentru un risc α dat sau. Cazul compararii efectelor clinice Când variabilele rezultate sunt cu două valori posibile (tratamentele fie îmbunătăţesc. Raportul dintre α si β este ca cel din selectia de incertitudine a lui Heisenberg: daca scade probabilitatea erorii de tip I. fie nu îmbunătăţesc starea pacientului) variabilele care ne interesează mai mult sunt proporţiile pacienţilor a căror stare s-a ameliorat şi nu media unor măsurători date. iar cand Δ → 0 avem 1 − β → 0 .15. Aceasta diferenta defineste “grosismentul” microscopului definit de studiul clinic cu care comparam cele doua medicamente. este important sa se specifice ce diferenta este importanta din punct de vedere clinic sau stiintific. Daca diferenta este relative mica. Intuitia ne spune ca daca se va alege o diferenta mare atunci va fi nevoie de un numar mic de subiecti. Fie p1 şi p 2 proporţia de succes (vindecare sau îmbunătăţire) în grupul în care s-a făcut tratamentul şi. Daca Δ → ∞ . altfel spus selectarea unei probabilitati pentru eroarea de tip II acceptabila – in conditiile unui risc de eroare de tip I fixat. Aceasta diferenta o vom nota cu Δ . Calculul numarului de voluntari ⎛ ⎝ ⎞ ⎠ 2 n = σ 2 ⎜ zα + zβ ⎟ ⎜ ⎟ 2 Δ2 = 0 .2 2 2. respectiv în grupul de control. Statistica matematica si biostatistica Puterea testului.

Calculul numarului de voluntari ⎧ H 0 : p1 − p 2 = 0 ⎨ ⎩ H a : p1 − p 2 = Δ Cunoscandu-se puterea testului π = 1 − β vom determina marimea esantionului. Z= ⎞ ⎛1 1 ⎞ ˆ ˆ⎜ pq⎜ + ⎟ − Δ p1 − p 2 = Δ ⎟ = ⎟ ⎟ ⎝ n1 n2 ⎠ ⎠ ⎛1 1 ⎞ ˆ ˆ⎜ pq⎜ + ⎟ ⎟ ⎝ n1 n2 ⎠ − ˆ ˆ ˆ ˆ p1 q1 p 2 q 2 + n1 n2 ⎞ ⎟ ⎟ p1 − p 2 = Δ ⎟ ⎟ ⎟ ⎟ ⎠ Δ ˆ ˆ ˆ ˆ p1 q1 p 2 q 2 + n1 n2 ˆ ˆ p1 − p 2 − Δ ∈ N (0. ⎛ ⎜ ⎜ 1 − β = P⎜ ⎜ ⎜ ⎜ ⎝ ⎞ ⎟ ⎟ p1 − p 2 = Δ ⎟ = ⎟ ⎟ ⎟ ⎠ π = 1 − β = 1 − P(accepta H 0 H a ade var ata ) = P(respinge H 0 H a ade var ata ) ˆ ˆ p1 − p 2 ⎛1 1 ˆ ˆ⎜ pq⎜ + ⎝ n1 n2 ⎞ ⎟ ⎟ ⎠ 〉z 1− α 2 ⎛ ⎞ ⎛1 1 ⎞ ˆ ˆ ˆ ˆ⎜ = P⎜ p1 − p 2 〉 z α pq⎜ + ⎟ p1 − p 2 = Δ ⎟ ⎟ ⎜ ⎟ 1− ⎝ n1 n2 ⎠ 2 ⎝ ⎠ Vom scadea Δ din ambii membri ai inecuatiei precedente si vom obtine: ⎛ ˆ ˆ 1 − β = P⎜ p1 − p 2 − Δ 〉 z α ⎜ 1− 2 ⎝ ⎛ ⎜ ⎜ p − p −Δ ˆ ˆ2 = P⎜ 1 〉z α 1− ˆ ˆ ˆ ˆ ⎜ p1 q1 p 2 q 2 2 + ⎜ n ⎜ n2 1 ⎝ Dar.II. Conform definitiei puterea testului este: Deci.1) si obtinem: ˆ ˆ ˆ ˆ p1 q1 p 2 q 2 + n1 n2 204 . Statistica matematica si biostatistica Puterea testului.

deci ⎛1 1 ⎞ ˆ ˆ⎜ pq⎜ + ⎟ ⎟ ⎝ n1 n2 ⎠ − ˆ ˆ ˆ ˆ p1 q1 p 2 q 2 + n1 n2 zβ = −zα 2 Δ ˆ ˆ ˆ ˆ p1 q1 p 2 q 2 + n1 n2 205 . ⎛1 1 ⎞ ˆ ˆ⎜ pq⎜ + ⎟ ⎟ ⎝ n1 n2 ⎠ − ˆ ˆ ˆ ˆ p1 q1 p 2 q 2 + n1 n2 Δ ˆ ˆ ˆ ˆ p1 q1 p 2 q 2 + n1 n2 ⎞ ⎟ ⎟ p1 − p 2 = Δ ⎟ ⎟ ⎟ ⎟ ⎠ ⎛1 1 ⎞ ˆ ˆ⎜ pq⎜ + ⎟ ⎟ ⎝ n1 n2 ⎠ − ˆ ˆ ˆ ˆ p1 q1 p 2 q 2 + n1 n2 Δ ˆ ˆ ˆ ˆ p1 q1 p 2 q 2 + n1 n2 ⎞ ⎟ ⎟ p1 − p 2 = Δ ⎟ = 1 − (1 − β ) = β ⎟ ⎟ ⎟ ⎠ ⎛1 1 ⎞ ˆ ˆ⎜ pq⎜ + ⎟ ⎟ ⎝ n1 n2 ⎠ − ˆ ˆ ˆ ˆ p1 q1 p 2 q 2 + n1 n2 ⎛1 1 ⎞ ˆ ˆ⎜ pq⎜ + ⎟ ⎟ ⎝ n1 n2 ⎠ − ˆ ˆ ˆ ˆ p1 q1 p 2 q 2 + n1 n2 Δ ˆ ˆ ˆ ˆ p1 q1 p 2 q 2 + n1 n2 ⎞ ⎟ ⎟ p1 − p 2 = Δ ⎟ = ⎟ ⎟ ⎟ ⎠ ⎞ ⎟ ⎟ p1 − p 2 = Δ ⎟ = β ⎟ ⎟ ⎟ ⎠ Δ ˆ ˆ ˆ ˆ p1 q1 p 2 q 2 + n1 n2 P(Z 〈 z β p1 − p 2 = Δ ) = β . ⎛ ⎜ ⎜ 1 − P⎜ Z 〉 z α 1− ⎜ 2 ⎜ ⎜ ⎝ ⎛ ⎜ ⎜ = P⎜ Z 〈 − z α ⎜ 2 ⎜ ⎜ ⎝ Dar. Calculul numarului de voluntari ⎛ ⎜ ⎜ 1 − β = P⎜ Z 〉 z α 1− ⎜ 2 ⎜ ⎜ ⎝ ⎛ ⎜ ⎜ 1 − P⎜ Z 〉 z α 1− ⎜ 2 ⎜ ⎜ ⎝ Deci. Statistica matematica si biostatistica Puterea testului.II.

altfel scris: 2 ⎛ Δ2 = ⎜ z α ⎜ 2 ⎝ ⎛ Δ = ⎜ zα ⎜ ⎝ 2 2 ⎛1 1 ⎞ ˆ ˆ⎜ pq⎜ + ⎟ + z β ⎟ ⎝ n1 n2 ⎠ ˆ ˆ ˆ ˆ ⎟ p1 q1 p 2 q 2 ⎞ + n1 n2 ⎟ ⎠ 2 2 Considerand n1 = n si n2 = kn1 = kn vom obtine: ⎛1 1 ⎞ ˆˆ pq ⎜ + ⎟ + zβ ⎝ n kn ⎠ ˆ ˆ ˆ ˆ p1q1 p2 q2 ⎞ + ⎟ = n kn ⎟ ⎠ 2 ⎛ = ⎜ zα ⎜ 2 ⎝ ˆˆ pq ( k + 1) + z kn β ˆ ˆ ˆ ˆ p1q1k + p2 q2 ⎞ ⎟ ⎟ kn ⎠ ⇒ ⎛ ⎜ zα ⎜ kn = ⎝ 2 ˆˆ pq(k + 1) + z β Δ2 ⎞ ˆ ˆ ˆ ˆ p1 q1 k + p 2 q 2 ⎟ ⎟ ⎠ 2 ⎛ ⎜ zα ⎜ Deci. Statistica matematica si biostatistica Puterea testului. n = ⎝ 2 ˆˆ pq(k + 1) + z β Δ2 k ⎞ ˆ ˆ ˆ ˆ p1 q1 k + p 2 q 2 ⎟ ⎟ ⎠ 2 206 .II. Calculul numarului de voluntari Aducand la acelasi numitor obtinem: ⎛1 1 ⎞ ˆ ˆ⎜ pq⎜ + ⎟ − Δ ⎟ ⎝ n1 n2 ⎠ ⎛ ⎛1 1 ⎞ ˆ ˆ⎜ Vom determina diferenta Δ = −⎜ z α pq⎜ + ⎟ + z β ⎟ ⎜ 2 ⎝ n1 n2 ⎠ ⎝ zβ ˆ ˆ ˆ ˆ p1 q1 p 2 q 2 + = −zα n1 n2 2 ⎛ Δ = −⎜ z α ⎜ ⎝ 2 ⎛ ⎜ zα ⎜ Δ2 = ⎝ 2 ˆˆ pq(n1 + n2 ) n1 n2 + zβ ˆ ˆ ˆ ˆ n2 p1 q1 + n1 p 2 q 2 ⎞ ⎟ ⎟ n1 n2 ⎠ ˆ ˆ ˆ ˆ ⎟ p1 q1 p 2 q 2 ⎞ + ⇒ n1 n2 ⎟ ⎠ Ridicand la patrat obtinem: ˆˆ pq (n1 + n2 ) + z β n1 n2 ⎞ ˆ ˆ ˆ ˆ n2 p1 q1 + n1 p 2 q 2 ⎟ ⎟ ⎠ sau.

Salim Yusuf: Overview of Result of Randomized Clinical Trials in Heart Disease. Ne alegem ricul α = 0.02 ⎝ ⎠ Deci în studiile infarctului miocardic. aproximativ 10% dintre pacienţi mor în decursul unui an. 2259-2263. ⎛ 1. intr-un interval de un an circa 10 % 2 . unde p = 2 2 2. Heart Failure.28 0.300 n=⎜ ⎜ ⎟ 0. Statistica matematica si biostatistica Puterea testului. iar aspirina se pare ca reduce acest numar de decese cu 10 pana 30 % din riscul celor care nu iau aspirina.05 si o putere a testului de 0.09 * 0.96 2 * 0.02 Δ este riscul evenimentului (infarct) în absenţa tratamentului minus riscul evenimentului în prezenţa tratamentului sau procentulul riscului evenimentului la lotul martor minus procentul riscului evenimentului la lotul tratat. În al doilea exemplu calculăm numărul de subiecţi pentru cazul în care avem o reducere cu 20% a riscului de mortalitate de la 30% la 24%. Un test clinic ar avea nevoie de aproximativ 430 decese în grupul de control (adică. 1988 2 2 207 . de aproximativ 4300 pacienţi în grupul de control şi 4300 în grupul de persoane tratate) pentru a obţine 90% putere de detectare.1) 10% ⎯20% 8% ⎯→ ⎯ 10% + 8% 18% p1 = 0.92 ⎞ ⎟ ≅ 4.9 + 0. II.09 2 2 Δ = 0. Unstable Angina. Calculul numarului de voluntari ⎞ ⎛ ⎜ z α 2 pq + z β p1 q1 + p 2 q 2 ⎟ ˆˆ ˆ ˆ ˆ ˆ ⎟ ⎜ ⎠ In cazul in care n1 = n2 ⇒ k = 1 si n = ⎝ 2 2 Δ p1 + p 2 .08 * 0. deci de la de la 10% la 8%. Dintre pacientii cu infarct miocardic mor .08 si p = = = 9% ⇒ p = 0.4.91 + 1.9 ( deci β=0.15. JAMA 260 (15). Cazul aspirinei.1 * 0.8. Primary Prevention with Aspirin and Risk Factor Modification. 20% reducerea mortalităţii la un nivel de 5% ( α = 0.08 = 0. Ne propunem in continuare sa calculam numarul de pacienti cu infarct miocardic ce trebuiesc urmariti pe un an de zile pentru a detecta o reducere cu 20% a riscului de mortalitate .1 − 0.10 . p 2 = 0.II.05 ).

24 si p = 30% + 24% 54% = = 27% ⇒ p = 0. global aplicabil multimii markerilor. Astfel daca mortalitatea scade de la 10% la 5% avem o scadere cu 2% in valoare absoluta si cu 20% relativ la valoarea de referinta.06 2 ⎛ 1.30 − 0.7 + 0.73 + 1. Deci avem nevoie de 2300 subiecti impartiti in 2 loturi. ideea ca orice tratament nu modifica un marker biologic cu mai mult de 30% din valoarea sa. este un rezultat mult mai general.27 2 2 Δ = 0. 208 . Atunci cand calculam numarul de subiecti necesari pentru a fi inclusi in studiu noi evaluam doua ipoteze privind mediile populatiei: H 0 : μ = μ 0 si H A : μ = μ 0 + Δ deci diferenta este una absoluta. amandoua corecte in masura explicarii clare privind modul de calcul al scaderii. Avem la dispozitie doua exprimari.1 30% ⎯20% 24% ⎯→ ⎯ p1 = 0.28 0.76 ⎞ ⎟ ≅ 1.30 .27 * 0. p 2 = 0.09. Procentul de mortalitate % Reducerea riscului % 10% 20% 30% 40% 50% 10 1800 430 180 100 60 15 1700 400 170 90 55 20 1600 390 165 87 53 30 1400 350 150 80 50 40 1200 300 130 70 45 Test bilateral în care α=0. Statistica matematica si biostatistica Puterea testului.05.06 ⎝ ⎠ Rezultatul se înmulţeşte cu doi pentru că testul se efectuează pe două loturi identice.96 2 * 0.150 n=⎜ ⎜ ⎟ 0. Daca insa plasam efectul intr-un cadru mai larg de comparare a diverselor efecte – in diverse boli. P=0. este semnificativ pentru boala in sine care este caracterizata de o multime mare de parametri masurabili sau nu. Numarul de morti prin infarct este de 30% din cei ce nu iau medicamentul (lotul martor) 30 1150 * ≅ 350 100 Rezultatul calculelelor pentru alte combinatii de “rata evenimentului” si “reducerea riscului” sunt date in tabelul de mai jos.3 * 0.05 si β=0.24 * 0.24 = 0. Calculul numarului de voluntari α=0.II.

Calculul numarului de voluntari 2. Deci diferenta considerata mai sus intre aspirina si placebo ( 0.082 ⇒ q = 1 − p = 0.15.916 ⎞ ⎟ ⇒ n≥⎜ ⎜ ⎟ 0. iar ⎯ ⎯ −16% in cazul aspirinei 80% avem 10% ⎯⎯ → 8.020 − 0.08 ⇒ q1 = 1 − p1 = 0.5. Calculul numarului de subiecti necesari demonstrarii echivalentei terapeutice a doua medicamente care sunt bioechivalente Când compar aspirina 100% cu aspirina 80% presupun ca medicamentul care elibereaza numai 80 % din cantitatea de aspirina declarata are numai 80 % din actiunea celui care elibereaza intrega cantitate. Din modul de prezentare a problemei rezulta clar ca autorii nu au nici cea mai mica idee despre ce inseamna bioechivalenta si cu ata mai putin stiu care este numarul de subiecti necesari pentru a demonstra ceea ce in fapt nu se poate demonstra.Diferenta intre testat si referinta care trebuie depistata pentru a respinge bioechivalenta cu ajutorul efectului de reducere a ratei de mortalitate a bolnavilor cu infarct intr-un interval de un an va fi Δ = 0.08 * 0.918 2 În acest caz ⎛ 1.084 ⇒ q 2 = 1 − p 2 = 0.004 ⎝ ⎠ n ≥ 98776 in fiecare grup.016 = 0.4% ⎯ ˆ ˆ ˆ p1 = 0.96 2 * 0.92 + 0.016 . studiile sistematice in acest sens lipsesc. 209 . deci va fi de 0.28 0.918 + 1.8.II.92 ˆ ˆ ˆ p 2 = 0.02) va scadea la 80 % .082 * 0.004 diferenta echivalentei terapeutice In cazul in care tratez cu aspirina 100% avem 10% ⎯−20% → 8%.916 ˆ ˆ p + p2 ˆ ˆ ˆ p= 1 = 0. Statistica matematica si biostatistica Puterea testului. deci un total de circa 197552 de pacienti cu infarct. 2 Concluzii Literatura medicala abunda de “folclor” privind cazuri in care doua medicamente bioechivalenta nu au fost echivalente clinic dar. de urmarit un an.084 * 0.

Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari Reprezentativ un astfel de studiu in cazul amiodaronei 3 se refera la un sondaj de opinie in randul medicilor de familie. Kowey.II. Indiferent de numarul foarte mare al ignorantilor asupra subiectului – rezultatul nu poate fi considerat ca o concluzie stiintifica. Reiffel. Peter R. may 1. 2000 210 . Generic Antiarrythmics Are Not Therapeutically Equivalence for the Treatment of Tachyarrhythmias. The American Journal of Cardiology. 3 James A. vol. 85.

atunci automat se intampla E2 . 211 . Statistica matematica si biostatistica Distributia binomiala 2.16.II. cu presupunerea ca probabilitatea de succes P este aceeasi pentru fiecare din cele doua incercari. Compararea proportiilor cu testul exact Fisher Consideram toate rezultatele posibile a doua incercari independente. deoarece nu putem avea x1 = k1 si x2 = k2 fara a avea simultan ( x1 + x2 ) = ( k1 + k2 ). Tabelul nr. Notam numarul succeselor cu k1 si k2 . toate cu aceeasi probabilitate de succes P.16. Probabilitatea ca sa se obtina datele din tabel este: P { E1 E2 } (**) P { x1 = k1 . x2 = k2 ).1. cand se dau marimile esantioanelor n1 si n2 si numarul total de succese obtinute ( k1 + k2 ). Calculam probabilitatea obtinerii acestor rezultate k1 si k2 . adica ( x1 = k1 . 27 k1 k2 k1 + k2 n1 − k1 n2 − k2 n1 + n2 − ( k1 + k2 ) n1 n2 n1 + n2 unde: k1 si k2 numarul succeselor n1 − k1 si n2 − k2 numarul esecurilor n1 . Daca se realizeaza E1 . x2 = k2 x1 + x2 = k1 + k2 } = P { E1 E2 } = P { E2 } unde ( E1 E2 ) reprezinta realizarea concomitenta a evenimentelor E1 si E2 . n2 numarul de incercari si k1 + k2 fixate Consideram rezultatele particulare x1 = k1 si x2 = k2 . n1 in primul caz si n2 in al doilea caz. DISTRIBUTIA BINOMIALA 2. x2 = k2 ) respectiv( x1 + x2 = k1 + k2 ). Definim E1 si E2 ca fiind evenimentele ( x1 = k1 .

x2 = k2 x1 + x2 = k1 + k2 } = ( E1E2 ) este aceeasi P { E1E2 } = P {E1} . 212 . iar la numitor numerele din tabel si totalul general.II. c a + c ) = Regula de calcul se poate obtine mai usor daca observam ca la numarator avem factorialele totalurilor marginale. Cu aceasta notatie probabilitatea rezultatelor devine Tabelul nr. adica relatia (**) se obtine P { x1 = k1 . Statistica matematica si biostatistica Distributia binomiala De aceea probabilitatea evenimentului probabilitatea evenimentului E1 . 28 A B a c a+c b d b+d a+b c+d (a + b)!(c + d )!(a + c)!(b + d )! = c !d !a !b !(a + b + c + d )! (a + b)!(c + d )!(a + c)!(b + d )! 1 1 = ⋅ =C⋅ (a + b + c + d )! c !d !a !b ! c !d !a !b ! PE 2 ( E1 ) = P ( a. Inlocuind = P ( x1 = k1 ∩ x2 = k2 ) P ( x1 + x2 = k1 + k2 ) cu in P { E2 } P { E1} P ( E2 ∩ E1 ) P ( E2 ) Din definitia distributiei binomiale P( E1 ) si P ( E2 ) vor fi date de formulele: k n −k k k n −k k P( E1 ) = Cn 11 p 1 (1 − p) 1 1 Cn 22 p 2 (1 − p ) 2 2 PE2 ( E1 ) = P( E2 ) = Cn 11+ n 22 p k k k +k k 1 +k 2 (1 − p) n 1 + n 2 −( k 1 + k 2 ) PE 2 ( E1 ) = Cn 11 Cn 22 k +k Cn 11+ n 22 = ( k1 + k2 )! ⎡ n1 + n2 − ( k1 + k2 )⎤ ! n1 !n2 ! ⎣ ⎦ ⋅ k1 !k2 !(n1 − k1 )!(n2 − k2 )! n1 + n2 ) ! ( De obicei in tabelele de contingenta se foloseste notatia din tabelul de mai jos.

in prima perioada 12 au primit medicamentul de referinta (R) si 12 medicamentul testat (T). Din studii anterioare se stia ca proportia de reactii adverse. pe langa compararea biodisponibilitatii. Conform cu cele reprezentate mai sus. in special dureri de cap. luand n1 =12. 10 12 Se poate afirma ca acest lucru este adevarat cu probabiliatatea 90%. H A : PT > PR Aplicam testul Fisher. S-a testat o noua formulare T comparativ cu formularea de referinta in ceea ce priveste biodisponibilitatea. Verificam in acest scop ipotezele: H 0 : PT = PR cu α = 0. Deci punand datele in tabelul 2x2 se obtine: Medicament Reactii adverse (RA) Total Da Nu R 3 9 12 T 5 5 10 Total 8 14 22 Proportia de RA la ISMN a fost gasita mai mare medicamentul testat: 5 3 > . Avem de exemplu: 213 . si inregistrarea efectelor adverse.II. Sa calculam pentru inceput probabilitatea de a se obtine exact rezultatul obtinut in experiment.173 ⎜ 8 14 22 ⎟ 3!5!5!9!22! ⎝ ⎠ Mai departe trebuiau calculate si probabilitatile pentru combinatiile “mai putin probabile” decat combinatia obtinuta experimental si cu proportii mai mari pentru PT . Statistica matematica si biostatistica Distributia binomiala Exemplu. In final numarul voluntarilor cu dureri de cap a fost de 3 pentru R si 5 pentru T. Protocolul experimentului clinic a cerut. Doi voluntari dintre cei care au primit referinta au abandonat experimentul.. n2 =10 si k1 + k2 = 8 ⎛ 3 9 12 ⎞ ⎜ ⎟ 8!14!12!10! P ⎜ 5 5 10 ⎟ = = 0. pe 24 voluntari din care.10. la voluntarii sanatosi dupa administrarea isosorbit mononitrat (ISMN) este de circa 30%. Experimentul a fost de tip incrucisat.

213.173 + 0.213. raportat la un experiment anterior acesta ar fi trebuit sa fie 6-7. In continuare sa comparam rezultatul cu rezultatul obtinut din compararea proportiilor experimentale folosind aproximarea normala. Pentru a verifica ipotezele H 0 : p1 = p2 = p cu α = 0. Statistica matematica si biostatistica Distributia binomiala ⎛ 2 10 12 ⎞ 1 ⎜ ⎟ 8!14!12!10! P ⎜ 6 4 10 ⎟ = ⋅ = 0. 04 22! 2!6!4!10! ⎜ 8 14 22 ⎟ ⎝ ⎠ ⎛ 1 11 12 ⎞ 1 ⎜ ⎟ P ⎜ 7 3 10 ⎟ = c ⋅ = 0. Este de mentionat o restrictie importanta a testului Fisher si anume aceea ca numarul total de “cazuri” de un anumit tip este constant (in cazul nostru am ales in consecinta numai combinatiile pentru care numarul total de subiecti prezentand efecte adverse a fost egal cu 8 asa cum s-a obtinut in experiment ). 0041 + 0 ) > 0.10 . 10 ⎠ ⎝ Deci. Desi aceasta restrictie este bine cunoscuta ca incorecta. testul Fisher se aplica in toata lumea fara precautii in ceea ce priveste verosimilitatea asimilarii practic a tuturor sumelor marginale “constante”. P = 0. 04 + 0.II. in ipoteza ca cele doua medicamente nu difera in ceea ce priveste probabilitatea aparitiei efectelor adverse in proportie mai mare de 5 este 0. De altfel.10. 10 Ca urmare nu putem respinge ipoteza ca minimul de efecte adverse este mai mare in medicamentul testat decat in cel de referinta doar din intamplare. 0045 si 1!7!11!3! ⎜ 8 14 22 ⎟ ⎝ ⎠ ⎛ 0 12 12 ⎞ 1 ⎜ ⎟ =0 P ⎜ 8 2 10 ⎟ = c ⋅ 0!8!12!2! ⎜ 8 14 22 ⎟ ⎝ ⎠ 5⎞ ⎛ Deci P ⎜ p ≥ ⎟ = (1. calculam H A : p1 > p2 214 .

Revenim la tabel 3 9 12 5 5 10 8 14 22 si calculam valorile “asteptate” – pornind de la estimarea “combinata” a probabilitatii: k +k 3+5 4 ˆ p= 1 2 = = n1 + n2 12 + 10 11 Valorile asteptate vor fi 4 = 4.36) 10 8 14 22 si mai departe: 215 . 77 ) = Φ ( −0.64) 12 5 (3. dupa scrierea datelor asteptate. tabelul devine: ˆ E (k1 ) = n1 ⋅ p = 12 ⋅ 3 (4.36) 9 (7. unde p = n1 p1 + n2 p 2 = k1 + k 2 = 3 + 5 = 4 ˆ Z= n1 + n2 n1 + n2 12 + 10 11 ⎛1 1⎞ ˆ ˆ p (1 − p ) ⎜ + ⎟ ⎝ n1 n2 ⎠ Z= 5 3 ⎛ 1 1 ⎞ − −⎜ + ⎟ 10 12 ⎝ 20 24 ⎠ 4 7⎛ 1 1⎞ ⋅ ⎜ + ⎟ 11 11 ⎝ 10 12 ⎠ = 0. 77 P ( Z〉 0. 64 11 Iar celelalte valori se obtin prin scadere din n1 si n2 .64) 5 (6. Statistica matematica si biostatistica Distributia binomiala ⎛ 1 1 ⎞ p1 − p2 − ⎜ + ⎟ ⎝ 2n1 2n2 ⎠ . Deci.II. 22 ceea ce este foarte apropiat de rezultatul obtinut cu metoda Fisher. 77 ) = 0. Mai departe comparam cele doua proportii de RA folosind testul χ 2 .36 11 4 ˆ E (k2 ) = n2 ⋅ p = 10 ⋅ = 3.

212 ≈ 1. mai exact spus.36 ) + 6.90 este 2. in calculul statisticii Z renuntam la aplicarea corectiei de continuitate obtinem: 5 3 − −0 10 12 Z= = 1. se accepta ipoteza ca cele doua proportii sunt egale sau.46 este mai mic decat 2.II. testul χ 2 este echivalent cu testul Z fara corectia de continuitate. 64 ) + 2 ( 5 − 3. dar 0.46 . Statistica matematica si biostatistica Distributia binomiala 2 Ei 4. 64 2 ( 5 − 6. 64 Oi = valorile observate Ei = valorile asteptate (expectation) χ =∑ 2 ( Oi − Ei ) ( 3 − 4. Daca insa. 46 .36 7. Valoarea obtinuta la aplicarea testului Z ridicata la patrat ar trebui sa dea valoarea obtinuta prin statistica χ 2 .71. vom gasi ca valoarea de prag pentru distributia χ 2 cu un singur grad de libertate pentru aria de 0. nu se poate respinge ipoteza ca sunt egale. 46 Daca vom cauta in tabele. 64 ) + 3. 216 .36 ) = 2 ( 9 − 7. 77 2 ≠ 1. Deoarece 1.36 2 = 1.71. Deci. 21 4 7⎛ 1 1⎞ ⋅ ⎜ + ⎟ 11 11 ⎝ 10 12 ⎠ si 1. Dupa cum s-a discutat la prezentarea testului χ 2 aplicat in compararea proportiilor acesta este echivalent pentru un singur grad de libertate cu aplicarea distributiei normale.

II.

Statistica matematica si biostatistica Distributia binomiala

2.16.2. Tabele de contingenta R x C Un tip special de experimente clinice este acela in care mai multe grupuri de subiecti sunt comparate in ceea ce priveste un raspuns , numit si ”marker” ce nu iau valori numerice ci un numar finit de stari cum ar fi agravat, neschimbat, vindecat, ameliorat. Se poate intampla adesea ca si atunci cand raspunsul reprezinta o variabila aleatoare continua, din punct de vedere clinic sa fim interesati in incadrarea acestor valori in anumite intervale. Daca spre exemplu masuram viteza de sedimentare a hematiilor ( VSH ), dat fiind nespecificitatea acestui parametru sa ne fie mai util sa catgorisim valoare obtinuta ca normala ( de exemplu intre 0 si 5 mm/h), crescuta moderat ( 5 – 40 mm/h ) sau foarte mare ( peste 40 mm/h). Uneori procesul este invers, de cuantificare a unor stari prin asocierea unor numere pe o anumita scara, de exemplu o scara vizuala privind durerea sau o scara de apreciere a eficientei unui tratament antireumatic, cum este de exemplu indicele WOMAC, ce vine sa integreze o serie mai mare de semne clinice mai mult sau mai putin subiective, mai mult sau mai putin corelate intre ele. In toate cazurile de mai sus putem fi interesati in frecventa diferitelor raspunsuri in cadrul unor grupuri constituite ad-hoc in raport cu obiectivele studiului , de exemplu barbati – emei, lot tratat – lot netratat etc. La modul general, experimente de tipul celor de mai sus duc la niste tabele pe care se numesc tabele R x C , unde R este numarul de grupuri ( “row” ) si C numarul de coloane. Cazul cel mai simplu si de altfel si cel mai frecvent este cazul tabelelelor 2 x 2 , de exeplu vindecat, nevindecat sau toxic, non – toxic etc. Aceste tabele se mai numesc si “tabele de contingenta”, termenul de contingenta fiind etimologic unul preluat din geometrie ( tangent, cotangent etc). De regula, in aceste tabele suntem interesati sa verificam ipoteze privind proportiile privind prevalenta unor simpome sau efecte in aumite grupe si, in acest caz problema se reduce la compararea unor frecvente, care subiect a fost tratat la capitolul verificarea ipotezelor statistice. O formulare echivalenta, in contextul aranjarii rezultatelor in tabele, cu ipotezele privind frecventele , se refera la relatiile intre linii si coloane. Consideram spre exemplu un tabel generic privind rezultatele comparative, pe loturi paralele, obtinute cu doua medicamente, unul de referinta R, si unul testat T (tabelul 29).

217

II.

Statistica matematica si biostatistica Distributia binomiala

Tabel 29. Exemplu de tabel de contingenta 2x3 R T lipsa efect 20 15 efect moderat 30 30 vindecat 40 50

Ipoteza nula ca tratamentele sunt echivalente se traduce in ipoteza privind independenta liniilor, sau altfel spus, rezultatele nu implica diferente intre tratamente. In fapt liniile nu depind de criteriile dupa care se face impartirea intre ele, nu depind de nivelele factorului dupa care se face clasificarea. In fond ele nu sunt independente intre ele ci, in ipoteza H 0 avem aceiasi linie indiferent de nivel. Relatiile intre liniile si coloanele tabelelor de contingenta pot fi testate cu ajutorul testului χ 2 cu (R-1)(C-1) grade de libertate. Ei unde O sunt valorile observate iar E sunt valorile asteptate (“Expected”). Pentru calculul valorilor asteptate va trebui sa completam tabelul cu totalul pe fiecare linie si coloana. Consideram pentru inceput un tabel 2x2 obtinut din tabelul29 prin considerarea numai a doua raspunsuri : “lipsa efect” si “vindecat” Tabel 30. Exemplu de tabel de contingenta 2x2 R T total lipsa efect 20 15 35 vindecat 40 50 90 60 65 125

χ

2 ( R −1)( C −1)

=∑

( Oi − Ei )

2

Rescriem tabelul sub o forma generica ( tabelul 31) Tabel 31. Tabel de contingenta 2x2 generic lipsa efect vindecat R n1 − k1 k1 n1 T n2 − k2 k2 n2 total 218

( n1 + n2 ) − (k1 + k2 )

k1 + k2

n1 + n2

II.

Statistica matematica si biostatistica Distributia binomiala

o putem reduce la k k compararea celor doua frecvente de pacienti vindecati 1 si 2 . n1 n2 k2 sunt In acest scop presupunem ca cele doua variabile k1 si distribuite binomial cu acelasi parametru p ( proportia celor care raspund la tratament). Dupa cum s-a aratat la capitolul privind distributia binomiala mediile si dispersiile sunt date de formulele E ( k1 ) = n1 p ; E ( k2 ) = n2 p ; D ( k1 ) = n1 pq ; D ( k2 ) = n2 pq Dar, atunci cand p este mic npq = np (1 − p ) = np − p 2 ≈ np si deci

Problema compararii celor doua tratamente

D ( ki ) ≈ E ( ki )
Mai departe, cand ni standardizată z =
k − E (k ) D (k ) =

este suficient de mare variabila aleatoare
k − np k − np O − E se aproximează ca ≈ = npq np E

fiind normal repartizată. In aceste conditii

( Oi − Ei )
Ei

2

este prin definitie repartizata χ 2

iar o estimare naturală a lui p este p =

k1 + k 2 si respectiv n1 + n2 ( n + n ) − ( k1 + k2 ) p= 1 2 n1 + n2
35 = 0.28 125

In particular cu datele din tabelul 2 vom avea p = 90/125=0.72si

E(k2)= 65x90/125=46.8 E(k1)= 60x90/125=43.2 E( n1 − k1 )=60x35/125=16.8 E( n2 − k2 )= 65x35/125=18.2 Formam acum un tabel completat cu valorile asteptate ( tabelul 32) Tabelul 32 Valorile observate si valorile asteptate lipsa efect vindecat R 20 (16.8) 40 (43.2) 60 T 15 (18.2) 50 (46.8) 65 total 35 90 125 si calculam valoarea testului

219

II.

Statistica matematica si biostatistica Distributia binomiala
2

= 16.8 18.2 43.2 46.8 1 1 1 ⎞ ⎛ 1 + + + 3.22 ⎜ ⎟ = 1.62 ⎝ 16.8 18.2 43.2 46.8 ⎠ Pentru o semnificatie de 95%, valoarea de prag a lui χ12 este 3.84 . Deci putem spune ca liniile sunt independente si deci tratamentele sunt echivalente.
2 1

( 20 − 16.8 ) χ =

(15 − 18.2 ) +

2

( 40 − 43.2 ) +

2

( 50 − 46.8 ) +

2

Aplicatie: Vom testa reactia diferitelor persoane la razele solare in functie de culoarea ochilor. Vom ordona 107 de subiecti in functie de culoarea ochilor (albastri, verzi si caprui). Fiecare subiect este expus razelor ultraviolete si sunt examinate reactiile adverse (jupuire, eritem, fara reactie) dupa 4 ore de expunere. Valorile observate sunt prezentate in tabelul urmator:
Culoare ochilor Albastri Verzi Caprui Total Jupuire 25 5 6 36 Reactii adverse Eritem Non - reactie 28 6 5 7 10 15 43 28 Reactii adverse Eritem
43 = 23,71 107 43 17 * = 6,83 107 43 31 * = 12,46 107 43 59 *

Total 59 17 31 107 Total

Valorile asteptate sunt prezentate in tabelul urmator:
Culoare ochilor Albastri Verzi Caprui Total Jupuire
59 * 36 = 19,85 107 36 17 * = 5,72 107 36 31 * = 10,43 107 36

Non - reactie
59 * 28 = 15,44 107 28 17 * = 4,45 107 28 31 * = 8,11 107 28

59 17 31 107
= 18,14

Testul statistic este:
2 χ (2 −1)(3−1) = χ 4 = ∑ 3

(Oi − E i )2
Ei

=

(25 − 19,85)2 + (28 − 23,71)2
19,85 23,71

+ ... +

(15 − 8,11)2
8,11

2 Pentru un nivel de semnificatie α = 0,10 avem χ 4 = 9,49 si cum 18,14 〉 9,49 vom respinge ipoteza H 0 : reactia nu depinde de culoarea ochilor.

220

II.

Statistica matematica si biostatistica Distributia binomiala

2.16.3.Teste de independenta la clasificarea dupa doua criterii

Problema tabelelor de contingenta este problema demonstrarii faptului ca doua criterii de clasificare introduse pe aceiasi populatie sunt independente. Doua criterii se pot considera independente daca distributia dupa un criteriu este aceiasi indiferent daca mai aplicam sau nu si al doilea criteriu de clasificare. De exemplu daca rezultatele obtinute prin aplizarea a doua tratamente si gruparea dupa varsta sunt independente , ne asteptam sa avem aceleasi proportii de ameliorari si/sau vindecari in toate grupele de varsta cu cele doua medicamente. Ipoteza nula este aceea ca cele doua criteriide clasificare sunt independente. Verificarea acestei ipoteze se face folosind exact acelasi test ca mai sus

χ

2 ( R −1)( C −1)

=∑

( Oi − Ei )
Ei

2

dar interpretarile calculelor sunt diferite. Consideram din nou tabelul 30 , unde cele doua criterii de clasificare sunt medicamentul administrat si efectul obtinut. Tabelul 33. Clasificarea pacientilor dupa tratament si efecte lipsa efect efect moderat vindecat R 20 30 40 T 15 30 50 total 35 60 90 total 90 95 185

Sa estimam probabilitatile asteptate in fiecare celula in conditiile incare cele doua criterii sunt independente ( ceea ce semnifica in fapt echivalenta medicamentelor R si T). Estimam la inceput probabilitatile marginale, pornind de la totalurile marginale. Probabilitatea ca un pacient luat la intamplare din lotul selectat sa nu prezinte o ameliorare a starii sale este de 35/90=0.39 ; probabilitatea ca la un subiect oarecare efectul sa fie moderat este 60/90=0.67 si probabilitatea vindecarii este 90/185. Similar, probabilitatile caun subiect sa fi primit medicamentul de referinta este 90/185 si respectiv 95/185 ca sa fi primit medicamentul testat. Una din definitiile independentei a doua evenimente A si B este aceea ca P ( A ∩ B ) = P ( A) P ( B ) 221

092 185 185 Probabilitatea ca un subiect sa simta o ameliorare la administrarea 60 90 medicamentului R va fi si asa mai departe. = 222 .II.092*185=17 . Observam ca aceasta valoare se poate calcula mai usor deoarece 35 90 35 * 90 deci valoarea asteptata pentru o celula data se * * 185 = 185 185 185 poate obtine ca produsul intre totalurile marginale impartit la totalul general. Se observa ca am intrat deja in algoritmul prezentat anterior pentru tabelele 2x2. 185 185 Valorile asteptate se obtin apoi prin inmultirea probabilitatii clasificarii intr-o celula data cu numarul total de subiecti deci . Statistica matematica si biostatistica Distributia binomiala In conditiile ipotezei nule ca cele doua siteme de clasificare ( efectul si medicamentul 0 sunt independente. pentru prima celula avem 0. pentru prima celula a tabelului rezulta: P(lipsa efect ∩ medicament R ) = P(lipsa efect ) * P(medicament R ) = 35 90 * = 0.

ci numai despre toxicitatea substantei active. Statistica matematica si biostatistica Distributia binomiala 2. in fapt am comparat numarul de reactii adverse la doua grupuri paralele de subiecti.II. Nu am avut nici o informatie privitoare la omogenitatea celor doua loturi. O evaluare mult mai relevanta in ceea ce priveste efectele adverse comparative pentru cele doua medicamente o obtinem daca vom compara frecventa acestora la acelasi lot.4. Observam ca R a avut ra la 3 voluntari.ra Total 1 4 5 T ra 5 7 N. Deci cei 6 subiecti ar trebui sa fie impartiti in medie la fel. Informatia despre o eventuala diferenta este cuprinsa in intregime in celelalte doua cifre (2 si 4).ra 2 3 9 12 Total Deci un subiect a avut RA la amandoua medicamentele si 5 nu au avut la nici unul din cele doua medicamente. In evaluarea rezultatelor si in concluziile obtinute desigur ca un rol important l-a avut si intervariabilitatea subiectilor. iar T la 5 voluntari. Deci avem in fapt de evaluat tabelul: ra la R si n-ra la T 2 ra = reactii adverse ra la T si n-ra la R 4 n-ra = non-reactii adeverse Total 6 223 . Daca medicamentele ar fi complet echivalente ar fi de asteptat ca numarul celor care au avut reactii adverse la R si nu au avut la T sa fie aproximativ egal cu numarul celor care au avut reactii adverse la T si nu au avut la R. sa zicem lotul 1 (de 12 subiecti) care in perioada a 1a a primit R si in perioada a 2a a primit T. in experimentul biologic se recurge ori de cate ori este posibil la experimentul incrucisat. care este in general destul de mare. comportamentul lor nu ne da informatii despre diferentele intre medicamente. Dupa cum s-a prezentat de mai multe ori in paginile anterioare. in care fiecare subiect este propriul sau martor. Tabelele 2x2 corelate In experimentul anterior. De fapt. la o examinare mai amanuntita rezultatele sunt conform tabelelor urmatoare: 1 2 3 4 5 6 7 8 9 10 11 12 ra ra ra R ra ra ra ra ra T R ra N.16.

224 . 41) = 0.5 ⎟ = Φ ( −0. Statistica matematica si biostatistica Distributia binomiala Folosind direct distributia binomiala cu p = k P ( x ≤ 2 ) = ∑ Cn p k q n − k 0 2 1 si n = 6. obtinem: 2 si deoarece p = q = 1 2 6 ⋅ 5 ⎞ 1 22 ⎛ k 0 1 2 P ( X ≤ 2 ) = ∑ Cn p n = C n + Cn + Cn ⋅ p 6 = ⎜ 1 + 6 + = 0.34 ⎟ ⎜ 1 ⎟ npq ⎟ ⎝ ⎠ ⎜ ⎜ 6⋅ ⎟ ⎝ ⎠ 4 ⎠ ⎝ Deci acelasi rezultat. Concluzia este ca nu putem respinge ipoteza echivalentei celor 2 medicamente in ceea ce priveste reactiile adverse. ca cele doua medicamente au toxicitate diferita.46) = 0.34 ⎟ = 2 ⎠ 26 64 ⎝ 0 2 ( ) Sau folosind aproximarea normala: ⎛ ⎞ 1 1 ⎛ ⎞ x0 + − np ⎟ ⎜ 2+ −3⎟ ⎛ −0. Daca am fi aplicat un test de comparare tabelului aparent. la un risc acceptabil. am fi obtinut: 5 3 1 1 1 − − − 3 Z = 12 12 24 24 = 12 = ≈ 0. in esenta numarul de date este prea mic pentru a putea asuma.46 ⇒ θ (− 0.II. de exemplu folosind aproximarea normala a datelor din tabel. In fapt.32 14 1 14 1⎞ 4 7 ⎛1 * *⎜ + ⎟ 12 12 ⎝ 12 12 ⎠ 12 3 Concluzia este aceiasi ca nu se poate respinge ipoteza ca cele doua medicamente au avut proportii de substante active diferite doar din intamplare.5 ⎞ ⎜ 2 2 ⎟ = Φ⎜ P ( X ≤ 2) = Φ ⎜ ⎟ = Φ⎜ ⎜ 1.

peste 20 tigari/zi. Teste de omogenitate In unele situatii practice. Exemplu Consideram o clasificare a fumatorilor in ceea ce priveste numarul de tigari fumate si varsta. HA: cele 4 categorii de varsta nu sunt omogene in ceea ce priveste consumul de tigari. Calculam ca mai sus valorile “asteptate”: valoarea asteptata va fi produsul totalurilor marginale. daca populatiile sunt omogene sau echivalente si toate esantioanele provin din aceeasi populatie in ceea ce priveste consumul de Exemplu: in prima celula 225 . impartit la numarul total de subiecti. Presupunem ca am obtinut tabelul de mai jos: Nr. tigari 0-10 10-20 > 20 total Varsta (ani) 20-30 20 30 50 100 30-40 30 40 50 120 40-50 40 30 50 120 > 50 50 30 20 100 total 140 130 170 440 Deci vom considera ipotezele: H0: cele 4 categorii de varsta sunt omogene in ceea ce priveste consumul de tigari. 10-20. peste 50 ani si stabilim nivelele de fumatori 0-10. 100 ⋅140 = 31. De exemplu numarul de barbati si numarul de femei inrolati in studiu sau numarul de subiecti pe diferite categorii de varste. Fixam in prealabil numarul de subiecti din grupele de varsta 20-30. 40-50.8 etc .II. Daca vom testa nivelele efectului unui medicament clasificarea dupa acest criteriu va fi o variabila aleatoare. 440 Intr-adevar.16. numarul subiectilor pentru fiecare nivel al unuia din criterii este fixat dinainte.5. Problema pe care ne-o punem in acest caz este aceea a omogenitatii: sunt esantioanele omogene in raport cu un criteriu dat? Ipoteza nula in acest caz este aceea ca toate esantioanele provin dintr-o populatie omogena si deci frecventele in interiorul celor doua grupe nu difera semnificativ. 30-40. Statistica matematica si biostatistica Distributia binomiala 2.

a celor ce consuma mai putin de 10 tigari/zi este 100/440 acelasi pentru celelalte categorii de fumatori. 226 . Statistica matematica si biostatistica Distributia binomiala tigari.II. cea mai buna estimare a proportiei in totalul populatiei. Ne vom astepta in acest caz sa gasim de exemplu (100/440) ⋅ 140 fumatori 0-10 tigari in categoria de varsta 20-30 ani.

Greseala nu este de statistica ci apare din aceea ca loturile nu sunt omogene in ceea ce priveste provenienta din 227 . Studii cohort Studiile epidemiologice se ocupa de punerea in evidenta a unor factori (de exemplu fumatul) care cresc riscul de aparitie a unor boli – de exemplu cancerul pulmonar.II. a fiselor de observatii si a altor documente. retrospective – pe bolnavi.17. pe subiecti sanatosi. In astfel de studii retrospective se compara numarul bolnavilor care au fost expusi la un factor de risc cu numarul bolnavilor care nu au fost expusi. cu numarul bolnavilor care nu sunt fumatori. dar de fapt nu sunt. in limbile slave “gorod” – oras. se compara numarul bolnavilor de cancer pulmonar fumatori. Deci un studiu cohort indica faptul ca subiectii studiului sunt separati intr-un fel. Aparent celor doua tipuri de studii ar fi echivalente.17. Aceste studii prezinta dezavantajul ca necesita un timp indelungat pentru a fi efectuate.17.2. in engleza “yard” – curte. Studii case – report In locul studiilor prospective. Consideram urmatorul exemplu fictiv: se impart bolnavele de cancer de col uterin care au murit in primul an de la depistarea bolii – in doua categorii: • prima categorie cele cere au numele Maria sau Ileana • a doua categorie cele care au alte nume Rezultatul obtinut este acela ca numele Maria si Ileana creste semnificativ riscul de cancer. etc. pe baza rapoartelor de caz. In latina avem “hortus” – gradina. In contextul aceluiasi exemplu dat mai sus. In cazul bolilor rare numarul subiectilor ce ar trebui urmariti pentru a se ajunge la un numar de bolnavi care sa permita evaluari statistice demne de incredere ar trebui sa fie urias. in romana gard. pentru ca trebuie asteptat uneori un numar mare de ani. sau cazul celor care nu au fumat dar au fost expusi sistematic fumului de tigara. se poate recurge la alte studii. Rezultatul este evident fals. Un astfel de studiu se numeste studiu Cohort. studii “case – report”. controlate. Lucrurile sunt ceva mai complexe in cazul celor care au fumat o perioada de timp si apoi s-au lasat. ingraditi si urmariti. Radacina indoeuropeana “ghort” inseamna in esenta loc ingradit. Statistica matematica si biostatistica Aplicatii in epidemiologie 2. 2. APLICATII IN EPIDEMIOLOGIE 2.1. O abordare corecta a acestor studii trebuie sa se bazeze pe urmarirea in timp a doua loturi – unul expus la factorul considerat de risc si un lot martor care nu este expus factorului de risc.

foarte precara. noi nu expunem subiectii. Intr-un studiu prospectiv se poate urmari omogenitatea loturilor printr-o judicioasa stabilire a criteriilor de includere / excludere in / din studiu. ceea ce este mult mai dificil la un studiu preponderent “post – mortem”. Maria si Ileana sunt mai mult nume de la sate – acolo unde asistenta medicala este. ci consideram bolnavi. in case – study. Evaluarea prospectiva (studii cohort) si retrospectiva (case report) a riscului din cauza expunerii la un factor dat. se obtine: R = PD (E )[PD (NE )P (D ) + PND (NE )] [PD (E )P(D ) + PND (E )]PD (NE ) 228 . Statistica matematica si biostatistica Aplicatii in epidemiologie mediul rural si din orase. ne situam in cazul bolilor rare P (ND ) = 1 Pentru probabilitatea de aparitie a bolii la cei expusi folosim formula Bayes Riscul expunerii se defineste prin formula R = PD (E )P(D ) PD (E )P(D ) ≅ PD (E )P(D ) + PND (E )P( ND ) PD (E )P(D ) + PND (E ) si. D – disease = boala) Dar. la cei neexpusi: PE (D ) = PNE (D ) = PD (NE )P(D ) PD (NE )P (D ) ≅ PD (NE )P(D ) + PND (NE )P(ND ) PD (NE )P(D ) + PND (NE ) Inlocuind in raport se obtine R= PD (E )P(D )[PD (NE )P(D ) + PND (NE )] [PD (E )P(D ) + PND (E )]PD (NE )P(D ) si daca simplificam prin P(D ) .II. din pacate. Riscul expunerii. Depistarea bolii se face mai tarziu sau prea tarziu si tratamentul este si el “bolnav”.3. si obtinem: PD (•) Pentru simplificare.17. similar. Deci eveniment produs este boala. PE (D ) se evalueaza PNE (D ) intr-un studiu prospectiv si este definit ca raportul dintre probabilitatea imbolnavirii celor expusi si probabilitatea imbolnavirii celor neexpusi (E – expus. 2.

In aceasta situatie insa.II. Spre exemplu se considera proportia factorilor intr-un lot de bolnavi de cancer pulmonar si proportia fumatorilor intr-un lot din intreaga populatia. este o masura a riscului de imbolnavire al celor expusi. nu este fezabil datorita iesirii din studiu a foarte multi dintre subiecti. daca aproximam ca probabilitatea imbolnavirii este aproximativ zero ( P(D ) ≅ 0 ) si probabilitatea de neimbolnavire este aproape 1( P( ND ) ≅ 1 ). Raportul acestor proportii. PD ( E ) P ( E ) PND ( NE ) P ( NE ) = D OR = D PND ( E ) PD ( NE ) PND ( E ) PND ( NE ) In exemplul nostru: proportia fumatorilo r in populatia de bo ln avi OR = proportia fumatorilo r in populatia de sanatosi In cazul bolilor rare ar trebui determinat numarul de imbolnaviri intr-un lot expus comparativ cu un lot neexpus pe perioade foarte lungi ceea ce este foarte scump si. R= PD (E )[PD (NE )P(D ) + PND (NE )] PD (E )PD (NE )P(D ) + PD (E )PND (NE ) PD (E )PND (NE ) = = [PD (E )P(D ) + PND (E )]PD (NE ) PD (E )P(D )PD (NE ) + PND (E )PD (NE ) PND (E )PD (NE ) Si comparand cele doua rezultate am obtinut R ≅ OR 229 . Intradevar. riscul obtinum retrospectiv OR este o estimare a riscului din cauza expunerii – R. Statistica matematica si biostatistica Aplicatii in epidemiologie Riscul retrospectiv (“odds ratio”) Consideram raportul “defectelor . numit odds ratio. in general.odds ratio” OR care se obtine intr-un studiu retrospectiv (case-study): Rapoartele odds sunt rapoartele intre proportia celor expusi si proportia celor de neexpusi in populatia de bolnavi si respectiv acelasi raport in populatia de sanatosi.

II. Daca vom considera un lot testat si unul de referinta avem. dupa definitie: pC pT .OR) este intotdeauna pozitiv si rareori trece de 10. OC = unde C = control si T = testat OT = 1 − pT 1 − pC p (1 − pC ) p p O si ln OR = ln OT − ln OC = ln T − ln C OR = T = T 1 − pT 1 − pC OC pC (1 − pT ) Observam ca daca riscul nu difera in cele doua loturi. Intervalul de incredere pentru riscul relativ estimat retrospectiv (odds ratio) in studiile de control de caz Riscul relativ estimat retrospectiv (“odds ratio” . o estimare a lui OR se obtine din frecventa experimentala: pT 1 − pC x x unde pT = T si pC = C OR = nT nC pC 1 − pT ( ( ) ) Deoarece OR nu este normal distribuit se foloseste in practica ln OR In vederea obtinerii unei estimari a dispersiei lui ln OR aplicam asa zisa “metoda δ “ Metoda δ de calcul aproximativ a dispersiei unei functii f de variabila aleatoare x. OR = 1 ⇔ pT = pC . D ( f ( x ) ) prin dezvoltarea lui f in jurul lui μ : E ( f ( x ) ) = f ( μ ) + f ′ ( μ )( μ − μ ) D ( f ( x ) ) = E ⎡ f ( x ) − f ( μ ) ⎤ 2 = E ⎡( f ′ ( x ) ) ( x − μ ) ⎤ = ( f ′ ( x ) ) D ( x ) ⎣ ⎦ ⎣ ⎦ p vom avea: In cazul in care f ( p ) = ln 1− p 2 2 f ( x ) = f ( μ ) + f ′ ( μ )( x − μ ) 230 . Distributia sa de probabilitate nu este normala la marimile de esantioane obisnuite. Statistica matematica si biostatistica Aplicatii in epidemiologie 2. Transformarea logaritmica ln(OR ) este de obicei folosita pentru a duce la distributii aproximativ normale.4.17.

Human Genet. Calcularea marimilor esantionului pentru estimarea unui risc relativ intr-un studiu case – report. e ln (ORU ) unde ln(ORL ) si = ln(ORU ) sunt limitele inferioare si superioare ale lui ln(OR ) Observatie: Intervalul [ORL .II. ORU ] sau e ln (ORL ) .17. [ ] 2. cu o precizie data 1 Se doreste o eroare mai mica de ε Se poate face o estimare a numarului de subiecti in ipotezele: Esantioanele sa fie egale n1 = n2 = n • • Riscul relativ estimat este mai mare de 1. ORU ] nu este simetric fata de media riscului relativ estimat. 19.96 + + + a b c d Intervalul de incredere in scala originala de risc relativ estimat este prin urmare dat de [ORL . On estimating the relationship between blood group and disease. Statistica matematica si biostatistica Aplicatii in epidemiologie 2 ⎡ ′ ⎤ p 1− p) ⎛ p ⎞′ ⎢⎛ ln p ⎞ ⎥ * ( = D ( f ( p ) ) = ⎜ ln ⎟ D ( p ) = ⎢⎜ ⎟ n ⎝ 1− p ⎠ ⎝ 1− p ⎠ ⎥ ⎣ ⎦ ⎛1 1 ⎞ p (1 − p ) 1 =⎜ + = ⎟ * n np (1 − p ) ⎝ p 1− p ⎠ 2 Aplicand regula in cazul nostrum se obtine formula lui Woolf: 1 1 D ( ln ( OR ) ) = + = nT pT (1 − pT ) nC pC (1 − pC ) 1 ⎛ 1 1 ⎞ 1 ⎛ 1 1 ⎞ 1 1 1 1 + + ⎟= + + + ⎜ ⎟+ ⎜ nT ⎝ pT 1 − pT ⎠ nC ⎝ pC 1 − pC ⎠ a b c d Intervalul de incredere Intervalul de incredere de 95% este egal cu: 1 1 1 1 ln(OR ) ± 1.5. ˆ ORL − OR W ε= = L OR OR 1 Woolf B. 251-3.. 1955 231 .

II. ⎧ ⎨ z1− α n=⎩ 2 ⎧ ⎨ z1− α n=⎩ 2 ⎫ [2 P2 (1 − P2 )] + z1−β [P1 (1 − P1 ) + P2 (1 − P2 )]⎬ ⎭ 2 (P1 − P2 ) 2 [ ( )] 2 232 . Calcularea marimii esantioanelor pentru testarea ipotezelor privind riscul relativ estimat retrospectiv (OR) Ipoteza nula este de obicei H 0 : OR = 1 Aceasta este echivalenta cu H 0 : P1 = P2 si ipoteza alternativa este H A : P1 ≠ P2 Prin urmare. se poate folosi aceeasi abordare ca cea folosita la testarea ipotezei H 0 : P1 = P2 vs H A : P1 − P2 = Δ Formula corespunzatoare este: ⎫ 2 P 1 − P + z1− β [P1 (1 − P1 ) + P2 (1 − P2 )]⎬ ⎭ . In acest caz este folosita expresia modificata. Statistica matematica si biostatistica Aplicatii in epidemiologie ˆ ⇒ ε * OR = OR − OR L = W L = e ln (OR ) − e ln (ORL ) = =e ln (OR ) −e α 2 ⎧ ⎫ ⎪ ⎪ ⎨ ln (OR )− z α *SE [ln (OR )]⎬ 1− ⎪ ⎪ ⎩ ⎭ 2 = OR − OR * e α 2 ⎡ ⎤ ⎢ − z α *SE [ln (OR )]⎥ ⎢ 1− 2 ⎥ ⎣ ⎦ ln (1 − ε ) = − z 1− * SE [ln (OR )] = − z 1− ⎧1 ⎡ ⎤⎫ 1 1 * ⎨ ⎢ + ⎥⎬ ⎩ n ⎣ P1 (1 − P1 ) P2 (1 − P2 ) ⎦ ⎭ Rezolvand obtinem: ⎡ ⎤ 1 1 + z2 α ⎢ ⎥ 1− P (1 − P1 ) P2 (1 − P2 ) ⎦ 2 ⎣ 1 n= [ln(1 − ε )]2 2. unde P = P1 + P2 2 2 (P1 − P2 ) In studiile de control a cazului.6. pentru a calcula marimea esantioanelor necesare pentru testarea ipotezelor privind riscul relativ estimat retrospectiv.17. P2 .rata de expunere de control este de obicei cunoscuta cu o precizie mare.

Woolf a ajuns la conceptul de odds ratio pornind de la studiul datelor din literatură medicală referitoare la predispoziţia către anumite boli existentă la anumite grupe sanguine. Roberts JAF: The relationship between cancer of stomach and the ABO blood groups. Statistica matematica si biostatistica Aplicatii in epidemiologie 2. 799. 1. de exemplu 9:1 B+ (bolnavi cu cancer gastric) 180 (a) 10 (c) 190 B(control) 9000 (b) 1000 (d) 10.17.1667 3 2 Consideram ca proportiile de 1% si 2% sunt adevarate si in cazul in care lotul de control include cele doua grupuri de sange in alt raport decat 1:1. 1953 233 .000 Grupa sangvina A Grupa sangvina O 2 Aird I. Originea conceptului OR (Odds Ratio) propusă de către Woolf. Brit Med J. pentru un lot de 5000 subiecti cu grupa A si 5000 de subiecti cu grupa 0 s-ar obtine rezultatele: B+ (bolnavi cu cancer gastric) 100 (a) 50 (c) 150 B(control) 5000 (b) 5000 (d) 10.7.000 p (Procent de boala in grupa) 2% 1% Grupa sangvina A Grupa sangvina 0 Total Consideram in continuare un studiu “retrospective” si calculam: • p1 proporţia celor cu grupa A în lotul de bolnavi: 100 2 = p1 = 150 3 p2 proporţia celor cu grupa A în lotul control: • 5000 1 p2 = = 10000 2 Avem: 2 1 p1 − p2 = − = 0. Mai mulţi cercetători au evidenţiat 2 că există o predispoziţie către cancerul gastric la subiecţii cu grupa sangvină A şi o predispoziţie către ulcerul peptic la cei cu grupa sangvina 0 . Pentru cancer frecventele sunt de 2% si respectiv 1% si deci.II. Bentall HH.

În cazul bolilor rare. Şi totuşi. şi în cazul în care există 9000 de subiecţi cu grupa A si respectiv 1000 de subiecţi cu grupa 0 se obtine un rezultat mult diferit de primul caz. În aceste condiţii el a propus înlocuirea testului de comparare a celor două proporţii aşa cum s-a enuţtat. dacă n-ar exista o predispoziţie pentru cancer de stomac la cei cu grupa A. El a arătat deci. dupa cum s-a aratat mai sus. cu compararea raportului ratelor de incidenţă 100/5000 şi 50/5000. Woolf a observat deci că diferenţa între cele două proporţii depinde de numărul de subiecţi cu grupa A şi cu grupa 0 din lotul de control. Ratele de incidenţă reprezintă proporţiile de bolnavi în cadrul grupei sangvine A (a/b) şi proporţia de bolnavi din cadrul grupei sangvine 0 (c/d): a ad OR = c = b bc d Pentru compararea ratelor de incidenta. după cum se poate observa. Rezultatele sunt foarte diferite în condiţiile în care proporţia de bolnavi în cele două grupe rămân constante 2% şi 1%. chiar dacă rata specifică de atac în interiorul unui grup sangvin dat rămane constantă.II. OR redă o estimare destul de precisă a riscului relativ (RR). cele două proporţii ar trebui să fie egale. 234 . Statistica matematica si biostatistica Aplicatii in epidemiologie In acest caz : 180 9000 p1 − p2 = − = 0. că dacă de exemplu în lotul de control avem 5000 de subiecţi cu grupa A. si 5000 de subiecţi cu grupa 0 se obţine un rezultat. cele două proporţii din exemplul de mai sus diferă semnificativ.. Acesta este un exemplu în care intuiţia sau logica convenţională ne poate induce în eroare şi în care metodele statistice ne pot veni în ajutor. se testează ipotezele: H 0 : OR = 1 vs H1 : OR ≠ 1 În studiile case-control (caz martor) OR (Odds Ratio) măsoară asocierea dintre o expunere şi riscul de dezvoltare a unei boli. deci diferă de la un studiu clinic la altul. 047 190 10000 Intuitiv.

.... K .............. este natural sa reunim loturile si sa facem calculele pentru populatia reunita... Haenszel W............ j ........ Daca insa nu putem presupune acest lucru.......... unde ni = ai + bi + ci + di ⎛ bi c ⎞ ∑⎜ n i ⎟ i =1 ⎝ i ⎠ Strat / Studii 1 Cazuri Expusi Neexpusi Total .. Statistical aspects of the analysis of data from retrospective studies of disease.. aj cj m1 j ...... bj dj m0 j .........17........... Deoarece Ψ i = ai d i si deci ai di = bi ci Ψ i ..... avem: bi ci 3 Mantel N... 22:719-748 235 . Statistica matematica si biostatistica Aplicatii in epidemiologie 2.... b1 d1 m01 . n11 n01 n1 ... n1 j n0 j nj ..... aK cK m1K bK dK m0K n1K n0K nK Notam ORi = Ψ i . JNCI 1959..8..........II.. Expusi Neexpusi Total ...... Expusi Neexpusi Total Control Total a1 c1 m11 .... de exemplu unul pe femei si unul pe barbati....Metoda Mantel-Haenszel este folosită pentru a estima „pooled odds ratio” din mai multe straturi sau mai multe studii similare: k ⎛ ai d ⎞ ∑⎜ n i ⎟ i =1 OR MH = k ⎝ i ⎠ ............ Metoda Mantel-Haenszel de calcularea OR in studii casecontrol stratificate 3 Cand avem mai multe studii clinice epidemiologice.. o metoda alternativa de calcul este metoda Mantel-Haenszel ... in ipoteza ca nu exista diferente semnificative intre cele doua sexe in ceea ce priveste riscul unei anumite boli induse de un factor de risc dat..........

Silocks. 2. Statistica matematica si biostatistica Aplicatii in epidemiologie OR = Ψ MH ai di bi c bi ci Ψi ∑ n i Ψi ni ni i = = =∑ = wΨ . Greendland variance estimation. ∑ bi ci ni poate fi interpretata ca ponderea componentei Ψ i in bjc j nj Facem observatia ca ponderile wi sunt in fapt estimari ale inversului dispersiilor componentelor Ψ i .epiperspectives. aplicand metoda verosimilitatii maxime se poate arata ca 4 dispersia lui ORMH se calculează conform ecuaţiei: K ⎛b c K a d a j + d j bj + c j a j d j ⎞ a +d j j j ∑ n j * j n j ∑⎜ nj * nj + nj * nj ⎟ ⎜ ⎟ j =1 j =1 j j ⎠+ + ⎝ D ln OR MH = 2 K a d ⎞⎛ K b c ⎞ ⎛ ⎛ K ad ⎞ 2⎜ ∑ j j ⎟⎜ ∑ j j ⎟ 2⎜ ∑ j j ⎟ ⎜ j =1 n ⎟ ⎜ j =1 n ⎟ ⎜ j =1 n ⎟ j ⎠⎝ j ⎠ ⎝ j ⎠ ⎝ ( ( K )) + ∑ bjc j bj + c j * nj j =1 n j ⎛ K bc 2⎜ ∑ j j ⎜ j =1 n j ⎝ ⎞ ⎟ ⎟ ⎠ 2 Intervalul de încredere se poate obţine folosind ecuaţia: ⎛ ⎞ OR MH exp ⎜ ± zα D log OR MH ⎟ ⎝ 2 ⎠ ( ( )) 4 P. bi ci bi ci bjc j ∑ i i ∑n ∑n ∑n i i j j ∑ unde wi = suma. In anumite conditii restrictive.com/content/2/110) 236 . 2005 (http:www. Epid. An easy approad to the Robins – Breslow. Perspectives & Innov.II.

7 47.3 1*36.II.7 Total 11 100 111 Bărbaţi Pacienţi cu Leucoplakie localizare mucoasă obraji Control (bărbaţi populaţie Olanda) Total Fumători 11 36.7 11*63. Statistica matematica si biostatistica Aplicatii in epidemiologie Exemplu .3 + + n1 n2 111 112 = 5. 7 d 2 = 63.3 64. 7 n1 = 111 a2 = 11 b2 = 1 c2 = 36.3 Nefumătoare 5 69.3 d1 = 69.7 + + 111 112 n1 n2 OR MH deci riscul la nivelul intregii populatii este de circa 6 ori mai mare in cazul fumatorilor decat in cazul nefumatorior .3 n2 = 112 In cazul nostru obtinem: a1d1 a2 d 2 6*69. 237 .7 Nefumători 1 63.9 = = b1c1 b2 c2 5*30.3 Total 11 100 112 Vom aplica relatia OR MH ⎛ ai di ⎞ ⎟ n i =1 = k ⎝ i ⎠ in care avem: ⎛ bi c ⎞ ∑⎜ n i ⎟ i =1 ⎝ i ⎠ ∑⎜ k a1 = 6 b1 = 5 c1 = 30.3 36.7 74. Consideram rezultate dintr-un studiu privind incidenta cancerelor de gura efectuat in Olanda Femei Paciente cu Leucoplakie localizare mucoasă obraji Control (femei populaţie Olanda) Total Fumătoare 6 30.

4015 0.4608 0.4993 239 .4857 0.3340 0.1736 0.1331 0.1103 0.4147 0.1772 0.4967 0.4834 0.1368 0.4990 0.4292 0.4982 0.0398 0.2910 0.4750 0.1808 0.4474 0.0675 0.1406 0.4976 0.4984 0.3830 0.4973 0.4732 0.3749 0.3 0.3264 0.4032 0.6 1.3962 0.4699 0.TABELE STATISTICE Tabele pentru z z 0.0199 0.0793 0.4989 0.0000 0.4977 0.4808 0.3051 0.2734 0.1554 0.2939 0.4767 0.3159 0.4898 0.3023 0.4960 0.4927 0.6 0.4875 0.4987 0.4177 0.4861 0.3212 0.4495 0.4934 0.4988 0.0080 0.3438 0.4881 0.4918 0.4641 0.3599 0.3925 0.2454 0.2823 0.1 2.4429 0.4966 0.2673 0.4306 0.2224 0.4878 0.3531 0.8 0.4726 0.4970 0.4345 0.3 2.4949 0.1700 0.4936 0.7 1.4961 0.4991 4 0.4756 0.4686 0.4319 0.3770 0.3643 0.3078 0.2486 0.4959 0.1480 0.4987 0.4990 0.4573 0.4463 0.4066 0.3315 0.4826 0.4772 0.1443 0.4948 0.4893 0.4236 0.4993 9 0.4971 0.2088 0.3708 0.2422 0.1293 0.4890 0.4989 0.2852 0.4251 0.4956 0.4887 0.7 2.4922 0.2764 0.4830 0.4977 0.0557 0.0 0.4963 0.1950 0.4957 0.0910 0.4761 0.4979 0.1026 0.4962 0.1591 0.2642 0.3485 0.4452 0.4817 0.4706 0.8 1.4864 0.2157 0.2190 0.4207 0.0636 0.4868 0.4162 0.4920 0.4979 0.4545 0.4719 0.4909 0.4974 0.4 1.2324 0.4625 0.3790 0.4972 0.0 1.4992 6 0.4913 0.0754 0.3413 0.4382 0.3106 0.0714 0.4964 0.4357 0.2 0.4842 0.0948 0.4931 0.4441 0.4984 0.4656 0.4896 0.0160 0.4955 0.4981 0.3389 0.1985 0.4812 0.0871 0.5 1.4115 0.3686 0.2612 0.4932 0.4965 0.4904 0.4838 0.1 1.4929 0.2389 0.0120 0.4279 0.4901 0.0596 0.4978 0.1517 0.3997 0.4985 0.0 3.3461 0.1879 0.3365 0.3729 0.3888 0.4591 0.4980 0.4854 0.0987 0.4678 0.4951 0.2357 0.5 0.4846 0.4649 0.2549 0.8 2.0832 0.2881 0.4370 0.4082 0.2996 0.4945 0.9 1.2 1.0 2.3621 0.4871 0.1628 0.4986 0.0319 0.4099 0.4582 0.3980 0.4991 3 0.4850 0.3665 0.4987 0.1844 0.4953 0.4664 0.3238 0.4554 0.4940 0.2967 0.3186 0.4778 0.6 2.1 0.4983 0.2258 0.9 3.4616 0.3577 0.4982 0.4418 0.4738 0.0478 0.4803 0.4713 0.1915 0.4916 0.3554 0.4406 0.2123 0.4 2.4968 0.0279 0.4788 0.4222 0.4941 0.4 0.3810 0.4192 0.7 0.1141 0.4671 0.4693 0.4599 0.3907 0.4992 7 0.1217 0.4564 0.4986 0.4938 0.4946 0.4992 5 0.4332 0.5 2.4975 0.2580 0.4906 0.4911 0.4925 0.4884 0.3944 0.4991 2 0.4505 0.1664 0.2291 0.4981 0.3869 0.2794 0.2518 0.0359 0.2 2.0239 0.4952 0.9 2.4943 0.4525 0.4821 0.4639 0.4515 0.4394 0.4535 0.3289 0.0438 0.4985 0.3508 0.0517 0.3133 0.4793 0.4484 0.4131 0.2704 0.4990 1 0.4265 0.4783 0.1 0 0.4989 0.4974 0.1179 0.4969 0.4992 8 0.0040 0.4988 0.3 1.3849 0.4744 0.2054 0.4049 0.1255 0.4798 0.1064 0.2019 0.

4999 0.4999 0.4995 0.5000 0.4999 0.4998 0.4997 0.4997 0.4998 0.7 3.4 3.4999 0.4996 0.5000 0.4999 0.4999 0.4994 0.2 3.4999 0.4999 0.5000 240 .5 3.4999 0.4999 0.4997 0.5000 0.4999 0.4999 0.4993 0.4999 0.4997 0.4997 0.4998 0.4999 0.4999 0.4997 0.5000 0.4994 0.4999 0.4999 0.4996 0.4998 0.4997 0.4995 0.4999 0.5000 0.4999 0.9 0.4999 0.4998 0.5000 0.4996 0.4995 0.4998 0.4998 0.5000 0.4998 0.4998 0.4998 0.4997 0.4999 0.4999 0.TABELE STATISTICE 3.4996 0.4997 0.4995 0.8 3.4994 0.4999 0.6 3.5000 0.5000 0.4995 0.4998 0.4998 0.4999 0.4998 0.4996 0.4997 0.4999 0.3 3.4999 0.4994 0.4994 0.4996 0.4995 0.4999 0.4993 0.4999 0.

74 1.855 0.684 0.40 1.617 0.848 0.906 0.71 3.858 0.142 0.260 0.79 2.76 2.689 0.07 2.851 0.31 1.727 0.07 2.127 0.537 0.325 0.54 3.18 2.257 0.13 2.78 1.80 1.77 2.08 2.679 0.75 1.33 1.11 3.42 1.857 0.271 0.527 0.539 0.89 1.53 1.259 0.18 2.127 0.06 3.09 2.530 0.532 0.684 0.126 t 0 .703 0.14 3.584 0.76 2.683 0.37 1.681 0.38 1.883 0.23 2.535 0.30 1.35 2.30 1.17 3.55 0.73 1.862 0.32 1.06 2.62 2.685 0.71 4.48 2.90 1.32 1.55 2.256 0.865 0.98 2.127 0.71 1.44 1.29 1.52 2.82 2.941 0.257 0.39 2.31 1.727 0.68 2.531 0.60 4.128 0.132 0.126 0.71 1.683 0.842 t 0 .03 3.70 1.130 0.257 0.256 0.129 0.60 2.674 t 0 .47 2.856 0.36 1.36 3.48 2.873 0.861 0.16 2.128 0.04 2.559 0.28 t 0 .78 2.50 2.86 1.31 2.70 1.66 2.32 1.05 2.686 0.532 0.82 6.126 0.75 3.531 0.845 0.265 0.540 0.14 2.34 1.83 2.75 1.718 0.816 0.92 2.531 0.90 3.260 0.688 0.84 4.84 2.683 0.33 t 0.277 0.02 2.130 0.533 0.128 0.536 0.975 12.854 0.543 0.870 0.532 0.46 2.534 0.131 0.261 0.73 1.25 3.80 2.128 0.533 0. 70 0.30 3.856 0.58 ∞ 241 .134 0.257 0.741 0.538 0.255 0.13 2.129 0.858 0.158 0.262 0.000 0.688 0.72 1.00 2.46 2.72 1.697 0.258 0.978 0.376 1.11 2.57 2.TABELE STATISTICE Tabele pentru t ν 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 t 0 .686 0.31 2.257 0.12 2.53 2.549 0.530 0.127 0.127 0.254 0.695 0.127 0.65 2.45 2.68 1.524 t 0 .691 0.256 0.99 31.127 0.765 0.684 0.127 0.889 0.129 0.34 1.58 2.20 2.259 0.05 2.256 0.128 0.64 1.92 2.879 0.78 2.72 1.256 0.854 0.32 1.863 0. 60 0.81 1.88 2.32 1.127 0.42 2.896 0.542 0.10 2.258 0.70 1.35 1.50 3.267 0.04 2.256 0.289 0.137 0.31 1.256 0. 75 1.694 0.690 0.256 0.061 0.54 2.75 2.72 2.920 0.80 1.81 2.02 1.57 2.685 0.36 2.127 0.127 0.26 2.253 t 0 .01 2.33 1.127 0.33 1.92 5.96 t 0 .36 3.71 1.127 0.254 0.263 0.66 9.258 0.00 1.32 1.08 1.569 0.48 1.86 2.126 0.530 0.94 1.687 0.36 1.06 2.526 0.90 2.32 1.876 0.256 0.128 0.95 6.67 1.700 0.70 2.06 2.95 2.71 1.534 0.47 2.860 0.868 0.711 0.866 0.82 2.09 2.36 2.49 2.51 2.96 4.859 0.90 2.76 2.692 0.553 0.706 0.31 1.855 0.531 0.995 63.70 1.76 1.529 0.77 1.645 t 0.546 0.34 1.83 1.66 1.677 0.98 1.62 2.

08 1.81 2.41 2.70 2.10 2.67 4.39 2.34 2.90 2.4 8.57 2.24 2.42 2.53 2.51 2.59 3.83 2.59 2.29 3.00 216 19.60 2.20 3.81 6.49 2.41 4.26 3.88 4.74 4.78 2.21 4.99 5.60 2.25 2.29 3.74 4.26 4.07 3.71 3.25 2.95 ν1 ν2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 1 2 3 4 5 6 7 8 9 10 ∞ 161 18.35 4.4 8.05 4.31 2.79 5.18 3.63 3.26 4.74 3.04 4.71 6.68 2.28 2.80 2.21 234 19.49 2.68 3.02 2.98 3.71 2.14 3.53 2.94 6.14 4.88 242 19.80 2.11 3.01 2.91 1.75 4.92 2.28 4.06 3.96 2.74 2.30 4.46 2.16 3.24 2.54 4.86 3.77 2.82 4.54 2.10 237 19.19 4.4 8.19 2.59 3.16 2.37 3.87 2.54 2.59 2.37 3.07 3.77 4.48 2.61 2.76 2.76 4.69 3.74 2.18 2.01 2.08 4.79 2.42 2.99 1.39 3.27 2.57 2.09 4.09 2.4 8.36 2.96 2.95 2.1 7.76 2.52 3.35 2.01 2.12 6.21 3.20 3.34 2.32 5.32 2.5 10.85 2.23 3.84 3.91 2.44 2.06 3.34 2.46 2.71 2.49 4.12 2.42 3.4 8.09 3.53 4.37 2.75 2.55 6.53 2.99 2.73 3.58 3.44 3.22 2.85 2.41 3.34 3.02 1.45 2.45 2.2 9.05 3.12 4.55 2.35 3.00 4.55 2.93 2.42 2.50 3.44 3.0 9.27 2.67 2.33 3.48 3.59 2.22 2.24 3.85 2.59 5.41 4.07 2.07 3.26 5.04 1.10 3.17 4.18 4.60 2.45 2.55 3.96 4.23 4.30 2.39 5.61 5.20 4.25 2.22 3.01 239 19.84 4.32 2.92 3.28 3.30 2.43 2.3 9.95 4.15 3.40 2.29 2.82 2.49 2.18 2.70 2.90 2.36 2.36 3.39 3.77 2.32 4.35 3.38 4.66 2.33 2.95 2.10 3.32 3.71 2.49 3.64 3.03 3.24 4.64 2.12 3.03 2.45 2.25 2.89 3.21 2.55 2.38 2.58 2.20 2.70 2.98 2.84 2.62 2.28 2.66 2.69 2.97 3.51 2.39 2.85 2.37 230 19.59 5.94 5.17 2.79 5.27 2.92 2.37 2.87 3.23 3.46 4.85 6.15 3.33 3.56 2.60 4.46 2.37 2.35 2.81 3.00 2.68 2.01 6.74 2.63 2.90 2.49 2.71 2.11 3.28 6.39 3.96 1.10 3.48 3.60 225 19.49 3.51 2.37 2.43 3.63 3.3 9.47 2.76 2.35 4.40 2.18 2.94 241 19.96 4.64 2.66 2.40 3.65 2.61 2.79 3.84 200 19.84 2.29 2.TABELE STATISTICE Tabele pentru F0.89 6.83 243 .14 2.32 2.73 2.68 3.93 2.98 2.45 2.45 4.18 3.47 3.42 2.00 3.54 2.16 4.96 2.13 3.

70 1.13 2.07 2.69 2.87 1.20 2.97 2.67 1.58 2.75 4.25 1.30 2.91 4.49 2.60 2.84 1.5 8.5 8.27 2.06 2.07 2.70 3.47 1.5 8.81 1.65 1.85 1.12 2.74 1.50 1.01 1.55 5.16 2.35 2.11 2.74 5.53 5.94 1.53 3.81 1.62 5.5 8.51 1.18 2.84 1.18 2.92 1.61 1.96 1.58 1.34 2.59 5.22 3.85 1.93 1.75 246 19.01 1.98 1.18 2.31 2.15 2.42 2.32 253 19.77 3.07 2.79 2.78 1.91 1.66 1.01 1.95 1.16 2.40 2.87 1.46 3.65 2.19 2.10 2.24 2.92 1.98 1.15 2.66 4.98 1.4 8.90 1.29 2.87 1.48 2.01 2.71 1.00 3.92 1.50 3.47 2.77 1.28 2.92 1.13 2.53 2.23 2.91 2.41 3.46 2.62 3.23 2.34 2.04 2.82 1.19 2.07 2.97 1.55 1.94 1.13 2.59 1.71 2.70 1.38 2.10 2.10 2.86 1.38 3.72 4.61 2.76 1.39 1.88 1.75 1.73 1.72 2.34 3.43 2.75 2.62 2.04 2.20 2.03 2.38 2.92 1.82 1.03 2.40 2.38 2.06 2.15 2.79 1.56 3.77 1.12 2.23 2.51 2.05 2.64 1.81 1.33 2.4 8.94 3.97 1.99 1.86 4.77 4.74 3.12 2.62 1.51 3.64 5.15 2.54 2.09 2.27 2.39 2.20 2.64 1.79 1.01 1.67 248 19.TABELE STATISTICE ν1 ν2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 12 15 20 24 30 40 60 120 ∞ 254 19.90 1.19 2.11 2.83 2.01 2.27 2.65 1.43 1.15 2.84 1.69 4.96 1.31 2.79 1.94 1.08 2.88 1.57 3.53 2.84 3.5 8.28 2.21 2.31 2.34 2.03 1.84 1.74 1.01 1.30 3.67 3.83 1.89 1.70 5.68 4.42 2.66 2.75 1.06 2.75 1.02 1.44 3.05 2.94 2.06 2.09 2.84 1.93 1.89 1.37 3.90 2.57 5.84 1.70 2.30 2.71 1.80 4.16 2.22 2.77 2.40 3.85 2.5 8.73 1.89 1.00 ∞ 244 19.96 1.96 1.79 1.15 2.25 2.25 2.53 1.28 3.01 1.90 1.87 3.53 2.91 1.86 2.79 2.74 2.22 244 .46 2.95 1.35 1.62 2.43 3.66 5.5 8.84 1.68 1.25 2.96 1.00 1.69 1.75 1.11 2.39 252 19.80 1.57 249 19.54 2.81 3.08 2.04 2.11 2.11 2.93 1.07 2.23 2.35 2.57 2.93 2.63 4.45 2.03 2.52 250 19.69 1.99 1.46 251 19.

119 27.364 40.690 2.483 21.932 40.026 22.642 46.990 6.120 13.488 11.404 5.526 32.816 4.076 39.023 20.979 0.113 41.216 0.TABELE STATISTICE Tabele χ 2 Numar grade de libertate 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 Aria 0.923 43.401 13.067 15.484 0.086 16.566 38.071 12.217 27.409 34.700 3.247 3.666 23.090 21.736 26.992 7.262 6.963 48.345 13.173 36.688 29.191 37.722 46.143 12.307 19.920 23.815 9.869 30.362 23.210 11.180 2.013 17.725 26.378 9.337 24.231 8.410 32.191 31.308 16.144 31.025 0 0.685 24.980 44.689 12.000 33.289 41.588 50.337 42.982 11.348 11.885 40.950 3.314 45.924 35.675 21.557 43.671 33.488 28.907 9.773 0.791 0.844 14.805 36.629 6.195 44.647 41.461 45.996 26.278 49.277 15.591 10.635 9.170 35.587 28.479 36.638 42.535 19.564 8.833 14.415 37.237 1.592 14.831 1.845 30.141 30.283 10.047 16.024 7.449 16.475 20.507 16.812 18.209 24.919 18.573 15.009 5.0501 0.908 7.578 32.975 5.852 34.892 245 .296 27.842 5.653 38.781 38.

(1990) Probabilité.. I. Ed.H. Pharm. Welling. ed. tse. Non parametric statistical methods. United States Pharmacopoeia.. Bolton. J. Am. Mihoc.L. Metzler: Statistical criteria. Bucuresti. F. Paris. S. Tratarea statstica a datelor chimico – analitice. Postelnicu. Statistical Theory and metodology in Science and Engineering. 1960 10. Dunod. Statistical Procedures for Bioequivalence Studies Using a Standard Two – treatment Crossover design. New – York. Teodorescu. J. Mark publ. Tehnica. Curs de biomatematica. M. M. Utilizarea statisticii matematice in chimia analitica. Ed. 1973 5. Tehnica. 1966 17. Dighe. Bucuresti. & Liu. New York. . New – York. Hollander. 1972.Allen Wallis: Use of ranks in one-criterion analysis of variance. Wolfe DA. Bucuresti.S. D. 1995 18. R. J. Ed. Bucuresti. Bucureşti.583-621. Easton. 15) [2]. Ceausescu.Westlake: Use of confidence intervals in analysis of comparative biovalability trials. Paris. Tehnica. Gremy. P. K. Sci. C.Wiley.47. Tehnica. in Remington: The Science and Practice of Pharmacy.Kruskal. Ecologica. Saporta. 9.180-83. Chow. Spiegel. W. Wiley. J. S. Ed. D. Iosifescu. Biometrics Bul. 1969 13. McGraw – Hill. 3. 4) [3]. cap. Non parametric statistical methods.Wiley.1947 3. 61 (8). Technip (cap. G. C. T. 8. 1991 247 . Statistics. J. Marcel Dekker (cap. 7. Hollander. Teoria probabilitatilor si statistica matematica. Probability and statistique.Brownlee. Univ.C. 3) [1]. 1973 11. (1970) Analiză dispersională. Tiron.P.1952 4. New York. M. Dekker. Analyse des données et statistique. Tehnică (cap. Stat. Ceausescu. Salmon.A. 1980 15. Ed. cap. J. 1973 6. teoria erorilor de masurare si metoda celor mai mici patrate. Iosifescu. M. F. S. 1980 14. Bucuresti. Vaduva. Assoc. Wolfe DA. R. Pennsylvania. F. New – York. Gh. Ed. Bases statistiques pur la recherchemedicale et biologique. 1990 16. W. 9 – th ed.J. XXIII. W. M. 1340 – 1. (1992) Design and analysis of bioavailability and bioequivalence studies.M.. Pharmaceutical Bioequivalence. 2. New York.Wilcoxon: Individual comparisons by ranking methods. 1995 19.BIBLIOGRAFIE 1. 1972 12.. D.

Thyroff – Friesinger.. Marty.Westlake: Use of confidence intervals in analysis of comparative biovalability trials. Marzo. . September. Chow. London. 19 24. Mircioiu: „Mathematical variability” in pharmacokinetics. Am. C. C. J. A. abstract 371 29. Voicu. Rescigno. V. 1990 21. 1972 32.Clin.Am. 28(3).0463 (math. 105 – 110.Kruskal. Open questions in bioequivalence.C. 1973 248 .. U.W. 72 (suppl. Assoc. A new measure of bioequivalence. 1992 23.583-621. ar Xiv:0901. E. june 1995. W. Zhang Z.BIBLIOGRAFIE 20. Study of bioequivalence metrics. Toxicol. 6-th Europ. Europ.Wiley. (special issue). Raven Press. Choi L. J. J. 27-30. J. 1994 27. J.Wallis. Lauro. solutions of pharmacokinetics models for some lipophilic drugs. Variability and Drug Therapy: Description.P. Caffo B. Congress of Biopharmaceutics and Pharmacokinetics. A Marzo. A survey of the likelihood approach to bioequivalence trials. Hauschke. Milano.Allen Wallis: Use of ranks in one-criterion analysis of variance.47. M.H.. New York. S. J.. Paris 28.1947 33. 22-24 April 1996. Pharmacokin. Mircioiu. Physiol. Sci. A law of Likelihood for composite hypotheses.. Stat. D. C.Wilcoxon: Individual comparisons by ranking methods. W. aprilie 1997 26. Update on the statistical analysis of bioequivalence studies.. F. 1340 – 1. poster nr. Pharm. Ther. 4874 – 4894 30. 27 (2008). Use of ranks in the one – criterion analysis of variance. W. Int. V. J.J. Voicu: Degenerated. Pharmacol.. A. H-l Chabard. Non parametric statistical methods. 1995.47. 305. Rohde C. ST) 31. 1 –st European Congress of Pharmacology. Jiquidi: Mathematical algoritms and computer programs as source of variability in population drugs. Rowland (ed). 1-st Congress of the European Association for Clinical Pharmacology and Therapeutics. J-M Aiache. Design and Analysis of Biovailability and Bioequivalence Studies.Stat. 1985 22.1). Dekker. Canad. Hollander. Estimation and Control.180-83. Mircioiu. M. Drug Metab. M. J.1952 35. Atena. poster nr.Assoc.Liu.Steinijans. Wolfe DA.A. W. Beyssac.583-621. New York.Kruskal. 1 –st European Congress of Pharmacology. Statistics in Medicine.1952 34. Milano. V.H. W. 61 (8). Atena. 6-th European Biopharmaceutics and Pharmacokinetics. New York. 18 25. C. Biometrics Bul.Pharmacol.. june 1995.

21. On estimating the relationship between blood group and disease. Ed. 19. 1953 45. Peter R. Biometric. Sam H. Octomber 24th-26th. Statistical aspects of the analysis of data from retrospective studies of disease. The American Journal of Cardiology. New York. Perspectives & Innov. 2.Voicu.. P. An easy approad to the Robins – Breslow. 2007 249 . Bucuresti. Biopharmaceutics Applications in Drug Development. Biometrics.Silocks.A. may 1. 1974 40. 1. C. 85. Woolf B. Biointernational 2005. Mantel N. 2000 43. 209-317. 1965 39. Epid. Salim Yusuf: Overview of Result of Randomized Clinical Trials in Heart Disease. 1958 37. 2005 (http:www. James A. Hyojong (Hue) Kwon. 1988 42.A.. Aird I.E. London 38. Universitara Carol Davila. V.Fischer. Drugs with active metabolites. Roberts JAF: The relationship between cancer of stomach and the ABO blood groups. Mircioiu. Haenszel W. Statistical Methods for Research Works.Metzler.BIBLIOGRAFIE 36. Bioavailabity: a problem of equivalence. Kowey. 1955 44. Difficulties in applying BE rules. Primary Prevention with Aspirin and Risk Factor Modification. 30. Bentall HH. Reiffel. Human Genet. II. JNCI 1959. C. Robert Lionberger and Lawrence Yu. 2259-2263. vol. Grizzle.Mircioiu. 13-th Editions. Generic Antiarrythmics Are Not Therapeutically Equivalence for the Treatment of Tachyarrhythmias.com/content/2/110) 47. Haidar. JAMA 260 (15). 22:719-748 46. 467-480. Statistica aplicata in farmacie si studii clinice. Two period change-over design and its use in clinical trials. Greendland variance estimation. Brit Med J. 1999 41. 251-3. JAMA 282: 1995.epiperspectives. Hafner. 799. R. J. C. Unstable Angina. Heart Failure. J. Henney.

4.1. 1.M. 2.3.1.6.1.CUPRINS I.1.2.2. 1.Fisher – Snedecor) sau distribuţia raportului a două dispersii STATISTICA MATEMATICA SI BIOSTATISTICA Teorema limita centrala (A.4.2.2.7. 1. 1.3. 1.4.1.4.4.1.4.2. 1. 2. 1. 1.3.2. 1.3.4.4.1. ELEMENTE DE TEORIA PROBABILITATILOR Campuri de probabilitate Corp borelian Spatii masurabile Probabilitate Probabilitate conditionata Formula probabilitatii cauzelor (Bayes) Variabile aleatoare Definitie Operatii cu variabile aleatoare Functia de repartitie Densitatea de repartitie Valoarea medie Dispersia Inegalitatea lui Cebasev Teorema lui Bernoulli (legea numerelor mari) Distributii de probabilitate Distributia normala Distributia binomiala Distributia Poisson Aproximarea normala a distributiei binomiale Repartitia χ2 Helmert .3.3.2.Pearson Repartitia STUDENT Repartiţia F (Behrens . 1.4.2. 1.1. 1.4. 2. 1.3.3.6.3.3. 1.4.2.1. 2. 1. 2.5. 2. 2. 1. 1. 2.2. 1. 1. Inferenta statistica Media de selectie Dispersia de selectie Covarianta de selectie Coeficientul de corelatie de selectie Proprietati ale caracteristicilor de selectie 1 2 3 5 7 7 11 11 11 12 13 14 16 18 19 21 21 23 24 25 25 27 28 29 29 30 31 36 38 39 39 40 41 251 .5. 2.8. 2.7.5.3. 1.2.2. 1.2. 1.2. 1. II.6.1.3.1.Leapunov) Teorema lui Cebâşev Metoda verosimilitatii maxime Teoria selectiei Populatii si selectii.3.5.

3.2.8. 252 Estimatii Estimarea intervalului de incredere pentru medii Estimarea intervalului de încredere 1 − α pentru diferenţei a două medii Estimarea intervalelor de încredere pentru dispersie Estimarea intervalului de încredere raportul a două dispersii Utilizarea intervalelor de încredere în studiile de comparare a biodisponibilităţii medicamentelor Verificarea ipotezelor statistice Ipoteze asupra mediei Ipoteze asupra diferenţelor a două medii Estimarea dispersiei Estimarea raportului a doua dispersii Compararea mai multor dispersii: testul Bartlett.4. testul rapid Cochran. 2. Testul Friedman Regresia liniara Estimatii si ipoteze asupra coeficientului b Estimarea dispersiei punctelor dreptei de regresie Calculul intervalelor de încredere pentru dreapta de regresie în cazul stabilităţii formelor farmaceutice Studiul stabilităţii medicamentelor Regresia ponderata Analiza reziduala in testarea ipotezelor privind corelatia Stabilirea dreptei de regresie in bioanalitica 44 45 47 50 50 51 53 54 56 58 58 59 60 63 64 67 70 71 71 73 74 76 77 79 79 84 86 88 89 95 100 . 2. 2.7.5.6.4.7.6.8.4.6.2. 2.3 2.2.7.5.1 2.5.6.2 2. 2.6.8.5. 2.2.3. 2.7. 2. testul Hartley Utilizarea testului t in analiza comparativa a medicamentelor Teste neparametrice Media si dispersia unui esantion dintr-o populatie finita Testul de rang Wilcoxon Ajustarea pentru valori egale in testul Wilcoxon Teste referitoare la perechi de observatii Testul semnelor Testul Wilcoxon pentru observatii perechi Testul H Alegerea intre testele laplaciene si testele neparametrice Analiza de variatie pe doua cai a rangurilor.2 2. 2.1 2.7.4.1. 2. 2.3.5.6.7.5.4. 2.8. 2. 2.8.5.7.7.5.3. 2.6. 2.8. 2.8.7.6.1. 2. 2. 2.7. 2.1.5.8.7.CUPRINS 2.1.3.6.3.4.3. 2.3 2. 2. 2.

12.5.2. 2.9.9.2. 2.11.10.10.3 2.3.9.1. 2.9. 2. 2. 2. 2. 2.1.11.12. 2.10.1 2.4.9.1. 2.2. 2.11. 2. 2. cu 2 perioade si 2 secvente Calculul variabilitatii interindividuale 137 Calculul efectelor de secventa 138 Analiza efectelor fixe cu ajutorul dispersiilor 139 Legatura intre ANOVA si testul t in compararea efectelor Compararea intre modelul statistic general si modelul statistic specific „cross – over” Testarea efectului secventei de administrare folosind metoda ANOVA Testarea efectului perioadei folosind ANOVA 143 143 143 144 253 .1 2.9.11.2 2.11.1.1.12. 2.2.1. 2.11.2.3 2.9.9.3. 2.12.3.10.2 2.4.CUPRINS 2.4 Metode statistice de analiza factorilor de variabilitate in experimentul biologic (ANOVA) Analiza functionala unifactoriala Aplicarea ANOVA in testarea ipotezei privind depdendenta liniara a datelor Compararea parametrilor farmacocinetici ai unui medicament dupa administrarea pe mai multe cai Conditii necesare pentru aplicarea analizei dispersionale Analiza dispersionala multifactoriala Modelul variabilei aleatoare Scindarea sumei patratelor abaterilor Variatia unui parametru farmacocinetic atat in functie de calea de administrare cat si in functie de numarul de administrari Compararea biodisponibilitatii unei substante active administrate in preparate diferite si in perioade diferite de tratament Estimarea efectelor intr-un experiment standard cross – over – prin teste t Modelul statistic Testarea efectului secventei de administrare Efectul direct al medicamentului Efectul perioadei 105 106 109 110 112 114 116 117 118 120 2. 2.2.2.2.9.10.1.9. 121 121 122 125 129 Estimarea efectelor prin ANOVA 131 Modelul statistic general 131 ANOVA in cazul unui studiu privind bioechivalenta a doua 134 medicamente. incrucisat.

2.3. Calculul esantionului minim pentru obtinerea unei estimari a mediei cu o precizie fixata Testarea ipotezelor.1.15.14.3.4.3 2.15. 2.1 254 Estimarea bioechivalentei Metode parametrice de estimare a bioechivalentei Metoda intervalului de incredere Metoda celor „doua testari unilaterale” Schuirmann Transformarea logaritmica a datelor Metode non-parametrice de estimare a bioechivalentei Compararea rezultatelor metodelor parametrice si non – parametrice in estimarea bioechivalentei unor forme farmaceutice cu meloxicam Estimarea egalitatii mediilor plasmatice folosind testul “non – parametric” Wilcoxon Estimarea bioechivalentei prin calculul “non – parametric” al intervalelor de incredere Estimarea bioechivalentei folosind testul non – parametric Wilcoxon. 2.15.1 2.5.13.15. Calculul numarului de voluntari Estimarea parametrilor.1.3.15. 2. 2.8.1 2.8. Ipoteze punctuale privind egalitati Calculul comparativ al numarului de subiecti necesari in testarea bioechivalentei terapeutice a medicamentelor Calculul in testarea bioechivalentei 147 147 147 147 148 149 151 153 156 159 163 165 167 168 175 176 179 180 185 185 186 187 190 194 194 195 201 201 .13. 2.3 2.13.13. 2. 2.1.14.15.2.2 2.13.CUPRINS 2. 2. 2.15.4 2.3.3.7. 2.13.15.13.4.3.1. 2.3.14. 2. 2.1.2 2.14.13.3. 2.14. pornind de la un model care ia in considerare si efectele de perioada Calculul parametric Compararea rezultatelor Teste statistice de discordanta Constructia testelor de discordanta Criteriul Dixon de respingere a outliers Valori discordante fata de corelatia liniara Drepte si puncte discordante Voluntari discordanti in studii de bioechivalenta Puterea testului. Calculul numarului de voluntari in functie de probabilitatile erorilor de tipul I si tipul II fixate in prealabil Testarea ipotezei privind media unui lot Testarea pentru compararea mediilor a doua populatii Compararea a doua proportii Marimea esantionului pentru comparari de mai multe medii prin analiza dispersionala (ANOVA) Modelul cross – over.6.13. 2. 2.1 2.14. 2.15.2.13.15.3. 2.13.2 2.1.13.

Calculul numarului de subiecti necesari demonstrarii echivalentei terapeutice a doua medicamente care sunt bioechivalente Distributia binomiala Compararea proportiilor cu testul exact Fisher Tabele de contingenta R x C Teste de independenta la clasificarea dupa doua criterii Tabelele 2x2 corelate Teste de omogenitate Aplicatii in epidemiologie Studii cohort Studii case – report Evaluarea prospectiva (studii cohort) si retrospectiva (case report) a riscului din cauza expunerii la un factor dat Intervalul de incredere pentru riscul relativ estimat retrospectiv (odds ratio) in studiile de control de caz Calcularea marimilor esantionului pentru estimarea unui risc relativ estimat intr-un studiu case – report. 2.15. 2. 2.1.16.CUPRINS 2.4 2.17. 2.8.17.17.15. 2.3. 2.8.8. 2.16.17.3.17. 2. 2. Anexe 211 211 217 221 223 225 227 227 227 228 230 231 232 233 235 239 241 243 245 247 251 255 . 2. 2.16.3 2.8.4.2 2.17.16.7.17.16.8. 2.1. 2.16.4.2.5 Calculul in testarea echivalentei clinice Cazul compararii efectelor clinice Cazul aspirinei.5. cu o precizie data Calcularea marimii esantioanelor pentru testarea ipotezelor privind riscul relativ estimat retrospectiv (OR) Originea conceptului OR (Odds Ratio) propusă de către Woolf Metoda Mantel-Haenszel de calcularea OR prin combinarea mai multor experimente clinice Tabele statistice pentru z Tabele statistice pentru t Tabele statistice pentru Fischer Tabele statistice pentru χ 2 Bibliografie Cuprins 202 203 207 209 2.6.15.17.15.17.5. 2.2.

Sign up to vote on this title
UsefulNot useful