Cuprins

Prefaţă .................................................................................................................. 1. Câmp de evenimente. Câmp de probabilitate ...........................................
1.1. Evenimente .............................................................................................................................. 1.2. Câmp de probabilitate .......................................................................................................... 1.3. Probabilitate condiţionată .................................................................................................. 1.4. Scheme probabilistice clasice de calcul a probabilităţilor .........................................

5 6 6 9 13 15 20 20 24 28 30 37 44 46 49 53 62 65 65 75 79 80 85 87 91 92

2. Variabile aleatoare. Funcţii şi densităţi de repartiţie .........................
2.1. Variabile aleatoare ............................................................................................................... 2.2. Funcţia de repartiţie. Densitate de repartiţie ............................................................. 2.3. Caracteristici numerice ale funcţiilor de repartiţie ................................................... 2.4. Vectori aleatori. Funcţii de repartiţie şi densităţi de repartiţie multidimensionale ......................................................................................................................... 2.5. Momente obişnuite şi centrate. Proprietăţi .................................................................. 2.6. Inegalităţi pentru momente. Inegalitatea lui Holder .................................................. 2.7. Corelaţie şi coeficient de corelaţie ................................................................................. 2.8. Funcţii de argumente aleatoare ........................................................................................ 2.9. Funcţie caracteristică. Proprietăţi .................................................................................. 2.10. Funcţia generatoare ..........................................................................................................

3. Legi de repartiţie ..........................................................................................
3.1. Repartiţii de tip discret ...................................................................................................... 3.2. Repartiţii care admit densitate de repartiţie. Repartiţia normală N (m, σ ) ........ 3.3. Repartiţia uniformă pe un interval a, b ....................................................................... 3.4. Repartiţia Gama de parametri a, b > 0 ......................................................................... 3.5. Repartiţia Student ............................................................................................................... 3.6. Repartiţia Snedecor şi repartiţia Fischer ..................................................................... 3.7. Repartiţia Weibull ................................................................................................................ 3.8. Repartiţia normală n-dimensională ...................................................................................

[

]

4. Legea numerelor mari. Legi limită ..............................................................
4.1. Şiruri de variabile aleatoare. Convergenţă ..................................................................... 4.2. Legea numerelor mari .......................................................................................................... 4.3. Teorema lui Bernoulli ........................................................................................................... 4.4. Teoreme limită ...................................................................................................................... 4.5. Teorema limită centrală (Lindeberg – Levy) .................................................................. 4.6. Teorema Moivre – Laplace .................................................................................................. 4.7. Teorema Lindeberg – Feller ...............................................................................................

97 97 100 104 107 108 111 115 117 117 119 121 123 125 130 131 139 143 143 147 158 163 167 171 171 172 175 180 183

5. Procese Markov şi Poisson ...........................................................................
5.1. Procese Markov depinzând de un parametru discret ................................................... 5.2. Probabilităţi de trecere ..................................................................................................... 5.3. Probabilităţi de trecere după n paşi ................................................................................ 5.4. Teorema ergodică ................................................................................................................. 5.5. Exemple de lanţuri Markov omogene ............................................................................... 5.6. Procese Markov ce depind de un parametru continuu ................................................. 5.7. Procese Poisson ..................................................................................................................... 5.8. Procesul de naştere şi moarte ..........................................................................................

6. Elemente de teoria informaţiei ..................................................................
6.1. Informaţia; cantitatea de informaţie .............................................................................. 6.2. Entropie. Proprietăţi ale entropiei ................................................................................... 6.3. Entropia relativă ................................................................................................................... 6.4. Transmiterea informaţiei. Codificarea ........................................................................... 6.5. Cantitatea de informaţie conţinută într-un model input-output şi variaţia ei prin agregare .................................................................................................................................

7. Elemente de teoria selecţiei şi estimaţiei ...............................................
7.1. Noţiuni generale .................................................................................................................... 7.2. Momente de selecţie ........................................................................................................... 7.3. Selecţia dintr-o populaţie normală N (m, σ ) ................................................................ 7.4. Elemente de teoria estimaţiei ........................................................................................... 7.5. Teorema Rao - Cramer ........................................................................................................

7.6. Metoda momentelor ............................................................................................................. 7.7. Metoda verosimilităţii maxime .......................................................................................... 7.8. Intervale de încredere ....................................................................................................... 7.9. Intervale de încredere pentru parametri în cazul selecţiilor de volum mare .......

186 188 192 200

8. Verificarea ipotezelor statistice ............................................................... 206
8.1. Noţiuni generale .................................................................................................................... 8.2. Metoda intervalelor de încredere pentru verificarea ipotezelor statistice asupra parametrilor legilor normale ........................................................................................ 8.3. Testul T pentru verificarea ipotezei referitoare la media unei populaţii normale N (m, σ ) , cu

206 221 222 236 240

σ

necunoscut .......................................................................................

8.4. Elemente de analiză dispersională .................................................................................... 8.5. Elemente de analiză secvenţială. Testul secvenţial al raportului probabilităţilor

9. Elemente de teoria corelaţiei şi regresiei ............................................... 245
9.1. Raportul de corelaţie ........................................................................................................... 9.2. Coeficientul de corelaţie .................................................................................................... 9.3. Corelaţie şi dependenţă stohastică în cazul variabilelor continue ........................... 9.4. Ecuaţiile de regresie. Coeficienţii de regresie şi corelaţie ....................................... 9.5. Dreapta de regresie ca aproximaţie a curbei de regresie neliniară ........................ 9.6. Estimarea pe baza observaţiilor a coeficienţilor de corelaţie şi regresie, precum şi a raportului de corelaţie .......................................................................................... 9.7. Corelaţie multiplă ................................................................................................................. 9.8. Coeficientul de corelaţie parţială .................................................................................... 9.9. Coeficienţi de corelaţie a rangurilor ............................................................................... 9.10. Reunirea sau comasarea rangurilor ................................................................................ 9.11. Coeficientul de corelaţie a rangurilor al lui Kendall ................................................... 9.12. Coeficientul de contingenţă al lui Pearson .................................................................... 9.13. Metode celor mai mici pătrate ........................................................................................ 9.14. Ipotezele Gauss – Markov ................................................................................................ 9.15. Estimarea matricei de covarianţă ..................................................................................

248 249 251 254 255 257 259 264 268 270 273 275 276 281 283 288

Bibliografie ..........................................................................................................

PREFAŢĂ Cartea pe care o prezentăm este concepută să acopere programa analitică, în special, pentru studenţii Facultăţii de Cibernetică, Statistică şi Informatică Economică, din anul II şi III. Ea este utilă şi studenţilor de la celelalte facultăţi din cadrul Academiei de Studii Economice şi, de ce nu, pentru studenţii facultăţilor de profil economic din ţară. Materialul prezentat urmăreşte să dea posibilitatea studenţilor economişti să înţeleagă modelarea aleatoare a fenomenelor economice, să rezolve probleme de teoria probabilităţilor şi statistică matematică, să înţeleagă şi să pătrundă cunoştinţele dobândite deja la cursul de statistică teoretică sau economică. Ne-am străduit să utilizăm pe cât posibil numai noţiunile de algebră liniară şi analiză matematică pe care le dobândesc studenţii la cursul de “Matematici cu aplicaţii în economie”, fără a face concesii prea mari rigorii ştiinţifice specifice cursurilor de matematică. Deşi timpul alocat studiului teoriei probabilităţilor (inclusiv cunoştinţe de teoria proceselor stochastice) şi statisticii matematice foarte limitat ne-a silit să scoatem din programă noţiuni şi rezultate de teoria informaţiei, am considerat că în acest curs trebuie să-şi găsească loc şi un capitol de teoria informaţiei, pentru ca studentul să-şi completeze cunoştinţele cu care vine în contact la cursurile de informatică. În unele situaţii sunt prezentate şi aplicaţii, dar acestea sunt în număr redus, dat fiind faptul că urmează să apară o culegere de probleme unde vor fi reflectate mai bine noţiunile şi rezultatele obţinute, prin exemple variate atât sub formă teoretică, cât şi numerică. Conţinutul cărţii este completat cu o anexă în care figurează tabele statistice ale principalelor funcţii de repartiţie ce intervin frecvent în aplicaţii. Tot aici este dată o tabelă ce cuprinde valorile funcţiei-plogp necesară rezolvării problemelor în care intervine efectiv noţiunea de entropie. Bibliografia pe care am indicat-o în final are rolul de a indica cititorului unde poate găsi demonstraţii complexe şi riguroase ale unor teoreme pe care nu le-am putut prezenta fie din lipsă de spaţiu, fie din cauză că ar fi necesitat completări teoretice pentru a putea fi înţelese. Parcurgând bibliografia, cititorul are la dispoziţie piste pentru lămuriri suplimentare sau completări de cunoştinţe. Această bibliografie este orientativă şi am căutat să facem trimiteri, pe cât posibil, la lucrări de referinţă, fie ele în limba română, fie în alte limbi de largă circulaţie. Vom primi cu multă simpatie sugestiile cititorilor, în vederea îmbunătăţirii conţinutului cărţii, pentru a fi de un real folos celor ce sunt interesaţi şi care au un bagaj relativ de cunoştinţe în alte domenii de matematică. Vom încheia prin a sublinia faptul că la capitolul “Procese Markov şi Poisson” am considerat util să arătăm că se pot obţine unele modele din teoria firelor de aşteptare prin particularizarea procesului general de naştere şi moarte, dat fiind faptul că în cadrul cursului de “Cercetări operaţionale” nu este timp suficient pentru obţinerea sistemului de ecuaţii caracteristice modelului. AUTORII

5

Capitolul 1 CÂMP DE EVENIMENTE. CÂMP DE PROBABILITATE 1.1. Evenimente Noţiunea primară cu care se operează în teoria probabilităţilor este noţiunea de eveniment. Prin eveniment se înţelege rezultatul unui experiment. Când vorbim de experiment, înţelegem un fenomen în ansamblul său, indiferent dacă, în evoluţia sa, este dirijat, provocat de om sau nu. Prin urmare, când vorbim de un experiment subînţelegem existenţa unui complex de condiţii, la care ne raportăm în studiul fenomenului considerat şi faţă de care considerăm diversele rezultate posibile, diversele evenimente. Din punct de vedere probabilistic, ne interesează acele fenomene, experimente, ale căror rezultate nu pot fi prevăzute cu certitudine, care au loc după o legitate de tip determinist. Interesează acele experimente ale căror rezultate, influenţate de o multitudine de factori ce acţionează întâmplător - în cadrul complexului de condiţii care se presupune a fi asigurat - şi care determină un caracter întâmplător evenimentelor ce apar. Această acţiune întâmplătoare nu este haotică, ci are un caracter legic, care este specific teoriei probabilităţilor şi statisticii matematice. Aşadar, evenimentele apar după o anumită legitate, căreia îi vom spune să este de tip stochastic şi în studiul oricărui fenomen căutăm să determinăm legitatea de evoluţie a sa. Evenimentele ce apar ca rezultat al unor experimente le vom nota A, B, C … cu indici sau nu, după cum va fi necesar într-un context dat. În mulţimea evenimentelor distingem unele evenimente remarcabile. Evenimentul care se realizează cu certitudine într-o experienţă ce are loc în cadrul unui complex de condiţii date, îl vom numi evenimentul sigur şi-l vom nota cu Ω sau E. Evenimentul care nu se realizează niciodată în cadrul unui experiment dat, îl vom numi evenimentul imposibil şi-l vom nota cu Φ. Evenimentul contrar sau complementar unui eveniment A este acel eveniment care se realizează atunci şi numai atunci când nu se realizează A. Vom nota acest eveniment cu AC sau A . Între evenimente există relaţii logice pe care le vom nota cu semnele utilizate în teoria mulţimilor. Astfel, vom nota o familie de evenimente cu litere mari ronde şi dacă A este un eveniment ce aparţine unei familii K de evenimente, vom scrie A∈ K. De asemenea, dacă A este o familie de evenimente conţinute în familia K, vom scrie A ⊂ K. Dacă realizarea evenimentului A atrage după sine (implică) realizarea evenimentului B vom scrie A ⊂ B. Două evenimente A şi B sunt echivalente dacă se implică unul pe altul şi vom scrie A = B. Deci, A⊂ B şi B ⊂ A ⇔ A = B. În cadrul unui complex de condiţii date, pentru un eveniment A arbitrar, avem implicaţiile: Φ⊂A⊂Ω În mulţimea evenimentelor legate de un experiment dat, relaţia de implicaţie constituie o relaţie de ordine parţială. Aceasta înseamnă că operaţia “⊂” are proprietăţile: i) reflexivitate: A ⊂ A oricare ar fi evenimentul A ii) antisimetria: dacă A ⊂ B şi B ⊂ A, atunci A = B iii) tranzitivitatea: dacă A ⊂ B şi B ⊂ C, atunci A ⊂ C iv) pot exista evenimente A, B astfel încât A ⊄ B şi B ⊄ A.
9

6

Operaţii cu evenimente. Ca şi relaţiile dintre evenimente, operaţiile cu evenimente sunt operaţii logice şi ele vor fi simbolizate ca în teoria mulţimilor. Dacă A şi B sunt evenimente, vom considera evenimentul care constă în realizarea sau a evenimentului A sau a evenimentului B şi-l vom nota A ∪ B (se citeşte “evenimentul A sau B”). Odată cu evenimentele A, B, considerăm evenimentul care constă în realizarea simultană a evenimentelor A, B şi-l vom nota A ∩ B (se citeşte “evenimentul A şi B”). Două evenimente a căror realizare simultană este echivalentă cu evenimentul imposibil se numesc incompatibile şi vom scrie A ∩ B = ∅; în caz contrar, evenimentele se numesc compatibile (A ∩ B ≠ ∅). Fiind date evenimentele A, B se introduce evenimentul care constă în realizarea evenimentului A şi nerealizarea evenimentului B, notat A - B. Se constată imediat că A - B = A ∩ B ; B = Ω - B (complementarul faţă de Ω). Putem enunţa acum un rezultat asupra căruia vom mai reveni. Orice reuniune de evenimente arbitrare se poate scrie ca o reuniune de evenimente incompatibile. Într-adevăr, dacă evenimentele A1,A2,…,An sunt compatibile, atunci dacă
Bk = A k − U Aj , k=1,2,…,n se constată imediat că Bk∩Bk’=Φ, k≠k’, k,k’∈{1,2,…,n} şi
j=1 k-1

U A = U (A - U A )
k k j k =1 k =1 j=1

n

n

k-1

=

UB
k =1

n

k

.

Câmp de evenimente. Să considerăm o mulţime arbitrară Ω≠Φ şi ℘(Ω) mulţimea părţilor lui Ω. Definiţie. O familie nevidă K⊂℘(Ω) se numeşte corp de părţi (mulţimi ) dacă: i) (∀) A∈K ⇒ A ∈K ii) (∀) A,B∈K ⇒ A∪B∈K Observaţie. Axioma ii) este echivalentă cu:
ii’) (∀) A1,A2,…,An∈K, n∈N, n≥2 ⇒

U A ∈K.
k k =1

n

Într-adevăr, ii) ⇒ ii’) deoarece A1,A2∈K ⇒ A1∪A2∈K. Luăm acum A1∪A2,A3∈K ⇒ A1∪A2∪A3∈K ş.a.m.d. Dacă A1∪A2∪…∪An-1∈K, An∈K ⇒

UA
k =1

n

k

∈K. ii’) ⇒ ii) deoarece

pentru n = 2, dacă punem A1=A, A2=B, rezultă afirmaţia. Asociativitatea reuniunii, împreună cu i) şi ii) implică faptul că un corp K este o mulţime nevidă de părţi închisă în raport cu reuniunea finită şi complementară. Propoziţie. Dacă K⊂℘(Ω) este un corp de părţi, atunci: 1) Ω ∈K, Φ∈K 2) (Ak) 1 ≤ k ≤ n ⊂ K ⇒

IA
k =1

n

k

∈K

3) A,B ∈ K ⇒ A \ B ∈ K 4) A,B ∈ K ⇒ A ∆ B ∈ K Demonstraţie: 1) Întrucât K este corp de părţi, există A⊂Ω astfel încât A ∈ K. Deci A ∈ K şi A∪ A =Ω ∈ K. De asemenea, Ω = Φ∈K.
10

7

2) A1,A2,…,An∈ K ⇒ A 1, A 2,…, A n ∈ K şi

UA
k =1

n

k

∈ K ⇒ U A k = I Ak ∈ K .
k =1 k =1

n

n

3) A,B ∈ K ⇒ A, B ∈ K ⇒ A∩ B = A - B ∈ K. 4) A,B ∈ K, A∆B = (A-B) ∪ (B-A) ∈ K. Ţinând seama de modul cum am definit evenimentul A∪B, rezultă că, dacă A1,A2,…,An sunt evenimente, atunci

UA
k =1

n

k

este evenimentul care constă în realizarea cel puţin a unuia din

evenimentele A1,A2,…,An. De aici, rezultă,

UA =IA
k k =1 k =1

n

n

k

şi

IA =UA
k k =1 k =1

n

n

k

, adică tocmai

formulele lui De Morgan din teoria mulţimilor. Aceste moduri de scriere a evenimentelor vor fi folosite frecvent în rezolvarea unor probleme de teoria probabilităţilor. Definiţie. O familie nevidă K⊂℘(Ω) se numeşte σ - corp de mulţimi (sau corp borelian) dacă: i) (∀) A∈K ⇒ A ∈ K ii) (∀) (An)n∈N⊂ K ⇒ U An ∈ K .
n ∈Ν

Se constată că orice corp borelian de mulţimi este şi corp de mulţimi; reciproca nu este adevărată. Proprietăţile deduse pentru corpul de părţi K se transpun şi pentru corpul borelian şi nu vom insista asupra acestui lucru. Cel mai simplu σ - corp de părţi ale lui Ω este chiar ℘(Ω). Definiţie. O mulţime Ω înzestrată cu un corp K (corp borelian K) de părţi se numeşte câmp (câmp borelian) de evenimente. Vom nota acest câmp de evenimente ⎨Ω,K⎬. Definiţie. Un sistem de evenimente A1,A2,…,An cu proprietatea că Ai∩Aj=Φ dacă i≠j, i,j∈{1,2,…,n},

U A = Ω spunem
i i =1

n

că formează un sistem complet de evenimente sau o

desfacere a lui Ω. Să considerăm acum o mulţime arbitrară înzestrată cu un corp de părţi. Presupunem că Ω este cel mult numărabilă. În acest caz, elementele lui Ω le vom numi evenimente elementare, iar Ω însuşi evenimentul sigur. Dacă cardΩ = n, atunci Ω={ω1,ω2,…,ωn}, iar corpul K=℘(Ω) şi are 2n evenimente care se construiesc ţinând seama de proprietăţile lui K: 0 ∅ în număr de Cn 1 {ω1},{ω2},…,{ωn} în număr de C n 2 {ω1,ω2},{ω1,ω3},…,{ωn-1,ωn} în număr de C n 3 {ω1,ω2,ω3},…,{ωn-2,ωn-1,ωn} în număr de C n ………… n− {ω1,ω2,…,ωnîn număr de C n 1 1},…,{ω2,ω3,…,ωn} n {ω1,ω2,…,ωn} = Ω în număr de Cn 0 1 n− În total, corpul K conţine Cn + C n +…+ C n 1 + Cnn = (1+1)n = 2n evenimente.

11

8

1.2. Câmp de probabilitate Până acum suntem în măsură să descriem evoluţia unui fenomen, a unui experiment în limbajul evenimentelor, dar nu suntem în măsură să putem pune în evidenţă legităţile specifice. Pentru a putea face pasul către acest lucru, va trebui să cuantificăm evenimentele, ataşând fiecărui eveniment o “probabilitate” de apariţie, adică un număr cuprins între zero şi unu. Vom da şi vom dezvolta definiţia axiomatică a probabilităţii, însă înainte ce aceasta vom da şi definiţia clasică şi cea statistică a probabilităţii, aşa cum au apărut ele din punct de vedere istoric. Definiţie (definiţia clasică a probabilităţii). Se numeşte probabilitate a evenimentului A şi se notează P(A), raportul dintre numărul m de rezultate favorabile producerii evenimentului A şi numărul total de n rezultate ale experimentului, considerate egal posibile. m P(A) = n Din definiţia dată rezultă imediat că probabilitatea definită astfel are următoarele proprietăţi: 1) 0 ≤ P(A) ≤ 1 oricare ar fi evenimentul A, căci 0 ≤ m ≤ n. 2) P(Φ)=0, P(Ω)=1, căci evenimentului imposibil îi corespunde m=0, iar evenimentului sigur m=n. 3) P(A∪B) = P(A) + P(B), dacă A∩B=Φ m1 m2 m1 + m2 P(A) = , P(B) = , P(A ∪ B) = P(A) + P(B) = , m1 + m2 ≤ n n n n 4) P(A) = 1 - P(A) 5) Dacă A⊂B, atunci P(A) ≤ P(B). Alături de noţiunea de probabilitate, noţiunea de frecvenţă relativă este altă noţiune fundamentală în teoria probabilităţilor. Frecvenţa relativă de apariţie a evenimentului A este raportul dintre numărul probelor în care evenimentul A s-a produs şi numărul total, n, de probe efectuate. Observaţii statistice îndelungate au dovedit că dacă un experiment se repetă de un număr mare de ori, se produce o stabilitate a frecvenţei relative în sensul că ea oscilează tot mai strâns în jurul probabilităţii de apariţie a evenimentului considerat. În acest mod s-a impus definiţia statistică a probabilităţii: n(A) P(A) = lim , n→∞ n unde n(A) este numărul de apariţii a evenimentului A în cele n probe independente. Să considerăm un câmp de evenimente {Ω,K} şi să introducem definiţia axiomatică a probabilităţii. Definiţie. Se numeşte probabilitate pe câmpul de evenimente {Ω,K} o funcţie de mulţime P:K→R+ care satisface următoarele axiome: i) (∀) A∈K ⇒ P(A) ≥ 0 ii) P(Ω) = 1 iii) (∀) A,B ∈ K, A∩B = Φ ⇒ P(A∪B)=P(A)+P(B) Observaţie. Axioma iii) este echivalentă cu axioma iii’): Dacă A1,A2,…,An ∈ K, Ai∩Aj=∅,

i≠j, i,j∈{1,2,…,n} ⇒ P(U A ) = ∑ P(Ai) . Demonstraţia este imediată şi o lăsăm în seama
i =1

n

n

i=1

cititorului. Definiţie. Un câmp de evenimente {Ω,K} înzestrat cu o probabilitate P se numeşte câmp de probabilitate şi-l vom nota {Ω,K,P}.

12

9

Definiţie. O probabilitate aditivă σ (sau complet aditivă) pe câmpul borelian de evenimente {Ω,K} este o funţie de mulţime P:K→R+ care satisface axiomele: i) (∀) A∈K ⇒ P(A) ≥0 ii) P(Ω) = 1 iii) (∀) (An)n∈N⊂K, Am∩An=∅, m ≠ n, m,n ∈ N ⇒ P( U An) = ∑ P(An) .
n ∈N n ∈N

Prin definiţie, un câmp borelian de evenimente {Ω,K} înzestrat cu o probabilitate P complet aditivă, se numeşte câmp borelian de probabilitate şi-l vom nota {Ω,K,P}. Exemplu. Fie Ω = {ωi}i∈I unde I este o mulţime de indici cel mult numărabilă. În acest caz, K=℘(Ω) şi fie (pi)i∈I o familie de numere reale nenegative astfel încât ∑ pi = 1 . Considerăm A∈K, A={ϖh, h∈H⊂I}; punem P(A)= ∑ ph . Atunci, {Ω,K,P} este un
h ∈H

i∈I

câmp borelian de probabilitate. Evenimentele {ωi}i∈I sunt evenimente elementare şi cunoaşterea probabilităţilor evenimentelor elementare pi=P({ωi}), i∈I determină complet probabilitatea oricărui eveniment A∈ K. Un caz particular se obţine de aici când Ω este o mulţime finită, Ω={ωi, i=1,2,…,n}. 1 Să considerăm familia finită (pi) 1≤ i ≤ n astfel încât pi = P({ωi}) = , i=1,2,…,n. n m(A) Atunci, pentru orice A∈℘(A) = K, P(A) = , unde m(A) este numărul evenimentelor n elementare ce compun pe A; m(A) = card A. card A şi am căzut peste definiţia clasică a probabilităţii. În acest fel, P(A) = card Ω Să dăm acum o serie de proprietăţi importante ale probabilităţii, care se obţin din definiţiile date. Propoziţie. Probabilitatea introdusă mai sus are următoarele proprietăţi: 1) P(B-A) = P(B) - P(A∩B) 2) P(B-A) = P(B) - P(A) şi P(A) ≤ P(B), dacă A⊂B 3) P( A ) = 1-P(A) 4) P(Φ) = 0 5) 0 ≤ P(A) ≤ 1 6) P(A∪B) = P(A) + P(B) - P(A∩B), P(A∪B) ≤ P(A) + P(B) 7) P(A∆B) = P(A) + P(B) - 2P(A∩B) 8) P(U Ai) = ∑ P(Ai) - ∑ P(Ai ∩ Aj) +
i=1 n i=1 n i< j n n i< j<k

∑ P(A ∩ A ∩ A )+...+(-1)
i j k

n-1

P(I Ai)
i=1

n

9) P(U Ai) ≤ ∑ P(Ai)
i=1 i=1

Demonstraţie: 1) B=(B-A) ∪ (A∩B); (B-A) ∪ (A∩B) = ∅ şi, deci: P(B) = P(B-A) + P(A∩B) 2) B = A∪(B-A); A∩(B-A) = ∅ P(B) = P(A) + P(B-A) Cum P(B-A) ≥ 0 ⇒ P(A) ≤ P(B) 3) A ∪ A = Ω; A ∩ A = ∅; P(A) + P( A ) = 1 4) Ω ∪ ∅ = Ω; Ω ∩ ∅ = ∅; P(Ω) + P(∅) = P(Ω) 5) Φ ⊂ A ⊂ Ω şi, folosind afirmaţia 2) rezultă afirmaţia 6) A ∪ B = A ∪ (B-A); A ∩ (B-A) = ∅
13

10

P(A∪B) = P(A)+ P(B-A) = P(A) + P(B)-P(A∩B). Cum P(A∩B)≥0 ⇒ P(A∪B) ≤ P(A) + P(B) 7) A∆B = (A-B)∪(B-A) şi (A-B)∩(B-A) = ∅. Deci, P(A∆B) = P(A-B)+P(B-A) = P(A)+P(B)-2P(A∩B) 8) Egalitatea este cunoscută sub numele de formula lui PoincarJ. O vom demonstra prin inducţie. Pentru n=2 este proprietatea 6), pe care am demonstrat-o. S-o presupunem adevărată pentru n şi să arătăm că se menţine pentru n+1:
P(U Ai) = P((U Ai) ∪ An + 1) = P(U Ai) + P(An + 1) - P( U (Ai ∩ An + 1)) = ∑ P(Ai) i=1 i=1 i=1 i=1 i=1 n+1 n n n n

− ∑ P(Ai ∩ A j) +
i< j

i< j<k

∑ P(A ∩ A ∩ A )+...+(-1)
i j k

n-1

⎡ P(I Ai) + P(An + 1) - ⎢∑ P(Ai ∩ An + 1) i=1 ⎣ i=1
n n

i j − ∑ P(Ai ∩ Aj ∩ An + 1)+...+(-1) n-1 P(I Ai ∩ An + 1)] = ∑ P(A)- ∑ P(Ai ∩ A) + ∑ P(Ai ∩ Aj ∩ Ak) + i< j i=1 i=1 i< j i< j< k

n

n+1

+...+(-1) n P( I Ai).
i=1

n+1

P(U Ai) ≤ P(U Ai) + P(An + 1) ≤ ∑ P(Ai) , deoarece:
i=1

n +1

n

n +1 i=1

P(U Ai) ≤ ∑ P(Ai) şi P((U Ai) ∩ An + 1) ≥ 0.
i=1 i=1 i=1

n

i=1 n

n

Pentru inegalitatea de la punctul 8) considerăm: B1=A1 B2=A2-A1 … Bi∩Bj=∅, i≠j Bn=An- U A ,
i =1 n −1

atunci: P(U Bi) = ∑ P(Bi) ≤ ∑ P(Ai)
i=1 i =1 i=1 n n n

Cum

U B =U A ,
i i i =1 i =1

n

n

rezultă: P(U Ai) ≤ ∑ P(Ai) .
i =1 i =1 ∞

n

n

Propoziţie

a) Dacă (An)n∈N este un şir descendent de evenimente, atunci: lim P(An) = P(I An) .
n →∞

b) Dacă (An)n∈N este un şir ascendent de evenimente, atunci: lim P(An) = P(U A n ) .
n →∞ n=1

n =1 ∞

Demonstraţie: a) Şirul fiind descendent, înseamnă că An⊃An+1, n∈N. Să presupunem mai întâi că
n ∈N

IA

n

= ∅; atunci:

An = U (Ak - Ak + 1) şi
k≥n ∞ k =1

P(An) = ∑ [P(Ak) - P(Ak + 1)]
k =n

reprezintă

restul seriei convergente P(A1) = ∑ [P(Ak) - P(Ak + 1)] .

14

11

Deci, lim P(An) = P(lim An) = P(I An) = P(∅)=0. Dacă
n →∞ n →∞ n =1

IA
n=1 ∞ n =1

n

= B ≠ ∅, construim şirul = ∅.

descendent (Bn)n∈N, Bn=An-B, n∈N, care are proprietatea:
n →∞ n →∞

IB

n

Deci, lim P(Bn) = P( lim Bn) = 0 . Dar, P(Bn)=P(An-B)=P(An)-P(B). Prin trecerea la limită se obţine lim P(An) = P(B) = P(I An) .
n →∞ n =1 ∞

b) Şirul (An)n∈N fiind ascendent, înseamnă că An⊂An+1, n∈N şi lim An = U An . Considerăm
n →∞ n =1

şirul (An)
n →∞

n∈N,

care este un şir descendent, şi, atunci:
∞ ∞ n →∞ n =1 n =1

lim P(An) = P( lim An )= P(I An) = P(U An) sau

lim[1- P(An)] = 1 − P(U An) , de unde
n →∞ n =1

rezultă imediat afirmaţia. Afirmaţia din propoziţia anterioară mai este cunoscută sub numele de axioma continuităţii. Acest rezultat va fi utilizat în demonstraţia unor proprietăţi ale funcţiei de repartiţie. Acum, însă, vom arăta că un câmp de probabilitate în care probabilitatea este finit aditivă şi, în plus, se adaugă axioma continuităţii devine un câmp borelian de probabilitate. Într-adevăr, dacă (An)n∈N ⊂ K este un şir de evenimente incompatibile două câte două, Ai∩Aj=∅, i≠j, i,j∈N şi dacă notăm A = Bn+1⊂Bn, n∈N. Evident I Bn = ∅ şi deci lim P(B n ) = 0.
n ∈Ν
n →∞ n∈Ν

UA

n

şi Bn = A - U Ak , atunci A,Bn∈K şi
k =1

n

Însă P(Bn)=P(A- U Ak) = P(A) - ∑ P(Ak) . lim P(Bn) = P(A)- lim ∑ P(Ak) = 0 .
k =1 k =1 n →∞ n →∞ k =1

n

n

n

Deci P(A) = P( U An) = lim ∑ P(Ak) = ∑ P(An) , adică
n∈Ν n →∞ k =1

n

n ∈Ν

P( U An) = ∑ P(An) , ceea ce
n ∈Ν n ∈Ν

dovedeşte afirmaţia. Să punem în evidenţă o inegalitate importantă, cunoscută sub numele de inegalitatea lui Boole. Fie familia finită de evenimente (Ai) 1 ≤ i ≤ n; atunci: P(I Ai) ≥ 1 - ∑ P(Ai) = ∑ P(Ai) - (n - 1) .
i=1 i=1 i=1 n n n

Demonstraţie:

P(I Ai) = 1 - P(I Ai) = 1 − P(U Ai ) ≥ 1 − ∑ P(Ai) = 1 - ∑ [1 - P(Ai)] = ∑ P(Ai) - (n - 1)
i=1 i=1 i=1 i=1

n

n

n

n

n

n

i =1

i=1

15

12

1.3. Probabilitate condiţionată

Fie {Ω,K,P} un câmp de probabilitate şi A∈K, astfel încât P(A)>0. Definiţie. Numim probabilitate condiţionată de evenimentul A a evenimentului B şi o notăm P(A ∩ B) , P(A)>0. P(B/A) expresia: P(B / A) = P(A) Propoziţie. P(. / A) este o probabilitate definită pe câmpul de evenimente {Ω,K} sau, altfel spus, {Ω,K,P(. / A)} este un câmp de probabilitate. Demonstraţie: este suficient să arătăm că funcţia de mulţime P(. / A) satisface axiomele i), ii), iii). P(A ∩ B) şi 0 ≤ P(A∩B) ≤ P(A), rezultă că P(B / A) ≥ 0, P(A)>0. i) Cum P(B / A) = P(A) ii) Fie A1,A2,…,An∈K, Ai∩Aj=∅, i≠j. Atunci: = = P(A) P(A) P(A) deoarece (A∩Ai) ∩ (A∩Aj) = ∅, i≠j. P(A ∩ Ω ) P(A) iii) P(Ω / A) = = = 1. P(A) P(A) Din definiţia probabilităţii condiţionate rezultă că, dacă A şi B sunt evenimente reciproc condiţionate, atunci: P(A) P(B/A) = P(B) P(A/B).
i=1 i=1 i=1 i=1

P(U Ai / A) =

n

P(A ∩ (U Ai))

n

P(U (A ∩ Ai))

n

∑ P(A ∩ A )
i

n

P(A ∩ Ai) n =∑ = ∑ P(Ai / A) , P(A) i=1 i=1
n

Fie acum A1,A2,…,An o familie finită de evenimente astfel încât P(I Ai) ≠ 0 ; atunci:
i=1

n

P(I Ai) = P(A1) ⋅ P(A2 / A1) ⋅ P(A3 / A1 ∩ A2)...P(An / A1 ∩ A2∩...∩ An - 1) .
i=1 n

n

Într-adevăr, condiţia pusă ne dă posibilitatea să scriem succesiunea de egalităţi: P(I Ai) = P(A1 ∩ A2∩...∩ An - 1) ⋅ P(An / A1 ∩ A2∩...∩ An - 1) =
= P(A1 ∩ A2∩...∩ An - 2) ⋅ P(An − 1 / A1∩...∩ An − 2) ⋅ P(An / A1∩...∩ An − 1) = …….. = P(A1) ⋅ P(A2 / A1) ⋅ P(A3 / A1 ∩ A2)⋅...⋅P(An / A1 ∩ A2∩...∩ An − 1) . Să considerăm desfacerea (sistemul complet de evenimente) D = {Ai, i=1,2,…,n}, Ai∩Aj=∅, i≠j şi
i=1

U A = Ω , P(Ai)≠0, i=1,2,…,n.
i
i =1

n

Dacă B∈K cu P(B)≠0, atunci P(Ai / B) =

P(Ai) ⋅ P(B / Ai)

∑ P(A ) ⋅ P(B / A )
i i i =1

n

, i=1,2,…,n.

Relaţia dată este cunoscută sub numele de formula lui Bayes şi are numeroase aplicaţii în statistica matematică. Demonstraţia formulei rezultă printr-un calcul direct: P(Ai ∩ B) P(Ai) ⋅ P(B / Ai) P(Ai / B) = = P(B) P(B) Însă, B = B∩Ω = B ∩ (U Ai) = U (B ∩ Ai) şi P(B) = P(U (B ∩ Ai)) = ∑ P(B ∩ Ai) =
i=1 i=1 i=1 i=1 n n n n

16

13

= ∑ P(Ai) ⋅ P(B / Ai) . Relaţia P(B) = ∑ P(Ai) ⋅ P(B / Ai) este cunoscută sub numele de
i =1 i=1

n

n

formula probabilităţii totale. Înlocuind P(B) în expresia P(Ai / B) se obţine formula lui Bayes.
Evenimente independente. Să considerăm familia finită de desfaceri
D(i) = { A (i) , j=1,2,…,ni}, i=1,2,…,m. j

Definiţie. Spunem că desfacerile D(i), i=1,2,…,m sunt independente câte k, 2 ≤ k < m, dacă, oricum am lua indicii i1<i2<…<ik şi oricum am lua indicii j1,j2,…,jk, 1 ≤ jk≤ nk, avem P(A (i11) ∩ A (i22) ∩...∩ A (ikk) ) = P(A (i11) ) ⋅ P(A (i22) )⋅...⋅P(A (ikk) ) . j j j j j j

Desfacerile sunt total independente, dacă: P(A (1) ∩ A (j22) ∩...∩ A (jm) ) = P(A (j11) ) ⋅ P(A (j22) )⋅...⋅P(A (jm) ) j1 m m Independenţa în totalitate atrage după sine independenţa câte k (k<m) a desfacerilor şi, în general, independenţa câte k atrage după sine independenţa câte h a desfacerilor dacă h<k. Reciproca afirmaţiei nu este adevărată după cum vom constata pe un contraexemplu. Fie Ω={ω1,ω2,ω3,ω4} şi câmpul de probabilitate {Ω,K,P}, unde P({ωi})=1/4, i=1,2,3,4. Să considerăm evenimentele A={ω1,ω2}, B={ω1,ω3}, C={ω1,ω4} şi desfacerile DA={A, A }, DB={B, B }, DC={C, C }. Aceste desfaceri sunt independente două câte două, deoarece: 1 1 1 1 ⋅ ; P(A ∩ B) = P(A) ⋅ P(B) = 2 ; 2 = P(A ∩ B) = P(A) ⋅ P(B) = 2 2 2 2 1 1 P(A ∩ C) = P(A) ⋅ P(C) = 2 ; P(A ∩ C) = P(A) ⋅ P(C) = 2 ; 2 2 1 1 P(A ∩ B) = P(A) ⋅ P(B) = 2 ; P(A ∩ B) = P(A) ⋅ P(B) = 2 ; 2 2 1 1 P(A ∩ C) = P(A) ⋅ P(C) = 2 ; P(A ∩ C) = P(A) ⋅ P(C) = 2 ; 2 2 1 1 P(B ∩ C) = P(B) ⋅ P(C) = 2 ; P(B ∩ C) = P(B) ⋅ P(C) = 2 ; 2 2 1 1 P(B ∩ C) = P(B) ⋅ P(C) = 2 ; P(B ∩ C) = P(B) ⋅ P(C) = 2 . 2 2 1 1 Însă P(A ∩ B ∩ C) = 2 ≠ P(A) ⋅ P(B) ⋅ P(C) = 3 , de unde urmează că DA,DB,DC nu sunt 2 2 independente în totalitate. Definiţie. Evenimentele A1,A2,…,An sunt independente câte k (k<n) dacă desfacerile D(i) = {Ai, Ai } i=1,2,…,n sunt independente câte k. Evenimentele A1,A2,…,An sunt independente în totalitate (simplu independente) dacă desfacerile D(i) = {Ai, Ai } i=1,2,…,n sunt independente în totalitate. Dacă avem două evenimente A şi B, atunci, conform definiţiei, evenimentele A şi B sunt independente, dacă desfacerile D(1) = {A, A }, D(2) = {B, B } sunt independente. Aceasta înseamnă că: P(A∩B)=P(A)⋅P(B) P(A∩ B )=P(A)⋅P( B ) P( A ∩B)=P( A )⋅P(B) P( A ∩ B )=P( A )⋅P( B )

14

În realitate, pentru independenţa a două evenimente este necesară şi suficientă numai una din aceste relaţii. Într-adevăr, să presupunem prima relaţie adevărată şi să arătăm că şi celelalte trei sunt adevărate. P(A∩ B ) = P(A\A∩B) = P(A)-P(A∩B) = P(A)-P(A)⋅P(B) = P(A)[1-P(B)] = P(A)⋅P( B ) La fel se procedează şi cu celelalte două egalităţi şi absolut analog oricum am alege ca relaţie de definiţie una oarecare din cele patru relaţii.
1.4. Scheme probabilistice clasice de calcul a probabilităţilor

Vom pune în evidenţă acum unele scheme cu urne, de calcul a probabilităţilor şi la care se vor reduce multe modele de calcul întâlnite atât practic, cât şi teoretic. Schema lui Poisson. Se consideră n urne U1,U2,…,Un, fiecare urnă conţinând bile albe şi bile negre în proporţii date. Fie ai numărul de bile albe din urna Ui şi bi numărul de bile negre din urna Ui. Probabilitatea de a extrage o bilă albă din urna Ui este: ai pi = , i=1,2,…,n, ai + bi iar probabilitatea de a extrage o bilă neagră din aceeaşi urnă este: bi qi = , i=1,2,…,n ai + bi Evident, pi + qi=1, i=1,2,…,n. Se extrage câte o bilă din fiecare urnă şi se cere să se afle probabilitatea ca, din cele n bile extrase, k bile să fie albe. Să exprimăm evenimentul ce răspunde favorabil situaţiei cerute: fie Ai evenimentul care constă în faptul că s-a extras o bilă albă din urna Ui şi fie A i evenimentul că s-a extras o bilă neagră din urna Ui. Evenimentul ce răspunde favorabil este cel constituit din k evenimente A şi n-k evenimente A . O situaţie posibilă este următoarea: Ai1 ∩ Ai2∩...∩ Aik ∩ Aik + 1 ∩ Aik + 2∩...∩ Ain (după ce le-am aranjat în ordine, după cum a apărut bila albă sau bila neagră). Întrucât rezultatele extragerilor sunt independente, probabilitatea acestui eveniment este P( Ai1 ∩ Ai2∩...∩ Aik ∩ Aik + 1 ∩ Aik + 2∩...∩ Ain ) = pi1 ⋅ pi2⋅...⋅pik ⋅ qik + 1⋅...⋅qin . Notăm cu B evenimentul care constă în apariţia de k ori bilă albă şi de n-k ori bilă neagră. Atunci: B = U ( Ai1 ∩ Ai2∩...∩Aik ∩ Aik + 1 ∩ Aik + 2∩...∩Ain ). Urmează c:ă
(i1 ,i 2 ,...,i n ) k ori A, n-k ori A

P(B) =

(i1 ,i 2 ,...,i n ) k ori A, n-k ori A

P( Ai1 ∩ Ai2∩...∩ Aik ∩ Aik + 1 ∩ Aik + 2∩...∩ Ain ) = =

(i1 ,i 2 ,...,i n ) k ori A, n-k ori A

pi1 ⋅ pi2⋅...⋅pik ⋅ qik + 1⋅...⋅qin

Constatăm că după aceeaşi regulă se calculează coeficientul lui xk din polinomul P(x) = ∏ (pix + qi) şi, în felul acesta, lucrurile se simplifică mult când este vorba de
i=1 n

utilizarea efectivă a acestei scheme. Schema lui Poisson este folosită în rezolvarea problemelor în care se cere probabilitatea realizării de k ori a unui eveniment într-o experienţă ce constă în efectuarea a n probe independente, atunci când se cunoaşte probabilitatea realizării evenimentului (şi a contrarului său) în fiecare din cele n probe.
15

Schema lui Bernoulli (schema bilei revenite). Să presupunem că cele n urne din schema lui Poisson au aceeaşi compoziţie. În acest caz, p1 = p2 = … = pn = p q1 = q2 = … = qn = q A extrage câte o bilă din fiecare urnă este echivalentă cu a utiliza o singură urnă şi a reface compoziţia după fiecare extragere, deci de a introduce bila la loc în urnă, după ce s-a constatat culoarea, amestecându-se bilele pentru a avea rezultate independente. În acest caz, polinomul P(n) devine P(x) = (px + q) n , iar coeficientul lui xk, care dă probabilitatea căutată va fi P(n;k) = C k p k q n-k . n Schema lui Bernoulli (sau schema bilei revenite) rezolvă problemele în care se cere să se calculeze probabilitatea realizării unui eveniment de k ori într-o serie de n probe independente, când se cunoaşte probabilitatea realizării evenimentului într-o singură probă. Schema lui Bernoulli cu mai multe stări (schema multinomială). Considerăm o urnă U care conţine bile de m culori: C1,C2,…,Cm. Fie pi probabilitatea de a extrage o bilă de culoarea Ci; ne propunem să calculăm probabilitatea evenimentului ca în n extrageri independente, punând la loc de fiecare dată bila extrasă să apară de n1 ori culoarea C1, de n2 ori culoarea C2 ş.a.m.d., de nm ori culoarea Cm. O situaţie posibilă este următoarea: A1 ∩ A 44A1 A2 ∩ A2∩...∩ A2 Am ∩ 4m ∩...∩4 A 1441∩...∩3 ∩ 1442443 ∩ ... ∩ 144 244Am 2 3
n 1 ori n 2 ori n m ori

Probabilitatea acestui eveniment este n P( A1 ∩ A1∩...∩ A ∩ A2 ∩ A2∩...∩ A2 ∩ ... ∩ Am ∩ Am ∩...∩ Am ) = p 1 1 ⋅ p n 2 ⋅...⋅p n m 2 m cu n1 + n2 +…+ nm = n. n! Cum evenimentul considerat se poate exprima în situaţii distincte n1! n2! ... nm! (incompatibile două câte două), rezultă că probabilitatea cerută este: n! n P(n; n1,n2,…,nm) = p 1 1 ⋅ p n 2 ⋅...⋅p n m , 2 m n1! n2! ... nm! n1 + n2 +…+ nm = n. Schema bilei nerevenite (cu două culori). Se consideră o urnă U care conţine a bile albe şi b bile negre. Din această urnă se extrag n bile, fără a pune bila extrasă înapoi în urnă şi se cere probabilitatea de a avea k bile albe. Vom utiliza definiţia clasică a probabilităţii. Atunci, numărul cazurilor posibile este n C a + b , iar numărul cazurilor favorabile este C k C n − k . Deci, probabilitatea cerută este: a b

Ck Cn−k Pn; k = a n b C a+ b Se înţelege că numărul k de bile extrase satisface dubla inegalitate: max (0,n-b) ≤ k ≤ min (a,n), 0 ≤ n ≤ a+b Să formulăm problema aşa cum apare ea în controlul de recepţie a loturilor de produse: presupunem că avem un lot de N produse printre care se găsesc D produse defecte. Se extrag la întâmplare n produse şi se cere probabilitatea ca printre cele n produse să se găsească d produse difecte. Dacă notăm cu P(N,D; n,d) probabilitatea cerută, atunci: Cn−d Cd P(N,D; n,d) = N − D D , max (0,n+D-N) ≤ d ≤ min (n,D). Cn N
16

Schema bilei nerevenite cu mai multe culori. Considerăm urna U în care se găsesc a1 bile de culoarea C1, a2 bile de culoarea C2 ş.a.m.d., am bile de culoarea Cm. Se extrag n bile fără a pune la loc bila extrasă (n < a1+a2+…+am) şi se cere probabilitatea ca în cele n bile extrase să fie α1 de culoarea C1, α2 de culoarea C2 ş.a.m.d., αm bile de culoarea Cm. Folosind tot definiţia clasică a probabilităţii, obţinem +α numărul cazurilor posibile egal cu Cα11+ a 22++......++aαmm , α1+α2+…+αm = n, iar numărul cazurilor a

favorabile
C a1 ⋅ C a 2 ⋅...⋅C a m . Deci, P(n; α1,α2,…,αm) =
α1 α2 αm
m Cα11 ⋅ Cα22 ...Cαm a a a

+α +... Cα11+ a22+...++aαmm a

.

Exemplu. Trei întreprinderi trimit acelaşi tip de piese într-un depozit central, în proporţie de 5; 3; 2. Cele trei întreprinderi au rebuturi în cantitate de 1%, 3%, respectiv 2%. Piese în valoare de 3600 u.m. s-au dovedit rebuturi. În ce proporţie trebuie împărţită suma de 3600 u.m. pentru cele trei întreprinderi? Soluţie: notăm cu Ai, i=1,2,3 evenimentul “piesa provine de la întreprinderea i” şi cu B evenimentul “piesa este rebut”. Atunci: 5 3 2 P(A1) = = 0,5; P(A2) = = 0,3; P(A3) = = 0,2; P(B / A1) = 0,01; P(B / A2) = 0,03; 10 10 10 P(B / A3) = 0,02. P(Ai) ⋅ P(B / Ai) , i=1,2,3 obţinem: Aplicând formula lui Bayes: P(Ai / B) = n ∑ P(Ai) ⋅ P(B / Ai)
i =1

5 9 4 ; P(A2 / B) = ; P(A3 / B) = şi, de aici, sumele repartizate pe 18 18 18 întreprinderi sunt 1000 u.m., 1800 u.m., 800 u.m. Exemplu. Într-o magazie sunt depozitate trei loturi de produse. În primul lot sunt 5% produse defecte, în al doilea lot 6%, iar în al treilea 3%. Se extrage câte un produs din fiecare lot şi se cere probabilitatea ca: a) din cele trei produse extrase unul să fie defect, b) cel mult un produs să fie defect. Soluţie: din condiţiile date se obţin probabilităţile: p1 = 0,05; p2 = 0,06; p3 = 0,03 q1 = 0,95; q2 = 0,94; q3 = 0,97 a) Aplicând schema lui Poisson, probabilitatea căutată este coeficientul lui x din polinomul (0,05 x + 0,95)(0,06 x + 0,94)(0,03 x + 0,97). P(3;1) = 0,05 ⋅ 0,94 ⋅ 0,97 + 0,06 ⋅ 0,95 ⋅ 0,97 + 0,03 ⋅ 0,95 ⋅ 0,94. b) P(3;0) + P(3;1), unde P(3;0) = 0,95 ⋅ 0,94 ⋅ 0,97. Exemplu. Dintr-o urnă în care sunt aşezate toate numerele întregi de la 1 la 90 se extrag 6 numere. Care este probabilitatea ca să iasă trei din numerele 3; 13; 23; 33; 43; 53. C3 ⋅ C3 Soluţie: se aplică schema bilei nerevenite şi avem P = 6 6 84 . C 90 Exemplu. Într-un lot de piese sunt 15% de calitatea întâia, 65% de calitatea a doua, 18% de calitatea a treia şi restul cu anumite defecte. Se extrag la întâmplare 20 de piese punându-se la loc piesa extrasă şi se cere: a) probabilitatea ca 5 piese să fie de calitatea întâia; b) probabilitatea ca 5 piese să fie de calitatea întâia, 10 de calitatea a doua, 4 de calitatea a treia şi 1 necorespunzătoare. P(A1 / B) =
17

Soluţie: a) aplicăm schema
5 20

lui
5

Bernoulli,
15

cu:

p=

15 85 ; q= ; n = 20; k = 5 şi, 100 100

atunci,

⎛ 15 ⎞ ⎛ 85 ⎞ P(20;5) = C ⎜ ⎟ ⎜ ⎟ ⎝ 100 ⎠ ⎝ 100 ⎠ b) se aplică schema multinomială cu p1 = 0,15; p2 = 0,65; p3 = 0,18; p4 = 0,02; n1 = 5; n2 = 10; n3 = 4; n4 = 1; n1 + n2 + n3 + n4 = 20. 5 10 4 20 ⎛ 15 ⎞ ⎛ 65 ⎞ ⎛ 18 ⎞ ⎛ 2 ⎞ P(20;5;10;4;1) = ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟. 5! ⋅ 10! ⋅ 4! ⋅ 1! ⎝ 100 ⎠ ⎝ 100 ⎠ ⎝ 100 ⎠ ⎝ 100 ⎠ Exemplu. Se reia problema din exemplul anterior, presupunând că numărul produselor din lot este 100, iar extragerile se fac fără revenire. Soluţie: 5 C15 C15 85 a) se aplică schema bilei nerevenite cu două culori şi se obţine P = 20 C100 b) se aplică schema bilei nerevenite pentru o urnă cu mai multe culori şi avem 5 4 C15 C10 C18 C1 65 2 P= 20 C100 Exemplu. Să considerăm o schemă electrică alcătuită din n blocuri dispuse în serie: B1 B2 Bn

Notăm tot cu Bj evenimentul ca blocul Bj să iasă din funcţiune (să se defecteze). Atunci, schema electrică iese din funcţiune dacă se defectează cel puţin un bloc şi deci probabilitatea ca schema să iasă din funcţiune este: P(U Bj) = ∑ P(Bj) − ∑ P(Bj ∩ Bk) + ∑ P(Bj ∩ Bk ∩ Bl)+...+( −1) n −1 P(I Bj)
j=1 j=1 j< k j< k < l j=1 n n n

Exemplu. Considerăm o schemă electrică alcătuită din n blocuri dispuse în paralel:

B1 B2 Bn

Cu aceleaşi notaţii ca în exemplul anterior, se obţine că probabilitatea ca schema să iasă din funcţiune (eveniment D) este P(D) = P(I Bj) ≥ ∑ P(Bj) − (n − 1) . Dacă admitem că blocurile
j=1 j=1 n n

sunt scrise în ordinea în care este condiţionată defectare, atunci: P(D) = P(I Bj) =P(B1) ⋅ P(B2 / B1) ⋅ P(B3 / B1 ∩ B2)⋅...⋅P(Bn / B1 ∩ B2∩...∩ Bn − 1)
j=1 n

18

Exemplu. Să considerăm o schemă electrică alcătuită din blocuri serie-paralel, aşa cum este indicată în schema de mai jos:

B11 B12 B1n1

B21 B22 B2n2

Bm1 Bm2 Bmnm

Atunci, probabilitatea de defectare (păstrându-se semnificaţia evenimentelor) este dată de: P(D) = P( U ( I Bij)) = ∑ P( I Bij) − ∑ P( I Bij ∩ I Bkj)+...+( −1) m −1 P( I (I Bj))
i =1 j=1 i =1 j=1 i< k j=1 j=1 i =1 j=1 m ni m ni ni nk m ni

Exemplu. Să considerăm acum o schemă electrică alcătuită din blocuri dispuse paralel-serie, ca în schema de mai jos:

B11 B12 B1n1

B21 B22 B2n2

B1n1 B2n2 Bmnm

Atunci, probabilitatea de defectare este dată de:
P(D) = P( I ( U Bij)) ≥ ∑ P( U Bij) − (m − 1) =
i =1 j=1 i =1 j=1 ni ⎡ ⎤ n i −1 = ∑ ⎢∑ P(Bij) − ∑ P(Bij ∩ Bik)+...+( −1) P(I Bij)⎥ − (m − 1) j=1 i =1 ⎣ j=1 j< k ⎦ m ni m ni m ni

19

Capitolul 2 VARIABILE ALEATOARE. FUNCŢII ŞI DENSITĂŢI DE REPARTIŢIE 2.1. Variabile aleatoare Noţiunea de variabilă aleatoare este fundamentală în teoria probabilităţilor. Considerată intuitiv, legată de experiment, variabila aleatoare se poate defini ca fiind o funcţie reală pe mulţimea rezultatelor unui experiment. Cu alte cuvinte, valorile acestei funcţii sunt luate după cum s-a realizat un anumit eveniment, pentru un experiment dat. Să considerăm experimentul care constă în aruncarea cu două zaruri şi în care ne interesează suma punctelor obţinute. Dacă notăm cu Sk evenimentul care constă în faptul că la o aruncare a apărut suma k, k=2,3,…,12, atunci variabila aleatoare X, care este o funcţie reală pe mulţimea experimentelor {Sk, k=2,3,…,12}, are valorile X(Sk)=k. Acest lucru poate fi sintetizat astfel:
⎛ S2 S3 S4 S5 S6 S7 S8 S9 S10 S11 S12⎞ X: ⎜ ⎟ ⎝ 2 3 4 5 6 7 8 9 10 11 12 ⎠

Dar rezultatele Sk, 2 ≤ k ≤ 12 apar cu probabilităţile P(S2)=1/36; P(S6)=5/36; P(S10)=3/36; P(S3)=2/36; P(S7)=6/36; P(S11)=2/36); P(S4)=3/36; P(S8)=5/36; P(S12)=1/36 P(S5)=4/36; P(S9)=4/36;

şi atunci variabila aleatoare X poate fi scrisă:

⎛ 2 3 4 5 6 7 8 9 10 11 12 ⎞ ⎜ ⎟ ⎜ ⎟, X: ⎜ 1 2 3 4 5 6 5 4 3 2 1⎟ ⎜ ⎟ ⎝ 36 36 36 36 36 36 36 36 36 36 36 ⎠ ceea ce conduce la faptul că o variabilă aleatoare este o funcţie reală ale cărei valori sunt luate cu probabilităţile corespunzătoare unui sistem complet de evenimente. Din exemplul considerat rezultă că prin intermediul variabilelor aleatoare, evenimentele pot fi descrise cu ajutorul unor valori numerice reale, care în general sunt rezultatul unor observaţii. Vom da acum definiţia riguroasă din punct de vedere matematic a variabilei aleatoare cu care vom opera în continuare. Să considerăm câmpul de probabilitate {Ω,K,P} dat şi să notăm cu R mulţimea numerelor reale şi cu B tribul mulţimilor boreliene1 de pe R, astfel încât (R,B) este un câmp complet aditiv.

1

Tribul mulţimilor boreliene de pe dreapta reală este cel mai mic corp care conţine toate mulţimile deschise de pe dreaptă.

20

Definiţie. Aplicaţia X:Ω→ R se numeşte variabilă aleatoare dacă X-1(B)∈K, (∀)B∈Β. Observăm că dacă luăm B=(a,∞) atunci X-1(B)=X-1(a,∞)={w:X(w)∈(a,∞)}={ω:X(ω)>a}, a∈R arbitrar. Se demonstrează că definiţia introdusă mai sus este echivalentă cu definiţia de mai jos: Definiţie. Aplicaţia X:Ω→ R se numeşte variabilă aleatoare dacă: {ω: X(ω) > a}∈ K, (∀) a∈R.

În cele ce urmează vom folosi această definiţie şi adesea vom scrie prescurtat: {ω: X(ω)>a} = {X > a}. Având în vedere faptul că variabilele aleatoare dau posibilitatea scrierii evenimentelor cu ajutorul lor, punem în evidenţă următoarea propoziţie:
Propoziţie. X:Ω→ R este variabilă aleatoare dacă şi numai dacă este adevărată una din afirmaţiile (i) {ω:X(ω) ≥ a}∈K, (∀) a∈R (ii) {ω: X(ω) < a}∈K, (∀) a∈R (iii) {ω: X(ω) ≤ a}∈ K, (∀) a∈R Demonstraţie: se constată că : ∞ 1 1 {ω:X(ω) ≥ a} = I {ω:X (ω ) > a − }. Însã, {ω:X(ω ) > a - } ∈ K, n = 1,2, ( ∀ )a ∈R, n n n =1 ∞ 1 I1{ω: X (ω ) > a − n} ∈ K , (∀)a ∈R n=

{ω:X(ω) < a} = CΩ{ω:X(ω) ≥ a}∈K {ω:X(ω) ≤ a} = CΩ{ω:X(ω) > a}∈K, ceea ce demonstrează implicaţia (⇒). Implicaţia (⇐) rezultă în acelaşi mod. De aici rezultă o observaţie importantă: Cum
Observaţie. Dacă X este o variabilă aleatoare definită pe {Ω,K,P}, atunci, pentru orice a,b∈R, a<b, avem: X-1({a})∈K, X-1([a,b))∈K, X-1([a,b])∈K, X-1((a,b))∈K. Pentru exemplificare,

X-1((a,b))={ω: a< X(ω) < b} = {ω: X(ω) > a} ∩ {ω: X(ω) < b}. Ne interesează să vedem dacă, în urma compunerii de variabile aleatoare, obţinem tot variabile aleatoare, răspuns care se va desprinde din teoremele ce urmează:
Teoremă. Dacă X este variabilă aleatoare, iar b∈R, atunci: (1) X + b (2) bX (3) |X| (4) X2 1 , dacă X≠0 (5) X 21

sunt variabile aleatoare. Demonstraţie: Se vede imediat că toate aplicaţiile (1) - (5) sunt de la Ω→R. Rămâne să arătăm că este îndeplinită şi cea de a doua cerinţă.
(1) {ω :( X + b)(ω ) > a} = {ω : X (ω ) + b > a} = {ω : X (ω ) > b − a} ∈ K a ⎧ ⎪{ω : X(ω ) > b }, b > 0 ⎪ ( 2 ) {ω : bX(ω ) > a} = ⎨ ⎪{ω : X (ω ) < a }, b < 0 ⎪ b ⎩ / ⎧O, dacã a < 0 (3) {ω :| X(ω )| > a} = ⎨ ⎩{ω : X(ω ) > a} ∪ {ω : X(ω ) < -a}, a ≥ 0 / ⎧O, dacã a < 0 ( 4) {ω:X 2 (ω ) > a} = ⎨ ⎩{ω:| X(ω )|> a }, a ≥ 0 ⎧ ⎪{ω : X (ω ) > 0}, a = 0 ⎪ 1 1 ⎪ (5) {ω : > a} = ⎨{ω : X (ω ) > 0} ∩ {ω : X (ω ) < }, a > 0 a X(ω ) ⎪ 1 ⎪ {ω : X (ω ) > 0} ∪ [{ω : X (ω ) < 0} ∩ {ω : X (ω ) < }], a < 0 ⎪ a ⎩ Deci toate cele cinci aplicaţii sunt variabile aleatoare. Următoarea propoziţie va da posibilitatea să compunem diverse variabile aleatoare.

Propoziţie. Dacă X şi Y sunt variabile aleatoare, atunci

{ω:X(ω) > Y(ω)}∈K, {ω:X(ω) ≥ Y(ω)}∈K, {ω:X(ω) = Y(ω)}∈K.
Demonstraţie. Cum X,Y sunt variabile aleatoare reale şi X(ω) > Y(ω), există un număr real r astfel încât X(ω) > r’ > Y(ω). Fie (rk)k∈N⊂Q şi (r’k)k∈N⊂Q, rk r, r’k r. Atunci:

{ω:X(ω) > Y(ω)} = şi, de aici, rezultă că:

k ∈Ν

I [{ω: X (ω ) > r } ∩ {ω: Y (ω ) < r }]
k ' k

{ω:X(ω) > Y(ω)} ∈ K Celelalte două afirmaţii rezultă din faptul că {ω:X(ω) ≥ Y(ω)} = CΩ{ω:Y(ω) > X(ω)} şi {ω:X(ω) = Y(ω)} = {ω:X(ω) ≥ Y(ω)} ∩ {ω:X(ω) ≤ Y(ω)}, ceea ce dovedeşte afirmaţia. Putem acum să dăm o teoremă de compunere a două variabile aleatoare.
Teoremă. Dacă X şi Y sunt variabile aleatoare, atunci (1) X - Y (2) X + Y (3) XY 22

X , dacă Y≠0 Y sunt variabile aleatoare. Demonstraţie. (1) Este clar că X - Y:Ω→ R.. Cum {ω:X(ω) - Y(ω) > a} = {ω:X(ω) > Y(ω) + a} ∈ K conform cu propoziţiile anterioare, rezultă că X - Y este variabilă aleatoare.

(4)

(2) Deoarece X + Y = X - (-Y) am redus cazul acesta la cazul (1). 1 (3) XY = [(X + Y) 2 − (X − Y) 2 ] . Cum X + Y, X - Y şi pătratele lor sunt variabile aleatoare, 4 rezultă afirmaţia. X 1 = X⋅ (4) şi, deci, raportul este tot o variabilă aleatoare. Y Y În mulţimea variabilelor aleatoare, un rol important îl au acelea care pot lua o mulţime finită sau numărabilă de valori.
Definiţie. Spunem că variabila aleatoare X este de tip discret dacă ia o mulţime de valori cel mult numărabilă. Un exemplu de variabilă aleatoare discretă cu o mulţime numărabilă de valori este variabila aleatoare Poisson: ⎛k ⎞ ⎜ −λ k ⎟ X :⎜ e λ ⎟ ⎜ , k = 0,1, 2,...⎟ ⎝ k! ⎠ Constanta λ>0 este parametrul repartiţiei (în momentul în care avem o variabilă de tip discret ⎛ xk ⎞ şi am dat X : ⎜ ⎟ spunem că avem o repartiţie; în exemplul dat este repartiţia Poisson ⎝ pk , k ∈ I ⎠

de parametru λ>0).
Definiţie. Spunem că variabila aleatoare X este simplă dacă poate lua numai un număr finit de valori.

Ca exemplu de variabilă aleatoare simplă, să considerăm variabila binomială: ⎞ ⎛k ⎟. X : ⎜ p k n− k ⎝ Cn p q , k = 0,1, 2,..., n⎠ Denumirea derivă din faptul că P(X=k) = C k p k q n − k sunt tocmai termenii din dezvoltarea n binomului (p + q)n. Variabila aleatoare simplă ⎧1, dacã ω ∈ A IA(ω ) = ⎨ ⎩0, dacã ω ∈ CΩA o vom numi variabilă aleatoare indicator al mulţimii A.

23

Dacă variabila aleatoare X ia valorile x1,x2,…,xn pe mulţimile A1,A2,…,An respectiv, unde (Ai)1≤i≤n constituie o partiţie a lui Ω (sistem complet de evenimente), adică Ai∩Aj = ∅ dacă i≠j şi

U A = Ω , atunci putem scrie:
i i =1

n

X (ω ) = ∑ xi I Ai (ω ), ω∈R.
i =1

n

Rezultatul care urmează ne va da posibilitatea să aproximăm variabilele aleatoare oarecare cu ajutorul variabilelor aleatoare simple. Teoremă. Dacă X este o variabilă aleatoare oarecare, atunci există un şir crescător (Xn)n∈N* de variabile aleatoare simple convergent către X.
Demonstraţie. Să presupunem mai întâi că X ≥ 0; atunci, pentru orice n∈N*, să punem: i -1 i ⎧i − 1 n ⎪ n , dacã n ≤ X (ω ) < n , i = 1,2,..., n ⋅ 2 Xn(ω ) = ⎨ 2 2 2 ⎪n, dacã X(ω ) ≥ n ⎩

Din modul cum am definit Xn rezultă că este o variabilă aleatoare simplă, oricare ar fi n∈N*, iar şirul (Xn)n∈N* este crescător. Dacă X(ω) < ∞, atunci: i i −1 1 0 ≤ X (ω ) − Xn(ω ) ≤ n − n = n 2 2 2 şi, de aici:
lim Xn (ω ) = X (ω ) , uniform în raport cu ω.
n →∞

Dacă X(ω) = ∞, atunci Xn(ω) = n, pentru orice n∈N* şi deci lim Xn(ω ) = X (ω ) .
n →∞

Dacă X nu este nenegativă, atunci ea poate fi pusă sub forma X = X+ - X-, unde + X = sup (X,0), X- = -inf (X,0), care sunt variabile aleatoare nenegative cărora li se poate aplica rezultatul menţionat, ceea ce demonstrează complet teorema. 2.2. Funcţia de repartiţie. Densitate de repartiţie.
Proprietăţi. Să considerăm un câmp de probabilităţi {Ω,K,P} şi X o variabilă aleatoare definită pe acest câmp. Definiţie. Numim funcţie de repartiţie a unei variabile aleatoare, X, aplicaţia FX: R→[0,1], definită prin relaţia: FX(x) = P({ω:X(ω) < x}) Exemplu. Să considerăm variabila aleatoare binomială ⎛k ⎞ ⎟ X :⎜ k k n− k ⎝ Cn p q , k = 0,1, 2,..., n⎠ Aplicând definiţia funcţiei de repartiţie, obţinem:

24

⎧0 ⎪C 0 p 0 q n ⎪ n 0 1 ⎪Cn p 0 q n + Cn p1q n −1 ⎪k ⎪ FX ( x ) = ⎨∑ Cnj p j q n − j ⎪ j=0 ⎪ n −1 j j n − j ⎪∑ C n p q ⎪ j=0 ⎪1 ⎩

, x≤0 , 0 < x ≤1 , 1< x ≤ 2 , k < x ≤ k +1 , n −1 < x ≤ n , x>n

S-a obţinut o funcţie în trepte (în scară) cu salturi în punctele 0,1,2,…,n.
Propoziţie. Funcţia de repartiţie a unei variabile aleatoare X are următoarele proprietăţi:

(1) FX( −∞ ) = lim FX(x) = 0; FX(+ ∞ ) = lim FX(x) = 1
x→−∞ x→∞

(2) FX(x1) ≤ FX(x2), dacă x1 < x2 (este nedescrescătoare) (3) FX(x) = FX(x-0) = lim FX(y) (este continuă la stânga)
y↑ x

Demonstraţie. (1) Fie şirul (Xn) n∈N, Xn+1 < Xn, n∈N şi lim Xn = -∞ şi să notăm An = {ω:X(ω) < Xn}.
n →∞

Atunci, şirul de evenimente (An) n∈N este descendent, An+1⊂An, n∈N şi Urmează, atunci, că:
lim P(An) = P(lim An) = P( I An) = 0
n →∞ n →∞

n ∈N

IA

n

/ =O .

Deci, lim P({ω :X(ω ) < xn}) = lim Fx (xn) = F(-∞ ) = 0 .
n →∞ n →∞

n ∈Ν

Fie acum un şir (x’n) n∈N, crescător, x’n<x’n+1, n∈N cu lim x' n = + ∞ .
n →∞

Notăm Bn={ω:X(ω) < x’n}. Am obţinut un şir ascendent de evenimente (Bn) n∈N, Bn⊂Bn+1, n∈N şi putem scrie: lim P(Bn) = P(lim Bn) = P( U Bn ) = 1 ,
n →∞ n →∞ n ∈Ν

adică:

lim P(ω :X(ω ) < xn) = 1 ş i, deci, lim FX(xn) = FX(+ ∞ ) = 1
n →∞ n →∞

(2) Cum x1 < x2, putem scrie: {ω:x1 ≤ X(ω) < x2} = {ω:X(ω) < x2} - {ω:X(ω) < x1}, {ω:X(ω) < x1}⊂{ω:X(ω) < x2} P(ω:x1 ≤ X(ω) < x2) = P(ω:X(ω) < x2) - P(ω:X(ω) < x1) = FX(x2) - FX(x1) ≥ 0 (3) Să considerăm şirul (yn)n∈N⊂ R, yn < yn+1, n∈N, yn < x şi lim yn = x .
n →∞

25

Dacă punem An = {ω:yn ≤ X(ω) < x}, observăm că An⊃An+1, n∈N,
n →∞ n ∈Ν

n ∈Ν
n →∞ n →∞

IA

n

/ = O şi, din

lim P(An) = P( I An) = 0 , rezultă că: lim P(ω :yn ≤ Xn(ω ) < x) = lim [Fx (x) - Fx (yn)] = 0 ,

adică lim Fx (yn) = Fx (x - 0) = Fx (x) .
n →∞

Urmează de aici că, în mod necesar, orice funcţie de repartiţie are proprietăţile enumerate. Mai mult, orice funcţie cu aceste proprietăţi este o funcţie de repartiţie, deci că proprietăţile (1),(2),(3) sunt necesare şi suficiente pentru FX funcţie de repartiţie. Ca o completare la cele de mai sus, dăm unele expresii utile în calcul.
Propoziţie. Dacă X este o variabilă aleatoare şi x1,x2∈R, x1 < x2, atunci: P(ω:x1 ≤ X(ω) < x2) = FX(x2) - FX(x1) P(ω:x1 < X(ω) < x2) = FX(x2) - FX(x1) - P(ω:X(ω) = x1) P(ω:x1 < X(ω) ≤ x2) = FX(x2) - FX(x1) + P(ω:X(ω) = x2) - P(ω:X(ω) = x1) P(ω:x1 ≤ X(ω) ≤ x2) = FX(x2) - FX(x1) + P(ω:X(ω) = x2). Demonstraţia rezultă imediat, iar noi o vom da numai pentru una din relaţii, pentru celelalte făcându-se analog.

{ω:x1 < X(ω) < x2} = {ω:X(ω) < x2} - {ω:X(ω) ≤ x1} = = {ω:X(ω) < x2} - [{ω:X(ω) < x1} ∪ {ω:X(ω) = x1}]. Luând probabilitatea şi ţinând cont de faptul că {ω:X(ω) ≤ x1} ⊂ {ω:X(ω) < x2}; x1 < x2 şi {ω:X(ω) < x1} ∩ {ω:X(ω) = x1} = ∅ şi se obţine: P(ω:x1 < X(ω) < x2) = FX(x2) - FX(x1) - P(ω:X(ω) = x1).
Observaţie. P(ω:X(ω) = xi) reprezintă saltul funcţiei de repartiţie FX în punctul xi, i=1,2. Dacă FX este continuă, atunci P(ω:X(ω) = xi) = 0, i=1,2. Din definiţia funcţiei de repartiţie rezultă că ea are salturi numai la dreapta. Cum FX este o funcţie cu variaţia mărginită, cu variaţia totală 1, rezultă că suma tuturor salturilor este 1. Teorema care urmează stabileşte că mulţimea tuturor salturilor ale funcţiei FX este cel mult numărabilă. Demonstraţie. Cum suma tuturor salturilor este 1, rezultă că: 1 salturi mai mari ca : cel mult 1 2 1 salturi mai mari ca : cel mult 2 3 ………………………………….. 1 salturi mai mari ca : cel mult n n …………………………………. Deci, mulţimea tuturor salturilor este o reuniune numărabilă de mulţimi cel mult numărabile, care este o mulţime cel mult numărabilă. Observaţie. Unii autori definesc funcţia de repartiţie prin relaţia: GX(x) = P(ω: X(ω) ≤ x), x∈ R. 26

Deosebirea constă numai în faptul că, definită în acest mod, se modifică proprietatea de continuitate, funcţia GX fiind continuă la dreapta, spre deosebire de FX care am văzut că este continuă la stânga. Aşadar, când se efectuează calcule cu funcţia de repartiţie, va trebui să fim atenţi cum s-a definit funcţia, dacă aceasta este discontinuă (în cazul funcţiilor de repartiţie continue am văzut că nu sunt probleme). Să lămurim un aspect important privind corespondenţa între mulţimea variabilelor aleatoare şi mulţimea funcţiilor de repartiţie. Din definiţia funcţiei de repartiţie rezultă că fiecărei variabile aleatoare îi corespunde o singură funcţie de repartiţie. Reciproca, însă, nu-i adevărată, adică, fiind dată o funcţie de repartiţie, ea nu determină în mod unic variabila aleatoare. Vom dovedi acest lucru pe baza unui contraexemplu. Fie câmpul de probabilitate {[0,1], β[0,1], P}, unde P este măsura intervalului. Pe acest câmp, definim: 1 1 ⎧ ⎧ ⎪1 , ω ∈[0, 2 ) ⎪- 1, ω ∈[0, 2 ) ⎪ ⎪ X(ω ) = ⎨ ; Y(ω ) = ⎨ ⎪− 1, ω ∈[ 1 ,1] ⎪1 , ω ∈[ 1 ,1] ⎪ ⎪ 2 2 ⎩ ⎩ Se vede imediat că X ≠ Y şi că: ⎧0 , x ≤ -1 ⎪1 ⎪ FX(x) = P(ω:X(ω) < x) = ⎨ ,−1 < x ≤ 1 ⎪2 ⎪1 , x > 1 ⎩ ⎧0 , x ≤ -1 ⎪1 ⎪ FY(x) = P(ω:X(ω) < y) = ⎨ ,−1 < x ≤ 1 ⎪2 ⎪1 , x > 1 ⎩ Cum FX = FY pe R, rezultă afirmaţia.

Densitate de repartiţie. Dacă există o funcţie f: R→R+, integrabilă pe R şi astfel încât F(x) =

-∞

∫ f(t) dt ,

x

atunci vom numi funcţia f densitate de repartiţie a variabilei aleatoare X care are funcţia de repartiţie F. Din definiţia dată funcţiei f, rezultă că aceasta are următoarele proprietăţi: (1) f(x) ≥ 0, x∈R (2)
-∞

∫ f(x) dx = 1

Se constată imediat că dacă există densitatea de repartiţie f, atunci F este derivabilă şi F’(x) = f(x), iar probabilitatea ca variabila aleatoare X să ia valori cuprinse între x1 şi x2, x1<x2 este dată de: P(ω:x1 ≤ X(ω) < x2) = F(x2) - F(x1) = ∫ f(t) dt
x1 x2

27

Exemplu. Să se determine constanta n astfel încât f: R→R+ definită prin: , x ∉ (0,1) ⎧0 , f(x) = ⎨ a-1 b-1 , x ∈ (0,1) ⎩kx (1 - x)

unde a,b >0 sunt parametri. Dacă k ≥0, atunci f(x) ≥0, x∈ R. Din condiţia
1 -∞

∫ f(x) dx = 1 rezultă:

k ⋅ ∫ x a-1 (1- x) b-1 dx = 1
0

Cum

∫x
0

1

a-1

(1 - x)

b-1

, x ∉ ( 0,1) ⎧0 1 ⎪ 1 şi f(x) = ⎨ dx = β(a,b), obţinem k = x a −1 (1 − x ) b−1 , x ∈ ( 0,1). β (a, b) ⎪ β (a, b) ⎩

Variabila aleatoare X care are această densitate de repartiţie, spunem că urmează o lege beta de parametri a şi b.
Exemplu. Să se verifice că funcţia f: R→R, definită prin relaţia: ⎧a cos x , x ∈[−π / 2, π / 2] f(x) = ⎨ , x ∉[−π / 2, π / 2] ⎩0

poate fi o densitate de repartiţie; alegând convenabil constanta a, să se determine funcţia de repartiţie corespunzătoare. Să luăm a ≥ 0, căci pe intervalul [-π/2, π/2], cos x ≥ 0 şi să punem condiţia π /2 π /2 ∞ 1 ∫ f(x) dx = 1. În cazul nostru, a-π∫/ 2cos x dx = 1 şi cum -π∫/ 2cos x dx = 2 , rezultă a = 2 . -∞ Atunci, , x ≤ -π / 2 ⎧0 ∞ ⎪1 1 ⎪ F(x) = ∫ f ( t ) dt = ⎨ (sin x + 1) , - π / 2 < x ≤ π / 2 2 -∞ ⎪2 , x>π/2 ⎪1 ⎩ Dacă X este o variabilă aleatoare de tip discret, ⎛ xn ⎞ X: ⎜ ⎟ ⎝ Pn , n ∈ I ⊂ Ν ⎠ Pn = P(ω: X(ω) = xn), n∈I, cel mult numărabilă, atunci: F(x) = ∑ Pn ,
x n <x

care este o funcţie de repartiţie de tip discret. 2.3. Caracteristici numerice ale funcţiilor de repartiţie. Fie X o variabilă aleatoare, F funcţia sa de repartiţie şi q∈N, q ≥ 2.
Definiţie. Numim q-cvantile ale variabilei aleatoare X, numerele finite (ci(X))1≤i≤q-1 pentru q-i care P(ω:X(ω) ≥ ci(X)) ≥ , P(ω:X(ω) ≤ ci(X)) ≥ i/q, unde 1 ≤ i ≤ q-1. q 28

Din relaţia P(ω:X(ω) ≥ ci(X)) + P(ω:X(ω) < ci(X)) = 1 rezultă că q-cvantilele se definesc echivalent: F(ci(X) = 1 - P(ω:X(ω) ≥ ci(X)) ≤ 1 F(ci(X) + 0) ≥
q-i i = q q

i , 1 ≤ i ≤ q-1 q Se constată imediat că, în general, q-cvantilele nu sunt unic determinate. Dar dacă F este continuă şi crescătoare, atunci q-cvantilele se pot determina în mod unic ca soluţii ale ecuaţiilor: i F(ci(X)) = , 1 ≤ i ≤ q − 1 q Luând valori particulare ale lui q, obţinem pentru q=2 mediana, pentru q=4 cvartilele, pentru q=10 decilele, pentru q=100 centilele. Aşadar, mediana variabilei aleatoare X este numărul real c2(X) care satisface condiţiile: 1 P(ω:X(ω) ≥ c2(X)) ≥ 2 1 P(ω:X(ω) ≤ c2(X)) ≥ 2 sau, cu ajutorul funcţiei de repartiţie 1 F(c2(X)) ≤ 2 1 F(c2(X)+0) ≥ 2

Dacă graficul funcţiei y = F(x) se completează în punctele de discontinuitate cu rezultatele cuprinse între punctele (x,F(x)) şi (x,F(x+0)), atunci graficul y = F(x) are sau un 1 singur punct sau un segment paralel cu axa OX în comun cu dreapta y = . Punctul comun 2 sau punctele comune sunt toate puncte mediane ale funcţiei de repartiţie F. Când F este 1 continuă şi strict crescătoare, mediana se obţine ca soluţie a ecuaţiei F(x) = (soluţie care 2 este unică). Dacă există densitatea de repartiţie f(x) atunci se pot determina uşor q-cvantilele cu ajutorul ecuaţiei: c i (x) i ∫∞ f(x) dx = q , i = 1,2,…,q-1, sau, echivalent:
c i (x)

-∞

∫ f(x) dx = ∫ f(x) dx = …= ∫( f(x) dx = ∫ f(x) dx = q )
c1 (x)
cq -2 x

c 2 (x)

cq -1 ( x )

1

c q -1 (x)

În cazul q = 2, avem:
me -∞

∫ f(x) dx = ∫ f(x) dx = 2
m2

1

29

unde me este punctul mediană al repartiţiei.
Definiţie. Fiind dată funcţia de repartiţie F care are densitatea f, orice punct de maxim local pentru f se numeşte mod (punct modal). După numărul punctelor de maxim pentru f, avem repartiţii unimodale, bimodale sau multimodale în general. În cazul repartiţiilor discrete, punctul modal poartă numele de valoarea cea mai probabilă. Dacă valorile variabilei aleatoare X sunt (xn)n∈I, I⊂N şi sunt presupuse a fi aşezate în ordine crescătoare, notând Pk = P(X=xk), valoarea cea mai probabilă xk este cea care corespunde probabilităţii Pk ce satisface dubla inegalitate

Pk-1 ≤ Pk ≥ Pk+1.
Exemple. 1) Să se calculeze valoarea mediană pentru repartiţia cu densitatea ⎧λe - λx , x > 0 f(x) = ⎨ ,x ≤ 0 ⎩0 2) Să se determine valoarea modală pentru repartiţie N(m,σ). 3) Să se stabilească valoarea cea mai probabilă pentru repartiţiile: ⎞ ⎛k ⎞ ⎛k ⎟ ⎜ k ⎟ ; Y = ⎜ -λ λ X: ⎜ k k n − k ⎟ ⎝ C n p q , k = 0,1,2,..., n⎠ ⎜e , k = 0,1,2,...⎟ ⎠ ⎝ k! Soluţii. me 1 ln 2 1 1) ∫ λe - λx dx = conduce la 1 - e - λm e = , de unde me = . λ 2 2 0 2) f(x; m,σ) =
1

σ 2π

e
3

( x − m)2 2σ 2

x-m − ; f '(x) = - 3 e σ 2π

( x − m )2 2σ 2

= 0 conduce la xmod = m.

< 0 rezultă că este vorba de un maxim. σ 2π 3) C k-1 p k −1q n − k +1 ≤ C k p k q n − k ≥ C k +1 p k +1q n − k −1 ne conduce la np - q ≤ k ≤ np + p, n n n

Cum f’’(xmod) = -

1

care este valoarea cea mai probabilă pentru X. Analog,
e -λ

λ k-1
( k − 1)!

≤ e -λ

λk
k!

≥ e -λ

λ k +1
(k + 1)!

ne conduce la valoarea cea mai probabilă λ-1 ≤ k ≤ λ. 2.4. Vectori aleatori. Funcţii de repartiţie şi densităţi de repartiţie multidimensionale. Dacă {Ω,K,P} este un câmp de probabilitate şi (Rn,Bn) un câmp complet aditiv, cu R = Rx⋅ … ⋅xR, Bn = B⋅…⋅B cu semnificaţia menţionată, atunci X:Ω→Rn este o variabilă aleatoare n-dimensională (un vector aleator n-dimensional) dacă
n

30

X-1(B) = {ω:(X1(ω),X2(ω),…,Xn(ω)) ∈ B}, (∀) B=B1x…x Bn ∈Bn.. Ca şi în cazul unidimensional, vom considera definiţia echivalentă, X:Ω→Rn este variabilă aleatoare n-dimensională dacă {ω:X1(ω) < x1, X2(ω) < x2,…,Xn(ω) < xn}∈ K, (∀) (x1,x2,…,xn)∈Rn.
Definiţie. Numim funcţie de repartiţie n-dimensională a variabilei aleatoare vectoriale X=(X1,X2,…,Xn), funcţia F:Rn→[0,1] definită prin:

FX(x1,x2,…,xn) = P({{ω:X1(ω) < x1, X2(ω) < x2,…,Xn(ω) < xn}) Ca şi în cazul unidimensional, funcţia de repartiţie are o seamă de proprietăţi care-i sunt specifice şi care o caracterizează: 1) Funcţiile parţiale xk → FX(x1,x2,…,xk-1, xk, xk+1,…,xn), k ∈1, n sunt nedescrescătoare, adică FX este nedescrescătoare în raport cu fiecare argument. 2) FX este continuă la stânga în raport cu fiecare argument 3) Dacă cel puţin una dintre componente xi → -∞, atunci FX → 0, adică: lim FX (x1,..., xi - 1, xi, xi + 1,..., xn) = 0
x i →−∞

4)

x1 →+∞ ... x n →+∞

lim FX (x1, x2,..., xn) = 1

(dacă toate componentele xj → ∞ , funcţia de repartiţie FX tinde către 1). 5) Pentru orice două n-upluri (x1,x2,…,xn) ∈Rn, (y1,y2,…,yn) ∈Rn astfel încât xj < yj, 1≤j≤n, are loc: FX(y1, y2,..., yn) - ∑ Pi + ∑ Pij −
i=1 i < j =1 n n i < j< k =1

∑P

n

ijk

+...+( −1) n FX(x1, x2,..., xn) ≥ 0

unde: Pi = FX(y1,…,yi-1,xi,yi+1,…,yn) Pij = FX(y1,…,yi-1,xi,yi+1,…,yj-1,xj,yj+1,…,yn), 1≤ i ≤ j ≤ n şi aşa mai departe, cu Pijk,… Proprietatea (5) completează proprietăţile funcţiei de repartiţie, astfel încât orice funcţie de repartiţie n-dimensională are proprietăţile amintite şi reciproc. Ea reprezintă faptul că: P(ω:(X1(ω),X2(ω),…,Xn(ω)) ∈ [x1,y1)⋅[x2,y2)⋅…⋅[xn,yn)) ≥ 0, iar acest lucru se vede foarte bine în cazul n=2, când ea devine F(y1,y2) - F(x1,y2) - F(x2,y1) + F(x1,x2) ≥ 0 care, evident, reprezintă probabilitatea de mai jos P(x1≤X1<y1; x2≤X2<y2) ≥ 0 Să considerăm mulţimea (x1,y1)⋅(x2,y2). u2
31

y2

x2 0 x1 y1 u1

Cum {ω: x1≤X1(ω)<y1; x2≤X2(ω)<y2} = = {ω:X1(ω)<y1; X2(ω)<y2} - [{ω:X1(ω)<x1, X2(ω)<y2} ∪ {ω:X1(ω)<y1, X2(ω)<y2}], iar şi A = {X1<y1; X2<y2} ⊃ A1∪A2 = {X1<x2; X2<y2} ∪ {X1<y1; X2<x2} A1∩A2 = {X1<x1, X2<x2}≠∅.

Luând probabilitatea şi folosind proprietăţile acesteia, se obţine imediat rezultatul. Să observăm că există funcţii F:Rn→[0,1] care au proprietăţile (1)-(4) şi care nu pot fi funcţii de repartiţie, deoarece nu îndeplinesc proprietatea (5). Iată, în cazul n=2, un exemplu care justifică afirmaţia. Fie F:R2→R definită prin: ⎧0 , dacă x ≤ 0 sau y ≤ 0 sau x + y ≤ 2 F(x, y) = ⎨ ⎩1 , în rest Deci, pe D1={(x,y)⏐x≤0 sau y≤0 sau x+y≤2} F ia valoarea zero, iar pe D2 = C R 2 D1 ia valoarea 1.

(0,2) D2 D1 (2,0)

Să luăm acum y1=y2=2; x1=x2=1. În acest caz, F(2,2) - F(1,2) - F(2,1) + F(1,1) = 1 - 1 - 1 + 0 = -1 şi, deci, expresia dată de (5) nu poate reprezenta probabilitatea unui eveniment. Să introducem acum noţiunea de densitate de repartiţie n-dimensională. Dacă există o funcţie f:Rn→R continuă şi integrabilă pe Rn, astfel încât:
x1 x 2

F(x1,..., xn) =

−∞−∞

∫ ∫ ... ∫ f (u , u ,..., u ) du du ...du ,
1 2 n 1 2 n

xn

−∞

atunci funcţia f poartă numele de densitate de repartiţie n-dimensională a vectorului aleator (X1,X2,…,Xn). Din definiţia dată, rezultă imediat că funcţia f are proprietăţile: (i) f(x1,x2,…,xn)≥0 oricare ar fi (x1,x2,…,xn)∈Rn

32

(ii)

−∞−∞

∫ ∫ ... ∫ f (u , u ,..., u ) du du ...du
1 2 n 1 2

∞ ∞

n

=1

−∞

∂ n F(x1, x2,..., xn) Tot din definiţie rezultă că există ∂x1 ∂x2... ∂xn n ∂ F(x1, x2,..., xn) . ∂x1 ∂x2... ∂xn

şi că

f(x1,x2,…,xn)=

Să considerăm acum câmpul de probabilitate {Ω,K,P}, (Xα)α∈I o familie de variabile aleatoare (I fiind o familie de indici).
Definiţie. Familia (Xα)α∈I este o familie de variabile aleatoare independente, dacă pentru orice J⊂I, J finită şi orice familie de mulţimi boreliene (Bα)α∈J are loc relaţia:
− − P( I X α 1 ( Bα )) = ∏ P( X α 1 ( Bα ))

α ∈J

α ∈J

Se poate demonstra următoarea teoremă, importantă în aplicaţii, relativ la independenţa variabilelor aleatoare. Teoremă. Condiţia necesară şi suficientă ca (Xα)α∈I să fie independente este ca pentru orice J⊂I, J finită, să avem: P( I X α < aα )) = ∏ P( X α < aα )) , aα∈R, α∈J
α ∈J α ∈J

Vom introduce acum noţiunea de funcţie de repartiţie marginală. Dacă F(x1,x2,…,xn) este funcţie de repartiţie a vectorului aleator (X1,X2,…,Xn) atunci:
x1 →∞ ... xi −1 →∞ xi +1 →∞ ... x n →∞

lim F ( x1, x 2,..., xi − 1, xi, xi + 1,... xn ) = Fi( xi ), i ∈1, n

se numeşte funcţie de repartiţie marginală a variabilei Xi.. Analog, putem introduce o repartiţie marginală relativ la k variabile , 1 ≤ k < n. Astfel, de exemplu, dacă alegem primele k variabile ale vectorului (X1,X2,…,Xk,…,Xn), atunci
x k +1 →∞ ... x n →∞

lim F ( x1, x 2,..., xk , xk + 1,... xn ) = Fx 1 , . . . , x k ( x1,..., xk ) ,

ceea ce se poate exprima imediat când este vorba de variabilele Xi 1 , Xi 2 ,..., Xi k şi obţinem FXi1 ,Xi 2 ,...,Xi k ( xi 1 , xi 2 ,..., xi k ) . Acelaşi lucru este valabil în cazul densităţilor de repartiţie ndimensionale. Astfel, dacă f(x1,x2,…,xn) este densitatea de repartiţie a vectorului aleator (X1,X2,…,Xn), atunci densitatea de repartiţie marginală a variabilei Xi este dată de:

33

f Xi (xi) =

−∞

∫ ... ∫ fi (x1,..., xi - 1, xi, xi + 1,..., xn)∏ dx j
−∞ j ≠i j =1

n

Desigur că, în mod asemănător, se obţine:

f X1,X2,...,Xk (x1, x2, . . . , xk) =

∫ ... −∞fi (x1,..., xn) ∏ dx j ∫ −∞ 442443 j = k +1 1 4 4
n− k

n

Dacă componentele vectorului aleator X=(X1,X2,…,Xn) sunt variabile aleatoare discrete, atunci repartiţia n-dimensională este dată de:

⎛ (x i1 , x i2 ,..., x in ) ⎞ ⎜ ( X1, X2,..., Xn ) : ⎜ P (i1, i2,..., in) ∈ I1 ⋅ I2⋅...⋅In⎟ , ⎟ ⎝ i1,i2,...,in ⎠
Ij, 1 ≤ j ≤ n cel mult numărabile, iar
P = P(X1 = x , X2 = x ,..., Xn = x ) i1,i2,...,in i1 i2 in

Atunci, repartiţia marginală a variabilei Xk este

⎛ x ik Xk : ⎜ ⎜P ⎝ *...*ik*...*
unde: P
*...* k*...*

⎞ ik ∈ Ik⎟ , ⎟ ⎠

i i i i II I I Ca şi în cazul variabilelor aleatoare de tip continuu, P = i1,i2,...,ik*...*

i

=

( 1,..., k-1, k+1,..., n) ∈ 1⋅ 2⋅...⋅ k-1⋅ k+1⋅...⋅ n

I

P i1,i2,...,in

( k+1,..., n) ∈ k+1⋅...⋅ n

i

i

I

I

P i1,i2,...,ik,ik+1,...,in

Să vedem ce devin aceste relaţii pentru n=2 atât în cazul continuu, cât şi în cel discret. Dacă (X,Y) este un vector aleator cu funcţia de repartiţie F(x,y) şi densitatea de repartiţie f(x,y), atunci:
F1(x) = lim F(x, y); F2(y) = lim F(x, y)
y →∞ x →∞

f1(x) = ∫ f(x, y)dy; f2(y) = ∫ f(x, y)dx
-∞ -∞

În cazul discret, fie repartiţia vectorului (x,y)

34

⎛ (xi, yi) ⎞ (X, Y) : ⎜ i = 1,2,... , m; j = 1,2,..., n⎟ , ⎠ ⎝ pij

pe care să o scriem sub forma tabelului de mai jos: Y X x1 x2 … xi … xm p*j unde am pus: pij=P(X=xi, Y=yj), i=1,2,…,m; j=1,2,…,n pi* = ∑ pij, i = 1,2,..., m; p * j = ∑ pij, j = 1,2,..., n
j=1 i=1 n m

y1

y2 … yj … yn

pi* p1* p2* pi* pm*

p11 p12 … p1j … p1n p21 p22 … p2j … p2n pi1 pi2 … pij … pin

pm1 pm2 … pmj … pmn p*1 p*2 … p*j … p*n

∑∑p = ∑p = ∑p
ij i* i=1 j =1 i =1 j =1

m

n

m

n

* j

=1

Cu ajutorul funcţiilor de repartiţie marginale putem exprima acum simplu condiţia de independenţă a componentelor X1, X2,…,Xn ale unui vector aleator (X1,X2,…,Xn). Deci, variabilele aleatoare X1,X2,…,Xn sunt independente dacă şi numai dacă F(x1, x2,..., xn) = ∏ Fj(xj) ,
j=1 n

sau, în cazul în care există densităţi de repartiţie, f(x1, x2,..., xn) = ∏ fj(xj)
j=1 n

Dacă X1,X2,…,Xn sunt de tip discret vom avea

p
oricare ar fi ik∈Ik, k=1,2,…,n.

i1i2...in

=p

p ... p , **...*in i1*...* *i2*...*

Pentru n=2 relaţiile devin: F(x,y) = F1(x) ⋅ F2(y) f(x,y) = f1(x) ⋅ f2(y) Pij = Pi* ⋅ P*j , i = 1, 2, ..., m; j = 1, 2, ..., n O noţiune importantă pentru aplicaţii o constituie cea de repartiţie condiţionată. Având în vedere aplicaţiile, precum şi dificultăţile care apar în tratarea acestei noţiuni, ne vom referi la densitatea de repartiţie condiţionată în cazul continuu şi repartiţie condiţionată în cazul discret, pentru cazul particular n=2.
35

Fiind dat vectorul aleator (X,Y), se defineşte densitatea de repartiţie a variabilei aleatoare X condiţionată de Y=y şi pe care o vom nota f(x/y) prin: f(x, y) f(x, y) = ∞ f(x / y) = f2(y) ∫ f(x, y) dx
−∞

În mod analog, avem densitatea de repartiţie cu variabile aleatoare y condiţionată de X = x:
f(y / x) = f(x, y) = f1(x) f(x, y)
−∞

∫ f(x, y) dy

În cazul vectorilor aleatori (x,y) cu componentele X şi Y variabile aleatoare discrete, avem:
⎛ xi / Y = yj ⎞ X / Y = yj : ⎜ i ∈ I⎟ , j ∈ J ⎝ P(X = xi / Y = yj ⎠

şi analog:
⎛ yj / X = xi ⎞ Y / X = xi : ⎜ j ∈J⎟ , i ∈I ⎝ P(Y = yy / X = xi ⎠ P(X = xi, Y = yj) pij = P(X = xi / Y = yj) = p(xi / yj) = P(Y = yj) p*j P(X = xi, Y = yj) pij P(Y = yj / X = xi) = p(yj / xi) = = , i∈I, j∈J P(X = xi) pi *

Exemplu. Se consideră vectorul aleator (X,Y) cu densitatea de repartiţie: ⎧1 ⎪ (x + y + 2) , dacă (x, y) ∈(0,2)x(1,3) f(x, y) = ⎨ 20 ⎪ 0 , în rest ⎩ Să se determine: (a) Densităţile de repartiţie marginale; (b) Funcţiile de repartiţie marginale; (c) Funcţia de repartiţie a vectorului aleator (X,Y); (d) Densităţile de repartiţie condiţionate. Soluţie: (a) Din definiţia densităţilor de repartiţie marginale rezultă: ⎧3 1 x+4 ∞ ⎪∫ (x + y + 2)dy = , x ∈(0,2) f1(x) = ∫ f(x, y)dy = ⎨ 1 20 10 −∞ ⎪ 0 , x ∉(0,2) ⎩

⎧2 1 y+3 ⎪∫ (x + y + 2)dx = , y ∈(1,3) f2(y) = ∫ f(x, y)dx = ⎨ 0 20 10 −∞ ⎪ 0 , y ∉(1,3) ⎩

36

(b)

⎧ ,−∞ < x ≤ 0 ⎪0 x ⎪1 ⎪ F1(x) = ∫ f1(u)du = ⎨ (x 2 + 8x) ,0 < x ≤ 2 −∞ ⎪ 20 ⎪1 ,x > 2 ⎪ ⎩ ⎧ ,−∞ < y ≤ 1 ⎪0 y ⎪1 ⎪ F2(y) = ∫ f2(v)dv = ⎨ (y 2 + 6y - 7) ,1 < y ≤ 3 −∞ ⎪ 20 ⎪1 ,y> 3 ⎪ ⎩
F(x, y) =

(c)
−∞ −∞

∫ ∫ f(u, v) du dv =
, x ∈( −∞,0] sau y ∈(-∞,1] , (x, y) ∈(0,2]x(1,3] , (x, y) ∈(2, ∞ )x(1,3] , (x, y) ∈(0,2]x(3, ∞ ) , (x, y) ∈(2, ∞ )x(3, ∞ )

x y

⎧ ⎪0 ⎪1 ⎪ ( x 2 y + xy 2 + 4 xy − x 2 − 10 x ) ⎪ 40 ⎪1 = ⎨ ( y 2 + 6 y − 7) ⎪ 20 ⎪ 1 ( x 2 + 8x ) ⎪ 20 ⎪ ⎪1 ⎩

(d) Densităţile de repartiţie condiţionate: ⎧x + y + 2 f(x, y) ⎪ , x ∈ (0,2) f(x / y) = = ⎨ 2(y + 3) , (∀) y∈(1,3) f2(y) ⎪ 0 , x ∉ (0,2) ⎩

⎧x + y + 2 f(x, y) ⎪ , y ∈(1,3) f(y / x) = = ⎨ 2(x + 4) , (∀) x∈(0,2) f1(x) ⎪ 0 , y ∉(1,3) ⎩
2.5. Momente obişnuite şi centrate. Proprietăţi Asociem acum o serie de caracteristici numerice variabilelor aleatoare, caracetristici care intervin în mod frecvent în aplicaţii şi care vin să caracterizeze diversele tipuri de legi de repartiţie. Este vorba de momentele obişnuite şi centrate de diferite ordine.
Definiţie. Numim moment de ordin k al variabilei aleatoare X numărul

37

Mk(X) =

−∞

∫x

k

dF(x) ,

dacă integrala Stieltjes există. Un caz important pentru aplicaţii este acela în care există densitatea de repartiţie f a variabilei aleatoare X şi atunci:
Mk(X) =
−∞

∫x

k

f(x) dx

(în ipoteza că există integrala Riemann improprie). Dacă X este variabilă aleatoare discretă, atunci:

Mk(X) = ∑ x k P(X = xj) , j
j∈J

J cel mult numărabilă, în ipoteza că seria este convergentă.
Definiţie. Numim moment absolut de ordinul k al variabilei aleatoare X numărul Mk(X) , dacă acesta există, definit prin:
Mk(X) = Mk(| X| ) = ∫ | x| k dF(x)
-∞ ∞

Dacă variabila aleatoare X are densitate de repartiţie, Mk(X) = ∫ | x| k f(x) dx , iar dacă X este de tip discret, Mk(X) = ∑ | x j | P(X = xj) .
k
j∈J
-∞

Să definim acum momentele centrate, care joacă un rol tot atât de important ca şi cele obişnuite.
Definiţie. Numim moment centrat de ordinul k al variabilei aleatoare X numărul µk(X), dacă acesta există, definit prin:

µk(X) = ∫ (x − M(x)) k f(x ) dx
-∞

Dacă variabila aleatoare X are densitatea de repartiţie f(x), atunci:

µk(X) = ∫ (x − M(x)) k f(x ) dx ,
iar dacă X este de tip discret, µk(X) = ∑ x j − M(X)) k P(X = xj) , J cel mult numărabilă.
j∈J
-∞

Momentul de ordinul unu poartă numele de valoare medie şi vom scrie M1(X)=M(X). Momentul centrat de ordinul doi poartă numele de dispersie a variabilei aleatoare X şi o vom nota µ2(X) sau D2(X) sau σ2X. Radical din dispersie poartă numele de abatere medie pătratică. Momentele centrate de ordinul k se pot exprima cu ajutorul momentelor obişnuite până la ordinul k, inclusiv. Pentru aceasta avem nevoie însă de unele proprietăţi ale valorii medii pe care le vom da în cele ce urmează. Înainte, însă, să introducem noţiunea de moment mixt. Fiind dat vectorul aleator X = (X1,X2,…,Xn), numim moment mixt de ordinul k1,k2,…,kn numărul
38

M

k1k2...k n

(X1X2...Xn) =

−∞

k k ... ∫ x1k1 x 2 2 ... x n n dn F(x1, x2,..., xn)
−∞

dacă există integrala Stieltjes multiplă. Dacă vectorul aleator (X1,X2,…,Xn) are densitatea de repartiţie f(x1,x2,…,xn), atunci
M k1k2...kn (X1X2... Xn) =
−∞

k k ... ∫ x1k1 x 2 2 ... x n n f(x1, x2,..., xn) dx1...dxn

−∞

(în ipoteza că integrala multiplă de ordinul n există), iar dacă vectorul (X1,X2,…,Xn) este de tip discret,
M k1,k2,...,kn (X1X2...Xn) =
j 1∈J 1

∑ ... ∑ x
jn ∈Jn

k1 j1

⋅ x k22 ... x knn P(X1 = x j1 , X 2 = x j2 ,..., X n = x jn ) j j
∞ n

Analog, se definesc momentele centrate de ordinul k1,…,kn (dacă ele există):

µ k1k2...kn (X1X2... Xn) = µ k1k2...kn (X1X2... Xn) =

−∞

... ∫ ∏ (xj - M(Xj)) kj dn F(x1, x2,..., xn) ,
−∞ j=1 ∞ n n

sau, când există densitatea de repartiţie f(x1,x2,…,xn),
−∞

... ∫ ∏ (xj - M(Xj)) kj f(x1, x2,..., xn) ∏ dxj
−∞ j=1 j=1

iar în cazul variabilelor aleatoare discrete, µk1k2...kn (X1X2...Xn) = ∑ ... ∑ (xj1 - M(X1 )) k1 ...(xj n - M(X n )) k n P(X1 = x j1 , ..., X n = x jn ) j 1∈J 1 jn ∈Jn Din momentele mixte se pot obţine momentele variabilelor aleatoare unidimensionale obişnuite sau centrate:
Mk(Xp) = M 0,...,0,k,0,...0 (X1X2... Xn) =
−∞

... ∫ x k f(x1, x2,..., xn) p
−∞

∏ dx
j=1

n

j

39

µk(Xp) = µ0,..., 0 ,k , 0...0 (X1X2...Xn) =

−∞

... ∫ ∏ (xp - M(xp)) kj f(x1, x2,..., xn) ∏ dxj , p=1,2,…,n.
−∞ j=1 j=1

n

n

Frecvenţa de utilizare a valorii medii şi dispersiei în aplicaţii sau în tratarea unor aspecte teoretice impune un studiu al proprietăţilor acestora. Propoziţie. Operaţia valoarea medie are următoarele proprietăţi: (1) Dacă variabila aleatoare X=c (constantă) cu probabilitatea 1, atunci M(Xk) = ck, k∈N (2) M(aX) = a M(X) (3) M( ∑ ajXj) = ∑ ajM(Xj)
j=1 n j=1 n n

(4) M( ∏ Xj) =∏ M(Xj) ,
j=1 j =1

n

dacă X1,X2,…,Xn sunt independente (în totalitate).

Demonstraţie.
⎧0, x ≤ c ⎛ c⎞ (1) Dacă X = c cu probabilitatea 1, atunci X are repartiţia X : ⎜ ⎟ şi deci FX(x) = ⎨ ⎝1 ⎠ ⎩1, x > c k k şi de aici urmează M(X ) = c . ⎛ axj ⎞ (2) Este suficient să demonstrăm în cazul X discretă; atunci: a X : ⎜ j ∈ J ⎟ şi deci ⎝ P(X = xj) ⎠

M(aX) = ∑ (aXj) P(X = xj) = aM(X) .
j∈J

(3) Este suficient să demonstrăm proprietatea pentru n = 2, a1 = a2 = 1, apoi, prin inducţie după n şi folosind proprietatea (2), rezultă afirmaţia. Vom presupune pentru simplificare că vectorul (X1,X2) are densitatea de repartiţie f(x1,x2) şi atunci urmează că:
M(X1 + X2) =
∞ ∞

- ∞ −∞

∫ ( x1 + x2)f(x1, x2) dx1dx2 = ∫
∞ ∞ 2 1

- ∞ −∞

∫ x1 f(x1, x2) dx1dx2 +
∞ 2 −∞

-∞ −∞ ∞

∫ ∫ x f(x , x ) dx dx
2 1 2 1 −∞

2

=

=

-∞

∫ x ( ∫ f(x , x ) dx ) dx
1 1 2 −∞

+

-∞

∫ x ( ∫ f(x , x ) dx ) dx
2 1 2 1 −∞

= ∫ x1 f1(x1) dx1 + ∫ x2 f2(x2) dx2 =

= M ( X 1) + M ( X 2 ).

(4) Presupunând că X1,X2,…,Xn sunt independente în totalitate şi că vectorul (X1,X2,…,Xn) are densitatea de repartiţie f(X1,X2,…,Xn)( x1,x2,…,xn) care, în ipoteza de independenţă, este f(X1,X2,…,Xn)( x1,x2,…,xn) = f1(x1)f2(x2)…fn(xn), va rezulta:
=

M (X1X2...Xn) =

−∞

... ∫ x1x2...xn f X1X2...Xn (x1, x2,..., xn) dx1...dxn =
−∞
n ∞ n

−∞

... ∫ x1x2...xn f(x1)f(x2)...f(xn) dx1...dxn = ∏ ∫ xjfj(xj) dxj = ∏ M(Xj)
−∞ j=1 -∞ j=1

adică M(∏ Xj) = ∏ M(Xj) .
j=1 j=1

n

n

40

Observaţie. Dacă X este o variabilă aleatoare pentru care există M(X), atunci X - M(X) o vom numi variabilă aleatoare abatere şi, folosind proprietăţile valorii medii, va rezulta imediat că: M(X - M(X)) = 0. Dacă, în plus, există M2(X) atunci, pornind de la definiţie şi folosind proprietăţile valorii medii, vom obţine: D2(X) = M[(X - M(X))2] = M[X2 - 2M(X)X + M2(X)] = M(X2) - M2(X) = M2(X) - M2(X). Dacă variabila aleatoare X are valoare medie şi dispersie, atunci are sens pe care o vom numi abatere normală, dat fiind faptul că: ⎡ X - M(X) ⎤ 2 ⎡ X - M(X) ⎤ M⎢ ⎥ = 0; D ⎢ D( X ) ⎥ = 1 ⎣ D( X ) ⎦ ⎣ ⎦ Propoziţie. Au loc următoarele proprietăţi pentru momentul centrat de ordinul doi: (1) Dacă X = c (constantă) cu probabilitatea 1, atunci D2(X) = 0. (2) D2(aX) = a2D2(X). (3) D ( ∑ ajXj) = ∑ a 2 D 2 (Xj) , dacă X1,X2,…,Xn sunt independente două câte două. j
2 j=1 n

X - M(X) , D( X )

n

j =1

Demonstraţie.
⎛ c⎞ (1) Cum X are repartiţia X : ⎜ ⎟ , rezultă că M(X) = c şi X - M(x) : ⎝1 ⎠ 2 (2) D (aX) = M[(aX - M(aX))2] = M[a2(X - M(X))2] = a2D2(X) ⎛ 0⎞ 2 ⎜ ⎟ , adică D (X)=0. ⎝1 ⎠

(3) Aplicăm definiţia dispersiei:
D 2 ( ∑ ajXj) = M2( ∑ ajXj) - M 2 ( ∑ ajXj)
j=1 n j=1 j=1 n n n

M 2 ( ∑ ajXj) = ( ∑ ajM(Xj)) 2 = ∑ a 2 M 2 (Xj) + 2 j
j=1 n j=1 j=1 n n 2 2

n

n

1≤ j< k ≤ n

∑ a a M(X )M(X )
j k j k

M ( ∑ ajXj) = M (( ∑ ajXj) ) = ∑ a 2 M 2 (X 2 ) + 2 j j
j=1 j=1 j=1

1≤ j< k ≤ n

∑ a a M(X X )
j k j k

Cum variabilele X1,X2,…,Xn sunt independente două câte două, rezultă că: M(XjXk) = M(Xj)M(Xk) şi, deci,

41

D 2 ( ∑ ajXj) = ∑ a 2 M 2 (X 2 ) + 2 j j
j=1 j=1 2 j n 2 j 2

n

n

1≤ j< k ≤ n

∑ ajakM(Xj)M(Xk) − ∑ a 2j M 2 (X 2j ) - 2
j =1

n

1≤ j< k ≤ n

∑ a a M(X )M(X ) =
j k j k

= ∑ a [M(X ) - M (X j )] = ∑ a 2 D 2 (Xj) j
j =1 j=1

n

Aşa după cum am amintit,

µ 2 ( X ) = D( X ) = σ X
este abaterea medie pătratică a variabilei aleatoare X. Ca aplicaţie a proprietăţilor valorii medii putem acum să arătăm că momentele centrate de ordinul k se pot exprima cu ajutorul momentelor de ordin cel mult k şi reciproc. Într-adevăr,

µk ( X ) = Mk[ X − M ( X )] = M [( X − M ( X )) k ] = ∑ ( −1) j Ckj Mk − j( X ) M j ( X ), k ∈ Ν *
j=0

k

şi reciproc, Mk ( X ) = ∑ Ckj µ k − j ( X ) M j ( X )
j=0 k

Alte valori tipice ale variabilei aleatoare se pot introduce de la momentele obişnuite sau centrate. Aşa, de exemplu, se introduce noţiunea de asimetrie a unei variabile aleatoare pentru care există µ2(X) şi µ3(X). Prin definiţie, coeficientul de asimetrie al variabilei X este µ (X) γ 1 = 332 µ2 / ( X ) Se constată imediat că acest coeficient are acelaşi semn cu momentul µ3(X). De aici rezultă că asimetria este pozitivă dacă valoarea modală este situată în stânga valorii medii şi negativă în caz contrar. Pentru variabilele aleatoare pentru care există µ2(X) şi µ4(X) se introduce coeficientul de exces prin expresia: µ (X) γ 21 = 4 −3 µ22 ( X )

Acest coeficient caracterizează gradul de aplatizare a graficului densităţii de repartiţie faţă de graficul densităţii de repartiţie normală: 1 −x2 /2 , f (x) = e 2π pentru care γ2 = 0. Repartiţiile pentru care γ2 = 0 se numesc mezocurtice, cele cu γ2 > 0 leptocurtice, iar cele cu γ2 < 0 - platocurtice. Să considerăm acum două exemple pentru care să punem în evidenţă coeficienţii de asimetrie şi de exces. Se consideră variabila aleatoare Poisson ⎛k ⎞ ⎜ ⎟ k X : ⎜ -λ λ k = 0,1,2,...⎟ ⎜e ⎟ ⎝ ⎠ k!
42

şi variabila aleatoare Y repartizată exponenţial negativ, de parametru λ: x ⎧ 1 −θ ,x > 0 ⎪ e ⎪ f(x) = ⎨θ θ>0 ⎪ 0 ,x ≤ 0 ⎪ ⎩ Atunci,

M(X) = ∑ ke -λ
k=0

λx
k!

=λ = λe - λ ∑ k
k=1

M2(X) = ∑ k 2 e -λ
k=0

λx
k!

∞ ⎡ ∞ λk-2 λk-1 ⎤ 2 = e -k λ ⎢λ ∑ +∑ ⎥ = λ +λ ( k − 1)! ⎣ k=2 ( k − 2)! k=1 ( k − 1)!⎦
2

λk-1

M3(X) = ∑ k e
k=0

3 −λ

λ

x

k!

= e λ∑ k
-λ k=1

λk-1
( k − 1)!

= e λ ∑ [( k − 1) + 2( k − 1) + 1]
−λ
2 k=1

λk-1
( k − 1)!

=

= λ3 + 3λ2 + λ M4(X) = ∑ k e
k=0

4 -λ

λx
k!

= λ4 + 4λ3 + 8λ2 + 2λ

Întrucât µ2(X) = λ şi µ3(X) = M3(X) - 3M(X)M(X) + 2M3(X) = λ, rezultă:

γ1 =

µ3 ( X ) λ 1 = 3/ 2 = 1/ 2 > 0 3/ 2 µ2 ( X ) λ λ

ceea ce înseamnă că repartiţia Poisson este asimetrică (pozitiv asimetrică)
1 3 µ 4 ( X ) = C40 M 4 ( X ) − C4 M 3 ( X ) M ( X ) + C42 M 2 ( X ) M 2 ( X ) − C4 M 4 ( X ) + M 4 ( X ) =

= 2λ (1 + 2λ − λ 2 ) µ4 ( X ) 2λ (1 + 2λ − λ 2 ) γ2 = 2 −3= −3 µ2 ( X ) λ2 (1 + λ ) 2

În cazul repartiţiei exponenţiale, ∞ x 1 k −θ M k (X) = ∫ x e dx = θ k Γ( k + 1) θ 0 M1(X) = θ M2(X) = 2θ2 M3(X) = 6θ3 M4(X) = 24θ4 µ1(X) = 0 µ2(X) = θ2 µ3(X) = 2θ3 µ4(X) = 9θ4

µ3 ( X ) 2θ 3 γ 1 = 3/ 2 −3= = 2 - pozitiv asimetrică µ2 ( X ) θ6 µ4 ( X ) 9θ 4 γ2 = 2 − 3= 4 − 3= 6, µ2 ( X ) θ deci o repartiţie leptocurtică.

43

Inegalitatea lui Cebîşev. Această inegalitate celebră leagă posibilitatea abaterii în valoare absolută de dispersia variabilei aleatoare şi intervine în numeroase aplicaţii. Dacă X este o variabilă aleatoare pentru care există M(X) şi D2(X), atunci, pentru orice ε > 0, are loc inegalitatea: D2 ( X ) P(ω:| X (ω ) − M ( X )| ≥ ε ) ≤ 2

ε

Pentru a dovedi acest lucru, pornim de la expresia dispersiei: D 2 ( X ) = ∫ ( x − M ( X )) 2 dF ( x ) =
R

| x − M ( X )|≥

∫ ( x ε− M ( X ))
2

2

dF ( x ) +

| x − M ( X )|<

∫ ( x ε− M ( X ))

2

dF ( x ) ≥

| x − M ( X )|≥ε

∫ ( x − M ( X ))

2

dF ( x ) ≥ ε ⋅
2

| x − M ( X )|<ε

∫ dF ( x ) = ε
D2 ( X )

P(ω:| X (ω ) − M ( X )| ≥ ε )

Deci, P(ω:| X (ω ) − M ( X )| ≥ ε ) ≤

ε2 P(ω :| X (ω ) − M ( X )| ≥ ε ) + P(ω :| X (ω ) − M ( X )| < ε ) = 1, obţinem:
P(ω:| X (ω ) − M ( X )| < ε ) = 1 − P(ω:| X (ω ) − M ( X )| ≥ ε ) ≥ 1 −

. Dacă acum ţinem seama de egalitatea

D2 ( X )

ε2

Aşadar, cu ajutorul inegalităţii lui Cebîşev putem evalua o limită inferioară a probabilităţii cu care valorile variabilei aleatoare se grupează în jurul valorii medii. 1 8 Dacă luăm ε = 3σX, atunci P(ω :| X (ω ) − M ( X )| < 3σ X ) ≥ 1 − = , care mai poate 9 9 fi scrisă 8 P(ω : M ( X ) − 3σ X < X (ω ) < M ( X ) + 3σ X ) ≥ , 9 motiv pentru care este cunoscută şi sub numele de “regula 3σX”.
2.6. Inegalităţi pentru momente. Inegalitatea lui H lder Dacă X şi Y sunt variabile aleatoare astfel încât există Mr(|X|) şi Ms(|Y|), atunci există M(|XY|) şi 1 1 1 1 r M(|XY|) ≤ Mr(| X| ) Ms(|Y| ) s , unde r > 1 şi + = 1 . r s Pentru r = s = 2 obţinem un caz particular, inegalitatea lui Schwartz: M(|XY|) ≤ (M2(|X|))
Demonstraţie. Vom pleca de la inegalitatea | ab| ≤
1 2 1 2

(M2(|Y|)) .

| a| r | b| s 1 1 + , r > 1, + = 1, a,b∈R. s r r s

Dacă luăm obţinem:

a=

X X b= r 1/ r ; ( M (|/ Y | sr ))1/ s ( M (| X | ))

şi înlocuim în inegalitatea considerată,

44

| XY | | X |r | Y|s ≤ + ( M (| X | r ))1/ r ( M (| Y | ) s )1/ s rM (| X | r ) s( M (| Y | ) s ) Aplicând operatorul valoare medie, se obţine: M (| XY | ) M (| X | r ) M (| Y | s ) 1 1 ≤ + + =1 r 1/ r s 1/ s r s = ( M (| X | )) ( M (| Y | ) ) rM (| X | ) s( M (| Y | ) ) r s şi, deci, M(|XY|) ≤ Mr(| X| )
1 r 1

Ms(|Y| ) s ,

care este tocmai inegalitatea considerată. În cazul în care r = s = 2 se obţine de aici, aşa cum am menţionat, inegalitatea lui Schwartz. Inegalitatea lui Minkowski. Dacă X şi Y sunt variabile aleatoare astfel încât M(|X|r) şi M(|Y| ) există pentru r ≥ 1, atunci există M(|X+Y|r) şi avem:
r
1

M(|X+Y| ) ≤ M(|X| r )

r r

1 r

1

+ M(|Y| r ) r .

Demonstraţie. Pentru r = 1 inegalitatea este evidentă. Presupunem deci r >1 şi atunci putem scrie: M(| X + Y| r ) = M(| X + Y|| X + Y| r-1 ) ≤ M((| X|+|Y| )| X + Y| r-1 ) =
= M(| X|| X + Y| r-1 )
+ M(|Y|| X + Y| r-1

Aplicând inegalitatea lui H lder pentru fiecare termen din ultima sumă obţinem:

M(| X|| X + Y|

r-1

) ≤ M(| X| )) M(| X + Y|
r 1

1 r

s(r-1)

)

1 s 1

M(|Y|| X + Y| r-1 ) ≤ M(|Y| r )) r M(| X + Y| s(r-1) ) s
Avem, deci,
1 1 1 ⎡ ⎤ M(| X + Y| r ) ≤ ⎢( M(| X| r )) r + (M(|Y| r )) r ⎥ M(| X + Y| s(r-1) ) s ⎣ ⎦ 1 1 1 Împărţind cu M(| X + Y| s(r-1) ) s şi ţinând seama de faptul că (r - 1)s = r; 1- = se obţine: s r 1

M(|X+Y |) ≤ M(|X| )
r

r

r

1 r

+ M(|Y| ) .

r

1 r

Inegalitatea lui Liapunov (proprietatea de monotonie a momentelor).
Dacă există M(| X| ) şi M(|X| ) , 0 < r1 ≤ r2 atunci (M(| X| )) ≤ (M(|X| )) . Demonstraţie.
r1 r2
r1 r2 1 r2 1 r2

45

Pentru r1 = r2 inegalitatea este adevărată, cu semnul egal. Presupunem deci că r1 < r2 şi atunci r2 1 1 + = 1 şi să aplicăm inegalitatea lui H lder aşa cum rezultă > 1 ; alegem s astfel încât r2 s r1 r1 mai jos:
(M(| X| r1 ) = (M(| X| r1 ⋅1) ≤ (M((| X| r1 ) r2 / r1 ))1/
1 1
r 2 / r1

( M (1s ))1/ s = ( M(| X| r2 )) r1 / r2

De aici rezultă imediat că (M(|X| r1 )) r1 ≤ (M(|X| r2 )) r2 . 2.7. Corelaţie şi coeficient de corelaţie. Să considerăm vectorul aleator (X,Y) şi asupra componentelor facem ipoteza că există M2(X) şi M2(Y).
Definiţie. Numim corelaţie (covarianţă) a variabilelor X şi Y momentul mixt

µ11 = M[(X- M(X)) (Y - M(X))] Adesea se mai notează µ11 = cov(X,Y). Acest indicator măsoară existenţa legăturii stochastice între variabilele X şi Y. Din definiţia corelaţiei rezultă imediat că µ11 = M(XY) - M(X)M(Y) Prin definiţie, variabilele X şi Y se numesc necorelate dacă µ11 = 0. Aceasta înseamnă că: M(XY) = M(X)M(Y) Dacă variabilele X şi Y sunt independente, atunci ele sunt necorelate. Reciproc nu-i adevărat întotdeauna, lucru ce se poate constata pe următorul exemplu. Se consideră vectorul aleator (X,Y), cu densitatea de repartiţie bidimensională:

⎧ 1 2 2 ⎪ 4 [1 + xy(x − y )] f(x, y) = ⎨ ⎪ 0 ⎩ Dintr-un calcul simplu rezultă imediat că:

, (x, y) ∈[−1,1]x[−1,1] , în rest

46

1 M(X) = ∫ 4 −1 − 1 ∫ 4 −1
1 1

1

−1

1

1 x[1 + xy(x − y )] dx dy = ∫ 4 −1
2 2

1

−1

1

1 x dx dy + ∫ 4 −1

1

−1

1

x 4 y dx dy −

−1


1

1

x 2 y 3 dx dy = 0
2

1 M(Y) = ∫ 4 −1

−1 1

∫ y[1 + xy(x
−1

− y 2 )] dx dy = 0
1 2 2

1 M(XY) = ∫ 4 −1 1 ∫ 4 −1
1

1

1 xy[1 + xy(x − y )] dx dy = ∫ 4 −1 x 2 y 4 dx dy = 0

−1

1

1 xy dx dy + ∫ 4 −1

1

−1

1

x 4 y 2 dx dy -

−1

1

Deci µ11 = 0, adică variabilele X şi Y sunt necorelate. Pe de altă parte,
f1 (x) = 1 1 ∫1[1 + xy(x 2 − y 2 )]dy = 2 , x∈[-1,1] 4−
1 1

1 1 f 2 (y) = ∫ [1 + xy(x 2 − y 2 )]dx = , y∈[-1,1] 2 4 −1

şi, evident, f(x,y) ≠ f1(x)f2(y), ceea ce înseamnă că variabilele X şi Y nu sunt independente. Intensitatea legăturii stochastice a două variabile aleatoare se poate măsura cu ajutorul unor indicatori numerici dintre care cel mai frecvent întâlnit este coeficientul de corelaţie. Fie X,Y două variabile aleatoare pentru care există D2(X) şi D2(Y). Definiţie. Numim coeficient de corelaţie al variabilelor X,Y raportul: µ11 M ( XY ) − M ( X ) M (Y ) ρ X,Y = = D(X)D(Y) D 2 ( X )D 2 (Y )
Teoremă. Oricare ar fi variabilele aleatoare X,Y astfel încât D2(X)D2(Y) ≠ 0, au loc proprietăţile: (1) ρXY = 0 dacă şi numai dacă variabilele aleatoare X,Y sunt necorelate; (2) Dacă X,Y sunt independente, atunci ρXY = 0, reciproca nefiind adevărată; (3) |ρXY| ≤ 1; (4) |ρXY| = 1 implică o dependenţă liniară între variabilele X şi Y. Demonstraţie. (1) rezultă imediat, din însăşi definiţia coeficientului de corelaţie. (2) X,Y independente înseamnă M(XY) = M(X)M(Y) şi deci conv(XY) = 0, ceea ce conduce la ρXY = 0. Faptul că invers nu-i adevărat rezultă imediat din exemplul anterior.

(3) | ρ XY | =

M[( X − M ( X ))(Y − M (Y ))] M ( ( X − M ( X ))(Y − M (Y )) ) ≤ ≤ D( X )D(Y ) D( X )D(Y )
47

( M (| X − M ( X )| 2 ))1/ 2 ( M (| Y − M (Y )| 2 ))1/ 2 ≤ =1 D( X )D(Y ) (4) Fie a,b ∈ R, a ≠ 0 şi să luăm Y = aX + b. Atunci,
2 M [( X − M ( X ))( aX + b − aM ( X ) − b)] aM ( X − M ( X )) . = ρ XY | = D( X ) D( aX + b) | a| D 2 ( X )

[

]

Deci, ρXY =

a ⎧− 1 =⎨ | a| ⎩1

,a < 0 ,a > 0

şi, dacă există între X şi Y o dependenţă liniară, atunci ρ XY = ±1. Să considerăm acum variabilele aleatoare abatere normată:
X − M( X ) Y − M (Y ) ; Y' = D( X ) D(Y ) Atunci, M(X’Y’) = ρ XY = ±1. Pe de altă parte, X'=

M (( X − M ( X )) 2 ) M ((Y − M (Y )) 2 ) + ± 2 M ( X ' Y ' ) = 2 ± 2( ±1) = 0 D2( X ) D 2 (Y ) şi, deci, X’ ± Y’ = 0 cu probabilitatea 1. Ţinând cont de modul în care s-au definit cele două variabile aleatoare rezultă: X − M( X ) Y = M (Y ) ± D(Y ) D( X ) M (| X '±Y '| 2 ) =
ceea ce dovedeşte că: Y = b ± aX, adică o dependenţă liniară.
y − M (Y ) x − M( X ) x − M( X ) y − M (Y ) şi se numesc drepte = λ1 = λ2 D(Y ) D( X ) D( X ) D(Y ) de regresie şi se intersectează în punctul (M(X)M(Y)).

Dreptele

Valori medii condiţionate. Vom lua în consideraţie doar cazurile importante, când există densitate de repartiţie condiţionată sau când variabilele sunt de tip discret. Dacă variabila aleatoare X are repartiţia

⎛xj X: ⎜ ⎝ P(X = x j )

⎞ j ∈J⎟ ⎠

şi dacă A este un eveniment cu P(A) ≠ 0, atunci, prin definiţie, valoarea medie condiţionată de evenimentul A a variabilei X este:

48

M(X / A) = ∑ x j P(X = x j / A) .
j∈J

În cazul când avem un vector aleator bidimensional (X,Y) cu X şi Y de tip discret, în locul evenimentului A putem lua {Y = yk} şi atunci

M(X / Y = y k ) = ∑ x j P(X = x j / Y = y k )
j∈J

În ipoteza că există densitatea de repartiţie condiţionată f(x/y) rezultă:
1 x f(x, y) xf(x, y) dx dx = M(X / Y = y) = ∫ xf(x / y) dx = ∫ f 2 (y) -∫ f 2 (y) −∞ −∞ ∞
∞ ∞ ∞

Analog, se introduc mediile condiţionate:

M(Y / B) = ∑ y k P(Y = y k / B)
jkJK

M(Y / X = x j ) = ∑ y k P(Y = y k / X = x j )
jkJK

1 yf(x, y) dy M(Y / X = x ) = ∫ yf(y / x) dy = f1 (x) -∫ −∞ ∞

Se vede imediat că

M(X/Y=y) = ϕ1(y) M(Y/X=x) = ϕ2(x), funcţii care poartă numele de curbe de regresie.

2.8. Funcţii de argumente aleatoare Fie (Xi) 1 ≤ i ≤ n o familie finită de variabile aleatoare şi să considerăm familia de aplicaţii hj:Rn→R, 1 ≤ j ≤ m măsurabile Borel. Atunci Yj = hj(X1,X2,…,Xn), 1 ≤ j ≤ m sunt variabile aleatoare. Dacă notăm cu X = (X1,X2,…,Xn) vectorul aleator n-dimensional şi cu Y = (Y1,Y2,…,Ym) vectorul aleator m-dimensional, atunci

FY ( y1 , y 2 ,..., y m ) = ∫ ... ∫ d n FX ( x1 , x 2 ,..., x n ) ,
Dn

unde Dn = {(x1,x2,…,xn)∈Rn : hj(x1,x2,…,xn) < yj, 1 ≤ j ≤ m}. În cazul în care m = n, hj, 1 ≤ j ≤ m sunt bijecţii diferenţiabile, iar X şi Y admit densităţi de repartiţie, atunci
-1 (*) fY(x1,..., xn) = fX(h 1 (x1,..., xn),..., h -1 (x1,..., xn)) | J| n

unde J este iacobianul transformării,
J= D( h1,..., hn ) . D ( x1,.., xn )

49

Dacă m = n = 1, relaţia (*) devine:

fY(x) = fX(h −1 (x)) |(h −1 (x))'|
Exemplu. Fie Y o variabilă aleatoare a cărei densitate de repartiţie este fX(x) şi să considerăm variabila aleatoare Y = h(X) = X2. Atunci h −1 (x) = ± x , x > o şi de aici rezultă:

⎧ ⎪0 ⎪ f Y (x) = ⎨ 1 ⎪ fX( x) + fX( − x ) ⎪2 x ⎩

,x ≤ 0 ,x > 0

[

]

Această relaţie rezultă însă imediat (şi mai simplu), după cum urmează: ⎧0 ,x ≤ 0 FY ( x ) = P(ω : Y (ω ) < x ) = P(ω : X 2 (ω ) < x ) = ⎨ ⎩P(ω :| X (ω )| < x , x > 0 ⎧0 ,x ≤ 0 =⎨ ⎩FX ( x ) − FX ( − x ) , x > 0

De aici, prin derivare, rezultă că: ⎧ ⎪0 ⎪ f Y (x) = ⎨ 1 ⎪ fX( x) + fX( − x ) ⎪2 x ⎩ ,x ≤ 0 ,x > 0

[

]

Pentru familia de variabile aleatoare (Xi) 1 ≤ i ≤ n independente, în cazul m =1 şi Y = h(X1,X2,…,Xn)= ∑ Xi , atunci:
i =1 n

FY ( y ) = ∫ ... ∫ d n FX ( x1 , x 2 ,..., x n ) = ∫ ... ∫ dF 1( x1 )... dFn( x n ) ,
Dn Dn

unde Dn = {(x1,x2,…,xn)∈R : x1+x2+…+xn < y}. Ţinând seama de definiţia produsului de compoziţie (convoluţie) şi de asociativitatea sa, putem scrie
FY ( y ) =
−∞

n

∫ d ( F ∗...∗ F )( x ) =( F ∗...∗ F )( x )
1

y

n

1

n

Să considerăm acum vectorul aleator (X,Y) cu densitatea de repartiţie fX,Y(x,y) şi să determinăm densitatea de repartiţie a variabilelor X 1) U = X+Y; 2) V = XY; 3) W = , Y ≠ 0 . Y

50

1) FU(u)

=

P(X+Y<u)= ∫

{( x , y )∈R 2 :x + y < u

∫f

X, Y

(x, y) dx dy =

−∞ −∞

∫ ∫f
X, Y

u− y

(X, Y)

(x, y) dx dy .

Rezultă:

fU ( u) =

−∞

∫f

X, Y

(u − y, y) dy şi, prin simetrie, fU ( u ) =
∞ ∞

−∞

∫f

(x, u - x) dx . Dacă X,Y sunt

independente, atunci fU(u) =

−∞

∫ fX(u − y)fY(y) dy = ∫ fX(x)fY(u − x) dx .
−∞

2) FV(v)=P(XY<v)= ∫

{( x , y )∈R :xy < v }
2

∫f
0

X, Y

(x, y) dx dy = ∫
0

−∞

∫f

v y

(X, Y)

(x, y) dx dy +

−∞ v y

∫ ∫ f$

0

X,Y

(x, y) dx dy

1 v 1 v fV(v) = ∫ fX, Y( , y)dy − ∫ fX, Y( , y)dy . y y y y −∞ 0

Deci,

fV(v) =

-∞

1

v 1 v fX, Y( , y)dy = ∫ fX, Y(x, )dx y x x y −∞

51

Dacă X,Y sunt independente, atunci:

fV(v) =
X 3) FW(w) = P( < w) = Y Urmează că

-∞

1

v 1 v fX( )fY(y)dy = ∫ fX(x)fY( )dx y x x y −∞
∞ yw

x {( x , y )∈R : < w , y ≠ 0} y
2

∫ fX, Y(x, y) dx dy = ∫
0

−∞

∫ fX, Y(x, y) dx dy +

−∞ yw

∫ ∫f

0

X, Y

(x, y) dx dy

fW(w) = ∫ yfX, Y(yw, y)dy − ∫ yfX, Y(yw, y)dy = ∫ y fX, Y(yw, y)dy
0 −∞ −∞

0

Dacă X,Y sunt independente, atunci:
fW(w) =

-∞

∫ y f (yw)f (y)dy
X Y

Observaţie. Cu ajutorul schimbărilor la variabile se pot obţine aceleaşi rezultate, pe această cale simplă: 1) Z = X+Y şi punem T=Y. Atunci, D(x, y) F(Z, T)(z, t) = f(X, Y)(x(z, t), y(z, t)) D(z, t) D(x, y) 1 − 1 x = z-t; y = t; = =1 0 1 D(z, t)

şi
fZ(z) = ∫ f Z,T (z, t)dt = ∫ f X,Y (z - t, t)dt = ∫ f X,Y (z - y, y)dy = ∫ f X,Y (x, z - x)dx
-∞ −∞ −∞ −∞ ∞ ∞ ∞ ∞

2) V = XY; T = Y FV,T (v, t) = f(X, Y)(x(v, t), y(v, t))
v ⎧ ⎪x = t ⎨ ⎪y = t ⎩
1 D(x, y) t = D(v, t) 0 v t2 = 1 t 1 −

D(x, y) D(z, t)

52

1 v f(V, T)(v, t) = f(X, Y)( , t) | t| t

şi, de aici,
fV(v) =
−∞

v 1 v 1 f(V, T)(v, t) dt = ∫ f(X, Y)( , t) dt = ∫ f(X, Y)( , y) dy | t| y | y| t −∞ -∞

Analog, dacă punem

⎧x = t ⎪ v ⎨ ⎪y = t ⎩

1 D( x, y ) = v D( v, t ) − 2 t
fV(v) =

0 1 = 1 , obţinem: t t
∞ ∞

−∞

v 1 v 1 f(T, V)(t, v) dt = ∫ f(X, Y)(t, ) dt = ∫ f(X, Y)(x, ) dx t | t| x | x| −∞ -∞

3) Să punem X ⎧ ⎧x = tw ⎪W = Y ⎨ ⎨ ⎩y = t ⎪T = Y ⎩

D(x, y) w t = = −t D(t, w) 1 0
f(T, W)(t, w) = f(X, Y)(tw, t)| t|

şi, de aici,
fW(w) =

−∞

f(T, W)(t, w) dt = ∫ f(X, Y)(tw, t) | t| dt =
-∞

−∞

∫f

(X, Y)

(yw, y)| y| dy

2.9. Funcţie caracteristică. Proprietăţi Am văzut că funcţia de repartiţie constituie un instrument analitic de studiat variabilele aleatoare. În multe situaţii - îndeosebi în studiul sumelor de variabile aleatoare independente - devine mai dificil de manipulat şi, drept urmare, s-au căutat alte instrumente mai uşor de manipulat. Funcţia caracteristică constituie un instrument puternic de investigaţie şi comod de utilizat.
Definiţie. Fie X o variabilă aleatoare definită pe {Ω,K,P} cu funcţia de repartiţie FX. Aplicaţia ϕX:R→C, definită prin: ϕX(t) = M(eitX)

o vom numi funcţie caracteristică a variabilei aleatoare X. Din definiţia funcţiei caracteristice rezultă că:

ϕ X (t) =

−∞

∫e

itx

dFX ( x )

53

Dacă variabila aleatoare este de tip discret, atunci: ϕX ( t ) = ∑ e itxj P( X = xj ) ,
j ∈J

iar dacă X admite densitatea de repartiţie fX, rezultă, din definiţie, că:

ϕ X ( t ) = ∫ e itx f X ( x )dx
−∞

Propoziţia care urmează grupează principalele proprietăţi ale funcţiei caracteristice.
Propoziţie. Dacă ϕX este funcţia caracteristică a variabilei aleatoare X, atunci ea are proprietăţile:

(1) (2) (3) (4)

ϕX(0) = 1 | ϕX(t) | ≤ 1 ϕ X (t) = ϕ X ( − t) ϕX este uniform continuă pe R.

Demonstraţie.

(1) Rezultă imediat că ϕ X ( 0) = ∫ 1 ⋅ dFX(x) = 1
−∞

(2) ϕX ( t ) =

−∞

∫e

itx

dFX ( x ) ≤

−∞

∫e
itx

itx

dFX ( x ) = ∫ dFX ( x ) = 1
−∞ ∞

(3) ϕX ( t ) =

−∞

∫e

itx

dFX ( x ) ≤

−∞

∫e

dFX ( x ) = ∫ e − itx dFX ( x ) =ϕX ( − t )
−∞

(4) Fie t1,t2∈R şi să considerăm

ϕX ( t1) − ϕX ( t 2 ) =

−∞

∫e

it1 x

dFX ( x ) −

−∞

∫e

it 2 x

dFX ( x ) ≤

−∞
−A

∫ (e
şi

it1 x

−e

it 2 x

)dFX ( x ) ≤

−∞

∫e

it1 x

− e it 2 x dFX ( x )

Fie acum ε > 0 şi A > 0 astfel încât

−∞

∫ dF

X

(x) <

ε
8

∫ dF ( x ) < 8 .
X A

ε

Pentru |x| < A, dacă |t1-t2| < η(ε), atunci
−A

e it1x − e it2 x <

ε
2

. Deci,
dFX ( x ) + ∫ e it1x − e it2 x dFX ( x )
A

ϕX ( t 1) − ϕX ( t 2 ) =

−∞

∫e

it1 x

−e

it 2 x

dFX ( x ) +

−A

∫e

A

it1 x

−e

it 2 x

Cum pentru orice x∈R, e it1x − e it2 x ≤ 2 , rezultă că:

54

ϕX ( t1) − ϕX ( t 2 ) = 2 ∫ dFX ( x ) +
−∞

−A

ε

2 −∫A

A

dFX ( x ) + 2∫ dFX ( x ) = ε ,
A

ceea ce demonstrează afirmaţia.
Propoziţie. Dacă Y = aX + b, atunci:

(1) ϕY ( t ) = e ibt ϕX ( at ) Dacă (Xj)1 ≤ j ≤ n sunt variabile aleatoare independente, atunci: (2) ϕ
(t ) = ∏ ϕ X j (t )
j =1 n

j =1

∑ Xj

n

Demonstraţie. (1) ϕY(t) = M(eitY) = M(eit(aX+b)) = M(eibt eiatX) = eibtM(eiatX) = eibtϕX(at)

(2) Demonstrăm prin inducţie: n = 2: ϕ ( X ,X ) ( t ) = M e it ( X1 + X 2 ) = M e it ( aX1 ) e it ( aX 2 ) = M (e itX1 ) M (e itX 2 ) = ϕX 1 ( t )ϕX 2 ( t ) 1 2 Presupunem proprietatea adevărată pentru n-1 şi dovedim pentru n:

(

)

(

)

ϕ

j =1

∑ Xj

n

(t ) = M (e

it

∑ X ) =M (e
j j =1

n

it ∑ Xj
j =1

n

e

itXn

) = M (e

it ∑ Xj
j =1

n

) M ( e itXn ) = ∏ ϕ X j ( t )ϕ Xn ( t ) =∏ ϕ X j ( t )
j =1 j =1

n −1

n −1

Să stabilim legătura între funcţia caracteristică şi momente, dacă acestea există.
Teoremă. Dacă X este o variabilă aleatoare pentru care există Mn(|X|), atunci ϕX este de n ori derivabilă şi ( ϕ Xk ) ( 0) = i k M k ( X ), 1 ≤ k ≤ n Demonstraţie. În expresia funcţiei caracteristice

ϕ X ( t ) = ∫ e itx dFX ( x )
−∞ ∞

să derivăm formal de k ori (k ≤ n). Obţinem

ϕ
Dar,

(k) X

(t) = i

k

−∞

∫x

k

e itx dFX ( x ) .

ϕ

(k ) X

(t ) = i

k

−∞

∫x

k

e dFX ( x ) ≤
itx

−∞

∫x

k

dFX ( x ) = Mk (| x| ) < ∞ ,

în virtutea ipotezei făcute. Din derivata de ordin K a funcţiei caracteristice, rezultă acum imediat:
55

( ϕ Xk ) ( 0) = i k M k ( X ), 1 ≤ k ≤ n

Consecinţă. Dacă variabila aleatoare X admite momente de orice ordin (finite), atunci: ∞ ( it ) k ϕ X (t) = ∑ M k ( X ) , k! k =0 pe intervalul de convergenţă al seriei de puteri. Pornind de la funcţia caracteristică vom defini acum alte caracteristici numerice ale unei variabile aleatoare X, diferite de momentele considerate de noi. Definiţie. Fie X o variabilă aleatoare şi ϕX(t) funcţia ei caracteristică. Vom numi aplicaţia

ψX:R→C, definită prin: ψX(t) = ln ϕX(t) a doua funcţie caracteristică a variabilei aleatoare X. (s-a luat aici determinarea principală a logaritmului natural). Din definiţia dată, rezultă că dacă există ψ’X(0) şi ψ”X(0) atunci există M(X) şi D2(X) şi putem scrie: M(X) = -i ψ’X(0); D2(X) = i2 ψ’’X(0)

( Dacă există ψ Xk ) ( 0) , k∈N*, atunci expresia ( ϑk ( X ) = i k ψ Xk ) ( 0)

poartă numele de semiinvariantul sau cumulantul de ordin k al variabilei aleatoare X. Se constată că ϑ k(X) este funcţie raţională întreagă de primele k momente. Formula de inversiune; teorema de unicitate Am văzut că fiecărei variabile aleatoare îi corespunde funcţia ei de repartiţie FX şi, odată cu aceasta, putem determina funcţia caracteristică ϕX(t) = M(eitX). Ne punem acum întrebarea: dacă se cunoaşte funcţia caracteristică, putem determina funcţia de repartiţie? Răspunsul este dat de teorema care urmează.
Teoremă. (Formula de inversiune) Fie X o variabilă aleatoare şi FX, ϕX respectiv funcţia de repartiţie şi funcţia caracteristică corespunzătoare. Dacă x1,x2 cu x1<x2 sunt puncte de continuitate ale lui FX, atunci:
1 FX ( x 2) − FX ( x1) = lim c →∞ 2π e − itx1 − e − itx2 ϕ ( t ) dt ∫ it −c
c

Demonstraţie. Să observăm mai întâi că funcţia de sub integrală este luată în origine prin continuitate, că este continuă şi mărginită şi, deci, pentru orice c ∈R integrala

56

1 Ic = 2π

e − itx1 − e − itx 2 ϕ ( t ) dt ∫ it −c

c

este o integrală Riemann obişnuită. Dacă ţinem seama că ϕ(t) = M(eitX), urmează că: ∞ ∞ c ⎡ c e − it ( y − x1 ) − e − it ( y − x 2 ) ⎤ 1 e − itx1 − e − itx 2 1 ity Ic = dt ⎥ dF ( y ) = ∫ ∫ e dF( y ) dt = 2π −∞ ⎢−∫c ∫ ⎣ 2π − c it it −∞ ⎦
1 = 2π

−∞

⎡ c cos t ( y − x1) − cos t ( y − x 2 ) + i(sin t ( y − x1) − sin t ( y − x 2 )) ⎤ dt ⎥ dF ( y ) ⎢∫ it ⎣− c ⎦

(s-a putut schimba ordinea de integrare deoarece integrala în raport cu y este absolut convergentă). c cos t ( y − x1) − cos t ( y − x 2) Dar ∫ dt = 0 (se integrează o funcţie impară ca funcţie it −c pară + impară) şi atunci:
Ic =

1

π

−∞

∫ ∫⎢ ⎣

⎡ sin t ( y − x1) − sin t ( y − x 2 ) ⎤ ⎥ dt dF ( y ) . t ⎦ 0

c

c c sin t ( y − x 2 ) ⎤ 1 ⎡ sin t ( y − x1) dt − ∫ dt ⎥ . Notăm g( c, y , x1, x 2 ) = ⎢∫ π ⎣0 t t 0 ⎦

⎧− 1 / 2 , α < 0 c 1 sin αt ⎪ , α = 0 , convergenţa fiind uniformă dacă dt = ⎨0 Din formula lui Dirichlet, lim ∫ c→∞ π t 0 ⎪1 / 2 , α > 0 ⎩

1 sin αt dt < 1. Atunci, |α| > δ, iar dacă |α| ≤ δ, atunci π∫ t 0
c

⎧1 , x1 < y < x 2 ⎪ lim g( c, y , x1, x 2 ) == ⎨1 / 2 , y ∈{x1, x 2} şi, deci: c →∞ ⎪0 , y ∈ ( −∞, x1) ∪ ( x 2, ∞ ) ⎩
lim Ic =
c →∞ x 2 −δ

−∞

∫ lim g(c, y, x , x )dF ( y ) = ∫ lim g(c, y, x , x )dF ( y ) + ∫ δlim g(c, y, x , x )dF ( y ) +
c →∞ 1 2 −∞ c →∞ 1 2 x1 − c →∞ 1 2 x 2 +δ ∞ 1 2 x2 − c →∞ 1 2 x2 + c →∞ 1 2

x −δ

x1 +δ

+

c→∞ x1 +δ

∫ lim g(c, y, x , x )dF ( y ) + ∫ δlim g(c, y, x , x )dF ( y ) + ∫ δlim g(c, y, x , x )dF ( y ) ,

unde δ > 0 astfel încât x1 + δ < x2 - δ. Urmează că: lim Ic =
c →∞

1 1 [ F ( x1 + δ ) − F ( x1 − δ )] + [ F ( x 2 − δ ) − F ( x1 + δ )] + 2 [ F ( x 2 + δ ) − F ( x 2 − δ )] 2

Făcând pe δ→0 (δ>0), rezultă:
57

lim Ic =
c →∞

1 1 [ F ( x1 + 0) − F ( x1 − 0)] + [ F ( x 2 − 0) − F ( x1 + 0)] + 2 [ F ( x 2 + 0) − F ( x 2 − 0)] 2

şi cum x1 şi x2 sunt puncte de continuitate pentru F, rezultă: c − itx1 1 e − e − itx2 ϕ ( t ) dt F ( x 2 ) − F ( x1 ) = lim ∫ 2π c→∞ − c it
Teoremă. (Teorema de unicitate) Funcţia de repartiţie este determinată în mod unic de funcţia ei caracteristică. Demonstraţie. Dacă x şi y sunt puncte de continuitate pentru F, atunci, conform formulei de inversiune, putem scrie: c 1 e − itx1 − e − itx2 ϕ ( t ) dt F ( x ) − F ( y ) = lim c→∞ 2π ∫ it −c

Luând limita în raport cu y după punctele y de continuitate pentru F, obţinem:
1 F ( x ) = lim y →−∞ 2π

−c

c

e

− ity

− e − itx ϕ ( t ) dt it

Să vedem acum în ce condiţii putem obţine o formulă de inversiune pentru densitatea de repartiţie.
Teoremă. Dacă funcţia caracteristică ϕ(t) este absolut integrabilă pe R, atunci funcţia de repartiţie F(x) este absolut continuă, derivata ei, f(x), este continuă şi ∞ 1 f (x) = F' (x) = ∫ e − itxϕ ( t ) 2π −∞ Demonstraţie. Dacă funcţia |ϕ(t)| este integrabilă pe R, atunci funcţia

1 − itx1 (e − e − itx2 )ϕ ( t ) it

este integrabilă şi, conform formulei de inversiune, putem scrie: ∞ 1 e − itx1 − e − itx2 ϕ ( t ) dt , F ( x 2 ) − F ( x1 ) = ∫ 2π −∞ it pentru orice x1 < x2 puncte de continuitate pentru F. Să presupunem că x1 = x - h1, x2 = x + h, h>0 sunt puncte de continuitate pentru F. Putem, deci, scrie: ∞ ∞ ith 1 1 2 sin th −itx − e − ith − itx e e ϕ ( t ) dt = ϕ ( t ) dt = F ( x + h) − F ( x − h) = ∫e ∫ it 2π −∞ 2π −∞ t

1 = 2h 2π

sin th −itx e ϕ ( t ) dt th −∞

58

∞ sin th 1 ≤ 1 , rezultă F ( x + h ) − F ( x − h ) ≤ 2 h Deoarece ∫ | ϕ (t )| dt , adică F este absolut th 2π −∞ continuă. Pe de altă parte, ∞ 1 sin th − itx F ( x + h) − F( x − h) = e ϕ ( t ) dt ∫ 2h 2π −∞ th

Făcând pe h→0, întrucât limita din membrul drept există, rezultă că există şi limita din membrul stâng şi: ∞ 1 F ( x + h) − F ( x − h) = f (x) = lim ∫ e −itxϕ (t ) dt h→ 0 2h 2π −∞ De asemenea, putem scrie: ∞ 1 1 1 th th th | f ( x + h ) − f ( x )| ≤ ∫ 2|sin 2 ||ϕ (t )| dt = π |t |∫ A |sin 2 ||ϕ (t )| dt + π |t |∫ A |sin 2 ||ϕ ( t )| dt 2π −∞ ≤ > Pentru orice ε > 0, putem alege A suficient de mare, astfel încât Dacă h este suficient de mic, 1 th ε || ϕ ( t )| dt < 2 2 1

π

| t |> A

| ϕ ( t )| dt <

ε
2

.

π
şi, deci, | f ( x + h) − f ( x )| < ε .
Exemplu.

| t |≤ A

| sin

Ne propunem să determinăm funcţia de repartiţie corespunzătoare funcţiei
− t2 2

caracteristice ϕ ( t ) = e

.
1 − e − itx − t2 ∫ it e dt şi de aici, −∞
− t2 2

2

1 Aplicând formula de inversiune, putem scrie F ( x ) − F ( 0 ) = 2π prin derivare,

1 F '( x ) = 2π sau: F '( x ) = 1

−∞

∫e

− itx

e

t2 2

1 dt = 2π

−∞

∫ (cos tx − i sin tx )e

t2 2

1 dt = 2π

−∞

∫ cos tx ⋅e

dt ,

π

∫ cos tx ⋅e
0

t2 2

dt .

Integrând prin părţi relaţia obţinută, avem:
sin tx − t2 F' ( x) = e x
2

∞ 0

t t − − 1 1 2 + t sin tx ⋅e dt = t sin tx ⋅ ⋅e 2 dt πx ∫ πx ∫ 0 0 ∞ t2 2

2

2

Pe de altă parte, dacă mai derivăm odată, F ' ' ( x ) = −

1

π

∫ t sin tx ⋅e
0

dt .
− x2 2

Deci, F ''( x ) = − xF '( x ) care conduce la F ' ( x ) = c ⋅ e

x2 − 2

, adică f ( x ) = c ⋅ e

, c > 0.
59

Din

−∞

c⋅e

x2 2

dx = 1 se obţine c = f (x) = 1

1 2π

, deci, în final,
x2 2

e ; F(x) = ∫ e dy 2π 2π −∞ Exemplu. Să se determine densitatea de repartiţie a variabilei aleatoare X cu funcţia caracteristică ϕ(t) = e-|t|. Aplicând formula de inversiune pentru densitatea de repartiţie, putem scrie:

1

x

y2 2

1 f (x) = 2π

−∞

∫e

− itx

∞ 0 ⎤ 1 ∞ −t 1 ⎡ t − itx − t − itx e dt = dt ⎥ = ∫ e cos tx dt ⎢ ∫ e dt + ∫ e 2π ⎣−∞ 0 ⎦ π 0 − |t |

Integrând de două ori prin părţi, obţinem:
1⎡ f ( x ) = ∫ ( − e )'cos tx dt = ⎢− e − t cos tx π0 π⎣ 1
∞ −t ∞ 0 ∞ ⎤ 1⎡ ⎤ − x ∫ e sin tx dt ⎥ = ⎢1 − x ∫ e − t sin tx dt ⎥ = 0 0 ⎦ π⎣ ⎦ ∞ −t

∞ ∞ ⎤ 1 1⎡ 1 1 −t −t 2 2 1 2 2 = ⎢1 − x ∫ e cos tx dt ⎥ = − x ∫ e cos tx dt = π − x f ( x ) ⇒ f ( x )(1 + x ) = π π⎣ π0 0 ⎦ π

şi, deci,
f (x) =
1 , π (1 + x 2 )

adică X este repartizată Cauchy. Funcţia caracteristică pentru variabile aleatoare vectoriale Să considerăm vectorul aleator X = (X1,X2,…,Xn) a cărei funcţie de repartiţie este F(x1,x2,…,xn).
Definiţie. Funcţia ϕ:R→C definită prin ϕ ( t1, t 2,..., tn ) = M ( e caracteristică a vectorului aleator (X1,X2,…,Xn).
i ∑ tk X k
k =1 n

)

este funcţia

Din definiţie rezultă că ϕ ( t1, t 2,..., tn ) =

Rn

e

i ∑ t k xk
k =1

n

dn F ( x1, x 2,..., xn ) ,

în cazul în care există densitatea de repartiţie f(x1,x2,…,xn),

ϕ ( t1, t 2,..., tn ) =
iar în cazul discret,

Rn

e

i ∑ tk xk
k =1

n

f ( x1, x 2,..., xn )dx1... dxn ,

60

ϕ ( t1, t 2,..., tn ) =

x1 ∈S1 x 2 ∈S 2

∑ ∑ ... ∑

e

i ∑ tk xk
k =1

n

P( X 1 = x1, X 2 = x 2,..., Xn = xn ) ,

x n ∈S n

unde am notat cu Sk mulţimea valorilor variabilei aleatoare Xk, mulţime care este cel mult numărabilă, 1 ≤ k ≤ n.
Propoziţie. Funcţia caracteristică a vectorului aleator (X1,X2,…,Xn) are următoarele proprietăţi: (a) ϕ(0,0,…,0) = 1 (b) |ϕ(t1,t2,…,tn)| ≤ 1 (c) ϕ ( − t1,− t 2,...,− tn ) = ϕ ( t1, t 2,..., tn ) (d) ϕ(t1,t2,…,tn) este uniform continuă pe Rn (e) Dacă vectorul aleator X = (X1,X2,…,Xn) are funcţia caracteristică ϕX(u1,u2,…,un) şi se

consideră

vectorul
i ∑ bjt j
j =1 m

Y

=

(Y1,Y2,…,Yn),

Yj = ∑ cjkXk + bj, 1 ≤ j ≤ m ,
k =1
m

n

atunci

ϕY ( t 1, t 2,..., tm ) = e

ϕ X ( u1, u2,..., un ) , unde uk = ∑ cjktj, 1 ≤ k ≤ n .
j=1

Vom deduce numai relaţia de la punctul (e), celelalte fiind simple transpuneri din cazul unidimensional.

ϕ Y ( t1, t 2,..., tm ) = M ( e
=e
i ∑ bjt j
j =1 m n m

i ∑tjXj
j =1

m

) = M (e
i ∑ bjt j
j =1 m

i ∑tj(
j =1

m

∑ c jk X k + b j )
k =1

n

) = M (e

i ∑ bjt j
j =1

m

e

i ∑ ∑ t j c jk X k
j =1 k =1

m

n

)=

M (e

i ∑ ( ∑ t j c jk ) X k
k =1 j =1

)=e

ϕ X ( ∑ t j c j1 , ∑ t j c j 2 ,..., ∑ t j c jn )
j =1 j =1 j =1
i ∑ bjt j
j =1 m

m

m

m

şi, dacă notăm uk = ∑ cjktj, 1 ≤ k ≤ n , obţinem ϕY ( t 1, t 2,..., tm ) = e
j=1

m

ϕ X ( u1, u2,..., un )

Din funcţia caracteristică ϕX(t1,t2,…,tn) se pot obţine imediat funcţiile caracteristice ale componentelor vectorului X: ϕX k ( t k ) = ϕX ( 0,0,...,0, t k ,0,...,0) 1 ≤ k ≤ n şi dacă vectorul X are componentele independente, atunci:

ϕX ( t1, t 2,..., tn ) = ∏ ϕX k ( tk )
k =1

n

Legătura cu momentele este dată de relaţia de mai jos: dacă vectorul X are momente mixte de ordinul k1,k2,…,kn atunci:
1 ∂ i
j =1

M k1,k 2,...,kn ( X 1, X 2,..., Xn ) =

∑ kj

n

ϕ ( t1, t 2,..., tn ) t1 =... = tn = 0 ∂ t1 ∂ t 2 ...∂ tn
j =1 k1 k2 kn

∑ kj

n

61

Şi în cazul n-dimensional are loc formula de inversiune şi teorema de unicitate, al cărei enunţ îl vom menţiona: Fie ϕ(t1,t2,…,tn) şi F(x1,x2,…,xn) funcţia caracteristică, respectiv funcţia de repartiţie a vectorului aleator (X1,X2,…,Xn). Dacă (a1,a2,…,an), (b1,b2,…,bn)∈Rn, aj < bj, 1 ≤ j ≤ n şi funcţia F este continuă în punctele (a1,a2,…,an), (a1,…,aj-1,bj,aj+1,…,an), (a1,…,aj-1,bj,aj+1,…, ,ak-1,bk,ak+1,…,an), (b1,b2,…,bn), atunci:

P(a1 ≤ X1 < b1, a2 ≤ X2 < b2, ,..., an ≤ Xn < bn) = = 1 (2π ) n lim ∫ ... ∫
c →∞ −c c c

−c

e − itk ak − e − itk bk ϕ ( t1, t 2,..., tn ) dt1... dtn ∏ itk k =1
n

Funcţia de repartiţie F(x1,x2,…,xn) este determinată în mod unic de funcţia ei caracteristică. 2.10. Funcţia generatoare Funcţia generatoare a unei variabile aleatoare a fost utilizată începând de la Laplace, deci mult înainte de a se utiliza funcţia caracteristică. Am văzut că funcţia caracteristică are proprietatea |ϕ(t)| ≤ 1 (deci mărginită) în timp ce funcţia generatoare nu mai este mărginită, dar ea este deosebit de utilă îndeosebi pentru calculul momentelor. Vom considera că variabila aleatoare X este discretă şi că ia numai valori întregi nenegative. Numim funcţie generatoare a variabilei aleatoare X funcţia G:C→C, prin relaţia:

Gx(z) = ∑ pkz k , pk = P(X = k), k∈N, cu |z| ≤ 1
k =0

Din definiţia dată rezultă că ϕx(t) = Gx(eit), care stabileşte o legătură între funcţia caracteristică şi funcţia generatoare. Tot din definiţie rezultă că funcţia generatoare determină în mod univoc repartiţia variabilei aleatoare X ⎛k ⎞ X: ⎜ ⎟, ⎝ pk , k ∈ Ν ⎠ unde: G (k) (0) x , k = 1,2,3,… p0 = Gx(0); pk = k! Se obţine imediat că variabila aleatoare X (variabila binomială)
⎛k ⎞ ⎟ X: ⎜ k k n-k ⎝ C n p q , k = 0,1,2,..., n⎠ are funcţia generatoare Gx(z) = [1 + p(z - 1)]n, iar variabila

62

⎛k ⎞ ⎜ ⎟ k Y: ⎜ -λ λ ⎟ ⎜e , k = 0,1,2,..., n,...⎟ ⎝ ⎠ k!

are funcţia generatoare Gy(z) = eλ(z-1). Funcţia generatoare se utilizează frecvent pentru calculul momentelor factoriale şi, cu ajutorul acestora, a momentelor obişnuite şi centrate de diferite ordine, dacă acestea există. Din definiţia funcţiei generatoare rezultă că ea are sens pentru |z| ≤ 1. Atunci, derivatele în punctul z = 1, dacă există, vor fi luate ca derivate la stânga. Atunci:
G 'x (1) = ∑ k pk
k =1 ∞ ∞

G ''x (1) = ∑ k(k - 1) pk
k=2 ∞

G (s) (1) = ∑ k(k - 1)...(k - s + 1) pk x
k=s

De aici rezultă că:
Gx(1) = M0(x) = 1 G 'x (1) = M1(x) = M(x) G ''x (1) = M2(x) - M1(x) G ''' (1) = M3(x) - 3M2(x) + 2M1(x) x G 'v (1) = M4(x) - 6M3(x) + 11M2(x) - 6M1(x), x

sau:
M1(x) = G 'x (1) M2(x) = G ''x (1) + G 'x (1) M3(x) = G ''' (1) + 3G ''x (1) + G ''x (1) x M4(x) = G 'v (1) + 6G ''' (1) + 7G ''x (1) + G 'x (1) x x

Pentru calculul momentelor centrate utilizăm relaţia:

Hs( x ) = ∑ c sj ( −1) j M s − j ( x ) M1j ( x )
j= 0

s

Această relaţie este comodă şi se recomandă pentru valori mici ale lui s. În cazul când s va avea valori mari, vom proceda în felul următor: notăm Z = ew şi dezvoltăm în serie de puteri funcţia GX(ew).

63

Funcţia GX(Z) este dezvoltabilă în serie de puteri în punctul Z = 1 dacă ea este r regulată în acest punct. Dacă |w| ≤ r < 1, rezultă | e w − 1| ≤ şi, deci, dacă r este suficient 1− r de mic, funcţia GX(ew) este regulată pentru |w| ≤ r. Întrucât departe:
∞ ∞ ∞ ⎛ ∞ k S wS ⎞ wS ⎛ ∞ s⎞ GX ( e w ) = ∑ pke wk = ∑ pk ⎜ ∑ ⎟ =∑ ⎜ ∑ pkk ⎟ , putem scrie mai ⎠ ⎝ k =0 s ! ⎠ k =0 s ! ⎝ k =0 k =0 k =0

Hx( w) = Gx( e ) = ∑
w s= 0

Ms( x ) s w s!

Funcţia Hx(w) poartă numele de funcţie generatoare de momente. Momentele centrate se calculează acum utilizând funcţia: Lx( w) = e − w M1( x )Hx( w) , întrucât ⎛ ∞ M1j ( x )w j ⎞ ⎛ ∞ M s ( x ) s ⎞ ∞ w s j ⎟⎜∑ w ⎟ =∑ Lx( w) = ⎜ ∑ ( −1) j ! ⎠ ⎝ j= 0 s! ⎝ j= 0 ⎠ j= 0 s ! = ∑ Hs( x )
s= 0 ∞

∑ ( −1)
j= 0

s

j

Csj M1j ( x ) Ms − j( x ) =

ws s!

Această funcţie mai poartă numele de funcţie generatoare a momentelor centrate.

64

Capitolul 3 LEGI DE REPARTIŢIE În acest capitol ne vom ocupa de principalele legi de repartiţie ce intervin în aplicaţii concrete sau în abordarea diverselor aspecte teoretice sau specifice din teoria probabilităţilor şi statistica matematică. Vom aborda mai întâi repartiţiile de tip discret, apoi cele caracterizate de o densitate de repartiţie. 3.1. Repartiţii de tip discret Cea mai simplă repartiţie discretă este repartiţia variabilei aleatoare X cu masa concentrată într-un punct a∈R.
⎛ a⎞ X: ⎜ ⎟ , P(X=a) = 1, P(X≠a) = 0 ⎝1 ⎠

Se obţine imediat că M(X) = a, D2(X) = 0, ϕ(t) = eita
⎧0, x ≤ a Fa ( x ) = ⎨ ⎩1, x > a

Urmează de aici că orice repartiţie discretă admite pentru funcţia de repartiţie reprezentarea:
⎛ aj ⎞ X: ⎜ , j ∈ J⎟ ; F(x) = ∑ pjFaj(x) ; pj = P(X=aj); j∈J, J cel mult numărabilă. ⎝ P(X = aj) ⎠ j∈J

Un caz aparte îl constituie repartiţia uniformă discretă:

⎛ aj ⎜ X: ⎜ 1 ⎝n

⎞ 1 ⎟ ,1 ≤ j ≤ n⎟ ; P(X = aj) = , 1 ≤ j ≤ n ; n ⎠

M(x) =

1 n 1 n 1 n aj ; D 2 (x) = ∑ a 2 − ( ∑ a j ) 2 ; ∑ n j= 1 n j=1 j n j=1 1 n itaj ∑e ; n j =1

ϕ(t) = M(eitx) = F(x) =

1 n ∑ Faj(x) n j=1 Dacă presupunem că a1<a2<…<an, atunci, evident,

65

⎧0 ⎪1 ⎪n ⎪... ⎪ F(X) = ⎨ k ⎪ ⎪n ⎪... ⎪1 ⎩

, x ≤ a1 ,a1 < x ≤ a2 ,ak < x ≤ ak + 1 , x > an

Repartiţia binomială

Spunem că variabila aleatoare X este repartizată binomial de parametri p şi n (0<p<1) dacă P(X = k) = C k p k q n − k , 0 ≤ k ≤ n, q = 1 − p . Vom scrie: n
⎛0 X: ⎜ 0 0 n ⎝ Cn p q 1 C1 p 1q n-1 n ... k C k p k q n-k n ... n ⎞ n n 0 ⎟ Cn p q ⎠

Denumirea vine de la faptul că P(X = k) = C k p k q n − k sunt termenii dezvoltării n binomului

(p + q) n = ∑ C k p k q n − k , q = 1 - p n
k=0

n

Funcţia de repartiţie
⎧0 ⎪q n ⎪ ⎪... ⎪ F(X) = ⎨ j k k n − k ⎪∑ C n p q ⎪ k=0 ⎪... ⎪1 ⎩ Momentele obişnuite MS(X) = ∑ k s C k p k q n − k n
k=0 n

,x ≤ 0 ,0 < x ≤ 1 , j < x ≤ j+1 ,x > n

Momentele centrate

µs(x) = ∑ [k − M(x)]s C k p k q n − k n
k=0

n

Înainte de a menţiona cum se calculează efectiv momentele, vom da funcţia caracteristică:

ϕx(t) = M(e itx ) = ∑ e itk C k p k q n − k = ∑ C k (pe it ) k q n − k = (pe it + q) n n n
k=0 k=0

n

n

66

Calculul momentelor: M(X) = ∑ kC k p k q n − k n
k=0 n

Considerăm egalitatea (p + q) n = ∑ C k p k q n − k ca o funcţie de p. n
k=0

n

Derivăm, înmulţim cu p ambii membri, apoi ţinem seama de faptul că p + q = 1 şi obţinem:

n(p + q) n-1 = ∑ kC k p k-1q n − k ; np(p + q) n-1 = ∑ kC k p k q n − k n n
k =0 k =0

n

n

Deci, M(X) = ∑ kC k p k q n − k = np. n
k =0

n

Repetăm raţionamentul, luând derivata a doua şi înmulţind cu p2: n(n − 1)(p + q) n − 2 = ∑ k(k − 1)C k p k − 2 q n − k ; n
k=2 n

n(n − 1)p 2 = ∑ k(k − 1)C k p k q n − k = ∑ k 2 C k p k q n − k − ∑ kC k p k q n − k n n n
k =0 k =0 k =0

n

n

n

Deci,

M2(x) = ∑ k 2 C k p k q n − k = n 2 p 2 − np 2 + np = npq + n 2 p 2 n
k=0

n

Pentru calculul momentului M3(X):

n(n − 1)(n − 2)(p + q) n − 3 = ∑ k(k - 1)(k - 2)C k p k-3q n − k n
k =0

n

n(n − 1)(n − 2)p 3 = ∑ k(k - 1)(k - 2)C k p k q n − k = n
k=0

n

= ∑ k 3 C k p k q n − k − 3∑ k 2 C k p k q n − k + 2∑ kC k p k q n − k n n n
k=0 k =0 k =0

n

n

n

Urmează că: M3(X) = n(n -1)(n - 2)p 3 + 3M2(x) - 2M(x) = n 3 p 3 + 3n 2 p 2q + npq(1- 2p) În mod analog, se obţine: M4(X) = n 4 p 4 + 6n 3 p 3q + n 2 p 2 (7 -18p + 11p 2 ) + np(1- 7p + 12p 2 - 6p 3 ) La aceleaşi rezultate se poate ajunge pornind de la funcţia caracteristică ϕ(t) = (peit + q)n,
67

pe baza relaţiei:
Mr(X) =

ϕ (r) (0)
ir

, r = 1,2,…
n

Pentru calculul momentelor obişnuite, se mai poate folosi şi faptul că X = ∑ Xj ,
j= 1

Xj fiind variabile aleatoare independente identic repartizate
⎛ 1 0⎞ Xj = ⎜ ⎟, 1≤ j ≤ n ⎝ p q⎠

Atunci, M(X) = ∑ M(Xj) = np
j =1

n

⎡⎛ n ⎞ 2 ⎤ ⎡n ⎤ n ⎢⎜ ∑ Xj⎟ ⎥ = M ⎢∑ X 2j + 2∑ X j Xk ⎥ = ∑ M(X 2j ) + 2∑ M(X j )M(Xk) = np + 2C 2 p 2 = M 2 (X) = M n ⎢⎝ j=1 ⎠ ⎥ j< k j< k ⎣ j=1 ⎦ j=1 ⎣ ⎦ = np + n(n − 1)p 2 = n 2 p 2 + npq

Analog se calculează celelalte momente, de ordin mai mare decât doi, dificultatea
⎛ n ⎞ ⎛ n ⎞ constând în a exprima doar puterile ⎜ ∑ Xj⎟ , ⎜ ∑ Xj⎟ etc. ⎝ j=1 ⎠ ⎝ j=1 ⎠ Pentru obţinerea momentelor centrate folosim relaţia:
3
4

µ r (X) = ∑ (-1) j C rj Mr − j(X)M j (X)
j=0

r

şi astfel obţinem: µ1(x) = 0; µ2(x) = npq; µ3(x) = npq (q-p); µ4(x) = 3n2p2q2 + npq (1-6pq) În general, µ2r(x) = a0nr + a1nr-1 + … + ar-1n, µ2r+1(x) = b0nr + b1nr-1 + … + br-1n. Putem acum exprima coeficienţii de asimetrie şi exces.
Asimetria: γ 1 =

µ 3( x ) npq( q − p) 1 − 2 p = = . µ 23/ 2 ( x ) ( npq)3/ 2 ( npq)1/ 2

Dacă n → ∞ , atunci repartiţia binomială tinde către una simetrică: γ1→0.

µ 4( x ) 3n 2 p 2 q 2 + npq(1 − 6 pq ) 1 − 6 pq Excesul: γ 2 = 2 −3= −3= 2 2 2 n p q npq µ2 ( x )
68

Am văzut că P(X=k) = C k p k q n − k , k = 0,1,2,…,n. Atunci, valoarea cea mai probabilă n este dată de: P(X = k-1) ≤ P(X = k) ≥ P(X = k+1) Din dubla inegalitate

C k-1 p k-1q n − k +1 ≤ C k p k q n − k ≤ C k +1 p k +1q n − k-1 n n n
se obţine: np - q ≤ k ≤ np + p În general, np + p nu este întreg şi atunci nici np - q nu este întreg, caz în care o unică valoare are cea mai mare probabilitate. În cazul excepţional când np + p este întreg, rezultă că şi np - q este întreg, şi atunci avem două valori ce corespund probabilităţilor maxime: P(X = np - q) = P(X = np + p)
Repartiţia Poisson

Spunem că variabila aleatoare X urmează o repartiţie Poisson de parametru λ, λ > 0, λk dacă P(X = k) = e -λ , k = 0,1,2,…. k! Vom scrie ⎛ k ⎞ k X: ⎜ -λ λ k = 0,1,2,...⎟ ⎜e ⎟ , ⎝ ⎠ k!

Este vorba de un sistem complet de probabilităţi, întrucât Funcţia de repartiţie este:

∑ P( X = k ) = ∑ e −λ
k=0 k=0

λk
k!

=1 .

, x≤0 ⎧0 ⎪e -λ , 0 < x ≤1 ⎪ ⎪... ⎪ F(x) = ⎨ k -λ λ j ⎪∑ e j! , k < x ≤ k + 1 ⎪ j=0 ⎪ ⎪... ⎩

Funcţia caracteristică este:

ϕ (t) = M(e itx ) = ∑ e itx e -λ
k =0

λk
k!

= e -λ ∑

( λe it ) k k! k =0

ϕ (t) = e λ (e
Momentele obişnuite:

it

-1)

M(x) = ∑ ke - λ
k=0

λk
k!

= e -λ λ ∑
k=1

λ k −1
( k − 1)!


69

M2(X) = ∑ k 2 e -λ
k=0 -λ

λk
k!

= e -λ λ ∑ k
k=1

λk −1
( k − 1)!

= e -λ λ ∑ ( k − 1 + 1)
k=1

λk −1
( k − 1)!

=

∞ ⎡ ∞ λk − 2 λk −1 ⎤ 2 = e λ ⎢λ ∑ +∑ ⎥=λ +λ ⎣ k=2 ( k − 2)! k=1 ( k − 1)!⎦

Analog,

M3(X) = λ3 + 3λ2 + λ M4(X) = λ4 + 6λ3 + 7λ2 + λ …

La aceleaşi rezultate se ajunge cu ajutorul funcţiei caracteristice Mr(X) = Momentele centrate: µ1(x) = 0; µ2(x) = λ; µ3(x) = λ; µ4(x) = 3λ2+λ

ϕ ( r ) (0)
ir

.

Coeficienţii de asimetrie şi exces:

γ1 = γ2 =

µ3 ( x ) λ 1 = 3/ 2 = 1/ 2 3/ 2 µ2 ( x) λ λ µ4 ( x ) 3λ 2 + λ 1 − 3= − 3= 2 2 µ2 ( x) λ λ

Repartiţia Poisson intervine în aplicaţii în studiul evenimentelor rare, drept urmare mai este cunoscută sub numele de legea evenimentelor rare. Aşa, de exemplu, dacă se alege un interval de timp unitate (de lungime convenabilă), atunci numărul de apeluri la o centrală telefonică, numărul de autovehicule ce trec printr-o intersecţie în intervalul de timp considerat, urmează o lege de repartiţie Poisson.

Repartiţia binomială cu exponent negativ
Se consideră un eveniment A care are probabilitatea p de a se realiza şi probabilitatea q = 1 - p de a se realiza A . Efectuăm k probe, până când evenimentul A se realizează de m ori; k ≥ m. Dacă notăm cu Pm(k) probabilitatea corespunzătoare, atunci: P(X1 = k) = Pm(k) = C m-1 p m q k − m k-1 Am obţinut astfel repartiţia:
⎛k X1: ⎜ m-1 m k − m ⎝ C k-1 p q ⎞ , k = m, m + 1, ...⎟ ⎠

Să arătăm că

k=m

∑ P( X
k=m

1

= k ) = 1 . Într-adevăr,

k=m

P(X1 = k) =

C

m-1 k-1

p q

m

k−m

=p

m

k=m

C q

m-1 k-1

k−m

=p

m


l=m

C m-1 q l = p m (1 − q) − m = 1 , m+l-1

cu k - m = l.
70

⎛ 1 q⎞ Întrucât Pm(k) este termenul general al dezvoltării binomului p (1- q) = ⎜ − ⎟ ⎝ p p⎠ cu exponent negativ, se justifică numele de repartiţie binomială cu exponent negativ. Aplicaţiile repartiţiei binomiale cu exponent negativ se întâlnesc în modelarea fenomenelor de contagiune şi teoria estimaţiei. Să studiem pentru început cazul când m = 1. Atunci, P( X 1 = k ) = pq − 1, k = 1,2,3... . Rezultă, acum, imediat: ∞ p 1 M(X1) = ∑ kpq k −1 = 2 = p (1 − q) k =1
m -m

−m

M2(X1) = ∑ k 2 pq k −1
k =1

∑qk =
k=0 ∞ k =1

1 ; 1− q
k −1

∑ kq k −1 =
k =1

p ; (1 − q) 2
2

∑ k(k - 1)q
k=2 ∞

k−2

=

2 (1 − q) 3

∑ k(k - 1)q
∞ k =1

=

2q ; p3

∑k
k =1 ∞

q k −1 − ∑ kq k −1 =
k =1

2q p3

p ∑ k 2 q k −1 = De aici, urmează că:
M2(X1) = 2q 1 + ; p2 p

2pq k −1 3 + p∑ k q p k =1

D 2 (X1) = M2(X1) − M 2 (X1) =

2q 1 1 2q + p − 1 q + (p + q) − 1 q + − = = = 2 p2 p p2 p2 p2 p

Momentele, însă, le putem calcula mai uşor de la funcţia generatoare a momentelor factoriale ∞ ∞ pt p p k k-1 Φ(t) = ∑ t pq = pt∑ (qt) k −1 = = − + (1- qt) −1 1 − qt q q k =1 k =1 Atunci: dΦ ( t ) 1 M (1) ( X 1) = = t =1 dt p
d 2 Φ( t ) M ( 2) ( X 1) = dt 2 d 3 Φ( t ) M ( 3) ( X 1) = dt 3 ... M ( r ) ( X 1) = ... De aici urmează: d r Φ( t ) dt r
t =1

=

2!q p2

t =1

3! q 2 = 3 p r ! q r −1 pr

t =1

=

71

M1(X1) = M (1) (X1) =

1 ; p 1 2q + ; p p2 1 6q 6q + + p p2 p3

M2(X1) = M (1) (X1) + M (2) (X1) =

M (3) (X1) = M (1) (X1) + 3M (2) (X1) + M (3) (X1) = ...

Înainte de a trece la cazul m oarecare, să determinăm funcţia caracteristică a variabilei X1 în cazul m=1.

ϕ X ( t ) = ∑ e itk pq k −1 = pe it ∑ ( qe it )
1

k −1

=

k =1

k =1

pe it 1 − qe it

Să presupunem acum că am efectuat X1 probe până ce s-a realizat o dată evenimentul A, apoi X2 probe până s-a realizat o dată A ş.a.m.d., Xm probe până s-a realizat o dată evenimentul A. Aşadar, dacă notăm cu X numărul de probe până s-a realizat de m ori evenimentul A, atunci X = ∑ Xj , X1,X2,…,Xm independente. Atunci,
j=1 m

⎛ pe it ⎞ m 1 dϕ X ( t ) = . ϕ X ( t ) = ∏ ϕ Xj ( t ) = ⎜ ⎟ ; M( X ) = it t=0 i dt p ⎝ 1 − qe ⎠ j =1 Analog, m 2mq 1 d 2ϕ X ( t ) 1 mq = + 2 + m( m − 1) 2 ; D 2 (X) = 2 M 2( X ) = 2 2 t =0 i dt p p p p
m

m

Prin calcule directe, se determină coeficienţii de asimetrie şi exces:

γ1 =

2− p 1+ q 1/ 2 = ( mq) ( mq)1/ 2

p 2 − 6p + 6 γ2 = mq
Repartiţia geometrică:
⎛k ⎞ X: ⎜ k-1 ; k = 1,2,3...⎟ ⎝ pq ⎠

este caz particular al repartiţiei binomiale cu exponent negativ, pentru m=1, pe care am studiat-o în amănunt.

Repartiţia hipergeometrică este dată de variabila X care reprezintă numărul de bile albe existente printre cele n bile extrase fără revenire, dintr-o urnă cu A bile albe şi B bile negre.
72

C k C n−k Atunci, după cum ştim, Pn(k) = A n B . Întrucât 0 ≤ k ≤ A, 0 ≤ n-k ≤ B, rezultă C A+B
max (0, B - n) ≤ k ≤ min (A, n)

şi, deci,

⎛k ⎞ ⎜ k n−k ⎟ max (0, B − n) ≤ k ≤ min (A, n)⎟ X: ⎜ C A C B ; ⎜ ⎟ ⎝ C n +B ⎠ A Dacă facem k = 0, atunci B(B − 1)...(B − n + 1) Pn(0) = (A + B)(A + B − 1)...(A + B − n + 1) Cu această relaţie, probabilitatea Pn(k) se poate pune sub forma:
Pn(k) = n(n − 1)...(n − k + 1) A(A − 1)...(A − k + 1) Pn(0) k! (B - n + 1)(B − n + 2)...(B − n + k)

Pentru calculul momentelor, procedăm în modul următor: dintr-o urnă care conţine A bile albe şi B bile negre (A+B=N) efectuăm n extrageri succesive, fără a pune înapoi bila extrasă. Vom avea astfel succesiunea de variabile aleatoare dependente X1,X2,…,Xn, fiecare având repartiţia: ⎛ 1 0⎞ Xi: ⎜ ⎟ , pi + qi = 1 ⎝ pi qi⎠ Deci avem de calculat primele momente ale variabilei X = X1 + X2 +…+Xn. Atunci M(X) = ∑ M(Xi) = nP(Xi = 1) . Cum P(Xi = 1) =
i =1
n

n

A(N − 1)! A = = p , deci M(X) = np, N! N

M2(X) = M(X 2 ) = ∑ M(X 2 ) + 2∑ M(XiXj) = np + n(n − 1)M(XiXj) . i
i =1 i< j

Avem de considerat situaţiile:

(Xi = 1, Xj = 1), (Xi = 1, Xj = 0), (Xi = 0, Xj = 1), (Xi = 0, Xj = 0) Atunci produsul P(Xi=1,Xj=1). XiXj ia valoarea diferită de zero (valoarea 1) cu probabilitatea
A(A -1)(N − 2)! A(A -1) p(Np − 1) . = = N! N(N -1) N −1

Însă P(Xi = 1, Xj = 1) =

Deci, M2(X) = np + n(n − 1)

(Np − 1)p 1 = [(Np − 1)pn 2 + Npqn] , cu q = 1 - p. N −1 N −1
73

De aici, urmează că D 2 (X) =

N−n npq . N −1

Observaţie. Dispersia corespunzătoare la n probe în repartiţia hipergeometrică diferă de N−n dispersia binomială prin factorul < 1. Dacă N = n, D2(X)=0, adică dispare factorul N −1 aleator. În plus, N−n lim D 2 (X) = lim npq = npq , N →∞ N →∞ N − 1 care este dispersia unei variabile Bernoulli.

Repartiţia multinomială (variabilă aleatoare vectorială de tip discret).

Am văzut că dacă avem o urnă cu bile de s culori care conţine a1 bile de culoarea 1, a2 bile de culoarea 2, …, as bile de culoarea s, atunci probabilitatea de a obţine în n extracţii succesive, cu revenire, α1 bile de culoarea 1,α2 bile de culoarea 2,…,αs bile de culoarea s este:
Pn(α 1, α 2,..., αs ) = n! α p α1 p α 2 ... p s s , α 1 !α 2 !...αs ! 1 2

α1 + α2 + … + αs = n

Dar, probabilităţile p1,p2,…,ps ≥ 0, p1 + p2 +…+ ps = 1. Atunci, variabila multinomială de studiat este variabila X = ∑ Xk , unde X1,X2,…,Xn sunt
k =1 n

variabile aleatoare independente, având repartiţiile:
⎛ e1 e2 ... es ⎞ X: ⎜ ⎟, 1≤k≤n ⎝ p1 p2 ... ps⎠

e1 = (1,0,0,…0) e2 = (0,1,0,…,0) … es = (0,0,0,…,1)
⎛ (α1 , α 2 ,..., α s ) X :⎜ ; 0 ≤ α i ≤ n; ⎝ Pn(α1 , α 2 ,..., α s )

∑α
i =1

s

i

⎞ = n⎟ ⎠

Să arătăm că este vorba de un sistem complet de probabilităţi:

( 1 , 2 ,..., s ) α1 +α 2 + ...+ α s = n

∑ P (α , α ,..., α ) = α α α
n

1

2

s

( 1 , 2 ,..., s ) α1 +α 2 + ...+ α s = n

∑ α α α

n! α p α1 p α 2 ... ps s = ( p1 + p2 +...+ ps ) n = 1 α1 !α 2 !...α s ! 1 2

Pentru calculul momentelor să determinăm mai întâi funcţia caracteristică a vectorului Xk:
74

ϕ Xk ( t1, t 2,..., ts ) = p1e it + p2e it +...+ pse it
1 2

s

Cum X = ∑ Xk ,
k =1

n

⎛ s ⎞ ϕ X ( t1, t 2,..., ts ) = ϕ n ( t1, t 2,..., ts ) = ∏ ϕ X k ( t1, t 2,..., ts ) = ⎜ ∑ pje itj ⎟ ∑ Xk ⎝ j =1 ⎠ k =1 k =1
n

n

La aceleaşi rezultate putem ajunge şi prin calcul direct:

ϕ X ( t1, t 2,..., ts ) =
= =

1 , 2 ,..., s ≥ 0 α1 +α 2 + ...+ α s = n

∑e α α α

( t1α1 + t 2α 2 + ...+ t sα s ) i

Pn(α1 , α 2 ,..., α s ) =

α1 +α 2 + ...+ α s = n

∑ α α α
1 , 2 ,..., 1 , 2 ,...,

s ≥0

n! α α α p1 1 p 2 2 ... p s s e ( t1α1 + t2α 2 +...+ t sα s ) i = α1 !α 2 !... α s ! n! ( p1e it1 ) α1 ( p 2e it 2 ) α 2 ...( pse it s ) α s = ( p1 e it1 + p 2 e it2 +...+ p s e it s ) n α1 !α 2 !... α s !
n

α1 +α 2 + ...+ α s = n

∑ α α α

s ≥0

⎛ s ⎞ Deci, ϕ X ( t1, t 2,..., ts ) = ⎜ ∑ pjei tj ⎟ . De aici urmează: ⎝ j =1 ⎠

M (αj ) =

1 ∂ϕ ( t1, t 2,..., ts ) i ∂tj

t1 = t2 = ...= t s = 0

⎡n it ⎤ = ⎢ pj( p1e it1 +...+ pse its ) n −1 ie j ⎥ = npj ⎣i ⎦ t1 = t2 =...= ts = 0
= [n( n − 1) p 2 ( p1e it1 +...+ pse its ) n − 2 e j
2 it j

M (α 2 ) = j

1 ∂ 2ϕ ( t1, t 2,..., ts ) i2 ∂t 2 j

+

t1 = t 2 = ...= t s = 0 it

+ npj( p1e it1 +...+ pse its ) n −1 e j ]t1 = t2 = ...= ts = 0 = n( n − 1) p 2 + npj = n 2 p 2 + npj(1 − p j ) j j

D 2 (αj ) = npj(1 − pj ), 1 ≤ j ≤ s
M (αjαk ) = 1 ∂ 2ϕ ( t1,..., ts ) ∂tj∂tk i2 = n( n − 1) pjpk ( p1e it1 +...+ pse its ) n − 2 e j e itk
t1 = t 2 = ...= t s = 0 t1 = t2 = ...= t s = 0 it

=

= n(n -1)pjpk, j, k = 1,2,...,s; j ≠ k

3.2. Repartiţii care admit densitate de repartiţie. Repartiţia normală N(m, ) σ

Prin definiţie, spunem că variabila aleatoare X urmează o lege normală de parametri m şi σ şi vom nota X ∈ N(m;σ), dacă densitatea ei de repartiţie este:

75

f X ( x; m, σ ) =

, x ∈ ( −∞ , ∞ ), m ∈ ( −∞ , ∞ ), σ ∈ ( 0, ∞ ) fiind parametrii repartiţiei. σ 2π Dacă m=0, σ=1, spunem că variabila este normată sau standard şi scriem Y ∈ e
2σ 2

1

( x − m )2

N(0;1). Se verifică imediat că fX(x;m,σ) este o densitate de repartiţie. Într-adevăr, fX(x;m,σ) ≥ 0, x ∈ (-∞,∞) şi

1

σ 2π

−∞

∫e

( x − m )2 2σ 2

dx =

1 2π

−∞

∫e

y2 2

dy = 1 , cu y =

x−m

σ

.
x−m

Funcţia de repartiţie FX ( x ) = cu z =

1 σ 2π
1 2π
x

−∞

∫e

x

( y − m )2 2σ 2

dy =

1 2π

σ


0

− ⎛ x − m⎞ / e 2 dz = O⎜ ⎟, ⎝ σ ⎠ z

y−m

σ

/ , unde am pus O( x ) =

−∞

∫e

z2 − 2

dz , funcţia lui Laplace, care este tabelată.
x z2 2

~ / În multe situaţii găsim tabelată funcţia O( x ) =

1 2π

∫e
0

dz , x>0.

Atunci, pe baza relaţiei
~ / O( x ) = 1 2π

−∞

∫e

x

y2 2

dy =

1 2π

−∞

∫e

0

y2 2

dy +

1 2π

∫e
0

x

y2 2

1 dy = + 2

1 2π

∫e
0

x

y2 2

dy

De aici, rezultă:

⎧1 ~ / ⎪ 2 + O( x ) , x > 0 ⎪1 ⎪ / O( x ) = ⎨ ,x = 0 ⎪2 ~ ⎪ 1 − O( x ) , x < 0 / ⎪2 ⎩ Dacă se consideră funcţia densitate de repartiţie fX(x;m,σ), obţinem imediat că ea este 1 simetrică faţă de dreapta x = m, că x = m este punct de maxim şi f max = f ( m) = . σ 2π Din
f f
' (x)

=− =

x−m

1

σ
1

2

σ 2π
e
− ( x − m)2 2σ
2

e

( x − m)2 2σ 2

; 1 e
− ( x − m )2 2σ
2

'' (x)

σ 3 2π

+

( x − m) 2

σ4

σ

=

1

σ 3 2π

e

( x − m )2 2σ 2

⎡ ( x − m) 2 ⎤ − 1⎥ ⎢ 2 ⎣ σ ⎦

rezultă că x = m ± σ sunt puncte de inflexiune pentru fX(x;m,σ).
76

Pentru determinarea momentelor obişnuite de ordin k, vom stabili momentele de ordin k ale variabilei X ∈ N(0;1). Atunci:
1 2π

Mk ( X ) =
1 2π

−∞

∫x

k

e

x2 2

⎧ ⎪ dx = ⎨ 2 ⎪ 2π ⎩

∫x
0

0
x2 2s − 2

, k = 2s + 1 e dx , k = 2s

−∞

∫x

2 s +1

e

x2 2

dx = 0 , deoarece funcţia integrant este impară.

2 2π
s

∫x e
0

x2 2s − 2

dx =

2s 2π


0

y

s−

1 2

e − y dy =

2s

1⎞ 2s ⎛ 1⎞ ⎛ 1⎞ ⎛ Γ⎜ s + ⎟ = ⎜ s − ⎟ Γ ⎜ s − ⎟ =... = π ⎝ 2⎠ π ⎝ 2⎠ ⎝ 2⎠

=

x2 2 ⎛ 1⎞ ⎛ 3⎞ 3 1 ⎛ 1 ⎞ ( 2 s )! s − ⎟ ⎜ s − ⎟ ... Γ ⎜ ⎟ = ( 2 s − 1)( 2 s − 3)...3 ⋅1 = (cu y = ) ⎜ s !2 s 2 π ⎝ 2⎠ ⎝ 2⎠ 2 2 ⎝ 2⎠ , k = 2s + 1 ⎧ 0 ⎪ Deci, Mk ( X ) = ⎨ ( 2s )! ⎪ s!2 s , k = 2s ⎩

Momentele centrate de ordin k ale variabilei Y ∈ N(m,σ) se pot calcula acum imediat: µk (Y ) = Mk[Y − M (Y )] = Mk (Y − m) = Mk (σX ) = σ k Mk ( X ) Y−m = X ⇒ Y − m = σX , k = 2s + 1 , k = 2s

σ

⎧ 0 ⎪ ( 2s )! 2 s Deci, µ k (Y ) = ⎨ σ ⎪ s !2 s ⎩

Pentru k = 1, obţinem µ1(Y) = M(Y-m) = M(Y) - m = 0. Deci, M(Y) = m. 2! 2 Pentru k = 2, obţinem µ 2 (Y ) = σ = σ 2 = D 2 (Y ) , adică parametrii legii normale N(m,σ) 1! 2 au următoarea interpretare probabilistică: m = M(Y), σ2 = D2(Y) (Y ∈ N(m,σ)) Asimetria şi excesul în cazul unei legi normale N(m,σ) au valorile:
A=

µ4 µ3 4!σ −3= 0 3/ 2 = 0; E = 2 −3= ( µ2 ) µ2 2!2 2 σ 4
4

Acesta este motivul pentru care în statistica descriptivă se consideră că dacă asimetria şi excesul unei repartiţii sunt zero, se poate considera că este vorba de o lege de repartiţie normală. Evident, faptul că asimetria şi excesul sunt egale cu zero constituie o condiţie necesară dar nu şi suficientă de normalitate a unei repartiţii.
77

Funcţia caracteristică. Vom stabili mai întâi funcţia caracteristică a variabilei aleatoare X∈ N(0,1). Aplicând definiţia, obţinem: 2 ∞ ∞ x2 − ⎛ ∞ t k e k k ⎞ − x2 1 1 itx itx ϕ X (t ) = M (e ) = ∫ e e 2 dx = 2π −∞⎜ ∑0 k ! x ⎟ e dx ∫ ⎝ k= ⎠ 2π −∞

Seria de sub integrală fiind absolut şi uniform convergentă, se pot permuta operatorii
−∞

şi


k=0

şi obţinem:
⎛ t2 ⎞ ⎜ ⎟ ∞ t2 x2 ∞ 2⎠ − t 2 s ( −1) s ( 2 s )! ∞ 1 s ⎝ k − 2 ∫ x e dx = ∑ ( 2s)! s!2 s = ∑ ( −1) s! = e 2 2π −∞ s= 0 s= 0
s

ϕ X (t ) = ∑

t kik k =0 k !

De aici obţinem funcţia caracteristică a variabilei aleatoare Y∈N(m,σ), ţinând cont de faptul că Y = m + σX. Deci, ϕY ( t ) = M ( e itY ) = M [e it ( m+σX ) ] = M (e itm+ itσX ) ) = e itm M (e itσX ) = e itmϕ X (σt ) Deci ϕ Y ( t ) = e pentru k = 1,
itm− t 2σ 2 2

. De aici rezultă, aplicând relaţia M k (Y ) =

ϕ ( k ) ( 0)
ik

,

ϕ ( t ) = ( im − tσ )e M(Y) = m
' Y 2 '' Y 2 itm − t 2σ 2 2

itm −

t 2σ 2 2

;

pentru k = 2,

ϕ ( t ) = −σ e + ( im − tσ )e i 2σ 2 + i 2 m 2 M 2(Y ) = = σ 2 + m2 , 2
2

itm −

t 2σ 2 2

i

ceea ce obţinusem pe cale directă. Să remarcăm faptul că se poate calcula funcţia caracteristică pe baza unui calcul formal, care este de fapt justificat, după cum urmează: dacă X∈N(0,1), atunci:

ϕ X (t ) = M (e ) =
itX

1 2π

−∞

∫e

itx −

x2 2

dx = e

t2 2

1 2π

−∞

∫e

1 − ( x − it )2 2

dx

Integrala funcţiei e de-a lungul axei OX este egală cu integrala funcţiei e pe o dreaptă paralelă cu axa OX: z = x + iy, unde y = -t (constant), dz = dx. Într-adevăr, conform teoremei lui Cauchy aplicată la integrala funcţiei e conturului C de mai jos: y -A A x
78
− z2 2

1 − ( x − it )2 2

z2 2

, derivabilă în tot planul, de-a lungul

este nulă şi la limită, când A → ∞. În cele ce urmează vom folosi această modalitate de calcul fără a mai face justificarea menţionată mai sus. Deci, ϕ X ( t ) = e
− t2 2

şi mai departe, pentru Y∈N(m,σ),

ϕY (t ) = e

itm−

t 2σ 2 2

.

3.3. Repartiţia uniformă pe un interval [a,b].
Definiţie. Spunem că variabila aleatoare X are o repartiţie uniformă pe intervalul [a,b] dacă densitatea de repartiţie are expresia: ⎧ 1 ⎪ , x ∈[a , b] fX ( x ) = ⎨ b − a ⎪ 0 , x ∉[a , b] ⎩

De aici urmează că funcţia de repartiţie are expresia: ,x ≤ a ⎧0 x ⎪x − a F ( x ) = ∫ f ( u) du = ⎨ ,a < x ≤ b −∞ ⎪b − a ,x > b ⎩1 Funcţia caracteristică:

ϕ ( t ) = M ( e itX ) = ∫
a

b

e itx e itb − e ita dx = b− a it ( b − a )

Momentele obişnuite:
b k + 1 − a k +1 1 k Mk ( X ) = x dx = b−a ∫ ( k + 1)( b − a ) a
b

Pentru k = 1, obţinem M ( X ) =

a+b b 2 + ab + a 2 , iar pentru k = 2, M 2( X ) = ; 2 3

D 2 ( X ) = M 2( X ) − M 2 ( X ) =

b 2 + ab + a 2 ( a + b) 2 ( b − a ) 2 . − = 3 4 12

Asimetria: Excesul:

γ1 = 0. γ2 = -1,2.

Dacă a = 0, b = 1, avem o repartiţie uniformă pe intervalul [0,1]. Repartiţia uniformă intervine în aplicaţii ale metodei Monte-Carlo.
Repartiţia Pareto: Spunem că variabila aleatoare X are o repartiţie Pareto de parametru α, dacă densitatea de repartiţie este:
79

α ⎧ (α − 1)x 0 −1 ⎪ f ( x, α ) = ⎨ xα ⎪0 ⎩

, x ∈( x 0 , ∞ ) , α > 1 , în rest , x0 > 0

Se constată imediat că f(x,α) este o densitate de repartiţie, întrucât f(x,α) ≥ 0 oricare ar fi x ∈ R şi
−∞

∫ f ( x, α ) dx = 1.

0 ⎧ ⎪ α −1 Funcţia de repartiţie este: F ( x , α ) = ∫ f ( u, α ) du = ⎨ ⎛ x 0 ⎞ −∞ ⎪1 − ⎜ x ⎟ ⎩ ⎝ ⎠

, x ≤ x0 , x > x0

Valoarea medie:

M ( X ) = ∫ (α − 1) x 0
x0

α −1

x α dx =(α − 1) x 0 −1 ∫ x −α +1 dx xα x0

Integrala respectivă este convergentă dacă α > 2. Deci, pentru α > 2 există M(X) şi are valoarea M ( X ) = Pentru α > 3 există şi M2(X) şi are valoarea

α −1 x . α−2 0 α −1 2 x . α −3 0

M 2 ( X ) = ∫ (α − 1) x 0
x0

α −1

x2 α −1 −α + 2 α dx =(α − 1) x 0 ∫ x dx . x x0
2

M2 ( X ) =

2 (α − 1) x 0 α − 1 2 (α − 1) 2 2 Deci, D ( X ) = M 2 ( X ) − M ( X ) = x − x = α − 3 0 (α − 2) 2 0 (α − 3)(α − 2) 2 2 ∞

În general, dacă α > k+1, există Mk(X) şi

α M k ( X ) = ∫ (α − 1) x 0
x0

xk (α − 1) k dx = x . α α − k +1 0 x

3.4. Repartiţia Gama de parametri a,b > 0
Definiţie. Spunem că variabila aleatoare X are o repartiţie Gama de parametri a,b, dacă densitatea ei de repartiţie are expresia:
x ⎧ 1 − ⎪ a x a −1e b f ( x ) = ⎨ b Γ( a ) ⎪0 ⎩

, x>0 , x ≤ 0,

a,b > 0. Se constată imediat că f este o densitate de repartiţie, întrucât f(x)≥0, x∈R şi

−∞

f ( x ) dx =

x − 1 x a −1 e b dx = 1 ba Γ(a) ∫ 0

80

,x ≤ 0 ⎧0 ⎪ 1 x y − Funcţia de repartiţie: F ( x ) = ⎨ a ∫ y a −1e b dy , x > 0 ⎪ b Γ(a ) 0 ⎩

Funcţia caracteristică:

ϕ X ( t ) = M ( e itX ) =

x − 1 1 ba e itx x a −1 e b dx = a b a Γ( a ) ∫ b Γ ( a ) (1 − ibt ) a 0

∫y
0

a −1

e − y dy =

1 (1 − ibt ) a

Deci, ϕX(t) = (1 - ibt)-a . Momentele obişnuite:
Mk ( X ) =
x − 1 b a+k b k Γ(a + k ) x a + k −1 e b dx = a y a + k −1 e − y dy = = Γ(a ) b a Γ( a ) ∫ b Γ(a ) ∫ 0 0
∞ ∞

= b k ( a + k − 1)( a + k − 2)...( a + 1)a

Momentele centrate:

µk ( X ) = ∑ ( −1) j Ckj M k − j ( X ) M j ( X )
j =0

k

M1(X) = ab M2(X) = b2 a(a+1) M3(X) = b3a(a+1)(a+2); M4(X) = b4a(a+1)(a+2)(a+3) µ2(X) = ab2; µ3(X) = M3(X) - 3M2(X)M(X) + 2M3(X) = 2ab3; µ4(X)= M4(X) - 4M3(X)M(X) + 6M2(X)M2(X) - 3M4(X) = 3b4a(a+2). De aici rezultă: Coeficientul de asimetrie γ 1 = Coeficientul de exces γ 2 = 6 . a
2 a

.

Pentru a = 1 se obţine repartiţia exponenţială de parametru b:
⎧1 −x b ⎪ f(x) = ⎨ b e ⎪0 ⎩ ⎪0 , x > 0 ; F(x) = ⎧ x ⎨ − ⎪1 − e b ⎩ ,x ≤ 0 ,x ≤ 0 ,x > 0

; b>0

ϕ(x) = (1 - ibt)-1
81

M1(X) = b; µ1(X) = 0; γ1 = 2

M2(X) = 2b2; M3(X) = 6b3; M4(X) = 24b4; µ2(X) = b2; γ2 = 6 µ3(X) = 2b3; µ4(X) = 9b4;

obţinute prin particularizare, din valorile corespunzătoare ale repartiţiei Gama. Repartiţia χ
2 (n)

(hi pătrat)cu n grade de libertate
2 (n)

Definiţie. Variabila aleatoare X are o lege de repartiţie χ

(hi pătrat)cu n grade de libertate

şi parametru σ > 0 dacă densitatea ei de repartiţie are expresia:

⎧0 x2 n ⎪ −1 − 2 1 ⎪ x 2 e 2σ f (x) = ⎨ n ⎛ n⎞ ⎪ 2 2 σ n Γ⎜ ⎟ ⎝ 2⎠ ⎪ ⎩

,x ≤ 0 ,x > 0

n , b = 2σ2, se obţine 2 tocmai repartiţia χ (2n ) . Drept urmare, vom considera rezultatele obţinute pentru valorile
Se constată imediat că, dacă în repartiţia Gama punem a =

particulare menţionate.
⎧0 ⎪ 1 ⎪ F( x ) = ⎨ n ⎪ 2 2 σ n Γ⎛ n ⎞ ⎜ ⎟ ⎝ 2⎠ ⎪ ⎩ ,x ≤0
x y n −1 − 2 2σ 2


0

y

e

dy , x > 0

Datorită multiplelor aplicaţii ale repartiţiei χ găsesc tabelate pentru σ = 1.

2 (n)

, valorile funcţiei de repartiţie se

ϕ ( t ) = (1 − 2iσ 2 t ) − n / 2 ;
⎛n ⎞⎛ n ⎞ ⎛n ⎞ n M k ( X ) = 2 k σ 2k ⎜ + k − 1⎟ ⎜ + k − 2⎟ ... ⎜ + 1⎟ ⎝2 ⎠⎝ 2 ⎠ ⎝2 ⎠ 2
M1(X) = σ2n; M2(X) = n(n+2)σ4; µ1(X) = 0; µ2(X) = 2nσ4; M3(X) = n(n+2)(n+4)σ6; M4(X) = n(n+2)(n+4)(n+6)σ8 µ3(X) = 23nσ6; µ4(X) = 12n(n+4)σ8;

γ1 =

2 2 n

; γ2 =

12 . n
2 (n)

Rezultatul care urmează stabileşte legătura între repartiţia normală şi repartiţia χ rezultat de o importanţă deosebită în aplicaţii.

,

82

Teoremă. Dacă X1,X2,…,Xn sunt variabile aleatoare independente, identic repartizate, având

repartiţia N(0,σ), atunci Y = ∑ X 2 are o repartiţie χ j
j= 1

n

2 (n)

cu parametrul σ.

Demonstraţie: Să determinăm mai întâi densitatea de repartiţie a variabilei X 2 : j

0 ,x ≤0 ⎧ FX 2 ( x ) = P( X 2 < x ) = ⎨ ; j j P( − x < X j < x ) , x > 0 ⎩ 0 ,x ≤0 ⎧ FX 2 ( x ) = ⎨ j F ( x ) − FX j ( − x ) , x > 0 ⎩ Xj Rezultă că:

⎧0 ⎪ x2 x2 − 2 − 2 1 1 1 f X2 (x) = ⎨ 1 2σ 2σ j + e ⎪σ 2π e 2 x 2 x σ 2π ⎩ ,x ≤ 0 ⎧0 x2 1 ⎪ − 2 − 1 ⎪ x 2 e 2σ , x > 0 f X2 (x) = ⎨ 1 j ⎪ 2 2 σ Γ⎛ 1 ⎞ ⎜ ⎟ ⎝ 2⎠ ⎪ ⎩

,x ≤ 0 ,x > 0 ;

2 Aceasta este tocmai densitatea de repartiţie a unei variabile χ (n) cu un grad de

libertate. Urmează că:

ϕ X ( t ) = (1 − 2iσ 2 t )
2 j

1 2 n 2

ϕ Y (t ) = ϕ

j =1

∑ X2 j

n

(t ) = ∏ ϕ
j =1

n

( t ) = (1 − 2iσ t )
2 X2 j

Cum ϕ Y ( t ) = (1 − 2iσ 2 t )

n 2

2 este funcţia caracteristică a unei variabile χ (n) (cu n grade de

libertate şi parametru σ) rezultă că densitatea de repartiţie a variabilei Y este:
⎧0 x n ⎪ −1 − 2 1 ⎪ x 2 e 2σ f Y (x) = ⎨ n ⎪ 2 2 σ n Γ⎛ n ⎞ ⎜ ⎟ ⎝ 2⎠ ⎪ ⎩
n

,x ≤ 0 ,x > 0

2 deci, Y = ∑ X 2 este o variabilă X (n) cu parametru σ. j
j =1

Dacă X1,X2,…,Xn sunt variabile aleatoare independente identic repartizate N(0, σ) vom determina densităţile de repartiţie ale variabilelor: 83

Y1 =

1 n 2 ∑X ; n j =1 j

Y2 =

∑ X 2j ; Y3 =
j=1

n

1 n 2 ∑X . n j=1 j

⎛1 n ⎞ ⎧ 0 ,x ≤ 0 FY1 ( x ) = P(Y 1 < x ) = P⎜ ∑ X 2 < x⎟ = ⎨ j ⎝ n j =1 ⎠ ⎩ FY ( nx ) , x > 0

Rezultă acum:

,x ≤ 0 ⎧ 0 ; f Y1 ( x ) = ⎨ ⎩nfY ( nx ) , x > 0

⎧0 n ⎪ nx n 2 ⎪ −1 − 2 2σ 2 f Y1 ( x ) = ⎨ n n x e ⎪ 2 n ⎛ n⎞ ⎪ 2 σ Γ⎜ 2 ⎟ ⎝ ⎠ ⎩

,x ≤ 0 ,x > 0

⎛ FY2 ( x ) = P(Y 2 < x ) = P⎜ ⎜ ⎝

∑X
j =1

n

2 j

⎞ ⎧ 0 ,x ≤ 0 < x⎟ = ⎨ 2 ⎟ ⎠ ⎩ FY ( x ) , x > 0

⎧0 x2 ⎪ − 2 2 ⎪ n −1 x e 2σ f Y2 ( x ) = ⎨ n ⎛ n⎞ ⎪ 2 2 σ n Γ⎜ ⎟ ⎝ 2⎠ ⎪ ⎩

,x ≤0 ,x >0

⎛ 1 n 2 ⎞ ⎧ 0 ,x ≤ 0 FY3 ( x ) = P(Y 3 < x ) = P⎜ ⎜ n ∑ X j < x ⎟ = ⎨ FY ( nx 2 ) , x > 0 ⎟ j =1 ⎝ ⎠ ⎩

⎧0 n ⎪ nx − 2 ⎪ 2n 2 n −1 2σ f Y3 ( x ) = ⎨ n x e ⎪ 2 n ⎛ n⎞ ⎪ 2 σ Γ⎜ 2 ⎟ ⎝ ⎠ ⎩ 3.5. Repartiţia Student

,x ≤0 ,x >0

Spunem că variabila aleatoare X are o repartiţie Student cu n grade de libertate, dacă densitatea de repartiţie are expresia:
⎛ n + 1⎞ n +1 Γ⎜ ⎟ 2 − 2 ⎝ 2 ⎠ ⎛ x ⎞ f (x) = , x ∈ ( −∞, ∞ ) ⎜1 + ⎟ n⎠ ⎛ n⎞ ⎝ nπ Γ ⎜ ⎟ ⎝ 2⎠

Să arătăm că f este o densitate de repartiţie: pentru f(x) ≥ 0, x ∈ (-∞,∞)

84

−∞

⎛ n + 1⎞ ⎛ n + 1⎞ n +1 Γ⎜ Γ⎜ ⎟ ⎟ 2 − 2 ⎝ 2 ⎠ ⎛ x ⎞ ⎝ 2 ⎠ dx = 2 ⎜1 + ⎟ n⎠ ⎛ n⎞ ⎝ ⎛ n⎞ nπ Γ ⎜ ⎟ nπ Γ ⎜ ⎟ ⎝ 2⎠ ⎝ 2⎠

⎛ x2 ⎞ ∫ ⎜1 + n ⎟ ⎝ ⎠ −∞

n +1 2

dx =

⎛ n + 1⎞ 1 2Γ ⎜ ⎟ ⎝ 2 ⎠ n2 = ⎛ n⎞ 2 nπ Γ ⎜ ⎟ ⎝ 2⎠

−∞

∫y

1 − 2

(1 + y )

n +1 − 2

⎛ n + 1⎞ ⎛ n + 1⎞ ⎛ 1 ⎞ ⎛ n ⎞ Γ⎜ Γ⎜ ⎟ ⎟ Γ⎜ ⎟ Γ⎜ ⎟ ⎝ 2 ⎠ ⎛ 1 n⎞ ⎝ 2 ⎠ ⎝ 2⎠ ⎝ 2 ⎠ Β⎜ , ⎟ = =1 dy = ⎛ n + 1⎞ ⎛ n⎞ ⎝ 2 2⎠ ⎛ 1⎞ π Γ⎜ ⎟ Γ⎜ π Γ⎜ ⎟ ⎟ ⎝ 2 ⎠ ⎝ 2⎠ ⎝ 2⎠

⎛ n + 1⎞ n +1 Γ⎜ − ⎟ ⎝ 2 ⎠ x ⎛ y2 ⎞ 2 Funcţia de repartiţie F ( x ) = ∫ ⎜1 + n ⎟ dy este tabelată, dată fiind utilizarea ⎠ ⎛ n ⎞ −∞ ⎝ nπ Γ ⎜ ⎟ ⎝ 2⎠ ei în construirea intervalelor de încredere şi verificarea ipotezelor statistice. Să determinăm momentele de diferite ordine; întrucât funcţia densitate de repartiţie este pară, media variabilei Student este nulă şi drept urmare momentele obişnuite coincid cu cele centrate:

⎛ n + 1⎞ n +1 Γ⎜ − ⎟ ⎝ 2 ⎠ ∞ 2 r +1 ⎛ x2 ⎞ 2 µ2 r +1 ( X ) = ∫ x ⎜1 + n ⎟ dx = 0 ⎝ ⎠ ⎛ n ⎞ −∞ nπ Γ ⎜ ⎟ ⎝ 2⎠ (funcţia de integrat este impară cu limitele de integrare simetrice).
⎛ n + 1⎞ Γ⎜ ⎟ ⎝ 2 ⎠ µ2r ( X ) = ⎛ n⎞ nπ Γ ⎜ ⎟ ⎝ 2⎠
∞ − n +1 2

x ⎞ 2r ⎛ ∫ x ⎜1 + n ⎟ ⎝ ⎠ −∞
2

⎛ n + 1⎞ 2Γ ⎜ ⎟ ⎝ 2 ⎠ dx = ⎛ n⎞ nπ Γ ⎜ ⎟ ⎝ 2⎠

⎛ x2 ⎞ x 2 r ⎜1 + ⎟ ∫ ⎝ n⎠ −∞

n +1 2

dx

x2 Cu substituţia = y se obţine n

⎛ n + 1⎞ r 2Γ ⎜ ⎟n ⎝ 2 ⎠ µ2r ( X ) = ⎛ n⎞ nπ Γ ⎜ ⎟ ⎝ 2⎠


0

y

1 r− 2

(1 + y )

n +1 − 2

⎛ n + 1⎞ r Γ⎜ ⎟n ⎝ 2 ⎠ n dy = 2 ⎛ n⎞ π Γ⎜ ⎟ ⎝ 2⎠
1 2


0

y

r−

1 2

(1 + y ) − 2

n +1

dy =

1⎞ ⎛ n ⎛ n + 1⎞ ⎛ n + 1⎞ ⎛ ⎞ n r Γ⎜ n r Γ⎜ ⎟ ⎟ Γ⎜ r + ⎟ Γ ⎜ − r⎟ ⎝ 2 ⎠ ⎛ ⎝ 2 ⎠ ⎝ ⎠ 1 n 2⎠ ⎝ 2 ⎞ Β⎜ r + , − r ⎟ = = ⎠ 2 2 ⎛ n⎞ ⎝ ⎛ n⎞ ⎛ n + 1⎞ π Γ⎜ ⎟ π Γ⎜ ⎟ Γ⎜ ⎟ ⎝ 2⎠ ⎝ 2 ⎠ ⎝ 2⎠

⎞ ⎞ ⎛n ⎞ ⎛n ⎛ n⎞ ⎛ n ⎞ ⎛ n Cum Γ ⎜ ⎟ = ⎜ − 1⎟ ⎜ − 2⎟ ... ⎜ − r ⎟ Γ ⎜ − r ⎟ ; ⎠ ⎠ ⎝2 ⎠ ⎝2 ⎝ 2⎠ ⎝ 2 ⎠ ⎝ 2
se obţine, în final:

⎛ Γ⎜ r + ⎝

1⎞ ⎛ ⎟ = ⎜r − 2⎠ ⎝

1⎞ ⎛ ⎟⎜r − 2⎠ ⎝

3⎞ 1 ⎛ 1 ⎞ ⎟ ... Γ ⎜ ⎟ , 2⎠ 2 ⎝ 2⎠

85

µ 2r ( X ) =
şi expresia are loc numai dacă r <

n r ⋅ 1 ⋅ 3...( 2r − 1) ( n − 2)( n − 4)...( n − 2r)

n . De aici rezultă, prin particularizarea lui r: 2

µ2 ( X ) =

n n−2 3n 2 µ4 ( X ) = ( n − 2 )( n − 4)

15n 3 µ6 ( X ) = ( n − 2 )( n − 4 )( n − 6) ...

γ 1 = 0 (repartiţie simetrică)
3n 2 6 ( n − 2)( n − 4) γ2 = − 3= 2 n−4 n 2 ( n − 2)

Rezultatul care urmează stabileşte legătura între repartiţia normală, repartiţia χ repartiţia Student.

2 (n)

şi

Teoremă. Fie variabilele aleatoare independente X∈N(0,σ) şi X1,X2,…,Xn∈N(0,σ). Atunci, X are o repartiţie Student cu n grade de libertate. variabila aleatoare T = 1 n 2 ∑X n j =1 j Demonstraţie. Dacă notăm cu Y =

1 n 2 X ∑ X j , atunci T = Y şi densitatea de repartiţie a n j =1
1 e
− x2 2σ
2

n

vectorului aleator (X,Y) este f ( x, y ) =

2n 2 ⎛ n⎞ 2 σ Γ⎜ ⎟ ⎝ 2⎠
n
n

σ 2π

n 2

y

n −1

e

ny 2 2σ 2

.

Urmează că:
FT ( t ) = P(T < t ) =
n 2 n +1

x {( x , y ): < t , y > 0} y ∞ yt x2 2σ
2

∫∫ f ( x, y )dx dy = σ

1 2π
n 2

2n 2 ⎛ n⎞ 2 σ Γ⎜ ⎟ ⎝ 2⎠
n

x {( x , y ): < t , y > 0} y

∫∫ e

x2 2σ 2

y

n −1

e

ny 2 2σ 2

dx dy =

=

2n 2π 2 σ
n 2

Γ⎜ ⎟ ⎝ 2⎠
n 2

∫ ∫e ⎛ n⎞
0 −∞

y

n −1

e

ny 2 2σ 2

dx dy

f T (t ) =

2n 2π 2 σ
n 2

n +1

⎛ n⎞ Γ⎜ ⎟ ⎝ 2⎠


0

y e

n

y2 2σ 2

(t 2 +n)

dy

86

Dacă efectuăm schimbarea de variabilă y =

2σ z
2

1 2 1 2

, obţinem:

(t + n)
n 2 n 2

f T (t) =

n

n +1 ⎛ n⎞ π Γ⎜ ⎟ ( t 2 + n) 2 ⎝ 2⎠


0

z

n −1 2

e − z dz =

⎛ n + 1⎞ n Γ⎜ ⎟ ⎝ 2 ⎠

π Γ⎜ ⎟ n

⎛ n⎞ ⎝ 2⎠

n +1 2

(1 +

+ t 2 n2 1 ) n

⎛ n + 1⎞ Γ⎜ ⎟ + ⎝ 2 ⎠ t 2 − n2 1 Deci, f T ( t ) = (1 + ) , care este tocmai densitatea de repartiţie a unei variabile n ⎛ n⎞ nπ Γ ⎜ ⎟ ⎝ 2⎠ Student cu n grade de libertate. 3.6. Repartiţia Snedecor şi repartiţia Fischer Spunem că o variabilă aleatoare are repartiţie Snedecor dacă densitatea sa de repartiţie are expresia , x≤0 ⎧0 ⎪ ⎛ n1 + n 2 ⎞ n1 + n2 ⎟ ⎪ n1 n21 Γ ⎜ ⎝ 2 ⎠ n21 −1 ⎛ n1 ⎞ − 2 ⎛ ⎞ f (x) = ⎨ , x>0 ; x ⎜1 + x ⎟ ⎜ ⎟ ⎪⎝ n 2 ⎠ ⎝ n2 ⎠ ⎛ n1 ⎞ ⎛ n 2 ⎞ Γ⎜ ⎟ Γ⎜ ⎟ ⎪ ⎝ 2⎠ ⎝ 2⎠ ⎩ n1 şi n2 sunt numere naturale date, numite grade de libertate.
Constatăm că f(x) ≥0, x∈R. Să verificăm că Într-adevăr, ⎛ n1 + n 2 ⎞ n1 Γ⎜ ⎟ 2 ⎝ 2 ⎠ ⎛ n1 ⎞ ⎜ ⎟ ⎝ n2 ⎠ ⎛ n1 ⎞ ⎛ n 2 ⎞ Γ⎜ ⎟ Γ⎜ ⎟ ⎝ 2⎠ ⎝ 2⎠ ⎛ n1 ⎞ =⎜ ⎟ ⎝ n2 ⎠
n1 2
−∞

∫ f ( x ) dx = 1 .


0

x

n1 −1 2

⎛ n1 ⎞ ⎜1 + x ⎟ ⎝ n2 ⎠

n1 + n2 2

dx =

⎛ n1 + n 2 ⎞ n1 −1 Γ⎜ ⎟ n1 + n2 n1 −1 ⎝ 2 ⎠ ∞ ⎛ n2 ⎞ 2 n2 − dy = ⋅ y 2 (1 + y ) 2 ∫ ⎜ n1 ⎟ n1 ⎛ n1 ⎞ ⎛ n 2 ⎞ 0 ⎝ ⎠ Γ⎜ ⎟ Γ⎜ ⎟ ⎝ 2⎠ ⎝ 2⎠
n1 2

⎛ n1 + n 2 ⎞ Γ⎜ ⎟ ⎝ 2 ⎠ ⎛ n1 n 2 ⎞ ⎛ n1 ⎞ ⎛ n 2 ⎞ =⎜ ⎟ ⎜ ⎟ Β⎜ , ⎟ = 1 ⎝ n 2 ⎠ ⎝ n1 ⎠ ⎛ n1 ⎞ ⎛ n 2 ⎞ ⎝ 2 2 ⎠ Γ⎜ ⎟ Γ⎜ ⎟ ⎝ 2⎠ ⎝ 2⎠ n1 n2 x = y, x = y ). (am făcut schimbarea de variabilă n2 n1
n1 2

87

Momentele obişnuite:
n1 2

⎛ n1 ⎞ Mr ( X ) = ⎜ ⎟ ⎝ n2 ⎠

⎛ n1 + n 2 ⎞ Γ⎜ ⎟ ⎝ 2 ⎠ ⎛ n1 ⎞ ⎛ n 2 ⎞ Γ⎜ ⎟ Γ⎜ ⎟ ⎝ 2⎠ ⎝ 2⎠


0

x

n1 + r −1 2

⎛ n1 ⎞ ⎜1 + x ⎟ ⎝ n2 ⎠

n 1 + n2 2

n1 ⎞ ⎛ n 2 ⎞ ⎛ Γ ⎜ r + ⎟ Γ ⎜ − r⎟ ⎝ ⎠ 2⎠ ⎝ 2 ⎛ n2 ⎞ dx = ⎜ ⎟ ⎝ n1 ⎠ ⎛ n1 ⎞ ⎛ n 2 ⎞ Γ⎜ ⎟ Γ⎜ ⎟ ⎝ 2⎠ ⎝ 2⎠
r

Momentul de ordinul r există numai dacă r <

n2 . Cum 2

n1⎞ ⎛ n1 ⎛ ⎞ ⎛ n1 ⎞ n1 ⎛ n1⎞ Γ ⎜ r + ⎟ = ⎜ + r − 1⎟ ⎜ + r − 2⎟ ... Γ ⎜ ⎟ ⎝ ⎠⎝ 2 ⎠ 2 ⎝ 2⎠ 2⎠ ⎝ 2 ⎛ n2 ⎞ ⎛ n2 ⎞ ⎛ n2 ⎞ ⎛ n2 ⎞ ⎛ n2 ⎞ Γ ⎜ ⎟ = ⎜ − 1⎟ ⎜ − 2⎟ ... ⎜ − r⎟ Γ ⎜ − r⎟ ⎝ 2⎠ ⎝ 2 ⎠⎝ 2 ⎠ ⎝2 ⎠ ⎝2 ⎠ se obţine în final se obţine: n2 , n2 − 2 n2 2 n1 + 2 , M 2( X ) = n1 ( n 2 − 2 )( n 2 − 4 ) ( n1 + 2 )( n1 + 4 ) n2 3 ,… M 3( X ) = 2 n1 ( n 2 − 2 )( n 2 − 4 )( n 2 − 6) M 1( X ) = ⎛ n2 ⎞ n1( n1 + 2)...( n1 + 2r − 2) . Prin particularizarea lui r, Mr ( X ) = ⎜ ⎟ ⎝ n1 ⎠ ( n2 − 2)( n2 − 4)...( n2 − 2r)
r

Să stabilim o legătură între repartiţia χ
Teoremă. Fie χ
2 ( n1 )

2 (n)

şi repartiţia Snedecor.
2 (n)

şi χ

2 ( n2 )

două variabile aleatoare independente repartizate χ

cu n1,

respectiv n2 grade de libertate. Atunci, variabila

Fn1 ,n2 =

χ (2n ) / n1
1

χ (2n ) / n2
1

=

n2 χ (2n1 ) n1χ (2n1 )

are o repartiţie Snedecor cu n1, respectiv n2 grade de libertate.

Demonstraţie. Notăm X =

χ (2n )
1

n1

, Y=

χ (2n

2

)

n2

. Atunci

Fn1 ,n2 =

X , X,Y fiind variabile Y

independente.

88

FFn1 ,n2 ( z ) = P( Fn1 ,n2 < z ) = P(
n1 2

X < z) = Y

x {( x , y ): < t , y > 0} y

∫∫ f ( x, y )dx dy =
n2 2

=

x {( x , y ): < t , y > 0} y ∞ yz

∫∫

n1
n1 2 n1

⎛n ⎞ 2 σ Γ⎜ 1 ⎟ ⎝ 2⎠
n1 n2

x

n1x n1 −1 − 2 2σ 2

e

n2
n2 2 n2

⎛n ⎞ 2 σ Γ⎜ 2 ⎟ ⎝ 2⎠
nx n y

y

n2 y n2 −1 − 2 2σ 2

e

dx dy =

n1 n2 1 2 −1 − 2 −1 − 2 n1 2 n 2 2 2σ 2 x e y 2 e 2σ dx dy = ∫ ∫ n1 + n2 ⎛n ⎞ ⎛n ⎞ 0 −∞ 2 2 σ n1 + n2 Γ ⎜ 1 ⎟ Γ ⎜ 2 ⎟ ⎝ 2⎠ ⎝ 2⎠

f Fn1 ,n2 ( z ) = 2

n1 n 2
n1 + n2 2

n1 2

n2 2

σ
n2

n1 + n2

⎛n ⎞ ⎛n ⎞ Γ⎜ 1 ⎟ Γ⎜ 2 ⎟ ⎝ 2⎠ ⎝ 2⎠

∫ y( yz )
0

n1 −1 2

e

n1 yz 2σ 2

y

n2 y n2 −1 − 2 2σ 2

e

dy =

n1

n1 2 n 2 2 = n1 + n2 ⎛n ⎞ ⎛n ⎞ 2 2 σ n1 + n2 Γ ⎜ 1 ⎟ Γ ⎜ 2 ⎟ ⎝ 2⎠ ⎝ 2⎠

∫y
0

n1 + n2 −1 y 2 − 2 ( n1z + n2 ) 2σ

e

dy

Dacă facem schimbarea de variabilă
n1 n2 n1 −1 n1 + n2

y 2σ 2
−1

( n1z + n2) = t; y =

2σ 2 t , atunci, n1z + n2
2σ 2 dt n1z + n 2

n1 2 n 2 2 z 2 2 2 σ n1 + n2 − 2 f Fn1 , n2 ( z ) = n1 + n2 ∫t n1 + n2 −1 n1 + n2 ⎛ n1 ⎞ ⎛ n 2 ⎞ 0 Γ ⎜ ⎟ Γ ⎜ ⎟ ( n1 z + n 2 ) 2 2 2 σ ⎝ 2⎠ ⎝ 2⎠

n1 + n2 −1 2

e −t

Deci,
n1 2 n 2 2 z 2 2 2 σ n1 + n2 ⎛ n + n2 ⎞ Γ⎜ 1 f Fn1 ,n2 ( z ) = n1 + n2 ⎟= n1 + n2 ⎝ 2 ⎠ n1 + n2 ⎛ n1 ⎞ ⎛ n 2 ⎞ Γ ⎜ ⎟ Γ ⎜ ⎟ ( n1 z + n 2 ) 2 2 2 σ ⎝ 2⎠ ⎝ 2⎠ ⎛ n1 ⎞ 2 ⎛ n1 + n2 ⎞ n +n ⎜ ⎟ Γ⎜ ⎟ − 1 2 ⎝ 2⎠ ⎝ 2 ⎠ n21 −1 ⎛ n1 ⎞ 2 = z ⎜1 + z ⎟ , z>0 , ⎝ n2 ⎠ ⎛ n1 ⎞ ⎛ n2 ⎞ Γ⎜ ⎟ Γ⎜ ⎟ ⎝ 2⎠ ⎝ 2⎠
n1 n1 n2 n1 −1 n1 + n2 −1

care este tocmai densitatea de repartiţie a unei variabile Snedecor cu n1 ,n2 grade de libertate, respectiv. Să punem în evidenţă o altă repartiţie care derivă din repartiţia Snedecor şi care are o importanţă în verificarea ipotezelor statistice.

89

Fie X o variabilă aleatoare repartizată Snedecor cu grade de libertate n1 ,n2 respectiv. 1 Atunci, variabila Z = ln X are densitatea de repartiţie: 2
n1 2

⎛ n1 ⎞ h( z ) = 2⎜ ⎟ ⎝ n2 ⎠

⎛ n + n2 ⎞ n +n Γ⎜ 1 ⎟ − 1 2 ⎝ 2 ⎠ n1z ⎛ n1 2 z ⎞ 2 e ⎜1 + e ⎟ ⎝ n2 ⎠ ⎛ n1 ⎞ ⎛ n2 ⎞ Γ⎜ ⎟ Γ⎜ ⎟ ⎝ 2⎠ ⎝ 2⎠

Într-adevăr,
1 H Z ( z ) = P( Z < z ) = P( ln X < z ) = P( X < e 2z ) = FX ( e 2z ) 2 ⎛ n1 + n 2 ⎞ n +n n1 Γ ⎜ ⎟ − 1 2 ⎝ 2 ⎠ n1 2z ⎞ 2 n1 ⎞ 2 ⎛ ⎛ 2e n1z ⎜1 + e ⎟ h( z ) = f X ( e 2z )2e 2z = ⎜ ⎟ ⎝ ⎝ n2 ⎠ n2 ⎠ ⎛ n1⎞ ⎛ n 2 ⎞ Γ⎜ ⎟ Γ⎜ ⎟ ⎝ 2⎠ ⎝ 2 ⎠

Repartiţia dată de această densitate de probabilitate este cunoscută sub numele de repartiţia Z a lui R.A.Fischer. Repartiţia Beta Prin definiţie, spunem că variabila aleatoare X are o repartiţie Beta de parametri a şi b dacă densitatea ei de repartiţie are expresia:

⎧ 1 ⎪ x a −1 (1 − x ) b−1 f ( x; a, b) = ⎨ Β( a, b) ⎪0 ⎩

, x ∈ ( 0,1) , x ∉ ( 0,1)

, a,b > 0.

Se verifică imediat că f(x;a,b) ≥ 0 şi că

−∞

∫ f ( x; a, b) dx = 1 ,

întrucât

∫x
0

1

a −1

(1 − x ) b−1 dx = Β(a, b) .

⎧0 ,x ≤0 ⎪ 1 x ⎪ y a −1 (1 − y ) b −1 dy ,0 < x ≤ 1 Funcţia de repartiţie: F ( x ) = ⎨ Β( a, b) ∫ 0 ⎪ ⎪1 , x >1 ⎩ Momentele obişnuite:
Β(r + a, b) a ( a + 1)...( a + r − 1) 1 Mr ( X ) = ∫ x r + a −1 (1 − x ) b−1 dx = Β(a, b) = ( a + b)( a + b + 1)...( a + b + r − 1) Β(a, b) 0
1

90

Particularizând valorile lui r, obţinem:
a a( a + 1) a( a + 1)( a + 2) ; M 2( X ) = ; M 3( X ) = ; a+b ( a + b)( a + b + 1) ( a + b)( a + b + 1)( a + b + 2) a( a + 1)( a + 2)( a + 3) ab M 4( X ) = ;...; µ1 ( X ) = 0; µ 2 (X) = ;... 2 ( a + b)( a + b + 1)( a + b + 2)( a + b + 3) ( a + b) ( a + b + 1) M 1( X ) =

Repartiţia Beta se utilizează în aplicaţii din teoria deciziei, analiza de drum critic cu durate aleatoare etc. În aplicaţii privind analiza drumului critic apar variabile aleatoare de forma: Y = (b - A) X + A (B > A), unde X este o variabilă aleatoare B(a,b). Să punem în evidenţă densitatea de repartiţie a variabilei Y:

x − A⎞ ⎛ Y − A x − A⎞ ⎛ ⎛ x − A⎞ FY ( x ) = P(Y < x ) = P⎜ < ⎟ = P⎜ X < ⎟ = FX ⎜ ⎟ ⎝ B − A B − A⎠ ⎝ ⎝ B − A⎠ B − A⎠
⎛ x − A⎞ f Y (x) = f X ⎜ ⎟ ⎝ B − A⎠
b −1 ⎧ 1 ⎛ x − A ⎞ a −1 ⎛ x − A⎞ 1 1 ⎪ , x ∈ ( A, B) ⎟ ⎟ ⎜1 − ⎜ = ⎨ B( a, b) ⎝ B − A⎠ ⎝ B − A⎠ B − A B− A ⎪ , x ∉ ( A, B) ⎩0

sau

1 ⎧ ⎪ ( x − A) a −1 ( B − x ) b −1 f Y ( x ) = ⎨ B( a, b)( B − A) a + b −1 ⎪0 ⎩

, x ∈ ( A, B ) , x ∉( A, B )

Calculul momentelor (îndeosebi media şi dispersia) nu este o problemă complicată nici în acest caz, rămânând ca exerciţiu pe care-l propunem. 3.7. Repartiţia Weibull Spunem că variabila aleatoare X are o repartiţie Weibull de parametri a,b,c dacă densitatea de repartiţie are expresia

⎧ a ⎛ x − b ⎞ a −1 −⎛ x − b ⎞ ⎜ ⎟ ⎝ c ⎠ ⎪ f ( x; a, b, c ) = ⎨ c ⎜ c ⎟ e ⎝ ⎠ ⎪0 ⎩

a

, x ∈( b, ∞ ) , x ∉( b, ∞ )

Sub această formă, ne aflăm în cazul triparametric, care constituie varianta completă. Dacă b = 0, obţinem modelul biparametric, când:

⎧adx a −1 e − dx ⎪ f ( x; a , c ) = ⎨ ⎪ ⎩0

a

,x >0 ,x ≤0

91

Dacă b = 0, c = 1, atunci obţinem modelul

⎧ax a −1 e − x ⎪ f ( x, a ) = ⎨ ⎪0 ⎩

a

,x >0 ,x ≤0

care conţine drept caz particular modelul exponenţial, când a = 1. În cazul biparametric, obţinem:
⎡ ⎛ 2 ⎞ ⎛ ⎛ 1 ⎞⎞ 2 ⎤ ⎛1 ⎞ 2 2 M ( X ) = cΓ (⎜ + 1⎟ ; D (X) = c ⎢Γ ⎜ + 1⎟ − ⎜ Γ ⎜ + 1⎟ ⎟ ⎥ ⎝a ⎠ ⎠ ⎝ ⎝ a ⎠⎠ ⎥ ⎢ ⎝ ⎣ a ⎦

Repartiţia Weibull intervine în studiul fiabilităţii elementelor. 3.8. Repartiţia normală n-dimensională
Definiţie. Vectorul aleator (X1,X2,…,Xn) urmează o lege normală n-dimensională dacă densitatea de repartiţie a acestui vector are expresia
f ( x1, x 2,..., xn ) = ke
− ∑ a ij x i x j
i , j =1 n

= ke − X ' AX ,

unde

i , j =1

∑a

n

ij

x i x j ≥ 0 este o formă pătratică pozitiv definită, iar k este o constantă pozitivă pe

care o determinăm astfel încât:

(1) f ( x1, x 2,..., xn ) ≥ 0 ( 2) k ∫ ... ∫ e − X ' AX dx1... dxn = 1
Rn

Fie transformarea ortogonală X = HY care reduce forma pătratică pozitiv definită X’AX la o sumă de pătrate: X ' AX = ( HY )' AHY = Y ' H ' AHY = ∑ λ i y i2 ,
i =1 n

unde λi sunt valorile proprii ale matricei A : | A - λE | = 0 . Întrucât X’AX este pozitiv definită, rezultă că λi, i=1,2,…,n sunt reale şi pozitive. Pe de altă parte, transformarea liniară X = HY fiind ortogonală, determinantul funcţional are valoarea 1 şi, prin urmare, are loc egalitatea:
k ∫ ... ∫ e − X ' AX dx1... dxn =k ∫ ... ∫ e
Rn Rn −

∑ λ i y i2
i =1

n

dy1... dyn =k ∏ e − λ i y i dy i = 1
2

n

i =1

92

Dar
−λ y −λ y ∫ e i i dy i = 2∫ e i i dy i = 2∫ (λ i )
2 2

1 2

−∞

0

0

z 2

1 2

e − z dz =

⎛ 1⎞ Γ⎜ ⎟ ⎝ 2⎠

λ
n 1 2

1 2

=

1 1 − π , cu λ i y i2 = z , y i = ( λ i ) 2 z 2 λi

Atunci,

k=

1

∏ ∫e λ
i =1 −∞

n

= dy i

(λ λ ... λ )
1 2

− i y i2

π

n 2

. Însă | A - λE | = 0 ⇒ (-1)nλn +…+|A| = 0 şi,

| A| ( −1) n | A| deci, λ1λ2 ... λn = =| A| , de unde urmează: f ( x1 , x 2 ,..., x n ) = n e − X ' AX . n ( −1) π2

Pentru a păstra analogia cu densitatea de repartiţie a unei legi normale N(m,σ), vom considera densitatea de repartiţie a vectorului aleator (X1,X2,…,Xn)

f ( x1 , x 2 ,..., x n ) =

| A|

(2π )

n 2

e

1 − ( X ' − m') A( X − m) 2

,

⎛ m1 ⎞ ⎛ a11 ⎜ ⎟ ⎜ a21 m2 ⎟ ⎜ cu forma pătratică (X-m’)A(X-m) pozitiv definită şi m = ⎜ ⎟ , A = ⎜ ... ⎜ ... ⎜ ⎜ ⎟ ⎝ an1 ⎝ mn ⎠

a12 ... a1n ⎞ a22 ... a2n⎟ ⎟. ... . . . ⎟ ⎟ a2n ... ann⎠

Funcţia caracteristică şi momentele unei legi normale n-dimensionale: din definiţie, rezultă că ϕ(t1,t2,…,tn) = M(eit’X), t’= (t1,t2,…,tn). Deci,

ϕ (t) =

| A| (2π )
n 2

∫ ... ∫ e
Rn

1 it ' X − X ' AX 2

dx1... dxn

Să aplicăm din nou transformarea ortogonală X = HY; atunci, t’X = (Hu)’HY = u’H’HY = u’H-1HY = u’Y , determinantul funcţional este 1, iar X’AX = Y’H’AHY =

∑λ y
i =1 i

n

2 i

. Deci,

93

ϕ (t) =

| A| (2π )
n 2

∫ ... ∫ e
R
n

1 iu'Y − Y ' H −1 AH 2

dy1... dyn =
u2 j 2λ j

| A| (2π )
n 2

∫ ... ∫ e
R
n

i

∑ u j y j − 2 ∑ λ j y 2j
j =1 j =1

n

1

n

dy1... dyn =

=

| A| (2π )
n 2

∏ ∫e
j =1 −∞ −

n

1 iu j y j − λ j y 2 j 2

dyj =
∞ z2 j 2

| A| (2π )
n 2

∏e
j =1

n

−∞

∫e

iu j 2 ⎞ 1 ⎛ ⎟ −− λ j ⎜ y j − ⎜ λj ⎟ 2 ⎝ ⎠
j

2

dyj =

=

| A| (2π )
n 2

e

n u2 1 j 2 j =1 λ j


j =1

n

1

λj

−∞

∫e

dzj =

| A| (2π )
n 2

∑ (2π ) e λ1λ2 ... λn

n 2

n u2 1 j 2 j =1 λ j

Prin urmare, ϕ ( t ) = e

2 1 n uj − ∑ 2 j =1 λ j

, u fiind funcţie de t.

Transformarea X = HY ne-a condus la
⎛ λ1 0 ⎜ 0 λ2 B = H ' AH = ⎜ ⎜ ... ... ⎜ ⎝0 0 0⎞ ⎟ ... 0 ⎟ . ... ... ⎟ ⎟ ... λn ⎠ ...

∑λ y
j =1 j

n

2 j

= Y’H’AHY = Y’BY, unde

⎛1 ⎜ ⎜ λ1 n n u2 ⎜0 j = u' B −1u , întrucât B −1 = ⎜ Cum ∑ λ j u 2 = u’Bu, rezultă că ∑ j j =1 i =1 λ ji ⎜ ... ⎜ ⎜0 ⎝ Din relaţiile t = Hu; B = H’AH se obţine: u = H-1t; t’ = u’H’ = u’H-1; u’ = t’H; B-1 = (H’AH)-1 = H-1A-1H şi, deci,

⎞ 0⎟ ⎟ 1 ... 0 ⎟ ⎟. λ2 ... ... ... ⎟ 1⎟ ⎟ 0 ... λn ⎠ 0 ...

∑λ
i =1

n

u2 j
j

= t ' HH −1 A −1 HH −1t = t ' A −1t . Deci, ϕ ( t ) = e

1 − t ' A−1t 2

, unde A-1 este matricea de

covarianţă a repartiţiei. Să obţinem acum funcţia caracteristică a unei repartiţii normale n-dimensionale cu vectorul valoare medie M(X) = m ≠ 0. Dacă X are o repartiţie normală n-dimensională cu m≠0, atunci variabila aleatoare vectorială Y = X - m are densitatea de repartiţie f (X) = | A| ( 2π )
n 2

e

1 − X ' AX 2

94

pentru care funcţia caracteristică este ϕ ( t ) = e

1 − t ' A−1t 2

; atunci,
1 − t ' A −1t 2

ϕ X ( t ) = M ( e itX ) = M ( e it '( m+ Y ) ) = M ( e it ' m e it 'Y ) = e it ' m e
ϕ X ( t ) = e it ' m e

şi, deci,

1 − t ' A −1t 2

Calculul momentelor: am văzut că în cazul m = 0, funcţia caracteristică este

ϕ (t ) = e

1 − t ' A −1t 2

=e

1 2

∑∑

n

n

a −1t j t k jk

j =1 k =1

,

unde a −1 sunt elementele matricei A-1. Din expresia funcţiei caracteristice se obţine: jk
⎞ ⎛ − 1 ∑ ∑ a −jk1t j tk n 1 ⎛ ∂ ϕ ( t1,..., tn ) ⎞ ⎜ ie 2 j =1 k =1 −1 ⎟ M( X j ) = ⎜ ∑ a jk t k ⎟ = 0 ⎟ =⎜ ⎠ t =0 k =1 i⎝ ∂ tj ⎠ t =0 ⎝
n n

1 ⎡ − 1 ∑ ∑ a −jk1t j tk n − ∑ ∑ a −1t j t k ⎤ jk n 1 ⎛ ∂ 2ϕ ( t1,..., tn ) ⎞ 2 −1 −1 −1 ⎢i 2 e 2 j =1 k =1 ⎥ = a −1 M( X j Xk ) = 2 ⎜ ∑ a jk t j ∑ a jk t k + a jk e j =1 k =1 ⎟ = jk ⎥ j =1 k =1 i ⎝ ∂ tj∂ tk ⎠ t = 0 ⎢ ⎣ ⎦ t =0
n n n n

În cazul în care m≠0, funcţia caracteristică are expresia:

ϕ (t ) = e
De aici urmează:

1 it ' m− t ' A −1t 2

=e

i

n

t jmj −

j =1

1 2

∑∑

n

n

a −1t j t k jk

j =1 k =1

n ⎡⎛ ⎤ ⎞ 1⎛ ∂ ϕ ⎞ −1 M( X j ) = ⎜ ⎟ = ⎢⎜ mj + i∑ a jk t j ⎟ ϕ ( t ) ⎥ = mj; 1 ≤ j ≤ n i ⎝ ∂ tj ⎠ t = 0 ⎢⎝ ⎠ j =1 ⎥ t =0 ⎣ ⎦ n n ⎡⎛ ⎤ 1 ⎛ ∂ 2ϕ ⎞ ⎞⎛ ⎞ M( X j Xk ) = 2 ⎜ ⎟ = ⎢⎜ m j + i ∑ a −1t j ⎟ ⎜ mk + i ∑ a −1t k ⎟ ϕ ( t ) + a −1ϕ ( t )⎥ = mjmk + a −1 ; jk jk jk jk ⎠ ⎠⎝ j =1 k =1 i ⎝ ∂ tj∂ tk ⎠ t = 0 ⎣⎝ ⎦ t =0 1 ≤ j, k ≤ n;...

Rezultă, deci, că

M ( Xj − mj ) = 0, 1 ≤ j ≤ n; M [( Xj − mj ) 2 ] = M ( X 2 ) − m 2 = a −1 ; j j jj ... ceea ce dovedeşte că A-1 este matricea de corelaţie a repartiţiei considerate. În cazul în care n = 2, dacă notăm M(X1) =m1, M(X2) = m2,
95

M [( Xj − mj )( Xk − mk )] = M ( XjXk ) − mjmk = a −1 ; jk

2 M (( X 1 − m1)2 ) = σ 1 ; M (( X 2 − m2 )2 ) = σ 2 ; M (( X 1 − m1)( X 2 − m2 )) = ρσ1σ 2 2

şi atunci
⎛ σ12 A =⎜ ⎝ ρσ1σ 2
−1

ρσ1σ 2 ⎞ ⎟ σ 22 ⎠
2 2

2 2 2 det A−1 = σ 1 σ 2 − ρ 2σ 1 σ 2 = (1 − ρ 2 )σ 1 σ 2 2

,

deci,

det A =

1 2 (1 − ρ )σ 1 σ
2

2 2

1 ⎛ ⎜ 2 2 ⎜ (1 − ρ )σ 1 A= ρ ⎜− ⎜ ⎝ (1 − ρ 2 )σ1σ 2

ρ ⎞ ⎟ 2 (1 − ρ )σ1σ 2 ⎟
1 (1 − ρ 2 )σ
2 2

⎟ ⎟ ⎠

⎛ m1 ⎞ Urmează că densitatea de repartiţie a vectorului aleator (X1,X2), m = ⎜ ⎟ şi A-1 determinat ⎝ m2 ⎠ mai sus, este:

f ( x1 , x 2 ) =

1 2π σ1σ 2

⎧ ⎡ ( x1 − m1 ) 2 2 ρ( x1 − m1 )( x 2 − m2 ) ( x 2 − m2 ) 2 ⎤ ⎫ 1 − + exp ⎨− ⎥⎬ 2 ⎢ 2 σ1σ 2 σ 22 1− ρ2 ⎦⎭ ⎩ 2(1 − ρ ) ⎣ σ1

Se pot pune în evidenţă densităţile de repartiţie condiţionate:
f ( x1 / x 2 ) =
2 ⎧ ⎡ ⎞⎤ ⎫ ⎛ σ1 1 ⎪ exp ⎨− ( x 2 − m2 )⎟ ⎥ ⎪ ⎬ 2 2 ⎢ x1 − ⎜ m1 + ρ 2 σ2 ⎠⎦ ⎪ ⎝ 2π σ1 1 − ρ ⎪ 2σ1 (1 − ρ ) ⎣ ⎩ ⎭

1

M ( X 1 / X 2 = x 2 ) = m1 + ρ

σ1 ( x − m2 ) σ2 2

2 D 2 ( X1 / X 2 = x 2 ) = σ 1 (1 − ρ 2 )
2 ⎧ ⎡ ⎞⎤ ⎫ ⎛ σ2 1 ⎪ exp ⎨− ( x1 − m1 )⎟ ⎥ ⎪ ⎬ 2 2 ⎢ x 21 − ⎜ m2 + ρ σ1 ⎠⎦ ⎪ ⎝ 1− ρ2 ⎪ 2σ 2 (1 − ρ ) ⎣ ⎩ ⎭

f ( x 2 / x1 ) =

1 2π σ 2

M ( X 2 / X1 = x1 ) = m2 + ρ

σ2 ( x − m1 ) σ1 1

2 D 2 ( X 2 / X1 = x1 ) = σ 2 (1 − ρ 2 )

96

Capitolul 4 LEGEA NUMERELOR MARI. LEGI LIMITĂ Legătura între frecvenţa relativă de apariţie a unui eveniment şi probabilitate constituie baza fundamentală a aplicaţiilor calculului probabilităţilor la experienţa practică. Bernoulli a formulat această legătură prin legea numerelor mari, potrivit căreia frecvenţa unui fenomen cu probabilitate constantă p tinde în probabilitate către p. Frecvenţa de apariţie a unui eveniment este, însă, o variabilă aleatoare şi drept urmare este necesar să se pună în evidenţă tipuri de convergenţă specifice teoriei probabilităţilor. Unele dintre acestea permit tratarea riguros matematică a legii numerelor mari, a legii tare a numerelor mari, a legilor limită şi altele. 4.1. Şiruri de variabile aleatoare. Convergenţă Să considerăm un câmp de probabilitate {Ω,K,P} complet aditiv şi (Xn)n∈N* un şir de variabile aleatoare definite pe acest câmp de probabilitate; deci Xn:Ω→R, n∈N*, − X n 1 ( B ) ∈ K , ( ∀ )B ∈ B . Definiţie. Spunem că şirul de variabile aleatoare (Xn)n∈N* converge în probabilitate către variabila aleatoare X dacă, pentru orice ε>0 şi η>0, există un rang N(ε,η) astfel încât: P(ω: |Xn(ω) - X(ω)| ≥ ε) ≤ η , de îndată ce n ≥ N(ε,η). Se vede imediat că în locul condiţiei (1) putem scrie: P(ω: |Xn(ω) - Xm(ω)| < ε) ≥ 1-η
P ⎯→ (se scrie probabilitatea evenimentului complementar). Vom scrie în acest caz: Xn ⎯→∞ X . n

(1)

Definiţie. Spunem că şirul de variabile aleatoare (Xn)n∈N* este un şir Cauchy în probabilitate dacă, pentru orice ε>0 şi η>0, există un N(ε,η) astfel încât: P(ω: |Xn(ω) - Xm(ω)| ≥ ε) ≤ η de îndată de n,m ≥ N(ε,η). Vom scrie (Xn)n≥1 este un şir Cauchy. Definiţie. Spunem că şirul de variabile aleatoare (Xn)n∈N* converge în repartiţie (sau în sens Bernoulli) către variabila aleatoare X, dacă:
n →∞

lim Fn( x ) = F ( x )

pentru orice x punct de continuitate al funcţiei F, unde Fn(x) = P(Xn < x), F(x) = P(X < x). B ⎯→ Vom scrie Xn ⎯→∞ X . n

97

Observaţie. Convergenţa în sens Bernoulli mai este cunoscută şi sub numele de convergenţa slabă a şirului de variabile aleatoare (Xn)n∈N*. Definiţie. Şirul de variabile aleatoare (Xn)n∈N* converge tare către variabila aleatoare X dacă, pentru orice ε>0 şi η>0, există un rang N(ε,η) astfel încât

⎛ ⎞ P⎜ U {ω :| Xn(ω ) − X (ω ) ≥ ε }⎟ ≤ η ⎝ n≥ N ( ε ,η ) ⎠
⎯⎯ Prescurtat, vom scrie Xn ⎯tare P→ X . n →∞

Definiţie. Şirul de variabile aleatoare (Xn)n∈N* converge aproape sigur către variabila aleatoare X dacă P(ω : lim Xn(ω ) există şi este egală cu X(ω)) = 1. Pentru această
n→∞
a .S ⎯ convergenţă vom adopta scrierea prescurtată Xn ⎯n⎯ → X . →∞

Definiţie. Şirul de variabile aleatoare (Xn)n∈N* converge în medie de ordinul r către variabila aleatoare X (pentru care Mr(X) există) dacă lim M (| Xn − X | r ) = 0 . În fine, în acest caz, vom
n →∞

⎯ scrie Xn ⎯n⎯∞→ X . →
Mr

Din definiţia convergenţei tare în probabilitate a unui şir de variabile aleatoare rezultă imediat că şirul converge în probabilitate. Se arată, totodată, că un şir de variabile aleatoare (Xn)n∈N* converge tare în probabilitate dacă şi numai dacă converge aproape sigur. Noi o să arătăm însă că este adevărată următoarea teoremă. Teoremă. Dacă şirul de variabile aleatoare (Xn)n∈N* converge în probabilitate către variabila aleatoare X, atunci lim FXn ( a ) = FX ( a ) în orice punct a de continuitate al funcţiei de
n →∞

repartiţie FX. Demonstraţie. Fie a un punct de continuitate al funcţiei FX şi ε>0, δ>0 astfel încât FX(a + δ) - FX(a - δ) < ε Atunci,

= P (ω : X (ω ) < a − δ ) ∩ {ω: X n (ω ) < a} ∪ {ω : Xn(ω ) ≥ a} ≤ P(ω : Xn(ω ) < a ) +

FX ( a − δ ) = P(ω : X (ω ) < a − δ ) = P[(ω: X (ω ) < a − δ ) ∩ Ω] =

+ P[(ω : X (ω ) < a − δ ) ∩ (ω : Xn(ω ) ≥ a )] = FX n ( a ) + P (ω : X (ω ) < a − δ ) ∩ (ω : Xn(ω ) ≥ a ) ≤ ≤ FX n ( a ) + P(ω : Xn(ω ) − X (ω ) ≥ δ ) Deci, Atunci,
lim F X n ( a ) − lim FX n ( a ) ≤ F X ( a + δ ) − F X ( a − δ ) < ε
n →∞ n →∞

[

[

]

]

F X ( a − δ ) ≤ lim F X n ( a ) şi, în acelaşi mod, FX ( a + δ ) ≤ lim FX n ( a ) .
n →∞

n →∞

98

şi cum ε > 0 este arbitrar, rezultă că lim FXn ( a ) = FX ( a ) .
n →∞

Observaţie. Nu se poate face afirmaţia că lim FXn ( a ) = FX ( a ) oricare ar fi a ∈ R.
n →∞

Într-adevăr,
P

dacă

luăm

1 Xn(ω ) = − , n ∈ N * ş i X (ω ) = 0 , ω ∈ Ω , n

atunci,

evident

Xn ⎯ → X . Totodată ⎯

1 ⎧ ⎪0 , a ≤ − n ⎧0 , a ≤ 0 FX n ( a ) = ⎨ ; FX n ( a ) = ⎨ 1 ⎩1 , a > 0 ⎪1 , a > − n ⎩
⎧0 , a < 0 Dar lim F X n ( a ) = ⎨ şi de aici rezultă că lim F X n ( 0) = 1 ≠ Fx( 0 ) = 0 din cauză că n →∞ n →∞ ⎩1 , a ≥ 0 zero nu este punct de continuitate pentru FX.

Teoremă. Dacă P(ω:X(ω) = k) = 1 unde k este o constantă şi dacă lim F X n ( a ) = FX ( a ) în
n →∞

orice punct a de continuitate pentru FX, atunci şirul de variabile aleatoare (Xn)n∈N* converge în probabilitate către k.

Demonstraţie. În condiţiile teoremei, funcţia FX are expresia
⎧0 , a ≤ k FX (a ) = ⎨ ⎩1 , a > k

şi, deci, singurul punct de discontinuitate al funcţiei de repartiţie FX este punctul a = k. Putem scrie succesiv:
0 ≤ 1 − P(ω :| Xn(ω ) − k | ≤ ε ) = 1 − P(ω: k − ε ≤ Xn(ω ) ≤ k + ε ) = = 1 − [ P(ω : Xn(ω ) ≤ k + ε ) − P(ω : Xn(ω ) < k − ε )] = = FX ( k + ε ) − FX ( k − ε ) − FX n ( k + ε ) + FX n ( k − ε )

De aici rezultă că lim P(ω :| Xn(ω ) − k | ≤ ε ) = 1 , adică Xn ⎯ → k . ⎯
P

n →∞

Convergenţa în medie de ordinul r implică convergenţa în probabilitate. Invers nu este totdeauna adevărat. Pentru aceasta, să considerăm şirul de variabile aleatoare (Xn)n∈N*

⎛−n Xn: ⎜ 1 ⎜ 2 ⎝ 2n

1 1− 2 n

0

n ⎞ 1 ⎟ , n∈N* ⎟ 2n 2 ⎠

1 < η îndată ce n2 n > N(ε,η), ceea ce dovedeşte faptul că şirul (Xn)n∈N* converge în probabilitate către zero. Atunci, oricare ar fi ε>0 şi η>0, există N(ε,η) astfel încât P(| Xn| > ε ) =
99

1⎞ 1 1 ⎛ 2 Dacă acum vom calcula M (| Xn − 0| 2 ) = M ( X n ) = 0⎜1 − 2 ⎟ + n 2 2 + n 2 2 = 1 şi, ⎝ 2n 2n n ⎠ deci, (Xn)n∈N* nu converge în medie de ordinul doi.
Aşadar, schema de mai jos indică lanţul de implicaţii între tipurile de convergenţă pe care le-am introdus mai sus:

Xn ⎯⎯→ X ⇔ Xn ⎯⎯ → X ⎯
n→∞ n→∞

a .s

tare P

⇓ B Xn ⎯ → X ⇒ Xn ⎯ → X ⎯ ⎯
P n →∞ M n →∞

⇑ Xn ⎯ → X ⎯
n →∞

4.2. Legea numerelor mari
Experienţa umană dobândită în procesul de producţie a bunurilor materiale sau în studiul fenomenelor naturale a dovedit că fenomenele ce au o probabilitate de realizare apropiată de 1 se produc aproape sigur, iar cele cu probabilitatea apropiată de 0 apar destul de rar. De aceea, evenimentele ce se produc cu probabilităţi foarte mici sunt practic imposibile, iar cele care se produc cu probabilităţi mari sunt practic certe. Principala problemă care se ridică este de a stabili cât de mare sau cât de mică să fie o probabilitate pentru ca evenimentele corespunzătoare să poată fi considerate practic certe, respectiv practic imposibile. Răspunsul nu este general valabil, ci depinde efectiv de fenomenul studiat, aceeaşi probabilitate putând să reflecte evenimente practic certe în anumite situaţii, iar altele nu. Deci, numai situaţiile concrete, practice sunt în măsură să stabilească dacă un eveniment poate fi considerat ca neglijabil cu o probabilitate dată. Totodată, dacă avem un eveniment ce se realizează cu o probabilitate foarte mică şi dacă numărul experienţelor este foarte mare, atunci el se poate realiza cu o probabilitate oricât de apropiată de 1, cu toate că este greu să ne aşteptăm ca el să apară într-un număr de experienţe dinainte fixat. Drept urmare, se impune studiul unor legităţi de apariţie a unor evenimente cu probabilitatea 0 sau 1 într-un număr foarte mare de experienţe. Tocmai acesta este obiectul legilor numerelor mari. Acest fapt se poate formula în cadrul unor teoreme de tip lege a numerelor mari într-o formă determinată, ceea ce vom face în cele ce urmează. Să considerăm un şir de variabile aleatoare (Xn)n∈N* şi Yn = ϕn(X1,X2,…,Xn), n∈N* funcţii date, simetrice în primele n variabile ale şirului (Xn)n∈N*.

Definiţie. Dacă există un şir de numere reale (an)n∈N* astfel încât pentru orice ε>0 să avem lim P(| Yn − an| < ε ) = 1 , atunci spunem că şirul (Xn)n∈N* se supune legii numerelor mari cu
n →∞

funcţiile (ϕn) n∈N*. Se mai spune că şirul (Xn)n∈N* este stabil cu funcţiile (ϕn) n∈N*. În mod frecvent, în legea 1 n numerelor mari ne limităm la cazul în care ϕn(X1,X2,…,Xn)= ∑ Xj , când se mai spune că n j= 1 şirul (Xn)n∈N* este normal stabil.

100

Din definiţia dată rezultă că şirul (Xn)n∈N* se supune legii numerelor mari cu funcţiile P ⎯ (ϕn) n∈N*, dacă există şirul de numere reale (an) n∈N* astfel încât Yn − an ⎯ → 0 .
n→∞

⎯ Dacă an = a, n∈N*, atunci acest lucru revine la Yn ⎯ → a .
n →∞

P

Teorema lui Cebîşev. Fie (Xn)n∈N* un şir de variabile aleatoare independente, cu dispersii finite, uniform mărginite, D2(Xk) ≤ c, (∀) k=1,2,…. Atunci,
⎛1 n ⎞ 1 n lim P⎜ ∑ Xk − ∑ M ( Xk ) < ε ⎟ = 1 n →∞ ⎝ n n k =1 ⎠ k =1

(sau că şirul (Xn)n∈N* se supune legii numerelor mari în varianta Cebîşev). ⎛1 n ⎞ 1 n ⎛1 n ⎞ 1 Demonstraţie. Întrucât M ⎜ ∑ Xk ⎟ = ∑ M ( Xk ) şi D 2 ⎜ ∑ Xk ⎟ = 2 ⎝ n k = 1 ⎠ n k =1 ⎝ n k =1 ⎠ n

∑D
k =1

n

2

( Xk ) ≤

c n

(variabilele şirului sunt independente, iar dispersiile sunt uniform mărginite). Aplicând inegalitatea lui Cebîşev, obţinem

⎛1 n ⎞ 1 n 1 ≥ P⎜ ∑ Xk − ∑ M ( Xk ) < ε ⎟ ≥ 1 − n k =1 ⎝ n k =1 ⎠

⎛1 n ⎞ D ⎜ ∑ Xk ⎟ ⎝ n k =1 ⎠
2

ε

2

≥1−

c nε 2

⎞ ⎛1 n 1 n Prin trecere la limită se obţine lim P⎜ ∑ Xk − ∑ M ( Xk ) < ε ⎟ = 1 . n →∞ ⎝ n n k =1 ⎠ k =1

1 n Observaţie. Se constată că an = ∑ M ( Xk ) . n k =1
Teorema lui Markov. Fie (Xn)n∈N* un şir de variabile aleatoare astfel încât
⎞ 1 2⎛ n ⎯ ⎯ 2 D ⎜ ∑ Xk ⎟ ⎯n →∞ → 0 ⎝ k =1 ⎠ n
⎞ ⎛1 n 1 n Atunci, lim P⎜ ∑ Xk − ∑ M ( Xk ) < ε ⎟ = 1 . n →∞ ⎝ n n k =1 ⎠ k =1

Demonstraţie. Se aplică inegalitatea lui Cebîşev
şi, prin trecere la limită, se obţine: ⎞ ⎛1 n 1 n lim P⎜ ∑ Xk − ∑ M ( Xk ) < ε ⎟ = 1 n →∞ ⎝ n n k =1 ⎠ k =1

101

⎞ 1 2⎛ n ⎯ ⎯ Observaţie. Condiţia 2 D ⎜ ∑ Xk ⎟ ⎯n→∞ → 0 este cunoscută sub numele de condiţia lui ⎝ k =1 ⎠ n Markov. Dacă variabilele şirului (Xn)n∈N* sunt necorelate două câte două, atunci condiţia lui Markov devine: 1 n 2 ⎯ ∑ D ( Xk ) ⎯n⎯ → 0 →∞ n 2 k =1

Într-adevăr,
2 2 ⎡⎛ n ⎛ n ⎞ ⎛ n ⎞ ⎛ n ⎞ ⎞ ⎤ 2 D ⎜ ∑ Xk ⎟ = M ⎢⎜ ∑ Xk ⎟ ⎥ − M ⎜ ∑ Xk ⎟ = M ⎜ ∑ Xk + 2 ∑ XkXl ⎟ − ⎝ k =1 ⎠ ⎝ k =1 ⎠ ⎝ k =1 ⎠ k <l ⎣⎝ k =1 ⎠ ⎦ 2

⎛ n ⎞ n −⎜ ∑ M 2 ( Xn) + 2 ∑ M ( Xk ) M ( Xl ) ⎟ = ∑ [ M ( X k2 ) − M 2 ( Xk )] + 2 ∑ [ M ( XkXl ) − M ( Xk ) M ( Xl )] ⎝ k =1 ⎠ k =1 k <l k <l Cum variabilele sunt necorelate două câte două, avem M(XkXl) - M(Xk)M(Xl) = 0 oricare ar fi k,l∈N*, k≠l.
n ⎛ n ⎞ Deci, D 2 ⎜ ∑ Xk ⎟ = ∑ D 2 ( Xk ) . ⎝ k =1 ⎠ k =1

Teorema lui Hincin. Fie (Xn)n∈N* un şir de variabile aleatoare independente, identic repartizate şi cu valori medii finite: M(Xk) = a, k=1,2,…. Atunci,
⎞ ⎛1 n lim P⎜ ∑ Xk − a < ε ⎟ = 1 n →∞ ⎝ n ⎠ k =1

Demonstraţie. Definim şirurile de variabile aleatoare (Yn)n∈N* şi (Zn)n∈N* în modul următor: fie δ > 0 fixat şi pentru k = 1,2,…,n punem Yk = Xk, Zk = 0, dacă |Xk|<δn Yk = 0, Zk = Xk, dacă |Xk|≥δn

Atunci, pentru orice k = 1,2,…,n avem Xk = Yk + Zk. Să calculăm media şi dispersia variabilei Yk:
δn

M (Yk ) = D (Yk ) =
2

−δn

∫ xdF ( x ) = a
δn
−δn

n

∫x

δn
2

dF ( x ) − an ≤
2

−δn

∫x

2

dF ( x ) ≤ δn ∫ x dF ( x ) ≤ δbn
− δn

δn

102

Cu b =

−∞

∫ | x| dF ( x ) (care este finit). Cum lim an = lim
n →∞ n →∞

δn

− δn

∫ xdF ( x ) = a

rezultă că pentru orice

ε>0 există N(ε) cu proprietatea că pentru orice n ≥ N(ε) avem |an - a| < ε. Cum

⎛1 n ⎞ 1 n nan M ⎜ ∑ Yk ⎟ = ∑ M (Yk ) = = an ⎝ n k = 1 ⎠ n k =1 n ⎛1 n ⎞ 1 D ⎜ ∑ Yk ⎟ = 2 ⎝ n k =1 ⎠ n
2

∑D
k =1

n

2

(Yk ) ≤

nδbn = δb n2

⎞ δb ⎛1 n aplicăm inegalitatea lui Cebâşev, obţinem P⎜ ∑ Xk − an ≥ ε ⎟ ≤ 2 . ⎠ ε ⎝ n k =1

1 n 1 n Pe de altă parte, ∑ Yk − an ≤ ∑ Yk − a +| an − a| . n k =1 n k =1 Dacă 1 n 1 n Yk − a < ε şi |an - a|<ε atunci ∑ ∑ Yk − a < 2ε . Deci, n k =1 n k =1

⎧1 n ⎫ ⎧1 n ⎫ ⎨ ∑ Yk − a < ε ⎬ ∩ {| an − a| < ε } ⊂ ⎨ ∑ Yk − an < 2ε ⎬ ⎩ n k =1 ⎭ ⎩ n k =1 ⎭
care este echivalentă cu

⎧1 n ⎫ ⎧1 n ⎫ Yk − an ≥ 2ε ⎬ ⊂ ⎨ ∑ Yk − a ≥ ε ⎬ ∪ {| an − a| > ε } ⎨ ∑ ⎩ n k =1 ⎭ ⎩ n k =1 ⎭
şi de aici

⎞ ⎛1 n ⎞ ⎛1 n δb P⎜ ∑ Yk − ak ≥ 2ε ⎟ ≤ P⎜ ∑ Yk − a ≥ ε ⎟ + P(| an − a| > ε ) ≤ 2 ε ⎠ ⎝ n k =1 ⎠ ⎝ n k =1
(deoarece an ⎯⎯→ a ), dacă n ≥ N(ε) P( Zn ≠ 0) =
n n
a .s .

|x |≥ n

∫δdF ( x) ≤ δn ∫δ| x| dF ( x ) ≤ n .
|x |≥ n

1

δ

Dar P( ∑ Zk ≠ 0) ≤ ∑ P(Zk ≠ 0) ≤ δ şi, de aici,
k =1 k =1

⎞ ⎛1 n ⎞ ⎛1 n ⎞ bδ ⎛ n P⎜ ∑ Xk − a ≥ 2ε ⎟ ≤ P⎜ ∑ Yk − a ≥ 2ε ⎟ + P⎜ ∑ Zk ≠ 0⎟ ≤ 2 + δ ⎠ ε ⎝ k =1 ⎠ ⎝ n k =1 ⎠ ⎝ n k =1
Cum ε şi δ sunt arbitrari, urmează că
bδ + δ poate fi făcut oricât de mic.

ε2

103

4.3. Teorema lui Bernoulli. Fie α numărul de apariţii ale evenimentului A în n probe independente şi p = P(A). Atunci oricare ar fi ε > 0, are loc relaţia

⎛α ⎞ lim P⎜ − p < ε ⎟ = 1 n →∞ ⎝ n ⎠
⎛ 1 0⎞ Demonstraţie. Asociem experimentului de rang j variabilele aleatoare Xj: ⎜ ⎟. ⎝ p q⎠ Deci, variabila aleatoare Xj ia valoarea 1 dacă s-a realizat evenimentul A şi 0 în caz contrar, j=1,2,…. Am obţinut un şir de variabile aleatoare independente (Xn)n∈N* identic repartizate şi

M(Xn) = p, n∈N* 1 D 2 ( Xn ) = pq ≤ (dispersii uniform mărginite). 4 Cum

α
n

=

1 n ∑ Xj , rezultă că sunt îndeplinite condiţiile teoremei lui Hincin şi, deci, n j =1

⎛α ⎞ lim P⎜ − p < ε ⎟ = 1. n →∞ ⎝ n ⎠
Observaţie. Din teorema lui Bernoulli rezultă că frecvenţa relativă de apariţie a evenimentului A în n probe independente converge în probabilitate către p = P(A):

α
n

⎯ →p ⎯
n →∞

P

Acelaşi rezultat ar putea obţine şi ca urmare a faptului că sunt îndeplinite condiţiile teoremei 1 lui Cebâşev, deoarece D 2 ( Xn ) = pq ≤ , n∈N* adică variabilele aleatoare Xn au dispersii 4 egale mărginite.
Teorema lui Poisson. Dacă într-o succesiune de probe independente, probabilitatea de apariţie a evenimentului A în proba de rang k este pk, atunci
⎛α 1 n ⎞ lim P⎜ − ∑ pk < ε ⎟ = 1 n →∞ ⎝ n n k =1 ⎠

unde α este număru lde apariţii ale avenimentului A în primele n probe.

Demonstraţie. Dacă introducem variabila aleatoare Xk cu numărul de apariţii ale evenimentului A în proba de rang k, atunci
⎛ 1 0⎞ Xk: ⎜ ⎟ , pk + qk = 1, k=1,2,…n,… ⎝ pk qk ⎠

Rezultă că am obţinut şirul de varianbile aleatoare independente (Xn)n∈N* astfel încât:
104

M(Xn) = pk; D 2(Xk)=pkqk ≤

1 , k=1,2,... 4

adică dispersiile variabilelor şirului sunt uniform mărginite de c =

1 . Sunt verificate 4 ⎛1 n ⎞ 1 n α 1 n condiţiile teoremei lui Cebâşev şi, deci, cum = ∑ Xj şi M ⎜ ∑ Xk ⎟ = ∑ pk , rezultă ⎝ n k =1 ⎠ n k =1 n n j =1
⎛α 1 n ⎞ lim P⎜ − ∑ pk < ε ⎟ = 1 . n →∞ ⎝ n n k =1 ⎠

Exemplu. Se consideră şirul de variabile aleatoare independente (Xn)n∈N* cu repartiţiile ⎛− n 0 n⎞ ⎜1 2 1 ⎟ , n = 2,3,4,…, P(X1=0)=1. Să se arate că şirul (Xn)n∈N* se supune Xn: ⎜ ⎟ 1− ⎝n n n ⎠ legii numerelor mari. Soluţie: M(Xk) = 0, k = 1,2,… D2(Xk) = 2, k = 2,3,…
Atunci, fiind îndeplinite condiţiile teoremei lui Cebâşev, rezultă că şirul dat se supune legii numerelor mari în varianta lui Cebâşev.

Exemplu. Fie şirul de variabile aleatoare independente (Xn)n∈N* cu repartiţiile ⎛ - log k ⎛ 0⎞ log k ⎞ ⎟ , k = 2,3,… Să se arate că şirul dat se supune legii numerelor X 1:⎜ ⎟ , Xk:⎜ ⎝ 1⎠ 1/ 2 ⎠ ⎝ 1/ 2
mari în varianta lui Markov. Soluţie. Prin calcul direct rezultă imediat că M(Xk) = 0, k = 1,2,… D2(X1) = 0; D2(Xk) = log k, k=2,3,… atunci ⎛1 n ⎞ ⎛1 n ⎞ 1 n 1 n M ⎜ ∑ Xk ⎟ 0 ; D 2 ⎜ ∑ Xk ⎟ = 2 ∑ D 2 ( Xk ) = 2 ∑ log k ⎝ n k =1 ⎠ ⎝ n k =1 ⎠ n k =1 n k =1 Însă

∑ log k =
k =1

n

1 n 1 ∑ ln k < ln 10 ln 10 k =1
n

n +1

∫ ln xdx =
A

1 ⎡ ⎢x ln x ln 10 ⎣

n +1 1

n +1

∫ dx⎥ = ln 10 [( n + 1) ln( n + 1) − n] ⎦
1

1

⎛1 ⎞ ( n + 1) ln( n + 1) − n ⎯n→∞ → 0 . ⎯ ⎯ Deci, D 2 ⎜ ∑ Xk ⎟ < ⎝ n k =1 ⎠ n 2 ln 10 Sunt îndeplinite condiţiile teoremei lui Markov şi, deci, şirul (Xn)n∈N* se supune legii numerelor mari.

Exemplu. Să se arate că şirul de variabile aleatoare independente (Xn)n∈N* unde Xn are ( x −θ n ) 2 − 1 n e , n∈N*, θ∈[0,1] se supune legii numerelor densitatea de repartiţie f X n ( x ) = 4 π n mari. 105

Soluţie. Prin calcul direct,

M ( Xk ) = D ( Xk ) =
2

1

π k
4

1

−∞ ∞

∫ xe
−∞

( x −θ k ) 2 k

dx = θ k , k∈N*;
2

π4 k

∫( x − θ )
k

e

( x −θ k ) 2 k

dx =

k , k∈N*. 2

De aici rezultă că:
⎛1 n ⎞ 1 n θ − θ n +1 M ⎜ ∑ Xk⎟ = ∑ θ k = ⎝ n k =1 ⎠ n k =1 n(1 − θ )

⎛1 n ⎞ 1 D 2 ⎜ ∑ Xk ⎟ = 2 ⎝ n k =1 ⎠ n

∑ D 2 ( Xk ) =
k =1

n

1 n2


k =1

n

k n n < ⎯⎯ → 0 ⎯ n →∞ 2 2n 2

Deci, şirul (Xn)n∈N* se supune legii numerelor mari, unde şirul de numere reale (an)n∈N* este θ − θ n +1 dat de an = , n∈N*. n(1 − θ )

Exemplu. Să se precizeze dacă integrala I = ∫
a

sin x dx , a > 0 se poate calcula prin metoda x

Monte-Carlo, cu formula In =

a 1 1 a ∑ yk sin yk , după efectuarea schimbării de variabilă y = x şi n k =1 unde y1,y2,…,yn sunt numere aleatoare repartizate uniform pe intervalul [0,1].

n

Soluţie. Efectuându-se schimbarea de variabilă menţionată, se obţine:
1 a a 1 1 I = − ∫ sin dy = ∫ sin dy y y 1 y 0 y 0

Valoarea In obţinută din formula indicată poate fi considerată ca o valoare aproximativă a P ⎯ integralei numai în cazul în care lim P(| In − I | < ε ) = 1 deci, dacă şi numai dacă In ⎯ → I .
n →∞

n→∞

Numerele aleatoare yk sunt identic repartizate (uniform repartizate) pe [0,1], deci şi a 1 sunt identic repartizate. Atunci, pentru a funcţiile de variabile aleatoare ϕ k ( yk ) = sin yk yk putea aplica teorema lui Hincin de la legea numerelor mari, trebuie să dovedim existenţa a⎤ ⎡1 valorii medii M ⎢ sin ⎥ cu Y variabilă aleatoare uniform repartizată pe [0,1]. Y⎦ ⎣Y

a⎤ ⎡1 M ⎢ sin ⎥ există dacă şi numai dacă Y⎦ ⎣Y

∫ y sin y dy este absolut convergentă.
0

1

1

a

Fie s cel mai mic număr natural care satisface inegalitatea s ≥
1 ∞ a 1 |sin x| dx ≥ ∑ sin dy = ∫ y y x k=s a ∞ ( k +1)π

a

π

. Atunci,


0

∞ sin y |sin x| dx = ∑ ∫ dy x k = s 0 y + kπ

π

106

Însă

∑∫
k =s 0

∞ π

π ∞ sin y 1 2 ∞ 1 dy > ∑ sin ydy = ∑ =∞ ∫ y + kπ π k=s k +1 k = s π ( k + 1) 0
1

De aici rezultă că integrala


0

a⎤ 1 ⎡1 sin y dy este divergentă şi, deci, M ⎢ sin ⎥ nu există. Y⎦ y ⎣Y

În concluzie, nu se poate aplica teorema lui Hincin şi, deci, nu poate fi calculată integrala prin metoda Monte-Carlo.

Exemplu. Într-o cercetare ştiinţifică se efectuează n experienţe, urmărindu-se apariţia unei anumite caracteristici. Să se determine numărul minim de experienţe astfel încât, cu o probabilitate de cel puţin 0.95, frecvenţa relativă de apariţie să difere în valoare absolută de probabilitatea p cu mai puţin de 10-3. Soluţie. Aplicând inegalitatea lui Cebâşev, se obţine:
⎛ k⎞ D2⎜ ⎟ ⎝ n⎠

p(1 − p ) ⎛k ⎞ P⎜ − p < 10 − 3 ⎟ ≥ 1 − −6 = 1 − ⎝n ⎠ n ⋅ 10 n ⋅ 10 − 6

p(1 − p ) p(1 − p )10 6 ≥ 0.95 rezultă n ≥ Din inegalitatea 1 − = 2 p( p − 1)10 7 −6 0.05 n ⋅10

Exemplu. Se efectuează 800 de probe independente. În 200 din ele probabilitatea apariţiei unui rezultat aşteptat a fost de 0.5; în 400 de probe această probabilitate a fost de 0.4, iar în restul probelor a fost de 0.3. Să se determine marginea inferioară a probabilităţii în abaterea absolută a frecvenţei relative de apariţie a evenimentului astfel încât media probabilităţilor să nu depăşească 0.04. Soluţie. Se aplică teorema lui Poisson şi se obţine:
1 ⎛k ⎞ P⎜ − ( 200 ⋅ 0.5 + 400 ⋅ 0.4 + 200 ⋅ 0.3) < 0.04⎟ ≥ 0.817 ⎝ n 800 ⎠

4.4. Teoreme limită Am folosit până acum în mod deosebit convergenţa în probabilitate şi cu ajutorul ei am exprimat legea numerelor mari în diverse variante. Vom utiliza acum convergenţa în repartiţie şi vom obţine rezultate privind repartiţia limită a unui şir de variabile aleatoare constituit adecvat pornind de la un şir dat de variabile aleatoare (Xn)n∈N* presupus a îndeplini anumite condiţii. Formularea generală a legilor limită se pune în modul următor: Fie (Xn)n∈N* un şir de variabile aleatoare. Dacă există două şiruri de numere reale (an)n∈N* şi Xn − an B ⎯ → X , unde X are o lege de repartiţie determinată, atunci ⎯ (bn)n∈N* astfel încât n →∞ bn repartiţiile astfel obţinute constituie o familie pe care o numim familia repartiţiilor de tip L, în care legea normală ocupă un loc deosebit de important.
107

Înainte de a pune în evidenţă legi limită normale N(m;σ), vom formula unele rezultate importante fără a le demonstra - pe care apoi le vom utiliza.

Teoremă. Fie (Xn)n∈N* un şir de variabile aleatoare. Dacă lim FX n ( x ) = Fx ( x ) în orice x∈R
n →∞

punct de continuitate al funcţiei de repartiţie FX, atunci şirul (ϕXn(t))n∈N* converge către ϕX(t) uniform, în orice interval (a,b]⊂R.

Teoremă. Dacă (ϕXn(t))n∈N* este şirul funcţiilor caracteristice, corespunzător şirului de funcţii de repartiţie (FXn(x))n∈N* şi dacă lim ϕ X n ( t ) = ϕ ( t ) , t∈R, ϕ(t) continuă în t = 0, atunci
n →∞

ϕ(t) este o funcţie caracteristică şi şirul (FXn(x))n∈N* converge către F în orice punct de continuitate al funcţiei F, funcţia de repartiţie corespunzătoare funcţiei caracteristice ϕ(t).

Teoremă. Fie (Xn)n∈N* un şir de variabile aleatoare care au momente de orice ordin. Dacă pentru orice k∈N Mk ( Xn ) ⎯n→∞ → Mk ( X ) , atunci lim P( Xn < x ) = P( X < x ) . ⎯ ⎯
n →∞

4.5. Teorema limită centrală (Lindeberg-Levy). Fie (Xn)n∈N* un şir de variabile aleatoare independente, identic repartizate, care admit momente de ordinul unu şi doi. Dacă se n ⎛ n ⎞ Xk − M ⎜ ∑ Xk ⎟ ∑ ⎝ k =1 ⎠ k =1 , n∈N*, atunci consideră şirul de variabile aleatoare (Yn)n∈N* Yn = ⎛ n ⎞ D⎜ ∑ Xk ⎟ ⎝ k =1 ⎠
1 Yn ⎯ → X ∈ N ( 0;1) , adică lim Fn( x ) = lim P(ω : Yn(ω ) < x ) = ⎯ n →∞ n →∞ n →∞ 2π
B
−∞

∫e

x

y2 2

dy .

Demonstraţie. Se constată imediat că
n ⎛ n ⎞ M ⎜ ∑ Xk⎟ = ∑ M ( Xk ) = nm; m = M ( Xk ), k = 1,2,... ⎝ k =1 ⎠ k =1 n ⎛ n ⎞ D 2 ⎜ ∑ Xk ⎟ = ∑ D 2 ( Xk ) = nσ 2 ; σ 2 = D 2 ( Xk ), k = 1,2,.. . ⎝ k =1 ⎠ k =1

şi, deci,

Yn = Atunci,

∑(X
k =1

n

k

− m)

n ⋅σ

ϕY (t ) = M e
n

( )
it Yn

⎛ k∑1( Xk − m ) ⎞ ⎛ n i ⎜ it = nσ ⎟ = M⎜e ⎟ = M⎜∏ e ⎜ ⎟ ⎝ k =1 ⎝ ⎠
n

t nσ

( Xk − m )

n ⎞ ⎛ i ⎟ = ∏ M⎜e ⎠ k =1 ⎝

t nσ

( Xk − m )

⎞ ⎟= ⎠

⎛ t ⎞ ⎛ ⎛ t ⎞⎞ = ∏ ϕ ( Xk − m ) ⎜ ⎟ = ⎜ϕ ⎜ ⎟⎟ ⎝ nσ ⎠ ⎝ ⎝ nσ ⎠ ⎠ k =1
n

n

108

Cum pentru orice t∈R, dacă n este suficent de mare, în serie în jurul originii funcţia ϕ şi obţinem

t nσ

< 1, atunci putem dezvolta

ϕ⎜

t2 σ 2 t2 ⎛ t ⎞ ⎛ 1 ⎞ ⎛ 1 ⎞ + θ ⎜ 3/ 2 ⎟ =1− + θ ⎜ 3/ 2 ⎟ = 1 − ⎟ 2 ⎝n ⎠ ⎝n ⎠ ⎝ nσ ⎠ 2n 2! σ n
n
2

t ⎛ ⎞ − t2 (1 + ε n )⎟ , lim ε n = 0 şi, de aici, lim ϕ Yn ( t ) = e 2 . Urmează că ϕ Yn ( t ) = ⎜1 − n →∞ n →∞ 2n ⎝ ⎠

Din teorema de inversiune şi unicitare rezultă că lim FYn ( x ) =
n →∞

1 2π

−∞

x

e

y2 2

dy .

Teorema lui Liapunov. Fie (Xn)n∈N* un şir de variabile aleatoare idependente pentru care
există M(Xk) = mk, D2(Xk) = D2k, M(|Xk - mk|3) = H3k, k∈N*.
⎛ n ⎞ ⎛ n 3⎞ Notăm Sn = ⎜ ∑ D k2 ⎟ ; Kn = ⎜ ∑ H k ⎟ ⎝ k =1 ⎠ ⎝ k =1 ⎠
n
1/ 3

. Dacă lim

Kn = 0 , atunci n→∞ Sn

Yn =

⎛ n ⎞ Xk − M ⎜ ∑ Xk ⎟ ∑ ⎝ k =1 ⎠ k =1 ⎛ ⎞ D⎜ ∑ Xk ⎟ ⎝ k =1 ⎠
n
y2 2

⎯ → X ∈ N ( 0,1) , ⎯
n →∞

B

adică lim FYn ( x ) =
n →∞

1 2π

−∞

x

e

dy .

Demonstraţie.
n ⎛ n ⎞ Vom folosi tot metoda funcţiei caracteristice; cum D ⎜ ∑ Xk ⎟ = ∑ D 2 ( Xk ) = S n2 , ⎝ k = 1 ⎠ k =1 2

variabila aleatoare Yn mai poate fi scrisă sub foma Yn =

∑(X
k =1

n

k

− mk )
şi, cu aceasta,

Sn

n ⎛ i t ∑ ( Xk − mk ) ⎞ ⎛ n i t ( Xk − mk ) ⎞ n ⎛ i t ( Xk − mk ) ⎞ Sn k =1 Sn S ϕ Yn (t ) = M e = M ⎜e ⎟ = M ⎜∏ e ⎟ = ∏ M ⎜e n ⎟ ⎝ ⎠ ⎝ k =1 ⎠ k =1 ⎝ ⎠ n ⎛ t⎞ Deci, ϕYn ( t ) = ∏ ϕ Xk − mk ⎜ ⎟ . Dar, ϕ X k − mk ( t ) = e − itmk ϕ X k ( t ) = ak ( t ) + ibk ( t ) . ⎝ Sn ⎠ k =1

(

it Yn

)

Dacă notăm cu Gk(x) funcţia de repartiţie a variabilei aleatoare Xk = mk, rezultă că:

109

Dk2 t 2 t 3 ak (t ) = ∫ cos txdGk (x ) = 1 − + 2 6 −∞ t3 bk (t ) = ∫ sin txdGk (x ) = − 6 −∞ Atunci, ϕ X k − mk ( t ) = 1 −
∞ ∞ −∞

−∞

∫θ x
1

3

dGk (x ) , cu |θj| < 1, j=1,2

∫θ

2

x dGk (x )

3

Dk2 t 2 + t 3 Rk , unde 2

1 | Rk| = 6

H k3 1 3 ∫ (θ1 x − θ2 x ) dGk( x ) ≤ 6 −∞| x ||θ1 − θ2 | dGk( x ) ≤ 3 ∫ −∞
3 3

Dk2 t 2 t3 ⎛ t⎞ şi, de aici, ϕ X k − mk ⎜ ⎟ = 1 − 2 + 3 , iar ⎝ Sn ⎠ 2S n 3S n
ln ϕYn ( t ) = ∑ ln ϕ X k − mk (
k =1 n n ⎛ D 2 t 2 t 3 Rk ⎞ t ) = ∑ ln ⎜1 − k 2 + 3 ⎟ . 2S n 3S n ⎠ Sn ⎝ k =1

Kn → 0 când n→∞, rezultă că oricare ar fi ε > 0, există un rang N(ε) astfel Sn H k3 ε 3 Kn ε încât pentru orice n > N(ε) să avem < , t ≠ 0 . De aici rezultă că 3 < 3 , dacă S n | t| Sn | t | n > N(ε). Deoarece Din inegalitatea lui Liapunov (monotonia momentelor absolute) avem Dk ≤ Hk, k∈N* şi, deci,
Dk2 H k2 ⎛ H k3 ⎞ ⎟ 2 ≤ 2 =⎜ Sn S n ⎝ S n3 ⎠
2/3 2 Hn ε 2 ≤ 2 ≤ 2 , k = 1,2, ... , n . Atunci, pentru orice ε > 0, Sn t

t 2 D k2 t 3 Rk ε 2 ε 3 + <ε2 2 + 3 < 2 3 2S n 3S n

n ⎛ D 2 t 2 t 3 Rk ⎞ ⎟ sub forma: Să punem ln ϕ Yn ( t ) = ∑ ln⎜1 − k 2 + 3 2S n 3S n ⎠ ⎝ k =1

n ⎡ ⎛ D k2 t 2 t 3 Rk ⎞ D k2 t 2 ⎤ t2 ln ϕ Yn ( t ) + = ∑ ⎢ln ⎜1 − + ⎟+ 3 2 ⎥ 2 k =1 ⎣ ⎝ 2 S k2 3S n ⎠ 2S n ⎦ ⎥ ⎢

t 2 Dk2 1 t 3 Rk , putem scrie Cum |ln(1 + x ) − x| ≤| x | dacã | x| ≤ , cu notaţia Ak = − 2 , Bk = 2 2S n 3S n3
2

ln ϕ Yn ( t ) +

t2 = 2

∑ ln(1 + Ak + Bk ) − ( Ak + Bk ) + Bk ≤ ∑ | Ak + Bk| 2 + ∑ | Bk|
k =1 k =1 k =1

n

n

n

110

Dar

∑ | Bk| ≤
k =1

n

3 | t| 3 K n ε 3 , iar 3 ≤ 3 3S n

∑ | Ak + Bk| 2 ≤ ε 2 ∑ (| Ak|+| Bk|) ≤ ε 2
k =1 k =1

n

n

| t| 2 ε 5 + . 2 3

Urmează, de aici, că
t2 2

ln ϕ Yn ( t ) +

t 2 ε 2 | t| 2 ε 5 ε 3 1 ≤ + + < ε , dacă ε < . 2 2 3 3 3| t| 2

Deci, lim ϕ Yn ( t ) = e
n →∞

şi, din teorema de convergenţă a funcţiilor caracteristice, rezultă că
lim FYn ( x ) =
n →∞

Observaţie.

Dacă

variabilele
n

şirului
1/ 2

∫e 2π −∞ (Xn)n∈N*

1

x

y2 2

dy

sunt
n

identic
1/ 3

repartizate,

atunci

⎛ ⎞ Dk2 = σ 2 ; H k3 = H 3 , k∈N* şi Sn = ⎜ ∑ Dk2 ⎟ ⎝ k =1 ⎠

⎛ ⎞ = σ n ; Kn = ⎜ ∑ H k3 ⎟ ⎝ k =1 ⎠

= H 3 n . Urmează că

Kn H − 1 = n 6 ⎯⎯ → 0 adică este îndeplinită condiţia lui Liapunov. ⎯ n →∞ Sn σ Observaţie. Dacă variabilele sirului (Xn)n∈N* satisfac proprietăţile: |Xk - mk| ≤ A, k=1,2,… şi 2 lim Sn = +∞ , şi atunci H k3 = M ( Xk − mk 3) ≤ A ⋅ M Xk − mk = A ⋅ D k2
n→∞

(

)

n ⎛ n 2 3⎞ 3 Kn = ⎜ ∑ H k ⎟ ≤ A ∑ Dk2 = A1/ 3 S n / 3 . ⎝ k =1 ⎠ k =1
2 K n A 1/ 3 S n / 3 − ≤ = A1/ 3 S n 1/ 3 ⎯⎯ → 0 şi, deci, în acest caz, condiţia lui Liapunov ⎯ n →∞ Sn Sn este îndeplinită.

Rezultă că

4.6. Teorema Moivre-Laplace. Fie un experiment în care poate să apară evenimentul A cu probabilitatea p sau contrariul lui A cu probabilitatea q, p+q=1. Dacă se repetă de n ori experimentul în aceleaşi condiţii şi dacă se notează cu k numărul de realizări ale evenimentului A în cele n experimente independente, atunci: x ⎞ ⎛ k − np 1 − y2 /2 < x⎟ = lim P⎜ ∫ e dy ⎟ ⎜ npq n →∞ 2π −∞ ⎠ ⎝ Demonstraţie. ⎛ 1 0⎞ Asociem experimentului de rang j, variabila aleatoare Xj: ⎜ ⎟. ⎝ p q⎠
n ⎛ n ⎞ ⎛ n ⎞ Atunci, K = ∑ Xj; M ⎜ ∑ Xj⎟ = np; D 2 ⎜ ∑ Xj⎟ = npq . Cum variabilele Xj, j=1,2,… sunt ⎝ j =1 ⎠ ⎝ j =1 ⎠ j =1 independente, se poate aplica teorema limită centrală Lindeberg-Lévy şi, deci, ⎛ n ⎞ ⎛ n ⎞ Xj − M ⎜ ∑ Xj ⎟ ⎜∑ ⎟ x y2 ⎞ ⎛ k − np ⎝ j =1 ⎠ ⎜ j =1 ⎟ = 1 ∫ e − 2 dy <x < x ⎟ = lim P lim P⎜ n →∞ ⎛ n ⎞ ⎟ 2π −∞ ⎠ n →∞ ⎜ ⎝ npq D⎜ ∑ Xj ⎟ ⎜ ⎟ ⎝ j =1 ⎠ ⎝ ⎠

Observaţie. În condiţiile teoremei de mai sus,
111

⎛ k − np ⎞ lim P⎜ ⎜ npq < x ⎟ ⎟ n →∞ ⎝ ⎠

⎛k ⎞ ⎜ −p ⎟ ⎜n = lim P < x⎟ = ⎟ n →∞ ⎜ pq ⎜ ⎟ ⎝ n ⎠

1 2π

−∞

∫e

x

y2 2

dy

⎛ ⎞ k ⎜ ⎟ −p ⎜α ≤ n < β ⎟ ≅ Φ( β ) − Φ(α ) . De aici rezultă, dacă n este suficient de mare, P ⎜ ⎟ pq ⎜ ⎟ ⎝ ⎠ n De asemenea, pentru n suficient de mare,

⎞ ⎛ ⎞ ⎞ ⎛ ⎛ k ⎟ ⎜ ⎟ ⎟ ⎜ ⎜ −p k b − p⎟ k ⎛ ⎞ ⎛ ⎞ ⎜ b − p ⎟ − Φ⎜ a − p ⎟ ⎜a− p≤ n ≅Φ P⎜ a ≤ ≤ b⎟ = P⎜ a − p ≤ − p ≤ b − p⎟ = P ≤ ⎜ pq ⎟ ⎜ pq ⎟ ⎜ pq ⎝ ⎠ ⎝ ⎠ n n pq pq ⎟ ⎟ ⎜ ⎟ ⎟ ⎜ ⎜ ⎝ n ⎠ ⎝ n ⎠ ⎝ n n n ⎠
Exemplu. Cu ce probabilitate putem afirma că din 100 de aruncări a unei monede, stema apare de un număr de ori cuprins între 40 şi 60? Soluţie. Aplicăm teorema Moivre-Laplace, ştiind că p = q = 1/2, n = 100.

⎛ ⎞ ⎞ ⎛ ⎜ 60 − 50 ⎟ ⎜ 40 − 50 ⎟ ⎛ 40 − np k − np 60 − np ⎞ ⎟ − Φ⎜ ⎟ = Φ(2 ) − Φ(−2 ) = P (40 ≤ k ≤ 60) = P⎜ ≤ ≤ ⎟ ≅ Φ⎜ npq npq ⎠ ⎝ npq ⎜ 100 ⎟ ⎜ 100 ⎟ ⎜ ⎟ ⎜ ⎟ ⎝ ⎝ 4 ⎠ 4 ⎠ = 2Φ(2 ) − 1 = 0,9544
Exemplu. Să considerăm şirul de variabile aleatoare independente (Xn)n∈N*, cu repartiţiile: 1 ⎞ ⎛ 1 ⎛1 1⎤ 0 ⎟ X n: ⎜ n α n α ⎟ , p ∈ ( 0,1), α ∈ ⎜ , ⎥, n∈N*. Să se arate că şirului (Xn)n∈N* i se ⎜ ⎝ 3 2⎦ 1− 2 p p ⎠ ⎝p poate aplica teorema lui Liapunov. Soluţie. Căutăm să vedem dacă sunt îndeplinite condiţiile teoremei lui Liapunov.

M ( Xk ) = 0, M ( X k2 ) = D k2 =
3 M ( Xk ) = H k = 3

2p , k∈N* k 2α

2p , k∈N* k 3α

De aici urmează că:

S = ∑ D = 2 p∑
2 n k =1 2 k k =1

n

n

1 k

; K = ∑ H = 2 p∑
3 n k =1 3 k k =1

n

n

1 k 3α

.

Întrucât

n n 1 1 3 1 1 < α ≤ , rezultă că 1 < 3α ≤ şi, de aici, lim ∑ 3α = ∑ 3α convergentă. n→∞ 2 3 2 k =1 k k =1 k

112

Pe de altă parte,

∑k α >∑k
k =1 2 k =1

n

1

n

1

ş i lim ∑

1 = +∞ . n →∞ k =1 k

n

De aici urmează că lim este dovedită.

Kn = 0 şi, fiind îndeplinite condiţiile teoremei lui Liapunov, afirmaţia n→∞ Sn

Exemplu. Se consideră şirul de variabile aleatoare independente (Xn)n∈N* identic repartizate, ⎧1, x ∈ (0,1) f X n (x) = ⎨ ⎩0, x ∉ (0,1) Să se aplice teorema lui Liapunov şirului dat şi să se deducă de aici un mod de generare a valorilor unei variabile repartizată normal N(0;1). Soluţie. Am văzut că în cazul variabilelor aleatoare identic repartizate, pentru care există momentele de primele trei ordine, condiţia lui Liapunov este îndeplinită şi, deci,
⎛ n ⎞ ⎛ n ⎞ ⎜ ∑ X k − M ⎜ ∑ Xk ⎟ ⎟ ⎝ k =1 ⎠ ⎜ k =1 ⎟ < x⎟ = lim P⎜ n n →∞ ⎛ ⎞ ⎜ ⎟ D ⎜ ∑ Xk ⎟ ⎝ k =1 ⎠ ⎝ ⎠

1 2π

−∞

∫e

x

y2 2

dy

∑X
Prin umare, variabila aleatoare
k =1

n

k

⎛ n ⎞ − M ⎜ ∑ Xk ⎟ ⎝ k =1 ⎠

⎛ n ⎞ D⎜ ∑ Xk ⎟ ⎝ k =1 ⎠

urmează aproximativ o lege normală

N(0;1), dacă n este suficient de mare. pentru n suficient de n 12 mare, este aproximativ normală N(0;1). Pentru n=12 se obţine o aproximaţie destul de bună şi atunci Dar M ( Xk ) = 1 1 , D 2 (Xk) = , k = 1,2,... şi atunci 2 12

∑X
k =1

n

k

n 2

∑X
k =1

12

k

− 6 este aproximativ normală N(0;1). Se alege un set de 12 numere aleatoare

uniform repartizate pe intervalul (0,1): r1,r2,…,r12. Cu acestea se obţine o valoare δ1 a unei variabile aleatoare normală N(0;1). Se repetă procedeul luând un alt set de 12 numere uniforme pe (0,1) ş.a.m.d., până se obţine numărul dorit de valori ale variabilei normale N(0;1). Se constată că procedeul este destul de simplu, dar cum pentru un set de 12 numere uniform repartizate pe (0,1) se obţine un număr repartizat N(0;1) - procedeul este ineficient când avem nevoie să obţinem un număr destul de mare de astfel de valori.
Exemplu. Dacă numărul n de grade de libertate al unei repartiţii χ (2n ) tinde către ∞, atunci
Fχ 2 ( x ) ⎯n→∞ → Φ( x ) = ⎯ ⎯
(n)

1 2π

−∞

∫e

x

y2 2

dy .

Demonstraţie.
113

Să scriem funcţia caracteristică a variabilei aleatoare

χ (2n ) − M ( χ (2n ) )
D( χ (2n ) )
n 2

=

χ (2n ) − n
2n
− n 2

.

⎛ it χ( n ) − n ⎞ − it ϕn( t ) = M ⎜ e 2 n ⎟ = e ⎜ ⎟ ⎝ ⎠
2

n 2

⎡ i M ⎢e ⎢ ⎣

t 2π

χ (2n )

n ⎤ it it ⎛ t ⎞ ⎟ =e ⎥ = e 2 ϕ χ (2n ) ⎜ ⎝ 2n ⎠ ⎥ ⎦

⎛ 2 ⎞ ⎜1 − i t⎟ n ⎠ ⎝

Logaritmând (luăm determinarea principală a funcţiei logaritm) se obţine:

ln ϕ n ( t ) = −

n n ⎛ ti − ln⎜1 − 2 2 ⎝

2 ⎞ ti⎟ n ⎠

Întrucât trebuie să facem n→∞, rezultă că pentru n suficient de mare, oricare ar fi t∈R, ⎛ − 3 ⎞⎤ 2 n n⎡ 2 2 t2 t <1 şi, deci, ln ϕ n (t) = − ti + ⎢ + θ ⎜ n 2 ⎟⎥ adică ti2 2⎣ n n 2 n ⎝ ⎠⎦
⎛ −1 ⎞ ⎛ −1 ⎞ t2 2 ln ϕ n ( t ) = − + θ ⎜ n ⎟ = 0; lim θ ⎜ n 2 ⎟ = 0 . n →∞ ⎝ 2 ⎝ ⎠ ⎠
t − t2 şi, deci , lim ϕ n ( t ) = e 2 care este tocmai Trecând la limită, lim ln ϕ n ( t ) = − n →∞ n →∞ 2 funcţia caracteristică a legii normale N(0;1). De aici rezultă afirmaţia.
2

Exemplu. Dacă n, numărul gradelor de libertate, tinde la infinit, atunci repartiţia Student cu n grade de libertate tinde către repartiţia normală N(0;1). Demonstraţie. Este suficient să arătăm că şirul momentelor Mr(T(n)) cu r = 0,1,2,… tinde către Mr(X) unde X∈N(0;1). n r ⋅ 1 ⋅ 3⋅...⋅( 2r − 3)( 2r − 1) . Am văzut că M2r+1(T(n)) = 0; M2r+1(X) = 0, iar M 2r (T ( n )) = ( n − 2)( n − 4)...( n − 2r ) De aici, n r ⋅ 1 ⋅ 3⋅...⋅( 2r − 3)( 2r − 1) = 1 ⋅ 3 ⋅ 5⋅...⋅( 2r − 1) lim M 2 r (T ( n )) = lim n →∞ n →∞ ( n − 2 )( n − 4 )...( n − 2r )

Cum M2r(X) = 1⋅3⋅5⋅…⋅(2r-1), rezultă afirmaţia. Vom pune în evidenţă teorema limită centrală a calculului probabilităţilor în formularea J.W.Lindeberg şi W.Feller şi vor rezulta ca simple consecinţe teoremele limită demonstrate de noi direct, în paginile anterioare. Demonstraţia nu o vom da, dat fiind faptul că este laborioasă, iar cei interesaţi o pot găsi în cursul de "Teoria probabilităţilor şi statistică matematică" de M.Iosifescu, Gh.Mihoc, R.Theodorescu, apărut în Editura Tehnică, 1966. Considerăm un şir de variabile aleatoare independente (Xn)n∈N* care admit dispersii finite. Vom nota M ( Xk ) = mk , D 2 (Xk) = σ k2 , k∈N* n n 1 n 2 mn = ∑ mk ş i S n = ∑ σ k2 , Yn = ∑ ( Xk − mk ) Sn k =1 k =1 k =1

114

Definiţie. Spunem că şirul de variabile aleatoare independente (Xn)n∈N* verifică condiţia “L” (condiţia Lindeberg) dacă, pentru orice ε > 0, are loc relaţia:

(L) lim α n (ε ) = lim
n →∞

1 n →∞ S 2 n

n

k =1 {x ;|x − mk |> S n }

∫ ( x − mk ) ε

2

dFk ( x ) = 0 ,

unde Fk(x) = P({ω; Xk(ω < x}). 4.7. Teorema Lindeberg-Feller. Fie (Xn)n∈N* un şir de variabile aleatoare independente. Atunci,
lim FYn ( x ) = Φ( x ),

n →∞

x∈R
2

şi

n→∞ 1≤ k ≤ n

lim max

σ k2
2 Sn

=0

dacă

şi

numai

dacă

lim

1 n →∞ S 2 n

n

k =1 { x ;| x − mk | > S n }

∫ ( x − mk ) ε

dFk ( x ) = 0 (este satisfăcută condiţia (L)).

Să punem în evidenţă unele consecinţe directe ale teoremei Lindeberg-Feller.
Consecinţă. Dacă variabilele aleatoare ce compun şirul de variabile independente (Xn)n∈N* sunt identic repartizate, atunci lim FYn ( x ) = Φ( x ), (∀) x∈R
n →∞

Demonstraţie. În acest caz, M ( Xk ) = m, D 2 (Xk) = σ 2 , k∈N* şi, deci, Sn = σ n .

Cu acestea, condiţia lui Lindeberg devine

α n (ε ) = ∑
şi, deci

n

1
2

k =1 nσ

{ x ;| x − m|> εσ n }

∫ ( x − m)

2

dF ( x ) =

1 nσ 2

n

{ x ;| x − m| > εσ n }

∫ ( x − m)

2

dF ( x )

lim α n (ε ) = 0 , adică este îndeplinită condiţia lui Lindeberg.
n →∞

Consecinţă. Dacă şirul de variabile aleatoare indpendente (Xn)n∈N* are proprietatea că variabilele aleatoare Xn sunt uniform mărginite, admit dispersii finite şi lim Sn = +∞ atunci
n→∞

lim FYn ( x ) = Φ( x ) .
n →∞

Demonstraţie. Dat fiind că variabilele aleatoare Xk, k∈N* sunt uniform mărginite, rezultă că (∃) A > 0 astfel încât Xk - mk ≤ A, k∈N*. De aici rezultă că:

{| x − mk |> S n }

∫ (εx − m )
k

2

dF ( x ) =

{ω ;| x k ( )− mk |> S n }

∫ ( Xε (ω ) − m ) ω
k k

2

dP(ω ) ≤ A 2 P({ω ;| Xk (ω ) − mk| ≥ ε Sn})

Întrucât lim Sn = +∞ , putem lua n suficient de mare astfel încât εSn > A, şi, în acest caz,
n→∞

P({ω;|Xk(ω) - mk| > εSn}) = 0
115

şi, deci,

{| x − mk |> S n }

∫ (εx − m )
k

2

dF ( x ) = 0 , k∈N*, ceea ce implică verificarea condiţiei (L).

Bazaţi pe teorema limită centrală Lindeberg-Feller putem demonstra uşor teorema lui Leapunov, pe care am demonstrat-o anterior independent.
Teorema Leapunov. Fie şirul de variabile aleatoare independente (Xn)n∈N* . Dacă există η>0 astfel încât:
lim β n (η ) = lim
n →∞

1 S

n →∞

2+ n

η ∑M( x
n k =1

k

− mk

2 +η

) = 0,

atunci lim FYn ( x ) = Φ( x ), (∀) x∈R.
n →∞

Demonstraţie. Vom căuta să vedem dacă este îndeplinită condiţia (L):

α n (ε ) =

1 2 Sn

n

k =1 {| x − mk |> S n }

∫ε

( x − mk )2

η ε η Sn 1 η η dFk ( x ) = η 2+η ε Sn ε Sn


k =1

n

{|x − m|> S n }

∫ εx − m

k

2+η

dFk ( x ) ≤

1

εη

βn (η )

lim β (η ) = 0 , adică este satisfăcută condiţia "L". ε η n→∞ n Pentru η = 1 se obţine exact formularea teoremei Leapunov, pe care am demonstrat-o direct anterior. Dacă pentru şirul de variabile aleatoare independente (Xn)n∈N* există
n→∞

Trecând la limită, 0 ≤ lim α n ( ε ) ≤

1

H k3 = M xk − mk

(

3

)

⎛n ⎞3 Kn = 0, unde Kn = ⎜ ∑ H k3 ⎟ , atunci k∈N* şi dacă lim , n →∞ Sn ⎝ k =1 ⎠

1

n →∞

lim FYn ( x ) = Φ( x ), (∀) x∈R.

116

Capitolul 5 PROCESE MARKOV ŞI POISSON

5.1. Procese Markov depinzând de un parametru discret Să considerăm un câmp de probabilitate {Ω,K,P} complet aditiv şi mulţimea variabilelor aleatoare reale definite pe acest câmp, pe care o notăm cu V şi T⊂R. Definiţie. Numim proces stochastic cu mulţimea de parametri T o aplicaţie X: T→ V Să explicăm puţin noţiunea de proces stochastic introdusă mai sus. Pentru aceasta să admitem că variabilele aleatoare din mulţimea V descriu starea unui anumit sistem, iar mulţimea T a parametrilor reprezintă timpul. Atunci, un proces stochastic reflectă evoluţia în timp a unui sistem dat. De obicei, se ia drept mulţime T a parametrilor fie toată dreapta reală, R=T=(-∞,+∞), fie numai semiaxa pozitivă T=(0,∞) sau T=[0,∞), fie un segment finit al dreptei reale, de regulă T=[0,1]. Procesele stochastice ne oferă posibilitatea să privim sistemele în mişcare, ca de altfel şi funcţiile obişnuite din analiza matematică. Spre deosebire însă de starea clasică, starea sistemului la un moment dat nu mai este perfect determinată, ci este aleatoare, ceea ce înseamnă că ea nu poate fi cunoscută decât probabilistic. Formal, un proces stochastic depinde de două variabile: t∈T şi ω∈Ω. De aceea vom scrie X(t,ω) sau Xt(ω). Pentru fiecare t∈T, Xt(.) este o variabilă aleatoare definită pe {Ω,K,P} şi pentru fiecare ω∈Ω (cu alte cuvinte, pentru fiecare realizare ω∈Ω, X(t,.) reprezintă o funcţie definită pe T), X(t,.) este o funcţie de variabilă reală t∈T. Dacă card T = n, adică T conţine numai un număr finit de elemente, T={t1,t2,…,tn}, atunci procesul stochastic {Xt, t∈T} este echivalent cu un vector aleator. În cazul în care T este o mulţime numărabilă, se ia ca mulţime a parametrilor fie mulţimea Z={…,-n,…,-1,0,1,…,n,…}, fie mulţimea N={0,1,2,…,n,…}. În acest caz, procesul este un şir de variabile aleatoare şi-l vom numi lanţ. Am văzut că o variabilă aleatoare se consideră determinată dacă se cunoaşte funcţia ei de repartiţie. În cazul unui proces stochastic, acesta va fi determinat dacă se cunosc toate funcţiile de repartiţie finit dimensionale, ceea ce înseamnă că pentru orice n∈N, orice t1,t2,…,tn∈T şi orice x1,x2,…,xn∈R se cunosc probabilităţile:

P({ω : X t1 (ω ) < x1, X t2 (ω ) < x 2,..., X tn (ω ) < xn}) = Ft1 ,t2 ,...,tn ( x1 , x 2 ,..., x n )
În afara proprietăţilor cunoscute pentru funcţiile de repartiţie n-dimensionale, aceste funcţii trebuie să mai satisfacă următoarele proprietăţi de consistenţă: (1) lim Ft1 ,t2 ,...,tn ( x1 , x 2 ,..., x n ) = Ft1 ,t2 ,...,t j −1t j +1 ,...tn ( x1 , x 2 ,..., x j −1 x j +1 ,... x n )
x j →∞

(2) oricare ar fi permutarea (i1,i2,…,in) a lui (1,2,…,n),

Fti1 ,ti 2 ,...,ti n ( xi1 , x i2 ,..., x in ) = Ft1 ,t2 ,..,tn ( x1 , x 2 ,..., x n )
117

Să vedem ce se întâmplă cu două procese cărora le corespund aceeaşi familie de funcţii de repartiţie finit dimensionale. Fără a intra în amănunte, vom da numai următoarea definiţie: Definiţie. Două procese stochastice definite pe aceeaşi mulţime de parametri se numesc echivalente dacă toate repartiţiile finit dimensionale corespunzătoare lor coincid. Noi vom considera acum procese stochastice depinzând de un parametru discret, în care T=N={0,1,2,…,n,…}. Fie, deci, un câmp de probabilitate {Ω,K,P} şi (Xn)n∈N, un şir de variabile aleatoare definite pe acest câmp. Vom presupune că fiecare variabilă aleatoare Xn este de tip discret şi să notăm cu I reuniunea valorilor posibile pe care le pot lua variabilele Xn, n∈N. Rezultă imediat că I este o mulţime cel mult numărabilă şi că i∈I dacă şi numai dacă există n∈N astfel încât P(ω:Xn(ω)=i) > 0. Mulţimea I o vom numi mulţimea de stări ale procesului stochastic de parametru discret (Xn)n∈N. Definiţie. Spunem că şirul de variabile aleatoare (Xn)n∈N constituie un lanţ Markov dacă pentru orice n∈N, n≥2, orice t1,t2,…,tn, 0≤t1<t2<…<tn şi orice i1,i2,…,in∈I are loc relaţia (*) P(ω: X t n (ω ) = in / X t n −1 (ω ) = in −1 ,..., X t1 (ω ) = i1 ) = P(ω: X t n (ω ) = in / X t n −1 (ω ) = in −1 ) , ori de câte ori membrul stâng al egalităţii este definit. Se poate demonstra că relaţia de definiţia a lanţului Markov este echivalentă cu următoarea condiţie aparent mai simplă: pentru orice n∈N,

P(ω: Xn(ω ) = in / X n −1 (ω ) = in −1 ,..., X 0 (ω ) = i0 ) = P(ω: X n (ω ) = in / X n −1 (ω ) = in −1 )
Din definiţia dată lanţului Markov, rezultă că acesta reflectă un sistem ce evoluează în timp discret, evoluţie a cărei stare viitoare depinde numai de starea prezentă, indiferent ce s-a petrecut cu stările sistemului în trecut (anterioare prezentului). Se mai spune că un astfel de sistem este fără memorie. Putem acum să introducem o definiţie echivalentă a unui lanţ Markov prin propoziţia care urmează. Propoziţie. Şirul de variabile aleatoare (Xn)n∈N constituie un lanţ Markov dacă şi numai dacă pentru orice m≥0 şi orice t1,t2,…,tn+m, 0≤t1<t2<…<tn+m şi orice i1,i2,…,in+m∈I are loc relaţia: P( X tV (ω ) = iV , n ≤ V ≤ n+m / X tV (ω ) = iV ,..., X tV (ω ) = iV ,1 ≤ V ≤ n-1) = (**) = P( X tV (ω ) = iV , n ≤ V ≤ n+m / X tn −1 (ω ) = in −1 ) Demonstraţie. Vom proceda prin inducţie asupra lui m∈N. Pentru m = 0, relaţia (**) se reduce la relaţia (*) de definiţie a unui lanţ Markov. Să presupunem că (**) este adevărată pentru un m dat şi să arătăm că ea este adevărată pentru m+1. Într-adevăr,

118

P( X t V (ω ) = i V , n ≤ V ≤ n+m + 1 / X tV (ω ) = iV ,1 ≤ V ≤ n-1) = = P( X t(ω )
( )
n + m +1

P ( X t V (ω ) = i V ,1 ≤ V ≤ n+m + 1) P( X t V (ω ) = i V ,1 ≤ V ≤ n − 1) =

=

ω = i n + m+1 / X tV = i V ,1 ≤ V ≤ n+m) ⋅ P( X t V (ω ) = i V ,1 ≤ V ≤ n+m

P( X t V (ω ) = i V ,1 ≤ V ≤ n − 1

= P ( X t n + m+1 (ω ) = i n + m+1 / X t n + m (ω ) = i n + m ) P( X t V (ω ) = i V , n ≤ V ≤ n+m / X t V (ω ) = i V ,1 ≤ V ≤ n − 1)

care, conform ipotezei de inducţie, devine: P X tn + m+1 (ω ) = in + m+1 / X tn+ m (ω ) = in + m P X tV (ω ) = iV , n ≤ V ≤ n+m / X tn −1 (ω ) = in −1 =

( )( P( X (ω ) = i , n − 1 ≤ V ≤ n+m + 1) P( X (ω ) = i , n − 1 ≤ V ≤ n+m) = ⋅ = P( X (ω ) = i ) P( X (ω ) = i , n − 1 ≤ V ≤ n+m) P( X (ω ) = i , n − 1 ≤ V ≤ n+m + 1) = = P( X (ω ), n ≤ V ≤ n+m + 1 / X (ω ) = i ) P( X (ω ) = i )
tV V tV V tV V t n −1 n −1 tV V tV t n −1 n −1 t n −1 n −1

(

)(

)

= P X tn + m+1 (ω ) = in+ m+1 / X tV (ω ) = iV , n − 1 ≤ V ≤ n+m P X tV (ω ) = iV , n ≤ V ≤ n+m / X tn −1 (ω ) = in−1

)

Observaţie. Dacă ţinem seama de unele rezultate din teoria măsurii, se poate afirma că valabilitatea relaţiei (**) pentru orice m≥0 este echivalentă cu următorul rezultat, mult mai general: Pentru orice M∈K(Xt; t>tn) are loc relaţia P( M / X tV (ω ) = iV ,1 ≤ V ≤ n ) = P( M / X t n (ω ) = i ) , n unde K(Xt; t>tn) este corpul borelian generat de variabilele aleatoare Xt, t>tn. 5.2. Probabilităţi de trecere Să considerăm câmpul de probabilitate {Ω,K,P} şi şirul de variabile aleatoare (Xn)n∈N definite pe acest câmp. Notăm cu K0 corpul borelian generat de variabilele aleatoare Xn, n∈N ale şirului considerat. Evident că avem K0⊂K. Dacă toate variabilele şirului sunt discrete, aşa cum am presupus iniţial, cu mulţimea de stări I, atunci probabilităţile pe toate mulţimile din corpul K0 sunt determinate de repartiţiile finit dimensionale P(Xn(ω) = in, Xn-1(ω) = in-1,…,X0(ω) = i0), pentru orice n∈N şi i0, i,…,in∈I. Dar, P(Xn(ω) = in, Xn-1(ω) = in-1,…,X0(ω) = i0) = P(X0(ω) = i0). P(X1(ω) =i1 / X0(ω)= i0). P(X2(ω) = i2 / X1(ω) = i1, X0(ω) = i0) … P(Xn(ω) = in / Xn-1(ω) = in-1,…,X0(ω) = i0) = P(X0(ω) = i0) ∏ P( Xt (ω ) = it / Xs(ω) = is, 1 ≤ s ≤ t-1)
t =1 n

Dacă acum (Xn)n∈N este un lanţ Markov, atunci: 119

P( Xt (ω ) = it ,0 ≤ t ≤ n) = P( X 0(ω ) = i 0)∏ P( Xt (ω ) = it / Xt − 1(ω ) = it − 1)
t =1

n

Vom numi probabilităţile P( Xt (ω ) = it / Xt − 1(ω ) = it − 1) probabilităţi de trecere la momentul t, din starea it-1 în starea it şi le vom nota p(t;it-1,it), iar probabilităţile P( X 0(ω ) = i 0) = p i0 , i∈I vor constitui repartiţia iniţială. Atunci, P( Xt (ω ) = it ,0 ≤ t ≤ n) = pi0 ∏ p(t; it −1 , it )
t =1 n

Definiţie. Un lanţ Markov spunem că este omogen sau cu probabilităţi de trecere staţionare, dacă acestea nu depind explicit de timpul t:

p( t ; it − 1, it ) = pit −1it
Pentru un lanţ Markov omogen (cu probabilităţile de trecere staţionare) are loc relaţia:
P( Xt (ω ) = it ,0 ≤ t ≤ n) = pi0 ∏ pit −1it
t =1 n

Probabilităţile pit −1it constituie elementele unei matrici

∏( p )

numită matricea de trecere

ij ( ij )

∈ IxI .
pi ≥ 0;
pij ≥ 0;

Se constată imediat că:

∑ p =1
i i∈I

∑p
j ∈I

ij

= 1 , (∀) i∈I;

aceste probabilităţi determină toate repartiţiile finit dimensionale P( Xt (ω ) = it ,0 ≤ t ≤ n) , n∈N şi, prin urmare, determină probabilitatea P pe câmpul borelian K0 generat de lanţul Markov considerat. În felul acesta, probabilităţile iniţiale (pi)i∈I şi probabilităţile de trecere (pij)i,j∈I formează o familie de cantităţi determinate pentru un lanţ Markov. De aici urmează o altă definiţie a unui lanţ Markov, şi anume: un lanţ Markov este un proces aleator (Xn)n∈N cu variabilele aleatoare discrete pentru care există o mulţime de indici I, cel mult numărabilă, un şir (pi)i∈I şi o matrice (pij)i,j∈I verificând condiţiile : pi ≥ 0, i ∈ I , ∑ pi = 1; pij ≥ 0, i, j ∈ I ; ∑ pi j = 1
i∈I j ∈I

În acest mod, probabilităţile finit dimensionale sunt date de:

P( Xn(ω ) = in,..., X 0 = i0) = pio ∏ p( it − 1, it )
t =1

n

Fie (Xn)n∈N un lanţ Markov omogen (cu probabilităţi de trecere staţionare).
Definiţie. Vom spune că un lanţ Markov omogen este cu creşteri independente dacă 120

pij = qj-i, i,j∈I. Exemplu de lanţ Markov cu creşteri independente: Fie şirul de variabile aleatoare (Yn)n∈N definit în modul următor: Y0 = X0, Yn = Xn - Xn-1, n≥1. Fie I mulţimea numărabilă de numere de forma j-i, i,j∈I astfel încât pij>0. Atunci I este mulţimea valorilor posibile corespunzătoare şirului (Yn)n∈N. Fie L mulţimea valorilor lui Y0. Pentru orice n ≥ 1, i0∈L, j0∈J, 1 ≤ ν ≤ n, avem:
n n ⎛ ⎞ P( Yn = jn / Yν = jν ,0 ≤ ν ≤ n) = P⎜ Xn = ∑ js / Xν = ∑ js,0 ≤ ν ≤ n − 1⎟ = ⎝ ⎠ s= 0 s= 0 n n ⎛ = P⎜ Xn = ∑ js / Xn − 1 = ∑ ⎝ s= 0 s= 0

⎞ js⎟ = qjn ⎠

Rezultă că procesul (Yn)n∈N este un şir de variabile aleatoare independente, toate, exceptând pe Y0, având o repartiţie comună dată de (qj)j∈J. Prin urmare, Xn = ∑ Yν este suma a n+1 variabile aleatoare discrete, independente
ν =0
n

toate, afară de Y0, având aceeaşi repartiţie. Reciproc, un astfel de proces (Yn)n∈N* este cu creşteri independente. 5.3. Probabilităţi de trecere după n paşi Introducem probabilităţile de trecere după n paşi dintr-o stare i într-o stare j, pe care le ( vom nota pijn ) , n∈N. Pentru n = 0, punem, prin definiţie: Pentru n = 1, punem
( pij1)

⎧0, i ≠ j ( pij0 ) = δij = ⎨ ⎩1, i = j = pij , iar pentru n∈N arbirtar, punem:
( ( (1) (*) pijn +1) ∑ pikn ) p kj , k ∈I

relaţie care este valabilă şi pentru n = 0. Să demonstrăm următoarea propoziţie.
( Propoziţie. Pentru orice h∈N, are loc relaţia Pik n ) = P( Xh + n = j / Xh = i) . Demonstraţie. (1) Pentru n = 1 relaţia se reduce la pik = P( Xh + 1 = j / Xh = i) , care este tocmai relaţia de

definiţie a probabilităţilor de trecere. Presupunem relaţia adevărată pentru s ≤ n şi arătăm că rămâne adevărată pentru s = n + 1, orice ar fi i,j∈I. Atunci: P( Xh + n + 1 = j, Xh + n = k , Xh = i) P( Xh + n + 1 = j / Xh = i) = ∑ P( Xh + n + 1 = j, Xh + n = k / Xh = i) = ∑ = P( Xh = i) k ∈I k ∈I
=∑
k ∈I

P( Xh + n + 1 = j, Xh + n = k , Xh = i) P( Xh + n = k , Xh = i) = ∑ P( Xh + n + 1 = j / Xh + n = k , Xh = i) ⋅ P( Xh = i) P( Xh + n = k , Xh = i) k ∈I
k ∈I

( ( ( ⋅ P( Xh + n = k / Xh = i) = ∑ pikn) pkj1) = pijn+1) ,

deci, în baza inducţiei după n, am demonstrat afirmaţia.
121

În baza acestei propoziţii este justificată denumirea de probabilitate de trecere din ( starea i în starea j după n paşi a expresiei pijn ) . Probabilitatea absolută a variabilei Xn este dată de :
p (j n ) = P ( Xn = j ) =
( Deci, p (j n ) = ∑ pi pijn ) . i∈ I

∑ P( X
i∈ I

0

= i , Xn = j ) =

∑ P( X
i∈ I

0

( = i ) P ( Xn = j / X 0 = i ) = ∑ pi pijn ) i∈ I

⎛ i ⎞ Fie (Xn)n≥0 un lanţ Markov omogen cu repartiţie iniţială X 0:⎜ i ∈ I ⎟ , pi = P(X0=i) ⎝ pi , ⎠ ⎛ i ⎞ şi cu repartiţia la pasul n, Xn: ⎜ ( n ) i ∈ I ⎟ , p i( n ) = P( Xn = i ) . ⎝ pi , ⎠

Definiţie. Lanţul Markov (Xn)n≥0 se numeşte staţionar, dacă p i( n ) = pi , n∈N, i∈I.
( Din p (j n ) = P( Xn = j ) = ∑ P( Xn = j , X 0 = i ) = ∑ P( X 0 = i)P( Xn = j / Xn = i) = ∑ pi pijn )
j ∈I j ∈I i∈I

rezultă că, dacă lanţul este staţionar, atunci:

p (j n ) = p j şi, deci, p j = ∑ Pi Pij( n ) , (∀) j∈I, n∈N.
i∈I

În particular, pentru n = 1 avem: p j = ∑ pi pij , (∀) j∈I.
i ∈I

Probabilităţile de trecere după n paşi verifică relaţia generală dată de propoziţia de mai jos:
( ( ( Propoziţie. Pentru orice n, m∈N, are loc relaţia pijn + m ) = ∑ pikn ) p kjm ) . k ∈I

Demonstraţie. Facem inducţie după m. ( ( ( ( ( ( Pentru m = 0 relaţia este: pijn + 0 ) = p ijn ) = ∑ p ikn ) p kj0 ) = ∑ p ikn )δ kj = p ijn ) .
k ∈I k ∈I

Presupunem că relaţia este adevărată pentru s ≤ m dat şi orice n∈N, i,j∈I şi să arătăm că este adevărată pentru s = m+1:

⎛ ⎞ ( ⎛ ⎞ ( ( ( ( ( ( ( ( ( ( pijn + m+1) = ∑ pikn+ m) p kj1) = ∑ ⎜ ∑ piln ) plkm) ⎟ p kj1) = ∑ piln ) ⎜ ∑ plkm) p kj1) ⎟ = ∑ piln ) pljm+1) ⎝ l∈ I ⎠ ⎝k∈I ⎠ l∈ I l∈ I k ∈I k ∈I
( ( ( Relaţia demonstrată, pijn + m ) = ∑ pikn ) p kjm ) (**) k ∈I

este cunoscută sub numele de relaţia Chapman-Kolmogorov. Tot sub acelaşi nume este cunoscută şi relaţia ( ( ( (*) pijn +1) = ∑ pikn ) p kj1)
k∈I

122

Evident că relaţia (**) este o generalizare a relaţiei (*) şi ea uşurează calculul ( probabilităţilor pijn ) dacă n este mare. Totodată ele sugerează utilizarea matricilor în calculul
( probabilităţilor de trecere după n paşi, pijn ) .

O matrice A = (aij)i,j∈N de ordin finit sau numărabil, ale cărei elemente au proprietăţile aij ≥ 0, ∑ aij = 1 spunem că este o matrice stochastică. Dacă A = (aij)i,j∈I şi B = (bij)i,j∈I sunt
j ∈I

matrici stochastice, atunci C = A⋅B are sens, C = (cij)i,j∈I , cij = ∑ aikbkj , iar C este o matrice
j ∈I

stochastică, deoarece cij ≥ 0 (evident) şi

∑ c = ∑⎜∑a b ⎟ = ∑a ⎜∑ b ⎟ = ∑a ⎝ ⎠ ⎠ ⎝
ij ik kj ik kj j ∈I j ∈I k ∈I k ∈I j ∈I k ∈I

ik

= 1.

Din rezultatele prezentate, urmează că matricea de trecere a unui lanţ Markov omogen este o matrice stochastică şi reciproc, orice matrice stochastică este matricea de trecere a unui lanţ Markov omogen cu o repartiţie dată. ( Relaţia Chapman-Kolmogorov pune în evidenţă faptul că probabilităţile pijn +1) sunt elementele matricii

( n +1)

=∏

n +1

. Matricea

(n)

= ∏ o vom numi matrice de trecere
n

după n paşi, care evident este puterea a n-a a matricii de trecere

.

( Probabilităţile pijn ) , n∈N constituie un şir pentru fiecare i,j∈I şi vom urmări să

studiem comportarea lor asimptomatică. În cele ce urmează vom presupune că I este o mulţime finită.
Definiţie. Un lanţ Markov se numeşte ergodic dacă pentru orice pereche de stări i,j∈I există ( limita p ∞ = lim p ijn ) independentă de i şi ∑ p (j ∞ ) = 1 . j
n →∞

j ∈I

Teorema ergodică ce urmează, precum şi consecinţele ei, se referă la comportarea ( asimptomatică a probabilităţilor pijn ) .
( ∞ 5.4. Teorema ergodică. Şiruln )( pij ) n∈N converge către o limită p j , j∈I oricare ar fi i∈I, când

n→∞, dacă şi numai dacă există un număr natural s >0 şi o stare h∈I astfel încât: ( pihs ) >0, (∀) i ∈I. Demonstraţie. ( Necesitatea: din p ∞ = lim p ijn ) rezultă ∑ p (j ∞ ) = 1 şi, deci, există un h∈I astfel încât j
n →∞

j ∈I

p >0. Dar, din definiţia lui p rezultă p >0 oricare ar fi i∈I, dacă s este suficient de mare.

∞ h

∞ h

( s) ih

Suficienţa: pentru orice j∈I considerăm şirurile ( p (j n ) )n∈N şi p
(n) j

( p ( n ) )n∈N , unde
j j

= sup p
i∈I

(n) ij

, p j = inf p
(n)

i∈I

(n) ij

şi arătăm mai întâi că ( p

(n) n∈N j

)

este necrescător, iar ( p ( n ) )n∈N

este nedescrescător. ( ( ( ( Într-adevăr, pijn +1) = ∑ pik1) p kjn ) ≤ p (j n ) ∑ pik1) = p (j n ) oricare ar fi i,j∈I şi, deci,
k∈I k∈I
( sup pijn +1) = p (j n +1) ≤ p (j n ) , oricare ar fi n∈N; analog, p (jn +1) ≥ p (jn ) , oricare ar fi n∈N. i∈ I

123

Însă, 0 ≥ p ( n ) , p (j n ) ≤ 1, adică ( p (j n ) )n∈N şi ( p ( n ) )n∈N sunt monotone şi mărginite, deci j j convergente şi fie
n→∞ i , l ∈I

p∞ , j

p∞ j

limitele lor, respectiv. Dacă reuşim să arătăm că

( ( lim sup p ijn ) − p ljn ) = 0 , rezultă că p ∞ = p ∞ = p ∞ , j∈I. j j j

( ( Să evaluăm maximul diferenţei pijn ) − pljn ) , i,j,l∈I. Să presupunem că n > s. Atunci, pe
( ( ( baza relaţiei lui Chapman-Kolmogorov, pijn ) = ∑ pirs ) prjn − s ) , putem scrie: r ∈I ( ( ( ( ( ( ( ( ( ( pijn ) − pljn ) = ∑ pirs ) prjn − s ) − ∑ plrs ) prjn − s ) = ∑ ( pirs ) − plrn − s ) ) prjn − s ) = ∑ bil ( r ) prjn − s ) r ∈I r ∈I r ∈I r ∈I

( unde am pus pi(rs ) − p lrs ) = bil (r ) .

Fie acum

I+ = {r∈I / bil(r) > 0} I- = {r∈I / bil(r) ≤ 0} I+ ∪ I - = I

Cum

∑p
r ∈I

(s) ir

( = ∑ p lrs ) = 1 , rezultă că r ∈I

∑b
r ∈I
r ∈I +

il

(r ) =

r ∈I +

∑b

il

(r ) +

r ∈I −

∑b

il

( r ) = 0 şi, de aici,

γ il =

∑b

il

(r ) =

r ∈I −

∑b

il

(r )

Să arătăm că 0 ≤ γil ≤ 1. Să presupunem că indicele h care apare în enunţul teoremei aparţine lui I+. Atunci,

γ il =

r∈I

∑b
+

il

(r ) =

r∈I

∑p
+

( s) ir

r∈I

∑p
+

( s) lr

( ≤ ∑ pirs ) −

r∈I

r∈ I

∑p
+

( s) lr

= 1−

r∈I

∑p
+

( s) lr

≤ 1 − p ( s ) . Deci,
h

( ( 0 ≤ γil ≤ 1- phs ) < 1, deoarece p (hs ) = inf p ihs ) > 0 .
i∈I

În mod analog, pentru h∈I obţinem aceeaşi evaluare. Fie acum γ = sup γ il . Deoarece I este o mulţime finită, rezultă 0 ≤ γ < 1. Atunci, pentru γil >0
i ,l ∈I

putem scrie:
( ( pijn ) − pljn ) = r ∈I +

∑b

il

( ( ≤ γ il max prjn − s ) − min prjn − s ) ≤ γ il p (j n − s ) − p (jn − s ) ≤ γ p (j n − s ) − p (jn − s ) r ∈I r ∈I

(

⎛ ⎞ ( ( ( ( ( r ) prjn − s ) − ∑ bil ( r ) prjn − s ) ≤ ⎜ max prjn − s ) ∑ bil ( r ) − min prjn − s ) ∑ bil ( r ) ⎟ ≤ r ∈I ⎝ r ∈I ⎠ r ∈I − r ∈I + r ∈I −

) (

) (

)

De aici urmează că obţinem:

⎡n⎤ ⎜ ⎟ p (j n ) − p (jn ) ≤ γ ⎛ p (j n − s ) − p (jn − s ) ⎞ . Aplicând această relaţie de ⎢ ⎥ ori, ⎝ ⎠ ⎣s⎦
0≤ p
(n) j

− pj ≤γ
(n)

⎡n⎤ ⎢s⎥ ⎣ ⎦

⎛ ⎡n⎤ ⎞ ⎡n⎤ ⎛ ⎛ n − ⎡ n ⎤ s⎞ s⎟ ⎞ ⎜ n− ⎜ ⎟ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎜ p⎝ ⎢ s ⎥ ⎠ − p⎝ ⎢ s ⎥ ⎠ ⎟ ≤ γ ⎢ s ⎥ , j ⎜ j ⎟ ⎝ ⎠

124

( ( întrucât p (j n ) − p ( n ) ≤ 1 . Atunci, sup pijn ) − pljn ) = p (j n ) − p (jn ) ≤ γ ⎣ s ⎦ . j i ,l ∈ I

⎡n⎤ ⎢ ⎥

Dacă n→∞ rezultă că şi
lim p
n →∞ (n) ij

⎡n⎤ ⎢ s ⎥ →∞. ⎣ ⎦

( ( Prin urmare, lim sup pijn ) − pljn ) = 0 , adică n →∞ i ,l ∈ I

= p , j∈I, oricare ar fi i∈I.

∞ j

Din cele de mai sus rezultă:

∑p
j ∈I

∞ j

( = lim ∑ pijn ) = 1 . n→∞ j ∈I

Din această teoremă rezultă acum unele consecinţe utile în aplicaţii.
Consecinţă. Are loc relaţia:

∑p
j ∈I

∞ j

m ∞ p (jk ) = p k , k∈I, m∈N.

Demonstraţie. Dacă în relaţia Chapman-Kolmogorov,

∑p
r ∈I

(n) ij

m ( p (jk ) = p ikm+ n ) , facem n→∞, se obţine

rezultatul menţionat.
Consecinţă.

p ∞ > 0 , j∈I dacă şi numai dacă începând cu un s suficient de mare, elementele j
( s)

matricei

sunt toate strict pozitive.

1 , j∈I dacă şi numai dacă m elementelor mulţimii I.
Consecinţă. p ∞ = j Demonstraţie. Din condiţia dată rezultă că

∑p
i∈I

ij

= 1 , oricare ar fi i∈I, m fiind numărul

∑p
i ∈I

(n)
ij

= 1 , n > 1 şi, deci, lim ∑ p (ijn ) = mp ∞ = 1 adică j
n →∞ i ∈I

p∞ = j

1 , j∈I (card I = m). m Reciproc, dacă p ∞ = j 1 , j∈I atunci, în baza primei consecinţe, putem scrie m = p ∞ , din care rezultă afirmaţia. j

∑p
j ∈I

∞ i

( pij1)

5.5. Exemple de lanţuri Markov omogene.
Exemplu. Să considerăm r urne numerotate 1,2,…,r care conţin fiecare bile de r tipuri diferite, marcate de asemenea, 1,2,…,r. Probabilitatea de a extrage o bilă de tipul j din urna i este egală cu pij, i,j = 1,2,…,r. La momentul iniţial se alege o urnă conform repartiţiei de probabilitate (pi)1≤i≤r.

125

Din această urnă se extrage o bilă care se reintroduce apoi la loc. Dacă bila extrasă a fost de tipul i, atunci extragerea următoare se va face din urna i ş.a.m.d. Este evident că şirul tipurilor de bile extrase succesiv este un lanţ Markov cu mulţimea stărilor I = {1,2,…,r}, probabilităţile iniţiale (pi)1≤i≤r şi probabilităţile de trecere (pij)1≤i, j≤r. Exemplu. Problema ruinării jucătorului. Două persoane sunt angajate într-o serie de partide ale unui aceluiaşi joc, capitalurile lor iniţiale fiind k şi l-k unităţi. Presupunem că la fiecare partidă se pariază pe o singură unitate de capital, că probabilităţile de câştig al unei partide de către cei doi jucători sunt p şi q = 1 - p şi că rezultatele partidelor sunt independente. Repartizarea capitalului total l între cei doi jucători va evolua neîncetat până ce unul dintre ei va pierde ultima sa unitate de capital (se va ruina). Ne întrebăm care sunt probabilităţile de ruinare a celor doi jucători. Evoluţia capitalului primului jucător, de exemplu, poate fi reprezentată de un lanţ Markov având mulţimea stărilor I = {0,1,…,l}, care pleacă din starea k şi cu matricea de trecere
0 1 1 0 q 0 2 0 p 0 0 0 3 ... l − 2 l − 1 l 0 0 0 0 0 0 0 0 p 0 0 0 q 0 0 0 0 0 p 1

0 1

2 0 q ... l −1 0 0 l 0 0

Într-adevăr, dacă la un moment dat capitalul primului jucător este i unităţi, i≠0,l, atunci, independent de evoluţia anterioară a acestuia, la momentul următor, el poate avea i+l unităţi sau i-l unităţi cu probabilităţile p, respectiv q. Dacă i = 0 (ceea ce corespunde ruinării primului jucător) sau i = l (ceea ce corespunde ruinării adversarului său), toate tranziţiile ulterioare (fictive din punct de vedere al problemei) nu pot schimba valoarea capitalului, adică p(0,0) = p(l,l) = 1. Stările 0 şi l se numesc stări absorbante deoarece odată atinse ele nu mai pot fi părăsite. Exemplu. Un model din teoria aşteptării. O staţie de servire poate servi clienţii la momentele 0,1,2,…. Vom presupune că în intervalul de timp (n,n+1) sosesc Yn clienţi, variabilele Y0,Y1,Y2,… fiind presupuse independente şi identic reaprtizate, cu repartiţia iniţială P(Y0 = k) = pk, k ≥ 0 şi că există loc de aşteptare pentru cel mult m clineţi, număr în care se include şi clientul care este servit. Clienţii care, ajungând la staţie, găsesc m clienţi aşteptând, pleacă (fără a fi serviţi) şi nu se mai întorc. Să notăm cu X(n) numărul clienţilor prezenţi la momentul n, număr în care se include şi clientul care este în curs de servire. Vom arăta că (X(n))n≥0 este un lanţ Markov cu stările 0,1,2,…,m. Numărul clienţilor prezenţi la momentul n+1 este egal cu numărul clienţilor prezenţi la momentul n, mai puţin cel servit la momentul n (dacă acesta există), plus numărul clienţilor care sosesc în intervalul (n,n+1) dacă rezultatul acestei însumări nu depăşeşte m şi este egal cu m în caz contrar. Prin urmare,

126

⎧ X(n) − 1 + Yn , dacă 1 ≤ X(n) ≤ m ⎪ X(n + 1) = ⎨ Yn , dacă 0 ≤ Yn ≤ m + 1- X(n) sau X(n) = 0, 0 ≤ Yn ≤ m -1 ⎪m , î n restul situaţiilor ⎩
care mai poate fi scrisă X(n+1) = min {X(n) + δ(0,X(n)) - 1 + Yn, m},
⎧1, dacă X(n) = 0 unde δ ( 0, X ( n )) = ⎨ ⎩0, dacă X(n) ≠ 0

Deoarece X(n+1) depinde numai de X(n) şi Yn, iar din definiţia variabilei Yn rezultă că aceasta este independentă de X(n), se observă că (X(n))n≥0 este un lanţ Markov. Se pune problema de a determina matricea de trecere a lanţului Markov definit mai sus. Notând P1 = pl + pl+1 + … 1≤ l ≤ m, vom avea: dacă 0 ≤ j ≤m-1 dacă j = m

p(0,j) = P(X(n+1) = j / X(n) = 0) = P(Yn = j / X(n) = 0) = pj, P(Yn ≥ m) = pm + pm+1 + … = Pm , iar pentru 1 ≤ i ≤ m,

⎧ p (i, j ) = P ( X ( n + 1) = j / X ( n ) = i ) , dacă i- j ≤ j ≤ m -1 ⎪ P (Yn = j + 1 − i ) = pj − i + 1 ⎪ ⎨ P (Yn ≥ m + 1 − i ) = Pm + 1 − i , dacă j= m ⎪0 , î n celelale cazuri t ⎪ ⎩

Prin urmare, matricea de trecere este:
0 P0 P0 0 0 0 1 2 ... P1 P2 P1 P2 P0 0 0 P1 0 0 m −1 Pm − 1 Pm − 1 m Pm Pm

0 1 2 ... m −1 m

Pm − 2 Pm − 1 P1 P0 P2 P1

Exemplu. Aplicaţie în gestiunea stocurilor cu cerere aleatoare. Un depozit care desface un anumit produs are capacitatea S = 5 unităţi. Cererea săptămânală U din acel produs este aleatoare şi are următoarea repartiţie:
1 2 3 4 5 6 ⎞ ⎛ 0 U: ⎜ ⎟ . ⎝ 0.05 015 0.20 0.30 0.20 0.08 0.02⎠

127

Presupunem că cererea dintr-o săptămână este independentă de cea a celorlalte săptămâni . Să notăm cu Yn cererea din săptămâna a n-a. Depozitul foloseşte următoarea politică de tip (s,S): dacă la sfârşitul unei săptămâni cantitatea disponibilă este de cel puţin s, nu comandă nimic, dar dacă la sfârşitul săptămânii cantitatea disponibilă este inferioară lui s, se lansează o comandă suficientă pentru ca stocul să fie adus la nivelul S. Cantitatea comandată este livrată imediat de un depozit central. Cheltuielile de stocare sunt de C1 lei pe unitatea de produs (se ia în considerare cantitatea existentă în stoc la sfârşitul săptămânii). Dacă o cerere nu poate fi satisfăcută integral, se livrează întreaga cantitate existentă în depozit şi se plătesc C2 lei penalizări (valoarea penalizării nu depinde de cererea rămasă neacoperită). O cerere care nu poate fi satisfăcută este anulată. Valoarea lui s poate fi de 2 sau 3 unităţi. Care dintre aceste valori trebuie preferată dacă C2 = 10C1 ? Soluţie. Notăm cu Xn cantitatea existentă în depozit la sfârşitul săptămânii a n-a. Să observăm că Xn poate lua valorile 0 în două situaţii: fie când cererea este egală cu cantitatea existentă în depozit (şi în acest caz nu se plătesc penalizări, iar cheltuielile de stocare sunt nule), fie când cererea depăşeşte disponibilul (cheltuielile de stocare sunt nule, dar se plătesc penalizări). Pentru a face deosebire, în cea de-a doua situaţie, vom atribui lui Xn o valoare specială, să zicem θ, care se deosebeşte de starea Xn=0, prin faptul că implică penalizări. La începutul săptămânii a (n+1)-a nivelul stocului este fie S, dacă Xn<s (în particular dacă Xn=0 sau Xn=θ), fie Xn dacă Xn≥s (în acest caz nu s-a lansat nici o comandă depozitului central). Vom avea, deci

⎧ Xn − Yn , dacă Yn ≤ Xn ş i Xn ≥ s ⎪ Xn + 1 = ⎨S − Yn , dacă Yn ≤ S ş i Xn < s ⎪θ , dacă Yn > Xn ≥ s sau Yn > s ⎩
Rezultă că (Xn)n≥0 formează un lanţ Markov cu probabilităţile de trecere:
⎧ ⎪ ⎪ ⎪P(U = i - j) ⎪ P(Xn + 1 = j / Xn = i ) = ⎨P(U > i) ⎪P(U = S - j) ⎪ ⎪P(U > S) ⎪0 ⎩

, dacă 0 ≤ j < i ş i i ≥ s , j =θ şi i ≥ s , j ≤S şi i < s , dacă j = θ ş i i < s , în rest

Să analizăm cazul s = 2, apoi cazul s = 3. Pentru s = 2 matricea probabilităţilor de trecere va fi următoarea:

128

θ
0 1 P( s= 2 ) 3 4 5

0 1 2 3 4 5 0,02 0,08 0,20 0,30 0,20 0,15 0,05 0,02 0,08 0,20 0,30 0,20 0,15 0,05 0,02 0,08 0,20 0,30 0,20 0,15 0,05 0 0 0 = 0,60 0,20 0,15 0,05 0,30 0,30 0,20 0,15 0,05 0 0 0,10 0,20 0,30 0,20 0,15 0,05 0 0,02 0,08 0,20 0,30 0,20 0,15 0,05

θ

De exemplu, dacă Xn = 2, nu se lansează nici o comandă de aprovizionare, s fiind 2 şi se vor plăti penalizări îndată ce U ia o valoare mai mare ca 2:

P(U > 2) = ∑ P(U = k ) = 0,6 , deci, P2θ = 0,60
k =3

6

Dacă Xn = 1, atunci cantitatea în stoc la începutul săptămânii a (n+1)-a este S = 5 şi, deci, se vor plăti penalizări numai dacă U = 6; P1θ = P(U=6) = 0,02. În mod analog se obţin şi celelalte probabilităţi de trecere. Rezolvând sistemul

vj =
j∈C

∑v p
j ∈C j

i ij

∑π = 1 (u = cπ )
i i

, j∈C={θ,0,1,2,3,4,5},

se obţine: πθ=19,00%; π0=14,58%; π1=19,80%, π2=21,70%, π3=13,23%, π4=8,87%, π5=2,81% Rezultă că se vor plăti penalizări, în medie în 19% din cazuri, iar cheltuielile medii de stocare vor fi: ⎛ 5 ⎞ ⎜ ∑ kπk ⎟ C1 = (1⋅0,1980 + 2⋅0,2170 + 3⋅0,1323 + 4⋅0,0887 + 5⋅0,0281)C1 u.m. ⎝ k =1 ⎠ Cheltuielile medii totale vor fi (pentru s = 2): Γ(s=2) = 0,19C2 + 1,5244C1 = (0,19⋅10 + 1,5244)C1 = 3,4244C1 Refăcând calculele pentru s = 3, se obţin: πθ=7,64%; π0=13,08%; π1=21,13%, π2=26,33%, π3=16,90%, π4=11,33%, π5=3,58%. Cheltuielile medii de stocare vor fi, în acest caz, ⎛ 5 ⎞ ⎜ ∑ kπk ⎟ C1 = (1⋅0,2113 + 2⋅0,2633 + 3⋅0,1690 + 4⋅0,1133 + 5⋅0,0358)C1 = 1,8771 C1. ⎝ k =1 ⎠ Cheltuielile medii totale vor fi: 129

Γ(S=3) = 0,0764C2 + 1,8771C1 = (0,076Y⋅10 + 1,8771)C1 = 2,6411C1 Comparând Γ(s=2) cu Γ(s=3) constatăm că este mai avantajos să se ia s=3 unităţi disponibile la sfârşitul săptămânii. 5.6. Procese Markov ce depind de un parametru continuu Noţiuni generale. În multe situaţii concrete din ştiinţele naturii, întâlnim procese în care cunoaşterea unei stări a sistemului la un moment t0 nu determină în mod min. stările sistemului în următoarele momente de timp, ci determină doar probabilitatea ca sistemul să ajungă într-una din stările unei mulţimi de stări ale sistemului. Dacă notăm cu x∈R starea sistemului la momentul t (unde t este un parametru continuu care are semnificaţia de timp) şi cu A⊂R o mulţime de stări ale sistemului, atunci pentru aceste procese X(t) este definită probabilitatea de trecere p(t,x;τ,A) ca sistemul să treacă într-o stare din mulţimea A la momentul τ > t după ce s-a aflat la momentul t în starea x. Dacă cunoaşterea stărilor sistemului pentru momentul t > τ nu modifică aceste probabilităţi, vom numi aceste procese - procese fără postacţiune sau, prin analogie cu cele în timp discret, procese de tip Markov. Probabilitatea de trecere p(t,x;τ,A) şi o probabilitate iniţială P(A) caracterizează complet aceste procese de tip Markov. În cazul în care în probabilitatea de trecere p(t,x,τ,A) mulţimea A⊂R este de forma (-∞,y), obţinem repartiţii de trecere F(t,x,τ,y) = P(X(τ) < y / X(t) = x). Cu alte cuvinte, repartiţia de trecere F(t,x,τ,y) reprezintă probabilitatea ca la momentul τ procesul aleator corespunzător să ia o valoare mai mică decât y, ştiind că la momentul t (cu t < τ) a avut loc egalitatea X(t) = x. Vom presupune că funcţia F(t,x,τ,y) definită pentru τ > t se bucură de proprietăţile: (i) este o funcţie de repartiţie în raport cu y (ii) este continuă în raport cu t şi τ (iii) este integrabilă în raport cu x (iv) au loc egalităţile:

⎧1 , dacã x = y lim F ( t , x; τ , y ) = lim F (t , x; τ , y ) = δ (x, y ) = ⎨ τ →t+0 τ →t− 0 ⎩ 0 , dacã x ≠ y

Toate aceste condiţii puse funcţiei de repartiţie de trecere F(t,x;τ,y) se transcriu imediat pentru probabilitatea de trecere p(t,x;τ,A). Să considerăm acum o mulţime A∈K şi o variabilă aleatoare cu funcţia de repartiţie G(z) = P(Y < z). Ştim atunci că are loc relaţia: P ( A) = ∫ P ( A / Y (ω ) = z ) dG ( z ) .
R

Dacă B∈K, atunci (1) P ( A / B ) = ∫ P ( A / B ∩ {Y (ω ) = z}) dGB ( z ) , unde GB(z) = P(Y < z / B)
R

Ţinând seama de aceste relaţii, să luăm acum momentele de timp t, s, τ; t < s < τ şi să punem: A = {X(t) < y}, B = {X(t) = x}; Y(ω) = X(s,ω)
130

Aplicând relaţia (1), obţinem:

P( X (τ ) < y / X ( t ) = x ) = ∫ P( X (τ ) < y / X ( t ) = x, ) X ( s) = z )dzP( X ( s ) < z / X ( t ) = x )
R

Luând în consideraţie faptul că procesul este de tip Markov, atunci: P(X(τ) < y / X(t) = x, X(s) = z) = P(X(τ) < y / X(s) = z) = F(s,z; τ,y) Deci, relaţia (1) devine: (2) F(t,x; τ,y) =

∫ F ( s, z; τ , y )dzF ( t , x; s, z )
R

Această relaţie constituie generalizarea naturală a relaţiei lui Chapman - Kolmogorov, deoarece reprezintă extensiunea relaţiei stabilită pentru procesele de tip Markov. Dacă există o densitate de trecere f(t,x; τ,y)=
y

∂ F ( t , x; τ , y ) atunci: ∂y

F(t,x; τ,y) =

−∞

∫ f ( t , x; τ , z )dz; ∫ f ( t , x; τ , z )dz = 1
R

şi relaţia Chapman-Kolmogorov devine: (3) f(t,x; τ,y) =

∫ f ( s, z;τ , y)dz ⋅ f (t , x; s, z)dz
R

Dacă procesul este staţionar, atunci funcţia de repartiţie de trecere depinde numai de intervalul de timp scurs: F(t,x; τ,y) = G(τ-t,x,⋅y) iar relaţiile (2) şi (3) devin: G(t1+t2; x,y) = g(t1+t2;x,y) =

∫ G(t ; z, y )dzG( t ; x, z )
1 2 R

∫ g(t ; z, y ) g(t ; x, z )dz
1 2 R

Definiţie. Spunem că procesul X(t) este aditiv (sau cu creşteri independente) dacă F(t,x; τ,y) depinde de t τ şi x-y.

5.7. Procese Poisson Cel mai simplu caz de proces Markov îl constituie procesul Poisson. Să considerăm un proces Markov {X(t)} omogen şi aditiv şi să presupunem că diferenţa Xt - Xs este un întreg nenegativ pentru orice valori s < t şi, în plus, că

P( X t + ∆t − X t > 1) =0 ∆t → 0 P( X t + ∆t − X t = 1) lim
131

Prin definiţie, un proces {X(t)} cu proprietăţile menţionate se numeşte proces Poisson omogen. Dacă notăm P(Xt -Xs = n) = Pn(t - s), atunci are loc următoarea teoremă. Teoremă. Dacă {X(t)} este un proces Poisson omogen, atunci există o constantă λ>0 astfel n − λt ( λ t ) , n = 0,1,2,… încât Pn( t ) = e n!
Demonstraţie. Din proprietatea de aditivitate a procesului rezultă că variabilele Xυ+t - Xυ şi Xυ+t+s - Xυ+t sunt independente dacă t,s > 0 (t+s>t) şi, deci,

P(Xυ+t+s - Xυ= 0) = P (Xυ+t+s - Xυ+t + Xt+υ - Xυ = 0) = P(Xυ+t+s - Xυ+t = 0, Xυ+t - Xυ = 0) = = P(Xυ+t+s - Xυ+t = 0) P(Xυ+t - Xυ = 0), sau, altfel scris, P0(t+s) = P0(s) P0(t) Dacă luăm s = ∆t, atunci P0(t+∆t) = P0(∆t) P0(t)

Scăzând din ambii membri P0(t) şi împărţind cu ∆t, obţinem: P0 ( t + ∆t ) − P0 ( t ) 1 − P0 ( t ) P ( 0) − P0 ( ∆t ) = − P0 ( t ) = − P0 ( t ) 0 ∆t ∆t ∆t Trecând la limită pentru ∆t → 0, se obţine: P0’(t) = -P0(t) P0’(0) Fie P0’(0) = λ > 0. Atunci, integrând ecuaţia P0’(t) = - λP0(t), se obţine P0(t) = ce- λt, iar din P0(0) = 1 rezultă c = 1, adică P0(t) = e- λt. Pentru determinarea probabiltăţii Pk(t), k = 1,2,… să exprimăm Pk(t+ ∆t ). Dacă în intervalul (0,t+ ∆t ) s-au produs şi schimbări de stare, acestea s-au produs în felul următor: (i) în intervalul (0,t) s-au produs k schimbări, iar în intervalul (t,t+ ∆t ) nici una; (ii) în intervalul (0,t) s-au produs k-1 schimbări, iar în intervalul (t,t+ ∆t ) una singură; (iii) în intervalul (0,t) s-au produs cel mult k-2 schimbări, iar în intervalul (t,t+ ∆t ) cel puţin două. Evenimentele menţionate fiind independente, obţinem: Pk(t+ ∆t )=Pk(t) P0( ∆t )+Pk-1(t) P1( ∆t )+R, unde R = Pk-2(t) P2( ∆t )+Pk-3(t) P3( ∆t )+… ≤ ∑ Pk ( ∆t ) . Scăzând din ambii membri Pk(t) şi împărţind cu ∆t obţinem:
k =2

132

(1)

Pk (t + ∆t ) − Pk (t ) [1 − P0 ( ∆t )] P1 ( ∆t ) R = − P k (t ) + Pk −1 (t ) + ∆t ∆t ∆t ∆t ( ∆t ) 1 − e − λ∆t 1 − P0 = ⎯⎯⎯→ λ ∆t → 0 ∆t ∆t P1 ( ∆t ) P1 ( ∆t ) 1 − P0 ( ∆t ) = ⎯⎯⎯→ 1 ⋅ λ ∆t → 0 1 − P0 ( ∆t ) ∆t ∆t

R = 0 , atunci membrul doi are o limită finită, deci şi membrul ∆t dPk ( t ) R întâi, care va fi = Pk '( t ) . Pentru a arăta că lim = 0 este suficient să arătăm că ∆t → 0 ∆t dt Dacă arătăm că lim
∆t → 0

1 − P ( ∆t ) − P ( ∆t ) 1 ∞ lim ∑ Pk (∆t ) = ∆t →0 0 ∆t 1 = 0 ∆t → 0 ∆t k=2 lim
Însă

1 − P0 ( ∆t ) − P ( ∆t ) 1 − P0 ( ∆t ) − P1 ( ∆t ) P1 ( ∆t ) 1 − P0 ( ∆t ) 1 = ∆t ∆t P1 ( ∆t ) 1 − P0 ( ∆t ) P( X t + ∆t − X t > 1) 1 − P0 ( ∆t ) − P1 ( ∆t ) = 0. = 0 este echivalentă cu lim ∆t → 0 P( X ∆t → 0 P ( ∆t ) 1 t + ∆t − X t = 1)
P0(t) = e-λt , avem
P1 ( ∆t ) = 1 şi ∆t → 0 1 − P ( ∆t ) 0 lim

Condiţia lim

Pe de altă parte, ţinând seama că

Pk ( ∆t ) 1 − P0 ( ∆t ) k =2 = 0. lim = λ . Deci, lim ∆t → 0 ∆t → 0 ∆t ∆t
În plus, deoarece Pk(0) = 0, rezultă lim Pk ( ∆t ) − Pk ( 0) = Pk '( 0) = 0 , k = 2,3,…. ∆t → 0 ∆t

Ţinând seama de rezultatele obţinute anterior, rezultă că, dacă în relaţia (1) facem pe ∆t→0, se obţine: (2) Pk’(t) = -λPk(t) + λPk-1(t), k=1,2,3,… Pentru integrarea acestui sistem de ecuaţii diferenţiale, introducem o funcţie auxiliară: Lk(t) = Pk(t)eλt, k = 0,1,2,… Urmează că: Pk(t) = Lk(t)e-λt şi Pk’(t) = Lk’(t)e-λt-λLk(t)e-λt Înlocuind în sistemul (2), obţinem: Lk’(t)e-λt-λLk(t)e-λt = -λLk(t)e-λt + λLk-1(t)e-λt, adică Lk’(t) = λLk-1(t), k = 1,2,3,…
133

Cum P0(t) = e-λt, rezultă L0(t) = 1 şi L1 (t ) = λ ∫ L0 ( u)du = λt
0 t

( λt ) 2 L2 (t ) = λ ∫ L1 ( u)du = 2! 0
t

... ( λt ) k Lk (t ) = λ ∫ Lk −1 ( u)du = , k! 0 care, prin inducţie, se dovedeşte adevărată pentru orice k∈N. ( λ t ) k − λt Înlocuind Lk(t) se obţine Pk ( t ) = e , k = 0,1,2,3,…, ceea ce era de k! demonstrat.
t

Proprietăţi ale proceselor Poisson Se obţine imediat că: Într-adevăr,

∑ P (t ) = 1.
k =0 k

∑ P (t ) = e
k =0 k

− λt

( λt ) k ∑ k ! = e − λt e λ t = 1 k =0

Propoziţie. Dacă {Xt} este un proces Poisson omogen şi aditiv, atunci

M ( X t ) = λt , D 2 ( X t ) = λt , ρ X t , X t + s =

1 1+ s t

Demonstraţie.
∞ ( λt ) k ( λt ) k −1 − λt M ( X t ) = ∑ kPk ( t ) = e ∑ k = λte ∑ = λte − λt e λt = λt k! k =0 k =0 k =1 ( k − 1)! k −1 ∞ ∞ ∞ ( λt ) ( λt ) k − 1 M 2 ( X t ) = ∑ k 2 Pk (t ) = λte − λt ∑ k = λte − λt ∑ [( k − 1) + 1] = ( k − 1)! ( k − 1)! k =0 k =1 k =1 ∞ − λt ∞
∞ ⎡ ∞ (λt ) k − 2 ( λt ) k − 1 ⎤ − λt λt λt 2 = λte − λt ⎢λt ∑ +∑ ⎥ = λte [ λte + e ] = (λt ) + λt ⎣ k = 2 ( k − 2)! k =1 ( k − 1)! ⎦ De aici rezultă: D2(Xt) = λt. Să calculăm cov (Xt,Xt+s) = M(Xt Xt+s) - M(Xt) M(Xt+s)

M(Xt Xt+s) = M(Xt Xt+s - Xt2+Xt2) = M(Xt2) + M[Xt(Xt+s - Xt)] = (λt)2 + λt + M(Xt)M(Xt+s - Xt) = (λt)2 + λt + λt λs Urmează că:

134

ρ X ,X
t

t+s

=

M ( X t X t+s ) − M ( X t ) M ( X t +s ) D ( X t )D ( X t+s )
2 2

=

(λt ) 2 + λt + λ 2 ts − λtλ (t + s)

λtλ ( t + s)

=

λt λ t ( t + s)
2

=

=

1 1+ s t

Teoremă. Dacă {Xt}, {Yt} sunt două procese Poisson omogene independente cu parametrii λ respectiv µ, atunci {Xt+Yt} este tot un proces Poisson omogen, cu parametrul λ+µ. Demonstraţie. Să notăm Zt = Xt + Yt. Atunci,

P( Z n+ t − Z n = n) = P ( X n+ t + Yn+ t − X n − Yn = n) = ∑ P( X n+ t − X n = k , Yn+ t − Yn = n − k ) =
k =0

n

= ∑ P ( X n+ t − X n = k ) P(Yn+ t − Yn = n − k ) = ∑ Pk (t ) Pn− k (t ) = ∑ e
k =0 k =0 k =0

n

n

n

− λt

(λt ) k − µt ( µt ) n− k = e k! ( n − k )!

= e −(λ + µ )t

−(λ + µ )t [ (λ + µ )t ] 1 n n! (λt ) k ( µt ) n− k = e , ∑ k !( n − k )! n! n! k =0 n

ceea ce dovedeşte faptul că {Zt} este un proces Poisson, omogen.
Teoremă. Fie {Xt} un proces Poisson omogen şi (τn)n∈N şirul momentelor de producere a evenimentelor aleatoare. Atunci, (τn+1-τn)n≥0, τ0=0 sunt variabile aleatoare independente, identic repartizate, cu funcţia de repartiţie
⎧0 F( X ) = ⎨ − λx ⎩1 − e ,x ≤ 0 ,x > 0

Demonstraţie. {Xt} este un proces Markov aditiv, deci τn+1-τn, n = 0,1,2,… sunt variabile aleatoare independente. Atunci, P(τn+1-τn < x / τn = y) = P(Xy+n - Xy > 0) = 1- P0(x) = 1-e-λx, dacă x > 0 (independent de y). Deci, P(τn+1-τn < x / τn = y) = P(τn+1-τn < x) = F(x) = 1- e-λx

Urmează că densitatea de repartiţie corespunzătoare este:
⎧0 f ( x ) = ⎨ − λx ⎩λe ,x ≤ 0 ,x > 0

iar M(τn+1-τn) = λ ∫ xe − λx dx =
0

1

λ

.

Observaţie. Se constată că dacă numărul de evenimente ce apar în intervalul de timp (0,t) este un proces Poisson omogen, adică ( λt ) n n = 0,1,2,… , P( X t − X 0 = n ) = e − λ t n! 135

atunci intervalul de timp dintre două momente succesive de apariţie a evenimentelor, este o variabilă aleatoare repartizată exponenţial negativ de parametru λ. Procesele Poisson intervin în diverse aplicaţii şi îndeosebi în teoria firelor de aşteptare sau în siguranţa de funcţionare a unor sisteme complexe. Ca aplicaţii să considerăm procesul de naştere şi de moarte. Să presupunem că la momentul t sistemul se află în starea En. Probabilitatea de trecere din starea En în starea En+1, în intervalul de timp (t, t+∆t) este egală cu λn∆t + O(∆t), iar probabilitatea de trecere în starea En-1 în acelaşi interval de timp este egală cu µn∆t + O(∆t). Probabilitatea ca în intervalul de timp (t,t+∆t) să nu avem nici o modificare de stare (adică procesul rămâne în starea En) este 1 - (λn + µn) ∆t + O(∆t), iar probabilitatea de trecere din starea En într-o stare En+1 sau En-1 cu i > 1 este O(∆t), unde am notat prin O(∆t) o funcţie O( ∆t ) cu proprietatea că lim . ∆t →0 ∆t Atunci, Pn(t+ ∆t ) = λn-1Pn-1(t) ∆t + [1-(λn + µn) ∆t ] Pn(t) + µn+1Pn+1(t) ∆t +O( ∆t ) Trecând Pn(t) în membrul întâi, împărţind cu ∆t şi trecând la limită pentru ∆t → 0, deoarece membrul doi are limită finită, rezultă că şi membrul întâi are limită şi obţinem:
dPn (t ) = λ n−1 Pn−1 (t ) − (λ n + µ n ) Pn (t ) + µ n+1 Pn+1 (t ), n = 1,2,3, ... dt dP0 (t) = − λ 0 P0 (t ) + µ 1 P1 ( t ) , dt

care se obţine în acelaşi mod. Acest sistem de ecuaţii sunt ecuaţiile diferenţiale ale procesului, care, integrate, ne conduc la probabilităţile stărilor Pn(t), n = 0,1,2,…. Să obţinem de aici unele cazuri particulare. 1. În cazul în care µn = 0, n = 1,2,… sistemul de ecuaţii diferenţiale devine:

dPn (t ) = λn−1 Pn−1 (t ) − λn Pn (t ), n = 1,2,... dt dP0 (t) = − λ0 P0 (t ) , dt care sunt ecuaţiile diferenţiale ale procesului simplu de naştere. 2. Dacă λx = 0, sistemul de ecuaţii diferenţiale devine: dPn (t ) = − µ n Pn (t ) + µ n+1 Pn+1 (t ), n = 1,2,... dt dP0 (t) = − µ 0 P0 (t ) + µ1 P1 (t ) , dt care constituie ecuaţiile diferenţiale ale procesului simplu de moarte. Să studiem separat procesul simplu de naştere, procesul simplu de moarte, apoi să determinăm soluţia în cazul general al unui proces de naştere şi de moarte, în ipoteza că acestea sunt liniare.
136

Procesul simplu de nastere Am văzut că sistemul de ecuaţii diferenţiale ale probabilităţilor stărilor este:
dPn ( t ) = λn −1 Pn −1 ( t ) − λn Pn ( t ), n = 1,2,... ⎧1 i = n dt unde Pn ( 0) = δ in = ⎨ dP0 (t) ⎩0 i ≠ n = − λ0 P0 ( t ) dt

Vom spune că procesul simplu de naştere este liniar dacă λn = nλ, λ > 0, iar în acest caz sistemul de ecuaţii diferenţiale devine: dPn ( t ) = − λn Pn ( t ) + λn −1 Pn −1 ( t ), n ≥ 1 dt Pentru n = 1, obţinem: dP1 (t) = − λP ( t ) 1 dt şi, de aici, P0(t) = c1e-λt. Cum P1(0) = 1, rezultă c1 = 1. Considerând acum ecuaţia P’(n) = -λnPn(t) + λ(n-1)Pn-1(t) şi notând Ln(t) = Pn(t)eλtn , ecuaţia diferenţială devine: L’n(t)e-λtn - λnLn(t)e-λtn = -λnLn(t)e-λtn + λ(n-1)Ln-1(t)e-λt(n-1) sau L’n(t) = λ(n-1)Ln-1(t)eλt Însă L1(t) = P1(t)eλt = 1 şi, deci, L2 (t ) = λ ∫ e λu P ( u)du = λ ∫ e λudu = e λt − 1 1
0 t 0 t t t

⎤ ⎡ 1 1 2 L3 (t ) = 2λ ∫ e P2 ( u)du = 2λ ∫ e λu ( e λu − 1) du = 2λ ⎢ ( e 2 λt − 1) − ( e λt − 1) ⎥ = ( e λt − 1) ⎦ ⎣ 2λ λ 0 0
λu

În general, Ln(t) = (eλt-1)n-1, de unde urmează că Pn(t) = e-λt(1-e-λt)n-1, n = 1,2,3,…. Să arătăm că

∑ P (t ) = 1 .
n =1 n

Într-adevăr,

∑ e (1 − e )
− λt n =1

− λt n −1

=e

− λt

∑ (1 − e λ )
n =1

− t n −1

= 1.

Putem acum calcula media şi dispersia procesului: M ( X t ) = ∑ nPn ( t ) = e − λt ∑ n(1 − e − λt )
n =1 n =1 ∞ ∞ n −1

Dacă notăm 1- e − λt = z, atunci

137

M ( Xt ) = e

− λt

∑ nz
n =1

n−1

= e − λt

d ⎛ 1 ⎞ λt ⎜ ⎟=e dz ⎝ 1 − z ⎠
− λt

M 2 ( X t ) = ∑ n Pn ( t ) = e
2 n =1

∑n
n =1
n −1

n −1 2

z

Cum

∑n
n =1

2

z

n −1

= ∑ n( n − 1 + 1)z
n =1

n −1

= ∑ n( n − 1)z
n= 2

n −1

+ ∑ nz
n =1

d2 =z 2 dt

⎛ 1 ⎞ d ⎛ 1 ⎞ ⎜ ⎟+ ⎜ ⎟= ⎝ 1 − z ⎠ dz ⎝ 1 − z ⎠

=

2z 1 1+ z 3 + 2 = (1 − z ) (1 − z ) (1 − z ) 3

Deci, M 2 ( X t ) = e − λt

λ − e − λt
e
− 3λt

= e 2 λt ( 2 − e − λt )

Mai departe, urmează că:

D 2 ( X t ) = M 2 ( X t ) − M 2 ( X t ) = e 2λt ( 2 − e − λt ) − e 2λt = e λt ( e λt − 1)
Procesul simplu de moarte Sistemul de ecuaţii diferenţiale ale probabilităţilor stărilor corespunzătoare acestui proces este dat de: dPn ( t ) = − µn Pn ( t ) + µn +1 Pn +1 ( t ), n = 0,1,2,... dt Procesul simplu de moarte este liniar dacă µn = nµ, µ > 0. În acest caz, obţinem: dPn ( t ) = − µnPn ( t ) + µ ( n + 1) Pn +1 ( t ) dt Dacă presupunem că la momentul t = 0 sistemul se află în starea E n0 , cu n0 ≥ 1, atunci condiţiile iniţiale ale sistemului de ecuaţii diferenţiale sunt date de:
⎧1 n = n 0 Pn ( 0) = δ n0 n = ⎨ ⎩0 n ≠ n 0

Să obţinem soluţia sistemului de ecuaţii pentru procesul de moarte liniar. dPn0 ( t ) Se observă că pentru n = n0 avem Pn0 +1 (t) = 0 şi, deci, = − µn 0 Pn0 ( t ) , de unde rezultă: dt Pn0 ( t ) = e − µn0 t Dacă n = n0 - 1, obţinem
dPn0 −1 ( t ) dt = − µ ( n 0 − 1) Pn0 −1 ( t ) + µn0 Pn0 ( t )

138

sau, dacă înlocuim Pn0 ( t ) :
dPn0 −1 ( t ) dt = − µ ( n 0 − 1) Pn0 −1 ( t ) + µn0 e − µn0t ,

care este o ecuaţie liniară de ordinul întâi. Ecuaţia omogenă are soluţia Pn0 −1 ( t ) = ce − µ ( n0 −1) t constantelor,

şi,

aplicând

metoda

variaţiei

P' n0−1 (t ) = c' e− µ ( n0 −1) t − µ ( n0 − 1)ce − µ ( n0 −1) t ,

care, înlocuită în ecuaţie ne conduce la c' e − µ ( n0 −1) t = µn0e − µn0t c' = µn0 e − µt , de unde rezultă:
c = µn 0 ∫ e − µu du = n 0 (1 − e − µt )
0

t

Prin urmare,

Pn0 −1 (t ) = n0e− µn0t (e µt − 1) şi, în general, rezolvând din aproape în aproape,
n Pn ( t ) = Cn0 e − µn0t ( e µt − 1) n0 − n , 0 ≤ n < n0

Aplicând acum definiţiile valorilor caracteristice numerice ale procesului, se obţine: M(Xt) = n0e-µt, D2(Xt) = n0e-µt(1-e-µt) 5.8. Procesul de naştere şi moarte Am văzut că ecuaţiile diferenţiale ale procesului sunt:
dPn ( t ) = λn −1 Pn −1 ( t ) − ( λn + µn )Pn ( t ) + µn +1 Pn +1 ( t ), n = 1,2,3,... dt dP0 (t) = − λ0 P0 ( t ) + µ1 P ( t ) 1 dt

Procesul este liniar dacă λn = nλ; µn = nµ, iar starea En pentru n = 0 este o stare de absorbţie. În cazul procesului liniar, avem de rezolvat sistemul:
dPn ( t ) = λ ( n − 1) Pn −1 ( t ) − ( λn + µn ) Pn ( t ) + µ ( n + 1) Pn +1 ( t ), n = 1,2,3,... dt dP0 (t) = µP ( t ) 1 dt

Urmează că λ0 = µ0 = 0, iar pentru t = 0 şi n = n0 condiţiile iniţiale devin:
139

⎧1 n = n 0 Pn ( 0) = δ n0 n = ⎨ ⎩0 n ≠ n 0

Pentru a afla soluţia sistemului de ecuaţii diferenţiale menţionat, vom utiliza funcţia generatoare G( t ,θ ) = ∑ Pn ( t )θ n . În urma unor calcule relativ simple, sistemul de ecuaţii
n= 0 ∞

devine:

∂G( t , θ ) ∂G( t , θ ) = (θ − 1)( λθ − µ ) ∂t ∂t
Soluţia acestei ecuaţii cu derivate parţiale este dată de:

⎡ λθ − µ + µ (1 − θ )e ( λ − µ ) t ⎤ G ( t ,θ ) = ⎢ ( λ − µ )t ⎥ ⎣ λθ − µ + λ (1 − θ )e ⎦
Dacă se notează u( t ) = µ sub forma: 1 − e( λ −µ )t ; µ − λe ( λ − µ ) t v( t ) =

n0

λ u( t ) , funcţia generatoare poate fi scrisă µ
n

⎡ u( t ) + (1 − u( t ) − v( t ))θ ⎤ 0 G( t ,θ ) = ⎢ ⎥ ; 1 − v( t )θ ⎣ ⎦

coeficientul lui θn din funcţie ne dă:
Pn ( t ) =
min( n0 , n ) j=0

∑C

j n0

n Cn0−+jn − j −1 ( u( t )) n0 − j ( v ( t )) n0 − j [1 − u( t ) − v ( t )]

j

Cunoscând funcţia generatoare, momentele se pot calcula uşor şi se obţine:
⎧n 0 e ( λ − µ ) t M( Xt ) = ⎨ ⎩ n0 ,λ ≠ µ ,λ = µ ⎧ ⎛ λ + µ ⎞ ( λ − µ )t ( λ − µ )t ⎪n ⎜ − 1) , λ ≠ µ (e ⎟e D ( Xt ) = ⎨ 0⎝ λ − µ⎠ ⎪ ,λ = µ 2λ t ⎩
2

;

⎧0 ⎪ Din expresia valorii medii a procesului rezultă imediat că lim M ( X t ) = ⎨n 0 t →∞ ⎪∞ ⎩

,µ > λ ,µ = λ ,µ < λ

Interpretarea acestui rezultat este simplă, şi anume: dacă rata deceselor este mai mare decât rata naşterilor, atunci populaţia se stinge; dacă rata deceselor este egală cu rata naşterilor, numărul mediu de indivizi din populaţie ar trebui să rămână neschimbat şi, în fine, dacă µ < λ populaţia creşte nelimitat. Să arătăm cum putem obţine din procesul de naştere şi moarte principalele modele de aşteptare cu veniri poissoniene şi timp de servire exponenţial. Pentru aceasta, să considerăm sistemul de ecuaţii diferenţiale ale unui proces de naştere şi moarte:

140

⎧ dPn ( t ) ⎪ dt = λn −1 Pn −1 ( t ) − ( λn + µn ) Pn ( t ) + µn +1 Pn +1 ( t ), n = 1,2,3,... ⎪ ⎨ ⎪ dP0 (t) = − λ P ( t ) + µ P ( t ) 0 0 1 1 ⎪ dt ⎩ Dacă λn = λ, µn = µ, oricare ar fi n∈N, atunci se obţin ecuaţiile unui model de aşteptare cu o staţie, veniri poissoniene şi timp de servire exponenţial: ⎧ dPn ( t ) ⎪ dt = λPn −1 ( t ) − ( λ + µ ) Pn ( t ) + µPn +1 ( t ), n = 1,2,3,... ⎪ ⎨ ⎪ dP0 (t) = − λP ( t ) + µP ( t ) 0 1 ⎪ dt ⎩ Dacă se menţin condiţiile λn = λ, µn = µ, oricare ar fi n∈N şi 0 ≤ n ≤ N, adică Pn(t) = 0, n = N+1,… , atunci se obţin ecuaţiile unui model de aşteptare cu o staţie, veniri poissoniene, timp de servire exponenţial şi fir de aşteptare limitat:
⎧ dP0 (t) ⎪ dt = − λP0 ( t ) + µP1 ( t ) ⎪ ⎪ dPn ( t ) = λPn −1 ( t ) − ( λ + µ ) Pn ( t ) + µPn +1 ( t ), n = 1,2,3,...N -1 ⎨ ⎪ dt ⎪ dPN (t) ⎪ dt = λPN −1 ( t ) − µPN ( t ) ⎩

Dacă se consideră λn = (m-n)λ, µn = µ, n = 0,1,2,…,m; Pn(t) = 0, n = m+1,m+2,… , se obţin ecuaţiile sistemului de aşteptare cu o staţie, veniri poissoniene, timp de servire exponenţial, populaţie finită:
⎧ dP0 (t) ⎪ dt = − mP0 ( t ) + µP1 ( t ) ⎪ ⎪ dPn ( t ) = λ [m − ( n − 1)]Pn −1 ( t ) − [( m − n )λ + µ ]Pn ( t ) + µPn +1 ( t ), n = 1,2,3,..., m -1 ⎨ ⎪ dt ⎪ dPm (t) ⎪ dt = λPm−1 ( t ) − µPm ( t ) ⎩ ⎧nµ ,1 ≤ n ≤ s − 1 , se obţin ecuaţiile sistemului Dacă se consideră λn = λ, n∈N, µn = ⎨ ,n ≥ s ⎩ sµ

de aşteptare cu s staţii, veniri poissoniene, timp de servire exponenţial pentru fiecare staţie (staţii identice), populaţie infinită:
⎧ dP0 (t) ⎪ dt = − λP0 ( t ) + µP1 ( t ) ⎪ ⎪ dPn ( t ) = λPn −1 ( t ) − ( λ + nµ ) Pn ( t ) + ( n + 1)µPn +1 ( t ), n = 1,2,3,...,s -1 ⎨ dt ⎪ ⎪ dPn (t) ⎪ dt = λPn −1 ( t ) − ( λ + sµ ) Pn ( t ) + sµPn +1 ( t ) ⎩

141

⎧nµ ,1 ≤ n ≤ s − 1 Dacă se consideră λn = λ, n∈N, µn = ⎨ şi, evident, Pm+1(t) = ,n ≥ s ⎩ sµ = Pm+2(t) = … = 0, se obţin ecuaţiile sistemului de aşteptare cu s staţii, veniri poissoniene, timp de servire exponenţial pentru fiecare staţie, fir de aşteptare limitat:
⎧ dP0 (t) ⎪ dt = − λP0 ( t ) + µP1 ( t ) ⎪ ⎪ dPn ( t ) = λP ( t ) − ( λ + nµ ) P ( t ) + ( n + 1)µP ( t ), n = 1,2,3,...,s -1 n −1 n n +1 ⎪ dt ⎨ ⎪ dPn (t) = λP ( t ) − ( λ + sµ ) P ( t ) + sµP ( t ), n = s,s + 1,..., m -1 n −1 n n +1 ⎪ dt ⎪ dP (t) ⎪ n = λPm−1 ( t ) − sµPm ( t ) ⎩ dt

⎧ nµ ,1 ≤ n ≤ s − 1 Dacă se consideră λn = (m-n), µ n = ⎨ şi, evident, Pm+1(t) = ⎩ sµ , s ≤ n ≤ m = Pm+2(t) = … = 0, se obţin ecuaţiile sistemului de aşteptare cu s staţii, veniri poissoniene, timp de servire exponenţial pentru fiecare staţie, populaţie finită:
⎧ dP0 (t) ⎪ dt = − mλP0 ( t ) + µP1 ( t ) ⎪ ⎪ dPn ( t ) = λ [m − ( n − 1)]P ( t ) − [( m − n )λ + nµ ]P ( t ) + ( n + 1)µP ( t ), n = 1,2,3,..., s -1 n −1 n n +1 ⎪ dt ⎨ ⎪ dPn ( t ) = λ [m − ( n − 1)]P ( t ) − [( m − n )λ + sµ ]P ( t ) + sµP ( t ), n = s, s + 1,..., m -1 n −1 n n +1 ⎪ dt ⎪ dP (t) ⎪ m = λPm−1 ( t ) − sµPm ( t ) ⎩ dt

142

Capitolul 6 ELEMENTE DE TEORIA INFORMAŢIEI

6.1. Informaţia; cantitatea de informaţie Comunicările sau mesajele pe care le întâlnim în teoria informaţiei sunt constituite dintr-o mulţime de date referitoare la un anumit sistem fizic. Aşa, de exemplu, ca date de intrare într-un sistem de comandă automată a unei secţii dintr-o întreprindere industrială pot servi comunicări relative la mărimea procentului de rebut a produselor fabricate, compoziţia chimică a unui material, temperatura într-un cuptor de tratament termic etc. Toate aceste comunicări descriu starea unui sistem fizic, iar cunoaşterea stării sistemului fizic conduce la faptul că transmiterea de informaţie este inutilă. Aşadar, orice comunicare nu are sens dacă starea sistemului este dinainte cunoscută. Noţiunea de informaţie, în teoria informaţiei, nu se defineşte. Pentru construirea acestei teorii este necesară şi suficientă numai noţiunea de cantitate de informaţie. Vom conveni, deci, că o informaţie transmisă se referă la un anumit sistem fizic, A, sistem care se poate afla ocazional într-o stare anumită, ceea ce înseamnă că sistemul este caracterizat printr-un anumit grad de nedeterminare. În conformitate cu definiţia obiectului teoriei informaţiei în accepţiunea actuală, măsura cantităţii de informaţie trebuie să fie utilă pentru analiza şi sinteza sistemului de transmitere, precum şi de păstrare a informaţiei. Cantitatea de informaţie trebuie definită prin ceva general, care să reflecte obiectiv diferitele aspecte ale comunicărilor, păstrând armonia cu reprezentările intuitive legate de obţinerea de informaţii. Aceasta scoate în relief faptul că obţinerea unei informaţii arbitrare are loc în prezenţa unui experiment. Orice informaţie dobândită de noi este rezultatul unui experiment şi numai al unui experiment. Drept experiment poate fi, de exemplu, considerat o transmisie radio, o transmisie prin semnale optice, variaţiile unui parametru al unui proces dat, măsurile efectuate cu anumite aparate etc. Înainte de efectuarea experimentului, trebuie să existe o anumită nedeterminare asupra rezutatelor posibile ale acestui experiment. Informaţiile ce le obţinem vor fi cu atât mai importante cu cât gradul de nedeterminare înaintea recepţionării lor (adică gradul de nedeterminare “apriori”) este mai mare. Astfel, până la efectuarea experimentului avem o nedeterminae mai mică sau mai mare în sistemul fizic ce ne interesează, iar după efectuarea experimentului (deci după ce s-a obţinut informaţia) sistemul devine mai determinat şi la întrebarea pusă referitor la starea sistmului putem răspunde sau că starea este unică, sau că s-a micşorat gradul de nedeterminare. Cantitatea cu care s-a micşorat gradul de nedeterminare după experiment este egală cu cantitatea de informaţie ce ne-a dezvăluit-o rezultatul experimentului. Pentru a stabili o relaţie cu ajutorul căreia să calculăm cantitatea de informaţie este necesar să stabilim o relaţie care să exprime gradul de nedeterminare al experimentului. Diferenţa dintre aceste cantităţi de nedeterminare dă cantitatea de informaţie ce se obţine în urma unui experiment dat. Pentru aceasta, vom presupune mai întâi că după un experiment nu mai există nici o nedeterminare. 143

Aşa, de exemplu, dacă considerăm aruncarea cu un ban, avem experimentul A cu două rezultate posibile A1 şi A2. ⎛ A1 A2 ⎞ 1⎟ A: ⎜ 1 ⎜ ⎟ ⎝2 2⎠

Fiecare rezultat poate să apară cu aceeaşi probabilitate P( A1 ) =

1 1 , P( A2 ) = . 2 2 După aruncarea monedei (deci după efectuarea expeimentului) nu mai avem nici o nedeterminare şi ca atare nedeterminarea existentă până la efectuarea experimentului, numeric va fi egală cu cantitatea de informaţie obţinută. De aici rezultă că gradul de nedeterminare până la efectuarea experimentului (sau cantitatea de informaţie), satisface următoarele cerinţe intuitive: 1. Cantitatea de informaţie obţinută în urma efectuării a două experimente este mai mare la experimentul care are mai multe rezultate posibile. Dacă notăm cu I cantitatea de informaţie şi cu n numărul rezultatelor, atunci această cerinţă se exprimă astfel: I(n1) ≥ I(n2), dacă n1 ≥ n2

2. Experimentul cu un singur rezultat posibil conduce în mod necesar la o cantitate de informaţie egală cu zero, adică: I(1) = 0 3. Cantitatea de informaţie obţinută din două experimente independente trebuie să fie egală cu suma cantităţilor de informaţie a celor două experimente. Aşa, de exemplu, dacă ne referim la cantitatea de informaţie conţinută în două cărţi diferite în ceea ce priveşte conţinutul, aceasta este egală cu suma cantităţilor de informaţie din fiecare carte. (Dacă cele două cărţi au o parte comună de conţinut, această proprietate nu mai rămâne adevărată; cantitatea de informaţie va fi mai mică decât suma celor două cantităţi). În formă analitică, această proprietate se exprimă cu relaţia: I(n1,n2) = I(n1) + I(n2) Evident, singura funcţie de argument n care satisface aceste proprietăţi este funcţia logaritm şi de aici rezultă că după efectuarea unui experiment care are n rezultate, în urma căruia nedeterminarea a fost înlăturată, obţinem cantitatea de informaţie: I = c logan, unde c şi a sunt constante arbitrare. Desigur, aici am persupus că nu facem distincţie între rezultatele ce apar cu probabilităţi mici şi cele ce apar cu probabilităţi mari, ci numai că rezultatele se consideră egal probabile, adică fiecare din cele n rezultate A1, …, An are aceeaşi probabilitate 1 P( Ai ) = p = n Ţinând cont de acest lucru, putem scrie expresia I sub forma:
I = -c logap; 144

alegerea constantei c şi a bazei logaritmului nu este esenţială, deoarece, luând în considerare indentitatea
logbn = logba logan,

rezultă că trecerea de la o bază la alta a logaritmului revine la înmulţirea cu o constantă sau, ceea ce este echivalent, cu trecerea la o altă scară pentru cantitatea de informaţie I. Pentru simplificare, vom considera că c = 1 şi a = 2; în acest caz,
I = -log2p = log2n,

lucru foarte comun în teoria informaţiei. De aici rezultă o proprietate importantă, şi anume că 1 unitatea de informaţie corespunde cazului când p = . 2 Utilizând baza 2 pentru logaritm, cantitatea de informaţie se spune că este exprimată în “cifre binare” (binary digits) sau, pe scurt, în biţi. Adesea, se utilizează ca bază pentru logaritm şi numărul e, caz în care unitatea de informaţie este “nitul”. În baza egalităţii: 1 , log e 2 = 0,693 = 1,443 avem următoarele relaţii între unităţile de măsură introduse mai sus:
1 bit = 0,693 nit; 1 nit = 1,443 bit

Să vedem acum ce se întâmplă atunci când rezultatele experimentului nu mai apar cu probabilităţi egale. Fie, pentru aceasta, experimentul A cu rezultatele A1,…,An şi cu P(Ai) = pi, adică:

⎛ A1 A: ⎜ ⎝ p1

A2 ... An ⎞ ⎟ p 2 ... p n ⎠

Cantitatea de informaţie a unei comunicări care precizează faptul că a apărut rezultatul Ai este egală cu − log pi = I Ai . Dar această cantitate apare cu probabilitatea pi şi am ajuns astfel la variabile aleatoare

( )

⎛ I ( A1 ) I ( A2 )... I ( An ) ⎞ X: ⎜ ⎟ p 2 ... pn ⎠ ⎝ p1 Pentru a nu lua în considerare o măsură aleatoare a cantităţii de informaţie, vom lua media acestei variabile şi obţinem:

M ( X ) = ∑ I ( Ai ) p i = − ∑ pi log p i
i =1 i =1

n

n

Această relaţie exprimă cantitatea medie de informaţie (sau nedeterminarea medie până la efectuarea experimentului) a unui rezultat arbitrar Ai condiţionat de faptul că după experiment a fost înlăturată întreaga nedeterminare.
145

Exemplu. Dintre locuitorii unui oraş, 25% sunt elevi. Printre elevi, 50% sunt fete. Toate fetele din oraş constituie 35% din locuitori. Ce cantitate de informaţie suplimentară este conţinută în comunicarea că o fată întâlnită este elevă? Soluţie. Notăm cu A1 evenimentul că a fost întâlnită o fată, iar prin A2 evenimentul că a fost întâlnit un elev. Atunci, P(A1)P(A2 / A1) = P(A2)P(A1 / A2) Dar, P(A1) = 0,35; P(A2) = 0,25; P(A1 / A2) = 0,5 De aici rezultă: P( A2 )P( A1 / A2 ) 0,25 ⋅ 0,5 P( A2 / A1 ) = = 0,357 = 0,35 P( A1 ) Iar, cu aceasta, cantitatea de informaţie:

I = -log P(A2 / A1) = -log 0,357 = 1,486 biţi
Exemplu. Experimentul A are rezultatele Ai, i = 1,2,3, cu probabilităţile menţionate mai jos:

⎛ A1 A2 A3 ⎞ A: ⎜ ⎟ ⎝ 0,2 0,5 0,3⎠ Să se afle cantitatea de informaţie punctuală şi medie a rezultatelor A1,A2,A3. Soluţie. I(A1) = -log p1 = -log 0,2 = 2,32 biţi I(A2) = -log p2 = -log 0,5 = 1,00 biţi I(A3) = -log p3 = -log 0,3 = 1,74 biţi Cum avem variabila ⎛ 2,32 1 1,74⎞ X: ⎜ ⎟ ⎝ 0,2 0,5 0,3 ⎠ M(X) = 2,32⋅0,2 + 1⋅0,5 + 1,74⋅0,3 = 1,49 biţi
Exemplu. Să considerăm un experiment A cu 2 rezultate posibile

⎛ A1 A2 ⎞ A: ⎜ ⎟, ⎝ 0,1 0,9 ⎠ cu probabilităţile menţionate. Se repetă experimentul de un număr mare de ori, N, în condiţii identice. Să se afle cantitatea medie de informaţie ce revine la un rezultat al exprimentului. Soluţie. Notăm cu C succesiunea de rezultate în N repetări ale experimentului. Atunci, pentru N suficient de mare, în virtutea teoremei lui Bernoulli, putem scrie P( A1 ) = n1 n , P( A2 ) = 2 , N N

unde n1 şi n2 reprezintă, respectiv, numărul de câte ori s-a realizat A1 şi A2 în succesiunea C. Atunci, P( C ) = ( P( A1 )) n1 ( P( A2 )) n2 = ( P( A1 )) NP( A1 ) ( P( A2 )) NP( A2 )
146

Se vede că probabilitatea succesiunii C depinde numai de probabilităţile P(A1), P(A2) şi de N. Putem considera că toate succesiunile posibile C se pot considera ca egal probabile, iar numărul n va fi: 1 n= P( C ) În acest caz, pentru determinarea cantităţii de informaţie a succesiunii C, se poate exprima prin relaţia:

I N = log n = − log P(C) = − log[ P( A1 ) NP( A1 ) P( A2 ) NP( A2 ) ] = − N [ P( A1 )log P( A1 ) + P( A2 )log P( A2 )] , unde am notat prin IN cantitatea de informaţie în cele N repetări ale experimentului. Cantitatea de informaţie pentru un singur rezultat al experimentului va fi de N ori mai mică I I = N = − P( A1 ) log P( A1 ) − P( A2 ) log P( A2 ) , N sau, dacă înlocuim, I = -0,1 log 0,1 - 0,9 log 0,9 = 0,469 biţi
6.2. Entropie. Proprietăţi ale entropiei Dacă după efectuarea unui experiment rămâne o anumită nedeterminare, atunci H ( A ) = H ( p1 , p2 ,..., p n ) = − ∑ pi log pi
i =1 n

nu mai exprimă cantitatea medie de informaţie a unui rezultat al experimentului. Totuşi, mărimea H(A) exprimă o latură fundamentală pentru teoria informaţiei şi anume ea reprezintă măsura gradului de nedeterminare până la efectuarea experimentului şi poartă numele de entropie a experimentului A. Ea a fost introdusă de C.E. Shanon, în 1948, în lucrarea “A mathematical theory of communications”. Proprietăţi ale entropiei. Înainte de a da şi a demonstra proprietăţile imporante ale entropiei, să stabilim o inegalitate fundamentală, cunoscută sub numele de inegalitatea lui Jensen. Fie f:[a,b]→R. Definiţie. Spunem că f este concavă pe intervalul [a,b] dacă în acest interval orice arc al graficului este situat deasupra coardei ce subîntinde acest arc. Din această definiţie rezultă că oricare ar fi x1,x2 ∈[a,b] şi λ1,λ2 ≥ 0, λ1 + λ2 = 1, este satisfăcută inegalitatea λ1f(x1) + λ2f(x2) ≤ f(λ1x1 + λ2x2) Putem acum da următoarea propoziţie. Propoziţie. Dacă f:[a,b]→R este concavă pe [a,b], x1,x2,…,xn∈[a,b], λ1,λ2,…,λn≥0,

∑λ
i =1

n

i

= 1 , atunci:
⎛ n ⎞ ∑ λi f (xi ) ≤ f ⎜ ∑ λi xi ⎟ ⎝ i=1 ⎠ i =1
n

147

Demonstraţie. Pentru n = 2, inegalitatea este adevărată prin definiţie. Să presupunem inegalitatea adevărată pentru n = 1 şi să arătăm că rămâne adevărată pentru n.

Fie, deci, x1,x2,…,xn∈[a,b], λ1,λ2,…,λn≥0, ∑ λ i = 1 . Să considerăm λ = ∑ λ i şi
n −1 n −1 λi xi λi a λib . Se vede imediat că ∑ , deci că x∈[a,b] şi, în plus, λ≥0, x=∑ ≤x≤∑ λ i =1 i =1 λ i =1 λ λ+λn=1. Atunci, cum pentru n = 2 inegalitatea este verificată, rezultă: n −1

n

n −1 i =1

i =1

λf(x) + λnf(xn) ≤ f(λx + λnxn) Înlocuind pe x şi λ şi ţinând seama de inducţie, obţinem:

λf ⎜ ∑

⎛ n −1 λi xi ⎞ ⎞ ⎛ n −1 λ ⎟ + λn f ( x n ) ≤ f ⎜ λ ∑ i x i + λ n x n ⎟ , ⎠ ⎝ i =1 λ ⎠ ⎝ i =1 λ

⎛ n ⎛ n −1 λ ⎞ ⎞ adică: λf ⎜ ∑ i xi ⎟ + λn f ( xn ) ≤ f ⎜ ∑ λi xi ⎟ , ⎝ i =1 ⎠ ⎝ i =1 λ ⎠
sau, încă, λ ∑
n −1

⎛ n ⎞ λi f ( xi ) + λn f ( xn ) ≤ f ⎜ ∑ λi xi ⎟ , ceea ce justifică afirmaţia. ⎝ i =1 ⎠ i =1 λ

Să punem acum în evidenţă proprietăţile entropiei:
P1. H(p1,p2,…,pn) ≥ 0 Demonstraţie. Cum 0 ≤ pi ≤ 1, i = 1,2,…,n , rezultă că log pi <0, iar semnul minus din faţa sumei asigură nenegativitatea fiecărui termen - pi log pi. P2. Dacă există i∈{1,2,…,n} astfel încât pi=1, atunci H(p1,p2,…,pn) = 0

⎧1 , k = i = 1 rezultă: pk = ⎨ ⎩0 , k ≠ i i =1 Ţinând seama de faptul că lim x log x = 0 , să facem convenţia că 0⋅log 0 = 0. Urmează că:
Demonstraţie. Din pi=1 şi

∑p

n

i

x→ 0

⎛ A 1 A 2 ... A i ... A n ⎞ A: ⎜ ⎟ 0 1 0 ⎠ ⎝0 Cum 1⋅log 1 = 0, rezultă imediat afirmaţia.
P3. Pentru orice p1,p2,…,pn ≥ 0,

∑p
i =1

n

k

1⎞ ⎛1 1 = 1 , H ( p1 , p 2 ,..., pn ) ≤ H ⎜ , ,..., ⎟ = log n ⎝n n n⎠

Demonstraţie. În inegalitatea lui Jensen să punem:

x k = pk , λ k =

1 , k = 1,2,..., n ş i f ( x ) = − x log x n

148

Se constată că pe intervalul [0,1] f(x) este concavă şi, deci, inegalitatea lui Jensen este satisfăcută. Atunci, putem scrie n n ⎛ n 1 ⎞ 1 1 1 1 − ∑ pk log pk ≤ −⎜ ∑ pk ⎟ log ∑ pk = − log , ⎝ k =1 n ⎠ n n k =1 n k =1 n de unde rezultă:
1 1⎛ 1⎞ H ( p1 , p2 ,..., pn ) ≤ ⎜ − log ⎟, adică: n n⎝ n⎠ 1⎞ ⎛1 1 H ( p1 , p2 ,..., pn ) ≤ log n = H⎜ , ,..., ⎟ ⎝n n n⎠

Observaţie. Această proprietate spune că entropia unui experiment este maximă atunci când p1 = p2 = … = pn = 1 / n. Acest lucru este în concordanţă cu imaginea pe care o avem asupra nedeterminării, deoarece cea mai mare nedeterminare într-un experiment cu n rezultate posibile, o avem atunci când toate rezultatele experimentului sunt egal posibile. P4. Dacă avem două experimente ⎛ A1 ⎛ A1 A2 ... An ⎞ A: ⎜ ⎟ şi B: ⎜ ⎝ p1 ⎝ p1 p2 ... pn ⎠ atunci H(p1,p2,…,pn,0) = H(p1,p2,…,pn) Demonstraţie. Fie p1,p2,…,pn ≥ 0,

A2 ... An p2 ... pn

An+1 ⎞ ⎟, 0 ⎠
n +1 k =1

∑p
k =1

n

k

= 1 şi p1,p2,…,pn,pn+1 ≥ 0,

∑p

k

=

∑p
k =1

n

k

=1

Deoarece pn+1log pn+1 = 0 rezultă:
H ( p1 , p2 ,..., pn ,0) = H ( p1 , p2 ,..., pn , pn+1 ) = − ∑ pk log pk = − ∑ pk log pk − pn+1 log pn+1 =
k =1 k =1 n +1 n

= − ∑ pk log pk = H ( p1 , p2 ,..., pn )
k =1

n

Să considerăm acum un experiment compus din experimentele A şi B. Dacă cele două experimente sunt date de ⎛ A1 A2 ... Am ⎞ ⎛ A1 A2 ... Bn ⎞ A: ⎜ ⎟ şi B: ⎜ ⎟, ⎝ p1 p2 ... pm ⎠ ⎝ q1 q2 ... qn ⎠ prin experimentul compus (A,B) înţelegem experimentul cu rezultatele: ⎛ A1 ∩ B1 A1 ∩ B2 ( A ,B):⎜ π 12 ⎝ π 11 ... A1 ∩ Bn ... π 1n A2 ∩ B1 A2 ∩ B1 ... Am ∩ Bn ⎞ ⎟, ... π mn ⎠

π 21

π 21

149

unde am notat Ai∩Bj obţinerea simultană a rezultatelor Ai şi Bj, iar i=1,2,…,m; j=1,2,…,n. Evident, πij ≥ 0,

πij = P(Ai∩Bj);

∑ ∑π
i =1 j =1

m

n

ij

= 1.

Are loc următoarea proprietate: P5. Dacă experimentele A şi B sunt independente, atunci H(A,B) = H(A) +H(B) Demonstraţie. Întrucât A şi B sunt independente, rezultă că: π ij = P(A i ∩ B j ) = P(A i )P(B j ) = p i q j

Prin urmare: H(A ,B ) = − ∑ ∑ π ij log π ij = − ∑ ∑ p i q j log(p i q j ) = − ∑ p i log p i ( ∑ qj) − ∑ qj log qj( ∑ p i ) =
i =1 j=1 i =1 j=1 i =1 j=1 j=1 i =1 m n m n m n n m

= H(A ) + H(B ) Să presupunem acum că cele două experimente A şi B nu mai sunt independente. Fie: m ⎛ A A 2 ... A m ⎞ , p k ≥ 0, k = 1,2,... m, ∑ p k = 1 A :⎜ 1 ⎟ ⎝ p1 p 2 ... p m ⎠ k =1 Să presupunem că experimentul B este condiţionat de rezultatele experimentului A. Dacă notăm cu B1, B2,…Bn rezultatele experimentului B, atunci notăm cu Bj/Ai rezultatul Bj al experimentului B condiţionat de rezultatul Ai al experimentului A. Probabilitatea unui astfel de rezultat s-o notăm P(Bj/Ai) = qij, i=1,2,…,m; j = 1,2,…,n. Rezultă că:

qij ≥ 0, ∑ qij = 1, i = 1,2,..., m

n

Cum: π ij = P A i ∩ B j = P(A i ) ⋅ P B j / A i ,
rezultă că: πij = piqij, i = 1,2,…,m; j = 1,2,…,n , cu πij ≥ 0 şi

(

j =1

)

(

)

∑ ∑ π ij = ∑ ∑ p iq ij = 1
i =1 j=1 i =1 j=1

m

n

m

n

⎛ B1 / Ai Notând experimentul Bi , Bi :⎜ ⎝ qi1

B2 / Ai ... Bn / Ai ⎞ ⎟, qi 2 ... qin ⎠
n j=1

obţinem: H i (B ) = (Bi ) = H(q i1 , q i 2 ,..., q in ) = − ∑ q ij log q ij Măsura nedeterminării dată de experimentul Bi o vom numi entropia experimentului B condiţionată de rezultatul Ai al experimentului A. Dar Ai se realizează cu probabilitatea pi şi, deci, avem o variabilă aleatoare: ⎛ H1 (B ) H 2 (B )... H m (B )⎞ ⎜ ⎟ p 2 ... pm ⎠ ⎝ pi Luând valoarea medie a acestei variabile aleatoare, se obţine nedeterminarea experimentului B condiţionată de întregul experiment A, adică:

H A (B ) = H(B / A ) = ∑ p k H k (B )
k =1

m

Numim această măsură a nedeterminării, entropia experimentului B condiţionată de experimentul A. Să observăm că: q j = P( B j ) = ∑ P( Ai ∩ B j ) = ∑ P( Ai )P( B j / Ai ) = ∑ pi qij
i =1 j =1 i =1 m n m

150

Dacă experimentele A şi B sunt independente, atunci qij = qj şi de aici rezultă: H1 (B ) = H 2 (B ) =... = H m (B ) = − ∑ q ij log q j = H(B )
j=1 n

şi deci: HA (B ) = ∑ p i H i (B ) = H(B )∑ p i = H(B )
i =1 i =1

m

m

Dacă însă nu mai presupunem independenţa experimentelor, atunci este adevărată următoarea proprietate. Propoziţie Fiind date două experimente oarecare, avem îndeplinită egalitatea: H(A; B) = H(A) + HA(B) Demonstraţie: m m n m n ⎞ ⎛ n H(A ,B ) = H(π 11 , π 12 ,..., π mn ) = − ∑ ∑ π ij log π ij = − ∑ ∑ p i q ij log p i q ij = − ∑ p i log p i ⎜ ∑ q ij ⎟ − ⎝ j=1 ⎠ i =1 i =1 j=1 i =1 j=1
m ⎞ ⎛ m − ∑ p i ⎜ ∑ q ij log q ij ⎟ = H(A ) + ∑ p i H i (B ) = H(A ) + H A (B ) ⎠ ⎝ j=1 i =1 i =1 Propoziţie Fiind date două experimente oarecare, este adevărată inegalitatea: HA(B) ≤ H(B) Demonstraţie: m ⎞ ⎛ m În inegalitatea lui Jensen pentru funcţii concave: ∑ λi f ( xi ) ≤ f ⎜ ∑ λi xi ⎟ ⎠ ⎝ i =1 i =1 Să punem f(x) = - x log x (care este funcţie concavă), xi = qij, λi = pi; atunci, obţinem: m ⎞ ⎛ m ⎞ ⎛ m − ∑ pi qij log qij ≤ −⎜ ∑ pi qij ⎟ log⎜ ∑ pi qij ⎟ ⎠ ⎝ i =1 ⎠ ⎝ i =1 i =1 m

Cum însă
m n

∑p q
i i =1

m

ij

= q j rezultă inegalitatea pe care, dacă o însumăm după j, ne dă:
n

− ∑ pi ∑ qij log qij ≤ − ∑ q j log q j ,
i =1 j =1 j =1

adică: HA(B) ≤ H(B) Din această inegalitate rezultă următoarea observaţie practică: cunoaşterea rezultatelor experimentului A micşorează nedeterminarea experimentului B (dacă acestea nu sunt independente). Rezultă, de asemenea, imediat o altă proprietate: Propoziţie Fiind date două experimente A, B oarecare, avem: H(A, B) ≤ H(A) + H(B) Demonstraţie H(A, B) = H(A) + HA(B) ≤ H(A) + H(B). Propoziţie Fiind date k experimente oarecare A1, A2, …Ak , avem inegalitatea: H(A1, A2, …,AK) ≤

∑ H(A
l =1

k

l

)

egalitatea având loc atunci când experimentele sunt independente în totalitatea lor.

151

Demonstraţie Se aplică proprietatea de inducţie şi se obţine: H(A1, A2, …, AK) = H(A1) + H(A2,…, AK) ≤ H(A1) + H(A2) + …+ H(AK). Propoziţie Fiind date două experimente A, B oarecare, avem egalitatea: HB(A) = HA(B) + H(A) – H(B) sau HB(A) + H(B) = HA(B) + H(A) Demonstraţie Egalităţile menţionate rezultă imediat din faptul că: H(A, B) = H(A) + HA(B) = H(B) + HB(A). O observaţie importantă pentru aplicaţii practice ce se obţine de aici este următoarea: dacă experimentul A determină complet experimentul B, adică HA(B) = 0, atunci HB(A) = H(A) – H(B). Am văzut, deci, că relaţia introdusă de Shannon:

H ( p1 , p2 ,..., pn ) = − ∑ pi log pi
i=2

n

poate fi considerată ca o bună măsură a gradului de nedeterminare a unui experiment. Se pune însă întrebarea dacă mai există şi alte funcţii care să aibă proprietăţile pe care le are entropia. Vom formula răspunsul prin teorema de unicitate care urmează: Teoremă Fie H(p1, p2, …, pn) o funcţie simetrică definită pentru orice n ∈ Ν şi orice sistem de probabilităţi: pi ≥ 0; 1 ≤ i ≤ n,

∑p
i =1

n

i

=1

Dacă funcţia H are următoarele proprietăţi: i) este continuă în raport cu ansamblul 1 variabilelor; ii) H(p1, p2, …, pn) este maximă pentru pi = , i = 1, 2, …, n; iii) H(p1, p2, …, n pn, 0) = H(p1, p2,…, pn); iv) pentru orice n + 1 sisteme de probabilităţi: p1, p2, …, pn ≥ 0,

∑p
i =1

n

i

= 1 şi qi1, qi2, …, qim ≥ 0,

∑q
j =1

m

ij

= 1 , 1≤ i ≤ n cu ajutorul cărora construim un nou sistem

de probabilităţi: πij = piqij, 1≤ i ≤ n, 1≤ j ≤ m, este adevărată egalitatea: H(π11, π12, …, πnm) = H(p1, p2, …, pn) + H(p1, p2, …, pn) = - λ ∑ pi log pi
i =1 n

∑p
i =1

n

i

. H(qi1, qi2, …, qim), atunci:

Demonstraţie Vom face demonstraţia în trei etape. Mai întâi vom arăta că relaţia este adevărată în 1 cazul când p1 = p2 = … pn = . Apoi vom arăta că rămâne valabilă când pi sunt numere n

raţionale pozitive supuse la condiţia

∑p
i =1

n

i n

= 1 şi în fine, că relaţia se menţine adevărată când
i

pi sunt numere reale pozitive pentru care 1⎞ ⎛1 1 Să notăm H ⎜ , ,..., ⎟ = L( n ) ; ⎝n n n⎠

∑p
i =1

= 1.

1⎞ 1 ⎞ ⎛1 1 ⎛1 1 atunci: L(n) = H ⎜ , ,..., ⎟ = H ⎜ , ,..., ,0⎟ ≤ ⎝n n ⎝n n n⎠ n ⎠

1 1 ⎞ ⎛ 1 , ,..., ≤ H⎜ ⎟ = L( n + 1) , în baza ipotezei (iii). ⎝ n +1 n +1 n + 1⎠ Deci funcţia L are proprietatea L(n) ≤ L(n+1), ∀n∈N
152

Să arătăm că oricare ar fi r, s ∈ N este adevărată egalitatea: L(sr) = rL(s) Vom aplica procedeul inducţiei după r. 1 1 Pentru r = 2, să punem n = s, m = s, pi = , 1 ≤ i ≤ s; qij = , 1 ≤ i ≤ s, 1 ≤ j ≤ s s s 1 Atunci π ij = p i q ij = 2 şi de aici, pe baza proprietăţii (IV), putem scrie: s 1⎞ 1 ⎞ s 1 ⎛1 1 1⎞ ⎛1 1 ⎛1 1 L( s2 ) = H⎜ 2 , 2 ,..., 2 ⎟ = H⎜ , ...., ⎟ + ∑ H⎜ , ,..., ⎟ = L( s) + L( s) = 2 L( s) ⎝s s ⎝s s s ⎠ s ⎠ i =1 s ⎝ s s s⎠ Deci proprietatea este adevărată pentru r = 2. Să o presupunem adevărată pentru r – 1 şi să arătăm că se menţine pentru r. 1 1 Să presupunem n = s, m = sr-1, pi = , 1 ≤ i ≤ s, qij = r−1 , 1 ≤ i ≤ s, 1 ≤ j ≤ sr-1 s s 1 Urmează că: πij = piqij = r , 1 ≤ i ≤ s, 1 ≤ j ≤ sr-1 s Atunci, proprietatea (IV) conduce la: 1⎞ 1⎞ s 1 ⎛ 1 1 1 ⎞ ⎛1 1 ⎛1 1 H ⎜ r , r ,..., r ⎟ = H ⎜ , ,..., ⎟ + ∑ H ⎜ r −1 , r −1 ,..., r −1 ⎟ , sau ⎝s s ⎝s s ⎝s s ⎠ s ⎠ i=1 s s s ⎠ r r-1 L(s ) = L(s) + L(s ) Cum L(sr-1) = (r-1). L(s), rezultă că L(sr) = rL(s). Fie acum s, v, t, numere naturale. Există un număr r natural, astfel încât: sr ≤ vt < sr+1 Logaritmând într-o bază mai mare ca unu această inegalitate, obţinem: r log s ≤ t log v < (r+1) log s Împărţind în această dublă inegalitate cu t.log s, obţinem: r log v r + 1 (*) ≤ < t log s t Pe de altă parte, aplicând funcţia L aceleiaşi inegalităţi, avem: L(sr) ≤ L(vt) ≤ L(sr+1) sau r L(s) ≤ t L(v) ≤ (r+1) L(s), r L ( v) r + 1 de unde (**) ≤ ≤ t L ( s) t Scăzând inegalităţile (*) şi (**), obţinem: L( v) log v 1 − < L( s) log s t Cum membrul întâi este independent de t, făcând pe t → ∞, va rezulta pentru orice s şi L( v) log v = sau v numere naturale: L( s) log s L ( v ) L ( s) = = λ, log v log s adică L(n) = λlog n, cu λ ≥ 0. 1 Deci afirmaţia este dovedită pentru p1 = p2 = … pn = n Să presupunem că p1, p2, …, pn sunt numere raţionale pozitive a căror sumă este 1. Putem presupune că am exprimat probabilităţile pi, i = 1, …n astfel încât să aibă n m acelaşi numitor, adică: pi = i , i = 1,2,..., n; ∑ mi = m m i =1

153

Definim acum sistemul de probabilităţi qij în modul următor: ⎧0 ⎪1 ⎪ qij = ⎨ ⎪ mi ⎪0 ⎩
Atunci π ij = p i q ij = 1 ≤ j ≤ ∑ mk
i ⎛ i−1 ⎞ mk ⎟ + 1 ≤ j ≤ ∑ mk ⎜∑ ⎝ k =1 ⎠ k =1 k =1 i −1

∑ mk ≤ j ≤ ∑ mk
k =1 k =1

i

n

1 şi din proprietatea (IV) obţinem: m n ⎛ 1 1 1⎞ 1⎞ ⎛1 1 H ⎜ , ,..., ⎟ = H ( p1 , p2 ,..., pn ) + ∑ pi H ⎜ , ,..., ⎟ ⎝m m m⎠ mi ⎠ ⎝ mi mi i =1
n i =1

adică:
n

λ log m = H ( p1 , p2 ,..., pn ) + ∑ pi λ log mi = H ( p1 , p2 ,..., pn ) + λ ∑ pi log( mpi )
i =1

sau: λ log m = H ( p1 , p2 ,..., pn ) + λ log m + λ ∑ pi log pi
i =1

n

Prin urmare, şi în cazul când pi, i = 1, 2, …, n sunt numere raţionale avem: H ( p1 , p2 ,..., pn ) = − λ ∑ pi log pi
i =1 n

Dacă p1, p2, …, pn sunt numere reale pozitive cu suma unu, atunci orice număr real este limita unui şir de numere raţionale. Pe de altă parte, H(p1, p2, …, pn) este continuă în raport cu toate variabilele şi deci: H ( p1 , p2 ,..., pn ) = − λ ∑ pi log pi , pentru orice numere reale pi ≥ 0, i = 1, 2, …, n;
n i =1 n

∑p
i =1

i

=1

Să exprimăm acum cantitatea de informaţie conţinută într-un experiment A, relativ la un experiment B. Dacă s-ar efectua experimentul B am fi conduşi la cantitatea de informaţie H(B). Efectuând în prealabil experimentul A, obţinem o anumită informaţie relativ la experimentul B. Prin definiţie, diferenţa H(B) – HA(B) o vom numi cantitatea de informaţie relativă la experimentul B conţinută în experimentul A şi o vom nota I(A, B). Deci: I(A, B) = H(B) – HA(B). Am văzut că întotdeauna este satisfăcută inegalitatea HA(B) ≤ H(B) şi, deci, I(A, B) ≥ 0. Egalitatea HA(B) = H(B) (sau I(A, B) = 0) are loc dacă experimentele A şi B sunt independente (deci, nu se influenţează reciproc). Pe de altă parte, dacă experimentul A determină complet experimentul B, ceea ce înseamnă că realizarea experimentului A conduce la dispariţia oricărei nedeterminări referitoare la experimentul B, vom avea HA(B) = 0. În acest caz, prin realizarea experimentului A se obţine o cantitate de informaţie asupra experimentului B egală cu cantitatea de informaţie care s-ar obţine prin efectuarea directă a experimentului B. Aşadar, este adevărată dubla inegalitate: 0≤ I(A, B) ≤ H(B) Acest lucru este deosebit de important în aplicaţiile practice, constituind o metodă utilă de determinare a cantităţii de informaţie referitoare la rezultatul unui experiment.

154

Această metodă constă în efectuarea unei succesiuni de experimente auxiliare, succesiune pe care o dorim cât mai scurtă, din motive economice, sau din motive ce ţin de timpul de realizare a unei astfel de succesiuni. ⎛ B1..... B n ⎞ Mai exact, pentru a putea scoate în relief rezultatul experimentului B : ⎜ ⎟, ⎝ q 1..... q n ⎠ vom efectua k experimente auxiliare A1, A2, …Ak, fiecare dintre acestea putând avea m < n rezultate posibile astfel încât ele să conţină cel puţin întreaga cantitate de informaţie pe care am căpăta-o dacă am efectua direct experimentul B. Stabilirea numărului minim de experienţe revine la a determina cel mai mic număr natural k astfel încât: H(B ) ≤ H(A 1 , A 2 ,..., A N ) ≤ ∑ H(A J )
J =1 K

Metoda aceasta, deşi foarte utilă, nu spune nimic asupra modului de alegere a experimentelor Aj, 1≤ j ≤ k, alegerea făcându-se ţinând seama de natura concretă a experimentului B. Totuşi, dacă nu avem nici un fel de date referitoare la probabilităţile evenimentelor ce intervin în experiment, putem să le considerăm ca fiind egal probabile, ceea ce revine la a considera că experimentul respectiv are nedeterminare maximă, nedeterminare ce va trebui înlăturată. Se constată imediat că I(A, B) este simetrică, adică I(A, B) = I(B, A), deoarece: H(A, B) = H(A) + HA(B) = H(B) + HB(A), de unde rezultă: H(B) – HA(B) = H(A) – HB(A), adică tocmai egalitatea menţionată. De asemenea, I(A, B) se mai poate exprima, dacă ţinem cont de entropia condiţionată, de unde rezultă iarăşi imediat simetria prin relaţia: I(A, B) = H(A) + H(B) – H(A, B), funcţiei I(A, B). Cu notaţiile utilizate anterior, din aceasta ultimă relaţie rezultă imediat, dacă exprimăm H(A), H(B) şi H(A, B), că : I ( A ,B) = sus.
Exemplu. Cineva şi-a fixat în gând un număr natural din mulţimea {1, 2, …, 63, 64}. Acest număr urmează să fie descoperit (ghicit) punându-se întrebări la care interlocutorul răspunde cu “da” sau “nu”. Care este numărul minim de întrebări ce urmează a fi puse şi cum trebuiesc formulate întrebările pentru a descoperi numărul? Soluţie Întrucât oricare din numerele 1, 2, …, 63, 64 pot fi alese, rezultă că avem de înlăturat nedeterminarea următorului experiment: ⎛ A 1 A 2 ... A 63 A 64 ⎞ A :⎜ 1 1 1 1 ⎟ , unde Ai înseamnă că s-a fixat numărul 1 ≤ i ≤ 64. ⎜ ⎟ ... ⎝ 64 64 64 64 ⎠ Pentru înlăturarea completă a acestei nedeterminări, este necesară o informaţie egală cu: H(A) = log 64 biţi Pentru aceasta, organizăm o succesiune de experimente A1, A2, … Ak, fiecare din experimentele respective fiind constituite din câte o întrebare bine formulată. Prin fiecare întrebare pusă căutăm să înlăturăm o nedeterminare cât mai mare (dacă este posibil maximă). Cum la fiecare întrebare se primeşte răspunsul “da” sau “nu” rezultă că ( ⎛ A1 j) A (2j) ⎞ j = 1, 2, …, k, fiecărei întrebări i se asociază experimentul: A j: ⎜ 1 1 ⎟ ⎜ ⎟ ⎝ 2 2 ⎠ cu H(Aj) = log 2
pi q j În cele ce urmează vom da câteva exemple care să ilustreze noţiunile introduse mai
i =1 j =1

∑ ∑π

m

n

ij

log

π ij

Vom organiza atâtea experimente astfel încât H(A) ≤ H(A1, A2, …, Ak) ≤

∑ H(A
j=1

k

j

)
155

Cum H(Aj) = log 2, rezultă că putem determina pe k, din relaţia: log 64 ≤ k log 2 şi luăm ca valoare a lui k, cel mai mic număr natural ce verifică această relaţie. Rezultă de aici că: k = 6. Deci, din 6 întrebări bine puse putem descoperi numărul ales. Vom pune întrebările acum astfel ca prin fiecare să înlăturăm maximul de nedeterminare. Aşadar, împărţim numrele 1, 2, …, 64 în două şi întrebăm dacă numărul ales este mai mare decât 32, stabilind astfel dacă se află în prima jumătate sau în a doua. Cu jumătatea determinată se procedează la fel ş.a.m.d., până când la a şasea întrebare se stabileşte cu exactitate numărul. Generalizare. Să se determine numărul minim de întrebări care ne permite să aflăm un număr ales la întâmplare din una dintre n valori admisibile. ⎛ A 1 A 2 ... A n ⎞ 1 1 ⎟ Atunci: A : ⎜ 1 ... ⎟ ⎜ ⎝ n n n ⎠ Rezultă că avem nevoie de H(A) = log n biţi Se organizează k experimente succesive, astfel încât H(A) ≤ H(A1, A2, …, An)
≤ ∑ H(A j )
j=1 k

Se obţine de aici valoarea lui k, (k – 1) log 2 < log n ≤ k log 2 sau log n ≤ k ; (2k-1 < n ≤ 2k) k-1 < log 2 Exemplu. Să se determine numărul minim de întrebări prin care se pot descoperi 2 numere diferite din n numere şi cum trebuie să punem întrebările astfel încât să dăm răspunsul după numărul minim de întrebări determinat. 2 Soluţie: Rezultatele experimentului A sunt în număr de Cn 2 Aşadar, H(A) = log Cn Din H(A) ≤ H(A1, A2, …, Ak) ≤
2 obţinem: log Cn ≤ k log 2. 2 log Cn va fi numărul Deci, cel mai mic număr natural ce satisface condiţia: k ≥ log 2 minim de întrebări cerute. Şi de data aceasta se vor pune întrebările astfel încât să se înlăture maximul de 2 nedeterminare. Pentru aceasta, se împart cele Cn rezultate în două părţi egale. Cu părţile obţinute se procedează analog, ţinând seama de faptul că la un moment dat nu mai putem împărţi în două părţi egale, ci în părţi care diferă printr-o unitate. Exemplu. Avem 25 de piese identice ca formă. Dintre acestea 24 au aceeaşi greutate, iar una defectă, este mai uşoară decât fiecare din celelalte. Pentru descoperirea ei dispunem de o balanţă fără greutăţi. Se pune întrebarea câte cântăriri trebuie să efectuăm cu o astfel de balanţă şi cum trebuie organizate cântăririle pentru a descoperi piesa defectă. Soluţie: Experimentul A al cărui rezultat trebuie determinat are 25 de rezultate posibile şi este natural să considerăm aceste rezultate, echiprobabile. ⎛ A 1 A 2 ... A n ⎞ A :⎜ 1 1 1⎟ ⎜ ... ⎟ ⎝ 25 25 25 ⎠ Deci H(A) = log 25, adică pentru identificarea piesei defecte avem nevoie de o cantitate de informaţie egală cu log 25 biţi. Să efectuăm cântăriri cu o balanţă fără greutăţi. Fiecare cântărire constituie un experiment Aj în care pot să apară câte trei rezultate posibile: balanţa este în echilibru, înclină talerul din stânga sau înclină talerul din dreapta.

∑ H(A
j=1

k

j

),

156

⎛ A ( j) A (2j) A (3j) ⎞ A j: ⎜ 1 ⎟ pe pd ⎠ ⎝ ps Aşadar, efectuăm cântăriri succesive până când H(A) ≤ H(A1, A2, …, An) ≤

∑ H(A
j=1

k

j

) ≤ k log 3.

De aici, se obţine: log 25 ≤ k log 3; 25 ≤ 3k, adică k = 3 cântăriri. Să efectuăm cântăririle astfel încât să obţinem maximum de informaţie într-o cântărire. Aşezăm pe un taler m piese şi pe celălalt taler tot m piese, astfel balanţa va înclina într-o parte în mod cert. Avem experimentul: ⎛ m m 25 − m ⎞ A ( m) :⎜ m m 25 − 2m ⎟ ⎜ ⎟ ⎝ 25 25 25 ⎠ m m 25 − 2m Pentru a înlătura o nedeterminare maximă va trebui ca probabilităţile , , 25 25 25 să fie cât mai apropiate ca valoare. Acest lucru se întâmplă când m = 8; 25 – 2m = 9 Aşadar, aşezând pe fiecare taler câte 8 piese, la prima cântărire se poate ca balanţa să fie în echilibru şi atunci piesa defectă se află între cele 9 necântărite. Pe acestea le împărţim în 3 grupe de câte 3 piese şi punem pe un taler o grupă, iar pe celălalt taler altă grupă. Dacă talerul înclină în dreapta, să zicem, cum ştim că piesa defectă este mai uşoară, atunci ea se află pe celălalt taler. Din cele trei piese situate pe talerul în care se află cea defectă, cântărim câte una pe un taler şi în urma cestei cântăriri (a treia) determinăm exact care este piesa defectă. Analog se raţionează cu celelalte situaţii care pot să apară. Problema se poate rezolva, în general, când avem n piese identice şi printre ele se află una defectă care este mai uşoară. În acest caz este nevoie de k cântăriri, k fiind determinat din relaţia: log n ≤ k log 3 Se organizează apoi cântăririle astfel încât să se înlăture la fiecare o nedeterminare maximă. Această problemă se poate formula şi rezolva ceva mai complicat şi în cazul când nu mai avem informaţie asupra naturii falsului (mai uşoară sau mai grea) şi trebuie descoperită piesa defectă şi totodată şi natura falsului. Exemplu. Două unităţi economice realizează acelaşi produs pentru un beneficiar. Produsul are două caracteristici în funcţie de care se apreciază calitatea lui de a fi corespunzător sau necorespunzător. La unitatea U1, 95% din produse sunt corespunzătoare, iar 4% sunt necorespunzătoare din cauza caracteristicii X şi 4% din cauza caracteristicii Y. La unitatea U2 tot 95% sunt produse corespunzătoare, însă 4,5% sunt necorespunzătoare din cauza caracteristicii X şi 3,5% din cauza caracteristicii Y. Să se stabilească la care dintre unităţi avem o nedeterminare mai mare asupra caracteristicilor produsului. Soluţie. Asimilăm caracteristicile X şi Y cu variabile aleatoare ce iau valorile 1 sau 0. Atunci, obţinem următoarele repartiţii: Y X 1 U1: 1 0 0,03 0,01 0,04 U2: X 1 0 Y 1 0 0,030 0,015 0,045 0,005 0,950 0,955 0,035 0,965 1
157

0 0,01 0,95 0,96 0,04 0,96 1

Rezultă de aici: HU1 (x, y) = - (0,03 log 0,03 + 0,01 log 0,01 + 0,01 log 0,01 + 0,95 log 0,95)
HU 2 (x, y) = - (0,030 log 0,030 + 0,015 log 0,015 + 0,005 log 0,005 + 0,950 log 0,950) HU1 (x, y) = 0,3549; HU 2 (x, y) = 0,3512.

Cum HU1 (x, y) > HU 2 (x, y) rezultă o nedeterminare mai mare la prima unitate.
Exemplu. Se ştie că două produse dintr-o sută au un anumit defect ascuns. Pentru depistarea produselor defecte se foloseşte o anumită reacţie chimică care este totdeauna pozitivă când produsul este defect, iar dacă produsul este corespunzător reacţia este tot atât de frecvent pozitivă cât şi negativă. Considerăm experimentul B care constă în a determina dacă un produs este corespunzător sau nu, iar experimentul A constă în a determina rezultatul reacţiei. Se cere să se calculeze entropiile H(B) şi H A (B) . Soluţie. ⎛ B ( produs corespunzãtor) B2 ( produs corespunzãtor⎞ B: ⎜ 1 ⎟ 0,98 0,02 ⎠ ⎝ De aici rezultă: H(B) = - 0,98 log 0,98 – 0,02 log 0,02 = 0,1415 biţi ie ie ⎛ A (reacþ pozitivã) A 2 ( reacþ negativã)⎞ A :⎜ 1 ⎟ 0,51 0,49 ⎠ ⎝ când ( P(A1 ) = jumãtate din cazurile când are loc B1 + toate cazurile100 are loc B2 = 49 + 2 = 100 100 = 0,51 şi, analog, P(A2)) 49 49 2 2 49 2 ; PA1 (B2) = , rezultă HA 1 (B) = − log − log ≈ 0,2377, Cum PA1 (B1) = 51 51 51 51 51 51 HA 2 (B) = 0 , deoarece, dacă experimentul A are rezultatul A2, putem afirma cu certitudine că experimentul B a avut rezultatul B1 (produs corespunzător). Atunci: HA(B) = 0,51 HA 1 (B) + 0,49 H A 2 (B) = 0,51 ⋅ 0,2377 = 0,1212

6.3. Entropia relativă Până acum am pus în evidenţă entropia corespunzătoare experimentelor cu o mulţime finită de rezultate posibile. Aceasta poate fi extinsă imediat pentru experimente cu o mulţime numărabilă de rezultate. Cum în expresia entropiei intervin numai probabilităţi cu care apar rezultatele, putem spune că s-a introdus noţiunea de entropie pentru variabilele aleatoare discrete, dat fiind faptul că nu intervin valorile luate de variabilele aleatoare, ci numai probabilităţile cu care sunt luate valorile respective. Acest lucru constituie de altfel şi un neajuns al noţiunii de entropie, căci nu putem pătrunde în esenţa fenomenului, rămânând cu gradul de cunoaştere doar la nivelul de organizare sau dezorganizare a fenomenului (sistemului) fizic urmărit. În practică, însă, intervin adesea situaţii când avem de a face cu variabile aleatoare continue ce caracterizează anumite experimente. În cele ce urmează, noi vom presupune că este vorba de variabile aleatoare care admit densităţi de repartiţie şi pentru acestea vom căuta să introducem noţiunea de entropie. Fie variabila aleatoare X cu densitatea de repartiţie f(x). Atunci, după cum se ştie, dacă ∆x este suficient de mic, putem scrie egalitatea: P(x ≤ X < x + ∆x) = f(x)∆x Dacă admitem că X ia valori pe toată dreapta reală, R, să considerăm o diviziune a ei prin punctele …, x-1, x0, x1, x2, …, xi, … (o mulţime numărabilă) astfel încât xi+1 – xi = ∆x, i ∈ Z. Să considerăm variabila aleatoare discretă X’, cu repartiţia: 158

⎛ ... x −1 x0 x1 x 2 ... xi ...⎞ X `: ⎜ ⎟ , unde pi = f(xi)∆x, i ∈ Z. ⎝ ... p-1 p0 p1 p2 ... pi ...⎠ Atunci, conform definiţiei lui Shannon, avem: H ( X `) = − ∑ pi log pi
i =−∞ ∞

⎧ ∞ ⎫ ⎧ ∞ ⎫ H ( X ) = lim H ( X `) = lim ⎨− ∑ f ( xi ) ∆x log [ f(xi ) ∆x] ⎬ = lim ⎨− ∑ f ( xi ) ∆x log f(xi) ) ∆x ⎬ + ∆x → 0 ∆x → 0⎩ i =−∞ ⎭ ⎭ ∆x → 0⎩ i =−∞
+∞ ⎧ ∞ ⎫ + lim ⎨− ∑ f ( xi ) ∆x log ∆x ⎬ = − ∫ f ( x ) log f ( x ) dx - lim log ∆x → + ∞ ∆x → 0⎩ i =−∞ ∆x → 0 ⎭ −∞ Prin urmare, rezultă că entropia oricărei variabile aleatoare continue tinde către + ∞. Acest lucru are şi un suport intuitiv, şi anume gradul de nedeterminare al unei variabile aleatoare ce ia o infinitate de valori poate să fie oricât de mare. Pentru a înlătura acest inconvenient s-a convenit introducerea unei măsuri relative a gradului de nedeterminare a unei variabile aleatoare X în raport cu o variabilă aleatoare dată X0. Variabila aleatoare X0 poate fi aleasă arbitrar şi, pentru a simplifica cât mai mult expresia entropiei relative, vom lua pe X0 ca fiind repartizată uniform pe intervalul [a, b] de lungime ε = b – a În acest caz rezultă că densitatea de repartiţie a variabilei X0 este: ⎧ 1 ⎪ dacã x ∈ [ a,b] , ceea ce conduce la: g(x) = ⎨ ε ⎪0 î n rest, ⎩

Obţinem:

1 1 H ( X 0 ) = − ∫ log dx − lim log ∆x = − log ε − lim log ∆x
a

b

ε

ε

∆x → 0

∆x → 0

Dacă alegem în plus ε = b – a = 1 şi dacă vom considera diferenţa:
+∞

Hε(X) = H(X) – H(X0) = -

−∞

∫ f ( x )log f ( x )dx,

constatăm că această diferenţă indică cu cât nedeterminarea variabilei aleatoare X cu densitatea de repartiţie f(x) este mai mare (Hε(X) > 0) sau mai mică (Hε(X) < 0) decât nedeterminarea unei variabile aleatoare repartizată uniform pe un interval [a, b] de lungime ε = 1.
+∞

Prin definiţie, vom numi expresia Hε(X) = -

∫ f ( x) log f ( x)dx

entropia relativă a

−∞

variabilei aleatoare X. Să punem în evidenţă unele proprietăţi ale acestei entropii. Propoziţie. Entropia relativă este independentă de valorile efective ale variabilei aleatoare X. Demonstraţie. Este suficient să arătăm că variabila aleatoare Y = X – a, a ∈ R, are aceeaşi entropie relativă ca şi variabila aleatoare X. Într-adevăr,
H ε (Y ) = H ε ( X − a ) = − ∫ f ( x − a ) log f ( x − a )dx = −
−∞ ∞ −∞

∫ f ( x ) log f ( x )dx = H ε ( X )

Observaţie. Se constată imediat că proprietatea este adevărată şi pentru variabile aleatoare discrete. Propoziţie. Dacă f(x, y) şi g(x, y) sunt densităţi de repartiţie bidimensionale, atunci ∞ ∞ f ( x, y ) are loc inegalitatea: ∫ ∫ f ( x , y ) log dxdy ≥ 0 g( x, y ) −∞ −∞ 159

Demonstraţie. Să arătăm mai întâi că oricare ar fi funcţia u(x, y) > 0, are loc inegalitatea: ln u( x , y ) 1 ⎛ 1 ⎞ log 2 u( x , y ) = ≥ ⎜1 − ⎟ ln 2 ln 2 ⎝ u( x , y ) ⎠ 1 1 Într-adevăr, dacă u(x, y) ≥ 1 şi dacă t ∈ [1, u], atunci ≥ şi, de aici: t u 1 u dt 1 1 1 ln u = ∫ ≥ ∫ dt = ( u − 1) = 1 − t uu u u 1

1 1 Dacă u ∈ (0, 1), atunci − ≥ − oricare ar fi t ∈ [u, 1] şi deci: t u 1 1 dt 1 1 1 ln u = - ∫ ≥ − ∫ dt = − (1 − u ) = 1 − t uu u u u Deci, are loc, totdeauna, inegalitatea menţionată. Bazaţi pe această inegalitate, putem scrie: ∞ ∞ ∞ ∞ ∞ ∞ ⎛ g( x, y) ⎞ f ( x, y) 1 1 ∫ ∫ f ( x, y) log g( x, y) dxdy ≥ ln 2 −∞−∞f ( x, y)⎜1 − f ( x, y) ⎟ dxdy = ln 2 −∞−∞f ( x, y) dxdy ∫∫ ∫∫ ⎝ ⎠ −∞ −∞
1 ∫ ∫ g( x, y) dxdy = 0 , ln 2 −∞−∞ întrucât f(x, y) şi g(x, y) sunt densităţi de repartiţie bidimensionale. În plus, avem egalitate dacă f(x, y) = g(x, y) Propoziţie Dacă X şi Y sunt variabile aleatoare a căror entropie relativă compusă este Hε(X, Y), atunci are loc inegalitatea: Hε(X, Y) ≤ Hε(X) + Hε(Y). −
Demonstraţie Să exprimăm membrul al doilea şi să folosim inegalitatea dovedită anterior:
∞ ∞

H ε ( X )+H ε (Y ) = − ∫ f1 ( x ) log f1 ( x )dx −
−∞

−∞

∫f

2

( y ) log f 2 ( y )dy =
∞ ∞

= −∫

∞ ∞

−∞ −∞

f ( x, y )[ log f1 ( x ) + log f 2 ( y )] dxdy = - ∫

−∞ −∞

∫ f ( x, y )⎢log f ( y / x ) f ⎣

f ( x, y )

2

⎤ ( y )⎥ dxdy = ⎦

⎡ ⎤ ∞ ∞ ⎢ ⎡ f ( x, y ) ⎥ f ( y / x) ⎤ ⎥ dxdy = = - ∫ ∫ f ( x, y )⎢log ∫ −∞ f ( x, y )⎢log f ( x, y ) − log f 2 ( y ) )⎥ dxdy = ∫ f ( y / x) ⎥ ⎢ ⎣ ⎦ −∞ −∞ −∞ ⎢ f 2( y ) ⎥ ⎣ ⎦
∞ ∞

= Hε ( X , Y ) +

−∞ −∞

∫ ∫ f ( x, y ) log f ( x ) f ( y ) dxdy
1 2

∞ ∞

f ( x, y )

Cum integrala dublă din ultima egalitate obţinută este totdeauna pozitivă (pe baza proprietăţii anterioare) rezultă că: Hε(X, Y) ≤ Hε(X) + Hε(Y), adică tocmai inegalitatea menţionată.

160

Se constată imediat că relaţia este identică cu cea găsită pentru entropia unui experiment compus, cu un număr finit de rezultate. Aşadar, relaţia este adevărată pentru entropia oricărei variabile aleatoare discrete. Din această relaţie rezultă că şi în cazul discret avem egalitatea în cazul variabilelor aleatoare independente. Propoziţie Pentru orice vector aleator (X, Y) sunt adevărate egalităţile: Hε(X, Y) = Hε(X) + Hε(Y/X) = Hε(Y) + Hε(X/Y) Demonstraţie Din definiţia entropiei unui sistem de două variabile aleatoare (X, Y) rezultă:
Hε ( X , Y ) = − ∫
= −∫
∞ ∞

∞ ∞

−∞ −∞

∫ f ( x, y ) log f ( x, y )dxdy = ∫ ∫ f ( x, y ) log[ f ( x ) f ( y / x )]dxdy =
1 −∞ −∞
∞ ∞ −∞ −∞

∞ ∞

−∞ −∞

f ( x / y ) log f1 ( x )dxdy − ∫
∞ ∞

∫ f ( x, y ) log f ( y / x )dxdy = H ε ( X ) + H ε (Y / X ) ,
relativă condiţionată a

unde am pus H ε (Y / X ) = − ∫

−∞ −∞

∫ f ( x, y ) log f ( y / x )dxdy entropia

variabilei aleatoare Y. Analog se obţine şi cealaltă inegalitate. Să mai dăm o propoziţie care să stabilească o legătură între entropia relativă a două variabile aleatoare X şi Y. Propoziţie Dacă X este o variabilă aleatoare cu densitatea de repartiţie f(x), iar Y este o variabilă aleatoare a cărei repartiţie este caracterizată de densitatea: g ( y ) = c(x,y) este o funcţie pondere care satisface condiţiile: c(x, y) ≥ 0,
−∞ ∞ ∞ −∞

∫ c( x, y ) f ( x )dx ,

unde

∫ c( x, y )dx = ∫ c( x, y )dy = 1 , atunci: Hε(Y) - Hε(X) ≥ 0.
−∞

Demonstraţie Să exprimăm diferenţa celor două entropii relative: Hε(Y) - Hε(X) =
∞ ∞ −∞

f ( x ) log f ( x )dx −

−∞ −∞ ∞ ∞

∫ ∫ c( x, y ) f ( x ) log g( y )dxdy =

∞ ∞

f (x) c( x , y ) f ( x ) = ∫ ∫ c( x , y ) f ( x ) log dxdy = ∫ ∫ c( x , y ) f ( x ) log dxdy g( y ) c( x , y ) g ( y ) −∞ −∞ −∞ −∞ Întrucât a(x, y) = c(x, y) şi b(x, y) = c(x, y) g(y) sunt densităţi de repartiţie bidimensionale, pe baza unei propoziţii date anterior rezultă că: ∞ ∞ c( x , y ) f ( x ) ∫ −∞c( x, y ) f ( x ) log c( x, y ) g( y ) dxdy ≥ 0 ∫ −∞

şi deci Hε(Y) - Hε(X) ≥ 0. Pentru două experimente (deci şi pentru două variabile aleatoare discrete) s-a introdus noţiunea de cantitate de informaţie continuă în experimentul B relativ la experimentul A ca fiind dată de: I(A, B) = H(A) – H(A/B) . Dacă acum considerăm două variabile aleatoare X şi Y cu densitatea de repartiţie comună f(x, y), atunci definim cantitatea de informaţie conţinută în variabila aleatoare Y relativ la variabila aleatoare X ca diferenţa dintre entropia relativă Hε(X) şi entropia relativă 161

condiţionată Hε(X/Y). Notând cu I(X, Y) această cantitate de informaţie, atunci I(X, Y) = Hε(X) - Hε(X/Y). Această cantitate de informaţie se bucură de o proprietate importantă exprimată în propoziţia de mai jos. Propoziţie Dacă X, Y sunt două variabile aleatoare continue (care au densităţi de repartiţie) atunci, I(X, Y) = Hε(X) - Hε(X/Y) este independentă de ε. Demonstraţie
H ε ( X ) = − ∫ f1 ( x ) log f1 ( x )dx − log ε
−∞ ∞

Hε ( X / Y ) = − ∫

∞ ∞

−∞ −∞

∫ f ( x, y ) log f ( x / y )dxdy − log ε ,
∞ ∞ −∞ −∞

atunci:

I ( X , Y ) = − ∫ f1 ( x ) log f1 ( x )dx − log ε +
−∞ ∞ ∞ ∞ ∞

∫ ∫ f ( x, y ) log f ( x / y )dxdy + log ε =

f (x / y) f ( x, y ) dxdy = ∫ ∫ f ( x , y ) log dxdy ∫ −∞ ∫ f1 ( x ) f 2 ( y ) f1 ( x ) −∞ −∞ −∞ Se observă că relaţia este întrutotul analoagă cu cea obţinută pentru variabila aleatoare discretă şi, în plus faţă de entropia relativă, cantitatea de informaţie conţinută în Y relativ la X are un caracter absolut. Exemplu. Să se calculeze entropia relativă a unei variabile aleatoare exponenţial negative de parametru λ şi a unei variabile aleatoare normale N(0, σ). Soluţie Dacă X este variabilă aleatoare repartizată exponenţial negativ, atunci ⎧λe − λx , x ≥ 0, λ > 0 are densitatea: f ( x ) = ⎨ . , x<0 ⎩ 0 = f ( x , y ) log H ε ( X ) = − ∫ λe − λx log λe −λx dx = − λ log λ ∫ e − λx dx +
0 0 ∞ ∞

+ λ2 log e ∫ xe − λx dx = log
0

e

λ
y2

− 2 1 Y este normală N(0, σ) dacă are densitatea f ( y ) = e 2σ , y ∈ R σ 2π 2 2 y y ∞ ⎛ 1 − 2 − 2⎞ 1 2σ 2σ ⎟ ⎜ Atunci: H ε (Y ) = − ∫ e log⎜ e ⎟ dy = ⎠ ⎝ σ 2π −∞ σ 2π

− 2 − 2 1 1 1 2 =− log ∫ e 2σ dy + 2σ 3 2π log e−∞ y e 2σ dy = log 2πe σ ∫ σ 2π σ 2π −∞ Exemplu. Să se arate că dintre toate repartiţiile cu entropie dată, repartiţia normală N (o,σ) are cea mai mică dispersie. Soluţie. Să determinăm densitatea de repartiţie cu cea mai mică dispersie:

y2

y2

(

)

σ2 =

−∞

∫ x f ( x )dx ,
2 ∞ −∞

cu condiţiile:

H ε ( X ) = − ∫ f ( x ) log f ( x )dx şi

−∞

∫ f ( x )dx = 1 .
162

Alcătuim funcţia: φ ( f , x ) = x 2 f ( x ) − λ1 f ( x ) log f ( x ) + λ2 f ( x ) Euler (calculul variaţional):

şi, din ecuaţia lui

λ ∂φ = x 2 − λ1 log f ( x ) − 1 + λ2 = 0 obţinem: ∂f ln 2

⎛ x 2 ln 2 ⎞ f ( x ) = exp( λ2 ln 2 − λ1 ) exp⎜ ⎟ ⎝ λ1 ⎠

Substituind f(x) în H ε ( X ) = − ∫ f ( x ) log f ( x )dx
−∞

şi

−∞

∫ f ( x )dx = 1 , obţinem:

ln 2

λ1

= −π exp( 2 H ε ln 2 − 1) şi

exp( λ2 ln 2 − λ1 ) = exp( 2H ε ln 2 − 1 )
⎛ x2 ⎞ 1 exp⎜ − ⎟ ⎝ 2σ 2 ⎠ σ 2π

Determinând λ1 şi λ2 şi înlocuind în f(x) avem:
f ( x ) = exp( 2 H ε ln 2 − 1 exp[-π exp(2H ε ln 2 − 1) x 2 ] =

unde: σ =

(

2π exp( 2 H ε ln 2 − 1

)

−1

Exemplu. Să se determine cantitatea de informaţie I(X, Y) pentru vectorul aleator (X, Y) cu densitatea de repartiţie: ⎡ ⎛ x2 xy y2 ⎞ ⎤ 1 1 ⎜ 2 − 2ρ f ( x, y ) = exp ⎢− + 2 ⎟⎥ , 2) ⎜ σ xσ y σ y ⎟ ⎦ ⎠⎥ 2πσ xσ y 1 − ρ 2 ⎢ ⎣ 2(1 − ρ ⎝ σ x unde ρ este coeficientul de corelaţie al variabilelor X şi Y. ∞ ∞ f ( x, y ) Soluţie. I( X, Y ) = ∫ ∫ f ( x, y) log dxdy f1 ( x )f 2 ( y ) −∞ −∞ Înlocuindu-se în această relaţie f(x, y), f1(x), f2(x) (f1, f2 densităţile de repartiţie

marginale), se obţine: I(X, Y) = - log 1 − ρ 2

6.4. Transmiterea informaţiei. Codificarea Oricare ar fi natura unui mesaj, el nu poate fi transmis fără existenţa unui anumit purtător material al mesajului, care serveşte drept semnal de transmitere a informaţiei conţinute în mesajul respectiv. Semnalele purtătoare de informaţii sunt emise de o anumită sursă de semnale, se propagă printr-un anumit mediu, numit canal de comunicaţie şi ajung la destinaţie unde sunt recepţionate. Prin intermediul semnalelor recepţionate destinatarul ia cunoştinţă de informaţia transmisă. O particularitate esenţială a semnalului este independenţa informaţiei pe care o transmite faţă de energia consumată pentru producerea lui. Desigur, pentru emiterea semnalului este necesar un minim de energie, dar cantitatea de informaţie nu depinde de valoarea acestui minim. O ştire de importanţă capitală poate fi transmisă cu ajutorul unui semnal extrem de mic şi de slab. Numai conţinutul semnalului, şi nu energia lui, determină cantitatea de informaţie pe care o poartă.

163

Orice sistem de comunicaţie, de transmitere a informaţiei – indiferent de natura lui – se încadrează în schema generală de mai jos:

{X; x, p(x)}
S (sursă) X

C C (canal) P(Z/X) P (perturbaţii)

{Y; y,
Y

p(y)} R (recepţie)

H(X) = H(X/Y)

Informaţia se transmite cu ajutorul unor semnale, emise de o sursă. Semnalele se pot transforma prin codificare în alte semnale, a căror transmisie este mai avantajoasă; ele se propagă pe un canal de comunicaţie, în care pot suferi diferite perturbaţii (distorsionări) şi ajung la recepţie, unde cu ajutorul unui traducător se face decodificarea, obţinându-se în final, semnalele transmise iniţial, care poartă informaţia transmisă de sursă şi care a fost perturbată pe canal. Vom defini matematic un sistem de transmitere a informaţiei (în cazul finit). Definiţie. Numim sistem de transmitere a informaţiei sistemul format din două mulţimi finite X, Y şi o probabilitate p(y/x) definită pe Y pentru orice x ∈ X, pe care-l vom nota {X, p(y/x), Y}. Mulţimea X se numeşte mulţimea semnalelor care se emit; mulţimea Y se numeşte mulţimea semnalelor care se recepţionează; probabilitatea p(y/x) se numeşte probabilitatea de recepţionare condiţionată de ceea ce se emite. Definiţie. Fiind dată probabilitatea p(x) pentru fiecare x ∈ X, numită probabilitate de emisie, ∑ p( x ) = 1 , câmpul de probabilitate {X, x, p(x)} se numeşte sursa sistemului {X,
x ∈X

p(y/x), Y} de transmitere a informaţiei. Definiţie. Fiind date sistemul de transmitere a informaţiei sistemului {X, p(y/x), Y} şi probabilitatea p(x) pe X, se numeşte recepţia sistemului câmpul de probabilitate {Y, y, p(y)} unde probabilitatea p(y) de recepţionare a semnalelor y se obţine conform relaţiei: p( y ) = ∑ p( x ) p( y / x )
x ∈X

Definiţie. Mediul prin care se propagă semnalele de la sursă la recepţie se numeşte canalul sistemului de transmitere a informaţiei. A cunoaşte canalul de comunicaţie al unui sistem înseamnă a cunoaşte probabilităţile P(y/x) pentru toate semnalele x ∈ X, y ∈ Y. Dacă p(y/x) ia numai valorile 0 sau 1 pentru orice x ∈ X, y ∈ Y canalul prezintă perturbaţii. reprezintă cantitatea de P(Y/X) = (p(y/x))x∈X/y∈Y; H ( X ) = − ∑ p( x ) log p( x )
x ∈X

informaţie transmisă la sursă. H ( X / Y ) = − ∑ ∑ p( x , y ) log p( x / y )
x ∈X y ∈Y

reprezintă cantitatea de informaţie care se

pierde pe canal. H(X) – H(X/Y) reprezintă cantitatea de informaţie care se recepţionează. Din proprietăţile entropiei, rezultă: 0 ≤ H(X) – H(X/Y) ≤ H(X) Dacă H(X/Y) = 0 înseamnă că pe canal nu se pierde nimic din informaţia transmisă. Dacă H(X) = H(X/Y) înseamnă că pe canal perturbaţia este atât de puternică încât la recepţie nu se primeşte nici un fel de informaţie. În condiţii reale, în mod curent: 0 < H(X) – H)X/Y) < H(X).
164

Definiţie. Valoarea maximă a diferenţei H(X) – H(X/Y) pentru toate probabilităţile p la sursă o notăm cu C şi o vom numi capacitatea canalului de transmitere. C = max {H(X) – H(X/Y)}
p

Cantitatea H(X) – H(X/Y) reprezintă cantitatea de informaţie obţinută în medie la trecerea prin canal a unui semnal al sursei şi poartă numele de viteză de transmitere a informaţiei. Codificarea. În general, semnalele x ∈ X nu se transmit direct, ci codificat. Asocierea la un anumit sistem de semnale purtătoare de informaţie a unor succesiuni de alte semnale se numeşte codificare. Codificarea se realizează cu ajutorul unei mulţimi de semnale simple, mulţime cu nu prea multe elemente, care sunt înlănţuite în anumite succesiuni. În cazul telegrafului, în mod uzual se întrebuinţează două tipuri de codificare: codificarea Morse - codificare mai veche – şi codificarea Baudot. În general, codificarea înseamnă înlocuirea fiecărui semnal dintr-o anumită mulţime, printr-o succesiune de o anumită lungime, de semnale numite semnale simple. Semnalele simple pot fi chiar semnalele de la care am plecat. În acest caz, codificarea semnalelor dintr-o anumită mulţime, înseamnă înlocuirea fiecărui semnal printr-o succesiune, de o anumită lungime, de semnale din aceeaşi mulţime iniţială. O codificare este cu atât mai avantajoasă, cu cât sunt mai reduse atât numărul semnalelor simple care servesc la codificare, cât şi lungimea succesiunilor de semnale simple. În cazul în care se face codificarea, la recepţie trebuie să se efectueze decodificarea corespunzătoare. Necesitatea introducerii codificării, ţine în primul rând de natura concretă a sistemului de transmitere a informaţiei. Informaţia este purtată de un anumit tip de semnale, iar sistemului de transmitere îi sunt proprii alte tipuri de semnale şi ca atare este impusă realizarea unei corespondenţe între semnalele iniţiale şi semnalele care urmează a fi transmise. În al doilea rând, codificarea este impusă de prezenţa perturbaţiei pe canal, care diminuează cantitatea de informaţie transmisă, ceea ce impune codificarea. Vom considera o codificare în care drept semnale simple se consideră tot semnale din mulţimea X, un semnal x ∈ X înlocuindu-se printr-un şir de semnale tot din mulţimea X. Pentru a lămuri lucrurile, să considerăm un sistem de transmitere a informaţiei {X, p(y/x), Y}. Când transmitem un şir de semnale x ∈ X, recepţionăm un şir de semnale y ∈ Y. Să notăm cu U mulţimea tuturor şirurilor de lungime n formate cu semnale din X şi cu mulţimea tuturor şirurilor de lungime n formate cu semnale din Y. u∈ U ⇔ u = (x1, x2, …, xn), (x1, x2, …, xn) ∈ X x X x … x X; ν ∈ V ⇔ ν = (y1, y2, …, yn), (y1, y2, …, yn) ∈ Y x Y x … x Y Introducem o probabilitate p(v/u) definită pe V, condiţionată de elementele u ∈ U, în felul următor:
p( v / u) = π p( y j / x j ) ;
j =1 n

p(v/u) reprezintă probabilitatea ca să se recepţioneze

şirul de semnale v, dacă s-a emis şirul de semnale u; această probabilitate este complet determinată de p(y/x). Putem acum introduce următoarea definiţie. Definiţie. Fiind dat sistemul de transmitere a informaţiei {X, p(y/x), Y} se numeşte extensie de lungime n, sistemul {U, p(v/u), V} unde U reprezintă mulţimea tuturor şirurilor u, de lungime n de semnale x ∈ X, V reprezintă mulţimea tuturor şirurilor v, de lungime n, de semnale y ∈ Y, iar p(v/u) =

π p( y
j =1

n

j

/ xj)
165

Definiţie. Trecerea de la sistemul de transmitere a informaţiei {X, p(y/x), Y} la sistemul {U, p(v/u), V} se numeşte codificare. Definiţie. Legea potrivit căreia se asociază semnalelor x ∈ X şiruri u ∈ U se numeşte cod. Legătura între capacitatea sistemului {X, p(y/x), Y} şi capacitatea sistemului {U, p(v/u), V} este dată de: Teoremă. Fie {X, p(y/x), Y} un sistem de transmitere a informaţiei, al cărui canal are capacitatea C. Extensia de lungime n are capacitatea n C. Nu vom da demonstraţie acestei teoreme. Vom da schema sistemului de transmitere {U, p(v/u), V}:
⎫ ⎧n ⎨ x X j ; ( x1 ,..., x n ), p( x1 ,..., x n )⎬ ⎭ ⎩ j =1 S (sursă)

nC C (canal) P(v/u) P (perturbaţii)

⎫ ⎧n ⎨ x Y j ; ( y1 ,..., y n ), p( y1 ,..., y n )⎬ ⎭ ⎩ j =1 R (recepţie)

H(U) - H(U/V)

Codificarea realizată mai sus se face înlocuind fiecare semnal x ∈ X cu u = (x1, x2,…,xn) ∈ U. Dar, în general, fiecare semnal din x ∈ X se înlocuieşte cu o succesiune de o anumită lungime de semnale din A = {a1, a2, …, aa} pe care le numim semnale simple. Un mesaj codificat trebuie să fie decodificat, adică este necesar să se poată şti, atunci când se recepţionează un anumit şir lung de semnale simple, unde se termină subşirul corespunzător semnalului iniţial următor. O cale este aceea de a impune condiţia ca semnalelor iniţiale să li se ataşeze şiruri de semnale simple, care au aceeaşi lungime. În acest caz, cunoscându-se această lungime comună, decodificarea se face extrem de uşor, prin împărţirea şirului recepţionat în blocuri având o lungime egală cu lungimea dată. Aceste coduri se numesc uniforme. (Acest caz îl întâlnim în telegrafie, când se întrebuinţează codificarea Baudot). Sunt posibile şi codificări neuniforme, în care diversele şiruri de semnale simple care se ataşează semnalelor iniţiale au lungimi diferite. Pentru unele codificări neuniforme se cere, însă, ca nici un şir de semnale simple ataşat unui semnal iniţial să nu coincidă cu începutul unui alt şir mai lung de semnale simple, pentru a nu avea dificultăţi la decodificare. Dăm mai jos metoda lui Fano de codificare neuniformă, cu ajutorul a două semnale simple, A = {a1, a2,}, codificare care se numeşte binară (se poate pune a1 = 1, a2 = 0). Pentru a ataşa fiecărui semnal iniţial un şir de semnale simple se procedează astfel: Se ataşează mulţimea X = {x1, x2,…, xn} într-o coloană, în ordinea descrescătoare a probabilităţilor p(xi), 1 ≤ i ≤ N, de apariţie. Împărţim acum coloana de semnale în două grupe, grupa de sus şi grupa de jos, în aşa fel ca probabilitatea unui semnal iniţial de a aparţine la grupa de sus să fie foarte apropiată de probabilitatea ca acest semnal să aparţină grupei de jos. Pentru semnalele din grupa de sus folosim pe a1 ca prim semnal simplu, iar pentru semnalele din grupa de jos folosim pe a2 ca prim semnal simplu. Atât grupa de sus, cât şi cea de jos le împărţim, la rândul lor, în două subgrupe, având probabilităţile totale cât mai aproape între ele. Pentru subgrupa de sus folosim ca cel de al doilea semnal pe a1, iar pentru subgrupa de jos folosim pe a2 ca al doilea semnal simplu. Fiecare din aceste subgrupe se împarte din nou în alte două subgrupe, şi aşa mai departe, până când în fiecare grupă rămâne câte un singur
166

element, epuizând astfel semnalele iniţiale. Şirurile de semnale simple ataşate în acest mod semnalelor iniţiale realizează codificarea. Codificarea realizată în acest mod este neuniformă, iar şirurile de semnale simple ataşate semnalelor iniţiale, îndeplinesc condiţia de a nu cuprinde în ele nici un şir de lungime mai mică ataşat unui alt semnal iniţial. Să codificăm semnalele X = {x1, x2,…, x12} cu ajutorul cărora transmitem o cantitate de informaţii H(X). Fiecărui semnal iniţial îi corespunde o probabilitate bine determinată de întrebuinţare în transmiterea cantităţii de informaţie respective. Semnalele iniţiale, probabilităţile p(xi), 1 ≤ i ≤ 12, împărţirea pe grupe şi şirurile de codificare apar în tabelul de mai jos. S emnale iniţiale x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 Probabil. p(xi) 0,28 0,22 0,16 0,09 0,08 0,05 0,03 0,03 0,03 0,01 0,01 0,01 Împărţirile succesive pe grupe I I II I II II I II I I II I II I II II I II I II I II Şirurile de codificare a1 a 1 a1 a2 a2 a1 a1 a2 a1 a2 a2 a2 a1 a1 a2 a2 a1 a2 a2 a2 a2 a1 a1 a2 a2 a2 a1 a2 a2 a2 a2 a2 a1 a2 a2 a2 a2 a2 a1 a2 a2 a2 a2 a2 a1 a2 a2 a2 a2 a2 a2

6.5. Cantitatea de informaţie conţinută într-un model input-output şi variaţia ei prin agregare Să considerăm modelul dat de ecuaţiile de balanţă în expresie valorică: X i = ∑ x ij + f i , 1 ≤ i ≤ m,
j =1 m

unde xij sunt fluxurile interramuri, iar fi produsul final al ramurii i. Dacă luăm în considerare şi cadranul III în care apar elemente de valoare nou creată şi adăugată şi notăm cu ykj mărimea inputului k absorbit de ramura j, obţinem alte relaţii de balanţă: Xj =

∑x + ∑
i =1 ij k =1

m

m'

J k , 1 ≤ j ≤ m,

unde m’ este numărul inputurilor referitoare la cadranul III. Introducând coeficienţii x ij cheltuielilor directe aij = , 1 ≤ i, j ≤ m, primele relaţii de balanţă devin: Xj X i = ∑ a ij X j + f i , 1 ≤ i ≤ m, sau în scriere matriceală:
j =1 m

X = AX + f ; X = (I – A)-1 f Luând în considerare şi coeficienţii cheltuielilor directe referitoare la elementele cuprinse în cadranul III : y kj b ij = , 1 ≤ k ≤ m ' , 1 ≤ j ≤ m, din al doilea grup de relaţii de balanţă, obţinem: Xj
167

∑a + ∑b
ij i =1 k =1

m

m'

kj

= 1, 1 ≤ j ≤ m
m

Dacă punem: y k = ∑ y kj , 1 ≤ k ≤ m'
j =1

pentru cererea totală a tuturor ramurilor

din inputul k referitor la cadranul III, obţinem relaţia Y = BX. Vectorul Y se poate exprima acum cu ajutorul matricilor A, B şi a vectorului f, astfel: Y = B(I – A) –1 f În vederea efectuării de analize şi prognoze este necesară cunoaşterea coeficienţilor ce constituie elementele matricilor A şi B, cunoscuţi sub numele de coeficienţi input – output. Valenţele analizei informaţionale pe baza modelului input – output sunt valorificate integral la modelele macroeconomice, când intervine frecvent problema omogenităţii produselor. Dar, şi pentru astfel de situaţii, este necesar să agregăm unele ramuri, agregare care conduce la un model de dimensiune mai mică, adecvat unor analize eficiente şi rapide. Simplificând schema modelului de balanţă, obţinem: f ⎞ ⎛ U ⎜ ⎟ ⎜ ( mxm) ( mxn ) ⎟ , O ⎟ ⎜ V ⎜ ⎟ ⎝ ( m' xm) ( m' xn ) ⎠ unde matricea U (cadranul I) conţine fluxurile interramuri, f(cadranul II) conţine produsul final cu componentele sale (consum individual, consum social etc.), iar V(cadranul III) conţine amortizări, retribuţii etc. În condiţiile în care ne interesează doar relaţiile dintre ramuri, eliminăm produsul final şi păstrăm matricea: O ⎞ ⎛ U ⎜ ⎟ ⎜ ( mxm) ( mxm' ) ⎟ , O ⎟ ⎜ V ⎜ ⎟ ⎝ ( m' xm) ( m' xm' ) ⎠ care este o matrice pătratică de ordinul m+m’, asociată relaţiilor de balanţă:

∑x
j =1 m j =1

m

ij

= X i − fi , 1 ≤ i ≤ m
= y k , 1 ≤ k ≤ m'

∑y

kj

Dacă împărţim în ambii membri aceste m+m’ relaţii prin

∑X
h =1

m

h

, atunci toţi termenii

din membrul stâng vor lua valori între 0 şi 1 şi vom putea constitui cu ajutorul lor o repartiţie bidimensională. Vom nota astfel: x ij pij = m , 1 ≤ i, j ≤ m , fluxurile interramuri măsurate ca fracţiuni ale ∑ Xh
h =1

outputului (sau inputului) tuturor ramurilor, y kj p m+ k , j = m , 1 ≤ k ≤ m' , 1 ≤ j ≤ m ∑ Xh
h =1

inputurile corespunzătoare cadranului III, măsurate în fracţiuni de inputuri totale. Vom nota în plus: pij = 0, 1≤ i ≤ m+m’; m+1 ≤ j ≤ m+m’
168

Deoarece pij ≥ 0, 1 ≤ i, j ≤ m + m' º i

m+ m' m + m ' i=1 j =1

∑ ∑p

ij

= 1,

am definit astfel repartiţia unui vector aleator (φ1 , φ2 ) . Folosind membrul drept al relaţiilor de balanţă, se obţin repartiţiile marginale ale componentelor Φ1 şi Φ2: X − fi pi • = mi , 1 ≤ i ≤ m ∑ Xh
h =1

pm+ k ,• =

yk

∑X
h =1

m

, 1 ≤ k ≤ m' ,
h

care sunt, respectiv, cererea totală intermediară de produse din ramura i şi inputul k, corespunzător cadranului III, raportate la inputul total; ⎧ Xj , 1≤ j≤ m ⎪m ⎪ p•j = ⎨ ∑ X h ⎪ h =1 ⎪ 0, m + 1 ≤ j ≤ m + m' ⎩ Vom pune, pentru uniformitatea scrierii, m+m’ = n. Cu aceste relaţii, coeficienţii cheltuielilor directe se pot exprima prin: xij pij aij = = , 1 ≤ i, j ≤ m , Xj p• j
iar coeficienţii cheltuielilor directe referitoare la elementele din cadranul III. ykj pm+ k , j bkj = = , 1 ≤ k ≤ m'; 1 ≤ j ≤ m' Xj p• j În procesul de agregare să considerăm că cele m+m’ = n inputuri (outputuri) se comasează în M+M’ = G inputuri (outputuri), M< m, M’ < m’. Vom nota Sg mulţimea ramurilor iniţiale cuprinse în ramura g din tabelul agregat (1 ≤ g ≤ G). Fluxurile interramuri din tabelul agregat vor fi: x gh = ∑ ∑ x ij ,
i∈S g j ∈S h

iar coeficienţii cheltuielilor directe: ∑ ∑ xij a gh = unde: w j =
i∈S g j ∈S h

∑X
j ∈S h

=
j

i∈S g j ∈S h

∑ ∑a

ij

Xi = ∑ ∑ a ij w j , ∑ X j i∈S g j∈Sh
j ∈S h

∑X
j ∈S h

Xj

j

Deci, în general: wi =

j ∈ Sh

Xi , ∑Xj

i ∈ Sg ,

1≤g≤M

(ponderea ramurii i în outputul corespunzător grupului de ramuri Sh). În mod analog se procedează cu coeficienţii cheltuielilor directe corespunzători cadranului III: Transformând tabelul agregat pentru a obţine o repartiţie bidimensională, vom avea:

169

Pgh =

i∈S g j ∈S h G

∑∑p
h =1 G

ij

, 1 ≤ g, h ≤ G

Pg• = ∑ Pgh = P•h = ∑ Pgh =
g =1

i∈S g

∑p ∑p
j ∈S h

i•

, 1 ≤ g ≤ G , 1 ≤ h ≤ G

•j

acestea reprezentând, respectiv, fluxul de la Sg la Sh, fluxul total cu originea în Sg, fluxul total ce intră în Sh, toate exprimate în fracţiuni ale inputului (outputului) total. Să considerăm acum cantitatea de informaţie conţinută într-un model input-output, ce poate fi exprimată prin intermediul entropiei asociate repartiţiei bidimensionale. Fie I0 cantitatea de informaţie conţinută în tabelul input-output iniţial, definită prin intermediul entropiei asociate repartiţiei (pij)i,j ∈1, n n n pij I 0 = ∑ ∑ pij log pi• p• j i =1 j =1 După cum s-a demonstrat, avem: 0 ≤ I 0 ≤ log n 2 , cu semnificaţiile cunoscute pentru cazurile extreme. Fie IA informaţia conţinută în modelul agregat (Pgh) 1 ≤ g, h ≤ G : G G Pgh I A = ∑ ∑ Pgh log Pg• P•h g =1 k =1 Notând: γ gj = (fluxurile din ramura agregată Sg la ramurile individuale j, măsurate în fracţiuni de output agregat al ramurilor), Cih = ∑ pij , 1 ≤ h ≤ G, 1 ≤ i ≤ n (fluxurile de la ramura i la ramura agregată Sh, exprimate ca mai sus) se obţin imediat relaţiile:
j ∈S h i∈S g

∑p

ij

, 1 ≤ g ≤ G, 1 ≤ j ≤ n

∑γ
g =1 i∈S g

G

gj

= p• j ;

∑γ
j∈S h G h=1

gj

= Pgh = pi•
G G G

∑ Cih = Pgh ;
G h =1

∑C

ih

Se constată că ponderea de informaţie într-un proces de agregare este: I 0 − I A = ∑ P•h I •h + ∑ Pg• I g• + ∑ ∑ Pgh I gh
g =1 g =1 h =1

unde I.h este efectul coloană al ramurii agregate Sh: G P γ γ /P gh I •h = ∑ ∑ Pgj log pgj / Pgh g =1 P h j ∈S h gh • •j •h Ig. este efectul linie al ramurii agregate Sg: G P C /P C gh I g• = ∑ ∑ Pih log pih / Pgh , h =1 Pg • i∈S g gh i• g• iar Igh este efectul celular ce se referă la fluxurile componentelor ramurii agregate Sg la componentele ramurii agregate Sh: pij pij / Pgh I gh = ∑ ∑ log γ gj / Pgh Cih / Pgh i∈S g j ∈S h Pgh I.h, Ig., Igh pot fi interpretate ca informaţii medii ale mesajelor indirecte. Deoarece apar cu coeficienţi negativi în ecuaţia de descompunere a informaţiei, rezultă că I0 – IA ≥ 0 şi, deci, în procesul de agregare informaţia scade. 170

(

)(

)

Capitolul 7 ELEMENTE DE TEORIA SELECŢIEI ŞI ESTIMAŢIEI 7.1. Noţiuni generale
Orice cercetare statistică porneşte de la o colectivitate sau populaţie alcătuită din elemente sau indivizi care au o caracteristică generală şi care se diferenţiază prin anumite atribute. Elementele colectivităţii (populaţiei) le vom numi unităţi. În studiul colectivităţilor statistice, în majoritatea cazurilor suntem nevoiţi să studiem numai părţi din întreaga colectivitate. Ori, în acest caz, se pune în mod natural întrebarea dacă concluziile ce le obţinem concordă cu rezultatul ce l-am obţine dacă studiem întreaga populaţie. Apare astfel problema de a studia modul în care valorile tipice (pe baza cărora tragem concluzii) ale colectivităţii parţiale investigate pot furniza informaţii asupra valorilor tipice ale întregii colectivităţi. Vom presupune, în cele ce urmează, că urmărim o anumită caracteristică a colectivităţii generale şi că această caracteristică este descrisă de o variabilă aleatoare X definită pe un câmp de probabilitate {Ω, K, P}, în care elementele mulţimii Ω sunt tocmai elementele colectivităţii generale, K este un corp borelian de părţi ale lui Ω, iar P este o probabilitate pe K. După cum se ştie, dacă Ω este finită, atunci K coincide cu mulţimea părţilor lui Ω, iar P este o repartiţie discretă uniformă pe Ω. Faptul că suntem obligaţi să cercetăm numai o anumită parte din populaţie este impus de natura concretă a colectivităţii. Astfel, dacă numărul elementelor populaţiei este infinit, în mod necesar nu putem cerceta decât un număr finit şi deci obţinem o informaţie trunchiată. Dar, în cazul când numărul elementelor populaţiei este finit, atunci când cercetarea calităţii elementelor conduce la distrugerea lor, evident că se impune alegerea unui număr finit pentru cercetare. Dacă ţinem seama de faptul că orice investigare (cercetare) implică şi anumite cheltuieli, rezultă clar că suntem obligaţi să cercetăm numai o parte din populaţia totală. Vom numi selecţie (eşantion) o colectivitate parţială de elemente alese la întâmplare. Numărul elementelor dintr-o selecţie îl vom numi volumul selecţiei. Spunem că o selecţie este repetată, dacă elementul ales la întâmplare este reintrodus în colectivitatea generală înaintea efectuării următoarei alegeri. Selecţia este nerepetată dacă, elementele alese nu se mai introduc în colectivitatea generală. Să efectuăm deci o selecţie de volum n dintr-o colectivitate C şi să notăm cu x1, x2, …, xn valorile de observaţie. Acestea se referă la valorile unei variabile aleatoare X care dă legitatea caracteristicii studiate. Considerate aposteriori, valorile de selecţie x1, x2, …, xn sunt valori bine determinate ale variabilei aleatoare X. Privite apriori, valorile X1, X2, …, Xn pot fi considerate ca variabile aleatoare independente, identic repartizate cu variabila X, în cazul unei selecţii repetate. Dacă selecţia este nerepetată, atunci variabilele X1, X2, …, Xn sunt dependente, dependenţa fiind de tipul lanţurilor cu legături complete. Dacă volumul colectivităţii generale este suficient de mare iar volumul selecţiei este suficient de mic, deosebirea dintre o selecţie repetată şi una nerepetată este nesemnificativă şi, ca atare, în aplicaţiile practice o selecţie nerepetată se tratează după metodele selecţiei repetate. 171

Orice funcţie de datele de selecţie o vom numi funcţie de selecţie sau statistică. Să considerăm acum o selecţie de volum n: X1, X2, …, Xn şi să dispunem în ordine nedescrescătoare aceste date: X(1) ≤ X(2) ≤ … ≤ X(n) , unde X(1) = min {X1, X2, …, Xn}. X(n) = max {X1, X2, …, Xn}. Mulţimea {X(1), X(2), …, X(n)}, constituie o statistică a ordinei. Pornind de la selecţia considerată, putem defini imediat amplitudinea de selecţie. W ( X1 , X 2 ,..., X m ) = X ( m ) − X (1) , care este evident o statistică (o funcţie de selecţie). Un rol deosebit de important îl are în statistica matematică funcţia empirică de repartiţie, care se defineşte astfel: n Fn ( x ) = x , x ∈ R , unde n este volumul selecţiei, iar nx este numărul valorilor de n selecţie mai mici decât x. Funcţiei F(x) = P(ω: X(ω) < x) îi vom spune funcţie teoretică de repartiţie. Noi vom considera numai selecţii repetate. Justificarea teoretică a metodei selecţiei apare în mod natural din teorema lui V.I.Glivenko, cunoscută sub numele de teorema fundamentală a statisticii matematice. Teorema lui Glivenko

Dacă F(x) este funcţie teoretică de repartiţie, iar Fn(x) funcţia empirică de repartiţie, atunci: P⎛ lim sup Fn ( x ) − F( x ) = 0⎞ = 1 ⎜ ⎟ ⎝ n→∞ x∈R ⎠ Teorema lui A.N.Kolmogorov oferă posibilitatea de a evalua distanţa dintre Fn(x) şi F(x). Teoremă. Dacă F(x) este o funcţie continuă, atunci: ∞ λ ⎞ ⎛ k − k 2 λ2 lim P⎜ sup Fn ( x ) − F( x ) ≤ , cuλ > 0 ⎟ = K( λ ) = ∑ ( −1) e n →∞ ⎝ −∞< x <∞ n⎠ −∞ 7.2. Momente de selecţie Dacă este dată selecţia de volum n: X1, X2, …, Xn , atunci vom numi momentul de selecţie de ordinul r şi-l vom nota M r , variabila aleatoare:
Mr =

1 n r ∑ Xj n j =1 1 n ∑ Xj n j =1

Pentru r = 1, obţinem media de selecţie: M1 = x =

Să considerăm media şi dispersia variabilei aleatoare M r :

⎛1 n ⎞ 1 n M ( M r ) = M ⎜ ∑ X rj ⎟ = ∑ M ( X rj ) = M r ( X ) ⎝ n j =1 ⎠ n j =1

172

2 2 ⎡⎛ 1 n ⎞ ⎤ ⎡ ⎛ 1 n r ⎞⎤ D 2 ( M r ) = M 2 ( M r ) − M 2 ( M r ) = M ⎢⎜ ∑ X r ⎟ ⎥ − ⎢ M ⎜ ∑ X j ⎟⎥ = j ⎢ ⎥ ⎣⎝ n j =1 ⎠ ⎦ ⎣ ⎝ n j =1 ⎠⎦

= =

1 n2 1 n2

1 1 ∑ M( X ) + n ∑ M( X ) M( X ) − n ∑ M
n n j =1 n 2r j 2 j pk 2 r j r k 2 j =1

2

(X j) −

1 n2

∑ M( X ) M( X ) =
j pk r j r k

∑[ M ( X ) − M ( X ) ] = n [ M
j =1 2 r j r j

1

2r

( X ) − M r2 ( X )]

Aplicând acum inegalitatea lui Cebâşev, obţinem: M 2 r ( X ) − M r2 ( X ) P Mr − Mr ( X ) < ε ≥ 1 , de unde urmează că: nε 2

(

)

justifică înlocuirea în aplicaţii a momentelor teoretice de ordinul r, când acestea există, cu momentele empirice de ordinul r, dacă n este suficient de mare.
Momentele centrate de selecţie, µr

n →∞

lim P M r − M r ( X ) < ε = 1, ceea ce ne conduce la:

(

)

M r n → ∞ M r ( X ) , fapt care

P

1 n ∑ ( x j − x )r n j =1 Pentru r = 2 se obţine dispersia de selecţie necorectată: Prin definiţie: µr =

µ2 = σ 2 =

1 n ∑ ( x j − x )2 n j=1

Ca şi în cazul momentelor teoretice, putem exprima momentele centrate de selecţie cu ajutorul momentelor obişnuite de selecţie şi invers: r ⎛1 n ⎞ 1 n r µ r = ∑ ∑ ( −1) h C h X rj− h X h = ∑ ( −1) h C h X h ⎜ ∑ X rj− h ⎟ , r r n j=1 h =0 ⎝ n j=1 ⎠ h =0

deci µ r = ∑ ( −1) h C h X h M r − h r
h =0

r

r( r − 1) 2 X µ r − 2 +... , r ∈ N * 2 Ne propunem acum să determinăm repartiţia asimptotică a mediei de selecţie X . Teoremă. Dacă se efectuează o selecţie de volum n: X1, X2,…, Xn, dintr-o colectivitate caracterizată de variabila aleatoare X pentru care există M(X) = m, M[(X – m)2] = σ2 ≠ 0, B x−m Y ∈ N(0,1) σ / n n→∞ Xj Demonstraţie: Să notăm Y j = , 1 ≤ j ≤ n n n ⎛ Xj⎞ m Atunci: x = ∑ Y j si M(Y j ) = m j = M ⎜ ⎟= ⎝ n ⎠ n j =1 şi M r = µ r + rxµ r −1 +
173

⎡⎛ X j − m ⎞ 2 ⎤ σ 2 M Y j − m j = σ = M ⎢⎜ ⎟ ⎥= 2 ⎢⎝ n ⎠ ⎥ n ⎦ ⎣ 3 ⎛ X −m ⎞ 3 3 j ⎟ =θ , 1 ≤ j ≤ n M Yj − m j = θ 3 = M ⎜ j ⎜ n3 ⎟ n3 ⎝ ⎠ Să considerăm condiţiile lui Leapunov:
2 2 j

[(
(

)]

)

2 n →∞ ⎛ σ ⎞ ⎛ n 2⎞ ⎜∑σ j ⎟ ⎜ ⎟ ⎝ n⎠ ⎝ j=1 ⎠ Fiind îndeplinită condiţia lui Leapunov, rezultă conform teoremei: x 2 1 ⎛ x−m ⎞ < x⎟ = P⎜ e − z / 2 dz lim ⎝ ∫ ⎠ σ/ n 2π −∞ n →∞ În mod analog, rezultă: Teoremă: Dacă există valorile medii M(Xr) = Mr(X); M(X2r) = M2r(X) şi n →∞

lim

⎛ n 3⎞ ⎜∑θj ⎟ ⎝ j= 2 ⎠

1/ 3

1/ 2

= lim

⎛θ3 ⎞ ⎜ 2⎟ ⎝n ⎠

1/ 3

1/ 2

= lim

θ 1 ⋅ 1/ 6 = 0 n n →∞ σ

M Mr − Mr ( X )

(

3

) , atunci ⎡ M
⎢ ⎣

M r − Mr ( X )
2r

( X ) − M r2 ( X ) ⎤ ⎥ n ⎦

1/ 2

B Y ∈ N(0,1) n→∞

Pornind de la relaţiile: µ1 = 0
2 µ2 = M 2 − M 1 3 µ3 = M 3 − M 2 M 1 + 2 M 1 4 4 µ4 = M 4 − 4M 3 M 1 + 6M 2 M 1 − 3M 1

obţinem: M ( µ1 ) = 0
M ( µ2 ) = M ( M 2 ) − M ( M12 ) = n −1 µ2 ( X ) n

( n − 1)( n − 2) µ3 ( X ) n2 M ( µ4 ) = M ( M 4 ) − 4 M ( M 3 M1 ) + 6 M ( M 2 M12 ) − 3 M ( M14 ) = M ( µ3 ) = M ( M 3 ) − 3 M ( M 2 M1 ) + 2 M ( M13 ) = = ( n − 1)( n 2 − 3n + 3) 3( n − 1)( 2n − 3) 2 µ4 ( X ) + µ2 ( X ) 2 n n3

Aceste rezultate au loc oricare ar fi repartiţia variabilei aleatoare X, ce caracterizează colectivitatea din care s-a efectuat selecţia. Cu ajutorul momentelor de selecţie putem pune în evidenţă şi alţi indicatori de selecţie, ca: asimetria, excesul, coeficientul de corelaţie, calculate pe baza datelor de selecţie. Astfel, asimetria de selecţie:

γ1 =

µ3 µ23/ 2

174

Excesul de selecţie:

γ2 =

µ4 −3 µ22

Coeficientul de corelaţie de selecţie (empiric): 1 n ∑ X j − X Yj − Y n j =1 ρ= n 2 1 2 1 n X j − X ⋅ ∑ Yj − Y ∑ n j =1 n j =1

(

)(

)

(

)

(

)

7.3. Selecţia dintr-o populaţie normală N(m, σ) În multe situaţii, ne interesează repartiţia exactă a diverselor statistici, Tn(X1, X2, …,Xn), chiar când n este mic. Toate rezultatele obţinute anterior rămân valabile, inclusiv cele referitoare la repartiţie asimptotică a unor funcţii de selecţie normate convenabil. Vom presupune acum că populaţiile din care se efectuează selecţiile sunt normale N(m, σ) şi, în aceste condiţii, vom căuta să stabilim repartiţiile exacte ale celor mai importante funcţii de selecţie ce intervin curent în aplicaţiile practice. Cel mai frecvent caz întâlnit în practică este cel al erorilor de observaţie ale măsurătorilor, care, după cum se ştie, sunt repartizate după o lege normală. Teoremă. Dacă X1, X2, …,Xn este o selecţie de volum n dintr-o populaţie caracterizată 1 n de o variabilă aleatoare X ∈ N(m, σ), atunci media de selecţie X = ∑ X j are o lege de n j =1 repartiţie σ ⎞ ⎛ N ⎜ m, ⎟ ⎝ n⎠ Demonstraţie. Cum Xj ∈ N(m, σ), 1 ≤ j ≤ n, rezultă că:

ϕ Xj ( t ) = e
Atunci:

itm−

t 2σ 2 2

n ⎛ it 1 ∑ X j ⎞ t t 2σ 2 t 2σ 2 ⎛ n it Xj ⎞ n ⎛ t ⎞ n i n m− 2 n 2 itm − n j =1 itX 2n n ⎟ = M ⎜Π e =e ϕ X (t ) = M (e ) = M ⎜ e , ⎟ = Πϕ X j ⎜ ⎟ = Π e ⎜ ⎟ ⎝ n ⎠ j =1 ⎠ j =1 ⎝ j =1 ⎝ ⎠

σ ⎞ ⎛ care este funcţia caracteristică a unei variabile aleatoare normale N ⎜ m, ⎟ ⎝ n⎠ Urmează că densitatea de repartiţie a variabilei X este:
n − 2⎜ fX (x) = e ⎝ σ 2π
n ⎛ x− m ⎞ ⎟ σ ⎠
2

,

x ∈R

Să arătăm că variabila abatere normată Z =

X −m este repartizată normal N(0; 1). σ/ n
n X

Într-adevăr:

ϕ Z (t ) = M (e
−i t

itZ

)

⎛ it = M⎜e ⎜ ⎝

n

X −m

σ

⎛ − it n m i t ⎞ ⎟ = M⎜e σ ⋅ e σ ⎟ ⎜ ⎠ ⎝
2 2 2

⎞ ⎟= ⎟ ⎠

t t t nσ t −i nm i nm− ⎛t n⎞ σ 2σ 2 n ⋅e σ =e 2, =e ⋅ϕX ⎜ ⎟ =e ⎝ σ ⎠ care este funcţia caracteristică a unei variabile normale N(0; 1).

σ

nm

175

Deci densitatea de repartiţie a variabilei Z =
z2

X −m este: σ/ n

1 −2 f Z ( z) = e , z ∈R 2π Teoremă. Dacă X1, X2, …,Xn este o selecţie de volum n, dintr-o populaţie normală N(m, σ), atunci X şi µ2 sunt variabile aleatoare independente. Demonstraţie. Putem presupune că m = 0, întrucât momentul de selecţie µ2 este invariabil la o schimbare a originii. 2 1 n Întrucât: µ2 = ∑ ( X k − X ) , n k =1 să exprimăm:

∑(X
k =1

n

k

− X)

2

⎞ 1⎛ n = ∑ X − 2 X ∑ X k + nX = ∑ X − ⎜ ∑ X k ⎟ n ⎝ k =1 ⎠ k =1 k =1 k =1
n

2 k

n

2

n

2

2 k

Însă:
n n ⎛ ⎞ ⎛ ⎞ Xk ⎟ 2 ⎜ ⎜ ∑ ∑ Xk ⎟ n n ⎞ 1⎛ n −1 n−2 = = ∑ X k2 − n ⎜ ∑ X k ⎟ = n ⎜ X1 − kn2− 1 ⎟ + n − 1 ⎜ X 2 − kn3− 2 ⎟ + ⎜ ⎟ ⎜ ⎟ ⎝ k =1 ⎠ k =1 ⎜ ⎟ ⎜ ⎟ ⎝ ⎠ ⎝ ⎠ 2 2

+...+

1 ( X n−1 − X n )2 2
n n ⎛ ⎞ ⎛ ⎞ Xk ⎟ ⎜ ⎜ ∑ ∑ Xk ⎟ n − 1⎜ ⎟ +...+ 1 ( X n − X n ) 2 ⎟ + n − 2 ⎜ X 2 − k =3 = X1 − k =2 −1 n ⎜ n −1 ⎟ n −1 ⎜ n−2 ⎟ n ⎜ ⎟ ⎜ ⎟ ⎝ ⎠ ⎝ ⎠ 2 2

Deci:

∑(X
k =1

n

k

− X)

2

Urmează că:
n n ⎛ ⎞ ⎛ ⎞ Xk ⎟ 2 ⎜ ⎜ ∑ ∑ Xk ⎟ n n ⎞ n −1 1⎛ 1 n−2 2 = = ∑ X k2 = n ⎜ ∑ X k ⎟ + n ⎜ X1 − kn2− 1 ⎟ + n − 1 ⎜ X 2 − kn3− 2 ⎟ +...+ 2 ( X n−1 − X n ) ⎜ ⎟ ⎜ ⎟ ⎝ k =1 ⎠ k =1 ⎜ ⎟ ⎜ ⎟ ⎝ ⎠ ⎝ ⎠ 2 2

În membrul doi al acestei egalităţi avem o sumă de n forme pătratice pozitiv definite, fiecare având rangul egal cu unu. Deoarece suma rangurilor acestor forme pătratice pozitiv definite este egală cu n, iar variabilele Xk ∈ N(0, σ) , 1 ≤ k ≤ n, din teorema lui Cochran (pe care nu o vom demonstra)* rezultă că variabilele:

* Teorema lui Cochran. Fie X1, X2, …, Xn variabile aleatoare independente, repartizate normal N(0, σ) şi Q1, Q2, …, QS , forme pătratice în X1, X2, …, Xn având rangul k1, k2, … , kS , respectiv. Dacă:

∑ Q j = ∑ X k2 , atunci
j =1 k =1

S

n

condiţia necesară şi suficientă ca variabilele Q1, Q2, …, QS să fie independente este ca k1+ k2 +… + kS = n.

176

Y1 =

n ⎛ ⎞ ⎜ ∑ Xk ⎟ n − 1⎜ ⎟ X1 − k = 2 n ⎜ n −1 ⎟ ⎜ ⎟ ⎝ ⎠ n ⎛ ⎞ ⎜ ∑ Xk ⎟ n − 2⎜ X 2 − k =3 ⎟ n −1 ⎜ n−2 ⎟ ⎜ ⎟ ⎝ ⎠

Y2 =

................................................... 1 Yn −1 = ( X n −1 − X n ) 2 1 n Yn = ∑ Xk n k =1 sunt independente. 1 n−1 Se constată imediat că: µ2 = ∑ Yk2 şi, prin urmare, rezultă că X şi µ2 sunt n k =1 independente.
Teoremă. Variabila aleatoare nµ2 are o repartiţie χ 2 cu n – 1 grade de libertate şi parametrul σ, adică are densitatea de repartiţie: , x ≤ 0 0 ⎧ x n −1 ⎪ − n −1 −1 1 f ( x) = ⎨ , x > 0 x 2 e 2σ n-1 n −1 ⎛ n −1 ⎞ ⎪ 2 σ Γ⎜ 2 ⎟ ⎝ ⎠ ⎩2 nµ Variabila aleatoare 22 are o repartiţie cu n – 1 grade de libertate şi parametrul σ = 1.

σ Variabila aleatoare σ = µ2 are densitatea de repartiţie:

0 , x ≤ 0 ⎧ n-1 ⎪ nx 2 ⎪ − 2 f ( x ) = ⎨ 2n 2 n −2 2σ , x > 0 x e ⎪ n-1σ n −1Γ ⎛ n −1⎞ ⎜ ⎟ ⎝ 2 ⎠ ⎪2 2 ⎩ n −1 Y 2 + Y22 +...+Yn2−1 rezultă: nµ2 = ∑ Yk2 , unde Y1, Y2,…, Yn-1 Demonstraţie. Din µ2 = 1 n k =1 sunt variabile aleatoare independente, repartizate normal, de parametri M(Yk) = 0; D2(Yk) = σ2. Deci nµ2 urmează o lege de repartiţie X 2 cu n – 1 grade de libertate şi parametru σ. De asemenea: 2 nµ2 n −1 ⎛ Yk ⎞ = ∑⎜ ⎟ ⎝ ⎠ σ2 k =1 σ ⎛Y ⎞ ⎛Y ⎞ M ⎜ k ⎟ = 0; D 2 ⎜ k ⎟ = 1 ⎝σ⎠ ⎝σ⎠ şi, deci, variabila aleatoare nµ2 /σ2 urmează o lege de repartiţie a cărei densitate este:

177

, x ≤ 0 0 ⎧ n −1 x ⎪ −1 − 1 f ( x) = ⎨ x 2 e 2 , x > 0 n-1 ⎛ n −1 ⎞ ⎪ 2 Γ⎜ 2 ⎟ ⎝ ⎠ ⎩2 Pentru a obţine densitatea de repartiţie a variabilei σ = µ2 , pornim de la funcţia de repartiţie: 0 , x≤ 0 ⎧ P(σ < x ) = ⎨ = 2 P nµ2 < nx , x > 0 ⎩

(

)

0 , x≤ 0 ⎧ y nx 2 n −3 ⎪ − 2 1 ⎪ = ⎨ n −1 ∫ y 2 e 2σ dy , x > 0 ⎪ 2 2 σ n −1Γ ⎛ n − 1⎞ 0 ⎜ ⎟ ⎝ 2 ⎠ ⎪ ⎩ Derivând, obţinem: 0 , x≤ 0 ⎧ n-1 ⎪ 2 nx 2 − 2 ⎪ fσ ( x ) = ⎨ n-1 2n x n − 2 e 2σ , x > 0 ⎪ 2 2 σ n −1Γ ⎛ n − 1⎞ ⎜ ⎟ ⎪ ⎝ 2 ⎠ ⎩

1 n 2 ∑ ( X k − m) , unde X1, X2, …, Xn este o selecţie de n k =1 volum n dintr-o colectivitate normală N(m, σ). Atunci: 2 n nσ *2 ⎛ x k − m⎞ = ∑⎜ ⎟ ⎝ σ ⎠ σ2 k =1 X −m În membrul al doilea avem o sumă de pătrate de variabile Yk = k independente, Să considerăm acum σ *2 =

σ

repartizate normal N(0, 1). Deci, variabila aleatoare

cu parametrul σ = 1 Să considerăm acum variabila aleatoare: 2 1 n s2 = ∑ ( X k − X ) pe care o numim dispersia de selecţie corectată. n − 1 k =1 Întrucât:

σ

2 * 2

urmează o lege de repartiţie χ (2n )

∑ ( X k − X ) = ∑ ( X k − m) − ( X − m) = ∑ ( X k − m) − 2( X − m)∑ ( X k − m) +
2 2 2 k =1 k =1 k =1 k =1

n

n

[

]

n

n

+ n( X − m) = ∑ ( X k − m) − n( X − m)
2 2 k =1

n

2

rezultă că: ( n − 1)s 2

σ2
n

⎛ X − m⎞ ⎛ X − m⎞ = ∑⎜ k ⎟ −⎜ ⎟ ⎝ σ ⎠ ⎝σ / n⎠ k =1
n 2

2

2

⎛ X − m⎞ Dar, ∑ ⎜ k ⎟ ⎝ σ ⎠ k =1 independentă de χ (2n ) .

este o variabilă χ

2 (n)

⎛ X − m⎞ iar ⎜ ⎟ ⎝σ / n⎠

2 2 este o variabilă χ (1)

178

Rezultă că

( n − 1)s 2

σ2

urmează o lege de repartiţie χ (2n−1) cu parametrul σ = 1

Am văzut că M ( χ (2n ) ) = n; D 2 ( χ (2n ) ) = 2 n când parametrul σ este 1. ⎛ nµ ⎞ Atunci M ⎜ 22 ⎟ = n − 1 , de unde rezultă: ⎝σ ⎠
n −1 2 n2 2 2 ⎛ nµ 2 ⎞ M ( µ2 ) = σ ; D ⎜ 2 ⎟ = 2( n − 1); D ( µ2 ) = 2( n − 1) şi deci: ⎝σ ⎠ n σ4

2( n − 1)σ 4 n2 În acelaşi timp: ⎛ ( n − 1)s 2 ⎞ 2 2 M⎜ ⎟ = n − 1 , care conduce la: M(s ) = σ 2 ⎝ σ ⎠ D 2 ( µ2 ) =
⎛ ( n − 1)s 2 ⎞ D2 ⎜ ⎟ = 2( n − 1), ⎝ σ2 ⎠

adică D 2 ( s 2 ) =

2σ 4 n −1

x−m (n - 1)s 2 ∈ N ( 0,1), iar = χ (2n −1) σ2 σ/ n Urmează că: x−m x−m σ / n = σ / n = x − m are o lege de repartiţie Student cu n – 1 grade de s/ n χ (2n −1) ( n − 1)s 2

Întrucât

n −1

( n − 1)σ 2

libertate. Să presupunem că dispunem de două colectivităţi, C1 şi C2, caracterizate de o variabilă aleatoare X1 ∈ N(m1, T1) respectiv X2 ∈ N(m2, T2), X1 şi X2 independente. Din colectivitatea C1 se efectuează o selecţie de volum n1: X11, X12, …, X 1n1 , iar din colectivitatea C2 se efectuează o selecţie de volum n2: X21, X22, …, X 2 n2 . Pe baza acestor selecţii, obţinem mediile de selecţie X 1 şi X 2 , dispersiile de selecţie:

s12 =

1 n1 ∑ X1 j − x1 n1 − 1 j =1

(

)

2

2 , respectiv s2 =

1 n2 2 ∑ ( X 2k − x2 ) . n2 − 1 k =1

Variabila aleatoare X 1 ± X 2 urmează o lege normală: ⎛ σ2 σ2 ⎞ N ⎜ m1 ± m 2 , 1 + 2 ⎟ . De aici rezultă că: ⎜ n1 n 2 ⎟ ⎝ ⎠ x1 ± x 2 − ( m1 ± m2 ) ∈ N ( 0,1)

σ 12
n1

+

2 σ2

Evident că: M ( X1 ± X 2 ) = m1 ± m 2

n2

D 2 ( X1 ± X 2 ) = D 2 ( X1 ) + D 2 ( X 2 ) =

σ 12
n1

+

2 σ2

n2
1

2 Dacă σ 12 = σ 2 = σ 2 , atunci variabila aleatoare

σ2

[( n − 1)s
1

2 1

2 + ( n2 − 1)s2

]

are o

repartiţie χ 2 cu n1 + n2 – 2 grade de libertate.
179

Rezultă că variabila aleatoare: ( X1 ± X 2 ) − ( m1 ± m2 )

σ 12
n2

+

2 σ2

n2

2 2 ( n1 − 1)s12 + ( n2 − 1)s2 ( n1 − 1)s12 + ( n2 − 1)s2 n1 + n2 − 2 ( n1 + n2 − 2)σ 2 urmează o lege de repartiţie Student cu n1 + n2 – 2 grade de libertate. În virtutea teoremei conform căreia dacă variabilele χ (2γ 1 ) , χ (2γ 2 ) sunt independente,

=

(X

1

± X 2 ) − ( m1 ± m2 )

n1 n2 n1 + n2

atunci variabilele aleatoare χ (2γ 1 ) / γ 1: χ (2γ 2 ) / γ 2 urmează o lege de repartiţie Snedecor cu γ1, γ2 grade de libertate, respectiv, rezultă că variabila: ( n1 − 1)s12 s2 ( n − 1)σ 2 Fn1 −1; n2 −1 = 1 = 12 2 ( n2 − 1)s2 s2 2 ( n2 − 1)σ are o lege de repartiţie Snedecor (este o variabilă Fn1 −1; n2 −1 cu n1-1, n2-1 grade de libertate respectiv. În aplicaţiile practice trebuie să se ţină seama de faptul că tabelele pentru repartiţia Snedecor se construiesc pentru valori ale variabilei Fn1 −1; n2 −1 mai mari decât unu.
2 Ca atare este necesar să luăm la numărător s1 > s 2 şi, totodată, să avem grijă să nu 2 inversăm ordinea gradelor de libertate. Inversiunea ordinei gradelor de libertate este echivalentă cu: 2 s2 1 1 Fn1 −1; n2 −1 = 2 = 2 = s1 s1 Fn1 −1; n2 −1 2 s12 ceea ce justifică de ce s-au construit tabele numai pentru Fν1 ,ν2 > 1 .

7.4. Elemente de teoria estimaţiei În toate aplicaţiile statisticii matematice, în economie, în tehnică şi, în general, în ştiinţele experimentale este necesar să cunoaştem legitatea după care are loc evoluţia fenomenului studiat, adică legea de repartiţie a variabilei aleatoare prin intermediul căreia este cuantificată caracteristica studiată a fenomenului. Adesea, cunoştinţele teoretice sau experienţa practică în domeniul investigat ne dau dreptul să admitem că forma legii de repartiţie este cunoscută. Pentru a utiliza efectiv o astfel de lege de repartiţie, va trebui cunoscută care dintre funcţiile de repartiţie din familia celor de o formă dată este cea care trebuie efectiv utilizată. Cu alte cuvinte, trebuie precizată valoarea numerică a parametrului (sau valorile numerice ale parametrilor, în cazul unei legi de repartiţie ce depinde de mai mulţi parametri). Pentru a înţelege mai bine cum stau lucrurile, să dăm unele exemple. Dacă variabila aleatoare X reprezintă numărul de apeluri la o centrală telefonică întrun interval de timp determinat, ales ca unitate, atunci X are o lege de repartiţie Poisson: ⎞ ⎛ x x ⎟ X: ⎜ − a a ⎜e ⋅ , x = 0, 1, 2, ...⎟ ⎠ ⎝ x! ax adică P( X = x; a ) = e ⋅ , pentru x = 0, 1, 2, ...; a > 0 şi avem o lege de repartiţie ce x! depinde de parametrul a > 0. 180
−a

În cadrul unui proces de producţie, o caracteristică importantă o constituie procentul p de rebut. Dacă X este variabila aleatoare ce dă numărul de produse necorespunzătoare ce se obţin într-o selecţie repetată de volum n, atunci: P( X = x; p) = Cnx p x (1 − p ) n− x , x = 0, 1, 2, ..., n Să considerăm un alt exemplu, cu o variabilă aleatoare care admite o densitate de repartiţie. Fie T o variabilă aleatoare ce reprezintă durata de funcţionare fără căderi a unei anumite componente. În multe situaţii, variabila T este caracterizată de densitatea de repartiţie: ⎧ 1 − θt ⎪ f T ( t ; θ ) = ⎨θ e , t > 0 ⎪ 0 , t≤0 θ >0 ⎩ Este vorba, iarăşi, de o lege de repartiţie – de formă exponenţială cu un singur parametru θ > 0 . În fine, dacă X reprezintă abaterile unei piese prelucrate de la cota nominală menţionată în fişa tehnologică, atunci X urmează o lege normală N(m, σ) a cărei densitate este:
− 1 2 f ( x; m, σ ) = e 2σ , x ∈ R , σ 2π care este o lege de repartiţie cu doi parametri (m, σ) ∈ Rx(0, ∞). În toate aceste exemple s-a specificat forma, fără a se preciza care anume repartiţie este – adică valorile exacte ale parametrilor ce intervin. Ori de câte ori avem forma funcţiei prin care se exprimă legea de repartiţie, spunem că avem o problemă specificată. Cunoaşterea valorilor parametrilor conduce la cunoaşterea completă a legii de repartiţie – adică avem o problemă complet specificată. Operaţia de evaluare a parametrilor poartă numele de estimare a parametrilor, care se face pe baza unei selecţii de volum n: X1, X2, …, Xn, extrasă din populaţia caracterizată de variabila aleatoare X, cu legea de repartiţie specificată. Valorile parametrilor unic determinate pe baza selecţiei X1, X2, …, Xn, le vom numi estimaţii punctuale. Valorile parametrilor le estimăm cu ajutorul unei statistici (o funcţie de datele de selecţie) construite cu ajutorul selecţiei X1, X2, …, Xn şi pe care o vom nota Tn(X1, X2, …, Xn). Pentru a preciza ideile, vom presupune că selecţia de volum n s-a efectuat dintr-o populaţie caracterizată de o variabilă aleatoare X care admite legea de repartiţie dată de f(x; θ ), unde f(x; θ ) este o densitate de repartiţie în cazul că există densitate sau, în cazul unei variabile discrete este P(X = x; θ ). Cu ajutorul funcţiei de selecţie Tn(X1, X2, …, Xn) dorim să estimăm parametrul θ (forma fiind cunoscută). Este clar că dispunem numai de informaţie parţială asupra populaţiei şi, ca atare, cu cât volumul de selecţie creşte, cu atât informaţia este mai bogată. Deci, Tn(X1, X2, …, Xn) trebuie să se apropie tot mai mult de valoarea parametrului θ , fiind vorba aici de un proces de convergenţă. Evident că această convergenţă trebuie să aibă loc în probabilitate, adică: lim P( Tn ( X1 , X 2 ,..., X n ) − θ < ε ) = 1

( X − m )2

n →∞

Valoarea luată de Tn(X1, …, Xn) pentru valori bine determinate ale variabilelor X1, X2, …, Xn o vom numi estimaţie a parametrului θ . Din cele prezentate rezultă că funcţia de estimaţie este de natură teoretică, în timp ce estimaţia este de natură empirică. P Dacă Tn(X1, X2, …, Xn) θ spunem că Tn(X1, X2, …, Xn) este o estimaţie n→∞ corectă pentru parametrul θ .
181

Cum există o infinitate de funcţii Tn(X1, X2, …, Xn) care converg în probabilitate către θ , pentru a mări precizia, vom recurge la convergenţe mai tari, deci care asigură convergenţa în probabilitate. O atare convergenţă este convergenţa în medie pătratică, care prezintă avantajul că este comodă în calcul. Funcţia de estimaţie Tn(X1, X2, …, Xn) este o funcţie de variabilele aleatoare independente X1, X2, …, Xn şi, deci, o variabilă aleatoare cu o funcţie de repartiţie. Cum am presupus că lucrăm cu convergenţă în medie pătratică, am admis implicit că Tn(X1, X2, …, Xn) are momente de ordinul doi cel puţin. Definiţie. Spunem că statistica Tn(X1, X2, …, Xn) este o estimaţie nedeplasată a parametrului θ dacă: M(Tn(X1, X2, …, Xn)) = θ . Spunem că statistica Tn(X1, X2, …, Xn) este o estimaţie deplasată a parametrului θ , dacă: M(Tn(X1, X2, …, Xn)) = θ + h(n) Funcţia h(n) pe care o vom numi deplasare a estimaţiei are proprietatea că h( n) = ⎯⎯ → 0. ⎯ n →∞ Este clar că între eroarea de estimaţie şi deplasare există o clară deosebire. În timp ce eroarea de estimare este Tn(X1, …, Xn) - θ şi este o variabilă aleatoare, deplasarea h(n) = M(Tn(X1, X2, …, Xn)) - θ este o funcţie numerică, care depinde de volumul de selecţie şi eventual de parametrul de estimat şi care reprezintă o eroare sistematică în procesul de estimare. Dacă deplasarea h(n) > 0 spunem că Tn(X1, X2, …, Xn) este pozitiv deplasată, iar dacă h(n) < 0 spunem că Tn(X1, X2, …, Xn) este negativ deplasată. Din definiţia funcţiei numerice deplasare, h(n), rezultă importanţa cunoaşterii în cazul selecţiilor de volum mic. Exemple de estimaţii nedeplasate sau deplasate putem pune imediat în evidenţă pe baza unor rezultate pe care le-am obţinut deja. 1 n Aşa de exemplu, Tn(X1, X2, …, Xn) = X = ∑ X j este o estimaţie nedeplasată a n j =1 mediei teoretice, m , a unei variabile aleatoare: M ( X ) = m De asemenea, frecvenţa relativă k este o estimaţie nedeplasată a probabilităţii, p, de n apariţie a unui eveniment în cazul unei repartiţii binomiale: np ⎛ k⎞ 1 =p M ⎜ ⎟ = M (k ) = ⎝ n⎠ n n Am văzut că, dacă efectuăm o selecţie dintr-o populaţie normală şi notăm: 1 n µ2 = ∑ ( X j − X ) 2 (dispersia de selecţie necorectată) şi cu: n j =1

s2 =

1 n ∑ ( X j − X )2 (dispersia de selecţie corectată), atunci n − 1 j =1
2

n Rezultă că µ2 este o estimaţie negativ deplasată a dispersiei teoretice σ2, în timp ce s2 este o estimaţie nedeplasată a dispersiei teoretice σ2 . Definiţie. Spunem că Tn(X1, X2, …, Xn) este o estimaţie absolut corectă pentru parametrul θ , dacă: M(Tn(X1, X2, …, Xn)) = θ ⎯ D2(Tn(X1, X2, …, Xn)) ⎯⎯ → 0 n →∞
182

M ( µ2 ) = σ −

σ2

, M(s 2 ) = σ 2

Spunem că Tn(X1, X2, …, Xn) este o estimaţie corectă pentru θ , dacă: M(Tn(X1, X2, …, Xn)) = θ + h(n) , h(n) ⎯n→∞ → 0 ⎯ ⎯ D2(Tn(X1, X2, …, Xn)) ⎯n→∞ → 0 ⎯ ⎯ Utilizând rezultate obţinute anterior, se deduce că momentul de selecţie de ordinul r, M r este o estimaţie absolut corectă pentru momentul teoretic de ordinul r, Mr(X). Într-adevăr: M( M r ) = Mr(X) M 2 r ( X ) − M r2 ( X ) ⎯n→∞ → 0 ⎯ ⎯ n În particular, X este estimaţie absolut corectă pentru M(X) = m. D2( M r ) = n 2σ 2( n − 1) 4 D 2 ( s2 ) = ⎯n→∞ → 0 ⎯ ⎯ D 2 ( µ2 ) = ⋅ σ ⎯n→∞ → 0 ⎯ ⎯ n −1 n2 Urmează de aici că s2 este o estimaţie absolut corectă pentru σ2, în timp ce µ2 este numai corectă pentru σ2 (în selecţii dintr-o populaţie normală N(m, σ)). Este clar că vom prefera totdeauna să avem o estimaţie nedeplasată pentru un parametru θ . Dar, pot exista, pentru acelaşi parametru θ , mai multe estimaţii nedeplasate şi atunci este natural să o preferăm pe aceea care are dispersia mai mică, întrucât valorile statisticii Tn(X1, X2, …, Xn) se vor grupa mai bine în jurul valorii θ . În felul acesta, ne punem problema existenţei unei estimaţii nedeplasate care să aibă cea mai mică dispersie şi cât de mică poate să fie dispersia unei estimaţii. În acest sens, dăm binecunoscuta teoremă a minimului dispersiei, cunoscută şi sub numele de teorema lui Rao-Cramer. 7.5. Teorema Rao-Cramer.Dacă Tn(X1, X2, …, Xn) este o estimaţie absolut corectă pentru parametrul θ din repartiţia dată de f(x; θ ) a variabilei aleatoare X (discretă sau continuă), atunci: 1 D2(Tn(X1, X2, …, Xn)) ≥ , unde I( θ ) este cantitatea de informaţie pe o nI (θ ) ⎡⎛ ∂ ln f ( x; θ ⎞ 2 ⎤ ⎡ ∂ 2 ln f ( x; θ ) ⎤ observaţie şi are expresia: I (θ ) = M ⎢⎜ ⎟ ⎥ = −M⎢ ⎥ ⎠ ⎦ ∂θ ∂θ 2 ⎢ ⎥ ⎣ ⎦ ⎣⎝
4

M(s2) = σ2

M( µ2 ) = σ 2 −

σ2

Demonstraţie. Din relaţia:

se obţine, prin derivare în raport cu parametrul θ : ∞ ∂f ( x; θ ) ∞ ∂lnf(x; θ ) ⎡ ∂lnf(x; θ ) ⎤ ∫−∞ ∂θ dx = 0 sau ∫-∞ ∂θ f ( x; θ )dx = 0 , adicã M ⎢ ∂θ ⎥ = 0 ⎣ ⎦ Estimaţia Tn(X1, X2, …, Xn) fiind nedeplasată, obţinem:
M(Tn(X1, X2, …, Xn)) =
−∞

−∞

∫ f ( x; θ )dx = 1

∫ ... ∫ Tn ( X1 , X 2 ,..., X n )∏ f ( x j ; θ )dx1... dx n = θ
−∞ j =1

n

Derivând, şi aici, în raport cu θ , se obţine: ∞ ∞ n ∂ ln f ( x; θ ) n ... ∫ Tn ( X 1 , X 2 ,..., X n )∑ ∏ f ( x; θ )dx1... dx n = 1 ∫
−∞ −∞ j =1

∂θ

j =1

Pe de altă parte: ∞ ∞ n ∂ ln f ( x j ; θ ) n ... ∫ ∑ ∏ f ( x j; θ )dx1... dx n = 0 ∫
−∞ −∞ j=1

∂θ

j=1

183

Înmulţind această relaţie cu θ şi scăzând din relaţia anterioară, obţinem: ∞ ∞ n ∂ ln f ( x ; θ ) n j ... ∫ [ Tn ( X1 , X 2 ,... X n ) − θ ]∑ ∏ f ( x j; θ )dx1... dx n = 1, ∫
−∞ −∞
j=1

∂θ

j=1

adică: n ∂ ln f ( x ; θ ) ⎤ ⎡ j M ⎢(Tn ( X1 , X 2 ,..., X n ) − θ )∑ ⎥ =1 ∂θ j=1 ⎣ ⎦ Aplicând inegalitatea lui Schwarz, se obţine: n ⎛ ∂ ln f ( x; θ ) ⎞ 2 ⎜ Tn ( X1 , X 2 ,..., X n ) − θ ⋅ ∑ ⎟≤ 1≤ M ⎜ ⎟ ∂θ j=1 ⎝ ⎠
⎡ ⎛ n ∂ ln f ( x j ; θ ) ⎞ ⎤ ≤ ⎢ D 2 ( Tn ( X1 , X 2 ,..., X n ) − θ ) ⋅ D 2 ⎜ ∑ ⎟⎥ ∂θ ⎠⎥ ⎝ j=1 ⎢ ⎣ ⎦ Întrucât M(Tn(X1, X2, …, Xn)) = θ şi X1, X2, …, Xn sunt independente, obţinem: D2(Tn(X1, X2, …, Xn)) = D2(Tn(X1, X2, …, Xn)) ⎛ n ∂ ln f(x j ;θ ) ⎞ n 2 ⎛ ∂ ln f(x j ;θ ) ⎞ ⎛ ∂ ln f(x;θ ) ⎞ ⎟= D2 ⎜ ∑ ⎟ = nD 2 ⎜ ⎟ = ∑D ⎜ ⎠ ⎝ ∂θ ∂θ ∂θ ⎠ ⎝ j =1 ⎠ j =1 ⎝ ⎡⎛ ∂ ln f(x;θ ) ⎞2 ⎤ ⎟ ⎥ = nI (θ ) = nM ⎢⎜ ⎠ ⎦ ∂θ ⎣⎝ Deci: D2(Tn(X1, X2, …, Xn)) ≥
1 ⎡⎛ ∂ ln f(x;θ ) ⎞2 ⎤ ⎟ ⎥ nM ⎢⎜ ⎠ ⎦ ∂θ ⎣⎝

Să arătăm că: ⎡⎛ ∂ ln f ( x; θ ) ⎞ 2 ⎤ ⎡ ∂ 2 ln f ( x; θ ) ⎤ I (θ ) = M ⎢⎜ ⎟ ⎥ = −M⎢ ⎥ ⎠ ⎦ ∂θ ∂θ 2 ⎢ ⎥ ⎦ ⎣ ⎣⎝ Într-adevăr, din: Însă: ∂ 2 f ( x; θ )

∂f ( x; θ ) ∫ ∂θ dx = 0 −∞

rezultă:

∂ 2 f ( x; θ ) ∫ ∂θ 2 dx = 0 −∞

∂θ 2

=

2 ∂ ⎛ ∂f ( x; θ ) ⎞ ∂ ⎛ ∂ lnf ( x; θ ) ⎞ ∂ ln f ( x; θ ) = ⋅ f ( x; θ )⎟ = f ( x; θ ) + ⎜ ⎟ ⎜ ⎠ ∂θ 2 ∂θ ⎝ ∂θ ⎠ ∂θ ⎝ ∂θ 2

∂ lnf ( x; θ ) ∂f ( x; θ ) ∂ 2 ln f ( x; θ ) ⎛ ∂ lnf ( x; θ ) ⎞ + ⋅ = f ( x; θ ) + ⎜ ⎟ f ( x; θ ) 2 ⎠ ⎝ ∂θ ∂θ ∂θ ∂θ
Deci:

∂ 2 ln f ( x; θ ) ⎛ ∂ ln f ( x; θ ) ⎞ f ( x; θ )dx + ∫ ⎜ ⎟ f ( x; θ )dx = 0 ∫ ∂θ 2 ⎠ ⎝ ∂θ 2 −∞ −∞
şi, deci: ⎡⎛ ∂ ln f ( x; θ ) ⎞ 2 ⎤ ⎡ ∂ 2 ln f ( x; θ ) ⎤ M ⎢⎜ ⎟ ⎥ = −M⎢ ⎥ ⎠ ⎦ ∂θ ∂θ 2 ⎢ ⎥ ⎣ ⎦ ⎣⎝
Definiţie. Spunem că estimaţia Tn(X1, X2, …, Xn) este eficientă dacă: 1 D2(Tn(X1, X2, …, Xn)) ≥ nI(θ ) 184

2

Fie acum Tn(X1, X2, …, Xn) o estimaţie absolut corectă oarecare. Atunci, vom numi eficienţă a lui θ , raportul: 1 nI (θ ) e(Tn(X1, X2, …, Xn)) = 2 D (Tn (X 1 , X 2 , ..., X n ) ) şi Tn(X1, X2, …, Xn) este Este evident că: 0 ≤ e (Tn(X1, X2, …, Xn)) ≤ 1 eficientă dacă e(Tn(X1, X2, …, Xn)) = 1. Cum eficienţa este o funcţie de volumul n a selecţiei şi cum la limită trebuie să obţinem cea mai mare informaţie posibilă, rezultă că, dacă: lim e( Tn (X1 , X 2 , ..., X n )) = 1 , atunci estimaţia Tn(X1, X2, …, Xn) este asimptotic
n →∞

eficientă. Ilustrăm noţiunea de eficienţă a unei estimaţii prin două exemple prin care să cuprindem o repartiţie care admite densitate de repartiţie şi o repartiţie de tip discret. 1 n (1) Să se arate că Tn(X1, X2, …, Xn) = X = ∑ X j este o estimaţie eficientă pentru n j =1 parametrul m al repartiţiei normale N(m; σ); (2) Să se arate că: Tn(X1, X2, …, Xn) = X parametrul θ al unei repartiţii Poisson. (P(X = x / θ ) = e −θ ⋅
Soluţie

este

o

estimaţie

eficientă

pentru

θx
x!

, x = 0, 1, 2, ... )

(1) Din consideraţii anterioare, ştim că: M ( X ) = m; D 2 ( X ) = Rămâne să arătăm că: D 2 ( X ) =
− 1 f ( x; m, σ ) = e σ 2π
( X − m )2 2σ 2

σ2
n

1 nI (θ )

, x ∈ R, σ > 0

ln f ( x; m, σ ) = − ln(σ 2π ) −

( X − m) 2 2σ 2

⎡⎛ ∂ ln f ( x; m, σ ) ⎞ 2 ⎤ ⎡⎛ X − m ⎞ 2 ⎤ ∂ ln f ( x; m, σ ) X − m = ; M ⎢⎜ ⎟ ⎥ = M ⎢⎜ ⎟ ⎥= 2 ⎠ ⎦ ∂m σ2 ∂m ⎢ ⎥ ⎢ ⎥ ⎣⎝ ⎣⎝ σ ⎠ ⎦ 1

σ4

M ( X − m) 2 =

[

]

σ2 1 = 2 4 σ σ
σ2 1 1 şi deci: = = nI ( m) n / σ 2 n

⇒ I ( m) =

1

σ2

Cum D 2 ( X ) = m.

1 , nI ( m)

rezultă că X este estimaţie eficientă pentru parametrul D2 ( X ) θ = n n

(2) Pentru o repartiţie Poisson, D 2 ( X ) =

ln P( X = x | θ ) = ln e −θ ⋅

θx
x!

= −θ + x ln θ − ln x !
185

∂ ln P( X = x θ ) x = −1 + ∂θ θ
⎡⎛ x ⎞ 2 ⎤ ⎡ x2 2 x ⎤ 1 I (θ ) = M ⎢⎜ − 1⎟ ⎥ = M ⎢ 2 − 2 + 1⎥ = 2 M ( X 2 ) − M ( X ) + 1 = θ ⎦ θ θ ⎥ ⎢ ⎣θ ⎣⎝ θ ⎠ ⎦ 1 θ 2 + θ 2θ − +1 = 2

θ

θ

θ

1 , rezultă eficienţa estimaţiei X pentru parametrul θ . nI (θ ) Am văzut, aşadar, cum putem să analizăm estimaţiile parametrilor în funcţie de proprietăţile pe care le au, să le clasificăm. Vom căuta acum să punem în evidenţă modalităţi sau metode de obţinere a unor estimaţii. În cele ce urmează, ne vom opri asupra a două metode de obţinere a estimaţiilor pe care le vom numi estimaţii punctuale: metoda momentelor şi metoda verosimilităţii maxime. Cum D 2 ( X ) = 7.6. Metoda momentelor Am văzut că momentele de selecţie de ordinul r sunt estimaţii absolut corecte ale momentelor teoretice de acelaşi ordin: M ( Mr ) = Mr ( X )
M 2 r ( X ) − M r2 ( X ) ⎯n→∞ → 0 ⎯ ⎯ n Este natural ca, pentru n suficient de mare, să luăm în locul momentului teoretic momentul empiric de acelaşi ordin. Să presupunem că am efectuat o selecţie de volum n:x1, x2, …, xn, dintr-o populaţie caracterizată de variabila aleatoare X care are legea de repartiţie dată de f ( x; θ1 , θ 2 ,..., θ k ) , unde f ( x; θ1 ,..., θ k ) este densitatea de repartiţie, dacă aceasta există, sau P( X = x; θ1 , θ 2 ,..., θ k ) , dacă variabila X este de tip discret. Am considerat, desigur, cazul când variabila X este unidimensională şi legea depinde de k parametri. Admitem că variabila aleatoare X are moment cel puţin până la ordinul k inclusiv. Atunci: M s ( X θ1 , θ 2 ,..., θ k ) sunt funcţii de parametrii necunoscuţi θ1 , θ 2 ,..., θ k . Alcătuind sistemul de ecuaţii: M s ( X θ1 , θ 2 ,..., θ k ) = M s , 1 ≤ s ≤ k , D2 ( Mr ) =
1 n s ∑ Xj n j=1 şi presupunând că sistemul admite soluţii reale, se obţin: $ $ θ s = θ s ( M1 , M 2 ,..., M k ); 1 ≤ s ≤ k care sunt estimaţiile parametrilor θ1 , θ 2 ,..., θ k . prin metoda momentelor. Să observăm că nu este necesar să se ia neapărat primele k momente, din contră, putem lua alte momente, inclusiv momente centrate, care să constituie însă un sistem de k ecuaţii cu necunoscutele θ1 , θ 2 ,..., θ k . şi din care să se obţină cât mai uşor posibil soluţia căutată. Vom da acum unele exemple care să ilustreze metoda propusă. Exemplu. Să se estimeze prin metoda momentelor, pe baza unei selecţii de volum n:x1, x2, …, xn, extrasă dintr-o populaţie caracterizată de: unde M s =

186

⎧ 1 ⎪ , dacă x ∈ [θ1 ,θ 2 ] f ( x; θ 1 , θ 2 ) = ⎨ θ 2 − θ 1 , a parametrilor θ1 , θ 2 . ⎪ 0 , dacă x ∉ [θ1 ,θ 2 ] ⎩ Soluţie. Întrucât θ + θ2 θ 2 + θ1θ 2 + θ 22 M ( X θ1 , θ 2 ) = 1 , ; M2 ( X ) = 1 2 3 avem sistemul de ecuaţii: ⎧θ1 + θ 2 ⎪ 2 = M1 , ⎨θ 2 + θ θ + θ 2 1 1 2 2 ⎪ = M2 3 ⎩ a cărui soluţie este: 2 2 $ $ θ1 = M 1 − 3 M 2 − M 1 ; θ 2 = M 1 + 3 M 2 − M 1 , sau

(

)

(

)

$ θ1 = x − s

3( n − 1) ; n

$ $ θ2 = x + s

3( n − 1) n

Lungimea intervalului se estimează prin: θ 2 − θ1 = 2s

3( n − 1) n La aceleaşi rezultate se ajunge mai simplu, dacă luăm sistemul: ⎧θ1 + θ 2 = 2 x ⎪ 2 , ⎨ (θ 2 − θ1 ) = µ2 = M 2 − M12 ⎪ 12 ⎩

(

)

sau:

θ1 + θ 2 = 2 x θ 2 − θ1 = 2 3µ2

şi se continuă, ajungându-se la acelaşi rezultat. Exemplu. Estimarea parametrilor a, b din repartiţia Beta, care are densitatea: , x ∉(0, 1) ⎧0 ⎪ Γ( a, b) f ( x; a , b ) = ⎨ , x a −1 (1 − x ) b−1 , x ∈(0, 1) ⎪ Γ ( a )Γ ( b ) ⎩ a > 0, b> 0.

Prin calcul direct, se obţine: a M1 ( X | a , b ) = a+b ab D 2 ( X | a, b) = 2 ( a + b) ( a + b + 1) $ $ Estimaţiile a, b se obţin rezolvând sistemul de ecuaţii:
⎧ a ⎪a + b = X ⎨ ab = s2 ⎪ 2 ⎩ ( a + b) ( a + b + 1)

187

De aici rezultă: ⎡ X(1 - X) ⎤ X 2 (1 − X ) $ $ a= − X ; b = (1 - X)⎢ − 1⎥ 2 2 s ⎣ s ⎦ Exemplu. Cazul unei repartiţii normale N(m; σ). După cum se ştie: M(X| m, σ) = m M2(X| m, σ) = m2 + σ2 şi avem, astfel, de rezolvat sistemul de ecuaţii: $ ⎧m = X m=X care conduce la: ⎨ 2 2 $ σ 2 = M 2 − X 2 = µ2 ⎩m + σ = M 2 7.7.Metoda verosimilităţii maxime Metoda momentelor pe care am prezentat-o este simplă şi uşor de aplicat. Prezintă, totuşi, o serie de neajunsuri în ceea ce priveşte calităţile estimatorilor obţinuţi pe această cale. De aceea, statisticienii au căutat alte metode de obţinere a estimaţiilor. Una dintre acestea este metoda verosimilităţii maxime elaborată R.A.Fisher şi prezintă avantajul unui plus de eficacitate. Să considerăm pentru început cazul unui singur parametru şi că legea de repartiţie a variabilei X ce caracterizează populaţia din care s-a efectuat selecţia de volum n, x1, x2, …, xn este dată de f(x; θ ). Atunci, repartiţia vectorului aleator (x1, x2, …, xn) este:
P(x1, x2, …, xn; θ ) =

∏ f ( x ; θ ) , pe care o considerăm ca funcţie de θ .
j j =1

n

Valorile x1, x2, …, xn fiind considerate ca date, ele fiind rezultatul experienţei, vom considera ca valoare cea mai verosimilă a parametrului θ , valoarea pentru care probabilitatea P(x1, x2, …, xn; θ ) devine maximă, ceea ce ne conduce la faptul că estimaţia de verosimilitate maximă θ , este soluţia ecuaţiei: ∂P( x1 , x 2 ,..., x n ; θ ) =0 Funcţia P(x1, x2, …, xn; θ ) poartă numele de funcţie de verosimilitate. Întrucât lnP(x1, x2, …, xn; θ ) şi P(x1, x2, …, xn; θ ) sunt în acelaşi timp crescătoare sau descrescătoare, estimaţia de verosimilitate maximă se obţine ca soluţie a ecuaţiei. ∂ ln P( x1 , x 2 ,..., x n ; θ ) =0

∂θ

∂θ

Funcţia L(x1, x2, …, xn; θ ) = ln P(x1, x2, …, xn; θ ) =

∑ ln f ( x ;θ )
j j =1

n

o

vom

numi tot funcţie de verosimilitate. În cazul când repartiţia unidimensională depinde de mai mulţi parametri, f ( x; θ1 , θ 2 ,..., θ k ) , funcţia de verosimilitate devine: L( x1 , x 2 ,..., x n ; θ1 , θ 2 ,..., θ k ) , iar estimaţiile de verosimilitate maximă se obţin ca soluţii ale sistemului de ecuaţii: ∂L(x1 , x 2 ,... , x n ; θ1 , θ 2 ,.., θ k ) = 0 ; 1≤ j ≤ k

∂θ j

$ $ Rezolvând sistemul, se obţin: θ j = θ j ( x1 , x 2 ,..., x n ), 1 ≤ j ≤ k , estimaţii de

verosimilitate maximă. ∂L Ecuaţiile = 0, 1 ≤ j ≤ k

∂θ j

poartă numele de ecuaţii de verosimilitate.

188

Fără a intra în amănunte, vom sublinia unele proprietăţi ale estimaţiilor de verosimilitate maximă, care le recomandă pentru aplicaţii. În cazul unui singur parametru θ , estimaţia de verosimilitate maximă este consistentă în probabilitate, dar, pentru valori mari ale lui n, repartiţia ei este aproximativ normală, cu $ şi cu dispersia: media M(θ ) = θ 1 $ D 2 (θ ) = ⎡⎛ ∂ ln f ( x; θ ) ⎞ 2 ⎤ nM ⎢⎜ ⎟ ⎥ ⎠ ⎦ ∂θ ⎢ ⎥ ⎣⎝
$ Altfel spus, estimaţia θ obţinută prin metoda verosimilităţii maxime este asimptotic eficientă, în sensul că nu există o altă estimaţie asimptotic normală cu dispersie mai mică. Dacă parametrul θ admite o estimaţie eficientă, atunci aceasta se obţine în mod unic, rezolvând ecuaţia de verosimilitate. Exemple. Pe baza unei selecţii de volum n, să se estimeze parametrul θ din repartiţia Poisson: e −θ ⋅ θ x P( X = x ) = , x = 0,1,2, ... x!

P(x1 , x 2 ,..., x n ; θ ) = ∏ P( X = x j ; θ ) = ∏
j =1 j =1

n

n

e −θ ⋅ θ x e − nθ ⋅ θ j =1 = n x! ∏xj !
j =1 n

∑xj

n

lnP(x1, x2, …, xn; θ ) = L(x1, x2, …, xn; θ ) = − nθ + ∑ x j ln θ − ln ∏ ( x j !)
j =1 j =1

n

∂L( x1 , x 2 ,..., x n ; θ ) j=1 = −n + ∂θ θ
iar −n+

∑x

n

j

,

∑x
j=1

n

j

θ

=0

are soluţia: n $=1 θ ∑ xj = x n j=1

∂ 2 L( x1 , x 2 ,..., x n ; θ ) j=1 =− 2 2 ∂θ θ
n

∑x ∑x

n

j

$ ∂ 2 L( x1 , x 2 ,..., x n ; θ ) j=1 =− 2 <0, ∂θ 2 x $ adică θ asigură maximul funcţiei de verosimilitate. Cazul repartiţiei:
P(X = x; p) = px (1-p)1-x , x = 0, 1 ⎛ 1 0⎞ X: ⎜ ⎟ , 0< p < 1 ⎝ p q⎠
189

j

Funcţia de verosimilitate: L( x1 , x s ,..., x n ; p ) = ∑ x j ln p + (1 − x j ) ln(1 − p )
j =1 n

[

]
,

∂L( x1 , x s ,..., x n ; p ) = ∂p
care are soluţia: 1 n $ p = ∑ xj n j =1

∑ xj
j =1

n

p

n − ∑ xj
j =1

n

1− p

=0

n ⎤ ⎡ n ∑ xj n − ∑ xj ⎥ , ⎢ 2 ∂ L( x1 , x 2 ,..., x n ; p ) j =1 j =1 ⎥<0 = −⎢ 2 + 2 ⎢ p ∂p (1 − p ) 2 ⎥ ⎥ ⎢ ⎦ ⎣

întrucât:

∑x
j =1

n

j

≤ n.

Cazul repartiţiei normale N(m, σ):
− 1 2 f ( x; m, σ ) = e 2σ , x ∈ R, σ > 0 σ 2π Funcţia de verosimilitate: ( X − m )2

− 2 ∑ ( x−m ) 1 2σ j=1 P(x1 , x 2 ,..., x n ; m, σ ) = e n (σ 2π )

1

n

2

L( x1 , x 2 ,..., x n ; m, σ ) = − n ln 2π − n ln σ −

1 2σ
2

∑ (x − m)
j=1

n

2

∂L( x1 , x 2 ,..., x n ; m, σ ) 1 n = 2 ∑ ( x j − m )2 ∂m σ j=1 ∂L( x1 , x 2 ,..., x n ; m, σ ) n 1 n = − + 3 ∑ ( x j − m )2 ∂σ σ σ j=1
Sistemul de ecuaţii de verosimilitate devine:
⎧ n ⎪ ∑ ( x j − m) = 0 ⎪ j =1 ⎨ n ⎪−n + 1 ∑ ( x − m) 2 = 0 , ⎪ σ 2 j =1 j ⎩ cu soluţia:
$ m=

1 n ∑ xj = x n j =1 1 n ∑ ( x j − x ) 2 = µ2 n j =1

$ σ2 =

190

$ $ Să arătăm că ( m, σ 2 ) este punct de maxim pentru L. 2 ∂ L( x1 , x 2 ,..., x n ; m, σ ) n =− 2 <0 2 ∂m σ 2 ∂ L( x1 , x 2 ,..., x n ; m, σ ) n 3 n = 2 − 4 ∑ ( x j − m) 2 2

∂σ

σ

σ

j =1

∂ 2 L( x1 , x 2 ,..., x n ; m, σ ) 2 n = − 3 ∑ ( x j − m) ∂m∂σ σ j =1
Urmează că:

n 2 ∂ 2L ∂ 2L $ − 2 − 3 ∑ ( x j − m) 2 $ $ σ σ j =1 ∂m∂σ = ∆ = ∂m 2 n n 3 n ∂ 2L ∂ 2L $) $ − 3 ∑ (x j − m − 4 ∑ ( x j − m) 2 2 2 $ $ $ σ j =1 σ σ j =1 ∂σ∂m ∂σ
n

Dar,

∑ (x
j =1

n

j

$ $ $ − m) = nm − nm = 0

şi atunci: n − 2 $ σ ∆= 0

0
n 3 − 4 2 $ $ σ σ

∑(x
j =1

n

j

$ − m) 2

=

n $ σ2

0
n

0

σ

2

3n 2 $ ⋅σ $ σ4

= −

n 3n 2n + = >0 $ $ $ σ4 σ4 σ4

$ $ deci, ( m, σ 2 ) este punct de maxim pentru L.

Cazul repartiţiei normale bidimensionale f ( x , y; m1 , m2 , σ 1 , σ 2 , ρ ) =

1

2πσ 1σ 2 1 − ρ 2 L( x1 , y1 ;...; x n , y n ; m1 , m2 , σ 1 , σ 2 , ρ ) =
=−

e

1 ⎡ ( x − m1 )2 2 ρ ( x − m1 )( y − m2 ) ( y − m2 )2 ⎤ − + ⎢ ⎥ 2 σ1σ 2 σ2 1− ρ 2 ⎢ σ12 ⎥ ⎣ ⎦

1 1− ρ2

⎡ 1 ⎢ 2 ⎣σ1

∑ ( x j − m1 ) 2 −
j =1

n

σ 1σ 2

∑ ( x j − m1 )( y j − m2 ) +
j =1

n

1

σ

2 2 j =1

∑( y

n

1

⎤ − m2 ) 2 ⎥ − ⎦

n ln(1 − ρ 2 ) − ln( 2π ) n 2 ∂L ∂L ∂L ∂L = 0; = 0; = 0; = 0; Rezolvând sistemul: ∂m1 ∂m2 ∂σ 1 ∂σ 2 se obţin estimaţiile de verosimilitate maximă: 1 n $ $ σ 12 = ∑ ( x j − x )2 m1 = x n j =1 − n ln σ 1 − n ln σ 2 −

∂L = 0, ∂ρ

$ m2 = y

$ σ2 =

1 n ∑ ( y j − y )2 n j =1

1 n ∑ ( x j − x )( y j − y ) n j =1 $ ρ= $ $ σ 1σ 2
191

7.8. Intervale de încredere Să considerăm variabila aleatoare X, caracterizată de familia de repartiţii f(x; θ ), ce depind de parametrul θ , a cărui valoare bine determinată nu o cunoaştem şi pe care dorim s-o estimăm, pe baza unei selecţii de volum n:x1, x2, …, xn . În metoda punctuală de estimare se caută o funcţie de selecţie Tn(x1, x2, …, xn) pe P θ , o numim funcţie de estimaţie a parametrului θ . care, în cazul când Tn(x1, x2, …, xn) n→∞ Întrucât Tn(x1, x2, …, xn) variază ca precizie, este de dorit să dispunem de o indicaţie asupra preciziei ei, iar metoda intervalelor de încredere pe care o punem în evidenţă acum are astfel de virtuţi. Să presupunem că, pe baza selecţiei menţionate, se pot determina două funcţii de selecţie, θ1 ( X 1 , X 2 ,..., X n ) şi θ 2 ( X 1 , X 2 ,..., X n ) astfel încât probabilitatea inegalităţii: θ1 ( X1 , X 2 ,..., X n ) ≤ θ ≤ θ 2 ( X1 , X 2 ,..., X n ) este independentă de θ şi P( θ1 ( X 1 , X 2 ,..., X n ) ≤ θ ≤ θ 2 ( X 1 , X 2 ,..., X n ) ) = δ (δ independent de θ ) Numărul δ se ia foarte apropiat de 1, ceea ce înseamnă că inegalitatea θ 1 ≤ θ ≤ θ 2 este îndeplinită în majoritatea cazurilor. Pentru o selecţie efectuată θ1 ( X 1 , X 2 ,..., X n ) şi θ 2 ( X 1 , X 2 ,..., X n ) iau valori bine determinate şi prin urmare am găsit un interval [ θ1 ( X 1 , X 2 ,..., X n ) ; θ 2 ( X 1 , X 2 ,..., X n ) ] care acoperă parametrul θ cu o probabilitate δ apropiată de 1. Cu cât lungimea acestui interval este mai mică şi probabilitatea δ este mai apropiată de 1, cu atât vom avea o indicaţie mai precisă asupra valorii parametrului θ . Intervalul [ θ1 ( X 1 , X 2 ,..., X n ) ; θ 2 ( X 1 , X 2 ,..., X n ) ] este numit interval de încredere, iar numărul δ nivel de încredere. Numărul ε = 1 - δ este numit nivel de semnificaţie. Subliniem faptul că afirmaţia “intervalul [ θ 1, θ 2] acoperă valoarea parametrului θ cu probabilitatea δ” este corectă, căci θ este fixat (deşi necunoscut) iar θ 1, θ 2 – capetele intervalului şi variabile aleatoare, depinzând de variabilele de selecţie x1, x2, …, xn . Vom prezenta acum două cazuri utilizate frecvent în aplicaţii pentru determinarea unui interval de încredere. 1. Există o funcţie de datele de selecţie x1, x2, …, xn şi de parametrul θ , U(x1, x2, …, xn; θ ), cu proprietăţile: a) U(x1, x2, …, xn; θ ) este continuă şi strict monotonă în raport cu θ ; b) Funcţia de repartiţie a variabilei aleatoare U(x1, x2, …, xn; θ ) nu depinde de θ sau de alţi parametri necunoscuţi. Atunci, putem determina două numere θ1 (δ ) şi θ 2 (δ ) astfel încât: P θ1 (δ ) ≤ U ( x1 , x 2 ,..., x n ; θ ) ≤ θ 2 (δ ) = δ

Să folosim acum faptul că U(x1, x2, …, xn; θ ) este continuă şi strict monotonă în raport cu θ . Pentru a ne fixa ideile, să presupunem că este strict crescătoare în raport cu θ . În acest caz, evenimentul: [ θ 1(δ) ≤ U(x1, x2, …, xn; θ ) ≤ θ 2(δ)] este echivalent cu evenimentul: [ θ 1(x1, x2, …, xn; δ) ≤ θ ≤ θ 2(x1, x2, …, xn; n, δ)] şi, prin urmare, au aceeaşi probabilitate δ: P [ θ 1(x1, x2, …, xn; n, δ) ≤ θ ≤ θ 2(x1, x2, …, xn; n, δ)] =δ Am determinat astfel un interval: [ θ 1(x1, x2, …, xn; n, δ); θ 2(x1, x2, …, xn; n, δ)] care acoperă parametrul θ cu probabilitatea fixată δ. 2. Să considerăm o funcţie de selecţie U(x1, x2, …, xn) care are funcţia de repartiţie: G(x; θ ) = P (U(x1, x2, …, xn) < x). Presupunem că funcţia de repartiţie G(x; θ ) admite densitatea de repartiţie g(x; θ ). 192

[

]

Fie acum r, s două numere reale pozitive, r ≥ 0, s ≥ 0, astfel încât r + s = 1 şi a1( θ ; δ), b1( θ ; δ) două funcţii de θ şi δ pentru care au loc egalităţile:
a1 (θ ,δ )


a

g( x; θ )dx = r(1 − δ );

b1 (θ ,δ )

∫ g( x; θ )dx = s(1 − δ )

b

Dacă [a, b] este intervalul în care funcţia de selecţie U(x1, x2, …, xn) ia valori, atunci:

∫ g( x; θ )dx = 1
a

b

În baza proprietăţilor numerelor r, s şi a funcţiilor a1( θ ; δ), b1( θ ; δ), rezultă:
b1 (θ ,δ ) a1 (θ ,δ )

g( x; θ )dx = ∫ g( x; θ )dx −
a

b

a1 (θ ,δ )


a

g( x; θ )dx −

b1 (θ ,δ )

∫ g( x;θ )dx = 1 − r(1 − δ ) − s(1 − δ ) = δ

b

Urmează de aici că: P(a1( θ ; δ) ≤ U(x1, x2, …, xn) ≤ b1( θ ; δ) = δ şi, deci, probabilitatea inegalităţii U1( θ ; δ) ≤ U(x1, x2, …, xn) ≤ b1( θ ; δ) este independentă de θ . Să presupunem că funcţiile a1( θ ; δ) şi b1( θ ; δ) sunt continue şi strict crescătoare în raport cu θ . Atunci, există un număr A(x1, x2, …, xn; δ) astfel încât inegalităţile: A(x1, x2, …, xn; δ) ≤ θ a1( θ ; δ) ≤ U(x1, x2, …, xn) să fie echivalente; analog, există un număr B(x1, x2, …, xn; δ) astfel încât inegalităţile: θ ≤ B(x1, x2, …, xn; δ) U(x1, x2, …, xn) ≤ b1( θ ; δ) să fie echivalente. Dar, atunci, inegalitatea: a1( θ ; δ) ≤ U(x1, x2, …, xn) ≤ b1( θ ; δ) este echivalentă cu: A(x1, x2, …, xn; δ) ≤ θ ≤ B(x1, x2, …, xn; δ) Rezultă că am determinat un interval [A(x1, x2, …, xn; δ); B(x1, x2, …, xn; δ)] care acoperă cu o probabilitate δ, parametrul θ . În cazul în care repartiţia teoretică a variabilei aleatoare de selecţie U(x1, x2, …, xn) este discretă, în loc să considerăm un interval de încredere care acoperă cu probabilitatea δ parametrul θ , vom considera un interval de încredere care acoperă parametrul θ cu o probabilitate cel puţin egală cu δ. În acest caz, egalităţile:
a1 (θ ,δ )


a

g( x; θ )dx = r(1 − δ );

b1 ( , )

∫ δg( x; θ )dx = s(1 − δ ) θ
x=b1 (θ ,δ )

b

devin:
a1 (θ ,δ )


x =a

P(U = x; θ ) ≤ r (1 − δ );

∑ P(U = x; θ ) ≤ s(1 − δ )

b

Intervale de încredere pentru parametrii m şi σ2, dintr-o repartiţie normală N(m, σ)

Pentru a construi un interval de încredere pentru parametrul m vom distinge două cazuri: σ cunoscut şi σ necunoscut.
Intervalul de încredere pentru parametrul m când σ este cunoscut. Considerăm funcţia de selecţie: X −m U(X1, X2, …, Xn;n, m) = σ/ n 193

X −m σ/ n este normală N(0; 1) şi, deci, funcţia ei de repartiţie este independentă de parametrul m. X −m este continuă şi strict descrescătoare în variabila m. Pe de altă parte σ/ n Din faptul că U(x1, x2, …, xn, n, m) are o repartiţie normală N(0, 1) urmează că, pentru orice δ ∈ (0, 1), apropiat de 1, putem determina două numere z1, z2 astfel încât: z ⎛ ⎞ X −m 1 2 −x2 /2 P⎜ z1 ≤ ≤ z2 ⎟ = e dx = Φ( z 2 ) − Φ( z1 ) = δ , ⎝ ⎠ σ/ n 2π ∫1 z dar evenimentul: X −m este echivalent cu: ≤ z2 z1 ≤ σ/ n Selecţia fiind efectuată dintr-o proporţie normală N(m, σ), variabila aleatoare z1

σ

n

≤ X − m ≤ z2

σ

n

, care este echivalent cu:

n n σ σ ⎞ ⎛ Deci: P⎜ x − z 2 ≤ m ≤ x − z1 ⎟ =δ ⎝ n n⎠

x − z2

σ

≤ m ≤ x − z1

σ
şi am determinat un interval:

σ σ ⎤ ⎡ care, cu probabilitatea δ, acoperă parametrul m. ⎢ x − z 2 n ; x - z1 n ⎥ ⎦ ⎣ Pentru δ fixat, se pot determina o infinitate de numere z1, z2 care să satisfacă condiţia Φ(z2) - Φ(z1) = δ Pe noi ne interesează să obţinem o precizie cât mai bună şi aceasta se obţine când lungimea intervalului este minimă. Urmează să determinăm minimul funcţiei:
L( z1 , z 2 ) =

σ

n

( z 2 − z1 )

(lungimea intervalului de încredere),

cu legătura: z 1 2 − x2 /2 e dx = δ 2π ∫1 z Aplicând metoda multiplicatorilor lui Lagrange, căutăm minimul funcţiei: ⎡ 1 z2 − x 2 / 2 ⎤ σ H ( z1 , z 2 , λ ) = ( z 2 − z1 ) + λ ⎢ e dx - δ ⎥ ∫ n ⎢ ⎥ ⎣ 2π z1 ⎦ ∂H ∂H = 0; =0 rezultă: Dar ∂z1 ∂z 2 −

σ

, n n 2 adică z12 = z 2 sau z1= ± z2. Cum δ > 0, z1 = z2 nu convine şi, deci, z1 = -z2; z2 = zδ . În acest caz, intervalul de încredere devine: σ σ ⎤ ⎡ ⎢ x − zδ n ; x + zδ n ⎥ ; zδ se determină din relaţia: Φ(zδ) - Φ(-zδ) = δ, de unde ⎦ ⎣ urmează:
e1 e

λ=−

λ −z /2 σ λ −z = 0 şi + e e n 2π n 2π σ 2π z / 2 σ 2π z / 2

2 1
2

2 2 /2

=0

şi de aici:

=−

2 2

194

2Φ(zδ) – 1 = δ, sau Φ(zδ) =
Deci: zδ este z
1−

ε
2

,

1+ δ 1+1− ε ε = = 1− 2 2 2 ⎛ ε⎞ ⎜1 − ⎟ cvantila unei repartiţii normale N(0, 1). ⎝ 2⎠

În final, intervalul de încredere pentru m, cu nivelul de încredere δ = 1 - ε este: ⎡ σ σ ⎤ ; x+z ε ⎥ ⎢ x − z1− ε 1− n n⎦ 2 2 ⎣
Intervalul de încredere pentru m când σ este necunoscut.

În acest caz, se consideră statistica: X −m T(x1, x2, …, xn; n, m) = , s/ n După cum am văzut, variabila

s2 =

1 n ∑ ( x j − x )2 n − 1 j =1

X −m urmează o lege de repartiţie Student cu n-1 s/ n X −m este grade de libertate. Dar legea de repartiţie Student nu depinde de m şi în plus s/ n funcţie continuă şi strict descrescătoare de m. Atunci, pentru un δ dat, se pot determina numerele t1 şi t2 astfel încât: ⎛ n⎞ −n/ 2 Γ⎜ ⎟ t2 ⎝ 2⎠ ⎛ ⎛ ⎞ X −m t2 ⎞ P⎜ t1 ≤ ≤ t2 ⎟ = ⎜1 + ⎟ dt = δ ⎝ ⎠ n − 1⎠ ⎛ n − 1⎞ ∫ ⎝ s/ n t1 ( n − 1)π Γ ⎜ ⎟ ⎝ 2 ⎠ X −m ≤ t2 este echivalent cu evenimentul: s/ n s s x − t2 ≤ m ≤ x − t1 , rezultă că: n n s s ≤ m ≤ x − t1 ) = δ şi, deci, am determinat un interval de încredere: P( x − t 2 n n s s ⎤ ⎡ care, cu probabilitatea δ, acoperă parametrul m. ⎢ x − t 2 n ; x − t1 n ⎥ ⎣ ⎦ Ca şi în cazul anterior, punem condiţia ca lungimea intervalului să fie minimă, cu restricţia: ⎛ n⎞ n − Γ⎜ ⎟ t2 ⎝ 2⎠ ⎛ t2 ⎞ 2 ⎜1 + ⎟ dt = δ ⎛ n − 1⎞ ∫ ⎝ n − 1⎠ t1 ( n − 1)π ⎜ ⎟ ⎝ 2 ⎠ Aplicând, şi de data aceasta, metoda multiplicatorilor lui Lagrange se obţine din: ⎤ ⎡ ⎛ n⎞ n − Γ⎜ ⎟ t2 2 ⎥ ⎢ 2 ⎛ ⎝ 2⎠ s t ⎞ H ( t1 , t 2 , λ ) = ( t 2 − t1 ) + λ ⎢ ⎜1 + ⎟ dt − δ ⎥ ∫ n − 1⎠ n ⎥ ⎢ ( n − 1)π Γ ⎛ n − 1⎞ t1 ⎝ ⎟ ⎜ ⎥ ⎢ ⎝ 2 ⎠ ⎦ ⎣ ∂H ( t1 , t 2 , λ ) ∂H ( t1 , t 2 , λ ) = 0, =0 şi ∂ t1 ∂ t2 Cum evenimentul t1 ≤
195

că t1 = - t2 ,

t2 = t

1−

ε
2

,

iar intervalul de încredere devine:

⎡ s ⎤ s ; x+t ε ⎢ x − t1− ε ;n −1 ⎥ 1− ; n −1 n⎦ n 2 2 ⎣
Intervalul de încredere pentru σ2

Se consideră statistica U(X1, X2, …, Xn ; σ2) = o lege de repartiţie χ (2n−1) (cu n-1 grade de libertate).

( n − 1)s 2

σ2

care, după cum se ştie, are

2 Atunci pentru δ = 1 - ε fixat se pot determina două numere χ12 şi χ 2 astfel încât:

⎛ ( n − 1)s 2 2⎞ P⎜ χ12 ≤ ≤ χ2 ⎟ = 2 σ ⎠ ⎝

1 ⎛ n⎞ 2 Γ⎜ ⎟ ⎝ 2⎠
n 2

2 χ2

χ12

∫ x2 e

n

−1 −

x 2

dx = δ

Dar funcţia de repartiţie a variabilei ( n − 1)s
2

( n − 1)s 2

σ

2

este independentă de σ2 şi în plus

σ

2

este funcţie continuă şi strict descrescătoare de σ2 ceea ce ne conduce la faptul că ( n − 1)s 2

evenimentul:

χ12 ≤
2 χ2

σ
2

2

2 ≤ χ 2 este echivalent cu evenimentul:

( n − 1)s

≤σ2 ≤

( n − 1)s 2

χ12
adică am determinat un interval:

Deci: P(

( n − 1)s 2 ( n − 1)s 2 )=δ, ≤σ2 ≤ 2 X2 X12

⎡ ( n − 1)s 2 ( n − 1)s 2 ⎤ ; ⎢ 2 χ12 ⎥ ⎣ χ2 ⎦

care, cu o probabilitate δ, acoperă parametrul σ2.

2 Să stabilim valorile χ12 şi χ 2 . Densitatea de repartiţie a unei variabile X2 nemaifiind simetrică, şi luând numai valori pozitive adoptăm următoarea regulă:

P χ 2 < χ12 = f(x)

(

)

α

2

;

2 P χ 2 < χ2 =

(

)

α

2

,

numită şi regula cozilor egale.

1-ε ε/2 0 ε/2 x

χ ε2/2

χ12−ε / 2
196

Din modul cum s-a construit tabelele pentru repartiţia χ (2n ) , se obţine:
P χ 2 < χ12 =

( (

) )

ε
2

, deci χ12 = χ ε2/ 2; n −1

2 Urmează că intervalul de încredere de nivel δ = 1 - ε este: ⎡ ( n − 1)s 2 ( n − 1)s 2 ⎤ ; ⎥ ⎢ 2 χ ε2/ 2; n-1 ⎦ ⎣ χ1−ε / 2; n-1 Dacă ne interesează intervalul de încredere pentru σ, atunci ţinem seama de faptul că n −1 s variabila are densitatea de repartiţie:

2 P χ 2 < χ2 = 1 −

ε

2 , deci χ 2 = χ12−ε / 2; n −1

x≤0 ⎧0 , x2 ⎪ − 1 ⎪ n −2 x e 2 , x >0 f ( x ) = ⎨ n −3 ⎪ 2 2 Γ ⎛ n − 1⎞ ⎜ ⎟ ⎝ 2 ⎠ ⎪ ⎩ Pentru δ = 1 - ε fixat, se pot determina două numere U1 , U2 astfel încât: U2 ⎛ ⎞ 1 n −1 s n−2 − x 2 / 2 P⎜ U 1 ≤ ≤ U 2 ⎟ = n −3 ∫ x e dx = δ σ ⎝ ⎠ ⎛ n − 1⎞ U1 2 2 Γ⎜ ⎟ ⎝ 2 ⎠ Se obţine astfel intervalul: ⎡ n −1 s n −1 s⎤ ; care acoperă cu o probabilitate δ valoarea parametrului ⎢ ⎥ U1 ⎦ ⎣ U2

σ

σ.

Valorile numerice se pot determina cu ajutorul cuantilelor unei variabile X2. Să presupunem acum că dispunem de două selecţii: x11, x12, …, x1n1 efectuată dintr-o populaţie N(m1, σ1) şi x21, x22, …, x 2 n2 efectuată

dintr-o populaţie N(m2, σ2). Pe baza acestor selecţii, obţinem: 1 n1 1 n1 2 x1 = ∑ x1 j s1 = ∑ x1 j − x1 n1 j =1 n1 − 1 j =1

(

)

2

1 x2 = n2

∑x
j =1

n2

2j

1 n2 s = ∑ x2 j − x2 n2 − 1 j =1
2 2

(

)

2

Intervalul de încredere pentru m1 ± m2 în cazul când σ1, σ2 sunt cunoscute

Se consideră statistica: U X11 ,..., X1n1 , X 21 ,..., X 2 n 2 ; m 1 ± m 2 =

(

)

X1 ± X 2 − ( m1 ± m 2 )

σ 12

n1 n 2 care este o variabilă normală N(0; 1), de unde urmează, parcurgând punct cu punct calea urmată în cazul unei singure selecţii, intervalul de încredere.
197

+

2 σ2

2 ⎡ σ 12 σ 2 + ; ⎢ x1 ± x 2 − z α 1− n1 n2 ⎢ 2 ⎣

x1 ± x 2 − z

1−

α
2

σ 12
n1

+

2 σ2 ⎤

⎥ n2 ⎦ ⎥

Intervalul de încredere pentru parametrul m1 ± m2 în cazul când σ1, σ2 sunt 2 necunoscute, dar σ 12 = σ 2 = σ 2

Se consideră statistica:
X1 ± X 2 − ( m1 ± m 2 ) 1 1 + n1 n 2

, 2 ( n 1 − 1)s1 + ( n 2 − 1)s 2 2 n1 + n 2 − 2 care are repartiţie Student cu n1 + n2 – 2 grade de libertate. Atunci procedând ca în cazul unei singure selecţii dintr-o populaţie normală N(m, σ), obţinem pentru un δ fixat, intervalul de încredere:
x1 ± x 2 − t x1 ± x 2 + t
1− ; n1 + n 2 − 2 2

U X11 ,..., X1n1 , X 21 ,..., X 2 n 2 ; m 1 ± m 2 =

(

)

ε

2 n 1 + n 2 ( n 1 − 1)s1 + ( n 2 − 1)s 2 2 ; ⋅ n1n 2 n1 + n 2 − 2 2 n1 + n 2 ( n1 − 1)s1 + ( n 2 − 1)s 2 2 ⋅ n1n 2 n1 + n 2 − 2

1− ; n1 + n 2 − 2 2

ε

Acest interval acoperă cu probabilitatea δ valoarea m1 ± m2 .

σ 12 Intervalul de încredere pentru raportul 2 . σ2
Am văzut că funcţia de selecţie:
2 U ( X 11 , X 12 ,..., X 1n1 , X 21 , X 22 ,..., X 2 n2 ; σ 12 , σ 2 ) =

σ 12
2 σ2 2 s2

s12

are o repartiţie Snedecor cu n1-1, n2-1 grade de libertate. Am notat: σ 2 s2 Fn1 −1, n2 −1 = 2 ⋅ 12 şi am văzut că funcţia de repartiţie este independentă de σ1, σ2, σ 12 s2 ⎛σ ⎞ iar Fn1 −1, n2 −1 ca funcţie de ⎜ 2 ⎟ ⎝ σ1 ⎠
2

este continuă şi strict crescătoare.

Atunci, pentru δ = 1 - ε dat, se pot determina două numere F(1) şi F(2), astfel încât: P F (1) ≤ Fn1 −1, n2 −1 ≤ F ( 2 ) = 1 − ε

(

)

În ipoteza că adoptăm cozi egale, se obţine: ⎛ ⎞ P⎜ F ⎟ = 1− ε ε ≤ Fn1 −1, n2 −1 ≤ F ε n1 −1, n2 −1 ;1− ⎠ ⎝ n1 −1, n2 −1 ; 2 2
198

Cum evenimentul: ⎛ ⎞ σ 2 s2 ≤ 2 ⋅ 12 ≤ F ⎜F ⎟ ε 2 ε n1 −1, n2 −1 ;1− ⎠ ⎝ n1 −1, n2 −1 ; 2 σ 1 s2 2 este echivalent cu evenimentul:

⎛ s1 ⎞ ⎜ ⎟ ⎝ s2 ⎠ F

2

1
ε
2

n1 −1, n2 −1;1−

⎛σ ⎞ ⎛s ⎞ 1 ≤ ⎜ 1⎟ ≤ ⎜ 1⎟ ⎝σ2 ⎠ ⎝ s2 ⎠ F

2

2

,
ε
2

n1 −1, n2 −1;

rezultă că am obţinut intervalul de încredere: ⎡ ⎤ 2 2 ⎛ s1 ⎞ 1 1 ⎢⎛ s1 ⎞ ⎥ ; ⎜ ⎟ ⎢⎜ s ⎟ F ⎥, ⎝ 2⎠ ⎝ s2 ⎠ F ε ε ⎢ n1 −1, n2 −1;1− n1 −1, n2 −1; ⎥ 2 ⎦ 2 ⎣
⎛σ ⎞ care, cu probabilitatea δ, acoperă valoarea parametrului: ⎜ 1 ⎟ ⎝σ2 ⎠ 1 Observaţie. Întrucât Fk1 ,k2 = , rezultă că intervalul de încredere pentru raportul Fk2 ,k1
2 σ 12 / σ 2 mai poate fi scris sub forma: 2 ⎡⎛ s ⎞2 ⎤ ⎛ s1 ⎞ 1 ⎢⎜ ⎟ F ⎜ ⎟ F ε; ε ⎥ ⎝ s2 ⎠ n2 −1,n1 −1;1− 2 ⎝ s2 ⎠ n2 −1,n1 −1; 2 ⎦ ⎣ În problemele privind durata de funcţionare a unui produs, adesea se utilizează o repartiţie exponenţială. x≤0 ⎧0, ⎪ x f ( x, θ ) = ⎨ 1 −θ ⎪θ e , x > 0, θ > 0 ⎩ Ne propunem să determinăm un interval de încredere pentru parametrul θ , care are semnificaţie de durată medie de funcţionare. După cum ştim, funcţia caracteristică a unei variabile exponenţial negative de parametrul θ este: ϕ X ( t ) = (1 − iθ t)-1 Să efectuăm o selecţie de volum n:x1, x2, …, xn, din populaţia caracterizată de această variabilă aleatoare şi să considerăm statistica: 2 n U ( X 1 , X 2 ,..., X n ; θ ) = ∑ X j 2

θ

j =1

Funcţia ei caracteristică este: n ⎛ 2it ∑ X j ⎞ −n n n ⎛ i 2t X ⎞ 2t ⎞ ⎛ 2t ⎞ ⎛ θ j =1 itU ⎜e ⎟ = ∏ M ⎜ e θ j ⎟ = ∏ϕ X ⎜ ⎟ =⎜1 − iθ ⎟ ϕ u (t ) = M ( e ) = M ⎜ ⎟ j =1 ⎝ θ⎠ ⎠ j =1 j ⎝ θ ⎠ ⎝ ⎝ ⎠

Deci: ϕU ( t ) = (1 − 2it )

−n

care este funcţia de repartiţie a unei variabile χ (22 n ) (cu 2n

grade de libertate). Urmează că funcţia de selecţie: 2 n U ( X 1 , X 2 ,..., X n ; θ ) = ∑ X j

θ

j =1

urmează o lege de repartiţie χ

2 ( 2n )

cu 2n grade de libertate.

199

2 Atunci, pentru δ = 1 - ε dat, putem determina două numere: χ12 şi χ 2 astfel încât:

χ2 ⎛ ⎞ 2 n 1 2 n −1 − x / 2 P⎜ χ12 ≤ ∑ X j ≤ χ 2 ⎟ = n ∫ x e dx = δ = 1 − ε θ j=1 2 Γ( n ) χ 2 ⎝ ⎠ 1

2

Adoptând ipoteza construirii unui interval cu cozi egale, se obţine intervalul de încredere: n ⎡ n ⎤ 2∑ X j 2∑ X j ⎥ ⎢ j=1 ⎢ j=1 ⎥ ; 2 2 ⎢χ ε χε ⎥ ;2 n ⎢ 1− 2; 2 n ⎥ 2 ⎣ ⎦ care, cu probabilitatea δ = 1 - ε, acoperă valoarea parametrului θ . 7.9 Intervale de încredere pentru parametri în cazul selecţiilor de volum mare Am văzut că determinarea unui interval de încredere pentru parametrul θ care apare în legea de repartiţie f(x; θ ) se baza pe construirea unei funcţii de selecţie care să depindă de datele de selecţie x1, x2, …, xn, de volumul de selecţie n şi de parametrul de estimat θ . Pentru a putea determina efectiv intervalul de încredere se făceau ipoteze suplimentare asupra funcţiei de repartiţie a statisticii, printre care şi faptul că această funcţie de repartiţie nu depinde de parametrul de estimat. În cazul unei legi normale N(m; σ) se puteau obţine relativ simplu intervale de încredere pentru m sau/şi σ, indiferent dacă n (volumul selecţiei) era mic sau nu. În multe alte situaţii, aflarea funcţiei de repartiţie a statisticii este o problemă dificilă, însă putem determina repartiţia asimptotică a unei statistici care conţine parametrul necunoscut şi, deci, dacă n este suficient de mare, erorile pe care le comitem utilizând repartiţia asimptotică sunt cu totul neglijabile. Fie variabila aleatoare X cu densitatea de repartiţie f(x; θ ) ce caracterizează o populaţie C, din care se efectuează selecţia de volum n; x1, x2, …, xn . În ipoteza că valorile de selecţie sunt independente, se obţine funcţia de verosimilitate: L(x1, x2, …, xn,n; θ ) =

∏ f ( x ;θ )
j j =1

n

De aici urmează că: ∂ ln L n ∂ ln f ( x j ; θ ) =∑

∂θ

j =1

∂θ

Notând: y j = se obţine:

∂ ln f ( x j ; θ ) , ∂θ

1≤ j ≤ n,

⎛ ∂ ln f ( x; θ ) ⎞ M(Yj) = M ⎜ ⎟= ⎠ ⎝ ∂θ Presupunem că:
⎛ ∂ ln f ( x; θ ) ⎞ 0 < M2 ⎜ ⎟= ⎠ ⎝ ∂θ

∂ ln f ( x; θ ) f ( x; θ )dx = 0 ∂θ −∞

⎛ ∂ ln f ( x; θ ) ⎞ ∫ ⎜ ∂θ ⎟ f ( x;θ )dx < ∞ ⎝ ⎠ −∞

2

Atunci: ⎛ ∂ ln f ( x; θ ) ⎞ ⎛ ∂ ln f ( x; θ ) ⎞ D2 ⎜ ⎟ = M2 ⎜ ⎟, ⎝ ⎠ ⎝ ⎠ ∂θ ∂θ iar variabila:

200

∂ ln L ⎛ ∂ ln L ⎞ − M⎜ ⎟ ⎝ ∂θ ⎠ ∂θ = ⎛ ∂ ln L ⎞ D⎜ ⎟ ⎝ ∂θ ⎠

∂ ln f ( x j ; θ ) n ⎛ ∂ ln f ( x j ; θ ) ⎞ − ∑ M⎜ ⎟ ∑ ∂θ ∂θ ⎝ ⎠ j =1 j =1 = ⎛ n ∂ ln f ( x j ; θ ) ⎞ D2 ⎜ ∑ ⎟ ∂θ ⎝ j =1 ⎠
n

∑Y
j =1

n

j

nD

,

⎛ ∂ ln f ( x; θ ) ⎞ 2 unde am notat D2 ⎜ ⎟ = D , în baza teoremei lui Liapunov, este asimptotic N(0; 1). ⎝ ⎠ ∂θ Deci: n ⎞ ⎛ ⎜ ∑ Yj ⎟ 1 b 2 j=1 −x /2 ⎜ < b⎟ = lim P⎜ a < ∫ e dx ⎟ nD 2π a n →∞ ⎟ ⎜ ⎠ ⎝ şi, prin urmare, pentru n suficient de mare, statistica:
1 ∂ ln L( x1 ,.., x n ; θ ) ⋅ ∂θ nD nD ∂ ln L( x1 ,..., x n ; θ ) Dacă, în plus
j j =1

∑Y

n

=

urmează aproximativ o lege de repartiţie N(0; 1).
este strict monotonă în raport cu θ , atunci,

urmând calea obişnuită, putem construi un interval de încredere pentru θ oricare ar fi nivelul de semnificaţie ε ∈ (0; 1). Vom aprecia metoda intervalelor de încredere pentru selecţii de volum mare în cazul repartiţiei binomiale şi Poisson, apoi vom arăta că în cazul legii normale obţinem rezultatele cunoscute anterior, ceea ce este natural.
Repartiţia binomială

∂θ

Să considerăm variabila aleatoare: ⎛ 1 0⎞ X: ⎜ ⎟ , p + q = 1 (p > 0) ⎝ p q⎠ Atunci: x = 0, 1;p ∈ (0; 1) f(x; p) = px(1-p)1-x Pe baza unei selecţii x1, x2, …, xn din populaţia C caracterizate de variabila aleatoare X, obţinem: L(x1, x2, …, xn; p) = Dacă punem:

∏ f ( x ; p) = p
j j=1

n

∑xj
j=1

n

⋅ (1 − p ) j=1

∑ (1− x j )

n

∑x
j=1

n

j

= k , atunci ln L(x1, x2, …, xn, n;p) = k ln p + (n-k) ln(1-p) şi, deci:

∂ ln L k n − k k − np = = − p 1 − p p(1 − p ) ∂p x− p ∂ ln f ( x; p ) x 1 − x = = − Cum: Y = , p 1 − p p(1 − p ) ∂p
M (Y ) = M( X ) − p =0 p(1 − p )

avem imediat:

⎛ X−p ⎞ p(1 − p ) 1 1 = = D2 D 2 (Y ) = D 2 ⎜ D 2 ( X − p) = 2 ⎟= 2 2 2 p (1 − p ) p(1 − p ) ⎝ p(1 − p ) ⎠ p (1 − p )
201

Atunci variabila: k −p 1 ∂ ln P 1 k − np j =1 n = = ⋅ = 1 p(1 − p ) nD nD ∂p p(1 − p ) n p(1 − p ) n are o lege de repartiţie N(0; 1) şi, deci, pentru n suficient de mare: ⎛ k ⎞ ⎜ ⎟ −p ⎛ ⎞ ⎛ ⎞ ⎜ n P < z ε ⎟ ≈ Φ⎜ z ε ⎟ − Φ⎜ − z ε ⎟ = 1 − ε 1− ⎟ ⎜ p(1 − p ) ⎝ 1− 2 ⎠ ⎝ 1− 2 ⎠ 2 ⎜ ⎟ ⎝ ⎠ n Însă, inegalitatea:
j

∑Y

n

k −p $ $ n( p 2 − 2 pp + p 2 ) n este echivalentă cu: < z2 ε , <z ε 1− 1− p(1 − p ) p(1 − p ) 2 2 n k $ estimaţia probabilităţii p (care este tocmai frecvenţa relativă) unde am notat p = n Inegalitatea poate fi scrisă: $ $ (n + z2)p2 – (2n p + z2)p + n p 2 < 0 Dacă punem:

$ $ $ 2np + z 2 − z 4np(1 − p ) + z 2 p1 = 2 2( n + z ) $ $ $ 2 np + z 2 + 2 4np(1 − p ) + z 2 p2 = 2( n + z 2 ) adică rădăcinile ecuaţiei: $ $ (n + z2)p2 – (2n p + z2) + n p 2 = 0 , atunci:

⎞ ⎛ ⎟ ⎜ $ ⎜ p − p < z ⎟ = P( p < p < p ) = 1 − ε , sau: P ε 1 2 1− ⎟ ⎜ p(1 − p ) 2 ⎟ ⎜ ⎠ ⎝ n ⎛ 2np + z 2 − z 4np(1 − p) + z 2 $ $ $ $ $ $ 2np + z 2 + z 4np(1 − p) + z 2 P⎜ < p< 2 2 ⎜ 2(n + z ) 2( n + z ) ⎝

⎞ ⎟= ⎟ ⎠

⎛ $ $ $ $ z2 z2 4 p(1 − p) z 2 4 p(1 − p) z 2 ⎞ ⎜2p + − z $ $ + 2 + 2⎟ 2p + + z n n n n n n ⎟ = P⎜ < p< ⎛ z2 ⎞ ⎛ z2 ⎞ ⎟ ⎜ 2⎜1 + ⎟ 2⎜1 + ⎟ ⎟ ⎜ n⎠ n⎠ ⎝ ⎝ ⎠ ⎝ Deci, un interval pentru parametrul p, cu nivelul de încredere 1 - ε este dat de: ⎡ $ $ z2 4 p(1 − p ) z12−ε / 2 $ $ z2 4 p(1 − p ) z12−ε / 2 $ + 2 2 p + 1−ε / 2 − z ε ⎢ $ 2 p + 1−ε / 2 + z 21− ε + 2 1− 2 n n n n n n ⎢ 2 ; 2 2 ⎢ ⎛ ⎞ ⎛ ⎞ z z ⎢ 2⎜1 + 1−ε / 2 ⎟ 2⎜1 + 1−ε / 2 ⎟ n ⎠ n ⎠ ⎝ ⎝ ⎢ ⎣

⎤ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦
202

Cum n este suficient de mare, termenii z12−ε / 2 z12−ε / 2 , pot fi neglijaţi, şi atunci: n n2 ⎛ $ $ $ $ p(1 − p ) ⎞ p(1 − p ) $ $ <p<p+z ε P⎜ p − z ε ⎟ ≈ 1− ε 1− 1− n ⎠ n ⎝ 2 2

Repartiţia Poisson

Fie variabila aleatoare: ⎛ x ⎞ X: ⎜ −λ λx , x = 0, 1, 2, ...⎟ ⎜e ⋅ ⎟ ⎝ ⎠ x!

; x = 0,1,2,... Atunci, dacă x1, x2, …, xn este o x! selecţie de volum n, efectuată din populaţia caracterizată de variabila aleatoare X, se obţine funcţia de verosimilitate:
e − nλ ⋅ λ j =1 ∑xj !
n

repartizată Poisson, deci f(x; λ) = e −λ

λx

L( x1 , x 2 ,... x n , n; λ ) = ∏ f ( x j ; λ ) =
j =1

n

∏x
j =1

n

j

De aici urmează:

⎞ ∂lnL ⎛ n = −n + ln L( x1 , x 2 ,..., x n , n; λ ) = − nλ + ∑ x j ln λ − ln ⎜ ∏ x j !⎟ ; ∂λ ⎠ ⎝ j=1 j=1
n

∑x
j=1

n

j

λ

Totodată: ln f(x; λ) = - λ + x ln λ - ln x!

şi:

∂ ln f ( x; λ ) x x−λ = −1 + = =Y ∂λ λ λ 1 1 M( X) − λ = 0; D 2 (Y ) = 2 D 2 ( X − λ ) = = D 2 M (Y ) = λ λ λ

∑ Yj
Deci:
j=1

n

∑X
j=1

n

j

nD

=

λ
n

−n

=

X−λ

λ
n

λ
şi, prin urmare:
⎞ ⎛ ⎟ ⎜ X−λ < z⎟ = P⎜ lim ⎜ ⎟ λ n →∞ ⎟ ⎜ ⎠ ⎝ n

1 2π

−∞

∫e

z

− x2 / 2

dx

203

Atunci pentru un nivel de încredere 1 - ε dat, putem determina z n suficient de mare: ⎞ ⎛ ⎟ ⎜ ⎛ ⎞ ⎛ ⎞ X −λ P⎜ − z ε < < z ε ⎟ ≈ Φ⎜ z ε ⎟ − Φ⎜ − z ε ⎟ = 1 − ε 1− ⎟ ⎜ 1− 2 λ ⎝ 1− 2 ⎠ ⎝ 1− 2 ⎠ 2 ⎟ ⎜ ⎠ ⎝ n Din inegalitatea
X −λ <z

1−

ε
2

astfel încât, pentru

λ
n

1−

ε
2

,

care este echivalentă cu:

z 2 sau nλ2 − ( 2nX + z 2 )λ + X 2 < 0 n rezultă că putem determina λ1, λ2 astfel încât: ⎛ ⎞ ⎜ ⎟ ⎛ ⎞ ⎛ ⎞ ⎜ − z ε < X − λ < z ε ⎟ = P( λ1 < λ < λ2 ) ≈ Φ⎜ z ε ⎟ − Φ⎜ − z ε ⎟ , P 1− ⎟ ⎜ 1− 2 λ ⎝ 1− 2 ⎠ ⎝ 1− 2 ⎠ 2 ⎜ ⎟ ⎝ ⎠ n cu λ1, λ2 rădăcinile ecuaţiei: nλ2 − ( 2nX + z 2 )λ + nX 2 = 0 Cum:

X 2 − 2 Xλ + λ2 <

λ

λ1, 2 =

2nX + z ± ( 2nX + z ) − 4n X = 2n
2 2 2 2 2

2nX + z 2 ± 2nz 2n

X z2 + 4 n2 ,

⎛ z2 ε z2 ε z2 ε z2 ε ⎞ ⎜ 1− ⎟ 1− 1− 1− X X P⎜ X + 2 − z ε + 22 < λ < X + 2 + z ε + 22 ⎟ ≈ 1 − ε , 1− 1− 2n n n 2n n n ⎟ ⎜ 2 2 ⎠ ⎝ sau, dacă luăm în consideraţie faptul că n este suficient de mare, putem neglija termenul 1 2 z1−ε / 2 , iar intervalul de încredere pentru λ se obţine din: 2n ⎛ X X⎞ ⎟ ≈1− ε P⎜ X − z ε <λ <x+z ε ⎜ 1− 1− n n⎟ ⎝ ⎠ 2 2

Repartiţia normală N(m; σ)

Vom considera mai întâi cazul când se cunoaşte σ. Atunci, dacă x1, x2, …, xn este o selecţie de volum n din populaţia C caracterizată de variabila aleatoare X repartizată N(m; σ), funcţia de verosimilitate va fi:
L( x1 , x 2 ,..., x n , n; m, σ ) = ∏ f ( x j ; m, σ ) =
j =1 n

1 2π

1 2σ 2

∑ ( x j − m )2
j =1

n

)

n

e

,

204

din care rezultă:

∂ ln L 1 = 2 ∂m σ

∑ ( x j − m) =
j =1

n

⎤ 1 ⎡n x − nm⎥ 2 ⎢∑ j σ ⎣ j =1 ⎦

Totodată: ∂ ln f ( x; m, σ ) X − m = =Y, ∂m σ2 de unde rezultă: 1 2 1 ⎛ X − m⎞ 2 M (Y ) = 0, D 2 (Y ) = D 2 ⎜ ⎟ = 4 D (X − m) = 2 = D 2 ⎝ σ ⎠ σ σ Rezultă că: n 1 n ∑ X j − nm n ∑ X j − m X − m 1 n σ = ∑ Yj = n j=1 σ 2 = j=1 σ σ D n j =1 n n are o repartiţie N(0; 1) (exactă, nu numai asimptotică), deci: ⎞ ⎛ ⎟ ⎜ X−m P⎜ − z ε < < z ε ⎟ = 1− ε 1− ⎟ σ ⎜ 1− 2 2 ⎟ ⎜ ⎠ ⎝ n sau ⎛ σ σ ⎞ <m<x+z ε P⎜ X − z ε ⎟ = 1− ε 1− 1− n n⎠ ⎝ 2 2 obţinând astfel din nou un interval de încredere pentru m, când σ este cunoscut. Dacă σ este necunoscut, atunci: ⎞ ⎛ z ⎟ ⎜X−m 1 − x2 / 2 < z⎟ = P⎜ lim ∫ e dx s 2π −∞ ⎟ n →∞ ⎜ ⎟ ⎜ ⎠ ⎝ n deci, dacă n este suficient de mare: ⎞ ⎛ ⎟ ⎜ ⎛ ⎞ ⎛ ⎞ X−m P⎜ − z ε < < z ε ⎟ ≈ Φ⎜ z ε ⎟ − Φ⎜ − z ε ⎟ = 1 − ε 1− ⎟ s ⎜ 1− 2 ⎝ 1− 2 ⎠ ⎝ 1− 2 ⎠ 2 ⎟ ⎜ ⎠ ⎝ n Deci: ⎛ s s ⎞ <m<X+z ε P⎜ X − z ε ⎟ ≈ 1− ε 1− 1− n n⎠ ⎝ 2 2

205

Capitolul 8 VERIFICAREA IPOTEZELOR STATISTICE 8.1. Noţiuni generale În procesele de producţie apar frecvent situaţii când se pune problema trecerii de la un procedeu tehnologic la altul considerat a fi superior vechiului procedeu. Superioritatea unui procedeu se consideră pe baza informaţiilor de care dispunem în urma realizării unui eşantion. Dar acest fapt nu este decât o ipoteză a cărei valabilitate trebuie verificată operând după criterii ştiinţifice asupra datelor de observaţie, adică pe baza unei selecţii întâmplătoare. Un soi nou de cereale este considerat superior şi urmează a fi utilizat; înainte, însă, trebuie verificată ipoteza făcută asupra superiorităţii soiului, ipoteză care se acceptă sau nu, pe baza unei selecţii efectuate din cantităţile obţinute pe loturi experimentale şi abia după aceasta soiul va putea fi omologat. Ipotezele pe care le facem se referă atât la forma legii de repartiţie, cât şi la valorile parametrilor care intervin în legea de repartiţie. Ne vom referi la început numai la ipotezele referitoare la valorile parametrilor. Să considerăm o repartiţie unidimensională, a cărei densitate de probabilitate f(x, θ1, θ2, …, θk) depinde de k parametrii θ1, θ2, …, θk. Aceşti parametri pot fi interpretaţi ca fiind coordonatele unui punct θ = (θ1, θ2, …, θk) din spaţiul euclidian k-dimensional, Rk. Fie A o mulţime boreliană din Rk. Dacă presupunem că θ ∈ A suntem în prezenţa unei ipoteze pe care o vom nota H0 : θ ∈ A. Este natural faptul că H0 : θ ∈ A reprezintă o ipoteză, căci, deşi punctul θ ∈ Rk este bine determinat, el este totuşi necunoscut, iar apartenenţa lui la mulţimea A poate să aibă loc sau nu. Ipoteza făcută rămâne să fie verificată. Din acest motiv, ipoteza H0 o vom numi ipoteza de verificat, sau ipoteza nulă. Cum θ1, θ2, …, θk sunt parametrii unei repartiţii, rezultă că ipotezele nule sunt ipoteze restrictive şi ele se referă numai la valorile numerice pe care le pot lua parametrii unei repartiţii teoretice care este specificată. Dacă mulţimea A se reduce la un punct, A = ( θ 10 , θ 20 ,...,θ k0 ) vom spune că ipoteza H0 este o ipoteză simplă, iar dacă A conţine mai mult de un punct vom spune că ipoteza H0 este o ipoteză compusă. Verificarea ipotezei H0 : θ ∈ A se face pe baza unei selecţii de volum n : X1, X2, …, Xn, efectuată dintr-o populaţie caracterizată de variabila aleatoare X a cărei densitate de probabilitate este f(x; θ1, θ2, …, θk). Vom presupune că selecţia este repetată şi că (X1, X2, …, Xn) reprezintă un punct din spaţiul euclidian Rn. Dacă există o regiune W ⊂ Rn astfel încât: P ( X 1 , X 2 ,..., X n ) ∈ W / θ ∈ A = α , α ∈ (0, 1), apropiat de zero şi pe care-l numim nivel de semnificaţie, respingem ipoteza H0 când (X1, X2, …, Xn) ∈ W şi acceptăm ipoteza H0 când (X1, X2, …, Xn) ∉ W. Regiunea W cu proprietatea menţionată o vom numi regiunea critică. Această regiune W nu este unic determinată dacă se fixează nivelul de semnificaţie α. Orice regiune critică W ne furnizează o regulă (procedeu) pentru verificarea ipotezei H0 : θ ∈ A, regulă pe care o vom numi test. Teoria testelor de verificare a ipotezelor a fost creată de J. Neuman şi E. Pearson.

{

}

(

)

206

Existenţa mai multor regiuni critice conduce la existenţa mai multor teste pentru verificarea aceleiaşi ipoteze şi este indicat să se aleagă cel mai avantajos test, în ipoteza că acesta există. Pentru a clarifica modul de determinare a unei regiuni critice, vom lua un exemplu. Să considerăm o repartiţie normală N(m, σ) şi să verificăm ipoteza H0 : m = m0, pe baza unei selecţii X1, X2, …, Xn. Suntem în cazul k = 2 şi mulţimea A = ( m0 , σ ) , adică o dreaptă în planul (m, σ) şi, deci, avem o ipoteză compusă. Cum ⎛n⎞ ⎞ ⎛ n − Γ⎜ ⎟ t ⎟ ⎜ ⎛ ⎝2⎠ x2 ⎞ 2 X −m P ⎜−t ≤ ≤ t⎟ = ∫ ⎜1 + ⎟ dx s ⎛ n − 1⎞ − t⎝ n − 1⎠ ⎟ ⎜ ( n − 1) Π Γ⎜ ⎟ ⎠ ⎝ ⎝ 2 ⎠ n dacă H0 este adevărată, atunci: ⎛n⎞ ⎛ ⎞ n − Γ⎜ ⎟ t 2 ⎜ ⎟ ⎛ ⎞ 2 X − m0 x ⎝2⎠ P ⎜−t ≤ ≤ t⎟ = ∫⎜1 − n − 1⎟ dx s ⎛ n − 1 ⎞ − t⎝ ⎠ ⎜ ⎟ ( n − 1) Π Γ⎜ ⎟ ⎝ ⎠ ⎝ 2 ⎠ n Pentru α ∈ (0, 1) dat, apropiat de zero, putem determina tα > 0, astfel încât ⎛ ⎞ ⎜ ⎟ X − m0 P ⎜ −tα ≤ ≤ tα ⎟ = 1 − α s ⎜ ⎟ ⎝ ⎠ n Am definit în Rn o regiune W ⎧ ⎫ ⎧ ⎫ ⎪ ⎪ ⎪ ⎪ X − m0 X − m0 > tα ⎬. W = ⎨( X 1 , X 2 ,..., X n ) : < −tα ⎬ ∪ ⎨( X 1 , X 2 ,..., X n ) : s s ⎪ ⎪ ⎪ ⎪ ⎩ ⎭ ⎩ ⎭ n n Dacă (X1, X2, …, Xn) ∈ W respingem ipoteza H0 : m = m0, iar dacă (X1, X2, …, Xn) ∉ W acceptăm ipoteza H0 : m = m0. Din cele prezentate aici rezultă că acceptarea sau respingerea unei ipoteze este o convenţie. Dacă efectuăm un număr mare de selecţii, pe baza legii numerelor mari, numai într-un număr mic de cazuri punctul (X1, X2, …, Xn) va cădea în regiunea critică W şi în imensa majoritate a cazurilor va cădea în afara regiunii W. Considerăm că într-o singură experienţă (X1, X2, …, Xn) ∈ W este un eveniment rar ce se întâmplă în α % cazuri şi respingem ipoteza dacă acest lucru se întâmplă. În acest fel nu este exclus să comitem o eroare, şi anume ca punctul (X1, X2, …, Xn) ∈ W, iar ipoteza H0 să fie adevărată. Vom respinge o ipoteză adevărată cu probabilitatea α ca acest lucru să se întâmple. Eroarea pe care o comitem în acest caz este o eroare de genul întâi. Putem comite, însă, şi alt gen de erori. Se poate ca punctul (X1, X2, …, Xn) ∉ W. În acest caz se acceptă ipoteza H0, dar nu este exclus ca H0 să fie falsă. Deci, putem comite eroarea de a accepta o ipoteză falsă. Eroarea pe care o facem în acest caz este o eroare de genul al doilea. Având în vedere notaţiile făcute, avem de luat în considerare următoarele probabilităţi: (1) P((X1, X2, …, Xn) ∈ W / θ ∈ A)

{

}

207

(2) P((X1, X2, …, Xn) ∈ W / θ ∉ A) (3) P((X1, X2, …, Xn) ∉ W / θ ∈ A) (4) P((X1, X2, …, Xn) ∉ W / θ ∉ A) Expresia (1) reprezintă probabilitatea ca punctul (X1, X2, …, Xn) să aparţină regiunii critice, ipoteza H0 fiind adevărată, adică probabilitatea de a comite o eroare de genul întâi. Vom numi această probabilitate risc de speţa întâi şi o vom nota cu α. Expresia (4) reprezintă probabilitatea ca punctul (X1, X2, …, Xn) să nu aparţină regiunii critice când ipoteza H0 este falsă, adică probabilitatea de a comite o eroare de genul doi. Vom numi această probabilitate risc de genul doi, sau risc de speţa a doua şi o vom nota cu β. Alegând un test, putem, dacă mărim volumul selecţiei, să facem astfel încât riscul de genul întâi sau doi să fie arbitrar de mic. Nu putem face însă ca în acelaşi timp ambele riscuri să fie arbitrar de mici. Să fixăm unul din riscuri la un nivel suficient de mic, urmând ca celălalt să rezulte ca o consecinţă. Alegerea riscului pe care-l fixăm arbitrar de mic se face în funcţie de problema pe care o avem de rezolvat, deoarece nu există o regulă generală care să stabilească eroarea ca fiind cea mai importantă de urmărit, căreia va trebui să i se acorde o atenţie deosebită. Aşa, de exemplu, dacă dorim să urmărim compoziţia unui medicament ce conţine o substanţă ce devine toxică peste un anumit nivel, comiterea unei erori de genul doi este mult mai primejdioasă decât comiterea unei erori de speţa întâi. Ca atare, se alege arbitrar de mic riscul de speţa a doua. Dacă însă este vorba de acceptarea unui lot cu articole de îmbrăcăminte, ce nu corespund întocmai condiţiilor de fabricaţie, eroarea de genul întâi este mai gravă decât eroarea de genul al doilea şi, drept urmare, va trebui să fie fixat arbitrar de mic riscul de speţa întâi. Prin definiţie, P((X1, X2, …, Xn) ∈ W / θ ∉ A) = 1 – P((X1, X2, …, Xn) ∉ W / θ ∉ A) se numeşte puterea testului, şi îl vom nota cu Π. Deci, Π = 1 - β, adică puterea testului este egală cu unu minus riscul de speţa a doua. Înainte de a analiza un exemplu, să facem o sinteză a celor prezentate. Pentru aceasta, să observăm că ipoteza H0 : θ ∈ A, A ⊂ Rk, θ = (θ1, θ2, …, θk) constituie ipoteza de verificat – pe care o presupunem adevărată. În acest caz ipoteza falsă devine θ ∉ A, adică θ ∈ Rk \ A. Putem să ne fixăm asupra ipotezei false considerând B ⊂ Rk, A ∩ B = ∅, dar nu neapărat A ∪ B = Rk şi stabilim, odată cu ipoteza nulă H0 : θ ∈ A o ipoteză alternativă H1 : θ ∈ B. Avem, astfel, să decidem între cele două ipoteze H0 şi H1, fiecare dintre decizii comportând un risc, iar probabilităţile riscurilor sunt sintetizate în tabelul următor. D E C I Z I E REALITATE H0 1-α α H1 β 1-β=Π

H0 H1

Rezultă de aici următoarea concluzie referitoare la puterea testului: Dacă ipoteza H0 este adevărată, puterea testului va trebui să fie cât mai mică, iar dacă H1 este adevărată (H0 este falsă), puterea testului să fie cât mai mare.

208

Vom urmări modul cum variază puterea testelor pentru verificarea unei ipoteze H0, pe exemplul unei repartiţii normale N(m, σ), în care σ este cunoscut. x−m Fie ipoteza de verificat H0 : m = m0. Atunci funcţia de selecţie are o repartiţie σ/ m normală N(0, 1) şi, deci, pentru α ∈ (0, 1) suficient de apropiat de zero putem determina două numere a, b astfel încât: ⎛ ⎞ 2 ⎜ ⎟ 1 b − z2 X −m P⎜ a ≤ ≤ b⎟ = ∫ e dz = 1 − α σ 2Π a ⎜ ⎟ ⎝ ⎠ n Dacă ipoteza H0 : m = m0 este adevărată, vom avea ⎛ ⎞ 2 ⎜ ⎟ 1 b − z2 X − m0 P⎜ a ≤ ≤ b⎟ = ∫ e dz = 1 − α σ 2Π a ⎜ ⎟ ⎝ ⎠ n şi regiunea critică din spaţiul de selecţie Rn este ⎧ ⎧ aσ ⎫ bσ ⎫ ⎬ ∪ ⎨( X 1 , X 2 ,..., X n ) : X ≥ m0 + ⎬. W = ⎨( X 1 , X 2 ,..., X n ) : X ≤ m0 + ⎩ ⎩ n⎭ n⎭ Se observă că regiunea critică W este formată prin împărţirea spaţiului Rn în subspaţii, cu ajutorul hiperplanelor.

∑X

n

∑X
k =1

k =1 n

k

= nm0 + a nσ

k

= nm0 + b nσ

Cum a, b sunt determinate de unica relaţie φ(b) - φ(a) = 1 - α, rezultă că există o infinitate de teste corespunzătoare intervalelor (a, b), toate având nivelul de semnificaţie (riscul de speţa întâi) α, adică P ( X 1 , X 2 ,..., X n ) ∈ W / H 0 = α Alegând unul din aceste teste (a, b), să calculăm puterea lui, adică Π( m1 ) = P ( X 1 , X 2 ,..., X n ) ∈ W / H1 , unde H1 : m = m1 (m1 ≠ m0) Cum P ( X 1 , X 2 ,..., X n ) ∉ W / m = m1 + P ( X 1 , X 2 ,..., X n ) ∈ W / m = m1 = 1, obţinem:

(

)

(

)

(

)

(

)

n Π( m1 ) = 1 − 2Π σ

m0 +

b n

σ

e
n

n ( y − m1 ) 2σ
2

2

m0 +

a

σ

⎛ σ ⎞ ⎟ dy , X ∈ N ⎜ m, ⎝ n⎠

⎛ σ ⎞ ⎟ Dacă H1 : m = m1 e adevărată, X ∈ N ⎜ m1 , ⎝ n⎠ n ( y − m1 ) Efectuând schimbarea de variabilă = z, se obţine:

σ

209

1 Π( m1 ) = 1 − 2Π

b+

n

σ
n

( m0 − m1 )

e

z2 2

a+

σ

( m0 − m1 )

⎛ ⎞ ⎛ ⎞ n dz = 1 − φ⎜b + ( m0 − m1 ) ⎟ + φ⎜a + σn ( m0 − m1 ) ⎟ σ ⎝ ⎠ ⎝ ⎠

Dacă Π(m1) ≥ Π (m1), atunci testul (a, b) este preferat testului ( a , b) (deoarece are probabilitatea de a respinge o ipoteză falsă mai mare). Cu cât puterea testului ia o valoare mai apropiată de unu, cu atât testul este mai bun. În general, Π(m1) ≥ Π (m1) nu este îndeplinită pentru orice valoare a lui m1. Deci, numai în cazuri particulare putem găsi un test mai bun decât toate celelalte teste. Se pot determina, totuşi, teste care, pentru anumite intervale de variaţie ale lui m1, să fie mai puternice decât toate celelalte. Într-adevăr, fie funcţia de putere ⎡ ⎤ ⎡ ⎤ n Π( m1 ) = 1 − φ⎢b + ( m0 − m1 ) ⎥ + φ⎢a + σn ( m0 − m1 ) ⎥ σ ⎣ ⎦ ⎣ ⎦ Atunci 2 ⎤2 ⎤ 1⎡ n ⎧ 1⎡ n ( m0 − m1 ) ⎥ ⎫ − ⎢ a+ ⎪ n ⎪ − 2 ⎢ b+ σ ( m0 − m1 ) ⎥ 2⎣ σ ⎦ ⎦ ⎨e ⎣ ⎬ Π ' ( m1 ) = −e 2Π σ ⎪ ⎪ ⎩ ⎭

Se constată imediat că oricare ar fi testul (a, b), funcţia Π(m1), numită funcţia de putere a testului, are proprietatea că Π(m0) = α. Fie acum două teste (a, b) şi ( a , b) , cu funcţiile de putere Π(m1), respectiv Π (m1).

Π ' ( m1 ) = 0 dacă m1 = m0 +

σ

n

( a + b)

Atunci, dacă ⎛ ⎞ σ ( a + b) ⎟, Π( m1 ) < 0 m1 ∈ ⎜ −∞, m0 + ⎝ ⎠ 2 n

m1 = m0 +

σ

⎛ ⎞ σ ( a + b) , ∞⎟, Π( m1 ) > 0 m1 ∈ ⎜ m0 + ⎝ ⎠ 2 n
Urmează că Π(m1) are un minim în punctul m1 = m0 +

2 n

( a + b) , Π( m1 ) = 0

( a + b) 2 n Dacă a + b = 0, atunci Π(m1) are un minim în m1 = m0. Dacă a → ∞, atunci minimul funcţiei Π(m1) se obţine pentru m1 = - ∞; dacă b → ∞ minimul funcţiei Π(m1) se obţine pentru m1 = ∞ Între aceste două curbe extreme se situează toate celelalte situaţii; astfel, pentru a + b < 0 minimul funcţiei putere este situat la stânga lui m0, iar pentru a + b > 0 minimul este situat la dreapta lui m0. Π(m1) 1 a → -∞ ↓
A(m0, α) ↓ b→∞
210

σ

m0

În concluzie, nu există un test care pentru orice m1 ∈ (-∞,∞), Π(m1) să ia valori mai mari decât toate celelalte. Pentru intervale de variaţie ale lui m1 se pot determina teste mai puternice. Astfel, pentru toate valorile m1 ∈ (m0,∞), testul cel mai puternic corespunzător este (-∞,b), iar pentru m1 ∈ (-∞,m0), cel mai bun test este (a,∞). Pentru o selecţie de volum dat n: X1, X2, …, Xn, o funcţie de selecţie Tn (X1, X2, …, Xn), un nivel de semnificaţie α dat (riscul de speţa întâi), puterea testului pentru verificarea ipotezei H0 : θ ∈ A, cu alternativa H0 : θ ∈ B, A, B ⊂ Rk. A ∩ B = θ depinde de modul cum se construieşte regiunea critică W. Regiunea critică se construieşte astfel încât puterea testului să fie cât mai mare posibil (maximă). Testul care satisface această condiţie am văzut că este cel mai puternic test, iar existenţa unui cel mai puternic test am examinat-o pe cazul legii normale N(m,σ) cu σ cunoscut. În cazul când ipotezele H0 şi H1 sunt ipoteze simple, această problemă este rezolvată de teorema Neuman-Pearson, pe care o prezentăm mai jos. Teorema Neuman-Pearson Fie X o variabilă aleatoare caracterizată de f(x; θ) (densitatea de repartiţie sau funcţia de frecvenţă). Pe baza selecţiei de volum n : X1, X2, …, Xn , extrasă din populaţia caracterizată de X vrem să verificăm ipoteza H0 : θ = θ0, cu alternativa H1 : θ = θ1 (θ1 ≠ θ0). În acest caz există un test care are proprietatea că dintre toate testele pentru care P((X1, X2, …, Xn) ∈ W / H0) = α0, el are proprietatea că P((X1, X2, …, Xn) ∈ W / H0) = 1 - β este maximă. Acest test este determinat prin domeniul critic W ⊂ Rn, cu ajutorul inegalităţii:

∏ f (x
n j =1

j

; θ 1 ≥ C∏ f x j ; θ 0 ,
j =1

)

n

(

)

constanta C rezultând din egalitatea P((X1, X2, …, Xn) ∈ W / H0) = α0 (cu condiţia că f(x; θ) să fie mărginită). Demonstraţie. Să considerăm domeniul critic U corespunzător unui alt test cu proprietatea P((X1, X2, …, Xn) ∈ U / H0) = α0 Dar, P[(X1, X2, …, Xn) ∈ (W \ W ∩ U) / H0] = = P[(X1, X2, …, Xn) ∈ W / H0] - P[(X1, X2, …, Xn) ∈ W ∩ U / H0] = α0 - P[(X1, X2, …, Xn) ∈ W ∩ U / H0] = P[(X1, X2, …, Xn) ∈ U / H0] - P[(X1, X2, …, Xn) ∈ W ∩ U / H0] = P[(X1, X2, …, Xn) ∈ (U \ W ∩ U) / H0] Din ipoteză rezultă că P[(X1, X2, …, Xn) ∈ (W \ W ∩ U) / H1] ≥ C P[(X1, X2, …, Xn) ∈ (W \ W ∩ U) / H0], căci P[(X1, X2, …, Xn) ∈ (W \ W ∩ U) / H1] =

211

=

W \W ∩U

...∫ ∏ f x j ; θ 1 dx1 ... dx n ≥ C
j =1

n

(

)

= CP ( X 1 ,..., X n ) ∈ ( W \ W ∩ U ) / H 0 Dar

[

W \W ∩U

... ∫ ∏ f x j ;θ 0 dx1 ... dx n
J =1

N

(

)

]

CP[(X1, X2, …, Xn) ∈ (W \ W ∩ U) / H0] = C P[(X1, X2, …, Xn) ∈ (U \ W ∩ U) / H0] Însă U \ W ∩ U ⊂ CW şi, deci, pe CW avem C∏ f x j ; θ 0 ≥ ∏ f x j ; θ 1
j =1 j =1 n

(

)

n

(

)

şi, deci: P[(X1, X2, …, Xn) ∈ (W \ W ∩ U) / H1] ≥ ≥ C P[(X1, X2, …, Xn) ∈ (U \ W ∩ U) / H0) ≥ (U \ W ∩ U) / H1] De aici rezultă că P(X1, X2, …, Xn) ∈ W / H1) ≥ P[(X1, X2, …, Xn) ∈ U / H1], adică puterea testului având regiunea critică W este mai mare decât puterea testului având regiunea critică U. Să dovedim acum existenţa domeniului critic W. Pentru aceasta să notăm: ψ(c) = P[(X1, X2, …, Xn) ∈ W / H0] Se constată imediat că dacă c = 0, atunci ψ(0) = 1, întrucât regiunea W devine Rn, deoarece avem:

∏ f (x
n j =1

j

;θ 1 ≥ 0

)

Dacă c creşte, regiunea W descreşte şi, deci, funcţia ψ(0) este necrescătoare de argumentul c. Însă C ∫ ...∫ ∏ f x j ; θ 0 dx1 ... dx n ≤ ∫ ...∫ ∏ f x j ;θ 1 dx1 ... dx n ,
W j =1 W j =1 n

(

)

n

(

)

de unde rezultă c ψ(c) ≤ 1 (întrucât în membrul al doilea al inegalităţii avem o probabilitate) Deci 1 0 ≤ ψ(c) ≤ c şi de aici lim Ψ( c) = 0 Prin urmare, ψ(c) = δ , δ ∈ [0,1] are loc totdeauna pentru o valoare unic determinată a lui c, dacă c este punct de continuitate pentru ψ. Dacă c este punct de discontinuitate pentru ψ, atunci ψ(c+0)- ψ(c-0) reprezintă probabilitatea ca (X1, X2, …, Xn) să cadă în regiunea critică.
c →∞

∏ f x j ; θ 1 = C∏ f x j ; θ 0
j =1 j =1

n

(

)

n

(

)

Eliminând această mulţime de puncte din regiunea W şi adăugând-o la CW, am eliminat punctele c de discontinuitate pentru ψ şi problema este complet rezolvată.

212

Teste bazate pe metoda Neuman-Pearson Metodologia de elaborare a testelor bazate pe metoda Neuman-Pearson constă în a acorda o situaţie privilegiată ipotezei H0 : θ = θ0 , fixând apriori valoarea riscului de speţa întâi: α = α0 , pe care-l vom numi şi “nivelul” testului (nivel de semnificaţie), apoi de a alege dintre toate testele posibile cu nivelul α0 pe acela care minimizează valoarea riscului de speţa doua: β. Procedeul practic constă în a defini o regiune W ⊂ Rn (regiunea critică), astfel încât, dacă (X1, X2, …, Xn) ∈ W se acceptă H1 : θ = θ1 (θ1 ≠ θ0) (Suntem în cazul când atât ipoteza nulă, cât şi ipoteza alternativă sunt simple). Se va decide, deci, H0 dacă (X1, X2, …, Xn) ∉ W Dacă

∏ f (x
n j =1

j

;θ 0

)

este verosimilitatea eşantionului în ipoteza H0 şi

∏ f (x
n j =1

j

;θ 1

)

verosimilitatea în ipoteza H1, regiunea critică W este definită prin: n ⎧ ⎪ ∫ ...∫ ∏ f x j ; θ 0 dx1 ... dx n = α 0 ⎪ j =1 ( ∗) ⎨W n ⎪ ... f x j ; θ 1 dx1 ... dx n = β (min) ∫ ⎪W ∫ ∏ ⎩ j =1 (necunoscuta ce trebuie aflată este W) Conform teoremei Neuman-Pearson, sistemul (*) devine: n ⎧ ⎧ ⎫ ∏ f x j ;θ 1 ⎪ ⎪ ⎪ ⎪ ⎪ ⎪W = ⎨( x , x ,..., x ) / j =1 ≥ C⎬ n n 1 2 ⎪ ⎪ ⎪ ∏ f x j ;θ 0 ( ∗ ,∗) ⎨ ⎪ ⎪ ⎩ ⎭ j =1 ⎪ n ⎪ ⎪α 0 = ∫ ...∫ ∏ f x j ; θ 0 dx1 ... dx n ⎩ j =1 W Se spune că prima relaţie din (*,*) furnizează “forma” regiunii critice W, adică statistica să fie cât mai mare posibil (În cazul testului pentru media unei legi N(m; σ) se va obţine x ≥ A ). Cea de-a doua relaţie (*,*) determină “frontiera” regiunii critice W (în cazul parametrului m dintr-o repartiţie N(m; σ), fixează valoarea constantă A). Se înţelege că integralele care intervin sunt în Rn, care la nivelul acesta general nu se pot exprima. Numai în cazul particular al legilor de repartiţie a parametrilor se poate evita calculul unei integrale în Rn.

( (

)

)

(

)

(

)

(

)

Metodologia verificării ipotezei H0 simple cu alternativa H1 compusă Adesea nu ştim dacă θ = θ0, sau θ = θ1. Atunci, problema care se pune este următoarea: se poate admite că θ = θ0, sau nu? În acest caz, avem de luat în consideraţie, cel mai frecvent, testarea următoarelor ipoteze: (1) H0: θ = θ0 cu alternativa H1 : θ ≠ θ1 (2) H0: θ = θ0 cu alternativa H1 : θ > θ0 (3) H0: θ = θ0 cu alternativa H1 : θ < θ0

213

Când vorbim de ipotezele (2) şi (3) se subînţelege că dispunem de informaţii apriori asupra valorilor posibile ale parametrului unidimensional θ, H1 fiind o ipoteză compusă, adică o familie de ipoteze simple. Dacă se aplică teorema Neuman-Pearson unei valori θ 1( k ) ∈ B1 (H1 : θ ∈ B1) se determină o regiune critică W(k) asociată valorii θ 1( k ) . Pot să apară următoarele situaţii: (a) W(k) = W independent de θ 1( k ) , iar regiunea critică corespunzătoare conduce la un test de cea mai mare putere, oricare ar fi θ 1( k ) ∈ B1. Acest test va fi numit uniform cel mai puternic, ceea ce înseamnă că, deşi puterea testului variază cu θ1, pentru fiecare dintre valorile θ1 date el este cel mai puternic. (b) W(k) depinde de θ 1( k ) . Cum am presupus că nu se cunoaşte valoarea parametrului θ, se va alege atunci drept regiune critică o reuniune de regiuni critice, W = ∪ W(k), având grijă să se menţină nivelul de semnificaţie α0 fixat. În acest caz, testul nu mai are proprietatea de a fi cel mai puternic, oricare ar fi valoarea θ 1( k ) . Să aplicăm aceste rezultate pentru verificarea unei ipoteze asupra parametrului m dintr-o lege normală N(m,σ) cu σ cunoscută. Vom verifica următoarele ipoteze: (1) H0 : m = m0 ; H1 : m = m1 (2) H0 : m = m0 ; H1 : m > m0 (3) H0 : m = m0 ; H1 : m < m0 (4) H0 : m = m0 ; H1 : m ≠ m0 , cu nivelul de semnificaţie α. (1) Trebuie să determinăm mulţimea punctelor (X1, X2, …, Xn), astfel încât:
k

∏ f (x
n j =1 n j =1

j

; m1 , σ ; m0 , σ

)

∏ f (x
adică:

j

)
j

≥C ,

1 2 e 2σ σ 2Π Luând logaritmii naturali, se obţine: 1 n ∑ 2 x j ( m1 − m0 ) − ( m12 − m02 ) ≥ ln C = k , 2σ 2 j =1
j 0


j =1

n

− 1 e σ 2Π

( x −m )
1

2 n

2

( x −m ) −

2

=e

1 2σ
2

∑⎡ ( x j − m1 ) −( x j − m0 ) ⎢ ⎣
2 j =1

2

⎤ ⎥ ⎦

≥C

[

]

m1 − m0 2n X − ( m1 + m0 ) ≥ k 2σ 2 Pentru a continua calculul, va trebui să precizăm semnul diferenţei m1-m0. Dacă presupunem m1 – m0 > 0, obţinem: 1⎛ 2 kσ 2 ⎞ X≥ ⎜ m + m0 + ⎟=a m1 − m0 ⎠ 2n ⎝ 1

adică:

[

]

214

Atunci forma regiunii critice este definită astfel: (X1, X2, …, Xn) ∈ W dacă şi numai dacă X ≥ a , în care caz decidem că H1 este adevărată. Rămâne să determinăm valoarea lui a, ceea ce conduce la rezolvarea ecuaţiei:

α=

W j =1

∫∏ f ( x
n

j

; m0 dx1 ... dx n =

)

∫f
x≥a

x

( x ) dx

Aceasta înseamnă că regiunea critică W ⊂ Rn este complet determinată prin x ∈ R, adică este suficient să rezolvăm ecuaţia: α = P( X ≥ a / H 0 ) Întrucât selecţia s-a efectuat dintr-o populaţie normală N(m,σ), dacă H0 este adevărată, rezultă că: ⎛ σ ⎞ ⎟ , iar X ∈ N ⎜ m0 , ⎝ n⎠ X − m0 ∈ N ( 0,1) σ/ n şi, deci, ⎛ ⎞ ⎜X −m a − m0 ⎟ 0 ≥ =α P( X ≥ a ) = P⎜ σ σ ⎟ ⎜ ⎟ ⎝ n n ⎠ Deci, ⎛ ⎞ ⎛ ⎞ ⎜a − m ⎟ ⎜a − m ⎟ 0 0 = α ; φ⎜ = 1− α , 1 − φ⎜ σ ⎟ σ ⎟ ⎜ ⎟ ⎜ ⎟ ⎝ n ⎠ ⎝ n ⎠ a − m0 σ care conduce la: = z1−α , iar, de aici: a = m0 + z1 − α n σ/ n f X ( x)

α

m0

a

⇒ W=

(

X ( X1 ,..., X n ) : X ≥ a

)

În concluzie, se decide că H1 este adevărată dacă: z1−α = a n şi H0 în caz contrar. Să reamintim faptul că H0 : m = m0 ; H1 : m = m1 sunt ipoteze simple şi că am presupus că m1 > m0. Dacă m1 < m0, atunci: 1⎡ 2 kσ 2 ⎤ ' X≤ m1 + m0 + ⎢ ⎥=a 2n ⎣ m1 − m0 ⎦
215

X ≥ m0 +

σ

Consideraţii analoage asupra repartiţiei variabilei X când H0 este adevărată ne conduc la rezolvarea ecuaţiei: α = P( X ≤ a ' / H 0 ) , care revine la: ⎛ ⎞ ⎜a' − m ⎟ a ' − m0 0 φ⎜ = α; = zα σ ⎟ σ ⎜ ⎟ ⎝ n ⎠ n

a ' = m0 + X ≤ m0 +

σ

σ

n

zα şi se decide că H1 este adevărată dacă: zα = a '

n Să calculăm puterea testului, care am văzut că este: Π( m1 ) = P ( X 1 , X 2 ,..., X N ) ∈ W / H1 : m = m1 = P( X ≥ a / H1 ) ⎛ σ ⎞ ⎟. Dar, când H1 este adevărată, X ∈ N ⎜ m1 , ⎝ n⎠ ⎛ ⎞ ⎛ ⎞ ⎜X −m ⎟ ⎜a − m ⎟ a − m1 1 1 Π( m1 ) = P( X ≥ a / H1 ) = P⎜ ≥ ⎟ = 1− φ ⎜ ⎟ σ σ ⎟ σ ⎟ ⎜ ⎜ ⎝ ⎝ n ⎠ n n ⎠

[

]

sau

⎛ ⎞ ⎜a − m ⎟ a − m1 1 φ⎜ = z1 − Π( m1 ) ⎟ = 1 − Π( m1 ) ; σ ⎟ σ ⎜ ⎝ n ⎠ n Cum a, m1, σ, n sunt mărimi cunoscute, rezultă că: ⎛ ⎞ ⎜a − m ⎟ 1 Π( m1 ,α ) = 1 − φ ⎜ , căci “a” depinde de riscul de speţa întâi, α, pe care l-am σ ⎟ ⎜ ⎟ ⎝ n ⎠

fixat. Analog, se calculează puterea testului în cea de a doua precizare a valorii lui m1: m1 – m0 < 0. Grafic, problema apare explicată după cum urmează:

f X / H ( x)
1

f X / H ( x)
0

m0

a

m1

X

216

Ne ocupăm acum de verificarea ipotezei (2) H0 : m = m0 ; H1 : m > m0 La punctul anterior am văzut că limita este independentă de m1, ceea ce înseamnă că testul H0 : m = m0 ; H1 : m > m0 este un test uniform cel mai puternic, a cărui regiune critică este: W = ( X 1 , X 2 ,..., X n ) : X ≥ a , a cărui putere am determinat-o mai sus. (3) H0 : m = m0 ; H1 : m < m0

{

}

zα este independentă de valoarea lui m1, deci este n un test uniform cel mai puternic, a cărui regiune critică este W = ( X 1 , X 2 ,..., X n ) : X ≤ a ' . (4) H0 : m = m0 ; H1 : m ≠ m0 Combinând testele (2) şi (3) se obţin două regiuni critice. W(1), când m < m0, W (1) = ( X 1 , X 2 ,..., X n ) : X ≤ a ' .

De asemenea, limita a ' = m0 +

σ

{

}

' W(2), când m > m0, W ( 2 ) 1 2 ,..., X n Deci, în absenţa oricărei informaţii asupra adevăratei valori a parametrului m suntem conduşi la considerarea regiunii critice W = W(1) ∪ W(2). Pentru ca riscul de prima speţă să rămână tot α fixat de noi, înseamnă că putem lua

{ = {( X , X

} ) : X ≥ a }.

pentru W(1) şi W(2) riscul

α

⎡ ⎤ ⎡ ⎤ σ σ W = ⎢( X 1 , X 2 ,..., X n ) : X ≤ m0 + z α ⎥∪ ⎢( X 1 , X 2 ,..., X n ) : X ≥ m0 + z α⎥ n 2⎦ ⎣ n 1− 2 ⎦ ⎣ În acest caz, regula de decizie va fi următoarea: Se acceptă H0 dacă:
z α n 2 n 1− 2 şi se acceptă H1 în caz contrar. Teste referitoare la parametrul θ în cazul unei repartiţii Poisson. Pe baza unei selecţii de volum n : X1, X2,…,Xn ne propunem să verificăm următoarele ipoteze. (1) H0 : θ = θ0, H1 : θ = θ1 nivelul de semnificaţie fiind α (2) H0 : θ = θ0, H1 : θ > θ0 (3) H0 : θ = θ0, H1 : θ < θ0 (4) H0 : θ = θ0, H1 : θ ≠ θ0 (1) Conform teoremei Neuman-Pearson, determinăm mai întâi forma regiunii critice: x n e −θ1 θ 1 j n ∏ x! ∑xj ⎛ θ ⎞ j =1 j =1 j = e n( θ 0 −θ1 ) ⎜ 1 ⎟ ≥C −θ 0 x j n ⎝θ 0 ⎠ e θ0 ∏ x! j =1 j Logaritmând, obţinem: n( θ 0 − θ 1 ) + ∑ x j ln
j =1 n

2

, şi atunci:

m0 +

σ

z α < X < m0 +

σ

θ1 ≥ ln C = k θ0

Va trebui să precizăm iarăşi unul din cazurile θ1 > θ0 sau θ1 < θ0. Presupunem că θ1 > θ0. Atunci:

217

∑x
j =1

n

j

k + n( θ 1 − θ 0 )

Valoarea lui “a” se determină cu ajutorul ecuaţiei: ∑ x j ≥a
j =1 n

θ1 ln θ0 θ0
xj

=a

∑ ∏e
j =1

n

−θ 0

xj!

Ecuaţia aceasta se poate transforma în alta mai simplă, ţinând cont de faptul că urmează tot o lege Poisson de parametru nθ. În acest caz, “a” se determină din ecuaţia: ∑ P( Y = y k / nθ 0 ) = α ,
yk ≥ a

∑x
j =1

n

j

unde:
P( Y = y k / n θ 0 ) = e
− nθ 0

( nθ )
0

yk

yk !

yk = 0, 1, 2, 3, … şi, deci, se pot utiliza tabelele legii Poisson pentru variabila Z. Dacă θ1 < θ0, atunci: ln
k + n( θ 1 − θ 0 )

θ1 < 0 , şi, deci: θ0

∑x
j =1

n

j

şi ecuaţia din care se determină a’ va fi: ∑ P( Y = y k / nθ 0 ) = α
yk ≤ a '

θ ln 1 θ0

= a'

şi, cu ajutorul tabelelor, se determină a’. (2) H0 : θ = θ0, H1 : θ > θ0. Preluând calculele din cazul (1), regiunea critică a testului este: n ⎡ ⎤ W = ⎢( X 1 , X 2 ,..., X n ) : ∑ x j ≥ a ⎥ , ⎣ ⎦ j =1 cu a determinat de ecuaţia: ∑ P( Y = y k / nθ 0 ) = α
yk ≤ a

Testul este uniform cel mai puternic, întrucât regiunea critică este independentă de valoarea θ1 > θ0. (3) H0 : θ = θ0, H1 : θ < θ0. Regiunea critică a testului este: n ⎡ ⎤ W = ⎢( X 1 , X 2 ,..., X n ) : ∑ x j ≤ a ' ⎥ , ⎣ ⎦ j =1 cu a’ determinat de ecuaţia: ∑ P( Y = y k / nθ 0 ) = α
yk ≤ a '

Întrucât regiunea critică W este independentă de valorile θ1 < θ0, urmează că testul este uniform cel mai puternic.
218

(4) Regiunea critică în acest caz este: W = W(1) ∪ W(2), unde: n ⎡ ⎤ W ( 1) = ⎢( X 1 , X 2 ,..., X n ) : ∑ x j ≥ a ⎥ ⎣ ⎦ j =1 n ⎡ ⎤ W ( 2 ) = ⎢( X 1 , X 2 ,..., X n ) : ∑ x j ≤ a ' ⎥ , ⎣ ⎦ j =1 unde a şi a’ se determină din relaţiile:
yk ≥ a

2 yk ≤ a ' 2 şi acest test este uniform cel mai puternic, iar decizia se ia în modul următor: Dacă a < ∑ x j < a , decidem H0, în caz contrar se decide H1.
' j =1 n

∑ P( Y = y

k

/ nθ 0 ) =

α

;

∑ P( Y = y

k

/ nθ 0 ) =

α

Verificarea ipotezei referitoare la dispersia σ2 a unei legi normale N(m,σ), pe baza unei selecţii de volum: X1, X2, … , Xn, presupunând m cunoscut. 2 H 0 :σ 2 = σ 0 ; H1 :σ 2 = σ 12 cu nivelul de semnificaţie α.

∏σ
j =1 n

n

1

1 e 2Π

( x − m)
j 2 2σ 1

2

1 2 e 2σ 0 j =1 0 2Π care, prin logaritmare, ne conduce la: 2⎛ 1 σ 1 n 1 ⎞ n ln 0 − ∑ x j − m ⎜ 2 − 2 ⎟ ≥ ln C = k σ 1 2 j =1 ⎝σ 1 σ 0 ⎠ Precizând σ1 > σ0, se obţine: n ⎛ 2 σ ⎞ ∑ x j − m 2⎜ k + n ln σ 1 ⎟ ⎝ j =1 0 ⎠ =a ≥ 2 2 σ0 ⎛σ 0 ⎞ 1− ⎜ ⎟ ⎝σ1 ⎠ Am obţinut forma regiunii critice, care ne conduce la acceptarea ipotezei H1 : σ2 = σ 12 , 2 1 n dacă 2 ∑ x j − m ≥ a .

∏σ

n ⎛ σ 0 ⎞ − 2 ∑ ( x j − m) ⎟ e j =1 2 = ⎜ x j −m) ( ⎝σ1 ⎠ − 1

n

2⎛

1 1 ⎞ ⎜ 2− 2⎟ ⎝ σ1 σ 0 ⎠

≥C

(

)

(

)

σ0

j =1

(

)

Valoarea “a” se determină din ecuaţia:


1
2 σ0

∑ ( x j − m)
j =1

n

2

≥a

∏σ
j =1

n

2 0

1 e 2Π

( x − m)
j 2 2σ 0

2

dx1dx 2 ... dx n = α cont de faptul că dacă H0 este adevărată,

1

σ

2 0 j =1

∑( x
n

Această
j

−m

)

ecuaţie,

ţinând

2

= χ (2n ) , devine:

P χ (2n ) ≥ a = α , adică a = χ (2n ) ,α , care se obţine din tabelul legii de repartiţie χ 2 .
Dacă σ1 < σ0, atunci:

(

)

219

1

⎛σ 0 ⎞ ⎜ ⎟ −1 ⎝σ1 ⎠ iar a’ se determină din ecuaţia:

σ

2 0 j =1

∑( x
n

j

−m

)

2

⎛ σ1 ⎞ 2⎜ k + n ln ⎟ σ0 ⎠ ⎝
2

= a' ,


1
2 σ0

∑ ( x j − m)
j =1

n

2

≤a

− 1 ∏ σ 2Π e j =1 0 '

n

( x − m)
j 2 2σ 0

2

dx1dx 2 ... dx n = α ,

care este echivalentă cu ecuaţia: P χ (2n ) ≤ a ' = α , adică a ' = χ (2n ) ,1−α , care se obţine din tabele.

(

)

2 2 Verificarea ipotezei: H 0 :σ 2 = σ 0 ; H1 :σ 2 > σ 0 . Se obţine forma regiunii critice: ⎛ σ1 ⎞ 2⎜ k + n ln ⎟ 2 σ0 ⎠ ⎝ 1 n =a , ∑ xj − m ≥ 2 2 σ 0 j =1 ⎛σ 0 ⎞ 1− ⎜ ⎟ ⎝σ 1 ⎠ cu valoarea lui “a” determinată din ecuaţia: P χ (2n ) ≥ a / H 0 = α , adică a = χ (2n ) ,α

(

)

(

)

n ⎡ ⎤ 2 2 W⎢( X 1 , X 2 ,..., X n ) : ∑ x j − m ≥ σ 0 χ (2n ) ,α ⎥ ⎣ ⎦ j =1 2 2 şi cum W este independent de valorile lui σ 1 > σ 0 , rezultă că este uniform cel mai puternic. În cazul ipotezei: 2 2 H 0 : σ 2 = σ 0 ; H 1 :σ 2 < σ 0 ⎛ σ1 ⎞ 2⎜ k + n ln ⎟ n 2 σ0 ⎠ ⎝ 1 = a' , ≤ 2 ∑ xj − m 2 σ 0 j =1 ⎛σ 0 ⎞ 1− ⎜ ⎟ ⎝σ1 ⎠ cu valoarea lui a’ determinată din ecuaţia: P χ (2n ) ≤ a ' / H 0 = α , adică a ' = χ (2n ) ,1−α

(

)

(

)

(

)

n ⎡ ⎤ 2 2 W⎢( X 1 , X 2 ,..., X n ) : ∑ x j − m ≤ σ 0 χ (2n ) ,1−α ⎥ ⎣ ⎦ j =1 W fiind independent de σ1 < σ0, testul este uniform cel mai puternic. Verificarea ipotezei: 2 2 H 0 :σ 2 = σ 0 ; H1 :σ 2 ≠ σ 0 , nivelul de semnificaţie fiind α. n ⎤ ⎡ 2 2 W ( 1) = ⎢( X 1 , X 2 ,..., X n ) : ∑ x j − m ≥ σ 0 χ 2 α ⎥ ( n) , ⎦ j =1 ⎣ 2 n ⎡ ⎤ 2 2 W ( 2 ) = ⎢( X 1 , X 2 ,..., X n ) : ∑ x j − m ≥ σ 0 χ 2 α ⎥ ( n ) ,1− ⎦ j =1 ⎣ 2 şi

(

)

(

)

(

)

220

W = W ( 1) ∪ W ( 2 ) , cu decizia că H0 este adevărată dacă:
2 σ0 χ2

( n ) ,1−

α
2

< ∑ xj − m
j =1

n

(

)

2

2 < σ0 χ2

( n) ,

α
2

,

în caz contrar fiind adevărată H1. 8.2. Metoda intervalelor de încredere pentru verificarea ipotezelor statistice asupra parametrilor legilor normale Verificarea ipotezei H0 : m = m0; H1 : m = m1 ≠ m0, cu nivelul de semnificaţie α, σ fiind cunoscut. x−m Se consideră statistica = Z ∈ N ( 0,1) .

σ

n Dacă H0 este adevărată: x − m0 Z=

σ

n
Atunci: ⎞ ⎛ ⎟ ⎜ x−m 0 P⎜ < Zδ ⎟ = 1 − α = δ , ⎟ ⎜ σ ⎟ ⎜ ⎠ ⎝ n care (am văzut la intervale de încredere) ne conduce la regiunea critică: ⎡ σ ⎤ ⎡ σ ⎤ W = ⎢( X 1 , X 2 ,..., X n ) : X ≤ m0 − Z α ⎥∪ ⎢( X 1 , X 2 ,..., X n ) : X ≥ m0 − Z α ⎥ 1− 1− n⎦ ⎣ n⎦ ⎣ 2 2 Puterea testului: ⎛m − m ⎞ ⎛m − m ⎞ 1 1 Π( W1 , m1 ) = Φ⎜ 0 n − Z α ⎟ + 1 − Φ⎜ 0 n+Z α⎟ 1− ⎠ 1− ⎠ ⎝ σ ⎝ σ 2 2 Acesta este numit testul Z bilateral. Dacă: H0 : m = m0; H1 : m2 > m0 Avem testul Z unilateral dreapta, cu regiunea critică: ⎡ σ ⎤ W = ⎢( X 1 , X 2 ,..., X n ) : X ≥ m0 + Z1−α ⎣ ⎦ n⎥ Dacă X ≥ m0 + Z1−α

σ

⎛ m1 − m0 ⎞ n + Zα ⎟ . Puterea testului este Π( W , m1 ) = Φ⎜ ⎝ σ ⎠ Dacă H0 : m = m0; H1 : m < m0, avem testul Z unilateral stânga, cu regiunea critică: ⎡ ⎤ σ W = ⎢( X 1 , X 2 ,..., X n ) : X ≤ m0 − Z1−α ⎥ , ⎣ ⎦ n ⎞ ⎛ m − m1 iar puterea testului: Π( m1 ) = Φ⎜ 0 n + Zα ⎟ . ⎠ ⎝ σ

n

se acceptă H1, iar dacă X < m0 + Z1−α

σ

n

se acceptă H0.

221

8.3. Testul T pentru verificarea ipotezei referitoare la media unei populaţii normale N(m,σ), (cu σ necunoscut)

Se consideră statistica: x−m T= , s n care, în cazul H0 este adevărată, devine: x − m0 T= s n şi are o repartiţie Student cu n-1 grade de libertate. Atunci, pentru α dat: ⎞ ⎛ ⎟ ⎜ x−m 0 P⎜ < t1−α ⎟ = 1 − α ⎟ ⎜ σ ⎟ ⎜ ⎠ ⎝ n În cazul ipotezei: H0 : m = m0; H1 : m ≠ m0 avem testul T bilateral, cu regiunea critică: ⎡ s ⎤ ⎡ s ⎤ W = ⎢( X 1 , X 2 ,..., X n ) : X ≤ m0 − t α ⎥∪ ⎢( X 1 , X 2 ,..., X n ) : X ≥ m0 − t α ⎥ 1− 1− n⎦ ⎣ n⎦ ⎣ 2 2 Un raţionament analog cu testul Z ne conduce la: Testul T unilateral dreapta H0 : m = m0; H1 : m > m0, σ - necunoscut, cu regiunea critică: ⎡ s ⎤ W = ⎢( X 1 , X 2 ,..., X n ) : X ≥ m0 + t1−α ⎣ ⎦ n⎥ Testul T unilateral stânga H0 : m = m0; H1 : m < m0, σ - necunoscut, cu regiunea critică: ⎡ s ⎤ W = ⎢( X 1 , X 2 ,..., X n ) : X ≤ m0 − t1−α ⎣ ⎦ n⎥ 2 2 Testul χ , referitor la dispersia σ a unei repartiţii normale N(m,σ). 2 2 Ne propunem să verificăm ipoteza: H 0 :σ 2 = σ 0 , faţă de ipoteza H1 :σ 2 ≠ σ 0 , cu nivelul de semnificaţie α. ( n − 1) s 2 , care are o repartiţie χ (2n−1) (hi-pătrat cu n-1 grade de Considerăm statistica 2

( n − 1) s 2 libertate). Dacă H0 este adevărată, atunci statistica devine şi pentru α dat se pot 2 σ0 2 determina χ 12 şi χ 2 , astfel încât: ⎛ ⎞ ( n − 1) s 2 2 P⎜ χ 12 < < χ2 ⎟ = 1− α 2 σ0 ⎝ ⎠
Dacă adoptăm metoda cozilor egale, atunci: ⎛ ⎞ ( n − 1) s 2 2 P⎜ χ 2 α < < χ α ⎟ = 1− α 2 ;n −1 ⎠ σ0 ⎝ 1− 2 ;n−1 2
222

σ

şi regiunea critică pentru verificarea ipotezei H0 devine: ⎡ ⎤ 2 W = ⎢( X 1 , X 2 ,..., X n ) : ( n - 1) s 2 ≤ σ 0 χ 2 α ⎥ ∪ 1− ;n −1 ⎦ ⎣ 2
⎡ ⎤ 2 2 ∪ ⎢( X 1 , X 2 ,..., X n ) : ( n - 1) s 2 ≥ σ 0 χ α ⎥ ;n −1 ⎦ ⎣ 2 2 2 2 Ori de câte ori ( n − 1) s 2 ≤ σ 0 χ 2 α sau ( n − 1) s 2 ≥ σ 0 χ α
1− ;n −1 2 2

;n −1

decidem că H1 este

adevărată, iar dacă: 2 2 2 σ 0 χ 2 α < ( n − 1) s 2 < σ 0 χ α
1− ;n −1 2 2

; n −1

decidem că H0 este adevărată. Avem, în felul acesta, testul χ2 bilateral. Când dispunem de informaţii apriori asupra dispersiei σ2, avem unul din testele χ2 unilaterale: 2 2 H 0 :σ 2 = σ 0 ; H1 :σ 2 > σ 0 - testul χ2 unilateral dreapta, sau: 2 2 H 0 :σ 2 = σ 0 ; H1 :σ 2 < σ 0 - testul χ2 unilateral stânga. În cazul testului χ2 unilateral dreapta, regiunea critică corespunzătoare nivelului de semnificaţie α dat este: 2 W = ( X 1 , X 2 ,..., X n ) : ( n - 1) s 2 ≥ σ 0 χ 12−α ;n−1

[

]

Regula de verificare este următoarea: Dacă ( n − 1) s 2 < σ 0 χ 12−α ;n−1 se acceptă H0, iar dacă ( n − 1) s 2 ≥ σ 0 χ 12−α ;n−1 se acceptă H1. În cazul testului χ2 unilateral stânga, regiunea critică corespunzătoare nivelului de semnificaţie α este: 2 2 W = ( X 1 , X 2 ,..., X n ) : ( n - 1) s 2 ≤ σ 0 χ α ;n−1
2 Se acceptă H0 dacă ( n − 1) s > σ 0 χ α ;n−1, iar dacă ( n − 1) s 2 ≤ σ 0 χ α ;n−1 se acceptă H1. Testul Z relativ la mediile m1 şi m2 a două populaţii normale N(m1,σ2). Se consideră selecţiile: x11 , x12 ,..., x1n1 din populaţia normală N(m1,σ1) 2 2

[

]

şi:

x 21 , x 22 ,..., x 2 n2 din populaţia normală N(m2,σ2) Pe baza acestor selecţii obţinem: 2 1 n1 1 n1 2 x 1 = ∑ x1 j ; s1 = ∑ x − x1 ; n1 j =1 n1 − 1 j =1 1 j

(

)

1 n2 1 n2 2 x2 = x 2 j ; s2 = ∑ ∑ x − x2 n2 j =1 n2 − 1 j =1 2 j 2 În situaţia σ 12 = σ 2 , să verificăm ipoteza H0 : m1 = m2, cu alternativa H1 : m1 ≠ m2, nivelul de semnificaţie fiind α. 2 Dispersiile σ 12 şi σ 2 fiind cunoscute, rezultă că statistica:

(

)

2

Z=

x 1 − x 2 − ( m1 − m2 )

σ 12
n1

+

2 σ2

are o repartiţie normală N(0;1).

n2

223

Dacă H0 este adevărată, atunci: x1 − x 2 Z= ∈ N ( 0,1) 2 2

σ1

n1 n2 Pentru nivelul de semnificaţie α dat, obţinem regiunea critică: 2 ⎧ ⎪ ⎪ σ 12 σ 2 ⎫ ⎬∪ W = ⎨ x11 ,..., x1n1 ; x 21 ,..., x 2 n2 : x 1 − x 2 ≤ − z α + ⎪ 1− n1 n2 ⎪ ⎭ ⎩ 2

+

σ2

(

)

2 ⎧ ⎪ ⎪ σ 12 σ 2 ⎫ ⎬ ∪⎨ x11 ,..., x1n1 ; x 21 ,..., x 2 n2 : x 1 − x 2 ≥ z α + ⎪ 1− n1 n2 ⎪ ⎩ ⎭ 2 Avem, în acest caz, testul Z bilateral pentru verificarea ipotezei H0 : m1 = m2; H1 : m1 ≠ m2. Testul Z unilateral dreapta: H0 : m1 = m2; H1 : m1 > m2 are regiunea critică: 2 ⎧ ⎪ ⎪ σ 12 σ 2 ⎫ ⎬ W = ⎨ x11 ,..., x1n1 ; x 21 ,..., x 2 n2 : x 1 − x 2 ≥ z1−α + ⎪ n1 n2 ⎪ ⎩ ⎭

(

)

(

)

şi se acceptă H0 ori de câte ori x 1 − x 2 < z1−α

σ 12
n1

+

2 σ2

n2

, în caz contrar acceptând ipoteza

H1 : m1 > m2. Testul Z unilateral stânga: H0 : m1 = m2; H1 : m1 < m2 are regiunea critică: 2 ⎧ ⎪ ⎪ σ 12 σ 2 ⎫ ⎨ x11 ,..., x1n1 ; x 21 ,..., x 2 n2 : x 1 − x 2 ≤ − z1−α ⎬ W= + ⎪ n1 n2 ⎪ ⎩ ⎭

(

)

cu regula de acceptare a ipotezei H0 sau H1, după cum x 1 − x 2 > − z1−α
x 1 − x 2 ≤ − z1−α

σ 12
n1

+

2 σ2

n2

, respectiv

. n1 n2 Testul T (Student) pentru verificarea ipotezei referitoare la egalitatea mediilor a două 2 populaţii normale N(m1,σ1), N(m2,σ2) cu σ 12 = σ 2 = σ 2 necunoscută. Testul T bilateral: Verificăm ipoteza: H0 : m1 = m2; H1 : m1 ≠ m2, nivelul de semnificaţie fiind α. Dacă se consideră statistica:
2 − 1) s12 + ( n 2 − 1) s2 ⎛ 1 1⎞ ⎜ + ⎟ n1 n 2 n1 + n 2 − 2 ⎝ n1 n 2 ⎠ aceasta are o repartiţie Student cu n1 + n2 – 2 grade de libertate.

σ 12

+

2 σ2

T=

x 1 − x 2 − ( m1 − m2 )

σ 12

+

2 σ2

:

(n

1

(n

2 − 1) s12 + ( n 2 − 1) s2 1

+ n 2 − 2 )σ 2

=

x 1 − x 2 − ( m1 − m2 )

(n

1

224

Dacă H0 este adevărată, statistica T devine: x1 − x 2 T= ( n1 − 1) s12 + ( n1 − 1) s22 ⎛ 1 1 ⎞ ⎜ + ⎟ n1 + n 2 − 2 ⎝ n1 n 2 ⎠ Pentru nivelul de semnificaţie α dat se obţine regiunea critică: ⎧ ⎪ ⎪ ( n1 − 1) s12 + ( n2 − 1) s22 ⎛ 1 1 ⎞ ⎫ W = ⎨ x11 ,..., x1n1 ; x 21 ,..., x 2 n2 : x 1 − x 2 ≤ − t α ⎜ + ⎟⎬∪ 1− n1 + n2 − 2 ⎝ n1 n2 ⎠ ⎪ ⎪ 2 ⎭ ⎩

(

)

⎧ ⎪ ⎪ ( n1 − 1) s12 + ( n2 − 1) s22 ⎛ 1 1 ⎞ ⎫ ∪⎨ x11 ,..., x1n1 ; x 21 ,..., x 2 n2 : x 1 − x 2 ≥ t α ⎜ + ⎟⎬ 1− n1 + n2 − 2 ⎝ n1 n2 ⎠ ⎪ ⎪ 2 ⎩ ⎭ Testul T unilateral dreapta H0 : m1 = m2; H1 : m1 > m2 Pentru α dat se obţine regiunea critică: ⎧ ⎪ ⎪ ( n1 − 1) s12 + ( n2 − 1) s22 ⎛ 1 1 ⎞ ⎫ W = ⎨ x11 ,..., x1n1 ; x 21 ,..., x 2 n2 : x 1 − x 2 ≥ t1−α ⎜ + ⎟⎬ n1 + n2 − 2 ⎝ n1 n2 ⎠ ⎪ ⎪ ⎩ ⎭ Testul T unilateral stânga H0 : m1 = m2; H1 : m1 < m2, cu regiunea critică: ⎧ ⎪ ⎪ ( n1 − 1) s12 + ( n2 − 1) s22 ⎛ 1 1 ⎞ ⎫ W = ⎨ x11 ,..., x1n1 ; x 21 ,..., x 2 n2 : x 1 − x 2 ≤ −t1−α ;n1 + n2 − 2 ⎜ + ⎟⎬ n1 + n2 − 2 ⎝ n1 n2 ⎠ ⎪ ⎪ ⎩ ⎭

(

)

(

)

(

)

Verificarea ipotezei referitoare la egalitatea dispersiilor a două populaţii normale Se consideră selecţiile x11 ,..., x1n1 din legea N(m1;σ1) şi x 21 , x 22 ,..., x 2 n2 , din legea N(m2;σ2). Pe baza lor se obţin: 2 2 1 n1 1 n2 1 n1 1 n2 2 2 x1 = ∑ x1 j ; x 2 = n ∑ x 2 j ; s1 = n − 1 ∑ x1 j − x 1 ; s2 = n − 1 ∑ x 2 j − x 2 n1 j = 1 j =1 j =1 2 j =1 1 2 Atunci variabila: 2 σ 2 s12 F= 2⋅ 2 σ 1 s2 urmează o lege de repartiţie Snedecor-Fisher cu n1 – 1, n2 – 1 grade de libertate, respectiv. Testul F bilateral 2 2 H 0 :σ 12 = σ 2 ; H1 :σ 12 ≠ σ 2 s2 Dacă ipoteza H0 este adevărată, atunci statistica F devine F = 12 , care are o lege s2 Snedecor-Fisher cu n1 – 1, n2 – 1 grade de libertate.

(

)

(

)

Pentru nivelul de semnificaţie α dat se pot determina cvantilele (numerele) Fn1 −1,n2 −1 ; şi Fn1 −1,n2 −1 ;1 −

α

α
2

2

, astfel încât:

225

⎛ s2 ⎞ α P⎜ 12 ≤ F α ⎟= n1 −1,n2 −1; ⎠ 2 ⎝ s2 2 şi
⎛ s2 ⎞ α P⎜ 12 ≥ F α ⎟= n1 −1,n2 −1;1− ⎠ 2 ⎝ s2 2

şi regiunea critică este dată de: 2 ⎧ ⎫ s1 W = ⎨ x11 ,..., x1n1 ; x 21 ,..., x 2 n2 : 2 ≤ F α ⎬∪ n1 −1,n2 −1; ⎭ s2 ⎩ 2

(

)

2 ⎧ ⎫ s1 ∪⎨ x11 ,..., x1n1 ; x 21 ,..., x 2 n2 : 2 ≥ F α ⎬ n1 −1,n2 −1;1− ⎭ s2 ⎩ 2 Testul F unilateral dreapta Avem de verificat ipoteza: 2 2 H 0 :σ 12 = σ 2 , cu alternativa H1 :σ 12 > σ 2 , la nivelul de semnificaţie α. Atunci se determină 1 - α cvantila Fn1 −1,n2 −1;1−α , pentru care: ⎛ s12 ⎞ P⎜ 2 ≥ Fn1 −1,n2 −1;1−α ⎟ = α ⎝ s2 ⎠ şi de aici rezultă regiunea critică: 2 ⎧ ⎫ s1 W = ⎨ x11 ,..., x1n1 ; x 21 ,..., x 2 n2 : 2 ≥ Fn1 −1,n2 −1;1−α ⎬ s2 ⎩ ⎭ Testul F unilateral stânga 2 2 Ipoteza de verificat H 0 :σ 12 = σ 2 , cu alternativa H1 :σ 12 < σ 2 La nivelul de semnificaţie α determinăm Fn1 −1,n2 −1;α , pentru care: ⎛ s12 ⎞ P⎜ 2 ≤ Fn1 −1,n2 −1;α ⎟ = α ⎝ s2 ⎠ şi, deci, regiunea critică este: ⎧ ⎫ s2 W = ⎨ x11 ,..., x1n1 ; x 21 ,..., x 2 n2 : 1 ≤ Fn1 −1,n2 −1;α ⎬ 2 s2 ⎩ ⎭

(

)

(

)

(

)

Puterea testului pentru o valoare dată a raportului

2 ⎛ s12 ⎞ ⎛ σ 2 s12 ⎞ 1 ⎞ ⎛ 2 2 Π( W , k ) = P⎜ 2 > Fn1 −1,n2 −1;1−α σ 1 = kσ 2 ⎟ = P⎜ 2 ⋅ 2 > Fn1 −1,n2 −1;1−α ⎟ = P⎜ Fn1 −1,n2 −1 > Fn1 −1,n2 −1;1−α ⎟ ⎠ ⎝ k ⎝ s2 ⎠ ⎝ σ 1 s2 ⎠ Tabelele pentru variabila Fh1 ,h2 fiind cu triplă intrare sunt mult mai complicate decât cele pentru variabila χ (2n ) sau variabila Student T(n). De aceea, s-a căutat să se simplifice cât mai mult şi, în acest scop, ele sunt construite numai pentru valori ale variabilei Fn1 ,n2 mai mari decât unu. În aplicaţii nu constituie nici un inconvenient, întrucât atunci când constituim s2 2 raportul 12 avem grijă ca la numărător să luăm dispersia de selecţie mai mare ( s12 > s2 ) . O s2 atenţie deosebită va trebui să acordăm ordinii în care scriem gradele de libertate, dat fiind faptul că:

σ 12 2 = k este dată de expresia: σ2

226

χ (2h )
1

Fh1 ,h2 =

h1

χ

2 ( h2 )

=

1

χ

2 ( h2 )

=

1 Fh2 ,h1

h2

h2

χ (2h )
1

h1 Această relaţie ne dă posibilitatea să determinăm din aceleaşi tabele şi valorile variabilei mai mici decât unu.

Teste pentru verificarea ipotezei privind egalitatea unui şir de dispersii. Testul lui Cochran şi testul lui Hartley

Astfel de probleme se pun ori de câte ori se urmăreşte omogenitatea datelor, concret, omogenitatea produselor realizate în cadrul unui proces de producţie. Problema care se pune este următoarea: efectuându-se selecţiile xi1, xi2,…,xin din populaţiile normale N(m,σi), 1 ≤ i ≤ k, dorim să verificăm ipoteza: 2 2 H 0 :σ 12 = σ 2 =... = σ k , cu alternativa: H1 : există i , j ∈ {1,2,..., k } , astfel încât σ i2 ≠ σ 2 , la nivelul de semnificaţie α dat. j Dacă pe baza selecţiilor efectuate punem: 2 1 n 1 n x i = ∑ x ij , si2 = ∑ x ij − x i ,1 ≤ i ≤ k , n j =1 n − 1 j =1 atunci testul lui Cochran foloseşte statistica: s2 G = k max , ∑ si2

(

)

2 2 = max{ s12 , s2 ,..., sk } . Se demonstrează că funcţia de repartiţie a variabilelor aleatoare G depinde numai de numărul de grade de libertate h = n-1 şi numărul k al selecţiilor. Valorile variabilei G sunt tabelate în funcţie de n-1, de k şi nivelul de semnificaţie α. Cu ajutorul valorii critice G(α,n-1,k) se construieşte regiunea critică: ⎧ ⎫ 2 ⎪ ⎪ ⎪ ⎪ s max ⎨ xij (α , n − 1, k ) ⎬ W= : k ≥G 1≤ i ≤ k,1≤ j≤ n ⎪ ⎪ ∑ s2i ⎪ ⎪ ⎩ ⎭ i=1 Regula după care se verifică ipoteza H0 este următoarea: s2 Dacă k max ≥ G( α , n − 1, k ) se acceptă H1; ∑ si2

i =1

unde s

2 max

( )

i =1

dacă

2 smax

∑s
i =1

k

< G( α , n − 1, k ) , se acceptă H0.

2 i

227

Dacă s-a verificat ipoteza H0 (dispersiile sunt omogene), se ia ca estimaţie a dispersiei comune, media aritmetică a dispersiilor si2 , 1 ≤ i ≤ k, 1 k $ 2 = ∑ si2 σ k i =1 Testul lui Hartley Ca şi testul prezentat anterior, se utilizează pentru verificarea ipotezei: 2 2 H 0 :σ 12 = σ 2 =... = σ k cu alternativa: H1 : există i , j ∈ {1,2,..., k } , astfel încât σ i2 ≠ σ 2 . j Statistica utilizată şi care poartă numele de statistica lui Hartley este: max si2 1≤ i ≤ k H= min si2
1≤ i ≤ k

are o funcţie de repartiţie ce depinde de numărul n-1 de grade de libertate şi de k. Ea a fost tabelată de Hartley şi pentru un nivel de semnificaţie α dat ne dă posibilitatea să determinăm (k) H n−1;1−α , astfel încât:
(k) P H < H n−1;1−α = 1 − α

(

)

Urmează, de aici, regiunea critică: ⎧ ⎫ max si2 ⎪ ⎪ 1≤ i ≤ k (k) W = ⎨ x ij ,1 ≤ i ≤ k ;1 ≤ j ≤ n : ≥ H n −1;1−α ⎬ min si2 ⎪ ⎪ ⎩ ⎭ 1≤ i ≤ k 2 max si 1≤i ≤ k (k) Se acceptă H0 dacă 2 < Hn −1;1−α , min si

(

)

1≤i ≤ k

iar în caz contrar se decide că este adevărată H1. Ipoteze referitoare la o caracteristică-calitativă Să presupunem că se efectuează un experiment ce constă din probe independente în care în fiecare probă se realizează evenimentul A cu probabilitatea p sau contrariul său A , cu probabilitatea q, p+q = 1. Fiecărei probe i se asociază variabila aleatoare Xj, cu repartiţia: ⎛ 1 0⎞ x j :⎜ ⎟, j = 1,2,3,... ⎝ p q⎠ Parametrul necunoscut este p asupra căruia formulăm ipoteza: H0 : p = p0 cu alternativa H1 : p ≠ p0 Vom folosi pentru aceasta statistica frecvenţă relativă de apariţie a evenimentului A în n probe independente: k fn = n

228

Din teorema Maiore-Laplace, rezultă că, pentru valori ale lui n suficient de mari, statistica: k −p n Z= pq n urmează o lege de repartiţie normală N(0;1). Dacă H0 este adevărată, atunci: k − p0 n ∈ N ( 0,1) Z= p 0 ( 1 − p0 ) n şi pentru α dat putem determina z

1−

α
2

, astfel încât:

⎛ ⎞ k ⎜ ⎟ − p0 ⎜ ⎟ n < z α = 1− α , P ⎜ 1− ⎟ p0 ( 1 − p0 ) 2 ⎜ ⎟ n ⎝ ⎠ care ne conduce la regiunea critică: ⎧ ⎪ ⎪ ⎪ ⎪ p0 ( 1 − p 0 ) ⎫ ⎧ p0 ( 1 − p0 ) ⎫ k k ⎨( x1 ,..., x n ) : ≤ p0 − z α ⎬ ∪ ⎨( x1 ,..., x n ) : ≥ p0 − z α ⎬ W= 1− 1− n n n n ⎪ ⎪ ⎪ ⎪ 2 2 ⎩ ⎭ ⎩ ⎭ pentru testul bilateral. În cazul testului unilateral dreapta: H0 : p = p0; H1 : p > p0 rezultă regiunea critică: ⎧ ⎪ ⎪ p0 ( 1 − p0 ) ⎫ k ⎬ W = ⎨( x1 , x 2 ,..., x n ) : ≥ p0 + z1−α n n ⎪ ⎪ ⎩ ⎭ iar în cazul testului unilateral stânga: H0 : p = p0; H1 : p < p0 , avem regiunea critică: ⎧ ⎪ ⎪ p0 ( 1 − p0 ) ⎫ k ⎨( x1 , x 2 ,..., x n ) : ≤ p0 − z1−α ⎬ W= n n ⎪ ⎪ ⎩ ⎭ Să considerăm acum cazul a două populaţii alternative (variabile calitative) de parametri p1, respectiv p2. k Pe baza a două selecţii de volume n1 şi n2 respectiv se obţin frecvenţele relative 1 şi n1 k2 respectiv. n2

229

Cu acestea se obţin variabilele aleatoare (statisticile) independente: k2 k1 − p1 − p2 n2 n1 ≈ N ( 0,1) ; Z 2 = ≈ N ( 0,1) Z1 = p2 ( 1 − p 2 ) p1 ( 1 − p1 )

n2 n1 Rezultă, de aici, că: k1 k 2 − − ( p1 − p2 ) n1 n2 Z = Z1 + Z 2 = ≈ N ( 0,1) , p1 ( 1 − p1 ) p2 ( 1 − p2 ) + n1 n2 dacă n1 şi n2 sunt suficient de mari. Ne propunem să verificăm ipoteza: H0 : p1 = p2, cu alternativa H1 : p1 ≠ p2 pentru un nivel de semnificaţie α dat. Dacă H0 este adevărată, atunci: k1 k 2 − n1 n2 Z= ≈ N ( 0,1) ⎛1 1⎞ p( 1 − p)⎜ + ⎟ ⎝ n1 n2 ⎠ Valoarea comună a celor două probabilităţi p1 şi p2 când H0 este adevărată (pe care nu o cunoaştem) o estimăm ca o medie ponderată a celor două frecvenţe relative: k1 k2 ⋅ n1 + ⋅ n2 n1 n2 k1 + k 2 p∗ = = n1 + n2 n1 + n2 În aceste condiţii, statistica Z devine: k1 k 2 − n1 n2 Z= ≈ N ( 0,1) , ⎛1 1⎞ p ∗ ( 1 − p ∗ )⎜ + ⎟ ⎝ n1 n2 ⎠ iar din: ⎛ ⎞ P⎜ z < z α ⎟ = 1 − α 1− ⎠ ⎝ 2 rezultă regiunea critică: ⎧k ⎪ 1 k2 ⎪ ⎪ ⎪ ⎛1 ⎛ 1 1 ⎞ ⎫ ⎧ k1 k 2 1 ⎞⎫ ∗ ∗ ∗ ∗ ⎨ − ⎬∪⎨ − ≥ z α p ( 1 − p )⎜ + ⎟ ⎬ W= ≤ − z α p ( 1 − p )⎜ + ⎟ 1− 1− ⎪ n1 n2 ⎝ n1 n2 ⎠ ⎪ ⎝ n1 n2 ⎠ ⎪ ⎪ n1 n2 ⎩ ⎭ ⎩ ⎭ 2 2 Pentru testul unilateral dreapta: H0 : p1 = p2; H1 : p1 > p2 avem regiunea critică: ⎧k ⎪ ⎪ ⎛1 k 1 ⎞⎫ W = ⎨ 1 − 2 ≥ z1−α p ∗ ( 1 − p ∗ )⎜ + ⎟ ⎬ ⎪ n1 n2 ⎝ n1 n2 ⎠ ⎪ ⎩ ⎭ iar pentru testul unilateral stânga: H0 : p1 = p2; H1 : p1 < p2
230

avem regiunea critică: ⎧k ⎪ 1 k2 ⎪ ⎛1 1 ⎞⎫ ∗ ∗ W=⎨ − ≤ − z1−α p ( 1 − p )⎜ + ⎟ ⎬ ⎪ n1 n2 ⎝ n1 n2 ⎠ ⎪ ⎩ ⎭ Teste de concordanţă Ne-am ocupat de verificarea ipotezelor referitoare la parametrii unei legi de repartiţie, adică am presupus că se cunoaşte forma repartiţiei (este suficientă repartiţia teoretică). Întrucât testele date până acum s-au referit numai la parametrii unei repartiţii, le numim teste parametrice. Adesea, însă, trebuie să verificăm o ipoteză chiar la legea de repartiţie, adică să testăm ipoteza: H0 : F(x) = F0(x) H1 : F(x) ≠ F0(x) , pe baza unei selecţii de volum n : x1, x2,…,xn. O ipoteză care se referă la forma funcţiei de repartiţie o vom numi ipoteză neparametrică, iar testele (regulile de decizie) prin care se verifică o astfel de ipoteză le vom numi teste neparametrice. Printr-un astfel de test stabilim existenţa sau neexistenţa unei concordanţe între datele de selecţie x1, x2,…,xn şi ipoteza făcută referitor la forma funcţiei de repartiţie. Din acest motiv, un astfel de test poartă numele de test de concordanţă (sau criteriu de concordanţă). În cele ce urmează ne vom ocupa de două teste de concordanţă: testul χ2 al lui K. Pearson şi testul lui Kolmogorov. Testul χ2 a lui K. Pearson Fie X o variabilă aleatoare care ia valori într-un interval (a,b) şi a cărei funcţii de repartiţie este F(x) = P(X<x). Capetele intervalului (a,b) pot fi şi infinite (ambele sau numai unul). Din populaţia caracterizată de variabila aleatoare X se efectuează o selecţie de volum n: x1, x2,…,xn şi pe baza acesteia vom verifica ipoteza H0 : F = F0, cu alternativa H1 : F ≠ F0. În acest scop, împărţim intervalul (a,b) în r subintervale cu ajutorul punctelor de diviziune t1, t2,…,tr-1. a t1 t2 … ti-1 ti ……………tr-1 b

Mărimea subintervalelor (ti-1,ti) se ia astfel încât fiecare subinterval să conţină cel puţin cinci valori de selecţie. Este clar că subintervalele pot fi de lungimi diferite, iar dacă într-un astfel de subinterval sunt mai puţin de cinci valori de selecţie, atunci acesta se reuneşte cu unul din subintervalele alăturate. Notând cu ni numărul valorilor observate din subintervalul (ti-1,ti), 1 ≤ i ≤ r, vom avea

∑n
i =1

r

i

= n.

Notând cu pi probabilitatea ca variabila aleatoare X să ia valori în intervalul (ti-1,ti), vom putea scrie: p1 = P(X<t1) = F(t1) pi = P(ti-1≤ x < ti) = F(ti) - F(ti-1), 2 ≤ i ≤ r-1 pr = Pn(x ≥ tr-1) = 1 – F(tr-1) şi, în plus,

∑p
i =1

n

i

= 1.

Valoarea medie a numărului de valori de selecţie situate într-un subinterval (ti-1,ti) va fi M(ni) = npi.
231

Abaterea funcţiei de repartiţie empirică Fn(x) de funcţia de repartiţie teoretică F0(x) va putea fi evaluată cu ajutorul diferenţelor: di = ni – npi, 1 ≤ i ≤ r Cu cât diferenţele di vor fi mai mici, cu atât vom avea o concordanţă mai bună a datelor de selecţie cu F0(x), adică o concordanţă între Fn(x) şi F0(x). Evident că M(di) = 0,1 ≤ i ≤ r Dacă r este suficient de mare, atunci pi vor fi suficient de mici şi, deci, ni vor fi repartizate Poisson, ceea ce conduce la: D2(di) = D2(ni – npi) = D2(ni) = M(ni) = npi, 1 ≤ i ≤ r Atunci, variabilele aleatoare: n − npi zi = i ,1 ≤ i ≤ r npi vor fi asimptotic normale N(0;1). Urmează că: 2 r r ( n − np ) i i S = ∑ zi2 = ∑ npi i =1 i =1 2 are o repartiţie χ dacă n este suficient de mare. Cum între variabilele Zi (deci şi între ni) există o legătură liniară:

∑ zi npi = ∑ ( ni − npi ) = ∑ ni − n ∑ pi = 0
i =1 i =1 i =1 i =1

r

r

r

r

rezultă că în suma S avem r-1 variabile normale N(0;1) independente şi, deci: 2 r ( n − np ) i i ∑ np = χ (2r −1) i =1 i Dacă între repartiţia empirică şi repartiţia teoretică F0 există o bună concordanţă, atunci: ⎛ r ( n − np ) 2 ⎞ i 2 ⎜∑ i P⎜ > χ ( r −1) ,ε ⎟ = ε , ⎟ npi ⎝ i =1 ⎠ ε fiind un nivel de semnificaţie stabilit. Urmează, de aici, următoarea regulă de acceptare sau respingere a ipotezei H0: Se alege un nivel de semnificaţie ε şi pentru ε ales se determină, din tabela valorilor variabilei χ2 , valoarea χ (2r −1) ,ε (valoarea tabelară). (valoarea calculată) este mai mică npi decât χ (2r−1) ,ε , atunci nu avem motive să respingem H0, deci acceptăm H0 : F = F0.
i =1

Dacă valoarea statisticii χ (2r −1) = ∑

r

(n

i

− npi )

2

Dacă valoarea statisticii χ (2r−1) depăşeşte valoarea tabelară χ (2r −1) ,ε vom respinge ipoteza H0, dar acceptăm H1 : F ≠ F0 cu nivelul de semnificaţie considerat ε. Remarcăm faptul că probabilităţile pi = F(ti) – F(ti-1) au fost calculate în ipoteza că funcţia de repartiţie F0(x) este complet specificată (nu conţine parametri necunoscuţi). Adesea, însă, F0(x) conţine un anumit număr de parametri care, nefiind cunoscuţi, vor trebui estimaţi tot cu ajutorul selecţiei x1, x2,…,xn. În felul acesta, în locul statisticii: 2 r ( n − np ) i i χ (2r −1) = ∑ npi i =1

232

= χ (2r − l −1) , $ npi unde p vor fi probabilităţile estimate, adică cele obţinute când am înlocuit valorile teoretice ale parametrilor cu valorile lor estimate pe baza aceloraşi date x1, x2,…,xn. Dacă l este numărul parametrilor estimaţi, atunci numărul legăturilor devine l+1 şi, 2 r ( n − np ) $i i deci, statistica ∑ are asimptotic o repartiţie χ (2r − l −1) cu (r-l-1) grade de libertate. $ npi i =1 Regula de acceptare sau respingere se face acum exact ca şi în cazul statisticii χ (2r −1) . Să observăm că nu a intervenit faptul că funcţia de repartiţie F0 este continuă sau nu. Deci, testul de concordanţă χ2 se poate aplica atât în cazul când F0 este continuă, cât şi în cazul când F0 are puncte de discontinuitate.
i =1

lucrăm cu statistica: 2 r ( n − np ) $i i

Vom menţiona acum modul cum se testează faptul că F0 ( x ) =

⎛ k λk ⎞ , k = 0,1,2,...⎟ , adică este vorba de o variabilă aleatoare repartizată Poisson. când X : ⎜ e − λ ⋅ k! ⎝ ⎠ ⎛ X ∈ N ( m, σ ) ⎞ Testarea ipotezei H0 : F = F0 ⎜ ⎟ ⎝ F0 ( x ) = P( X < x ) ⎠ ⎛ β − m⎞ ⎛α − m ⎞ ⎟ − Φ⎜ ⎟, Întrucât P( α ≤ X < β ) = Φ⎜ ⎝ σ ⎠ ⎝ σ ⎠ rezultă că: ⎛ ti − m ⎞ ⎛t − m⎞ ⎟ − Φ⎜ i −1 ⎟ = Φ( zi ) − Φ( zi −1 ) pi = F ( t i ) − F ( t i −1 ) = Φ⎜ ⎝ σ ⎠ ⎝ σ ⎠ $ Cum nu cunoaştem valorile parametrilor m şi σ, vom calcula probabilităţile pi : t −m zi = i ⎛ t i −1 − x ⎞ ⎛ ti − x ⎞ σ $ $ $ pi = Φ⎜ ⎟ = Φ( zi ) − Φ( zi −1 ) , ⎟ − Φ⎜ ti − x ⎝ s ⎠ ⎝ s ⎠ $ zi = s Se trec rezultatele într-un tabel în care se menţionează:
Nr. intervale i . . . Total Extremităţile intervalului [ti-1,ti) . . .
r i =1

1 ∫e σ 2Π −∞

x

( y − m) 2
2σ 2

dy , sau

ni . . .

$ zi =

ti − x s . . .

$ Φ( zi )
. . .

$ $ $ pi = Φ( zi ) − Φ( zi −1 )
. . .

∑n
2

i

=n
2

(n

i

$ − npi )

(n

i

. . .

χ r2− l −1

$ − npi ) $ npi . . .

$ npi

$ ∑ np
i =1

r

. . .
i

=n

Obs. l = 2 ⇒ χ (2r − 3)

233

Testarea ipotezei H0 : F = F0, e −λ ⋅ λk P( x = k ) = , k = 0,1,2,... (repartiţie Poisson de parametru λ). k! k [ x] −λ e ⋅ λ0 ( x) = ∑ În acest caz, F0 k! k =0 − λ0 k e ⋅ λ0 P( x = k / λ 0 ) = ; k = 0,1,2,... k!
npi = nP( x = i ) ; P( x = i + 1) = pi +1 =

λ0

p0 = P( x = 0) = e − λ0 Valorile observate ale var. x i . . . Total Frecvenţele empirice ni . . .

i +1

pi

Probele teoretice $ pi . . .

Frecvenţele teoretice $ npi . . .
i

$ ni − npi

∑ ni = n
i =1
2

r

$ ∑ np
i =1

r

. . .
=n

(n

i

$ − npi )

(n

i

. . .

χ (2r − l −1)

$ − npi ) $ npi . . .

2

Obs. l = 1 ⇒ χ (2r − 2 )

Criteriul de concordanţă al lui Kolmogorov Ca şi în cazul anterior, dorim să verificăm ipoteza H0 : F = F0, cu alternativa H1 : F ≠ F0 Criteriul pe care-l propunem are la bază teorema lui A. N. Kolmogorov, care stabileşte legătura între funcţia de repartiţie F(x) a unei variabile aleatoare x şi funcţia de repartiţie empirică stabilită pe baza unei selecţii de volum n : x1, x2,…,xn , extrasă din populaţia caracterizată de variabila aleatoare X. Teoremă: Dacă Fn(x) este funcţia de repartiţie empirică determinată pe baza selecţiei de volum n : x1, x2,…,xn , extrasă dintr-o populaţie caracterizată de variabila aleatoare X, care are funcţia de repartiţie F(x) continuă, atunci: ∞ ⎛ λ ⎞ 2 2 k ⎟ = k ( λ ) = ∑ ( −1) e −2 k λ , lim P⎜ sup Fn ( x ) − F ( x ) ≤ n →∞ ⎝ −∞< x <∞ n⎠ k =−∞ pentru λ > 0. Funcţia K(λ), cunoscută sub numele de funcţia lui Kolmogorov, este tabelată. Se dau, deci, valorile K(λε) = 1 - ε. Aşa, de exemplu, se obţine un tabel prescurtat: ε λε
0,50 0,828 0,10 1,224 0,05 1,358 0,01 1,627 0,001 1,950

234

Pentru a uşura calculele în aplicaţii concrete, se tabelează şi valorile raportului

λε
n

pentru diversele valori ale lui n şi pentru valori semnificative ale nivelului de semnificaţie ε. Avem, spre exemplu:

λε
n

n ε = 0,05 ε = 1,01

5 0,5633 0,6685 60 0,1723 0,2067

10 0,4087 0,4864 70 0,1197 0,1917

15 0,3375 0,4042

20 0,2939 0,3524 80 0,1496 0,1795

25 0,2639 0,3165 90 0,1412

30 0,2417 0,2898

40 0,2101 0,2521 100 0,1340

50 0,1884 0,2260

Regula după care se acceptă ipoteza H0 : F = F0 sau se respinge ipoteza H0 este următoarea: Se fixează nivelul de semnificaţie ε căruia îi corespunde K(λε) = 1 - ε. Pentru λε determinat se calculează raportul

= d n ,ε . n Corespunzător valorilor de selecţie x1, x2,…,xn , se determină: nx d n = max F0 ( x ) − Fn ( x ) ; Fn ( x ) = n

λε

= d n ,ε , n atunci nu avem motive să respingem ipoteza H0, deci vom accepta că legea de repartiţie a variabilei X este dată de F0(x). = d n ,ε , n nu avem motive să afirmăm existenţa unei concordanţe între F0(x) şi Fn(x) şi ca atare respingem ipoteza H0. În scopul evitării unor calcule cu frecvenţe relative, se înlocuieşte inegalitatea:
max F0 ( x ) − Fn ( x ) > Dacă max F0 ( x ) − Fn ( x ) ≥

Dacă max F0 ( x ) − Fn ( x ) <

λε

λε

λε

n

cu inegalitatea echivalentă: max nF0 ( x ) − nFn ( x ) > n ⋅ λε , care, evident, se exprimă astfel: max nF0 ( x ) − n x > n ⋅ λε , care exprimă diferenţa în valoare absolută a frecvenţelor teoretice şi empirice (cele teoretice fiind calculate cu funcţia de repartiţie F0 presupusă a fi adevărată).

Verificarea ipotezei de normalitate N(m,σ) În acest caz avem, deci: F0 ( x ) =

1 ∫e σ 2Π −∞

x

( y − m) 2
2σ 2

dy

235

În aceleaşi precizări ca în cazul testului χ2, tabelul cu date prelucrate va trebui să cuprindă: Nr. intervalelor i . . . Limitele intervalelor [ti-1,ti) . . .
$ Φ( z )

Frecvenţele absolute ni . . .

Frecvenţele relative ni / n . . .

Fn =

nx n

. . . F0 ( x ) − Fn ( x ) . . .

$ z=

x−x s . . .

$ F0 ( x ) = Φ( z ) . . .

. . .

Din tabel se citeşte max F0 ( x ) − Fn ( x ) , apoi se aplică regula după care se decide acceptarea sau respingerea ipotezei.

8.4. Elemente de analiză dispersională

Analiza dispersională este o metodă statistică de cercetare prin care se pot analiza rezultatele observaţiilor, rezultate ce depind de diverşi factori ce acţionează simultan. Prin această metodă se pot depista factorii cu influenţă dominantă şi se estimează această influenţă. Ideea generală a analizei dispersionale constă în descompunerea dispersiei generale a unei variabile aleatoare X într-o sumă de dispersii – termeni aleatori independenţi – fiecare dintre aceştia caracterizând influenţa unuia sau a altuia dintre factori sau acţiunea lor reciprocă. Când se studiază influenţa unui singur factor asupra caracteristicii cercetate, spunem că este vorba de analiză dispersională unifactorială, iar când se studiază influenţa a doi factori avem un model de analiză dispersională bifactorială. Analiză dispersională unifactorială (variabilitatea unui fenomen în funcţie de un singur factor) Se consideră următorul tablou, comportând n linii: x11x12………………….. x 1n1 x21x22………………….. x 2n 2 ……………………………... xh1xh2…………………..x hn h În fiecare xij, 1 ≤ i ≤ h; 1 ≤ j ≤ ni, urmează aceeaşi lege normală N(m,σ). Dacă notăm: h 1 ni 1 h ni 1 h 1 ni 1 h xi . = x i = ∑ xij ; x.. = x = ∑ ∑ xij = ∑ ni ∑ xij = ∑ ni x i , cu n = ∑ ni , n j =1 n i =1 j =1 n i =1 ni j =1 n i =1 i =1

atunci:

∑ ∑(
h ni i =1 j =1 h

xij − x

)

2

= ∑ ∑ xij − x i + x i − x
i =1 j =1

h

ni

(

)

2

= ∑ ∑ xij − x i
i =1 j =1

h

ni

(

)

2

+ ∑ ni ( x i − x ) +
2 i =1

h

+2 ∑ ∑ xij − x i ( x i − x )
i =1 j =1

ni

(

)

236

Întrucât:

∑ ∑( x
h ni i =1 j =1
ni

ij

− x ( x i − x ) = ∑ ( x i − x ) ∑ xij − x i = 0,
i =1 j =1

)

h

ni

(

)

putem scrie egalitatea:

∑ ∑( x
h i =1 j =1

ij

−x

) = ∑ ∑( x
2 h ni i =1 j =1

ij

−x

) + ∑n ( x
2 h i =1 i

i

− x)

2

sau

T 2 = R 2 + L2 Această relaţie poartă numele de “ecuaţia analizei dispersionale unifactoriale”, iar cantităţile T2, L2 şi R2 sunt numite, respectiv, variabilităţi (adesea sunt numite impropriu dispersii): totală, între linii (explicată prin linii) şi reziduale. Teorema care urmează (şi a cărei demonstraţie nu o vom da) stă la baza verificării ipotezelor ce se fac în modelul de analiză dispersională unifactorială. T 2 L2 R 2 Teoremă. Cantităţile 2 , 2 , 2 sunt variabile aleatoare ce urmează o lege de

repartiţie χ2 cu n-1, h-1, n-h grade de libertate, respectiv. L2 R2 Cantităţile 2 şi 2 sunt variabile aleatoare independente, de unde rezultă că
L n−h are o lege de repartiţie Fisher Snedecor cu h-1, n-h grade de ⋅ R2 h −1 L2 n − h libertate respectiv, adică 2 ⋅ = Fh−1,n− h . R h −1 Pe baza acestui model se poate rezolva următoarea problemă: Să presupunem că linia i din tabloul de date prezentat mai sus reprezintă o selecţie de volum ni : xi1, xi2, xi3,…, xini dintr-o populaţie normală N(mi, σ), i = 1,2,3,..., ni . Ne propunem să verificăm ipoteza H0 : m1 = m2 = … = mh (media constantă), cu alternativa: H1 : există i, j ∈ {1,2,…,h} astfel încât mi ≠ mj. Întrucât, dacă ipoteza H este adevărată, dispunem de o statistică a cărei lege de repartiţie este cunoscută şi care este independentă de σ care poate fi, deci, necunoscută, şi anume: L2 n − h = Fh −1,n − h , ⋅ R2 h − 1 atunci, pentru α fixat, regiunea critică este: ⎫ ⎧ L2 n − h ≥ Fh−1,n− h;α ⎬ W=⎨ 2 ⋅ ⎭ ⎩R h −1 Decidem că H1 este adevărată dacă: L2 n − h ≥ Fh−1,n− h;α , ⋅ R2 h − 1 iar dacă: L2 n − h < Fh−1,n− h;α , ⋅ R2 h − 1 decidem că H0 este adevărată.
2

σ

σ

σ

σ

σ

variabila aleatoare

237

Să remarcăm faptul că în acest caz nu mai interesează să avem la numărător variabilă L2 n − h 2 este inferioară unităţii, decidem că H0 este χ care este mai mare, întrucât dacă 2 ⋅ R h −1 adevărată. În practică, modelul se aplică în studiul unui fenomen caracterizat de o variabilă X ale cărei valori depind apriori de un factor A, numit factor de variabilitate al fenomenului. Efectuând pentru fiecare nivel al factorului A, notat Ai , un număr de ni măsurători asupra variabilei X, procedeul de mai sus ne permite să decidem dacă factorul A influenţează semnificativ sau nu fenomenul investigat. În practică, acest test se utilizează frecvent fără a mai verifica dacă populaţia din care se obţin observaţiile urmează sau nu legi normale şi nici dacă aceste legi au aceeaşi dispersie, ceea ce este fundamental pentru ca statistica considerată să aibă o repartiţie F. Verificarea normalităţii legilor de repartiţie de către variabilele fiecărei linii a tabloului dat ar trebui să se facă pe baza unui test de concordanţă. Întrucât numărul observaţiilor este redus, nu vom fi în măsură să respingem H0, adică normalitatea, cum de altfel nu vom putea respinge nici o altă lege de repartiţie apriori specificată. Analiza dispersională bifactorială (variabilitatea unui fenomen în funcţie de doi factori). Dacă în tabloul precedent se consideră ni = m, 1 ≤ i ≤ h, atunci: x11x12…………………..x1m x21x22…………………..x2m ……………………………. xh1xh2…………………..xhm Să punem, ca şi mai înainte: 1 m 1 h 1 h m xi . = ∑ xij ; x. j = ∑ xij ; x.. = ∑ ∑ xij m j =1 h i =1 n i =1 j =1 n = mh, atunci suma de pătrate unui calcul simplu.

∑( x
i, j
h

i. j

− x..

)

2

se poate descompune, după cum se constată în urma

∑ ∑( x
h m i =1 j =1

ij

− x..

) = ∑ ∑( x
m i =1 j =1

2

ij

− xi . − x. j + x..

) + ∑( x
2 h i =1

i . − x .. ) + ∑ h x. j − x .. 2 j =1

m

(

)

2

T2 = R2 + L2 + C2 Cantităţile T2, R2, C2, L2 sunt variabilele (dispersiile): totală, între linii, între coloane şi reziduale. Împărţite prin σ2 ele urmează o lege χ2 având respectiv n-1, h-1, m-1, (h-1) (m-1) L2 C 2 R 2 grade de libertate, iar 2 , 2 , 2 sunt în plus şi independente. Se obţine atunci că: L2 ( m − 1) = Fh−1,( h−1)( m−1) (x) R2 C2 ( h − 1) = Fm−1,( h−1)( m−1) (xx) R2 Putem acum să rezolvăm următoarea problemă teoretică. Dacă Xij ∈ N(mij,σ), 1≤ i ≤h, L2 1 ≤ j ≤m, atunci, utilizând funcţia de repartiţie a variabilei 2 ( m − 1) = Fh−1,( h−1)( m−1) putem să R
238

sau:

σ

σ

σ

verificăm ipoteza H0 : mij = mj, pentru orice i = 1, 2, …, h, cu alternativa H1 : mij ≠ mj, C2 utilizând funcţia de repartiţie a variabilei 2 ( h − 1) = Fh−1,( h−1)( m−1) , putem să verificăm ipoteza R H0 : mij = mi, pentru orice j = 1, 2, …, m, cu alternativa H1 : mij ≠ mi Dacă cele două teste ne conduc la decizia H0, atunci vom avea mij = m, 1 ≤ i ≤ h; 1 ≤ j ≤ m. Aplicaţie practică. Se consideră un fenomen P ale cărui valori pot depinde apriori de 2 factori – numiţi adesea factori de variabilitate – A şi B : P = P(A, B). Făcând să varieze independent factorii A şi B şi măsurând P în fiecare caz, procedeul de mai sus ne dă posibilitatea să decidem dacă A şi/sau B au o influenţă semnificativă asupra lui P. A\B A1 A2 . . . Ah B1 P11 P21 B2 P12 P22 ………… ………… ………… Bm P1m P2m

……………………………………………….. Ph1 Ph2 ………… Phm

L2 Dacă 2 ( m − 1) > Fh−1,( h−1)( m−1) ;α , atunci A influenţează semnificativ fenomenul P. R C2 Dacă 2 ( m − 1) > Fh−1,( h−1)( m−1) ;α , atunci B influenţează semnificativ fenomenul P. R În studiul variabilităţii unui fenomen în funcţie de doi factori, ipoteza de normalitate a legii pe care o urmează variabilele Xij, precum şi ipoteza de egalitate a dispersiilor acestor legi de repartiţie, nu pot fi decât postulate şi nu verificate, întrucât dispunem de o singură observaţie pentru fiecare lege; adică, avem o singură observaţie în celulă. Rezultatele pot fi sintetizate în tabelul următor:
Componenţa dispersiei Suma pătratelor Nr. gradelor de libertate h-1 Estimaţiile dispersiilor

Între linii Între coloane Reziduală
h m i =1 j =1

∑ m( x

h

∑ h( x
j =1

i =1 m

i . − x .. )

2

.j

− x..

)

2

m-1

1 h 2 ∑ m( xi. − x.. ) = s12 h − 1 i =1 2 1 m ∑ h x. j − x.. = s22 m − 1 j =1

(

)

∑ ∑(
h

xij − xi . − x. j + x..
m

)

2

(h-1) • • (m-1) n-1 = = mh-1

h m 1 x − xi . − x. j + x.. ( h − 1)( m − 1) ∑ ∑ ij i =1 j =1
h m 1 ∑ ∑ xij − x.. mh − 1 i =1 j =1

(

)

2

2 = s3

Totală

∑ ∑( x
i =1 j =1

ij

− x..

)

2

(

)

2

= s2

Un tabel analog se poate întocmi şi în cazul modelului unui factorial.

239

8.5. Elemente de analiză secvenţială. Testul secvenţial al raportului probabilităţilor

În toate problemele studiate prin metoda selecţiei s-a presupus că volumul de selecţie este determinat, fixat apriori. Există însă experimente în care se foloseşte informaţia acumulată în timpul selecţiei; deci, există metode care ne permit să decidem asupra caracteristicilor studiate în succesiunea experimentelor, mai bine decât orice metodă în care volumul selecţiei este dinainte fixat. Aceste metode au fost introduse de statisticianul A. Wald şi sunt cunoscute sub numele de metode secvenţiale, dat fiind faptul că se operează asupra termenilor succesivi ai şirului de observaţii pe măsură ce aceştia s-au obţinut. În testarea ipotezelor, analiza secvenţială dă o regulă după care se ia una din următoarele decizii, la fiecare etapă a experimentului: (a) acceptarea ipotezei (b) respingerea ipotezei (c) continuarea experimentului prin efectuarea unei alte probe, după care se reia procesul de decizie. Acest procedeu este numit testul secvenţial al raportului probabilităţilor (TSRP) şi în care numărul de probe este aleator. Vom descrie modul cum se apreciază în procesul de luare a deciziei. Fie C caracteristica unui fenomen studiat, caracterizată de variabila aleatoare X, cu densitatea de repartiţie f(x;θ), (sau, în cazul unei variabile discrete, P(X = x,θ)). Pe baza unei selecţii ne propunem să verificăm ipoteza H0 : θ = θ0, cu alternativa H1 : θ = θ1, utilizând metoda Neuman-Pearson, cu ajutorul raportului:

∏ f (x
n j =1 n j =1

j

,θ 1 ,θ 0

)

∏ f (x

j

)

,

s-a construit o regiune critică, pentru un volum de selecţie, n, fixat, şi pe baza acestei regiuni critice se decide dacă este adevărată H0 sau H1. În cazul când volumul de selecţie nu mai este fixat, ci este aleator, să considerăm rapoartele:
p1ν = p0ν

∏ f (x
n j =1 n j =1

j

,θ 1 ,θ 0

)

∏ f (x

j

)

,ν = 1,2,3,...

Se fixează două numere A şi B şi observaţiile continuă atâta timp cât: p1ν B< <A p0ν p p Dacă 1ν ≤ A observaţiile încetează şi se acceptă H0, iar dacă 1ν ≥ A observaţiile p0ν p0ν încetează şi se acceptă H1. Dacă se dau probabilităţile α şi β ale erorilor de genul unu şi doi, se poate demonstra că cele două numere A, B pot fi determinate în mod unic. Valori aproximative foarte bune 1− β β sunt A = , B= . 1− α α

240

Se pune întrebarea dacă decizia de acceptare a ipotezei H0 sau H1 se poate lua după un număr finit de probe. Referitor la aceasta, A. Wald a demonstrat că probabilitatea ca procedeul secvenţial să se încheie cu acceptarea ipotezei H0 sau H1 este egală cu 1, adică cu probabilitatea 1 numărul probelor, ν, este finit. Întrucât ν este variabilă aleatoare, vom determina valoarea medie a sa. Fie ν cel mai mic întreg pentru care: p1ν p1ν Zν = log ≤ β sau Zν = log ≥ log A . p0ν p0ν Corespunzător celor două ipoteze, H0 şi H1 , vom calcula: M(ν / H0) şi M(ν / H1) Dacă H0 este adevărată, probabilitatea de a accepta H0 este 1 - α, iar probabilitatea de p a accepta H1 este α. Primul caz corespunde aproximativ la log 1ν = log B , iar al doilea la p0ν p1ν log = log A . p0ν Pentru fiecare ν, când H0 este adevărată, obţinem variabila Zν: ⎛ log B log A ⎞ Zν :⎜ ⎟, α ⎠ ⎝1 − α atunci: M ( Zν / H 0 ) = ( 1 − α ) log B + α log A Dar:

Zν = log

ν ν f x j ,θ 1 p1ν = ∑ log = ∑Z j p0ν j =1 j =1 f x j ,θ 0

( (

) )

Cum Zi, 1 ≤ i ≤ ν sunt variabile aleatoare independente şi identic repartizate, iar ν este o variabilă aleatoare, rezultă: ⎛ν ⎞ M ( Zν / H 0 ) = M ⎜ ∑ Z j / H 0 ⎟ = M (νZ / H 0 ) = M (ν / H 0 ) ⋅ M ( Z / H 0 ) ⎝ j =1 ⎠ Deci: M ( Zν / H 0 ) ( 1 − α ) log B + α log A M (ν / H 0 ) = = M ( Z / H0 ) M ( Z / H0 ) Analog, se obţine: β log B + ( 1 − β ) log A M (ν / H1 ) = M ( Z / H1 ) Valorile medii M(Z/H0) şi M(Z/H1) se pot calcula îndată ce f(x,θ) este dată. Textul secvenţial al raportului probabilităţilor este frecvent aplicat în controlul statistic de recepţie a loturilor de produse. În acest caz, α este probabilitatea de a respinge un lot corespunzător şi este numit riscul furnizorului, iar β este probabilitatea de a accepta un lot necorespunzător şi este numit riscul beneficiarului. Fixarea riscurilor α şi β conduce la determinarea numerelor A şi B; de aici, planul de control secvenţial. Ca aplicaţii ale TRSP vom considera uzul repartiţiei binomiale şi cel al repartiţiei normale N(m,σ).

241

Repartiţia normală N(m,σ) Pentru o selecţie într-o populaţie caracterizată de variabila aleatoare X, repartizată N(m,σ), cu σ cunoscut, pentru verificarea ipotezei H0 : m = m0, cu alternativa H1 : m = m1 obţinem:
p1ν = p0ν
− 1 ∏ σ 2Π e j =1

ν

( x −m )
j

2

1 2

j 0 1 2 e 2σ 2Π j =1 În condiţia de continuare a probelor se obţine: m1 − m0 ⎛ ν m0 + m1 ⎞ ln B < ν ⎟ < ln A ⎜∑ x j − 2 2 σ ⎝ j =1 ⎠

∏σ

ν

( x −m ) −

2

=e

1 ⎡ ⎢ x j − m1 2σ 2 ⎣

(

) −( x − m )
2 j 0

2

⎤ ⎥ ⎦

=e

m1 − m0 ⎛ ⎜ 2σ 2 ⎜ ⎝

∑x j −
j =1

ν

m0 + m1 ⎞ ν⎟ ⎟ 2 ⎠

sau:

ν m0 + m1 σ 2 ln A m0 + m1 + + ν < ∑xj < ν, m1 − m0 2 m1 − m0 2 j =1 dacă m1 > m0. Folosind acum logaritmi zecimali şi notând: m + m1 σ 2 log B σ 2 log A , h1 = 2,303 ; h2 = 2,303 ; h3 = 0 m1 − m0 m1 − m0 2 dubla inegalitate devine:

σ 2 ln B

h1 + h3ν < ∑ x j < h2 + h3ν
j =1

ν

Regula de decizie la fiecare pas ν este următoarea: (1) dacă (2) dacă

∑x
j=1

ν

j

≤ h1 + h3ν , se acceptă ipoteza H0; ≥ h2 + h3ν , se acceptă ipoteza H1;
ν

∑x
j=1

ν

j

(3) dacă h1 + h3ν < ∑ x j < h2 + h3ν , se continuă selecţia, cu luarea altei probe.
j =1

Pentru a calcula M(ν/H0) şi M(ν/H1) va trebui să calculăm M(Z/H0) şi M(Z/H1). ( x − m) 2 − 1 2 Dacă f ( x , m,σ ) = e 2σ , atunci: σ 2Π 1 ⎡ 1 2 ⎤ Z = ln f ( x; m1 , σ ) − ln f ( x; m0 , σ ) = 2 ⎢ x( m1 − m0 ) − ( m12 − m0 ) ⎥ ; ⎦ 2 σ ⎣ urmează că: 1 ∞⎡ 1 2 ⎤ M ( Z / H 0 ) = 2 ∫ ⎢ x( m1 − m0 ) − ( m12 − m0 ) ⎥ f ( x; m0 , σ ) dx = ⎦ 2 σ −∞⎣
= Analog:
M ( Z / H1 ) =

1 ⎡ 1 2 1 ( m1 − m02 ) ⎤ = − 2σ 2 ( m1 − m0 ) 2 . 2 ⎢ m0 ( m1 − m0 ) − ⎥ ⎦ 2 σ ⎣
1 2σ
2

(m

1

− m0 )

2

242

Deci: M (ν / H 1 ) =

, M (ν / H 0 ) = − 2 − m0 ) ( m1 − m0 ) 2 1 Relaţiile se pot exprima în funcţie de h1, h2, h3 , după cum urmează: h2 + ( 1 − α ) ( h1 − h2 ) , M (ν / H 0 ) = m0 − h3

2σ 2 β log B + ( 1 − β ) log A

[

(m

]

2σ 2 [ ( 1 − α ) log B + α log A]

, m1 − h3 iar numărul maxim de probe necesar luării deciziei H0 sau H1 este: hh M (ν ) max = − 1 22

M (ν / H1 ) =

h2 + β ( h1 − h2 )

σ

Repartiţia binomială În acest caz, selecţia se face din populaţia caracterizată de variabila aleatoare ⎛ 1 0⎞ X :⎜ ⎟, q = 1 − p . Atunci: ⎝ p q⎠
P( X = x / p) = p x ( 1 − p)
ν
j =1 1− x

, x = 0,1

Dacă notăm cu dν = ∑ x j , atunci calculele pentru verificarea ipotezei H0 : p = p0, cu alternativa H1 : p = p1 (p1 > p0) vor fi: ν − dν dν p1ν ⎛ p1 ⎞ ⎛ 1 − p1 ⎞ =⎜ ⎟ ⎜ ⎟ p0ν ⎝ p0 ⎠ ⎝ 1 − p0 ⎠ Dubla inegalitate: p1ν log B < log < log A p0ν este echivalentă cu: p1 1 − p1 log B < dν log + (ν − dν ) ln < log A p0 1 − p0 Efectuând unele calcule elementare, putem scrie: 1 − p1 1 − p1 log log 1 − p0 1 − p0 log B log A ν < dν < + + 1 − p1 p1 1 − p1 1 − p1 p1 p1 1 − p1 p1 log log log log + log + log + log + log 1 − p0 p0 1 − p0 1 − p0 p0 p0 1 − p0 p0
1 − p1 1 − p0 log B log A , h1 = ; h2 = ; h3 = 1 − p1 1 − p1 p1 p1 p1 1 − p1 + log log + log + log log log 1 − p0 1 − p0 p0 p0 p0 1 − p0 dubla inegalitate devine: h1 + h3ν < dν < h2 + h3ν Regula după care se ia decizia este următoarea: (1) dacă dν ≤ h1 + h3ν , se acceptă ipoteza H0; log

Sau, dacă notăm:

243

(2) dacă dν ≥ h2 + h3ν , se acceptă ipoteza H1; (3) dacă h1 + h3ν < dν < h2 + h3ν , se continuă experimentul cu luarea altei probe şi se reia procesul de decizie. Să calculăm M(ν/H0) şi M(ν/H1). Pentru aceasta, să calculăm mai întâi M(Z/H0). 1− x Întrucât P( X = x , p) = p x ( 1 − p) , x = 0,1 , vom putea scrie: 1 1 ⎡ p1 1 − p1 ⎤ x 1− x M ( Z / H 0 ) = ∑ zP( X = x , p) = ∑⎢ x ln + ( 1 − x ) ln ⎥ p0 ( 1 − p0 ) = p0 1 − p0 ⎦ x=0 x=0 ⎣ 1 − p1 p1 = ( 1 − p0 ) log + p0 log 1 − p0 p0 De aici, rezultă: ( 1 − α ) log B + α log A M (ν / H 0 ) = p 1 − p1 p0 log 1 + ( 1 − p0 ) log p0 1 − p0 Procedând în mod analog, obţinem: β log B + ( 1 − β ) log A M (ν / H1 ) = p 1 − p1 p1 log 1 + ( 1 − p1 ) log p0 1 − p0 Se poate demonstra că numărul mediu maxim de probe necesare pentru a decide H0 sau H1 este dat de: log B log A M (ν ) max = 1 − p1 p1 log log 1 − p0 p0

244

Capitolul 9 ELEMENTE DE TEORIA CORELAŢIEI ŞI REGRESIEI Una din principalele probleme ale teoriei probabilităţilor şi statisticii matematice este cea a studiului dependenţei dintre două sau mai multe variabile. Două sau mai multe variabile pot fi sau independente sau dependente funcţional sau dependente stochastic. Prin dependenţa funcţională între Y şi X1, X2,…, Xn înţelegem o aplicaţie f care asociază fiecărui (x1, x2,…,xn) ∈ E un element Y ∈ F şi numai unul, adică: Y = f(x1, x2,…,xn) Exemple de dependenţă funcţională se întâlnesc în toate domeniile în care pare T modelul matematic. Un astfel de exemplu îl poate constitui legea gazelor perfecte P = R , V unde R este o constantă caracteristică gazului. Dependenţa funcţională poate exista şi între variabile aleatoare, aşa, de exemplu, avem variabila Student: X t ( n) = 1 n 2 ∑x n j =1 j unde X, X1, X2,…,Xn sunt variabile aleatoare independente repartizate normal N(0;1). De asemenea, χ 2 ( n1 ) / n1 F ( n1 , n2 ) = 2 , χ ( n 2 ) / n2

unde χ 2 ( n1 ) şi χ 2 ( n2 ) sunt variabile hi pătrat independente. Între variabilele aleatoare poate exista şi o altă dependenţă – dependenţa stochastică – pe care o vom studia în cele ce urmează. O astfel de dependenţă apare atunci când acţionează factori externi atât asupra unei variabile, cât şi asupra celeilalte (celorlalte). Aceştia determină o anumită legitate probabilistică a variabilelor (X, Y, Z, …). Vom spune că între variabilele X1, X2,…,Xn există o dependenţă stochastică, dacă se dă legea de repartiţie a vectorului aleator (X1, X2,…,Xn), care dă posibilitatea stabilirii legilor de repartiţie condiţionate. Această dependenţă îşi găseşte o aplicaţie fundamentală în prognoză, adică în indicarea limitelor în care cu un anumit nivel de încredere se va găsi o variabilă, dacă celelalte, cu care se află în legătură stochastică, iau valori bine determinate. Să studiem dependenţa stochastică în cazul a două variabile aleatoare X şi Y discrete, caz întâlnit deosebit de frecvent în aplicaţii, apoi să menţionăm modul cum se obţin rezultatele corespunzătoare în cazul continuu. Fie vectorul aleator (X,Y) cu repartiţia: ⎛ ( x, y) ⎞ ( X , Y ) :⎜ , ( x, y) ∈ I x J ⎟, ⎝ p( x , y ) ⎠ unde am pus p(x,y) = P(X=x; Y=y) De aici se obţin probabilităţile marginale: P( X = x ) = p( x ) , P( Y = y ) = p( y ) p( x ) = ∑ p( x , y ) ; x ∈ I
p( y ) =
y∈ J
x∈ I

∑ p( x, y); y ∈ J
245

şi repartiţiile marginale: ⎞ ⎛ x ⎞ ⎛ y X :⎜ , x ∈ I ⎟; Y:⎜ , y ∈ J⎟ ⎝ P( x ) ⎠ ⎝ P( y ) ⎠ Probabilităţile condiţionate sunt date de: p( x / y ) =
p( y / x ) =

p( x / y ) p( y )

, dacă p(y) ≠ 0,

p( x / y ) , dacă p(x) ≠ 0. p( x ) Problemele practice cer adesea să se stabilească cum variază media unei variabile, când cealaltă ia o valoare determinată. Să observăm mai întâi că dacă variabilele aleatoare X şi Y sunt independente, atunci p(x,y) = p(x)p(y) pentru orice x ∈ I şi y ∈ J şi reciproc. Rezultă de aici că p(x/y) = p(x), p(y/x) = p(y). Definiţie. Se numeşte regresie a lui Y asupra lui X, M ( Y / X = x ) = y( x ) . Se numeşte regresie a lui X asupra lui Y: M ( X / Y = y ) = x( y ) . Din definiţie rezultă: M ( Y / X = x ) = M ( Y / x ) = y( x ) = ∑ yp( y / x )
M ( X / Y = y ) = M ( x / y ) = x( y ) =

∑ xp( x / y)
x∈ I

y∈ J

Observaţie. Dacă variabilele X şi Y sunt independente, atunci: M ( Y / X = x ) = y( x ) = a y (constantă)

Y asupra variabilei X. Analog, locul geometric al punctelor ( y , x( y ) ) poartă numele de curbă de regresie a variabilei X asupra variabilei Y. Se observă imediat că aceste curbe de regresie mai pot fi exprimate astfel: ∑ yp( x, y) p( x , y ) y∈ J y( x ) = ∑ yp( y / x ) = ∑ y = p( x ) y∈ J y∈ J ∑ p( x, y)
y∈ J

Locul geometric al punctelor ( x , y( x ) ) poartă numele de curbă de regresie a variabilei

M ( X / Y = y ) = x( y ) = a x (constantă)

şi

∑ xp( x, y) x( y ) = ∑ xp( x / y ) = ∑ p( x, y)
x∈ I x∈ I x∈ I

În jurul mediilor condiţionate, ca şi în jurul mediilor obişnuite, împrăştierea este supusă de fiecare dată unei legi de repartiţie determinată, lege care depinde pentru fiecare variabilă de valoarea luată de cealaltă variabilă. Să vedem cum măsurăm împrăştierea valorilor variabilei Y în jurul mediei condiţionate y( x ) . Prin definiţie: 2 D 2 ( Y / x ) = σ 2 y / x = ∑ ( y − y( x ) ) p( y / x )
y∈ J

Odată cu curba de regresie y( x ) avem şi curba dispersiilor condiţionate σ 2 y / x , numită şi linia schedastică.

246

Analog, pentru variabila X avem: 2 D 2 ( X / y ) = σ 2 x / y = ∑ ( x − x( x ) ) p( x / y )
x∈ I

Media condiţionată introduce repartiţia: ⎛ y( x ) ⎞ ,x ∈ I⎟ ⎜ ⎝ p( x ) ⎠ şi, de aici: M ( y( x ) ) = ∑ y( x ) p( x ) = ∑ p( x ) ∑ yp( y / x ) =
x∈ I x∈ I y∈ J

x∈ I y∈ J

∑ yp( y / x) p( x) = ∑ yp( x / y) = M ( Y ) = a
x∈ I y∈ J

y

(constantă) şi:

D 2 ( y( x ) ) = σ y ( x ) =

∑ ( y( x ) − a )
x∈ I y

2

p( x )

Relaţiile anterioare pentru media condiţionată x( y ) şi: ⎛ x( y ) ⎞ , y ∈ J ⎟; M x( y ) = ∑ xp( x , y ) = M ( x ) = a x (constantă) ⎜ x∈ I ⎝ p( y ) ⎠

(

)

y∈ J

şi:

2 D 2 x( y ) = σ x ( y ) =

(

)

y∈ J

∑( x( y) − a ) p( y)
2 x

Dacă luăm acum în consideraţie repartiţia: 2 ⎛σ y / x ⎞ ,x ∈ I⎟ ⎜ ⎝ p( x ) ⎠ Suntem conduşi la valoarea medie: 2 2 2 M σ y / x = ∑σ y / x ⋅ p( x ) = σ y / x

(

)

x∈ I

pe care o vom numi dispersie condiţionată medie. Am introdus, aşadar, relativ la componenta Y a vectorului aleator (X,Y) următoarele dispersii: 2 2 2 σ y ,σ y( x ) ,σ y / x
Între aceste dispersii are loc egalitatea: 2 2 2 σ y = σ y( x ) + σ y / x
2 σ y = ∑ y − a y p( y) = ∑ y − a y 2 y∈ J y∈ J

Demonstraţie:

(

)

(

) ∑ p( x) p( y / x) = ∑( y − a )
2 x∈ I x∈ I y∈ J y

2

p( x) p( y / x) = ∑ y − a y p( y / x)
2 x∈I

(

)

Însă: şi, de aici:

( y − a ) = ( y − y( x ) )
2 y 2 y∈ J y

2

+ 2( y − y( x ) ) y( x ) − a y + y( x ) − a y
2

(

) (

)

2

∑( y − a ) p( y / x) = ∑( y − y( x) p( y / x) ) + 2( y( x) − a ) ∑( y( x) − a )
y∈ J y y∈ J y y∈ J

2

Cum: ∑( y − y( x) ) p( y / x) =
y∈ J

∑ yp( y / x) − y( x) ∑ p( y / x) = y( x) − y( x) = 0,
y∈ J

247

avem:
2 σy = x∈ J 2

∑ p( x)⎢ ∑( y − y( x) ) p( y / x) + ∑( y( x) − a ) p( y / x) ⎥ = ⎣ ⎦
2 2 y∈ J y∈ J y

=

∑D
x∈ I

( Y / x ) p( x ) + ∑ y( x ) − a y
x∈ I

(

) ∑ p( x) p( y / x) = σ
2 y∈ J

2

y( x ) + σ y / x
2

9.1. Raportul de corelaţie Prin definiţie, raportul de corelaţie al variabilei Y în raport cu X, notat η y / x , este dat de:

η

2 y/ x

Analog, raportul de corelaţie al variabilei X în raport cu Y, notat η x / y , este dat de:
2 2 σ x / y σ x( y ) η = 1− 2 = 2 σx σx Se vede imediat că 0 ≤ η y / x ≤ 1, dacă se convine să se ia raportul de corelaţie pozitiv 2 x/ y

2 2 σ y / x σ y( x ) = 1− 2 = 2 σy σy

sau nul. Raportul de corelaţie este un indicator numeric al intensităţii legăturii de corelaţie între variabilele X şi Y. Proprietăţile raportului de corelaţie: (1) Dacă între variabilele X şi Y există o dependenţă univocă, atunci: 2 η y/ x = 1 Într-adevăr, în acest caz nu există împrăştiere în jurul curbei de regresie y( x ) , căci unica valoare a variabilei Y pentru X = x coincide cu y( x ) . 2 (2) Dacă η y / x = 1, atunci Y este funcţie univocă de X.
2 Într-adevăr, dacă η y / x = 1 rezultă că σ y / x = 0 şi, drept urmare, nu există împrăştiere în jurul curbei de regresie. Deci, fiecărei valori x a lui X îi corespunde o valoare determinată Y = y( x ) . 2 (3) Dacă x şi y sunt necorelate, atunci: η y / x = 0 . Într-adevăr, necorelarea variabilei Y în raport cu X înseamnă că media condiţionată ( x ) este constantă: y y( x ) = M ( Y ) = a y 2 2 Deci, în acest caz, σ y ( x ) = 0 şi, de aici, η y / x = 0 .
2 În particular, η y / x = 0 dacă Y nu depinde de X, căci atunci y( x ) = a y . 2 (4) Dacă η y / x = 0 , atunci Y este necorelată cu X, adică y( x ) = M ( Y ) = const .

2

Într-adevăr, η

2 y/ x

=

2 σ y( x )

σ

y( x ) = a y = const . 2 2 Să observăm că între η x / y şi η y / x nu există nici o legătură. Se poate ca unul din coeficienţi să ia valoarea zero, iar celălalt valoarea 1, cu toate consecinţele ce se deduc din

2 y

=0

conduce

la

2 σ y ( x ) = 0 , ceea ce înseamnă că

248

2 2 proprietăţile raportului de corelaţie. Dacă, însă, η y / x = η x / y = 1, atunci dependenţa funcţională a lui Y în raport cu X este monotonă.

9.2. Coeficientul de corelaţie Un alt indicator ce măsoară existenţa şi intensitatea legăturii stohastice este coeficientul de corelaţie. Să considerăm variabilele aleatoare X şi Y, despre care presupunem că au dispersii finite D 2 ( X ) < ∞, D 2 ( Y ) < ∞ . Atunci definim corelaţia variabilelor X şi Y, sau covarianţa lor, şi o vom nota µ xy = cov ( X , Y ) .

µ xy = cov ( X , Y ) = M ( X − M ( x ) ) ( Y − M ( y ) ) = M ( X , Y ) − M ( X ) M ( Y ) ρ XY = µ XY D( X ) D( Y )

[

]

Coeficientul de corelaţie al variabilelor X şi Y este, prin definiţie:

Proprietăţile coeficientului de corelaţie: (i) Dacă variabilele X şi Y sunt independente, atunci: ρ XY = 0. Reciproc nu este adevărat. (ii) Oricare ar fi variabilele aleatoare X şi Y, avem: −1 ≤ ρ XY ≤ 1 (iii) Dacă ρ XY = ±1, atunci între X şi Y există o relaţie liniară, adică Y = aX + b, cu a ≠ =, b constante şi reciproc. Să demonstrăm aceste proprietăţi: (i) Cum µ XY = M ( XY ) − M ( X ) ⋅ M ( Y ) şi cum prin ipoteză X şi Y sunt independente, rezultă că: M ( XY ) = M ( X ) ⋅ M ( Y ) şi, de aici, µ XY = 0 , adică ρ XY = 0. Variabilele aleatoare X şi Y pentru care ρ XY = 0 se zic necorelate. Dacă se consideră vectorul aleator (X,Y), cu repartiţia: Y X -1 0 1 0 2 9 3 9 2 9 7 9 1 1 9 0
1 9 2 9
1 3 1 3 1 3

Se constată imediat că M ( XY ) =

2 −1 1 + = 0; M ( Y ) = , M ( X ) = 0 . 9 9 9 Deci, ρ X ,Y = 0, deşi variabilele aleatoare X şi Y nu sunt independente. 1 7 Se constată imediat că P( X = 0, Y = 0) = ≠ = P( X = 0) ⋅ P( Y = 0) . 3 27

249

(ii) Din definiţia coeficientului de corelaţie şi din inegalitatea lui Schwartz obţinem:

M [( X − M ( X ) )( Y − M ( Y ) )] ≤ M ( X − M ( X ) )
Se observă că dacă Y = X, atunci: ρ X , X atunci: ρ X ,− X =
M −( X − M ( X ) )
2

( [

] ) ( M [( Y − M ( Y ) ) ] ) = D( X ) D( Y ) M [( X − M ( X ) ) ] = = 1 şi dacă Y = - X,
2 2
2

1 2

1 2

D ( X) adică sunt atinse valorile extreme. (iii) Să arătăm că dacă ρ X ,Y = ±1, atunci între X şi Y există o relaţie liniară şi reciproc. Să presupunem că Y = aX + b. Atunci M ( Y ) = aM ( X ) + b şi: 2 M [ ( X − M ( X ) ) ( aX + b − aM ( X ) − b) ] M a( X − M ( X ) ) ρ X ,Y = = = D( X ) D( aX + b) a D2 ( X ) ⎧ −1 , a < o aD 2 ( X ) ⎪ = =⎨0 , a=0 a D2 ( X ) ⎪ ⎩1 , a>0 Să presupunem acum că ρ = ±1 şi să notăm: X − M( X ) Y − M(Y) X '= ,Y ' = D( X ) D( Y ) Se constată că: M ( X ' Y ') = ρ xy = ±1 şi că: 2 2 M ( X − M( X )) M (Y − M (Y )) 2 M X '±Y ' = + ± 2 M ( X ' Y ') D2 ( X ) D2 (Y ) Deci: 2 M X '±Y ' = 2 ± 2( ±1) = 0 , de unde rezultă că X '±Y ' = 0 aproape peste tot pe Ω. De aici obţinem: Y − M (Y) X − M( X ) Y ' = ± X ' , adică , sau: =± D( Y ) D( X ) D( Y ) ( X − M( X )) , Y = M(Y) ± D( X ) ceea ce dovedeşte afirmaţia. Dreptele: x − M( X ) y − M(Y) =ρ D( X ) D( Y ) y − M(Y) x − M( X ) =ρ D( Y ) D( X ) se numesc drepte de regresie şi trec prin punctul ( M ( X ) , M ( Y ) ) .

[

2

] = −1 ,

D2 ( X )

[

]

(

)
)

(

)

(

)

(

250

9.3. Corelaţie şi dependenţă stohastică în cazul variabilelor continue Să considerăm vectorul aleator (X,Y), cu densitatea de repartiţie f(x,y). Atunci:
M ( Y / x ) = y( x ) = ∫ yf ( y / x ) dy ,
−∞ ∞ f ( x, y) ; f 1 ( x ) = ∫ f ( x , y ) dy f 1 ( x) −∞ sunt respectiv densitatea de repartiţie condiţionată şi densitatea de repartiţie marginală. Cu acestea mai putem scrie: ∞

unde:

f ( y / x) =

M ( Y / x) = Analog:

−∞ ∞

∫ yf ( x, y) dy
−∞

∫ f ( x, y) dy

σ

2 Y/x

= D ( Y / x) =
2

−∞

∫ [ y − M ( Y / x)] f ( y / x) dy
2

şi, de aici, dispersia condiţionată medie: ∞ ∞ ∞ ⎛ ⎞ 2 2 ( x ) dx = ∫ ⎜ ∫ ( y − M ( Y / x ) ) f ( y / x ) dy ⎟ ⋅ f 1 ( x ) dx = σ Y / X = ∫σ Y / x f1 ⎠ −∞ −∞⎝ −∞

[

]

∞ ∞

=

−∞−∞

∫ ∫ [ y − M ( Y / x)] f ( x, y) dxdy
2

În fine, dispersia mediilor condiţionate este:
2 σ y ( x ) = ∫ [ M ( Y / x ) − M ( Y ) ] f 1 ( x ) dx 2
−∞

Să punem în evidenţă o proprietate generală a curbei de regresie şi anume: Propoziţie. Curba de regresie are proprietatea că: 2 M ( Y − M ( Y / x ) ) = min

[

]

şi, analog:

M X − M ( X / y)

[(
[

)

2

] = min
reprezintă abaterea pătratică medie de la curba u(x) şi
2

Demonstraţie. Fie u(x) o curbă oarecare şi să considerăm: ∞ ∞ ⎛ ⎞ 2 2 2 M ( Y − u( x ) ) = ∫ ∫ ( y − u( x ) ) f ( x , y ) dxdy = ∫ ⎜ ∫ ( y − u( x ) ) f ( y / x ) dy ⎟ f 1 ( x ) dx ⎠ −∞⎝ −∞ R2

]

Cum

dacă a = M ( X ) , rezultă că M ( Y − u( x ) )

2 cum pentru variabila unidimensională avem σ x ≤ M [ ( X − a ) ] cu egalitate dacă şi numai

−∞

∫ ( y − u( x) ) f ( y / x) dy
2

[

2

] = min dacă şi numai dacă u( x) = M ( Y / x) .

251

Exemplul 1. Se consideră vectorul aleator (X,Y) cu densitatea de repartiţie ⎧e − y daca 0 ≤ x < ∞, x ≤ x < ∞ f ( x, y) = ⎨ ⎩0 in rest Să se determine curbele de regresie M(Y/x) şi M(X/y). Soluţie. Conform definiţiei:

M ( Y / x ) = ∫ yf ( y / x ) dx
−∞

Însă: f 1 ( x) = şi de aici:

−∞

∫ f ( x, y) dy = ∫ e − y dy = e − x
x

⎧e x − y daca 0 ≤ x ≤ y < ∞ f ( y / x) = ⎨ ⎩0 in rest Urmează că:

M ( Y / x ) = ∫ ye
x

x− y

dy = e

x

∫ ye
x

−y

dy = e x [ xe − x + e − x ]

Să aflăm curba de regresie a lui X asupra lui Y: M ( X / y) = Cum:
f 2 ( y) =
∞ −∞

−∞

∫ xf ( x / y) dx
y −y

∫ f ( x, y) dx = ∫ e
0

dx = ye − y y ≥ 0

⎧e − y ⎪ − y ,0 ≤ x ≤ y , y > 0 f ( x , y ) = ⎨ ye ⎪0, in rest ⎩ Atunci: y y x M ( X / y ) = ∫ dx = , y > 0 2 0 y Exemplul 2. Se consideră vectorul aleator (X,Y) repartizat normal bidimensional de 2 ⎛ σx ρσ xσ y ⎞ parametri mx , m y şi ⎜ ⎟. 2 σy ⎠ ⎝ ρσ xσ y Să se determine curbele de regresie M(Y/x) şi M(X/y). Soluţie. Vectorul (X,Y), fiind normal bidimensional, are densitatea de repartiţie: 2 ⎧ ⎡ ( x − m x ) y − m y y − m y ⎤⎫ ⎪ ( x − mx ) 2 1 1 ⎥⎪ ⎢ ⎬ − 2ρ + f ( x, y) = exp⎨− 2 2 2 ⎥⎪ σ xσ y σy 2 Πσ x σ y 1 − ρ 2 ⎪ 2( 1 − ρ ) ⎢ σ x ⎦⎭ ⎣ ⎩ Urmează că densitatea de repartiţie marginală a lui X este:

(

)

(

) (

)

f 1 ( x) =

−∞

∫ ( x, y)dy =

⎧ 2 ⎡ ( x − mx ) y − m y y − m y ⎪ 1 1 ⎢ ( x − mx ) − 2 ρ = + ∫ exp⎨− 2(1 − ρ 2 ) ⋅ ⎢ σ 2 σ xσ y σy 2Πσ xσ y 1 − ρ 2 −∞ ⎪ x ⎣ ⎩

(

) (

)

2

⎤⎫ ⎥⎪dy ⎬ ⎥⎪ ⎦⎭
252

Făcând schimbarea de variabile: y − my x − mx = u, = v , dy = σ y dv

σx

σy
1

obţinem:

⎫ − ρ 2 u 2 + ρ 2 u 2 − 2uv + v 2 ] ⎬dv = 2 2Πσ x 1 − ρ 2 −∞ ⎩ ⎭ ∞ − u2 ⎧ ⎫ 1 e = ∫ exp⎨− 2(1 − ρ 2 ) ( v − ρu) 2 ⎬dv 2Πσ x 1 − ρ 2 −∞ ⎩ ⎭ Dacă punem acum: v − ρu = z , dv = 1 − ρ 2 dz , 2 1− ρ obţinem mai departe: f 1 ( x) =

∫ exp⎨− 2(1 − ρ ) [ u

1

2

− ⎜ 1 f 1 ( x) = e 2⎝ σ x 2Π Prin simetrie, avem:
− ⎜ 1 2 f 2 ( y) = e ⎝ σ y 2Π De aici:

1 ⎛ x − mx ⎞ ⎟ σx ⎠

1 ⎛ y − my ⎞ ⎟ σy ⎠

⎧ ⎡( x − m ) 2 ( x − mx ) y − m y ⎪ 1 x − 2ρ + f ( x / y) = = exp⎨− ⋅⎢ 2 2 σ xσ y f 2 ( y) ⎢ ⎪ 2( 1 − ρ ) ⎣ σ x 2Πσ x 1 − ρ 2 ⎩ 2 ⎫ 2 2 ⎤ ⎧ ⎡ x − mx y − my y − my y − my ⎤ ⎫ ⎪ ⎪ ⎪ 1 1 ⎥⎬ = ⋅⎢ −ρ exp⎨− + − (1 − ρ 2 ) ⋅ ⎥ ⎬ 2 2 2 ⎥⎪ σ 2Π( 1 − ρ 2 ) ⎪ 2( 1 − ρ ) ⎣ σ x σy ⎦ ⎪ σy σy ⎩ ⎭ x ⎦⎭ Deci: 2 ⎧ ⎡ ⎤ ⎫ ⎪ ⎪ σx 1 1 f ( x / y) = exp⎨− ⋅ y − my ⎥ ⎬ ⎢ x − mx − ρ 2 σy ⎪ 2( 1 − ρ 2 )σ x ⎣ ⎦ ⎪ σ x 2Π( 1 − ρ 2 ) ⎩ ⎭ Cum avem de a face cu repartiţie normală de parametrii: valoarea medie f ( x, y) 1

(

)

(

)

(

)

(

)

mx + ρ

σx σ 2 y − m y şi dispersiei ( 1 − ρ 2 )σ x avem M ( X / y ) = mx + ρ x ⋅ y − m y σy σy 2 σ 2 / y = ( 1 − ρ 2 )σ x X

(

)

(

)

Prin simetrie avem:
f ( y / x) = 1

σ y 2Π( 1 − ρ 2 )

2 ⎧ σy ⎪ ⎡ ⎤ ⎫ ⎪ 1 exp⎨− y − my − ρ ⋅ ( x − mx ) ⎥ ⎬ 2 2 ⎢ σx ⎪ 2( 1 − ρ )σ y ⎣ ⎦ ⎪ ⎩ ⎭

şi: M ( Y / x) = my + ρ

σy ( x − mx ) σ Y2/ x = (1 − ρ 2 )σ y2 σx

Graficul funcţiei M(X/y) (precum şi al funcţiei M(Y/x)) este o dreaptă. Deci, în cazul repartiţiei normale bidimensionale curbele de regresie sunt drepte (dreptele de regresie).

253

Aceste drepte trec prin punctul P mx , m y , care este numit centrul repartiţiei normale bidimensionale. 9.4. Ecuaţiile de regresie. Coeficienţii de regresie şi corelaţie Am văzut că fiind dat vectorul aleator (X,Y), curbele de regresie a lui Y faţă de X şi al lui X faţă de Y sunt: M ( Y / x ) = y( x ) ; M ( X / y ) = x( y ) Să admitem că aceste curbe de regresie sunt drepte: M ( Y / x ) = y( x ) = a + bx M ( X / y ) = x( y ) = c + dy luând valoarea medie obţinem: M ( M ( Y / x ) ) = M ( y( x ) ) = a + bM ( X ) , sau m y = a + bmx . Scăzând-o din relaţia ce dă pe y( x ) , obţinem: y( x ) − m y = b( x − mx ) Înmulţind cu x − mx şi luând valoarea medie se obţine: 2 µ XY = cov ( X , Y ) = bσ x , b=

(

)

adică:

µ X ,Y 2 σx σy σx

De aici se obţine că coeficientul unghiular al dreptei de regresie a lui Y în raport cu X este coeficientul de regresie pe care-l notăm bY / X şi care se mai poate exprima: bY / X =

Cu acestea obţinem ecuaţia dreptei de regresie: y( x ) − m y = bY / X ( x − mx ) Să vedem care este expresia raportului de corelaţie când avem o regresie liniară. 2 Pentru aceasta, să exprimăm σ y ( x ) . Conform definiţiei:

σ

2 y( x )

⎡ = M ⎣ y( x ) − m y

(

)

2

σy 2 2 ⎤ 2 2 2 2 = M bY / X ( X − mx ) = bY / X σ x = ρ 2 2 σ x = ρ 2σ y ⎦ σ

[

]

2

x

De aici, rezultă:

η
sau:

2 Y/ X

=

2 σ y( x ) 2 σy

= ρ2

ηY / X = ρ
Dacă regresia lui X faţă de Y este, de asemenea, liniară, se obţin rezultatele simetrice: x( y ) − m x = b X / Y y − m y b X /Y =

η X /Y

µ XY σx 2 = ρ σy σy = ρ

(

)

254

De aici se obţine: η Y / X = η X /Y = ρ
b X /Y ⋅ bY / X = ρ

Relaţiile b X /Y

σx σy = ρ 2 şi ρ = b X /Y ⋅ bY / X ρ σy σx σy σ = ρ x şi bY / X = ρ spun că b X /Y şi bY / X au acelaşi semn ca şi ρ . σy σx

Dacă ρ > 0, ambele drepte de regresie (ce trec prin punctul mx , m y ) formează

(

)

unghiuri ascuţite cu direcţiile axelor Ox şi Oy respectiv. În acest caz spunem că avem o corelaţie pozitivă, ceea ce înseamnă că dacă o variabilă creşte, creşte şi cealaltă. Pentru ρ = 0 , dreapta de regresie a lui Y faţă de X este o paralelă cu Ox, iar x( y ) este paralelă cu Oy. În acest caz, unghiul dintre cele două drepte este de 900. Când ρ creşte, unghiul ascuţit dintre dreptele de regresie descreşte, iar pentru ρ = 1 dreptele coincid. y − m y x − mx = ,

σy

σx

în care caz fiecare dintre variabilele aleatoare X şi Y sunt funcţii liniare una de cealaltă. Dacă ρ < 0, adică avem o corelaţie negativă, dreptele de regresie ce trec prin punctul Unghiul ascuţit dintre drepte descreşte pe măsură ce ρ → −1 şi în cazul când ρ = −1 ambele drepte coincid. 9.5. Dreapta de regresie ca aproximaţie a curbei de regresie neliniară În cazul unei corelaţii liniare, variabilele X şi Y se exprimă liniar una în funcţie de cealaltă: Y − mY X − mX X − mX Y − mY ; =ρ =ρ

(m ,m )
x y

formează un unghi obtuz cu direcţiile pozitive ale axelor Ox şi Oy respectiv.

σY

σX

σX

σY

Se pot menţine aceste drepte în cazul unei corelaţii strânse, dar arbitrare în sensul pe care-l precizăm mai jos. Să exprimăm variabila Y cu ajutorul unei funcţii liniare de X: $ Y ≅ α + βX = y ( X ) Pentru a da un sens precis acestei aproximări, vom introduce o măsură a abaterii de la
2 liniaritate prin SY = M Y − ( α + βX )

[(

)

2

] = M [( Y − ( y$( X ) ) ) ] şi determinăm parametrii α şi β
2

2 astfel încât SY să fie minim. Putem presupune că X şi Y sunt centrate, adică M ( X ) = M ( Y ) = 0 , ceea ce-i echivalent cu a face transformarea X ' = X − M ( X ) ; Y ' = Y − M ( Y ) . În acest caz, liniaritatea între X şi Y este echivalentă cu liniaritatea lui X’ şi Y’. Atunci: 2 SY = M

2 +( 1 − ρ 2 ) σ Y + α 2 Această expresie este minimă dacă se aleg parametrii α şi β:

2 2 2 SY = M ( Y 2 ) − 2 βM ( XY ) + β 2 M ( X 2 ) + α 2 = σ Y − 2 βρσ X σ Y + β 2σ X = ( βσ X − ρσ Y ) + 2

[ ( ( Y − βX ) − α ) ] = M [ ( Y − β X ) ] + α
2 2

2

(căci M ( Y − βX ) = 0)

α = 0, β = ρ

σY = bY / X σX

255

De aici urmează: $ y( x ) = bY / X ⋅ X care este o dreaptă ce trece prin originea axelor de coordonate P( m X , mY ) . $ Luând pentru Y valoarea aproximativă y( x ) am realizat o descompunere ( x ) + Y0 , $ Y=y $ unde Y0 = Y − y( x ) este abaterea care se înregistrează dacă se scade din Y cea mai bună dreaptă în raport cu X, ca aproximaţie a lui Y. Dispersia acestei abateri este dată de: 2 2 SY ( min) = σ Y ( 1 − ρ 2 ) $ Să calculăm corelaţia variabilelor Y şi y( X ) :
$ $ M ( Y ⋅ y( X ) ) − M ( Y ) M ( y( X ) ) = M ( YbY / X X ) = bY / X M ( YX ) = bY / X µ XY = ρ

σY 2 ρσ X σ Y = ρ 2σ Y σX

Cum:
2 2 σ y$ ( X ) = bY2/ X σ x = ρ 2

2 σY 2 2 2 2 σ X = ρ σY , σX

rezultă că:

2 ρ 2σ Y =ρ σ Y σ y$ ( X ) σ Y ρσ Y Să arătăm că variabilele Y0 şi X sunt necorelate. Întrucât M(x) = 0, este suficient să calculăm M(Y0X) şi avem: $ $ M ( Y0 X ) = M [ ( Y − y( X ) ) X ] = M ( XY ) − M ( y( X ) X ) = µ XY − bY / X M ( X 2 ) =

ρ Y , y$ ( X ) =

M Yy ( X ) $

(

)=

σY 2 σ =0 σX X Să considerăm: 2 2 2 2 $ $ S Y = M ( Y − y ( X ) ) = M ( Y − y( X ) + y ( X ) − y( X ) ) = M ( Y − y ( X ) ) +
= µ XY − ρ
0

[

]

[

$ $ +2 M ( Y − y ( X ) ) ( y ( X ) − y ( X ) ) + M ( y ( X ) − y ( X ) ) Dar M ( Y − y( X ) )

[

[

2

] =σ

]

[

2

]

]

[

]

2 Y/ X

$ M ( Y − y( X ) ) ( y ( X ) − y( X ) ) = ∫
= ⎡
1

[

]

ℜ2

$ ∫ ( y − y( X ) )( y( X ) − y( X ) ) f ( x, y) dxdy =
⎤ ⎦

$ ∫ ( y( X ) − y( X ) ) f ( X )⎢ ∫ ( y − y( X ) ) f ( y / x) dy ⎥dx = 0, ⎣ℜ

căci:

∫ ( y − y( X ) ) f ( y / x) dy = 0

$ δ y2( X ) = M ( y( X ) − y( X ) ) obţinem: 2 2 SY0 = σ Y / X + δ y2( X ) ,

Notând:

[

2

]

unde σ Y / X măsoară gradul de împrăştiere a valorilor variabilei Y în jurul liniei de regresie y( x ) , adică eroarea pe care-o facem când calculăm Y cu ajutorul liniei de regresie.
256

2

$ δ y2( X ) măsoară abaterea liniei de regresie y( x ) de la expresia aproximativă y( x ) . Să observăm acum că: 2 2 2 SY ( min) = S 0 = ( 1 − ρ 2 )σ Y , iar:
2 2 σ Y / X = ( 1 − η Y / X )σ Y 2

Atunci: (1 − ρ 2 )σ Y2 = (1 − ηY2/ X )σ Y2 + δ y2( X ) , iar, de aici:

⎛ δ y( X ) ⎞ η = ρ +⎜ ⎟ ⎝ σY ⎠ ceea ce ne conduce la: ρ ≤ ηY / X , cu egalitate dacă şi numai dacă δ y ( X ) = 0, adică în cazul când linia de regresie este o dreaptă.
2 2 Y/ X 2

9.6. Estimarea pe baza observaţiilor a coeficienţilor de corelaţie şi regresie, precum şi a raportului de corelaţie Să determinăm, mai întâi, coeficientul de corelaţie a două însuşiri calitative A, B ale unui fenomen. Dacă punem P( A ∩ B ) = p11 , P( A ∩ B) = p12 , P( A ∩ B) = p21 , P( A ∩ B) = p22 obţinem următoarea repartiţie a acestor însuşiri calitative:

B A
A

B

p11 p21 p.1

p12 p22 p.2

p1. p2.

Ataşăm experimentului care conduce la observarea celor două însuşiri calitative vectorul aleator (X,Y), cu repartiţia: Y X 1 0 1 p11 p21 p.1 0 p12 p22
p.2

p1. p2.

Atunci: M ( XY ) = p11 M ( X ) = p1. ; M ( Y ) = p.1 D 2 ( X ) = p1. − p12. ; D 2 ( Y ) = p.1 − p.2 1

257

Se obţine acum imediat: p11 p22 − p12 p21 ρ A, B = ( p11 + p12 )( p21 + p22 )( p11 + p21 )( p12 + p22 ) Să presupunem acum că s-au făcut n observaţii asupra fenomenului în care se urmăresc caracteristicile A şi B şi că s-au obţinut rezultatele:

B

B

A
A

n11 n21 n11 + n21

n12 n22 n12 + n22

n11 + n12 n21 + n22

n11 + n12 + n21 + n22 = n

Atunci coeficientul empiric de corelaţie al caracteristicilor A şi B este dat de: n11n22 − n12 n21 rA , B = ( n11 + n12 )( n12 + n22 )( n11 + n12 )( n21 + n22 ) Dacă se consideră vectorul aleator (X,Y) şi n observaţii asupra acestui vector, atunci coeficientul empiric de corelaţie este dat de: ⎞ ⎞⎛ 1 ⎛1 1 1 ∑ ∑ n xy ( x − x)( y − y) n ∑ ∑ n xy xy − ⎜ n ∑ n x x ⎟⎜ n ∑ n y y ⎟ ⎠⎝ y ⎝ x n x y ⎠ x y , r= = sx s y sx s y sau încă: ⎞ ⎛ ⎞⎛ n ∑ ∑ n xy xy − ⎜ ∑ n x ⋅ x ⎟⎜ ∑ n y ⋅ y ⎟ ⎝ x ⎠⎝ y ⎠ x y r= 2 2 ⎡ ⎛ ⎞ ⎤ ⎛ ⎞ ⎤⎡ 2 2 ⎢ n ∑ n x x − ⎜ ∑ n x ⋅ x ⎟ ⎥⎢ n ∑ n y y − ⎜ ∑ n y y ⎟ ⎥ ⎝ x ⎠ ⎦⎢ y ⎝ y ⎠ ⎥ ⎣ x ⎣ ⎦
În mod asemănător se obţine coeficientul empiric de regresie pe care-l vom nota b Y / X : sy sx ⎞ ⎛ n∑ n y y − ⎜ ∑ n y y ⎟ ⎠ ⎝ y y
2 2

⎞ ⎛ n∑ nx x 2 − ⎜ ∑ nx x ⎟ ⎠ ⎝ x x şi raportul empiric de corelaţie:
2

bY / X =

r=

2

r

η Y/ X =

sy( x ) sy

=

⎛ ⎞ 2 ⎜ ∑ n xy y ⎟ ⎞ ⎝ y ⎠ ⎛ n∑ − ⎜ ∑ ∑ n xy y ⎟ nx ⎝ x y ⎠ x ⎛ ⎞ n∑ ny y − ⎜ ∑ ny y ⎟ ⎝ y ⎠ y
2 2

258

Din expresia coeficientului empiric de corelaţie se obţine că: P >ρ r ( n) n→∞ În cazul când cele n observaţii se fac dintr-o populaţie normală bidimensională se poate arăta că: 1 M ( r ) ≅ − ρ (1 − ρ 2 ) , 2n de unde rezultă că M ( r ) < ρ , deci că r este o estimaţie negativă deplasată a coeficientului de corelaţie ρ. De asemenea, abaterea medie pătratică a lui r este: 1− ρ 2 σr ≅ n Să presupunem că sunt satisfăcute următoarele cerinţe: (1) În cursul observaţiilor se menţine aceeaşi repartiţie. (2) Observaţiile sunt independente (3) Repartiţia populaţiei este normală sau aproximativ normală (4) Numărul n de observaţii este suficient de mare În aceste condiţii: σ 1− ρ 2 σ bY / X ≅ Y σX n Fischer a arătat că variabila aleatoare: e iZ − 1 1 1+ r Z = ln , adică r = th Z = iZ 2 1− r e +1 urmează aproximativ o lege de repartiţie normală, chiar pentru valori nu prea mari ale volumului de selecţie n, de parametrii M(z) şi D2(z), unde: 1 1+ ρ ρ + M ( z ) = ln 2 1 − ρ 2( n − 1) 1 1 ; D( z ) = σ z = D 2 ( z) = n−3 n−3 Pentru n mare şi r mic (mai mic decât 0,5) se poate construi un interval de încredere utilizând legea normală, şi anume: 1− r 2 1− r2 r − uα < ρ < r + uα n n unde uα se determină cu nivelul de încredere α prin relaţia: α = 2 ∅ ( u) Analog se determină un interval de încredere pentru coeficientul de regresie by/x: σ Y 1− r 2 σ Y 1− r2 b Y / X − uα < bY / X < b Y / X + uα σX σX n n

9.7. Corelaţie multiplă În practică apar frecvent situaţii când intervin mai mult de două variabile între care se manifestă o dependenţă stohastică. Studiul unei astfel de dependenţe ridică dificultăţi şi complicaţii. Ne vom opri mai întâi asupra dependenţei stochastice liniare care este mai simplă şi totodată prezintă importanţă practică deosebită. Vom efectua studiul pentru trei variabile aleatoare X1, X2, X3 şi apoi vom prezenta rezultatele în cazul general. Dacă (x1, x2, x3) sunt
259

rezultatele măsurătorilor pentru vectorul aleator (X1, X2, X3) într-o observaţie şi dacă repetăm măsurătorile de un număr mare de ori, obţinem un nor de puncte din spaţiul euclidian R3. Dacă legătura dintre X1, X2, X3 are un caracter stochastic, atunci ne va interesa în primul rând media fiecărei variabile când celelalte două iau valori fixate. Aşa de exemplu:

M ( X 1 / X 2 = x 2 ; X 3 = x 3 ) = x 1 ( x 2 , x 3 ) = ∫ x1 f 1 ( x1 / x 2 , x 3 ) dx1 =

∫x f (x ,x
1 1

2

, x 3 ) dx1

∫ f (x ,x
1

2

, x 3 ) dx1

x 1 ( x 2 , x 3 ) = a10 + a12 x 2 + a13 x 3 , care este ecuaţia planului de regresie a lui X1 faţă de X2 şi X3. Coeficienţii planelor de regresie se pot exprima cu ajutorul momentelor de ordinul unu şi doi şi covarianţelor variabilelor X1, X2, X3, pe care le vom estima cu datele de selecţie. Ecuaţiile de regresie se utilizează pentru prognozarea valorii variabilei X1 faţă de valorile X2 = x2, X3 = x3 ale celorlalte variabile. Precizia prognozei depinde de intensitatea şi forma legăturii de corelaţie. Considerând cazul unei legături apropiate de cea liniară, vom căuta să descompunem $ $ variabila X1 în două componente X 1 = X 1 + X 1.23 , unde X 1 este componentă complet prognozabilă cu ajutorul unei funcţii liniare şi, în plus, cea de a doua componentă X1.23 să aibă dispersie minimă. Va trebui, deci, să determinăm funcţia liniară: $ X 1 ( X 2 , X 3 ) = a10 + a12 X 2 + a13 X 3 , $ astfel încât X 1 − X 1 = X 1.23 să aibă dispersie minimă. Pentru a simplifica expunerea, vom presupune că: M ( X 1 ) = m X1 = 0; M ( X 2 ) = m X 2 = 0; M ( X 3 ) = m X 3 = 0 ceea ce se poate face totdeauna considerând variabilele: X 1' = X i − m X i , i = 1,2,3 Atunci: $ $ 2 D2 ( X ) = D2 ( X − X ) = M ( X − X )
1.23

În spaţiul euclidian R3 al punctelor (x1, x2, x3) funcţia x 1 ( x 2 , x 3 ) reprezintă o suprafaţă care poartă numele de suprafaţă de regresie a lui X1 faţă de X2 şi X3. În mod analog se definesc suprafeţele de regresie x 2 ( x1 , x 3 ) şi x 3 ( x1 , x 2 ) . Corelaţia dintre X1, X2, X3 se zice liniară dacă suprafeţele de regresie sunt plane. Atunci funcţia x 1 ( x 2 , x 3 ) este liniară în raport cu argumentele:

(

1

1

)

(

1

1

)

Determinarea minimului:

2 $ 2 ( min) H ( a10 , a12 , a13 ) = M ( X 1 − X 1 ) = M ( X 1 − a10 − a12 X 2 − a13 X 3 )

(

)

[

]

revine la rezolvarea sistemului de ecuaţii: 1 ∂H − = M ( X 1 − a10 − a12 X 2 − a13 X 3 ) = 0 2 ∂a10 1 ∂H − = M ( X 1 − a10 − a12 X 2 − a13 X 3 ) X 2 = 0 2 ∂a12 1 ∂H − = M ( X 1 − a10 − a12 X 2 − a13 X 3 ) X 3 = 0 2 ∂a13

[

]

[

]

260

Dacă ţinem seama de faptul că M X j ; X K = ρ jK σ j σ K j ≠ k (şi ρ jK = ρ Kj ), sistemul

(

)

de ecuaţii scris mai jos devine: m X 1 − a10 − a12 m X 2 − a13 m X 3 = 0
2 ρ 12σ 1σ 2 − a10 m X − a12σ 2 − a13 ρ 23σ 2σ 3 = 0
2

2 ρ 13σ 1σ 3 − a10 m X − a12 ρ 23σ 2σ 3 − a13σ 3 = 0 Având în vedere ipoteza făcută m X = 0, i = 1,2,3, rezultă că a10 = 0, şi obţinem
3

i

sistemul de ecuaţii: 2 a12σ 2 + a13 ρ 23σ 2σ 3 = ρ 12σ 1σ 2
2 a12 ρ 23σ 2σ 3 + a13σ 3 = ρ 13σ 1σ 3 Determinantul sistemului este:

liniar una în funcţie de cealaltă şi deci în locul unei dependenţe între trei variabile apare o dependenţă între două variabile. 2 Presupunem deci că ρ 23 ≠ 1. În acest caz: 2 ρ 12σ 1σ 2 ρ 23σ 2σ 3 σ 1σ 2σ 3 ρ 12 ρ 23 σ ∆ 1 a12 = = = − 1 12 , 2 2 2 2 2 σ3 1 σ 2 ∆ 11 ∆ 11σ 2 σ 3 ρ 13σ 1σ 3 ∆ 11σ 2 σ 3 ρ 13 unde am pus:
∆ 12 = −

ρ 23σ 2σ 3 2 2 2 2 2 = ( 1 − ρ 23 )σ 2 σ 3 = ∆ 11σ 2 σ 3 , 2 σ3 2 unde am pus ∆ 11 = 1 − ρ 23 din motive pe care le vom explica mai târziu. 2 Acest determinant este nenul dacă ρ 23 ≠ 1. Dacă ρ 2 = 1, atunci X2 şi X3 se exprimă

2 σ2 ρ 23σ 2σ 3

ρ 12 ρ 13
1

ρ 23
1

= ρ 23 ρ 31 − ρ 12

Analog:
a13 =
2 σ2 2 2 ∆ 11σ 2 σ 3 ρ 23σ 2σ 3

ρ 12σ 1σ 2 σ 1 ∆ 13 =− σ 3 ∆ 11 ρ 13σ 1σ 3

cu:
∆ 13 =

ρ 21 1 = ρ 21 ρ 32 − ρ 31 ρ 31 ρ 32

Se vede acum imediat că ∆11, ∆12, ∆13 sunt complemenţii algebrici ai elementelor primei linii din determinantul: 1 ρ 12 ρ 13
∆ = ρ 21 1

ρ 23

1 $ Ecuaţia funcţiei liniare X 1 se poate scrie acum sub forma: σ 1 ∆ 12 σ 1 ∆ 13 $ X 1( X 2 , X 3 ) = − X2 − X , σ 2 ∆ 11 σ 3 ∆ 11 3 sau dacă revenim la variabilele necentrate. σ 1 ∆ 12 σ 1 ∆ 13 $ X 1 − m X1 = − X 2 − mX2 − X − mX3 σ 2 ∆ 11 σ 3 ∆ 11 3 $ Funcţia liniară X 1 ( X 2 , X 3 ) astfel determinată are proprietatea că este cea mai bună estimaţie liniară, pentru valori date ale variabilelor X2 şi X3.

ρ 31 ρ 32

(

)

(

)

261

$ Să arătăm că restul X 1.23 = X 1 − X 1 este necorelat atât cu X2, cât şi cu X3, adică:

ρ ( X 1.23 , X 2 ) = ρ ( X 1.23 , X 3 ) = 0

Să presupunem iarăşi că variabilele sunt centrate. Atunci: σ 1 ∆ 12 σ 1 ∆ 13 $ X 1.23 = X 1 − X 1 = X 1 + X2 + X σ 2 ∆ 11 σ 3 ∆ 11 3 şi, de aici: $ X 1.23 X 1 − X 1 1 ⎛ ∆ 11 X 1 ∆ 12 X 2 ∆ 13 X 3 ⎞ = = + + ⎜ ⎟ ∆ 11 ⎝ σ 1 σ1 σ1 σ2 σ3 ⎠ Urmează că: ⎛X X ⎞ 1 M ⎜ 1.23 ⋅ 1 ⎟ = ( ∆ 11 + ∆ 12 ρ 12 + ∆ 13 ρ 13 ) = ∆∆ ⎝ σ 1 σ 1 ⎠ ∆ 11 11 ⎡ 1 ⎛ ∆ 11 ⎞⎤ ⎛ X 1.23 X 2 ⎞ ∆ 12 ∆ 13 M⎜ ⋅ = M⎢ X 1 X 2 + 2 X 22 + X 2 X 3 ⎟⎥ = ⎟ ⎜ σ 1σ 3 σ2 ⎝ σ1 σ2 ⎠ ⎠⎦ ⎣ ∆ 11 ⎝ σ 1σ 2 ⎞ ∆ ∆ 1 ⎛ ∆ 11 = ρ 12σ 1σ 2 + 12 + 13 ρ 23σ 2σ 3 ⎟ = ⎜ 2 ∆ 11 ⎝ σ 1σ 2 σ 2 σ 2σ 3 ⎠ 1 = ( ∆ ρ + ∆ 12 + ∆ 13 ρ 23 ) = 0 ∆ 11 11 12 căci în paranteză avem dezvoltarea după prima linie a determinantului: ρ 21 1 ρ 23

ρ 21 1 ρ 31 ρ 32

ρ 23 = 0
1

Analog: ⎛X X ⎞ M ⎜ 1.23 ⋅ 3 ⎟ = 0 ⎝ σ1 σ 3 ⎠

Să calculăm dispersia D 2 ( X 1.23 )

⎡ ⎛ ⎞⎤ σ 1 ∆ 12 σ 1 ∆ 13 D 2 ( X 1.23 ) = σ 12.23 = M ( X 12.23 ) = M ⎢ X 1.23 ⎜ X 1 + X2 + X 3 ⎟⎥ = σ 2 ∆ 11 σ 3 ∆ 11 ⎝ ⎠⎦ ⎣ σ 1 ∆ 12 σ 1 ∆ 13 = M ( X 1.23 X 1 ) + M ( X 1.23 X 2 ) + M ( X 1.23 X 3 ) σ 2 ∆ 11 σ 3 ∆ 11 Având în vedere rezultatele obţinute mai sus rezultă: ∆ 2 σ 12.23 = D 2 ( X 1.23 ) = σ ∆ 11 1 Sau, dezvoltând determinanţii ∆ şi ∆11, obţinem: 2 2 2 1 + 2 ρ 12 ρ 13 ρ 23 − ρ 12 − ρ 13 − ρ 23 2 σ 12.23 = σ1 2 1 − ρ 23 Acest indicator măsoară precizia aproximaţiei liniare a variabilei X1 prin variabilele X2 şi X3. $ Să calculăm coeficientul de corelaţie al variabilelor X1 şi X 1 , pe care-l notăm ρ 1.( 23) $ M( X1, X1) ρ 1.( 23) =

σ 1σ X$

1

262

∆ 2 ⎛ ∆ ⎞ 2 $ M ( X 1 X 1 ) = M X 1 ( X 1 − X 1.23 ) = σ 12 − σ 1 = ⎜1 − ⎟σ 1 ∆ 11 ⎝ ∆ 11 ⎠ 2 $ σ 2$ = M ( X 2 ) ' M ( X + X ) = M ( X 2 ) + 2 M ( X ⋅ X ) + M ( X 2

Observăm că:

(

)

X1

1

[

1.23

]

1

1

1.23

1.23

)

Deci:

σ 2$ = σ 12 − 2 X
1

∆ 2 ∆ 2 ⎛ ∆ ⎞ 2 σ1 + σ 1 = ⎜1 − ⎟σ 1 > 0 ∆ 11 ∆ 11 ⎝ ∆ 11 ⎠
⎛ ∆ ⎞ 2 ⎜1 − ⎟σ 1 ⎝ ∆ 11 ⎠ ⎛ ∆ ⎞ σ 1 ⎜1 − ⎟ σ1 ⎝ ∆ 11 ⎠
1/ 2

Urmează că:

ρ 1.( 23) =
sau:

$ M( X1 X1)

σ X ⋅ σ X$
1

=

1

⎛ ∆ ⎞ = ⎜1 − ⎟ ⎝ ∆ 11 ⎠

1/ 2

2 2 ⎛ σ 12.23 ⎞ ⎛ ρ 12 + ρ 13 − 2 ρ 12 ρ 13 ρ 23 ⎞ ρ 1.( 23) = ⎜1 − 2 ⎟ = ⎜ ⎟ 2 σ1 ⎠ 1 − ρ 23 ⎝ ⎝ ⎠ Se constată că 0 ≤ ρ 1.( 23) ≤ 1

1/ 2

1/ 2

$ X ( X 2 , X 3 ) care este o funcţie liniară de variabilele X2 şi X3. Putem să scriem: σ 12.23 = σ 12 1 − ρ 12.( 23) Dacă considerăm corelaţia dintre X1 şi X2 şi exprimăm liniar pe X1 în funcţie de X2, atunci dispersia restului aproximării conduce la: 2 σ 1.2 = σ ( 1 − ρ 12 ) Aproximând pe X1 printr-o funcţie liniară de X2 şi X3, se obţine o aproximare mai bună decât printr-o singură variabilă şi, deci, avem următoarea relaţie între dispersii: σ 12.23 ≤ σ 12.2 , care conduce la: 2 1 − ρ 12.( 23) ≤ 1 − ρ 12 şi, deci: ρ 12 ≤ ρ 1.( 23) şi, analog: ρ 13 ≤ ρ 1.( 23) , ceea ce este echivalentă cu: ρ 1.( 23) ≥ max ρ 12 , ρ 13 De aici rezultă că dacă ρ 1.( 23) = 0 , atunci ρ 13 = ρ 12 = 0 , ceea ce înseamnă că X1 este necorelată atât cu X2, cât şi cu X3. Dacă X2 şi X3 sunt necorelate, urmează că ρ 23 = 0 şi, în acest caz, 2 2 ρ 12.23 = ρ 12 + ρ 13 Să vedem în ce caz: ρ 1.23 = ρ 12

Dacă ρ 1.( 23) = 1, atunci σ 12.23 = 0 , adică X 1.23 = 0 , ceea ce înseamnă că X1 coincide cu

(

)

{

}

263

Să exprimăm diferenţa:

de prognoză a lui X1 este inutilă. Rezultate şi interpretări analoage se obţin când se schimbă rolul variabilelor: $ X 1 − m1 = a12.3 ( X 2 − m2 ) + a13.2 ( X 3 − m3 ) $ X −m = a (X −m )+a (X −m ) cu mi = M ( X i ) , i = 1, 2, 3. Corespunzător acestor estimaţii, avem dispersiile: ∆ 2 2 ∆ 2 2 ∆ 2 σ 12.23 = σ 1 ; σ 2.13 = σ 2 ; σ 3.12 = σ ∆ 11 ∆ 22 ∆ 33 3 şi coeficienţii de corelaţie: σ 223 σ 2 13 ∆ ∆ 2 ; ρ 2.( 13) = 1 − 2.2 = 1 − ; ρ 12.( 23) = 1 − 1.2 = 1 − ∆ 11 ∆ 22 σ1 σ2 2 σ 3.12 ∆ 2 2 2 2 , cu ∆ 11 = 1 − ρ 23 , ∆ 22 = 1 − ρ 13 , ∆ 33 = 1 − ρ 12 ; ρ 3.( 12 ) = 1 − 2 = 1 − ∆ 33 σ3 2 2 2 ∆ = 1 + 2 ρ 12 ρ 13 ρ 23 − ρ 12 ρ 13 ρ 23

2 2 ( ρ 13 − ρ 12 ρ 23 ) ρ 12 + ρ 13 − 2 ρ 12 ρ 13 ρ 23 2 2 2 ρ 1.23 − ρ 12 = − ρ 12 = 2 2 1 − ρ 23 1 − ρ 23 2 ρ 12.23 = ρ 12 este echivalentă cu ρ 13 = ρ 12 ρ 23 . În acest caz variabila X3 din relaţia liniară 2

$ X 3 − m3 = a 31.2 ( X 1 − m1 ) + a 32.1 ( X 2 − m2 )

2

2

21.3

1

1

23.1

3

3

9.8. Coeficientul de corelaţie parţială Pentru a clarifica cât mai bine intensitatea legăturii stochastice dintre două variabile, în situaţii concrete vom căuta să estimăm această legătură după înlăturarea influenţei tuturor celorlalte variabile legate de variabilele considerate. Indicatorul astfel obţinut măsoară legătura dintre două variabile şi va fi numit coeficient de corelaţie parţială. Să ne menţinem în acelaşi cadru a trei variabile aleatoare X1, X2, X3. Se poate considera că dependenţa stochastică între variabilele X1 şi X2 măsurată prin coeficientul de corelaţie ρ 12 depinde într-o anumită măsură de existenţa unei legături atât a variabilei X1, cât şi a variabilei X2 de variabila X3. Pentru a elimina influenţa lui X3 asupra variabilelor X1 şi X2 vom considera abaterile: ~ $ X 1.3 = X 1 − X 1 ( X 3 ) = X 1 − b1/ 3 X 3 ~ $ X = X − X (X ) = X −b X , unde am presupus că variabilele sunt centrate şi unde am notat b1/ 3 = b X1 / X 3 ; b 2/3 = b X 2 / X 3 , care, după cum ştim, au expresiile:
b1/ 3 =
2 .3 2 2 3 2 2/3 3

~ ~ Coeficientul de corelaţie al variabilelor X 1.3 şi X 2.3 poartă numele de coeficient de corelaţie parţială a variabilelor X1 şi X2 în raport cu variabila X3 şi-l vom nota ρ 12.3 . Deci, din definiţie (ţinând seama de ipotezele de lucru): ~ ~ M ( X 1.3 X 2.3 ) ρ 12.3 =

σ1 σ ρ 13 ; b2 / 3 = 2 ρ 23 σ3 σ3

σX σX ~ ~
1.3

2 .3

264

Cum:

σ X = σ 1 (1 − ρ ~
1.3

1 2 2 13

)

, σ X 2 .3 = σ 2 ( 1 − ρ ~

1 2 2 23

)

,

iar:

~ ~ ~ ~ ~ ~ M ( X 1.3 X 2.3 ) = M X 1.3 ( X 2 − b2 / 3 X 3 ) = M ( X 1.3 X 2 ) − b2 / 3 M ( X 1.3 X 3 ) = M ( X 1.3 X 2 ) , întrucât: σ1 ~ 2 2 ρ 13σ 3 = 0 M ( X 1.3 X 3 ) = M ( X 1 − b1/ 3 X 3 ) X 3 = M ( X 1 X 3 ) − b1/ 3 M ( X 3 ) = ρ 13σ 1σ 3 −

[

]

[

]

σ3

Însă: σ1 ~ ρ 13 ρ 23σ 2σ 3 M ( X 1.3 X 2 ) = M ( X 1 − b1/ 3 X 3 ) X 2 = M ( X 1 X 2 ) − b1/ 3 M ( X 3 X 2 ) = ρ 12σ 1σ 2 −

(

)

σ3

Deci: ~ ~ M ( X 1.3 X 2.3 ) = σ 1σ 2 ( ρ 12 − ρ 13 ρ 23 ) şi, de aici: ρ 12 − ρ 13 ρ 23 ρ 12.3 = 2 2 (1 − ρ 13 )(1 − ρ 23 ) Coeficientul de corelaţie parţială ρ 12.3 este în general diferit de ρ 12 . Aceşti coeficienţi pot avea semne diferite şi, mai mult, unul poate fi nul iar celălalt să fie egal cu unitatea.
Ecuaţiile liniilor de regresie pe baza datelor experimentale

Să notăm pentru simplificare variabilelor X1, X2, X3 prin X, Y Z respectiv şi să presupunem că efectuând n observaţii asupra vectorului aleator (X, Y, Z) s-au obţinut rezultatele (xi, yi, zi), i = 1, 2, … , n. Dacă n este suficient de mare atunci parametrii repartiţiei tridimensionale se pot estima cu ajutorul indicatorilor empirici: x , y , z; s x , s y , sz ; rxy , ryz , rzx , cu expresiile cunoscute. Atunci, regresiile empirice sunt: s sz ∆ 31 $ z−z =− ( x − x) − s z ∆ 32 ( y − y) s x ∆ 33 y ∆ 33 s y ∆ 21 s ∆ $ y− y =− ( x − x) − sy ∆ 23 ( z − z) s x ∆ 22 22 z s s x ∆ 12 $ x−x =− ( y − y) − sx ∆ 13 ( z − z) s y ∆ 11 z ∆ 11
1 ∆ = ryx rzx cu: rxy 1 rzy rxz
2 2 2 ryz = 1 + 2rxy ryz rxz − rxy − ryz − rzx 1

rxy = ryx ; ryz = rzy ; rxz = rzx
2 2 2 ∆ 11 = 1 − ryz ; ∆ 22 = 1 − rxz ; ∆ 33 = 1 − rxy r rxz 3+1 xy ∆ 31 = ( −1) = rxy ryz − rxz 1 rxy

265

1 rxz = rxy rxz − ryz rxy ryz r rxz 2 +1 xy ∆ 21 = ( −1) = rxz rzy − rxy rzy 1 Cu acestea, regresiile empirice se scriu: $ z − z rxz − rxy ryz x − y ryz − rxy rzx y − y = ⋅ ⋅ + 2 2 sx sy sz 1 − rxy 1 − rxy $ y − y rxy − rxz rzy x − x ryz − rxy rxz z − z = ⋅ ⋅ + 2 2 sx sz sy 1 − rxz 1 − rxz $ x − x rxy − ryz rxz y − y rxz − rxy ryz z − z ⋅ = ⋅ + 2 2 sx sy sz 1 − ryz 1 − ryz Coeficienţii empirici de corelaţie generală se obţin astfel: ∆ 32 = ( −1)
3+ 2

∆ ∆ ∆ , ; ry .xz = 1 − ; rz .xy = 1 − ∆ 11 ∆ 22 ∆ 33 iar coeficienţii empirici de corelaţie parţială: rxy − rxz ryz rxy .z = 2 2 (1 − rxz ) 1 − ryz rx . yz = 1 −

(

)

rxz . y = ryz =

(1 − r )(1 − r )
2 xy 2 yz

rxz − rxy ryz

(1 − r )(1 − r )
2 xy 2 xz

ryz − ryx rzx

s > 3.

Nu prezintă nici o dificultate acum trecerea la vectorii aleatori (X1, X2, …, Xs), cu

Să presupunem că vectorul aleator (X1, X2, …, Xs) are densitatea de repartiţie f(x1, x2, …, xs) şi că există momentele mixte care intervin în consideraţiile pe care le facem. Atunci: M ( X i ) = mi = ∫ ... ∫ xi f ( x1 ,..., x 3 ) dx1 ... dx s
Var ( X i ) = µ ii = σ i2 = M ( X i − mi ) cov ( X i ) = µ ij = M ( X i − mi ) X j − m j
RS

[

2

] = ∫ ... ∫ ( x − m )
i i
RS

2

f ( x1 ,..., x s ) dx1` ... dx s

[

(

)] = ∫ ... ∫ ( x − m )( x
i i
R s

j

− m j f ( x1 ,..., x s ) dx1 ... dx s

)

Natural, coeficientul de corelaţie al variabilelor Xi şi Xj, i ≠ 1, 2, …, 1 este dat de:

ρ X , X = ρ ij =
i j

µ ij

µ ii µ jj

, i ≠ j = 1, 2,..., s

Exprimând densitatea de repartiţie condiţionată: f ( x1 , x 2 ,..., x s ) f ( x1 ,..., x s ) f ( x1 / x 2 ,..., x s ) = = , f 2....s ( x 2 ,..., x s ) ∫ f ( x1 , x 2 ,..., x s ) dx1
R

definim valoarea medie a variabilei X1 condiţionată de faptul că X2 = x2; X3 = x3; …; Xs = xs M ( X 1 / X 2 = x 2 ,..., X s = x s ) = ∫ x1 f ( x1 / x 2 ,..., x s ) dx1 = x 1 ( x 2 ,..., x s )
R

266

σ i2 ( x1 ,..., xi −1 , xi +1 ,..., x s ) =

În spaţiul euclidian real s – dimensional, x 1 ( x 2 ,..., x s ) reprezintă o hipersuprafaţă pe care o vom numi suprafaţă de regresie a variabilelor X2, X3, …, Xs faţă de X1. Analog se definesc şi celelalte s – 1 suprafeţe de regresie: x i ( x1 ,..., xi −1 , xi +1 ,..., x s ) = M ( X i / X 1 = x1 ,..., X i −1 = xi −1 , X i +1 = xi +1 ,.., X s = x s ) Dispersia variabilei Xi faţă de regresia variabilelor X2,…, Xs, adică faţă de media condiţionată x i ( x1 ,..., xi −1 , xi +1 ,..., x s ) va fi:
R

∫[ x

i

− x i ( xi ,..., xi −1 , xi +1 , x s ) f ( xi / x1 ,..., xi −1 xi +1 ,..., x s ) dxi
2

]

Să considerăm acum mediile condiţionate: m1.34...s = ∫∫R 2 x1 f ( x1 , x2 / x3 ,..., xs ) dx1dx2 m2.34...s = ∫∫R 2 x 2 f ( x1 , x 2 / x 3 ,..., x s ) dx1dx 2 , f ( x1 , x 2 ,..., x s ) unde f ( x1 , x 2 / x 3 ,..., x s ) =

f 34...s ( x 3 ,..., x s ) Dispersiile variabilelor X1, respectiv X2, condiţionate de variabilele X3, X4,.., Xs sunt date de: 2 σ 12.34...s = ∫∫R 2 ( x1 − m1.34...s ) f ( x1 , x 2 / x 3 ... x s ) dx1dx 2

µ 12.34...s σ 1.34...sσ 2.34...s În mod analog se defineşte coeficientul de corelaţie parţială al variabilelor Xi, Xj când celelalte iau valori determinate. µ ij .1...i −1,i +1,..., j +1,...s ρ ij .1...i −1,i +1,..., j −1, j +1,...s = σ i .1...i −1,i +1... j −1, j +1...sσ j .1...i −1,i +1,... j −1, j +1,...s i ≠ j = 1, 2, ... s Putem acum să definim şi coeficientul multiplu de corelaţie, pe care-l vom nota R1.23…s (coeficientul de corelaţie al variabilei X1 cu toate celelalte variabile). Dacă reluăm notaţia µij pentru momentul centrat al variabilelor aleatoare Xi şi Xj şi notăm: µ 11 µ 12 ... µ 1s µ 22 µ 23 ... µ 2 s µ 21 µ 22 ... µ 2 s µ 32 µ 33 ... µ 3s ∆= ; ∆ 11 = , ρ 12.34...s =
... ... ... ... ... ... ... ...

iar covarianţa variabilelor X1, X2 condiţionate de X3, X4,…, Xs este dată de expresia: µ 12.34...s = ∫∫R 2 ( x1 − m1.3...s )( x 2 − m2.3...s ) f ( x1 , x 2 / x 3 ... x s ) dx1dx 2 Putem acum să definim coeficientul de corelaţie parţială al variabilelor X1, X2 faţă de variabilele X3,…, Xs prin expresia:

2 σ 2.34...s = ∫∫R ( x 2 − m2.34...s ) f ( x1 , x 2 / x 3 ... x s ) dx1dx 2 , 2
2

µ s1 µ s 2 ... µ ss µ s 2 µ s 3 ... µ ss atunci coeficientul definit prin relaţia: ∆ R1.23...s = 1 − µ 11 ∆ 11 se numeşte coeficient multiplu de corelaţie al variabilei X1 în raport cu toate celelalte. Dintre proprietăţile acestui coeficient amintim doar următoarele: (1) 0 ≤ R1.2...s ≤ 1
267

(2) Dacă R1.2... s = 1, atunci repartiţia are punctele sale situate aproximativ în acelaşi plan. 9.9. Coeficienţi de corelaţie a rangurilor Calculul coeficientului de corelaţie a două variabile aleatoare X şi Y prin relaţia: M ( XY ) − M ( X ) M ( Y ) ρ X ,Y = D2 ( X ) D2 (Y) presupune că se pot exprima cantitativ valorile variabilelor X şi Y. Deci, atunci când exprimăm coeficientul de corelaţie empiric va trebui ca datele de observaţie să fie măsurate cu precizie, altfel nu vom putea determina acest coeficient de corelaţie. Pot apărea însă adesea situaţii când avem de stabilit intensitatea legăturii între caracteristici calitative. Aşa, de exemplu, la un concurs sportiv se prezintă un număr de concurenţi care vor trebui clasificaţi. Pentru o clasificare cât mai obiectivă se folosesc doi arbitri judecători şi vrem să cunoaştem dacă există o legătură puternică între clasificările date de cei doi arbitri. Un alt exemplu îl poate constitui legătura dintre intensitatea culorii unor fibre textile şi gradul de umiditate al lor pentru un număr dat de loturi. Rezultă clar că nu este vorba de măsurători ce pot fi efectuate cu precizie. Să presupunem că avem o populaţie C în care unităţilor ei notate Ui, 1 ≤ i ≤ n le asociem rangurile lor când le clasificăm după două caracteristici A şi B, conform cu tabelul ce urmează: Rangul Unitatea Proprietatea A Proprietatea B U1 U2 U3 … Uk … Un-1 Un i1 i2 i3 … ik … in-1 in j1 j2 j3 … jk … jn-1 jn

unde (i1, i2, …, in-1, in) şi (j1, j2, …, jn-1, jn) sunt două permutări ale numerelor 1, 2, …, n din tabelul de n! permutări ale acestor numere. Se pune problema dacă între cele două clasificări există o legătură stochastică şi cât de puternică este această legătură. Vom realiza acest lucru cu ajutorul coeficientului de corelaţie a rangurilor.
Coeficientul de corelaţie a rangurilor al lui Spearman

C. Spearman a propus drept măsură a corelaţiei rangurilor coeficientul de corelaţie alcătuit pe baza rangurilor:
R=

µ AB σ Aσ B

unde:
1 n µ AB = ∑ ( i k − m A )( j k − mB ) n k =1 1 n 1 n 1 n 2 1 n 2 2 2 2 2 m A = ∑ i k ; m B = ∑ j k ; σ A = ∑ i k − m A ; σ B = ∑ j k − mB n k =1 n k =1 n k =1 n k =1
2 Să efectuăm calculele pentru obţinerea expresiilor µ AB , m A , mB , σ 2 , σ B . A

268

1 n( n + 1) n + 1 ( 1 + 2+...+ n − 1 + n) = = 2n 2 n ( n + 1) 2 n( n + 1)( 2n + 1) ( n + 1) 2 n 2 − 1 1 n 2 1 2 σ 2 = ∑ i k − m 2 = ( 1 + 2 2 +...+ n 2 ) − = − = A A n k =1 n 4 6 4 12 Analog, n2 − 1 2 σB = 12 Să calculăm 1 n µ AB = ∑ ( i k − m A )( j k − mB ) n k =1 Pentru aceasta, să considerăm identitatea: m A = mB =

Mai întâi:

∑( a
n k =1

k

− bk ) = ∑ ( a + b
2 n k =1 2 k

2 k

) − 2∑ a b
n k =1 k

k

De aici obţinem: n n 1⎡ n 2 2⎤ a k bk = ⎢ ∑ ( a k + bk2 ) − ∑ ( a k − bk ) ⎥ ∑ ⎦ 2 ⎣ k =1 k =1 k =1 Dacă în această egalitate facem: n +1 n +1 a k = ik − , ; bk = j k − 2 2 obţinem: 2 2 n + 1⎞ ⎛ n + 1⎞ ⎤ ⎡ n ⎛ n + 1⎞ n + 1 ⎞⎛ n + 1 ⎞ 1 ⎧ n ⎡⎛ 1 n ⎛ ⎟⎟ ⎥ − ⎢ ∑⎜i k − ⎟ + ⎜ jk − ⎟= ⎟⎜ j k − ⎨ ∑⎢⎜i k − µ AB = ∑⎜i k − 2 ⎠⎝ 2 ⎠ 2n ⎩ k =1 ⎣⎝ 2 ⎠ ⎝ 2 ⎠ ⎦ ⎣ k =1 ⎝ 2 ⎠ n k =1 ⎝ 2 n + 1 ⎞⎤ ⎫ ⎛ ⎟ ⎬ −⎜ j k − ⎝ 2 ⎠⎥ ⎭ ⎦ sau: 1 ⎛ n 2 − 1 n 2 − 1⎞ 1 n 2 + µ AB = ⎜ ⎟− ∑( ik − jk ) 2 ⎝ 12 12 ⎠ 2n k =1 Notând: i k − j k = d k , K = 1,2,..., n , obţinem: n2 − 1 1 n 2 − µ AB = ∑d 12 2 n k =1 k şi, cu aceasta:
n ⋅ ( n − 1) Coeficientul de corelaţie a rangurilor R (al lui Spearman) variază între – 1 şi + 1. Pentru două clasificări de ranguri identice, adică: d k = i k − j k = 0, k = 1,2,..., n obţinem imediat R = 1. Pentru două clasificări de ranguri perfect inverse, obţinem R = - 1. Într-adevăr, dacă: i1 , i2 ,..., in−1 , in este 1,2,..., n iar: j1 , j2 ,..., jn−1 , jn este n, n − 1,...,2,1 R = 1− 6∑ d k2
k =1 2 n

269

atunci: d 1 , d 2 ,.., d n−1 , d n vor fi 1 − n,3 − n,5 − n,..., n − 3, n . Dacă acum n este par, adică n = 2m, atunci:

∑d
k =1

2m

2 k

= 2[12 + 2 2 +...+( 2m − 1)

2

] = 2[1

2

+ 2 2 +...+( 2m) − ( 2 2 + 4 2 +...+( 2m)
2

2

)] =

⎡ 2m( 2m + 1)( 4m + 1) 4m( m + 1)( 2m + 1) ⎤ 2 − 2⎢ ⎥ = 3 m( 2m + 1)( 2m − 1) 6 6 ⎣ ⎦ Înlocuind în expresia lui R, obţinem:
2m( 4m − 1) Dacă n = 2m + 1, atunci:
2 2 m +1 k =1

R = 1−

6∑ d k2
k =1

n

= 1−

2 ⋅ m( 2m + 1)( 2m − 1) = −1 2m( 4m − 1) 3
2 2

6

∑d

2 k

= 2[ 2 2 + 4 2 +...+( 2m) 6

]=

4m( m + 1)( 2m + 1) 3

Deci:
R = 1−

4m ( m + 1)( 2m + 1) = −1 ( 2m + 1) ( 2m + 1) 2 − 1 3

[

]

9.10. Reunirea sau comasarea rangurilor În practică apar adesea probleme de ordonare în care este imposibil să distingem situaţia de rang a unui număr de elemente alăturate. În astfel de situaţii este comod să facem media rangurilor şi să asociem acelaşi rang fiecăruia dintre unităţile respective, chiar dacă un astfel de rang este fracţionar. Să analizăm efectul întrunirii a l elemente care ocupă rangurile h + 1, h + 2, …, h + l. Suma pătratelor rangurilor nereunite este: 1 ( h + 1) 2 + ( h + 2) 2 +...+( h + l ) 2 = lh 2 + hl( 1 + l ) + l( l + 1)( 2l + 1) 6 Suma pătratelor rangurilor reunite este: 2 1 1 ⎡ ⎤ 2 l⎢ h + ( l + 1) ⎥ + lh 2 + hl( l + 1) + l( l + 1) ⎣ ⎦ 4 2 Diferenţa lor va fi: 1 1 1 2 l( l + 1)( 2l + 1) − l( l + 1) = ( l 3 − l ) 6 4 12 1 3 ( l − l ) . Pe Prin urmare, dacă se reunesc l ranguri, suma pătratelor se micşorează cu 12 n+1 de altă parte, media rangurilor rămâne neschimbată, adică şi, deci, dispersia rangurilor 2 1 3 ( l − l) . reunite se micşorează cu 12n Evident, efectul reunirii rangurilor pentru diferite mulţimi de ranguri este aditiv, astfel încât, dacă avem ordonare cu ordonări reunite de câte l1 , l2 ,..., l s elemente şi aportul total va fi pentru caracteristica A: s 1 3 LA = ∑ lp − lp p =1 12

(

)

270

Rezultă că: 2 1 n ⎛ 1 n + 1⎞ 1 ∑⎜ik − 2 ⎟ = 12 ( n 2 − 1) − n L A ⎠ n k =1 ⎝ şi, analog, pentru caracteristica B: 2 1 n + 1⎞ 1 n ⎛ 1 ∑⎜ jk − 2 ⎟ = 12 ( n 2 − 1) − n LB , ⎠ n k =1 ⎝ cu LB definit în mod asemănător cu LA. Calculând acum µ AB , obţinem: 1 n 2 1 1 n + 1 ⎞⎛ n + 1⎞ 1 2 1 n ⎛ ⎜i k − ⎟⎜ j k − ⎟ = ( n − 1) − ∑⎝ ∑ d k − 2n L A − 2n L B 2n k =1 2 ⎠⎝ 2 ⎠ 12 n k =1 Urmează, de aici, că în acest caz coeficientul de corelaţie a rangurilor lui Spearman va fi dat de: n 1 2 ( n − n) − ( L A + LB ) − ∑ d k2 6 k =1 R= ⎡1 3 ⎤⎡ 1 3 ⎤ ⎢ 6 ( n − n) − 2 L A ⎥⎢ 6 ( n − n) − 2 LB ⎥ ⎣ ⎦⎣ ⎦ Exemplu Să se stabilească dacă există corelaţie între intensitatea culorii firelor în 10 loturi de materiale destinate industriei textile şi umiditatea lor. Un expert a dispus loturile în următoarea ordine:

Lotul Intensitatea culorii Umiditatea d d2

L1 3 1 2 4
2 k

L2 8 9 -1 1

L3 5 10 -5 25

L4 4 2 2 4

L5 2 4 -2 4

L6 10 9 1 1

L7 1 3 -2 4

L8 7 5 2 4

L9 9 8 1 1

L10 6 6 0 0

∑d
k =1

10

= 4 + 1 + 25 + 4 + 4 + 1 + 4 + 4 + 1 + 0 = 48
6 ⋅ 48 = 0,709 1000 − 10 .

R = 1−

Putem trage concluzia că există o legătură între intensitatea culorii şi umiditate şi ea este destul de puternică. Exemplu. La concursul de figuri libere doi arbitri au dispus participanţii în următoarea ordine: Participanţii I. arbitru II. arbitru P1 1,5 1 P2 1,5 2 P3 3 4 P4 4 4 P5 6 4 P6 6 6 P7 6 7 P8 8 8 P9 9,5 9 P10 9,5 10

Să se stabilească cât de obiectivă este aprecierea arbitrilor, adică cât de puternică este legătura între aprecierile celor doi arbitri.

271

Soluţie: Primul arbitru a împărţit primul loc între participanţii P1 şi P2. Rangul lor 1+ 2 = 1,5 reunit este 2 5+ 6+ 7 = 6 . La Participanţii P5, P6, P7 împart locurile 5, 6, 7. Rangul lor reunit este 3 fel şi pentru celelalte situaţii. Calculăm acum mărimile LA şi LB. Pentru calculul lui LA avem: P1 şi P2 sunt două ranguri reunite, P5, P6, P7 sunt ranguri reunite, P9, P10 iarăşi două ranguri reunite. Astfel: ( 2 3 − 2) + ( 33 − 3) + ( 2 3 − 2) LA = =3 12 Analog: 33 − 3 LB = =2 12 şi: ( 103 − 10) / 6 − ( 3 + 2) − 7 1000 − 10 − 12.6 R= = = [(103 − 10) / 6 − 6][(103 − 10) / 6 − 4] (1000 − 10 − 36)(1000 − 10 − 24) 918 918 = = = 0,956 954.966 959,98 Se poate afirma că aprecierile arbitrilor date concurenţilor sunt obiective, căci coeficientul de corelaţie a rangurilor este foarte apropiat de unitate. Repartiţia exactă a coeficientului de corelaţie a rangurilor R al lui Spearman se obţine prin enumerarea celor n! permutări echiprobabile ale rangurilor şi ea este tabelată. În cazul selecţiilor de volum mare, repartiţia lui R este aproximativ normală cu parametrii: 1 M ( R ) = 0, D 2 ( R ) = n −1 Aceasta rezultă imediat din următoarele: n +1 n2 − 1 n +1 2 M ( ik ) = ; D ( i k ) = 12 ; cov( i k , ie ) = − 2 12
M ( i k jh ) = M ( i k ) M ( jh ) =

( n + 1) 2
4
2

Cu acestea, M ( R) =

12 n( n + 1) n +1 ⋅ −3 =0 2 4 n −1 n( n − 1) 2 2 2 ⎡⎛ ⎡ 12 ⎤ ⎛ ⎞ ⎡ 12 ⎤ ⎞ ⎤ 2 2 D ( R) = ⎢ ⎥ D ⎜ ∑ a k bk ⎟ = ⎢ ⎥ ⋅ M ⎢⎜ ∑ a k bk ⎟ ⎥ 2 ⎝ k ⎠ ⎣ n( n 2 − 1) ⎦ ⎠ ⎦ ⎣ n( n − 1) ⎦ ⎣⎝ k

Dacă se ridică la pătrat expresia
M(a b şi
2 2 k k

∑a b
k k

k

atunci avem de calculat:

) = M( a ) M(b )
2 k 2 k

⎛ n 2 − 1⎞ =⎜ ⎟ ⎝ 12 ⎠

2

⎛ n + 1⎞ ⎟ M ( a k bk a l bl ) = M ( a k a l ) M ( bk bl ) = cov( a k , a l ) cov( bk , bl ) = ⎜ − ⎝ 12 ⎠

2

272

De aici urmează: 2 2 ⎛ 12 ⎞ ⎡ ⎛ n 2 − 1 ⎞ 2 1 ⎛ n + 1⎞ ⎤ 2 ⎟ ⎥= D ( R) = ⎜ ⎟ + n( n + 1)⎜ ⎟ ⎢ n⎜ 2 ⎝ 12 ⎠ ⎦ n − 1 ⎝ n( n − 1) ⎠ ⎣ ⎝ 12 ⎠ Deci, dacă n este suficient de mare, variabila n − 1R urmează o lege normală N(0;1). 9.11. Coeficientul de corelaţie a rangurilor al lui Kendall La deducerea coeficientului R de corelaţie a rangurilor al lui Spearman, s-au luat în considerare n diferenţe dk = ik – jk corespunzătoare celor două şiruri de clasificări. M. G. Kendall a propus să fie luate în considerare toate diferenţele ce le prezintă cele două şiruri de clasificări, acestea fiind calculate ordonând crescător rangurile după o proprietate, de obicei proprietatea A. Rangul Unitatea Proprietatea A Proprietatea B

U l1
1 j1'

U l2
2 ' j2

U l3
3 ' j3

… … …

U lk
k j k'

… … …

U ln
n ' jn

Clasificarea a fost făcută astfel: Unitatea U l1 avea rangurile ih = 1 şi jh. Am pus această unitate pe poziţia rangului şi, totodată, am notat j1' = jh şi tot aşa mai departe cu toate celelalte unităţi. Faţă de noua clasificare considerăm diferenţele: ' ' ' ' ' ' ' ' ' j2 − j1' ; j3 − j1' ; j3 − j2 ; j4 − j1' ; j4 − j2 ; j4 − j3 ; ... Avem, aşadar, diferenţele: δ kl = j k' − jl' k = 2,3,..., n; l = 1,2,..., k − 1 Pentru o clasificare identică avem δ kl > 0; k , l cu valorile menţionate, iar pentru clasificarea inversă δ kl < 0 . În cazul unui tabel de corelaţie oarecare avem şi diferenţe pozitive şi diferenţe negative. Introducem funcţia: C : {δ kl , k = 2,3,..., n; l = 1,2,..., k − 1} → {−11} , prin relaţia: ⎧ 1 δ kl > 0 C ( δ kl ) = ⎨ ⎩−1 δ kl < 0 şi efectuăm suma:
S = ∑ ∑ C ( δ kl )
k = 2 l =1 n k −1

Atunci coeficientul de corelaţie a rangurilor al lui Kendall se defineşte prin: S 2S , τ AB = 2 = Cn n( n + 1) unde Cn2 este numărul tuturor diferenţelor posibile. Coeficientul τ poate fi considerat, într-un anumit sens, ca o corelaţie de tip general, dacă procedăm în felul următor: pentru orice ranguri i şi j referitor la caracteristica A asociem variabila: ⎧ 1 i> j a ij = ⎨ , ⎩−1 i < j
273

iar pentru caracteristica B: ⎧ 1 i> j bij = ⎨ ⎩ −1 i < j Atunci:

τ AB =

∑( a
i, j ij

ij

, bij
ij

)

( a ) (b )
2

2

şi se constată imediat că se obţine expresia pe care am menţionat-o. Pentru selecţii de volum mare (în practică, n superior lui 8-10), repartiţia statisticii S este aproximativ normală de parametrii: n( n − 1)( 2n + 5) M( S) = 0 D2 ( S) = 18 De aici rezultă că însuşi coeficientul de corelaţie a rangurilor τ AB al lui Kendall pentru n mare are aproximativ repartiţia normală de parametri: 2( 2n + 5) M (τ AB ) = 0, D 2 (τ AB ) = 9n( n + 1) Analizând forma coeficientului τ AB exprimat cu ajutorul variabilelor aij şi bij, precum şi coeficientul de corelaţie parţială, se poate introduce şi coeficientul de corelaţie parţială a rangurilor al lui Kendall şi că acesta verifică relaţia: τ AB − τ ACτ BC , τ AB .C = 2 2 (1 − τ AC )(1 − τ BC ) întru-totul analoagă cu ρ XY .Z Coeficientul de corelaţie a rangurilor al lui Kendall se utilizează cu succes în detectarea tendinţei monotone într-o serie dinamică. O altă utilizare importantă o constituie estimarea parametrilor cu o anumită semnificaţie. Dacă θ este probabilitatea unei concordanţe, adică probabilitatea: unde X i , X j
i j

( ) două valori extrase la întâmplare, aranjate în aceeaşi ordine ca şi valorile ( Y , Y ) asociate.
Ipoteza nulă H 0 : θ =
1 se testează cu ajutorul statisticii: 2

P X i − X j Yi − Y j > 0 = θ ,

[(

)(

) ]

2C 1 = (τ XY + 1) , n( n − 1) 2 1⎡ n( n − 1) ⎤ unde C = ⎢ S + 2⎣ 2 ⎥ ⎦

θ$ =

Din faptul că M C( δ kl ) = 1.θ + ( −1)( 1 − θ ) = 2θ − 1 rezultă că: n( n − 1) ( 2θ − 1) M( S) = 2 Deci: 1 1 M ( θ$) = ( 2θ − 1) + = θ , 2 2
274

[

]

$ ceea ce arată că θ este un estimator nedeplasat pentru:

θ = P X i − X j Yi − Y j > 0

$ Dispersia exactă a estimatorului θ depinde de repartiţia vectorului aleator ( X , Y ) . M. G. Kendall a arătat că: 5θ ( 1 − θ ) D 2 ( θ$) = , 9( n − 1) care permite construirea unui interval de încredere aproximativ pentru θ .

[(

)(

) ]

9.12. Coeficientul de contingenţă al lui Pearson Să considerăm vectorul aleator ( X , Y ) , cu repartiţia: Y X x1 x2 . . . xm y1 P11 P21 y2 P12 P22 … … … yn P1n P2n P1* P2*

Pm1 P*1

Pm2 P*2

… …

Pmn P*n

Pm*

unde am pus P X = xi ; Y = y j = pij , iar pentru repartiţiile marginale:

(

)

∑P
j =1

n

ij

= Pi∗ ;

∑P
i =1

m

ij

= P∗ j

Coeficientul ϕ introdus de K. Pearson prin relaţia: Pi∗ P∗ j măsoară dependenţa dintre variabilele X şi Y. Acest coeficient are unele proprietăţi importante referitoare la dependenţa variabilelor. (1) 0 ≤ ϕ2 ≤ 1 Acest lucru rezultă imediat din faptul:
i =1 j =1

ϕ2 =

1

( m − 1)( n − 1

∑∑ )

m

n

(P − P P )
ij i∗
∗j

2

∑∑
i =1 j =1

m

n

(P − P P )
ij i∗
∗j

2

Pi∗ P∗ j
⋅ Pij P∗ j ≤ Pij ' P∗ j ' =

= ∑∑
i =1 j =1

m

n

Pij Pi∗ P∗ j

−1

şi

∑P
j =1

n

Pij
i∗

Pij '

∑P
i =1

m

≤1

ij '

Deci, dacă m ≤ n, atunci: ≤ m − 1, Pi∗ P∗ j iar dacă n ≤ m, această expresie este:
i j

∑∑

(P − P P )
ij ix ∗j

2

275

ϕ2 = 1.

≤ n−1 Pi∗ P∗ j De aici rezultă afirmaţia: 2) Dacă variabilele aleatoare X şi Y sunt independente, atunci ϕ2 = 0. Afirmaţia este imediată, căci în acest caz: Pij = Pi∗ P∗ j 3) Dacă între variabilele aleatoare X şi Y există o dependenţă funcţională, atunci
i j

∑∑

(P − P P )
ij ix ∗j

2

Într-adevăr, în acest caz: ⎧ 0, i≠ j Pij = ⎨ ⎩ Pi∗ = P∗ j , i = j şi totodată m = n. Dar, atunci: ⎞ ⎞ Pij2 Pij 1 ⎛ 1 ⎛ 1 ⎡⎛ m ⎞ ⎤ 2 ϕ = − 1⎟ = − 1⎟ = ⎜∑ ∑ ⎜∑ ∑ ⎢⎜ ∑1⎟ − 1⎥ = 1 m − 1 ⎝ i j Pi∗ P∗ j ⎠ m − 1 ⎣⎝ i =1 ⎠ ⎦ ⎠ m − 1 ⎝ i j P∗ j Proprietatea reciprocă nu are loc şi, deci, din egalitatea cu 1 a coeficientului de contingenţă al lui Pearson nu rezultă că între X şi Y este o dependenţă funcţională. 9.13. Metoda celor mai mici pătrate Să considerăm modelul liniar în care cele n ecuaţii ale modelului sunt de forma: Y = α 1 X 1 + α 2 X 2 +...+α p X p + ε , unde Y, X1, X2,…, Xp sunt vectori (n,1), α1, α2,…, αp parametri. ε este vectorul rezidual al modelului. Se pune problema estimării parametrilor α1, α2,…, αp astfel încât

∑ε
i =1

n

2 i

min.

Se numeşte ajustare a modelului, orice soluţie a sistemului de n ecuaţii cu p necunoscute a1,…, ap. yi = ∑ a j xij + ei 1 ≤ i ≤ n
j =1 p

Ecuaţiile pot fi scrise matricial Y =
( n ,1)
n

( n , p )( p ,1) ( n ,1)

Xa + ε , cu

∑ε
i =1

n

2 i

= e' e

Ajustarea prin metoda celor mai mici pătrate este cea care dă coeficienţii a1, a2,…, ap care minimizează

∑e
i =1

n

2 i

, unde ei = yi − ∑ a j xij .
i =1

Sintetic, o ajustare se defineşte prin Y = ∑ a j X j + e sau încă Y =
( n ,1)
j =1

p

( n ,1)

( n ,1)

( n ,1)

( n , p )( p ,1) ( n ,1)

Xa + ε .
n

Ajustarea prin metoda celor mai mici pătrate este cea care realizează ( min) e' e = ∑ ei2 .
i =1

Putem pune modelul sub forma: e = Y − Xa , şi atunci: e' e = ( Y − Xa ) ' ( Y − Xa ) = Y ' Y − Y ' Xa − a ' X ' Y '+ a ' X ' Xa = Y ' Y − 2a ' X ' Y '+a ' X ' Xa Să aflăm punctele de extrem:

∂ ( e' e) = 0 ∂a

276

Cum

rezultă condiţia de extrem X ' Xa = X ' Y . Dacă n ≥ p şi dacă rang X = p, atunci X ' X este o matrice de ordinul p şi de rang p şi, deci, este inversabilă. Rezultă: −1 a = ( X ' X ) X 'Y ~ ~ Rămâne să arătăm că extremul atins prin e' e este un minim. Fie a o altă soluţie şi e vectorul ecarturilor corespunzător. Atunci: ~ ~ ~ ~ e = Y − X a − ( Y − Xa ) + ( Xa − X a ) = e + X ( a − a ) ~ ' e = ( e + X ( a − a ) ) ' ( e + X ( a − a ) ) = e' e + 2( a − a ) ' X ' ( Y − Xa ) + ( a − a ) ' X ' X ( a − a ) ~ ~ ~ ~ ~ ~ e Cum X ' ( Y − Xa ) = 0 ⇒ Y − Xa = 0 , obţinem: ~~ ~ ~ e ' e = e' e + ( X ( a − a ) ) ' ( X − ( a − a ) ) În această egalitate, cel de-al doilea termen este o sumă de pătrate şi, deci, este pozitiv sau nul. Prin urmare: ~~ e' e ≤ e ' e −1 Observaţie. Dacă n ≥ p şi rang X = p, ajustarea a = ( X ' X ) X ' Y este unică. Relaţia:

∂ ( e' e) = −2 X ' Y + 2 X ' Xa , ∂a

Y = ∑α j X j + ε
j =1

p

se interpretează astfel: variabila endogenă Y este suma vectorială a doi termeni;

∑α
j =1

p

j

X j , care aparţine, prin construcţie, subspaţiului liniar generat de variabilele

exogene X 1 , X 2 ... X P ; Vectorul rezidual ε, oarecare în Rn. Analog, ajustarea Y = ∑ a j X j + e indică faptul că variabila endogenă Y este suma
j =1 p

vectorială dintre elementul

∑a
j =1

p

j

X j din subspaţiul liniar generat de X 1 , X 2 ... X P şi elementul

e ∈ Rn, care este vectorul ecarturilor; (geometric, acest lucru rezultă în figura de mai jos).

Rx

y Xa Xα

e

ε

Din punct de vedere geometric, metoda celor mai mici pătrate aplicată modelului Y = Xα + ε constă în a minimiza distanţa de la elementul Y la subspaţiul Rx generat de X = X 1 ,...., X p .
Aşadar, modelul Y = Xα + ε defineşte o descompunere a lui Y în doi termeni necunoscuţi Xα ∈ R X şi ε ∈ Rn a cărui lungime ε’ε este apriori slabă. Metoda celor mai mici pătrate propune drept soluţie descompunerea lui Y = Xa + e, care minimizează lungimea lui e, proiectând ortogonal vectorul Y pe RX. Vectorii Xa şi e sunt ortogonali.
277

(

)

din:

Proiecţia ortogonală a lui Y în RX este o transformare liniară a cărei matrice se obţine

a = ( X ' X ) X 'Y Imediat: −1 Xa = X ( X ' X ) X ' Y = Hy ,
−1 −1

unde:

H 2 = ( X ( X ' X ) X ') ( X ( X ' X ) X ') = X ( X ' X ) X ' = H Să definim matricea Q = I – H, unde I este matricea unitate de ordinul n: −1 Q = I − X( X' X) X' Cum H este simetrică şi idempotentă, rezultă: Q' = I '− H ' = I − H = Q Q 2 = ( I − H )( I − H ) = I − H − H + H 2 = I − H = Q , adică Q este simetrică şi idempotentă. Pentru orice Z ∈ Rn, Qz este proiecţia lui Z pe un subspaţiu din Rn ortogonal cu RX (complementul ortogonal al lui RX în Rn). Se verifică imediat relaţiile: e = Qy QX = 0 Q = Iy − Hy = y − Xa = e −1 QX = X − HX = X − X ( X ' X ) X ' X = X − X = 0 Atunci: e' e = ( Qy ) ' Qy = y ' Q' Qy = y ' Q 2 y sau e' e = y ' Qy Însă e = Qy = Q( Xα + ε ) = Qxα + Qε ne conduce la: e = Qε şi, de aici: e' e = ε ' Qε Cazul în care se izolează un termen constant: Adesea în practică intervine cazul în care modelul conţine un termen constant αp. Să notăm cu X0 matricea cu p – 1 coloane corespunzătoare variabilelor exogene X1, X2,…,Xp-1, şi cu α0 vectorul de componente (α1, α2,.., αp-1). Atunci modelul se scrie: Y = X 0α 0 + uα p + ε (αp termenul constant) Acest model apare ca un caz particular al modelului Y = Xα + ε , unde: ⎛α 0 ⎞ X = ( X 0 | u) , α = ⎜ ⎟ ⎝α p ⎠ Reluând calculul minimizării sumei pătratelor ecarturilor e' e , vom observa că apare o matrice de ordinul n, de o formă interesantă. 1 P = I − uu' n
−1 −1 −1

H = X( X' X) X' Deci, proiecţia Xa din RX se obţine prin transformarea lui Y cu ajutorul matricei −1 H = X ( X ' X ) X '. Se verifică imediat că matricea H este simetrică şi idempotentă: H = H’ şi H = H2. Într-adevăr: −1 −1 −1 H ' = ( X ( X ' X ) X ') ' = X ' ' [ ( X ' X ) ] ' X ' = X ( X ' X ) X ' = H

278

Această matrice este o formă particulară a matricei Q definită mai sus, obţinută când 1 −1 se înlocuieşte X prin u (se observă că ( u' u) = ). n Ea este o matrice simetrică şi idempotentă care realizează proiecţia oricărui vector din Rn pe subspaţiul ortogonal lui RX. Acest operator de proiecţie joacă un rol fundamental în statistică. Dacă z este un punct oarecare din Rn: 1 Pz = z − u( u' z ) , n unde: 1 1 u' z = ∑ xi = z media de selecţie. n n Deci: $ Pz = z − uz = z vectorul de componente abaterile componentelor Matricea P efectuează, deci, operaţia de centrare în jurul mediei, pe coloane. Aplicată asupra unei matrice X, matricea P efectuează centrarea coloană pe coloana $ = PX . X Valorile a0 şi ap pentru coeficienţii α0 şi αp ai modelului pentru a minimiza expresia e' e vor trebui să anuleze derivatele parţiale de ordinul întâi:

∂ ( e' e) = −2u' Y − X 0 a 0 − ua p = 0 ( 1,1) ∂a p ∂ ( e' e) = −2 X 0' Y − X 0 a 0 − ua p = 0 ( p−1,1) ∂a 0

(

)

(

)

Din prima ecuaţie se obţine: p −1 1 1 a p = u' y − u' X 0 a 0 = y − ∑ a k x k n n k =1 Dezvoltând cea de-a doua relaţie şi înlocuind ap prin valoarea găsită obţinem: 1 ⎞ ' ⎛1 X 0' Y − X 0' X 0 a 0 − X 0 u⎜ u' Y − u' X 0 a 0 ⎟ = 0 ⎝n ⎠ n Grupând termenii ce conţin pe a0 se obţine imediat: X 0' PX 0 a 0 = X ' Py Întrucât P = P' = P 2 , ultima relaţie se poate scrie: $ $ $ $ X 0' X 0 a 0 = X 0' y , $ $ unde X 0 = PX 0 şi Y = Py sunt datele centrate. $ $ −1 $ $ În final a = ( X ' X ) X ' Y pentru coeficienţii a1, a2,…,ap-1;
a p = y − ∑ a k x k pentru termenul constant.
k =1

0 p −1

0

0

0

Cu alte cuvinte, cei p – 1 coeficienţi ai variabilelor exogene se pot obţine după regula generală, operând însă asupra datelor centrate. Termenul constant se deduce exprimând că mediile observaţiilor satisfac exact ecuaţia de ajustare. y = a1 x1 +...+ a p−1 x p−1 + a p

279

$ $ Să considerăm elementul de pe linia k şi coloana k’ din matricea X 0' X 0 . Acest termen se exprimă:

∑( x
i =1

n

ik

− x k )( xik ' − x k ' )

Luând în consideraţie şi coeficientul n, obţinem matricea de covarianţă empirică a variabilelor exogene ale modelului, matrice notată Vxx: 1 $ $ V xx = X 0' X 0 n În acelaşi mod vom scrie: 1 V xy = X 0' y n pentru vectorul celor p – 1 covarianţe între Y şi Xk, K = 1, 2, …, p – 1. Dacă se consideră matricea W de ordinul p a covarianţelor empirice între toate datele modelului, se poate face ipoteza că sunt aranjate ca în figura de mai jos: ⎛Vxx Vxy ⎞ W =⎜ ' ⎟ ( p , p ) ⎝V xy V yy ⎠ Atunci coeficienţii de ajustare se calculează uşor cu ajutorul formulelor transformate: − a 0 = V xx1V xy
( p −1,1)
' a p = y − a 0 x (termen constant) Să vedem cum se poate evalua suma pătratelor ecarturilor. Dacă există un termen constant, proprietatea de ortogonalitate implică u' e = 0 şi, deci, e este centrată. Urmează că Pe = e şi în plus Pu = 0. În aceste condiţii: $ $ e = Pe = Py − PX 0 a 0 − Pua p = Py − PX 0 a 0 = y − X 0 a 0 Din formula de calcul a lui a0 se obţine: ' $ ' $ $ $ a 0 X 0' y = a 0 X 0' X 0 a 0 Deci, ' $ ' $ $ $ $ $ $ $ e' e = y ' Y − a 0 X 0' X 0 a 0 = Y ' Y − a 0 X 0' Y , care, astfel exprimat, ne conduce la relaţia: p −1 n ⎡ ⎤ 2 ( Y ) − ∑ a k cov( Y , X k ) ⎥ ∑ ei = n⎢Var ⎣ ⎦ i =1 k =1 ~ = Xa = X a + ua ) că: Se poate verifica (pornind de la y

0

0

p

1 ' $ $ Var ( ~ ) = a 0 X 0' X 0 a 0 = Var ( X 0 a 0 ) = cov( Y , X 0 a 0 ) = cov( Y , ~ ) y y n În cazul ajustării cu termen constant, se defineşte coeficientul de corelaţie multiplă prin R dat de: cov 2 ( Y , ~ ) y 2 R = var( Y ) var( ~ ) y

Acest coeficient se mai poate exprima sub următoarele forme: var( ~ ) cov( Y , X 0 a 0 ) cov 2 ( Y , ~ ) y y R2 = = = var( Y ) var( Y ) var( ~ ) var( Y ) y sau:
' $ $ ' $ a 0 X 0' X 0 a 0 a 0 X 0' Y R = = = $ $ $ y' Y y' y 2

∑a
k =1

p −1

k

cov( Y , X k ) var( Y )
280

Coeficientul R2 capătă un sens prin împărţirea dispersiei totale în dispersie “explicată” şi dispersie “reziduală”. ~ Dispersia explicată: R 2 var( Y ) = Var ( Y ) Dispersia reziduală: ( 1 − R 2 ) var( Y ) = Var ( e) ~ Dispersia totală: var( Y ) = var( Y ) + var( e) Să mai menţionăm faptul că R2 se poate exprima şi în modul următor:
i var( e) i =1 R2 = 1− = 1− var( Y ) n var( Y )

∑e

n

2

Din această relaţie rezultă că minimizând

∑e
i =1

n

2 i

se maximizează R. Cu alte cuvinte,

ajustarea prin metoda celor mai mici pătrate determină combinaţia liniară de variabile exogene care are o corelaţie maximală cu variabila endogenă Y. Se observă că introducerea în model a unei noi variabile exogene arbitrare, va conduce la micşorarea sumei pătratelor ecarturilor şi prin urmare implică o creştere a coeficientului R. 9.14. Ipotezele Gauss - Markov Până acum ne-am ocupat de rezolvarea unei probleme pur matematice de minimizare. Să presupunem acum că reziduul εi (eroarea) este efectul rezultant al unui mare număr de factori neidentificaţi şi., ca atare, va fi considerat ca o variabilă aleatoare. Considerând acest lucru pentru fiecare din cele n relaţii ale modelului, vom introduce vectorul aleator ε (cu n componente – variabile aleatoare) şi definim Y ca un vector aleator care în scrierea matricială este de forma: Y = Xα + ε Asupra variabilelor εi vom face ipoteze apriori cât mai simple posibil şi vom arăta că ajustarea prin metoda celor mai mici pătrate este cea mai bună dintre toate tehnicile de ajustare, pentru identificarea modelului. Vom presupune că M ( ε i ) = 0, D 2 ( ε i ) = σ 2

cov ε i , ε j = 0, i ≠ j = 1,2,..., n De aici urmează imediat ipotezele Gauss - Markov M ( ε ) = 0; Var ( ε ) = M ( εε ') = σ 2 I
( n ,n )

(

)

şi echivalent: M ( Y ) = Xα ; Var ( Y ) = σ 2 I Ajustarea prin metoda celor mai mici pătrate proiectează pe Y în Xa pe RX, iar pe ε în e pe subspaţiul ortogonal lui RX (notat R ¬ ) în Rn. X Repartiţia vectorului Y în Rn determină în felul acesta repartiţia lui Xa în RX. Vom căuta să determinăm repartiţia componentelor ak ale vectorului a, care vor estima coeficienţii necunoscuţi αk ai modelului. Să arătăm că în ipotezele Gauss-Markov, estimatorii ak obţinuţi prin metoda celor mai mici pătrate sunt cei mai buni, în sensul următor: orice alt estimator are o repartiţie mai dispersată în jurul valorii αk de estimat. O primă proprietate a estimatorilor ak obţinuţi prin metoda celor mai mici pătrate este că ei au repartiţii centrate în coeficienţii αk.

281

Într-adevăr: −1 −1 M ( a) = M [( X ' X ) X ' Y] = ( X ' X ) X ' M ( Y ) ,
M ( a) = α Aşadar vectorul a, estimatorul obţinut prin metoda celor mai mici pătrate a vectorului α a coeficienţilor necunoscuţi este un estimator nedeplasat. De asemenea, matricea de covarianţă a vectorului aleator are expresia: V ( a ) = M [ ( a − α )( a − α ) '] Cum: −1 −1 −1 a = ( X ' X ) X ' Y = ( X ' X ) X ' ( Xα + ε ) = α + ( X ' X ) X ' ε , avem: −1 a − α = ( X ' X ) X 'ε şi, de aici: −1 −1 −1 −1 V ( a ) = M [ ( X ' X ) X ' εε ' X ( X ' X ) ] = ( X ' X ) X ' M [ εε '] ⋅ X ( X ' X ) Ţinând seama de ipotezele Gauss-Markov obţinem expresia: −1 V ( a) = σ 2 ( X ' X ) Teoremă (Gauss-Markov). În condiţiile Gauss-Markov, estimatorii ak ai parametrilor αk obţinuţi prin metoda celor mai mici pătrate sunt optimali în sensul că orice alt estimator nedeplasat şi care este o funcţie liniară de Y, are o varianţă mai mare. Demonstraţie. Estimatorul a, obţinut prin metoda celor mai mici pătrate, este funcţia liniară de Y: −1 a = [ ( X ' X ) X '] Y Să considerăm un alt estimator: b = By Cum b şi a sunt liniari în Y, putem să scriem: b = a + CY −1 (este suficient să luăm C = B − ( X ' X ) X ' ) Să punem acum condiţia că b este nedeplasat: M ( b) = M ( a + CY ) = α Atunci: α + CXα = α , oricare ar fi α, implică CX = 0 Dacă evaluăm matricea de covarianţă a estimatorului b, atunci: V ( b) = M [ ( b − α )( b − α ) '] Cum −1 −1 −1 b = a + CY = ( X ' X ) X '+ C ( Xα + ε ) = ( X ' X ) X ' Xα + CXα + ( X ' X ) X ' ε + Cε =

adică:

Deci, b − α = [ ( X ' X ) X '+ C] ε şi, de aici: −1 V ( b) = σ 2 ( X ' X ) + σ 2 CC ' = V ( a ) + σ 2 CC ' Din modul cum s-a definit matricea C rezultă că CC' este negativ definită, iar elementele de pe diagonală sunt pozitive sau nule. Aceasta demonstrează teorema.
−1

= α + [ ( X ' X ) X '+ C] ε
−1

(

)

282

9.15. Estimarea matricei de covarianţă

M ( e' e) = σ tr ( Q) Urma matricii Q se calculează însă imediat: ⎛ ⎞ ⎤ ⎡ −1 −1 −1 trQ = tr⎢ I − X ( X ' X ) X '⎥ = n − tr [ X ( X ' X ) X '] = n − tr[ ( X ' X ) X ' X ] = n − tr⎜ I ⎟ = ⎦ ⎣ ( n ,n ) ⎝( p, p) ⎠ = n− p şi de aici rezultă că: ⎛ n ⎞ ( e' e) = M ⎜ ∑ ei2 ⎟ = ( n − p)σ 2 M ⎝ i =1 ⎠ Acum putem introduce statistica: 1 n 2 s2 = ∑ε , n − p i =1 i care este un estimator nedeplasat al parametrului σ2. În final se obţine estimatorul nedeplasat S al matricii de covarianţă, −1 S = s2 ( X ' X ) ( M ( S ) = V ( a) ) Estimatorii individuali ai dispersiilor coeficienţilor ak sunt daţi de elementele de pe −1 diagonala principală a matricii S = s 2 ( X ' X ) .
2

Am văzut că var (ak) sunt minime, dar nu le cunoaştem, căci parametrul σ al modelului este în general necunoscut. Atunci, este natural să alegem drept estimator pentru σ2 1 n statistica ∑ ei2 , însă acesta este un estimator deplasat. n i =1 Într-adevăr: ⎛1 n ⎞ M ⎜ ∑ ei2 ⎟ = M ( e' e) ⎝ n i =1 ⎠ Dar: e' e = tr ( e' e) = tr ( ε ' Qε ) 1 Cum tr(AB) = tr(BA), putem scrie: e' e = tr ( ε ' Qε ) = tr ( Qεε ') şi, deoarece operatorii, urma şi valoarea medie sunt liniari, putem interverti ordinea operatorilor, ceea ce ne conduce la M ( e' e) = M tr ( Qεε ') = tr [ QM ( εε ') ] . Deci:

[

]

O schemă de estimare a parametrilor prin metoda celor mai mici pătrate, utilizând polinoame ortogonale: Să considerăm problema estimării parametrilor a1 , a 2 ,..., a m din ecuaţia:
Y = ∑ a k ϕ k ( x) ,
k =1 m

care constituie legătura între valorile observate Y şi variabila independentă x ce apare în relaţie prin intermediul funcţiilor ϕ 1 ( x ) , ϕ 2 ( x ) ,...,ϕ m ( x ) presupuse cunoscute. Dacă în particular ϕ 1 ( x ) = 1, ϕ 2 ( x ) = x ,..., ϕ m ( x ) = x m−1 , obţinem Y ca un polinom de gradul m – 1, iar dacă m = 2 obţinem o dependenţă liniară.

1

Am notat tr(A) urma matricii A, adică suma elementelor de pe diagonala principală.

283

Vom presupune că valorile observate ale variabilei Y, pentru un anumit sistem de valori x j , 1 ≤ j ≤ n ale argumentului sunt afectate de erorile ε j , 1 ≤ j ≤ n , astfel că:
Yj = ∑ a k ϕ k x j + ε j , 1 ≤ j ≤ n
m k =1

ϕ k ( x ) = cos kx , ϕ k ( x ) = k cos x , ϕ k ( x ) = sin kx

În unele probleme tehnice întâlnim sisteme de funcţii trigonometrice de forma:

( )

Asupra erorilor ε j facem ipoteza că sunt independente şi că sunt repartizate normal de parametri M ε j = 0.
2 2

( ) D (ε ) = σ
j

, j = 1,2,..., n

Vom estima parametrii a1 , a 2 ,..., a m minimizând suma pătratelor erorilor. 2 n m ⎡ ⎤ S ( a1 , a 2 ,..., a m ) = ∑⎢ y j − ∑ a k ϕ k x j ⎥ ( min) ⎦ j =1 ⎣ k =1 $ $ $ Estimaţiile a1 , a 2 ,..., a m ale parametrilor prin metoda celor mai mici pătrate se obţin rezolvând sistemul de ecuaţii: n m ⎡ ⎤ 1 ∂S − = ∑⎢ y j − ∑ a k ϕ k x j ⎥ ϕ i x j = 0, 1 ≤ i ≤ m ⎦ 2 ∂ a i j =1 ⎣ k =1 Notând pentru simplificare

( )

( ) ( )
k

∑ϕ ( x )ϕ ( x ) = ( ϕ , ϕ ) = ( ϕ
n

∑ y ϕ ( x ) = ( y ,ϕ ) = (ϕ , y )
j =1 m j i j i i

j =1 n

i

j

k

j

i

k

,ϕ i )

Sistemul de ecuaţii se poate pune sub forma:

∑ a (ϕ ,ϕ ) = ( y,ϕ ) i = 1,2,..., m
k =1 k i k i

Rezolvarea sistemului se simplifică considerabil dacă sistemul de funcţii {ϕ k ( x ) } constituie un sistem “ortogonal” pe mulţimea valorilor argumentului x1, x2, …, xn. După cum se ştie, condiţia de ortogonalitate constă în faptul că pentru orice i ≠ k ,

$ $ $ Soluţia acestui sistem constituie estimaţiile a1 , a 2 ,..., a m .

( ϕ , ϕ ) = ∑ϕ ( x )ϕ ( x ) = 0
n
1

k

Dacă funcţiile ϕ k sunt ortogonale, atunci şi ϕ k ( x ) = Ck ϕ k ( x ) vor fi ortogonale, iar dacă ϕ k nu sunt ortogonale, ele se pot ortogonaliza prin procedeul obişnuit. Astfel, considerând sistemul de funcţii ϕ 1 ( x ) = 1, ϕ 2 ( x ) = x ,..., ϕ m+1 ( x ) = x m , care nu este un sistem ortogonal, se construieşte sistemul ortogonal: Ψ1 ( x ) , Ψ2 ( x ) ,..., Ψm+1 ( x ) din aproape în aproape cu: ( x i−1 , Ψi−1 ) ( ) ( x i−1 , Ψ1 ) ( ) i −1 Ψi ( x ) = x − Ψ x −...− Ψ x ( Ψi−1 , Ψi −1 ) i−1 ( Ψ1 , Ψ1 ) 1 i = 2,..., m + 1, Ψ1 ( x ) = ϕ ( x ) = 1

j =1

i

j

k

j

284

Aşa, de exemplu:

∑x ( x, Ψ ) ( ) Ψ ( x) = x − Ψ x = x− n (Ψ ,Ψ )
1 j =1 2 1 1 1

n

j

= x−x

Ψ3 ( x ) = x 2

( x ,Ψ ) ( ) ( x ,Ψ ) ( ) − Ψ x − Ψ x =x (Ψ ,Ψ ) (Ψ ,Ψ )
2 2 2 1 2 1 2 2 1 1

∑x (x
n 2

j =1 n

2 j

j

−x

)

∑( x
j =1

j

−x

)

2

( x − x) −

∑x
j =1

n

2 j

n

=

∑x
= x2 −
j =1 n

n

3 j

− x∑x
j =1 n

n

2 j

∑x
j =1

2 j

− x∑xj
j =1

( x − x) −

∑x
j =1

n

2 j

n

Deci, Ψi ( x ) , i = 1, 2,..., m + 1 sunt polinoame de gradul i – 1 cunoscute sub numele de polinoame Cebîşev. Din relaţia scrisă în general se vede imediat că orice putere x i−1 se poate reprezenta sub forma unei combinaţii liniare de funcţiile Ψ1 ( x ) , Ψ2 ( x ) ,..., Ψi ( x ) , i = 1, 2,..., m + 1. Aceasta ne conduce la faptul că orice combinaţie liniară combinaţie liniară

∑a ϕ ( x )
n j =1 k k j

se transformă într-o

∑b Ψ ( x )
n j =1 k k j

de funcţii ortogonale Ψk obţinute din ϕ k prin procedeul de

ortogonalizare menţionat. Să presupunem acum că sistemul de funcţii ϕ 1 , ϕ 2 ,..., ϕ m constituie un sistem ortogonal, adică ( ϕ 1ϕ 2 ) = 0, i ≠ j . În acest caz, sistemul de ecuaţii:

∑ a (ϕ ,ϕ ) = ( y,ϕ ) , i = 1, 2,..., m ,
k =1 k i k i

m

se poate scrie: ai ( ϕ i , ϕ i ) = ( y ,ϕ i ) , i = 1, 2,..., m şi, deci,
n

$ ai

( y ,ϕ ) ∑ y ϕ ( x ) = = , i = 1, 2,..., m , ( ϕ , ϕ ) ∑ϕ ( x )
i j =1 j j j n i i j =1 2 i j m

$ care ne arată că estimaţiile a i sunt funcţii liniare de observaţiile y j . Însă y j sunt date de:

y j = ∑ a k ϕ k x j + ε j , j = 1, 2,..., n

Ţinând seama de faptul că ( ϕ k ) 1 ≤ k ≤ m sunt ortogonale, putem scrie:
$ ai

k =1

( )
j

∑ ε ϕ ( x ) ∑ a (ϕ ( x ) ,ϕ ( x ) ) ∑ ε ϕ ( x ) = + = +a (ϕ ,ϕ ) ( ϕ ,ϕ ) (ϕ ,ϕ )
n m n j =1 j i k =1 k k j i j j =1 j i j i i i i i i

i

285

De aici obţinem:
n

$ ai − ai

Cum ε j sunt variabile aleatoare independente, identic repartizate, normale N ( 0, σ ) şi cum θ i sunt combinaţii liniare de ε j , rezultă că şi θ i sunt variabile aleatoare repartizate normal de parametri: n 1 M (θ i ) = ∑ϕ x M ε j = 0, i = 1, 2,..., m ( ϕ i , ϕ i ) j =1 i j

∑ε ϕ ( x ) = =θ ( ϕ ,ϕ )
j =1 j i j i i

i

( ) ( )

D (θ i ) = M (θ
2

2 i

)

⎡m 2 ⎤ σ 2 (ϕ i ,ϕ i ) 2 = ⎢ ∑ ϕ x M ε j + ∑ϕ i x j ϕ i ( x k ) M ε j ε k ⎥ = 2 , ⎦ ( ϕ i ,ϕ i ) j≠k (ϕ i ,ϕ i ) 2 ⎣ j =1 i j 1

( ) ( )

( )

(

)

adică: D 2 (θ i ) =

σ2 , i = 1, 2,..., m (ϕ i ,ϕ i )

$ O proprietate foarte importantă a estimaţiilor a i dezvoltate după funcţii ortogonale, o constituie faptul că sunt necorelate, iar în cazul când ε j sunt variabile normale, sunt şi independente. Într-adevăr, putem scrie: ⎡ n ⎤ (ϕ i ,ϕ i )(ϕ k ,ϕ k ) M (θ i ,θ k ) = M ⎢ ∑ε jϕ i ( xh ) ⎥ = ∑ϕ i x j ϕ k ( xh ) M ε j ε h ⎣ j =1 ⎦ j ,h Cum: ⎧0, j ≠ h M ε jε h = ⎨ 2 , ⎩σ , j = h rezultă:

( )

(

)

(

)

(ϕ ,ϕ )(ϕ
i i

2 k , ϕ k ) M ( θ i θ k ) = σ ∑ϕ i x j ϕ k x j n j =1

( ) ( )

Dar ( ϕ i ) 1 ≤ i ≤ m sunt ortogonale şi, deci, M ( θ i θ k ) = 0 dacă i ≠ k , ceea ce probează $ $ necorelarea variabilelor a i şi a k .

Pentru estimarea dispersiei σ 2 vom folosi suma pătratelor abaterilor ε 2 = y j − Y j j Se poate arăta că: 2 1 n 2 1 n 2 sy = ∑ ε j = n − m ∑ y j − Yj , n − m j =1 j =1 în ipotezele pe care le-am formulat, constituie o estimaţie nedeplasată a dispersiei σ 2 . n−m 2 2 ( n − m) . Variabila 2 s y are o repartiţie χ

(

)

2

(

)

Pentru a construi intervale de încredere pentru coeficienţii ak ne folosim de faptul că variabilele: $ ak − ak ( ) tk = s y / ( ϕ k ,ϕ k ) sunt variabile aleatoare repartizate Student cu n – m grade de libertate şi, deci, P t ((nk−) m) < t ((nk−) m) ,ε = δ (δ - nivelul de încredere)
286

σ

(

)

ne conduce la intervalul: sy (k) (k) $ $ a k − t n− m,δ < a k < a k + t n− m,δ (ϕ k ,ϕ k )

sy

k ,ϕ k )

, k = 1, 2, …, m.

287

BIBLIOGRAFIE 1. 2. 3. 4. 5. 6. 7. 8. 9. Ciuci G. Ciucu, G., Craiu, V. Ciucu, G., Craiu, V., Săcuiu, I. Ciucu, G., Craiu, V., Săcuiu, I. Ciucu, G., Craiu, V., Ştefănescu, A. Ciucu, G., Tudor, C. Craiu, V. Cuculescu, I. Feller, W. Elemente de teoria probabilităţilor şi statistică matematică, Editura Didactică şi Pedagogică, Bucureşti, 1963 Introducere în teoria probabilităţilor şi statistică matematică, Editura Didactică şi Pedagogică, Bucureşti, 1971 Probleme de teoria probabilităţilor, Editura Tehnică, 1974 Probleme de statistică matematică, Editura Tehnică, 1974 Statistică matematică şi cercetări operaţionale, Didactică şi Pedagogică, Bucureşti, 1974 Editura

10. Gnedenko, B. V. 11. Guiaşu, S., Theodorescu, R. 12. Iaglom, A. M., Iaglom, I. M. 13. Iosifescu, M., Mihoc Gh., Theodorescu, R. 14. Iosifescu, M. 15. Iosifescu, M., Tăutu, P. 16. Kendall, M. G., Stuart, A. 17. Kai Lai Chung 18. Kalbleisch, J. G. 19. Mc Phersson, G. 20. Mihoc, Gh., Ciucu, G., Craiu, V. 21. Neveu, I. 22. Onicescu, O. 23. Onicescu, O., Mihoc, Gh., Ionescu Tulcea, C.

Probabilităţi şi procese stochastice, vol. I, Editura Academiei R.S.R., Bucureşti, 1978 Verificarea ipotezelor statistice, Editura Didactică şi Pedagogică, Bucureşti, 1972 Curs de calculul probabilităţilor, Topografia Universităţii, Bucureşti, 1976 An introduction to probability theory and its applications, vol. I (1957), vol. II (1966), John Wiley The Theory of probability, Mir Publishees Moscow, 1969 Matematica şi informaţia, Editura Didactică şi Pedagogică, Bucureşti, 1965 Probabilitate şi informaţie, Editura Didactică şi Pedagogică, Bucureşti, 1963 Teoria probabilităţilor şi statistică matematică, Editura Tehnică, Bucureşti, 1966 Lanţuri Markov finite şi aplicaţii, Editura Tehnică, Bucureşti, 1977 Stochastic processe and applications in biology and medicine, Bucureşti, Berlin, Editura Academiei & Springer, 1973 The advanced theory of Statistics, vol. I, II, Charles Griffin & Company Limited, London, 1961 Elementary Probability Theory with Stochastic Processes, Springer – Verlag, New York – Heidelberg – Berlin, 1974 Probability and Statistical Inference, I, II, Springer – Verlag, New York, Heidelberg, Berlin, 1979 Statistics in Scientific Investigation (Its Basis, Application and Interpretation), Springer – Verlag, 1990 Teoria probabilităţilor şi Statistică matematică, Editura Didactică şi Pedagogică, Bucureşti, 1970 Cours de Probabilités, Ecole Polytechnique, Paris, 1970 Probabilităţi şi procese aleatoare, Editura Ştiinţifică şi Enciclopedică, Bucureşti, 1977 Calculul probabilităţilor şi aplicaţii, Editura Academiei R.P.R., Bucureşti, 1956 288

24. Reischer, C., Sâmboan, G., Theodorescu, R. 25. Renyi, A. 26. Schimetterer, L. 27. Trandafir, R. 28. Uilks, S. 29. Venzel, H. 30. Ya-lun Chou

-

Teoria probabilităţilor, Editura Didactică şi Pedagogică, Bucureşti, 1967 Calcul de probabilités, Dunod, Paris, 1966 Einfuhrung in die matematische Statistik, Springer Verlag, Wien, New York, 1966 Introducere în teoria probabilităţilor, Editura Albatros, Bucureşti, 1979 Matematicescaia Statistica, Izdatelstvo “Nauka”, Moscova, 1967 Theorie de probabilités, Editura de Moscou, 1973 Statistical Analysis for Business and Economics, Elsevier, New York, Amsterdam, London, 1989

289

Sign up to vote on this title
UsefulNot useful