Statistica analitica

Probabilitati
Probabilitatea unui eveniment specificat este fractiunea sau proportia din toate evenimentele posibile ale evenimentului specificat intr-o succesiune aproape intrnelimitata a probelor in conditii similare. Probabilitatea unui eveniment nu poate fi mai mare de 1 (100%) sau mai mica decat 0 (0%).

Aplicatii
Valorile probabile intr-o populatie sunt intrdistribuite intr-o maniera definita care intrpoate fi folosita pentru a analiza populatia. Valorile probabile care nu urmeaza o distributie pot fi analizate folosind metode neparametrice.

Tipuri
Cele mai uzuale distributii de probabilitate sunt: a. distributia binomiala b. distributia normala c. distributia t d. distributia 2 (Chi)

Calcul
Probabilitatea unui eveniment este determinata de formula: Pr (A) = n/N Pr (A) = probabilitatea evenimentului A n = nr. de cate ori evenimentul A s-a produs sN = nr. de cate ori evenimentul A este posibil sa se produca (nr. total de evenimente posibile)

Calcul: Pr(A sau B)=Pr(A)+Pr (B) .Reguli de calcul a probabilitatilor Regula aditiva: daca avem cel putin doua evenimente mutual exclusive sau disjuncte (realizarea unuia inseamna automat nerealizarea celuilalt) atunci probabilitatea lui A sau B se calculeaza prin insumarea probabilitatilor fiecarui eveniment.

Calcul: Pr(A si B)=Pr(A)xPr(B) .Reguli de calcul a probabilitatilor Regula multiplicativa: se aplica in situatia a 2 sau mai multe evenimente independente care se produc concomitent si consta in multiplicarea probabilitatilor individuale ale evenimentelor.

. orice diferenta este atribuita sansei si nu unui anumit factor. sau cu alte cuvinte.Ipoteza nula H0 este ipoteza care postuleaza faptul ca esantioanele sau populatiile pe care le avem de comparat in cadrul unui studiu. experiment sau test sunt similare.

numita si semnificatie statistica. populatii sau ambele. este concluzia ca diferenta intre esantioane. .Aplicatii si caracteristici Ipoteza nula postuleaza absenta unor deosebiri care pot aparea in orice problema de comparare statistica. este datorata unor factori altora decat sansa. Diferenta semnificativa apare cand ipoteza nula este respinsa. Este folosita pentru a defini semnificatia diferentei. Semnificatia diferentei.

Valoarea probabilitatii pentru care diferenta se datoreaza numai sansei se numeste nivel de semnificatie. deci diferenta poate fi explicata prin alt factor decat sansa. Daca el este de maximum 5% atunci ipoteza nula este respinsa si o ipoteza alternativa este acceptata. inseamna ca se accepta ipoteza nula. spunem ca diferenta este statistic semnificativa. Cand nici o diferenta nu poate fi sustinuta intre 2 populatii. dar nu inseamna ca mediile populatiilor sunt identice.Cand ipoteza nula este respinsa. cel putin una din ipotezele alternative este acceptata. .

Nivelul de semnificatie se noteaza cu sau p-value si este ales de cercetator a ppriori. In orice procedeu de comparare se pot emite 2 tipuri de erori: Eroarea de speta I care reprezinta decizia de a respinge ipoteza nula cand ea este adevarata. . Eroarea de spata aII-a care reprezinta aIIdecizia de a accepta ipoteza nula cand aceasta este falsa.

in spatiul esantioanelor multimea valorilor posibile calculate se divide in 2 intervale: Intervalul de acceptare sau intervalul critic reprezinta multimea valorilor pentru care daca o valoare a statisticii calculate se inscrie printre valorile sale.Probabilitatile erorilor asociate sunt: Pr (respH0/H0=adevarat)= =riscul erorii de speta I Pr(acceptH0/H0=fals)= =riscul erorii de speta aIIaIIa 1. Intervalul de respingere reprezinta multimea valorilor pentru care daca o valoare a statisticii calculate prin test se inscrie printre valorile sale se respinge ipoteza nula. se accepta ipoteza nula.= puterea testului Pe baza acestei interpretari. .

Diferentele statistic semnificative pot sa nu fie semnificative clinic. si diferentele clinic importante pot sa nu fie statistic semnificative. Ipoteza nula poate fi testata fie prin test unilateral one-tailed test sau bilateral onetwotwo-tailed test .

comparatia facandu-se intrfacandu. Este folosit pentru a testa o ipoteza nula pentru care ipoteza alternativa este directionata. .intrun singur sens . si este mai puternic ca un test bilateral.Testul unilateral Este acel test pentru care intervalul de respingere este format (dupa distributia normala) dintr-o singura coada stanga sau dintrdreapta testul fiind unilateral stang sau drept.

Testul bilateral Este acel test pentru care intervalul de respingere este format din 2 cozi -in stanga si in dreapta curbei Este folosit pentru a testa o ipoteza nula nefiind necesara nici o presupunere privind ipoteza alternativa Se folosesc cand generam ipotezele alternative si sunt mai utilizate in comparatie cu testele unilaterale .

Calcul H0:P1-P0=0 sau P1=P0 Ha:P1-P0=0 sau P1=P0 Unde P1 este probabilitatea caracteristicii studiate in esantion. iar P0 este probabilitatea aceleiasi caracteristici in populatie sau o probabilitate teoretica sau din literatura. .

Tabele de contingenta si grade de libertate Reprezinta o clasificare a datelor in functie de 2 criterii in cadrul carora datele sunt in continuare divizate in 2 sau mai multecategorii discrete si mutual exclusive. Tabelul de contingenta in care sunt mai mult de 2 categorii pentru fiecare din cele 2 criterii este numit tabelul rxc . Un tabel de contingenta in care avem numai 2 categorii pentru fiecare din cele 2 criterii de grupare este numit tabelul 2x2 .

. Tabelul 2x2 se foloseste in domeniul epidemiologiei.Aplicatii Este o metoda simpla de prezentare a datelor si mult folosita cand aplicam testul chi patrat sau alte teste neparametrice.

presupunand totalul si valorile marginale stabilite. . IntrIntr-un tabel de contingenta. el poate fi in mod liber atribuit cand suma valorilor este fixata.Grade de libertate Este un numar legat de efectivul valorilor dintr-o dintrserie sau o distributie. valorile tuturor celulelor ramase din tabel sunt determinate in mod automat. gradele de libertate reprezinta numarul celulelor din tabel carora li se pot atribui in mod liber valori. Daca valorile din aceste celule au fost stabilite.

fie o singura coloana.)x(c- .Aplicatie si calcul In cadrul unor distributii de probabilitate. daca c=1 df=rc=1 Cand tabelul are cel putin 2 linii si/sau cel putin 2 coloane. Calcul: cand distributia are fie o singura linie. cum ar fi distributia t si distributia 2 valorile probabilitatilor de respingere a ipotezei nule variaza in functie de numarul de grade de libertate ale esantionului. numarul de grade de libertate este determinat prin formula: df=c-1. daca r=1 df=cr=1 sau df=r-1. de grade de libertate este determinat de formula: df=(r-1)x(c-1) df=(r. nr.

Distributia unui esantion de 100 nounounascuti in functie de sex si de mediul de rezidenta Criteriul A (sex) Criteriul B (mediu) Urban Rural Total Masculin a (21) c (32) a+c (53) Feminin b (19) d (28) b+d (47) Total a+b (40) c+d (60) n (100) .

probe. cand acestea au numai valori discrete si mutual exclusive. 2 rezultate este aceeasi in fiecare proba. .Distributia binomiala Este acea distributie a rezultatelor obtinute in cadrul unui experiment. Probabilitatea fiecaruia dintre cele probe. exclusive. Aplicatii: Aplicatii: este folosita cand ne referim la probabilitatea a 2 rezultate mutual exclusive intr-un numar cunoscut de intrprobe. dar rezultatul fiecarei probe este independent de rezultatul altei probe.

total de probe din cadrul experimentului x=nr. probabilitatea este data de formula: f(x) =[n!/x!(n-x)!]pxqn-x =[n!/x!(nf(x)= probabilitatea obtinerii valorii x in probe p=probabilitatea unuia din cele 2 rezultate posibile (un succes) intr-o singura proba intrq=probabilitatea celuilalt rezultat posibil (un esec) intr-o intrsingura proba n=nr. de succese obtinute in cadrul unui experiment de n probe n-x=numarul de esecuri obtinute in cadrul aceluiasi experiment !=semnul factorial .Calcul Pentru o distributie binomiala.

Pentru np>10 si nq>10. curbele devin np>10 nq>10.Distributia binomiala se refera deci la o variabila aleatorie discreta x pentru care valoarea medie si dispersia sunt date de formulele: µx=np 2=npq Pentru diverse valori ale lui n si p se obtin diverse curbe reprezentative pentru probabilitatile f(x). insuficient de simetrice in jurul valorii lui µx si se poate asimila distributia binomiala cu o distributie normala. .

Daca in cazul distributiei binomiale consideram n foarte mare si probabilitatea p foarte mica. astfel ca produsul np= =x devin: f(x)=e.. Se demonstreaza ca valoarea medie si dispersia pentru aceasta distributie sunt: µx= 2 = x Prin cresterea lui se obtin curbe cat mai simetrice. astfel pentru >20 sau =20. x/x! probabilitati care conduc la distributia Poisson. . distributia 20. lui Poisson poate fi asimilata cu o distributie normala.

Distributia normala (Gauss Laplace) Este o distributie teoretica. Curba distributiei normale are doua cozi simetrice si este determinata prin media µ si deviatia standard a populatiei . unimodala. teoretic. mediana si modulul unei populatii distribuite normal sunt egale. continua. . si poate. sa varieze intre infinit si +infinit. Media. simetrica.

cum ar fi testul t sau chi patrat. esantioanele trebuie sa fie de minimum 30 de cazuri. .Aplicatii Poate fi folosita pentru a studia multe populatii si esantioane. Distributia normala si aproximarea normala constituie bazele unui numar de teste analitice.

.Raportul critic sau scorul z Este numarul deviatiilor standard ce separa un indicator calculat in esantion de parametrul corespunzator intr-o populatie normala. intrCresterea raportului critic corespunde descresterii probabilitatii de acceptare a ipotezei nule Pot fi calculate si listate proportiile populatiei in interiorul intervalului si/sau in afara intervalului.

raportul critic este folosit pentru a calcula intervalele de incredere in jurul mediei de esantion. .7% este situata in interiorul a 3 rapoarte critice mediei. aproximativ 68% din populatie este situata in interiorul unui raport critic. aproximativ 95% din populatie este situata in interiorul a 2 rapoarte critice ale mediei si in jur de 99.IntrIntr-o populatie distribuita normal. In esantioanele numeroase.

Calcul z=lxz=lx-µl/ z=raportul critic x=valoarea de testat µ=media populatiei =deviatia standard a populatiei .

unimodala. este mult mai larga in comparatie cu distributia normala.Testul t (student) Este bazat pe distributia t. . Este continua. simetrica. distributie care reflecta o mai mare variatie datorata sansei in comparatie cu distributia normala. variaza de la infinit la +infinit.

Cand volumele esantioanelor cresc.Este utilizata pentru a analiza esantioane mici. . distributia t se apropie de distributia normala. astfel ca pentru un numar infinit de grade de libertate cele 2 distributii sunt identice si valorile critice ale lui t sunt egale cu raportul critic al distributiei normale.

.Testul t pentru un esantion mic Testul t pentru un singur esantion mic compara o singura medie (x) a esantionului cu media populatiei.

. df=nIn cazul esantioanelor mici.Aplicatii si caracteristici Sunt folosite pentru a evalua ipoteza nula pentru variabile cantitative. pentru esantioane de volum mai mic de 30 de cazuri. cand aceasta este adevarata =p-value este obtinuta din =ptabela t corespunzatoare lui df=n-1 grade de libertate. distributia t este folosita pentru a calcula intervalele de incredere in jurul mediei esantioniului. Valoarea probabilitatii de respingere a ipotezei nule. sub 30 de cazuri. Sunt utilizate in analiza pentu care SD din esantioane sunt substituite ca estimatii pentru SD din populatii.

gr.Calcul Valoarea calculata a testului pentru compararea mediei esantionului cu media populatiei este determinata prin formula: t(df)=lxt(df)=lx-µl/(SD/ n) t(df)=valoarea calculata a testului la df. . de grade de libertate x=valoarea medie a esantionului µ=media populatiei SD=deviatia standard n=volumul esantionului Numitorul ecuatiei se numeste eroarea standard a mediei esantionului. de libertate df=nr.

Este nepotrivit cand avem de comparat mai multe valori medii. . Utilitatea si restrictiile sunt aceleasi cu exceptia ca esantioanele trebuie sa fie sub 30 de cazuri.Testul t pentru esantioane independente Compara valori medii a 2 esantioane mici.

Calcul t(df)=lxt(df)=lx-yl/SDp 1/n1+1/n2 SDp= (xi-x)2+ (yi-y)2/(n1-1)+(n2-1) SDp=deviatia standard ponderata a celor 2 esantioane .

t(df)=d /(SDp/ n) SDp= (di-d)2/(n-1) /(ndi=diferentele in cadrul fiecarei perechi d=valoarea medie a diferentelor . In acest caz numarul de perechi trebuie sa fie sub 30.Testul t pentru esantioane perechi Compara valorile medii a 2 esantioane perechi.

la gradele de libertate respective sa se datoreze sau nu sansei. . Valoarea calculata a testului t este folosita pentru a stabili probabilitatea ca diferenta intre esantioanele perechi.Numitorul testului t pe perechi este eroarea standard a diferentei mediilor.

Este raportul dintre deviatia standard si radical de ordinul 2 din volumul esantionului. Este o masura a acuratetei mediei esantionului ca o estimatie a mediei populatiei. Este folosita pentru a construi limitele de incredere in jurul mediei esantionului. Este folosita la testul t.Eroarea standard si limitele de incredere Este bazata pe un esantion al populatiei si este o estimatie a deviatiei standard a masuratorilor pentru populatie. de obs. SEM=SD/ n unde n=nr. in esantion .

Intervalele de incredere sunt exprimate in termenii probabilitatii bazate pe eroarea ..). Un interval de incredere (1. . pe baza volumului esantionului si a valorii erorii standard.Limitele de incredere ale valorii medii Definesc valorile probabile pentru un parametru al populatiei. iar probabilitatea ca parametrul populatiei sa se gaseasca in afara intervalului de incredere este . exprima faptul (1 ca probabilitatea ca parametrul populatiei sa se gaseasca in intervalul de incredere este 1.

corespunzator numarului de grade de libertate si probabilitatii asociate. . Pentru esantioane mici sub 30 limitele de incredere sunt bazate pe valorile lui t din tabele.Limitele de incredere ale mediei populatiei (µ) definesc intervalul de incredere pentru media populatiei pe baza mediei esantionului. Pentru esantioane mai mari sau egale cu 30 limitele de incredere sunt bazate pe raportul critic corespunzator probabilitatii asociate.

. Cel mai des folosite sunt limitele de incredere de 95%. iar in afara lor este de 5%.Utilitate Sunt folosite pentru a estima media populatiei pe baza mediei esantionului extras din populatie. care indica faptul ca probabilitatea ca valoarea mediei necunoscuta din populatie sa se afle intre aceste limite este de 95%.

Calcul Pentru esantioane mari Limitele de incredere (1.)=x±z SEM (1.)=x± .)=x± Pentru esantioane mici Limitele de incredere (1. SEM (1.)=x±tdf.

Distributia chi patrat cu 1 grad de libertate este identica cu distributia patratului raportului critic. Este o distributie continua. .Testul chi patrat 2 Compara o distributie de frecvente absolute observate cu o distributie teoretica (asteptata) de frecvente absolute pe baza distributiei de probabilitate chi patrat. simetrica si se bazeaza pe aproxiamtia normala a distributiei binomiale.

Aplicatii si caracteristici Testul chi patrat de tip rxc este folosit pentru a compara o distributie observata cu o distributie teoretica sau compara 2 sau mai multe distributii observate. Categoriile de date folosite trebuie sa fie mutual exclusive si discrete. Trebuie folosite numai valori absolute. cele observate pot fi mai mici decat 5. Valorile probabilitatii pentru respingerea ipotezei nule sunt obtinute din tabele speciale pentru distributia chi patrat corespunzator numarului de grade de libertate. . Frecventele teoretice trebuie sa fie mai mari decat 5.

aceasta consta intr-o modificare in formula intrde calcul a testului chi patrat Corectia Yates se foloseste pentru esantioane mici si scade valoarea lui chi patrat. deci scade probabilitatea respingerii ipotezei nule.Corectia Yates Deoarece distributia chi patrat este bazata pe aproximatia normala a distributiei binomiale. . se impune o corectie de continuitate numita corectia Yates.

Calcul (df)= (|Oi-Ei|-1/2)2/Ei c 2 (df)=valoarea calculata a testului chi c patrat cu corecta Yates Oi=frecventele absolute observate din fiecare celula a tabelului Ei=frecventele teoretice corespunzatoare frecventelor observate ½=corectia yates 2 .

Testul chi patrat 2x2 Este un caz particular si se aplica pantru tabelele de contingenta de tip 2x2 si are un grad de libertate. 2 (1)=n(|ad-bc|c )=n(|ad-bc|n/2)2/(a+b)(c+d)(a+c)(b+d) n/2 .

Testul are un grad de libertae si se poate calcula dupa formula: 2 =(|f-g|-1)2/f+g unde f si g sunt valorile c=(|f-g|perechilor discordante .Testul McNemar Este un test chi patrat 2x2 specific pentru compararea esantioanelor perechi. Ipoteza nula care este de testat este aceea ca frecventele asteptate pentru perechile discordante sunt egale.

Sign up to vote on this title
UsefulNot useful