Professional Documents
Culture Documents
TESTUL KOLMOGOROV-SMIRNOV
Rezumat Testul Kolmogorov-Smirnov este utilizat pentru a realiza estimarea normalitii distribuiei acolo unde se poate calcula media i abaterea medie ptratic. Poate fi folosit pentru verificarea ipotezei c un eantion de date urmeaz o anumit lege de distribuie (redat n continuare), precum i pentru compararea legilor de distribuie ale populaiilor din care provin dou eantioane. Este un test recomandat pentru variabile ordinale, cnd ipoteza distribuiei normale nu este plauzibil sau atunci cnd variabilele sunt numerice, dar eantioanele sunt mici i informaiile despre distribuie sunt absente. Se aplic tabelelelor de inciden , adic cu dou linii i n coloane. Testul se bazeaz pe o statistic calculat n mai muli pai, care este comparat cu o statistic teoretic care nu se ia din tabele ci se calculeaz dup formula:
Dt = K
n1 + n2 n1 n2
unde n1 i n2 sunt volumele eantioanelor (totalurile pe cele dou linii ale tabelului) i K este o constant ce depinde de pragul de semnificaie dorit. Valorile lui K sunt date de tabelul urmator: Pragul de semnificaie Semnificaie nalt semnificaie Foarte nalt semnificaie Valoarea prag a lui p 0,95 0,99 0,999 Valoarea lui K 1,36 1,63 1,95
Se execut urmatorii pasi: Se fixeaz clase ca la realizarea unei histograme, prin mprirea n segmente egale a diferenei dintre valoarea minim i maxim din cele dou serii de date cumulate Se calculeaz frecvenele relative pentru fiecare clas n parte la fiecare din cele dou serii de date Se calculeaz frecvenele relative cumulate pentru ambele serii de date Se calculeaz diferenele ntre frecvenele relative cumulate ale celor dou serii, la fiecare clas n parte Se alege cea mai mare diferen dintre cele calculate la punctul anterior. Aceasta este statistica testului
Prezentare Cele mai multe verificri a aplicabilitii repartiiilor teoretice necesit cunoaterea n prealabil a legii de repartiie, dar, n cazurile n care aceasta este necunoscut, se impun o categorie de teste valabile pentru "orice" repartiie. n general aceste metode sunt mai puin precise dect metodele de verificare clasice (la care se cunosc legile de repartiie teoretica), din acest motiv, acestea din urm se aplic ori de cte ori este posibil. Aceste metode, datorit
TESTUL KOLMOGOROV-SMIRNOV UMF CAROL DAVILA BUCURETI 6/11/2013 posibilitii aplicabilitii pentru orice funcie de repartiie (deci pentru orice parametrii) se numesc "neparametrice", ele fiind mai eficiente atunci cnd se testeaz mediile i nu dispersiile. Testul Kolmogorov-Smirnov ncearc s determine dac dou date de baze difer n mod semnificativ. Aceast metod de testare este avantajoas pentru c nu face nici un fel de presupuneri asupra distribuiei datelor, adic este un test nonparametric. Cu toate acestea, exist alte teste care pot fi mult mai sensibile n cazul carecare datele respect cerinele testului respectiv. Metoda de verificare KolmogorovSmirnov, K, verific concordana dintre o repartiie teoretic F(x) (normala, binomiala, Poisson) i una experimental Fe(x), paii parcuri fiind: 1- datele observate se grupeaz n intervale, (determinndu-se numrul m de clase), calculndu-se n continuare valorile frecvenelor absolute ai, respectiv valorile frecvenelor relative fi, corespunztoare; 2- se calculeaz valoarea mediei aritmetice X , utiliznd relaia:
s=
( x
n i =1
n 1
3- se calculeaza valorile funciei de repartiie experimentale, utiliznd relaia: Fe(xi)=fi 4- se aplica transformarea variabila, aplicand relatia z= xx s de
pentru repartitia teoretica, valorile funciilor densitate de probabilitate f(z) i ale funciei de repartiie F(z) fiind date tabelare, aceasta in cazul verificarii normalitatii. Observaie: n cazul verificrii altor repartiii teoretice se vor aplica transformrile specifice acestora. Astfel c, valorile funciei de repartiie teoretice vor fi date de relaia: F ( zi ) = F ( xi ) 5- cu valorile grupate pe intervale se calculeaz diferena: Fe ( xi ) F ( xi ) 6- se determin valoarea maxim a diferenei: d e = max | Fe ( xi ) F ( xi ) | 7- pentru un nivel semnificativ 1-, (sau risc ) adoptat , se scrie relaia:
M[ x] =
xi
i =1
P de = 1 = K ( ) n
TESTUL KOLMOGOROV-SMIRNOV UMF CAROL DAVILA BUCURETI 6/11/2013 Valoarea lui obinndu-se din tabelele funciei calculate K, calculndu-se n continuare valoarea raportului ; n 8- dac: de < 178.000 171.000 172.000 172.000 185.000 201.000 187.000 194.000 187.000 179.000 185.000 181.000 185.000 200.000 182.000 180.000 183.000 180.000 181.000 182.000 175.000 183.000 190.000 184.000 179.000 188.000 159.000 183.000 186.000 181.000 187.000 171.000 167.000 171.000 173.000 172.000 179.000 174.000 173.000 171.000
Se accept ipoteza concordanei dintre repartiia teoretic i cea observat. n caz contrar ipoteza se respinge. Observatie: Metoda de verificare Kolmogorov-Smirnov, este o metoda greoaie necesitand un esantion de volum foarte mare, respectiv un volum mare de calcul. Exemplu de studiu i utilizare a metodei: 1. Tema Pe un eantion de volum n=108, se msoar rezistena la rupere i se obin valorile (n daN): 158.000 176.000 183.000 184.000 173.000 181.000 182.000 170.000 178.000 162.000 192.000 188.000 183.000 177.000 166.000 185.000 185.000 170.000 180.000 165.000 194.000 175.000 180.000 188.000 190.000 183.000 175.000 186.000 196.000 182.000 190.000 169.000 190.000 190.000 174.000 176.000 185.000 180.000 172.000 170.000 178.000 175.000 195.000 184.000 199.000 184.000 167.000 174.000 167.000 194.000 191.000 175.000 181.000 178.000 180.000 189.000 163.000 160.000 198.000 180.000 183.000 165.000 179.000 164.000 174.000 177.000 177.000 199.000
- s se verifice ipoteza conform creia datele statistice sunt variabile aleatoare repartizate normal, pentru un nivel de incredere de 0.950, (1=95%). 2. Prelucrarea rezultatelor: n vederea verificrii normalitii datelor, inndu-se seama de volumul eantionului, n=108, se pot aplica testele: - testul 2 pentru verificarea normalitatii; - testul Kolmogorov-Smirnov, K. Noi vom utiliza n aceast situaie testul Kolmogorov-Smirnov, K, pentru verificarea normalitii. Utiliznd funciile oferite de software-ul Excel, verificarea normalitii functiei de repartiie aplicnd de aceasta dat testul Kolmogorov-Smirnov, K, presupune parcurgerea urmtorilor pai: 1.1 se determin valorile de minim, xmin i a celor de maxim, xmax; 1- selectai opiunea Insert, Function; 2- selectai din csua de dialog care se deschide categoria Statistical; 3- selectai opiunea MIN;
TESTUL KOLMOGOROV-SMIRNOV UMF CAROL DAVILA BUCURETI 6/11/2013 astfel pentru irul de date selectat se va obine valoarea de minim, xmin=158, 4- selectai opiunea MAX; obinnd n acest caz valoarea de maxim, xmax , a irului, n cazul nostru: xmax = 201; Fiind necesar un numr ntreg de clase, se adopt un numr de 8 clase, astfel c: m=8 este valoarea numrului de clase aproximat, Valoarea va ocupa adresa B31 n cadrul raportului Excel.
1.2 se calculeaz numrul de clase m; Se folosete formula m = 1 + 3,322 lg n Utiliznd funciile Excel, aceast formul va fi scris in celula selectat sub forma: =1+3.322*LOG10(108) Se obine n final valoarea: m=7.755;
1.3 se calculeaz amplitudinea W, utiliznd formula: W = xmax xmin Utiliznd funciile formula utilizat este: rezultnd: W=43.000; Excel,
W=(MAX(A1:I12)-MIN(A1:I12))
TESTUL KOLMOGOROV-SMIRNOV UMF CAROL DAVILA BUCURETI 6/11/2013 1.5 se realizeaz tabelul datelor grupate, reprezentnd valorile intervalelor: [xmin: Xmin+d); [xmin+d: xmin+2d); (xmax]; Utiliznd Excel, introducerea acestor valori poate fi realizat utiliznd: [=$K$2 si =$B$2+$B$33); [=$K$2+$B$33 si =$K$2+2*$B$33) .a.m.d. 1.4 se determin mrimea unui subinterval cu ajutorul formulei: d= W xmax xmin = m m Excel, valoarea Se obine tabelul urmtor:
=B32/B31, rezultnd: d=5.375 Adresa B32 corespunde valorii amplitudinii, iar B31 valorii numrului de clase aproximat; valoarea sub-intervalului obinut va corespunde n continuare adresei B33.
1.6 se calculeaz frecvenele absolute, ai, verificndu-se rezultatele obinute: 5selectai opiunea Insert, Function...; 6- selectai din csua de dialog care se deschide categoria Statistical; 7- selectai opiunea COUNTIF (Contabilizare conditionata); n final se vor obine valorile: a1=5; a2=7; a3=19; a4=18; a5=27; a6=20; a7=6; a8=6
TESTUL KOLMOGOROV-SMIRNOV UMF CAROL DAVILA BUCURETI 6/11/2013 aceast valoare corespunznd C24.
n Excel se introduc formulele urmtoare: =COUNTIF(A1:I12;"<163,375") pentru primul interval, [x min+d); =COUNTIF(A1:I12;"<168.750")C16, pentru intervalul, [x min+d, x min+2d); =COUNTIF(A1:I12;"<174.125")SUM(C16:C17), pentru intervalul, [x min+2d, x min+3d), avnd: =COUNTIF(A1:I12;"<201.0")+1SUM(C16:C22), pentru ultimul interval, [x min+6d,xmax] 1.7 verificarea rezultatelor Acest pas se realizeaz cu ajutorul formulei:
f
i =1
=1
Astfel avem: =C16/$C$24;=C17/$C$24; .a..m.d pentru fiecare valoare f1, f2, ...f7; Valorile obinute, reprezentate tabelar, i care vor ocupa n continuare adresele D16-D23 n cadrul protocolului Excel, sunt: f1=0.046; f2=0.065; f3=0.176; f4=0.167; f5=0.250; f6=0.185; f7=0.056; f8=0.056
a
i =1
=n
Utiliznd Excel, aceasta va fi scris sub forma: =SUM(C16:C23) sau =SUM(a1,a2, a3,a4,a5, a6, a7, a8); Astfel, observm c rezultatele obinute sunt corecte, deoarece avem: 5+7+19+18+27+20+6+6=108 -adevarat,
TESTUL KOLMOGOROV-SMIRNOV UMF CAROL DAVILA BUCURETI 6/11/2013 Verificarea rezultatelor presupune nsumarea valorilor frecvenelor relative, i anume: =SUM(G16:G23); valoarea obtinut este 1.00 (ceea ce este conform formulei, valoarea obtinut corespunznd adresei D24). eticheta axei x, eticheta axei y, eticheta legendei, etc); 7- executai clic asupra butonului Next; 8- determinai locaia reprezentrii grafice; 9- executai clic asupra butonului Finish.
1.9 se traseaz histograma valorilor calculate, avnd pe abscisa valorile clasei, iar pe ordonat valorile frecvenelor, urmnd paii: 1- selectai datele pe care dorii s le reprezentai grafic: adresele ce reprezint valorile frecvenelor relative fi; 2- executai clic asupra butonului ChartWizard; 3- selectai tipul de grafic dorit: cazul reprezentrii unei Histograme: 1- selectai formatul graficului; 2- executai clic asupra butonului Next; 3- definirea datelor pe care dorii s le reprezentai grafic; 4- model de grafic; 5- executai clic asupra butonului Next; 6- efectuai modificrile pe care le considerai necesare (titlul graficului,
1.10 se determin valoarea mediei aritmetice M[x] i valoarea dispersiei D[x]; Pentru determinarea mediei aritmetice, avnd formulele:
M [ x] =
x
i =1
sau
M [ x] =
a x
i =1
i i
utiliznd opiunile oferite de software-ul Excel: Insert, Function, selectnd din caseta de
TESTUL KOLMOGOROV-SMIRNOV UMF CAROL DAVILA BUCURETI 6/11/2013 dialog care se deschide, categoria: Statistical, vom avea: =AVERAGE($A$2:$I$13) Valoarea obinut fiind: M[x]=179.852 (i ea va corespunde adresei B34); pentru determinarea dispersiei, avem formula:
D [ x] =
D [ x] =
( x M [ x] )
i =1 i
1 n 2 * xi M [ x ] n i =1
( x M [ x] )
i =1 i
* ai
sau
D [ x] =
( x M [ x] )
i =1 i
Utiliznd Excel, se va aplica funcia: =AVEDEV($A$2:$I$13) obinnd valoarea D[x]= s2=7.366, valoare ce va ocup adresa B35.
Se obin valorile: z1=-6.071; z2=-4.091; z3=-2.110; z4=-0.130; z5=1.851; z6=3.831; z7=5.812; z8=7.792 (+) valori ce vor ocupa n continuare adresele F16-F23 n cadrul raportului Excel. 1.13 se calculeaz valorile funciei de repartiie experimentale, utiliznd relaia: Fe ( xi ) = f i
i =1 n
1.14 cu valorile grupate pe intervale se calculeaz diferena: Fe ( xi ) F ( xi ) Astfel, vom avea: =H16-G16; =H17-G17; =H23G23; unde valorile din adresele G16:G23 sunt valorile funciei de repartiie F(z), sunt date tabelare. Valorile obinute, fiind: Dif1=0.045; Dif2=0.110; Dif3=0.270; Dif4=0.006; Dif5=-2.264;Dif6=-0.110; Dif7=0.055; Fe8=0.991 Aceste valori vor ocupa n continuare adresele I16-I23 n cadrul raportului Excel.
Utiliznd Excel, vom avea: =SUM(D16); =SUM(D16:D17); =SUM(D16:D23); Valorile obinute, valori ce vor ocupa n continuare adresele H16H23 n cadrul raportului, fiind: Fe1=0.046; Fe2=0.111; Fe3=0.287; Fe4=0.454; Fe5=0.704; Fe6=0.889; Fe7=0.994; Fe8=1.000;
10
TESTUL KOLMOGOROV-SMIRNOV UMF CAROL DAVILA BUCURETI 6/11/2013 1.16 pentru nivelul semnificativ 1-, (sau risc ) adoptat, (1-= 0.950 = 95%), se scrie relaia:
P de = 1 = K ( ) n
Valoarea lui obinandu-se din tabelele functiei calculate K. Deoarece 95% se apropie mai mult de valoarea din stnga a intervalului [0.9477- 0.9505], vom gsi valoarea : 1=1.720 1.15 se determin valoarea maxim a diferenei: d e = max Fe ( xi ) F ( xi ) Utiliznd relaia: =MAX(I16:I23) obinnd valoarea: de=0.990; Valoarea va ocupa adresa I24, n cadrul raportului Excel. 1.17 se calculeaz n continuare valoarea raportului , care n utiliznd Excel va fi dat de relaia: =1,72(POWER(108,12)) Se obine valoarea 0.1655 1.18 se va face verificarea: de <
Astfel nct, dac relaia se verific, se accept ipoteza concordanei dintre repartia teoretic i cea observat. n caz contrar ipoteza se respinge. n cazul nostru avem: d e = o,991 >
=0,1655 n
11
TESTUL KOLMOGOROV-SMIRNOV UMF CAROL DAVILA BUCURETI 6/11/2013 Rezultate Astfel c, ipoteza cum c repartiia teoretic a valorilor studiate ar fi o repartiie normal, se respinge, decizia final fiind: "repartitia experimentala nu corespunde unei repartitii normale".
12
TESTUL KOLMOGOROV-SMIRNOV UMF CAROL DAVILA BUCURETI 6/11/2013 Bibliografie - http://orzanm.ase.ro/spss/pdf/SPSS_1.pdf - http://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test - http://www.scritube.com/stiinta/matematica/TestulKolmogorovSmirnov1412352217.php - http://www.cermi.utcluj.ro/doc/Lucr_05.pdf - http://www.scribd.com/doc/56794524/86/Testul-KOLMOGOROVSMIRNOV - http://l.academicdirect.org/Horticulture/GAs/Refs/Jantschi&Sestras_2010_ Annex_3.pdf - http://www.physics.csbsju.edu/stats/KS-test.html
13