Testul Smirnov pentru verificarea concordantei privind functia de repartitie a
doua seturi de date experimentale
Testul Smirnov este aplicat pe dou mulimi de date experimentale independente, ) ,..., , ( 2 1 n x x x i ) ,..., , ( 2 1 m y y y , corespunztoare msurtorilor a dou variabile aleatoare X i Y. Fiecare din cele dou seturi de date experimentale se supun modelului statistic i.i.d. (datele provin din variabile aleatoare independente i identic distribuite). Scopul testului este s stabileasc dac cele dou seturi de date experimentale provin din populaii cu aceeai distribuie sau nu. Analiza este bazat pe funciile de repartiie experimentale, ) ( x Fe X i ) ( y Fe Y , ale celor dou variabile aleatoare X i Y . Ipotezele testului Smirnov: H 0 : cele dou variabile X i Y au aceeai lege de probabilitate. H 1 : cele dou variabile X i Y au legi de probabilitate diferite. Testul Smirnov se aplic astfel: 1.) Se calculeaz valoarea de test o , diferena maxim absolut ntre cele dou funcii de repartiie experimentale: ) ( ) ( max u Fe u Fe Y X u = o . (2.1) 2.) Pentru un prag de semnificaie o ales, se calculeaz o A ; o A este o cuantila legii de probabilitate a variabilei aleatoare A , adic o o = A > A ) ( P . o o 2 ln 2 1 m n m n + ~ A . (2.3) 3.) Dac o o A s , se accept ipoteza H 0 . Altfel spus, dac distana absolut maxim ntre cele dou funcii de repartiie experimentale este mai mic dect o anumit valoare o A acceptat, atunci se va decide c variabilele aleatoare X i Y au aceeai lege de probabilitate. n caz contrar, dac o o A > , testul respinge ipoteza H 0 pentru pragul ales, adic cele dou seturi de date experimentale provin din variabile aleatoare cu legi de probabilitate diferite.
Incerc sa expun in pasi aplicare testului Smirnov: Observatie. Evaluarile experimentale se realizeaza pentru acelasi set de parametri ai sistemului haotic * Generarea multimii experimentale ) ,..., , ( 2 1 n x x x - se alege o conditie initiala care se itereaza de un numar L=d*n ori. Datele experimentale ) ,..., , ( 2 1 n x x x trebuie sa fie i.i.d. si atunci am presupus ca le vom extrage din traiectorie cu un pas de esantionare d. Cum nu stim nimic despre distanta d, vom putea presupune un pas de esantionare cat mai mare (ex. 100 iteratii). Volumul de date experimentale n il alegem 100000 (am discutat la ultima intalnire ca pot face o dimensionare a volumului de date, astfel incat functia de repartitie experimentala sa nu difere de functia de repartitie teoretica cu mai mult de o abatere acceptata). * Generarea multimii experimentale ) ,..., , ( 2 1 m y y y - se aleg m conditii initiale (eventual alese uniform distribuite in intervalul de definitie (a; b) al sistemului haotic). Nota. Generarea de date uniforme in intervalul (a;b) se face folosind generatorul uniform din C sau Matlab. Set de date experimentale ) ,..., , ( 2 1 N y y y conine valorile sistemului dinamic la iteraia k pe N traiectorii. Putem considera succesiv diferite valori k (exemplu ... , 10 , 5 , 1 = k ) Pentru fiecare set de date experimentale ) ,..., , ( 2 1 N y y y obtinut succesiv la diferite valori ... , 10 , 5 , 1 = k se aplica testul Smirnov descris anterior.
Decizia privind ergodicitatea se poate baza si pe o analiz Monte Carlo care evalueaz capabilitatea testului Smirnov de a accepta date proaste drept bune. De exemplu, experimentul de mai sus se poate relua de 500 ori, nregistrndu-se n final proporia de acceptare a ipotezei H 0
(i.e. ipoteza c cele dou variabile aleatoare au aceeai lege de probabilitate). . O reluare a experimentului presupune o noua generare a seturilor ) ,..., , ( 2 1 n x x x si ) ,..., , ( 2 1 m y y y ; se genereaza o noua conditie initiala pentru setul ) ,..., , ( 2 1 n x x x si alte m conditii initiale din care succesiv la diferite iteratii k se va obtine setul ) ,..., , ( 2 1 m y y y
Not. Conform teoriei inferenelor de probabilitate, pentru pragul de semnificaie statistic 05 . 0 = o i 500 de repetri ale testului Smirnov, dac proporia de acceptare a ipotezei H 0 se gsete n intervalul ] 97 . 0 , 93 . 0 [ , se poate afirma cu o ncredere statistic de 95% functia de repartitie temporala este acceeasi cu functia de repartitie statistica.
Procedura propus consider volumul datelor experimentale N m n = = i pragul de semnificaie statistic 05 . 0 = o . N 2 condiii iniiale se genereaz aleator dup o lege de probabilitate oarecare (aleas astfel nct condiiile iniiale s nu depeasc domeniul mai larg al condiiilor iniiale ale sistemului dinamic investigat). Prin iterarea sistemului haotic se obin N 2 traiectorii ale procesului aleator asociat variabilei de stare investigate. Aa cum este ilustrat i n Fig. 2.4, primul set de date experimentale ) ,..., , ( 2 1 N x x x , implicat n testul Smirnov, conine valorile variabilei de stare a sistemului la iteraia 1 k obinute pe N traiectorii (din totalul de N 2 traiectorii). Al doilea set de date experimentale ) ,..., , ( 2 1 N y y y conine valorile aceleiai variabile de stare, dar la iteraia 2 k i pe restul de N traiectorii (din ansamblul de 2N traiectorii). Se asigur astfel independena celor dou mulimi experimentale. 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Y X . . . k 1 . . . k 2
Fig. 2.4. Modul de obinere a celor dou seturi de date experimentale implicate de testul Smirnov (fiecare de volum N) pornind de la procesul aleator asociat sistemului dinamic investigat Testul Smirnov se aplic succesiv pentru diferite valori 1 k (exemplu ... , 10 , 5 , 1 1 = k ) i o valoare fix pentru iteraia 2 k . Iteraia 2 k trebuie aleas n regiunea de staionaritate. Dac nu se bnuiete nimic despre nceputul zonei de staionaritate, atunci alegerea valorii 2 k este una 2 N condiii iniiale iterativ (modul de alegere al iteraiei 2 k va fi discutat mai jos cnd se va exemplifica utilizarea testului Smirnov pentru msurarea timpului tranzitoriu asociat funciei logistice). Pentru fiecare pereche ( 1 k , 2 k ) se verific dac testul Smirnov accept ipoteza H 0 (i.e. cele dou variabile aleatoare X i Y au aceeai lege de probabilitate), iar n caz afirmativ, valoarea 1 k poate indica intrarea sistemului haotic n regiunea de staionaritate; mai mult, valoarea 1 k reprezint chiar timpul tranzitoriu ce se dorete a fi msurat. Decizia asupra momentului de intrare n regiunea de staionaritate este bazat pe o analiz Monte Carlo care evalueaz capabilitatea testului Smirnov de a accepta date proaste drept bune. De exemplu, pentru fiecare pereche ( 1 k , 2 k ) i acelai volum al datelor experimentale N m n = = , testul Smirnov se reia de 500 ori, nregistrndu-se n final proporia de acceptare a ipotezei H 0 (i.e. ipoteza c cele dou variabile aleatoare au aceeai lege de probabilitate). . Not. Conform teoriei inferenelor de probabilitate, pentru pragul de semnificaie statistic 05 . 0 = o i 500 de repetri ale testului Smirnov, dac proporia de acceptare a ipotezei H 0 se gsete n intervalul ] 97 . 0 , 93 . 0 [ , se poate afirma cu o ncredere statistic de 95% c momentele 1 k i 2 k aparin zonei de staionaritate.