Analiza Descriminarii

Capitolul 4.
Metode de nvare supervizat

n cele ce urmeaz vom prezenta pe scurt tehnici de nvare supervizat. Reamintim c aceste tehnici au ca scop construirea unui model al datelor iniiale n care o parte dintre variabile sunt explicative (variabile predictor) i una sau mai multe variabile sunt variabile rspuns. Dintre tehnicile supervizate amintim: regresia liniar multipl, regresia logistic, analiza canonic i analiza discriminrii. 4.1 Analiza canonic Este bine cunoscut faptul c, pentru a evalua legtura (liniar) ntre dou variabile cantitative, putem alege s calculm coeficientul de corelaie Pearson i s interpretm valoarea obinut. Dar dac am dori s evalum legtura liniar ntre dou seturi de variabile (cantitative)? O idee ce pare raional este cea a evalurii corelaiei ntre dou combinaii liniare, care reprezint optimal cele dou seturi de variabile. Aceasta este ideea exploatat n cadrul analizei canonice, introdus de ctre Hotelling n 1936!. De obicei, analiza canonic este folosit n urmtorul context: asupra unor indivizi ai populaiei s-au fcut att msurtori obiective, ct i aprecieri subiective (exprimate ns cantitativ, sub forma unor note). Aadar, primul set de variabile este format din cele obiective, fie acestea x1 , x 2 ,..., x p . Datele obinute de la cei n indivizi vor forma matricea X (de dimensiuni n p ). Al doilea set de variabile este format din cele subiective, fie acestea y1 , y 2 ,..., y q , iar datele obinute de la cei n indivizi vor forma matricea Y (de dimensiuni n q ). De exemplu, indivizii ar putea fi un ansamblu de firme, variabilele obiective ar putea fi indicatorii financiar-contabili, iar variabilele subiective ar putea fi nota acordat (de ctre un panel de specialiti) politicii de promovare a produselor, preferina acionarilor pentru active etc. n spaiul R p+ q al variabilelor x1 , x 2 ,..., x p , y1 , y 2 ,..., y q , variabilele obiective vor determina un subspaiu, pe care s-l notm cu O. Analog, subspaiul variabilelor subiective va fi notat cu S. Odat aleas o variabil, indiferent de ce tip (obiectiv sau subiectiv), valorile ei prelevate de la cei n indivizi formeaz un vector din spaiul R n . n acest spaiu se poate considera o distan ntre vectori care s
in seama de eventuala pondere wi asociat individului i, distan definit de formula
d( z1 , z 2 ) = ( z1 z 2 ) T W ( z1 z 2 ) n care W = diag( w1 , w2 ,..., wn )

Odat stabilite cele dou seturi de variabile, ne putem imagina diverse combinaii liniare (cu coeficieni a j , bk reali)
= a1 x1 + a 2 x 2 + ... + a p x p , = b1 y 1 + b2 y 2 + ... + b p y q .
care sunt vectori n subspaiul O, respectiv S. Odat prelevate datele de la cei n indivizi (ceea ce nseamn c matricele X i Y sunt cunoscute), valorile acestor combinaii liniare se obin prin formulele
= Xa , = Yb
coloan al coeficienilor b1 , b2 ,..., bq .
(1)
unde a este vectorul coloan al coeficienilor a1 , a 2 ,..., a p iar b este vectorul Pentru fiecare pereche de combinaii liniare, putem calcula coeficientul de corelaie r , . Scopul analizei canonice asupra acestor date const n gsirea acelei perechi * O , * S pentru care coeficientul de corelaie (sau ptratul su) este maxim n valoare absolut, adic
r2*, * = max r2, .

O S
(2)
y2
y1
x2
x1
x3
Figura 1. Caracteristicile canonice
Valoarea ptratului coeficientului de corelaie r2*, * este o msur a modului n care notele subiective acordate indivizilor reflect caracteristicile obiective ale lor. Evident, valori apropiate de 0 indic faptul c n aprecierea subiectiv nu se ine seam deloc de caracteristicile obiective alese. Pentru a ne asigura de unicitatea perechii *, * , vom presupune c avem de-a face cu versori, adic *T W * = *T W* = 1 . Despre aceti * = Xa * i * = Yb * se spune c sunt caracteristicile canonice, despre vectorii coeficienilor a * i b * se spune c sunt factorii canonici, iar valoarea r *,* este numit corelaia canonic. n analiza canonic se ncearc, n cazul detectrii unei valori mari a corelaiei canonice, determinarea caracteristicilor canonice care vor nlocui grupele de variabile iniiale apoi explicarea acestor caracteristici canonice prin variabilele iniiale, ceea ce implic aflarea factorilor canonici. Formulele de calcul sunt uor de dedus geometric, ntruct coeficientul de corelaie ntre doi vectori poate fi interpretat drept cosinusul unghiului dintre ei. Dac presupunem c-l cunoatem pe * S , atunci orice vector * O pentru care coeficientul de corelaie r *,* este maxim va fi unul dintre cei pentru care unghiul (vezi figura 2) este minim, n particular l vom putea alege ca proiecie a lui * pe subspaiul O. Dac vom impune condiia ca * S i * O s fie versori, atunci proiecia lui * pe subspaiul O va fi exact r * unde r = r *, * este corelaia canonic.
r*
*
*
Figura 2. Proiecia unei caracteristici canonice pe subspaiul celeilalte
n general, proiecia z a unui vector z R n pe subspaiul O (vezi figura 3) se obine prin nmulire cu o matrice de proiecie: z = projO ( z ) = Pz . (3) S exprimm pe z ca o combinaie liniar de vectorii x1 , x 2 ,..., x p (cu coeficienii formnd vectorul a ): z = Xa . Dat fiind c diferena z z este un vector ortogonal pe subspaiul O, el este ortogonal pe fiecare vector x j , iar din aceste condiii de ortogonalitate deducem
x j Wz = x j Wz = x j WXa pentru j {1, 2, ..., p} ,
T T T
condiii ce se exprim unitar astfel

X TWz = X TWXa .
z
(4)
O
z xj
Figura 3. Calculul proieciei unui vector
Admind c matricea X are rangul maxim (= p), drept consecin matricea X TWX (de ordin p p ) este inversabil, iar ca urmare
a = ( X TWX ) 1 X TWz i astfel z = X ( X TWX ) 1 X TWz .

Am stabilit astfel c matricea de proiecie este P = X ( X TWX ) 1 X TW . Dat fiind c proiecia P * a lui * este exact r * , obinem:
X ( X TWX ) 1 X TW* = r * .
(5)
n mod dual (inversnd rolurile subspaiilor O i S i admind c i matricea Y are rangul maxim q),
Y (Y TWY ) 1Y TW * = r * .
Din ultimele dou relaii vom obine
(6)
X ( X TWX ) 1 X TWY (Y TWY ) 1Y TW * = r 2 * .

Pentru simplificarea scrierii, s facem notaiile:
(7)
T V XX = X TWX , V XY = X TWY , VYX = Y TWX =V XY , VYY = Y TWY ,
ceea ce conduce la re-exprimarea relaiei (7) n forma ce urmeaz:
XV XX 1V XY VYY 1Y TW * = r 2 * ,
(8)
ceea ce nseamn c r 2 este valoare proprie a matricei XV XX 1V XY VYY 1Y TW , iar * este versorul propriu corespunztor. Analog, * este versor propriu al matricei YVYY 1VYX V XX 1 X TW . Determinarea corelaiei canonice i a caracteristicilor canonice este astfel ncheiat prin rezolvarea a dou probleme de valori/vectori proprii. Pentru a afla i factorii canonici, vom folosi exprimrile:
* = Xa * i * = Yb *
precum i relaiile de mai sus. Rezult imediat c a * este vector propriu al matricei A = V XX 1V XY VYY 1VYX iar b * este vector propriu al matricei
B = VYY 1VYX V XX 1V XY , valoarea proprie corespunztoare fiind aceeai
r2 .
Implementarea algoritmic a formulelor de mai sus va putea s in 1 seam de relaia b* = VYY 1VYX a * precum i de altele asemntoare. r De asemenea, se pot programa cu uurin exprimri ale caracteristicilor iniiale x j (sau y k ) n raport cu cele canonice. Softul statistic ofer, de regul, toate aceste informaii.
4.2 Analiza discriminrii
Metodele de analiz a discriminrii se aplic unei populaii de indivizi caracterizai prin variabile continue sau categoriale care sunt a
priori (uneori natural) mprii n grupuri. Scopul analizei discriminrii este acela de a clasifica una sau mai multe observaii n aceste grupuri deja precizate. De exemplu, sunt bine-cunoscute modelele de credit scoring folosite de bnci. Acestea presupun c o banc important dispune de informaii privind clienii si, att despre cei buni platnici (care ramburseaz creditul fr probleme) ct i despre cei ru platnici (care au avut probleme cu rambursarea creditului pe parcurs). Aceste informaii se pot referi la vrst, salariu, starea social, stabilitatea slujbei, alte probleme cu rambursarea vezi i exemplul 6 din Anexa 1. Cnd apare un client nou care solicit un credit, banca trebuie s decid dac s-i acorde sau nu mprumutul solicitat. Pentru banc, acest posibil nou client este un individ descris prin caracteristicile sale: vrst, salariu, starea social etc. Banca va decide dac i acord sau nu creditul aplicnd o regul de discriminare. n urma aplicrii acestei reguli solicitantul va primi un scor i, pe baza acestuia, va fi clasificat ntr-una dintre grupurile deja existente. Analiza discriminrii ofer modalitatea de a discerne, adic de a formula regula de discriminare folosind istoricul clienilor bncii dar, n acelai timp, ofer i o msur a evalurii riscului unei decizii greite. Sintetiznd, putem s afirmm c, n analiza discriminrii populaia de indivizi care au fost cercetai este mprit n grupuri i c dispunem de datele observate pentru aceti individ. (n unele situaii grupurile apar n mod natural, n altele ele sunt rezultatul unei analize anterioare.)
Scopul unei metode de discriminare variaz dup domeniul n care se aplic. S exemplificm cu urmtoarele dou exemple. Exemplul 1. Presupunem c ne aflm n domeniul potal i avem n vedere punerea la punct a unui sistem de recunoatere i de triere automat a unor coduri potale scrise manual. n acest caz, populaia analizat este constituit din secvene de 6 cifre (scrise manual) 10 grupuri posibile pentru fiecare cifr a secvenei avnd fiecare caracteristicile sale morfologice. Scopul unei analize de separare (discriminare) n acest context este pur decizional, fiind vorba de a elabora reguli de decizie pentru recunoaterea celor 10 cifre cu minim de eroare. Exemplul 2 1 . n septembrie 1992 francezii s-au pronunat prin referendum asupra ratificrii tratatului de la Maastricht privind actul de nfiinare a Uniunii Europene. Votul a mprit votanii n dou grupuri: unii au fost pentru, alii mpotriva tratatului. Comentatorii politici au fost interesai, la vremea respectiv, s descrie din punct de vedere social/
1
Jean-Pierre NAKACHE, Analyse Discriminante sur Variables Qualitatives, Polytechnica Paris, 1994.
economic portretul partizanilor, dar i pe cel al opozanilor tratatului. n acest exemplu suntem confruntai cu o problem discriminant dar, de aceast dat, scopul ei nu este decizional, ci explicativ: se urmrete s se descopere ct mai bine care au fost motivaiile electorilor n decizia de vot. n concluzie, putem afirma c, n general, analiza discriminant are dou scopuri bine precizate, i anume: Un scop decizional, destul de frecvent, ce are n vedere construirea unei reguli de afectare a indivizilor la un grup, regul ce poate fi aplicat i n viitor. Aceast regul se construiete n funcie de ansamblul de variabile predictor observate asupra indivizilor. O regul bun de afectare este aceea care va conduce n viitor la erori de clasare a observaiilor viitoare ct mai mici posibile. Un scop explicativ, prin care se urmrete s se descopere variabilele cele mai pertinente n descrierea diferenelor dintre grupurile formate a priori.
4.2.1 Analiza discriminrii decizionale. Reguli de alocare S presupunem c avem o populaie de indivizi mprit n J grupuri (subpopulaii) disjuncte 1 , 2 ,..., J prin valorile 1, 2, ..., J ale unei variabile categoriale. Fiecare individ al populaiei este descris prin p variabile continue, notndu-se valorile ce-l caracterizeaz cu x = ( x1 ,..., x p ) , deci poate fi identificat cu un punct din R p .
O regul de discriminare produce o separare a spaiului R p n mulimile R1 , R2 ,..., R J astfel nct dac x R j atunci individul caracterizat de x va fi considerat ca aparinnd grupului (subpopulaiei) j . Sarcina principal n construirea unei reguli de discriminare este aceea de a gsi regiuni bune R j astfel nct eroarea de clasificare greit a unui individ s fie ct mai mic. Vom prezenta n continuare cteva reguli de discriminare, pentru cazul n care sunt cunoscute repartiiile populaiilor. A) Regula de discriminare prin verosimilitate maxim Notm cu f i ( x ) densitatea de probabilitate a populaiei i , i {1, 2, ..., J } . Regula de discriminare prin verosimilitate maxim (ML = maximum likelihood) aloc un individ descris prin punctul x la acea populaie j pentru care se realizeaz probabilitatea maxim, adic:
x este alocat lui j j = arg max f i ( x) .

i =1,... J
(9)
S notm cu L j ( x ) acea densitate de probabilitate f j ( x) care realizeaz maximul (9). Matematic, mulimea R j este definit astfel
R j = {x R p | f j ( x) > f i ( x), i = 1, 2,..., J , i j} .
S evalum eroarea de clasificare greit. S presupunem c avem dou clase, adic J = 2. Putem calcula probabilitatea de a aloca pe x la grupul 2 atunci cnd el este de fapt n grupul 1 astfel:
p 21 = P( x R2 | 1 ) =
R2
f1 ( s )ds
(10)
i similar, probabilitatea de a aloca pe x la grupul 1 atunci cnd el este de fapt n grupul 2 este
p12 = P( x R1 | 2 ) =
R1
f 2 ( s )ds .
(11)
Putem s construim o regul de alocare asociind costuri unei clasificri eronate. Astfel, o clasificare greit determin un cost C ( j | i ) al erorii de clasificare a unui individ din populaia i n regiunea R j . Fie i probabilitatea a priori asociat populaiei i , adic probabilitatea ca un individ oarecare, ales aleatoriu, s fie din populaia i . (Aceast probabilitate a priori poate fi estimat pe baza experienei anterioare asupra populaiei studiate!). Folosind noiunile precizate mai sus, putem s calculm un cost mediu CM al erorii de clasificare prin:
CM = C (2 | 1) p 211 + C (1 | 2) p12 2 .
(12)
Evident, vom ncerca s construim reguli de alocare pentru care expresia (12) s aib valoare minim. Pentru gruparea n dou populaii regula de discriminare bazat pe realizarea unui cost mediu minim este dat de urmtoarea
Teorem. Formula lui CM conduce la construirea urmtoarelor regiuni de alocare:
f ( x) C (1 | 2)2 f1 ( x) C (1 | 2)2 < R1 = x 1 , R2 = x . f 2 ( x) C (2 | 1)1 f 2 ( x) C (2 | 1)1
Observaie. Regula de alocare prin verosimilitate maxim este un caz particular al regulii de alocare pe baza costului mediu minim. Ea se obine lund costurile erorilor egale ntre ele, C ( 2 | 1) = C (1 | 2) = 1 , i de asemenea probabilitile a priori egale, 1 = 2 . Exemplu. S considerm cazul n care cele dou populaii sunt 2 ) , 2 ~ N ( 2 , 2 repartizate normal 1 ~ N (1, 1 2 ) , cunoscnd c densitile de probabilitate sunt:
fi ( x) = ( x i ) 2 1 , i {1, 2} exp 2 2 i 2 i
Astfel, x va fi alocat la 1 prin regula verosimilitii maxime dac x R1 = {x | f1( x) > f 2 ( x)} . n acest caz, condiia f1( x) > f 2 ( x) este echivalent cu
2 1 1 2 1 2 1 2 + x 2 x < 2 log 2 2 2 2 2 2 2 1 1 2 2 1 2 1 2
1 2
(13)
S presupunem c 1 = 0 , 1 = 1 i 2 = 1 , 2 = . Aplicarea formulei (13) ne conduce la definirea regiunilor de alocare astfel:

R1 = x x <
1 4 3
4 + 6 log(2) sau x >
1 4 + 3
4 + 6 log(2)
R2 = R p \ R1 .
n cazul n care densitile de repartiie au aceleai dispersii i s presupunem c 1 < 2 , regula de verosimilitate maxim conduce la definirea urmtoarelor regiuni:
R1 = {x | x (1 + 1 )}, R2 = {x | x > (1 + 1 )} .
1 2 1 2
S presupunem acum c avem un numr oarecare de subpopulaii, fie ele J i c densitile de probabilitate pe spaiul R p sunt normale cu media = (1 ,..., J ) i matricea de varian-covarian . Avem urmtoarea Teorem. Prin regula de verosimilitate maxim (ML) un punct x se aloc la populaia j dac i numai dac
j = arg min ( x i ) T 1 ( x i ) ,
i =1,... J
adic punctul se aloc acelei populaii pentru care distana Mahalanobis ntre punct i valoarea medie este cea mai mic.
Observaie. n practic, vectorul mediilor este estimat prin centrele de greutate ale grupurilor respective, iar matricea de varian-covarian este estimat prin matricea ineriei ntre grupuri. B) Regula de discriminare Bayes
n regula de discriminare prin verosimilitate maxim am considerat i probabilitatea a priori asociat populaiei i (pentru i {1, 2, ..., J } ), evident cu proprietatea
= 1.
Prin regula de alocare bayesian x se aloc acelui grup (populaii j ) corespunztor probabilitii a posteriori maxime, adic:
x este alocat lui j j = arg max f i ( i | x) ,
i =1,... J
(14)
f i ( i | x) fiind probabilitatea a posteriori asociat populaiei i .
Prin formula lui Bayes avem:
f i ( i | x ) =
i f i ( x)
f ( x)
l l l =1
i =1,... J
(15)
i putem folosi regula de alocare:

x este alocat lui j j = arg max i f i ( x)
(16)
Prin urmare, regiunea corespunztoare regulii de alocare (16) se poate descrie astfel:
R j = {x R p | j f j ( x ) i f i ( x ), i = 1, 2,..., J }
(17)
Observaie: Regula Bayes este identic cu regula de discriminare ML dac probabilitile a priori sunt i =
1 J
4.2.2 Analiza discriminrii factoriale
n 4.2.1 am prezentat modele de analiz a discriminrii ce au doar un scop decizional. n acest paragraf vom prezenta tehnici de analiz a discriminrii care au i un scop explicativ. Tehnica discriminrii factoriale este asemntoare cu tehnica componentelor principale prezentat n Capitolul 3. Dac avem de rezolvat o problem de discriminare, atunci avem indicat i o variabil rspuns de tip categorial. S presupunem c aceasta are q modaliti; prin urmare, eantionul de n indivizi va fi grupat, dup variabila categorial n q clase. Reamintim c: a) matricea X ( n p ) a datelor reprezint n indivizi asupra crora sau msurat p variabile, aici variabile predictor. Aceast matrice o putem privi fie linie cu linie exprimnd informaii despre cei n indivizi, fie coloan cu coloan exprimnd informaii despre cele p variabile. Prin urmare: oricrui individ i i corespunde n matricea X o linie, adic un vector cu p elemente, care va fi scris: xi = ( xi1 , xi 2 ,..., xip ) R p ; oricrei variabile j i corespunde n matricea X o coloan cu n elemente, care va fi notat: x j = ( x1 j , x 2 j ,..., x nj ) T R n ; b) am notat cu m = ( m1 , m 2 ,..., m p ) vectorului mediilor celor p variabile, iar punctul de coordonate ( m1 , m 2 ,..., m p ) din Rp este numit centrul de greutate al norului de puncte; c) am notat cu s = ( s1 , s 2 ,..., s p ) vectorul abaterilor standard calculate cu vectorii coloan ai matricei X. Mai considerm : d) matricea V = ( sij ) i =1, 2,...,n; j =1, 2,... p de varian-covarian estimat pentru cele p variabile predictor; e) vectorul mediilor variabilelor predictor pentru fiecare dintre cele q l l clase. Corespunztor clasei l, fie m l = ( m1 , m2 ,..., m lp ) vectorul mediilor celor p variabile predictor calculat pe baza indivizilor din clasa l; el se numete centrul de greutate al clasei l; evident l = 1,2,..., q ;
f) matricea de covarian W l a celor p variabile predictor, matrice calculat pentru indivizii clasei l, l = 1,2,..., q ; g) matricea W = W 1 + W 2 + ... + W p , care este numit matricea de covarian pentru interiorul claselor; h) matricea B = V W , care este numit matricea de covarian ntre clase. Fie n spaiul Rp o dreapt de versor u = (u1 , u 2 ,..., u p ) T . Dac n analiza componentelor principale alegeam acea dreapt care s recupereze cea mai mare cantitate de informaie din informaia total a norului de puncte, n analiza discriminrii vom alege acea dreapt care permite o separare optim a proieciilor n clase. S vedem la ce ne conduce acest obiectiv! Fie un individ k ale crui coordonate n spaiul variabilelor sunt ( x k1 , x k 2 ,..., x kp ) i care se identific cu un punct n Rp. Proiectnd acest punct pe dreapta obinem valoarea (18) c k = x k1 u1 + x k 2 u 2 + ... + x kp u p ce reprezint distana proieciei punctului pe dreapta fa de centrul de greutate al norului de puncte m. Valoarea c k asociat individului k se mai numete scor asociat dreptei . Pentru ansamblul indivizilor putem scrie vectorul coloan al scorurilor C = Xu (19) Vectorul u = (u1 , u 2 ,..., u p ) T , versor al dreptei , se numete factor de discriminare iar C se mai numete componenta de discriminare. Un model liniar al problemei de discriminare poate fi urmtorul:
z = 1 x1 + 2 x 2 + ... + p x p
(20)
n care z este o nou variabil, exprimat printr-o funcie liniar de cele p variabile predictor. Dac 1 = u1 , 2 = u 2 ,..., p = u p , expresia din (20) este numit funcie de discriminare iar coeficienii si se mai numesc i coeficieni de discriminare. Tehnica discriminrii factoriale se bazeaz pe descompunerea varianei totale V n cele dou componente ale sale i anume W variana pentru interiorul claselor i B pentru variana ntre clase, avem V = W + B .
Analog tehnicii componentelor principale, nlocuind indivizii prin proieciilor lor pe o ax de versor u = (u1 , u 2 ,..., u p ) T , avem: u T Vu = u T Wu + u T Bu . (21)
Scopul unei tehnici de discriminare este acela de a gsi acea ax pentru care discriminarea proieciilor pe ea s fie maxim. Un caz ideal ar fi acela n care covariana pentru interiorul claselor este nul, u T Wu = 0 corespunznd situaiei n care toate punctele dintr-un grup sunt proiectate n centrul de greutate al grupului respectiv. Am avea n acest caz u T Vu = u T Bu iar alegerea celei mai bune axe de discriminare revine la maximizarea expresiei u T B u (pentru soluionarea problemei vezi Capitolul 3, 3.1). n practic se maximizeaz ns raportul = u T Bu u T Vu . (22)
Se observ c acesta ia valori n intervalul [0, 1] i exprim, n procente, bonitatea discriminrii. Aflarea versorului u soluie a problemei (22) se reduce la aflarea soluiei sistemului algebric de ecuaii: V 1 Bu = u (23)
cu alte cuvinte, u va trebui s fie unul dintre vectorii proprii ai matricei V 1 B , corespunztor valorii proprii maxime. Dac notm cu f 1 un asemenea vector propriu, el ne va determina primul factor de discriminare. Apare o prim component de discriminare C 1 = Xf 1 . Lund n continuare urmtoarea valoare proprie obinem al doilea factor de discriminare f 2 i, corespunztor lui, a doua component de discriminare
C 2 = Xf 2 , etc.
S considerm c variabila categorial ce mparte populaia n clase are doar dou modaliti, deci q = 2. Se poate demonstra c vectorii proprii diferii de 0 ai matricei V 1 B sunt n numr de q 1. Avem aadar doar o singur funcie de discriminare i un singur factor de discriminare
f 1 = V 1 (m 2 m1 ) .
Clasificarea indivizilor pe baza funciei de discriminare gsite se face folosind relaia (18) pentru proiectarea centrelor de greutate ale celor dou clase pe axa de discriminare. Fie aceste proiecii c1 , c 2 . Scorul de separare (cutting score) al indivizilor pe axa de discriminare se obine cu formula:
cCS =
n1c1 + n2 c 2 n1 + n2
(24)
(n care am notat cu n1 , n2 frecvenele celor dou clase). Regula de decizie n reclasificare, pentru un individ cu scorul c k , este urmtoarea dac c k < cCS , atunci individul k este repartizat primei clase, dimpotriv dac c k cCS , atunci individul k este repartizat celei de-a doua clase. Rata succesului discriminrii se calculeaz cu formula: n + n22 p S = 11 n1 + n2 n care am folosit notaiile din urmtorul tabel: Grupul iniial 1 2 Numr de indivizi n grupul iniial Grupul dup reclasificare 1 2
(25)
n1 n2
n11 n21
n12 n22
Pentru dou clase cu frecvene egale, o procedur aleatoare de repartizare n clase ar avea o rat a succesului de 50%; aadar, diferena dintre p S i 50% poate fi folosit ca indicator al calitii discriminrii. Unul dintre obiectivele analizei discriminrii este i acela de a repera i explica contribuia variabilelor predictor n separarea n clase. Acest obiectiv se realizeaz prin indicatori statistici specifici, n urmtoarele etape:
1)
Se verific mai nti importana fiecrei variabile predictor folosind de exemplul testul statistic F de verificare a omogeneitii claselor. Se calculeaz pentru fiecare variabil predictor statistica a lui Wilks ca raport ntre suma ptratelor variaiilor n interiorul claselor i variaia total. Valori apropiate de 0 indic faptul c variabila predictor este discriminat. O variabil este cu att mai discriminat cu ct ei i corespunde o valoare mai mare pentru statistica F i o valoare mai mic pentru statistica a lui Wilks.
2)
3)
n softul statistic sunt disponibile urmtoarele abordri n analiza discriminrii prin tehnici factoriale: 1. Selectarea forward n care se ncepe cu un model vid, fr nici o variabil predictor, adugndu-se pe rnd cte o variabil predictor, anume aceea care contribuie cel mai mult la discriminare. (Pentru alegerea ei se folosete statistica a lui Wilks.) Eliminarea backward n care se pornete cu un model complet, cu toate variabilele predictor prezente. Se elimin pe rnd, la fiecare pas, variabila predictor care contribuie cel mai puin la discriminare. (n alegere se folosete din nou statistica a lui Wilks.)
2.
Cele dou abordri sunt metode pas cu pas i ncearc s gseasc cel mai bun model de discriminare.

Analiza Descriminarii

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Analiza Descriminarii

Uploaded by

Copyright:

Available Formats

Capitolul 4.

Metode de nvare supervizat

in seama de eventuala pondere wi asociat individului i, distan definit de formula

d( z1 , z 2 ) = ( z1 z 2 ) T W ( z1 z 2 ) n care W = diag( w1 , w2 ,..., wn )

r2, = max r2, .

Figura 1. Caracteristicile canonice

Figura 2. Proiecia unei caracteristici canonice pe subspaiul celeilalte

condiii ce se exprim unitar astfel

a = ( X TWX ) 1 X TWz i astfel z = X ( X TWX ) 1 X TWz .

X ( X TWX ) 1 X TWY (Y TWY ) 1Y TW * = r 2 * .

T V XX = X TWX , V XY = X TWY , VYX = Y TWX =V XY , VYY = Y TWY ,

ceea ce conduce la re-exprimarea relaiei (7) n forma ce urmeaz:

B = VYY 1VYX V XX 1V XY , valoarea proprie corespunztoare fiind aceeai

x este alocat lui j j = arg max f i ( x) .

f ( x) C (1 | 2)2 f1 ( x) C (1 | 2)2 < R1 = x 1 , R2 = x . f 2 ( x) C (2 | 1)1 f 2 ( x) C (2 | 1)1

S presupunem c 1 = 0 , 1 = 1 i 2 = 1 , 2 = . Aplicarea formulei (13) ne conduce la definirea regiunilor de alocare astfel:

4 + 6 log(2) sau x >

f i ( i | x) fiind probabilitatea a posteriori asociat populaiei i .

Prin formula lui Bayes avem:

i putem folosi regula de alocare:

4.2.2 Analiza discriminrii factoriale

You might also like