Professional Documents
Culture Documents
1. Tabelar
a. listarea datelor fr nicio ordonare prealabil
B. Instrumente Excel
Pentru prelucrarea unui set de date memorat ntr-un document Excel se pot utiliza att
funciile statistice ale aplicaiei, ct i proceduri obinute prin Tools Data Analysis.
Funciile statistice uzuale sunt (n ordine alfabetic):
AVEDEV abaterea medie absolut
AVERAGE media aritmetic
BINOMDIST funcia de repartiie
binomial
CHIDIST funcia de repartiie 2
CHIINV inversa funciei de repartiie 2
CHITEST aplicarea testului 2
CONFIDENCE intervalul de ncredere
pentru medie
FDIST funcia de repartiie F
FINV inversa funciei de repartiie F
FTEST aplicarea testului F
HARMEAN media armonic
KURT coeficientul de aplatizare
MIN, MAX valorile extreme din list
MEDIAN mediana
MODE valoarea mod
NORMDIST funcia de repartiie
normal
C. Lucrarea practic
1. Se va importa n Excel fiierul de date
http://thor.info.uaic.ro/~val/statistica/Admitere.txt
care conine datele de la un examen de admitere la facultatea de
informatic, pe vremea cnd examenul includea i o prob scris.
2. Se va stabili tipul fiecrei variabile (nominal, ordinal, interval)
Legitimatie - numrul legitimaiei (eliberate n ordinea
nscrierii)
Bacalaureat - media la bacalaureat
Optiune - proba la alegere (A - analiz matematic, C programare C, P - programare Pascal)
Sala - sala de examen
Scris - media la scris
3.
4.
5.
6.
7.
Statistic multivariat
f(u ) d u,
Repartiia normal
Aceast repartiie are un rol central, att din considerente teoretice, ct i
practice (nu n ultimul rnd, uurina aplicrii). Teoretic, repartiia normal reprezint
o repartiie limit ctre care tind, n anumite condiii, celelalte repartiii.
Prin definiie, o variabil continu X are o repartiie normal, sau repartiie
GaussLaplace, dac funcia de repartiie este dat de:
x
1
F(x) = P(X < x) =
e
2
(t )2
2 2 dt
, x , , > 0,
Funcia de repartiie normal se va nota prin N(; 2) iar faptul c v.a. X este
repartizat normal cu parametrii i se noteaz X ~ N(; 2).
Parametrii repartiiei au semnificaia unor valori tipice i anume
M(X) = Me(X) = Mo(X) =
D2(X) = 2
motiv pentru care se poate vorbi de repartiia normal cu media i dispersia 2, ceea
ce determin complet repartiia.
Repartiia normal N(0,1) se numete repartiia normal redus, repartiia
normal normat sau repartiia normal standard. O v.a. repartizat N(0;1) este
notat, n mod uzual, cu Z i este referit drept variabil Z, variabil normal redus
etc. Orice variabil repartizat normal poate fi transformat ntr-o v.a. repartizat
N(0;1) prin transformarea (de normare, de standardizare)
X
.
Z=
Inferena statistic
Prin inferen statistic se nelege, n sensul precizat anterior, obinerea de
concluzii bazate pe o eviden statistic, adic pe informaii derivate dintr-un
eantion. Concluziile sunt asupra caracteristicilor populaiei din care provine
eantionul.
Observaie. Dac este investigat ntreaga populaie, atunci rezultatele care se obin
constituie finalul prelucrrii i nu sunt necesare (i nici posibile) prelucrrile introduse
n aceast seciune.
Prin eantion (sau selecie) vom nelege o submulime a populaiei statistice
considerate. Operatiunea de formare a unui eantion se numete sondaj. Sondajele
care au anse mai mari de a produce eantioane reprezentative sunt cele bazate pe
proceduri de selecie aleatoare.
In eantioane diferite, statisticile calculate au valori diferite. n acest fel se
poate vorbi despre o distribuie a valorilor statisticii n mulimea eantioanelor de un
acelai volum; apare astfel distribuia de sondaj a statisticii respective.
Inferena statistic implic trei distribuii asociate cu caracteristica studiat:
distribuia populaiei;
distribuia de sondaj;
distribuia eantionului.
Prin distribuia populaiei se nelege distribuia pe care o are caracteristica
studiat (sau v.a. asociat ei) n populaie. Aceast distribuie nu este, n general,
cunoscut. Interesul unei cercetri este tocmai acela de a studia aceast distribuie.
Prin distribuia eantionului se nelege distribuia pe care o are caracteristica
studiat n eantionul disponibil n studiu. Aceast distribuie este cunoscut complet,
ntruct toate datele necesare sunt msurate.
Prin distribuia de sondaj a unei statistici se nelege distribuia pe care o are
statistica n mulimea tuturor eantioanelor de volum dat. Este ns remarcabil faptul
c, din considerente teoretice, ntre distribuia populaiei i distribuia de sondaj exist
legturi bine precizate sau, datorit unor teoreme de limit central, se cunoate forma
acestei distribuii atunci cnd volumul eantionului crete (tinde spre infinit).
Inferena statistic urmeaz, n general, urmtorul algoritm:
se obine, printr-un procedeu valid, un eantion;
se calculeaz o valoare tipic a eantionului (o statistic de sondaj);
din considerente teoretice, se cunoate repartiia din care provine aceast valoare
tipic i relaia repartiiei de sondaj a statisticii cu valoarea tipic din populaie;
M( x) = , D 2 ( x) =
2
n
, D( x) =
Estimaii
Se numete estimator orice entitate a crei valoare poate fi utilizat drept
valoare (de regul aproximativ) pentru o alt entitate. Valoarea estimatorului se zice
c este o estimaie.
Valoarea care aproximeaz, pe baza datelor de sondaj, valoarea necunoscut a
unui parametru al populaiei poart denumirea de estimaie statistic. Astfel, media
aritmetic este estimator pentru media populaiei , abaterea standard s este estimator
pentru abaterea standard a populaiei etc.
Dup natura lor, n statistic se utilizeaz dou tipuri de estimaii:
punctuale
sub form de interval.
Printr-o estimaie punctual se nelege valoarea unui estimator calculat
ntr-un eantion. Numim eroare de estimare valoarea absolut a diferenei dintre
estimaia punctual i valoarea parametrului estimat.
Fie o populaie statistic, caracterizat de o v.a. continu X a crei repartiie
depinde de un parametru , necunoscut. Prin definiie, dac se pot determina 1 i 2
astfel nct pentru o valoare prestabilit (0 < < 1) s aib loc
P(1 < < 2 ) = 1 , atunci intervalul (1, 2) se numete interval de ncredere
pentru parametrul necunoscut , cu un coeficient (sau nivel) de ncredere egal cu ,
sau cu o siguran statistic S = 1.
Dac att 1 ct i 2 sunt finite, atunci intervalul de ncredere se zice bilateral.
n cazul cnd 1 este -, sau 2 este +, ceea ce revine n fapt la determinarea unei
singure limite, intervalul se zice unilateral.
< < x+
,
<
<
2
2
1 / 2;
/ 2;
Raionamentul general
Lumea real
Statistic
Se formuleaz setul de ipoteze H0, H1
Are loc un eveniment
Se calculeaz, dintr-un eantion, o statistic (statistica
testului).
Se calculeaz, n ipoteza H0, probabilitatea pc de apariie a
valorii calculate (probabilitatea critic a testului, p-value).
Rezult c probabilitatea Dac pc este mic, apare o contradicie,
de realizare este suficient
de mare
Pentru a rezolva contradicia se va respinge H0 n favoarea
ipotezei H1 deoarece motivul pentru care probabilitatea
critic este mic este faptul c la calculul acesteia s-a
acceptat ipoteza H0.
Dac pc este mare, nu se respinge H0, nu exist nici un motiv
pentru a lua decizia contrar.
Testele pot fi
parametrice = ipoteza H0 este strict legat de un parametru al
populaiei, iar statistica testului are o repartiie cunoscut tocmai din
aceast ipotez.
neparametrice = repartiia statisticii testului se calculeaz i nu rezult
din presupuneri apriorice asupra acestei distribuii i a probabilitilor
ataate.
Testele parametrice pot fi ( noteaz un parametru al populaiei):
bilaterale (nedirecionale)
H0: = 0
H1: 0
unilaterale (direcionale)
H0: = 0
H1: < (sau >) 0
Un test statistic are, de multe ori, o denumire dat de repartiia statisticii
testului: teste normale (sau Z), teste Student (sau t), teste F etc. Astfel, un test 2
reprezint un test a crui statistic are o repartiie de sondaj din clasa 2..
Categorii de teste
Testele sunt clasificate n teste pentru variabile continue i teste pentru
variabile discrete (nominale sau ordinale). Primele sunt, de regul, teste parametrice,
celelalte sunt neparametrice.
Teste de concordan
Aceste teste se refer la potrivirea, concordana dintre valorile calculate n
eantion (statisticile de sondaj) i valorile parametrilor respectivi din populaia
statistic (valori cunoscute sau presupuse). Cu alte cuvinte, problema poate fi
formulat: ct de mult poate s se abat o valoare calculat (dintr-un eantion) de la
valoarea presupus pentru ntreaga populaie pentru a putea considera c are loc o
nepotrivire ntre cele dou valori?
Dei formulat astfel problema pare c se refer la eantion i la populaia de
baz, punctul de vedere corect este:
1. exist o populaie statistic de interes, fie ea P1;
2. pentru orice eantion se poate considera o populaie de baz din care este
extras eantionul (reprezentativ pentru acea populaie); fie P2 aceast
populaie;
3. problema este dac se poate considera c P2 este n concordan cu P1,
adic parametrii de interes ai celor dou populaii nu difer semnificativ.
Se observ c testarea se va efectua pentru ipoteze privind populaii, se va
utiliza informaia dintr-un eantion, deci rmnem n domeniul inferenei statistice.
Ipoteza nul va afirma, n general, c populaiile P1 i P2 concord.
Respingerea ipotezei nule poate avea, n practic, dou consecine:
se va considera c eantionul nu este reprezentativ pentru populaia de interes,
populaie care se consider stabil; se va cuta un alt eantion;
sau
se va considera c populaia P1 i-a modficat ntre timp parametrii; noua
populaie de referin este P2.
Alegerea ntre cele dou afirmaii aparine practicianului din domeniul studiat,
fiind, de cele mai multe ori, o alegere ghidat de intuiie, de experien etc.
Z=
H 0 : = 0
(A)
H1 : 0
devine
H 0 : = 0
H : = 0
(B) '
sau (C) 0
H1 : > 0
H1 : < 1
Z=
x 0
n care toate valorile sunt cunoscute i prin urmare poate fi localizat pe curba
densitii de probabilitate normal standard.
Pentru a aplica acest test este necesar s se cunoasc i, prin urmare, situaia
practic de referin este aceea n care se studiaz dac o populaie statistic,
constant ca variabilitate, i-a meninut, sau nu, valoarea medie. Deoarece, n general,
nu se poate ti cu siguran c repartiia caracteristicii studiate este riguros normal,
acest test se utilizeaz pentru eantioane mari.
Acest test este referit i ca testul Z de concordan, datorit utilizrii unei
statistici repartizate normal standard..
t=
x 0
n
s
Teste de comparare
Categoriile de teste prezentate aici se bazeaz, aparent, pe compararea datelor
de sondaj care aparin la dou eantioane. Cum ansa de a se obine dou eantioane
identice este extrem de redus, problema comparrii eantioanelor, luat n sensul
strict al cuvntului, pare neimportant.
Un test de comparare trebuie, ns, nscris n inferena statistic: fie dou
eantioane extrase din dou populaii P1 i P2 respectiv. Prin utilizarea eantioanelor
se dorete de fapt compararea celor dou populaii.
Dificultatea procedurii const n aceea c diferenele dintre cele dou
eantioane, ca i similaritatea lor, se pot datora:
diferenelor dintre populaii, i/sau
diferenelor de sondaj dintre eantioane.
Testul F
Compararea mediilor populaiilor normale ia n considerare mprtierea
datelor n cele dou populaii. Este important atunci s se cunoasc dac dispersiile
celor dou populaii pot fi considerate egale, sau nu. Acest fapt se decide utiliznd
testul F, bazat pe repartiia teoretic F (FisherSnedecor).
Situaia poate fi recunoscut prin:
dou populaii, caracterizate de variabilele X1 i X2, respectiv;
variabilele sunt repartizate normal, X1 ~ N( 1 ; 12 ) , X 2 ~ N( 2 ; 22 ) ;
din dou eantioane, unul din fiecare populaie, dispunem de estimaiile s12
Teste unilaterale:
H 0 : 12 = 22
H : 12 = 22
(B) 0'
(C)
;
"
2
2
2
2
H 1 : 1 > 2
H 1 : 1 < 2
s12
s 22
F=
max ( s12 , s 22 )
min ( s12 , s 22 )
n aa fel nct sunt utilizabile doar testele (A) i (C). n acest caz se noteaz cu max
numrul gradelor de libertate pentru numrtor i cu min numrul gradelor de libertate
pentru numitor.
Decizia, la nivelul de semnificaie , pentru testul bilateral (A):
se respinge ipoteza nul H0 n favoarea ipotezei alternative H1 dac
Teste t de comparare
Compararea mediilor a dou populaii se realizeaz prin teste de comparare t.
Sunt utilizate frecvent trei asemenea teste, difereniate de situaia existent ntre
dispersiile populaiilor i independena eantioanelor:
eantioane independente, dispersii egale,
eantioane independente, dispersii neegale,
eantioane dependente (perechi, corelate).
B. Instrumente Excel
Procedurile prezentate sunt disponibile prin dialogul Tools - Data Analysis.
Tipul de generare
Number of Variables se precizeaz numrul de variabile generate, adic numrul de
coloane;
Number of Random Numbers se precizeaz numrul de valori generate, acelai pentru toate
variabilele;
Distribution se alege funcia de repartiie a variabilelor generate.
Iniializarea generrii
Random Seed Procesele de generare aleatoare sunt caracterizate i prin fixarea unei valori
iniiale funcie de care se ncepe procesul de generare. Aceast valoare, care nu nseamn
prima valoare generat, este un numr ntreg ntre 1 i 32000. Dac nu se precizeaz
aceast valoare, atunci se va considera n mod automat un numr aleator (obinut din data
curent i timpul curent).
SAMPLING
Procedura de sondaj permite obinerea unei submulimi dintr-o mulime de
valori existent. Parametrii prezeni n dialogul procedurii sunt explicai n continuare.
Input
Input Range se specific domeniul, sau denumirea domeniului, care conine datele din care
se va face selecia. Domeniul poate fi selectat i n mod dinamic. Datele care joac rolul
populaiei statistice trebuie s fie de tip numeric i organizate, de preferin, sub forma
unei coloane sau a unei linii. Prima celul poate conine denumirea setului de date. n
cazul n care selecia se face dintre nregistrrile unei baze de date (fiecare nregistrare
avnd, uzual, mai multe cmpuri) se va indica drept domeniu doar coloana unui cmp
cum ar fi numrul nregistrrii, sau codul (numeric) de identificare etc.
Labels boxa de control va fi marcat dac domeniul indicat conine pe prima poziie
denumirea setului de date.
Sampling Method
n acest grup se precizeaz metoda de selecie.
Periodic selectarea acestui buton radio permite indicarea n cmpul Period a cotei fixe de
formare a eantionului. Dac, de exemplu, se completeaz 5, atunci eantionul este format
din al 5-lea element i toate cele care urmeaz din 5 n 5 (al 10-lea element, al 15-lea, al
20-lea etc.)
Random selectarea acestui buton radio indic o formare aleatoare a eantionului. Fiecare
element are aceeai probabilitate de a fi ales. Din acest motiv, dac mulimea de baz este
relativ restrns, atunci unele elemente pot s apar de mai multe ori n eantionul
constituit. Volumul eantionului se specific n cmpul Number of Samples.
Output options
Output Range, New Worksheet Ply, New Workbook potrivit descrierii de la Descriptive
Statistics. Precizeaz domeniul din foaia de calcul unde se vor nscrie rezultatele.
Rezultatul este o coloan cu valorile selectate.
Input
Variable 1 Range se va preciza domeniul primului eantion. Este obligatoriu ca acesta s fie
o coloan sau o linie. Domeniul poate fi ales dinamic sau dat prin denumirea sa.
Variable 2 Range se va preciza domeniul celui de al doilea eantion. Este obligatoriu ca
acesta s fie o coloan sau o linie i s nu se intersecteze cu domeniul primului eantion.
Domeniul poate fi ales dinamic sau dat prin denumirea sa.
Labels se va marca boxa de control dac domeniile eantioanelor conin n prima celul
denumirea (eticheta) variabilei.
Alpha se precizeaz valoarea nivelului de semnificaie. Implicit se va considera = 0,05.
Concluzia testului este aceea c ipoteza nul nu poate fi respins. Se va tolera prin
urmare ipoteza c dispersiile sunt egale sau, cu alte cuvinte, c n populaiile din care provin
eantioanele variabila urmrit prezint acelai grad de mprtiere.
H0: 1 2 = d,
unde 1, 2 sunt mediile populaiilor din care provin eantioanele disponibile, iar d este
diferena presupus sau cunoscut a mediilor.
Pentru a testa egalitatea mediilor celor dou populaii se va aplica procedura n cazul
particular d = 0.
Cele trei teste t sunt cazurile principale din punct de vedere practic:
testul t pentru eantioane corelate;
testul t pentru populaii cu dispersii egale;
testul t pentru populaii cu dispersii neegale.
Input
Variable 1 Range, Variable 2 Range conin referinele la zonele celor dou eantioane,
respectiv. Deoarece testul este pentru eantioane cu date perechi, este necesar ca zonele
indicate s aib acelai numr de celule completate cu date numerice, valorile de pe
aceleai poziii n cele dou serii fiind perechi. Domeniile pot fi selectate dinamic.
Hypothesized Mean Difference conine valoarea testat pentru diferena mediilor. Dac se
indic valoarea 0 (zero), atunci se verific ipoteza egalitii mediilor.
Labels boxa de control se marcheaz dac zonele de date indicate conin pe primele locuri
denumirile zonelor.
Input
Variable 1 Range, Variable 2 Range conin referinele la zonele celor dou eantioane,
respectiv. Domeniile indicate pot s aib numere diferite de celule, dar completate cu date
numerice (cel mult prima celul n fiecare zon poate fi un titlu). Domeniile pot fi
selectate dinamic.
Hypothesized Mean Difference conine valoarea testat pentru diferena mediilor. Dac se
indic valoarea 0 (zero), atunci se verific ipoteza egalitii mediilor.
Variable 1 Variance (known), Variable 2 Variance (known) dispersiile celor dou populaii.
Acestea se presupun cunoscute. n practic, pentru eantioane mari, se pot lua valorile
dispersiilor de sondaj, dar n aceast situaie este preferabil s se aplice un test t dect un
test z.
Labels boxa de control se marcheaz dac zonele de date indicate conin pe primele locuri
denumirile zonelor.
Alpha conine valoarea pragului de semnificaie utilizat de procedur pentru a calcula
valorile critice ale statisticii (utilizate ca limite ale domeniului de respingere a ipotezei
nule). Implicit se ia = 0,05.
Output options
Output Range, New Worksheet Ply, New Workbook potrivit descrierii de la Descriptive
Statistics. Precizeaz domeniul din foaia de calcul unde se vor nscrie rezultatele.
Rezultatele sunt formatate ca un tabel pentru care se va preciza poziia colului din stnga
sus. Semnificaia rubricilor din tabel este explicat n exemplul prezentat.
Exemplu
Pentru a compara mediile a dou populaii s-au extras dou eantioane de volume 35,
respectiv 34. Se cunoate, din alte cercetri, c dispersiile populaiilor sunt 18 i 15, respectiv.
Dispersiile de sondaj concord cu aceste valori.
Pentru a compara mediile populaiilor se aplic un
test z. Resultatele sunt explicate n continuare.
Mean mediile de sondaj ale celor dou eantioane.
Known Variance dispersiile cunoscute ale celor
dou populaii.
Observations numrul de observaii (volumul
eantionului).
Hypothesized Mean Difference valoarea cu care
se compar diferena mediilor populaiilor.
Testarea egalitii mediilor revine la a compara
diferena mediilor cu zero.
z valoarea calculat a statisticii testului. Provine,
teoretic, dintr-o repartiie normal standard.
Rezultatele procedurii z-Test.
Servete pentru raportare sau pentru decizia n
test la alte grade de semnificaie dect valoarea
fixat n dialogul procedurii.
P(Z<=z) one-tail probabilitatea critic unidimensional, arat care este probabilitatea ca o
variabil normal redus s depeasc valoarea calculat. Dac aceast valoare este mai
mic dect pragul de semnificaie fixat, atunci se poate respinge ipoteza nul n favoarea
ipotezei alternative. Deoarece, n situaia dat, prima medie este mai mare, ipoteza
alternativ ntr-un test unilateral este
H1 : 1 2 > 0 sau, echivalent, H1 : 1 > 2.
Valoarea 0,008 afiat este mai mic dect valorile uzuale (0,05 sau 0,01), deci nu se
poate respinge ipoteza nul la aceste valori ale lui . Prin urmare se poate respinge
ipoteza nul i accepta ipoteza alternativ c prima populaie are o medie mai mare.
z Critical one-tail valoarea critic unidimensional pentru pragul de semnificaie = 0,05
(precizat n dialogul procedurii). Dac valoarea z calculat este mai mare dect aceast
C. Lucrarea practic
1) Un studiu a artat c 50% dintre utilizatorii de internet au primit mai mult de 10
mesaje e-mail pe zi. Repetnd, dup un timp, studiul, se dorete verificarea
ipotezei c a crescut utilizarea e-mail-ului. S se precizeze ipoteza nul i ipoteza
alternativ a testului statistic adecvat.
2) ntr-un test z cu ipotezele H0 : 1 2 = 5 vs. H1 : 1 2 > 5 s-a obinut statistica
testului z = 1.69. Care este probabilitatea critic a testului?
3) Se vor genera dou coloane de cte 100 de valori dintr-o repartiie normal cu
media 0 i dispersia 1.
i) s se calculeze mediile i dispersiile celor irruri de valori; s se compare
cu valorile 0, respectiv 1, i s se interpreteze rezultatul comparaiilor n
termenii populaie-eantion.
ii) s se testeze egalitatea mediilor celor dou seturi de valori cu valoarea
teoretic 0.
iii) s se testeze dac cele dou seturi de valori au mediile egale.
4) Se vor genera dou coloane de valori din repartiii normale cu medii i dispersii
diferite. Presupunnd c media celei de a doua coloane difer de media primei
coloane cu , s se verifice, prin generri repetate ale coloanelor, dac
eantioanele pot fi considerate ca aparinnd aceleiai populaii.
i) Se va mri treptat diferena , ca i diferena dispersiilor, pentru a obine o
imagine intuitiv asupra rspunsului la ntrebarea: ct de mare trebuie s
fie diferena pentru ca eantioanele s nu pot fi considerate omogene?
ii) Se va studia i influena diferenelor dintre dispersii asupra concluziei
testului.
5) Se import n Excel fiierul admitere.txt (utilizat la lucrarea nr.1). S se verifice
statistic dac
i) mediile la bacalaureat pot fi considerate egale pentru cei care opteaz la
analiz, programare C sau programare Pascal
ii) mediile la scris pot fi considerate egale pentru cei care opteaz la analiz,
programare C sau programare Pascal
Statistic multivariat
Ferestre SPSS
Sunt enumerate tipurile de ferestre disponibile n mediul SPSS i se precizeaz
funcionalitatea lor.
Data Editor
Este fereastra care se deschide automat la pornirea unei sesiuni i care permite
editarea datelor, crearea de noi nregistrri, eliminarea unor nregistrri etc.
Activnd tab-ul Data View se vor afia nregistrrile fiierului de date ntr-o
gril, coloanele reprezentnd variabilele, liniile fiind cazurile studiate
(termenul de cazuri provine evident din practica sociologic/medical, sunt
elementele eantionului studiat).
Activnd tab-ul Variable View se vor afia metadatele asociate variabilelor
(numele variabilei, tipul variabilei, indicaii de afiare etc.).
Viewer
Fereastra Viewer este utilizat pentru afiarea rezultatelor: statistici, tabele,
diagrame etc. Dac nu exist o fereastr Viewer deschis, se va crea automat
una la prima comand care produce ieiri. Rezultatele afiate pot fi editate,
deplasate, eliminate etc. ntr-un mediu similar cu cel din Microsoft Explorer.
Meniuri SPSS
Ca n orice aplicaie Windows, multe dintre prelucrrile SPSS pot fi executate
prin acionarea comenzilor din meniuri.Fiecare fereastr SPSS are propriile meniuri i
unelte corespunztoare.
Meniuri comune
File
Este utilizat pentru creare, deschidere, export de fiiere diverse: date, rezultate,
comenzi etc.
Edit
Editrile uzuale pentru date numerice, text sau obiecte grafice: copieri, alipiri
etc. n aceeai aplicaie sau nu.
View
Controleaz modul de afiare a uneltelor, a liniaturii, a identificatorilor de
valori (valorile pot avea ataate denumiri explicite).
Analyze
Este meniul care d acces la procedurile statistice.
Graphs
Permite crearea diagramelor. Orice diagram poate fi modificat (reamintim)
prin Chart Editor, afiat la dublu click pe diagram.
Utilities
Permite afisarea informaiilor despre variabile, definirea unor mulimi de
variabile etc.
Window
Operaii asupra ferestrelor.
Help
Deschide o fereastr standard de ajutor.
Data
Se pot realiza modificri globale cum ar fi transpunerea variabilelor i
cazurilor, filtrarea cazurilor etc. Modificrile sunt temporare dac nu sunt
salvate n fiierul iniial.
Transform
Permite transformarea unor variabile (cum ar fi recodificare) i obinerea unor
noi variabile prin calcule efectuate asupra variabilelor existente. Modificrile
sunt temporare pentru sesiunea curent, dac nu sunt salvate n fiierul iniial.
SPSS - Opiuni
Se poate personaliza mediul SPSS prin selectarea comenzii Edit - Options
Fiierul de rezultate
Rezultatele sunt afiate n fereastra Viewer n ordinea n care sunt apelate
procedurile, fiecare apel producnd o intrare n arborele de navigare din stnga
ferestrei. n aceast fereastr se poate naviga la orice component prin operare n
arborele de navigare i se pot efectua editri care s conduc la o ieire clar, uor de
interpretat, potrivit necesitilor prelucrrii.
Se poate utiliza fereastra Viewer pentru:
Parcurgerea rezultatelor, vizualizarea sau ascunderea unor componente
(tabele, diagrame),
Modificarea ordinii n care sunt afiate componentele,
Accesul la ferestrele Pivot Table Editor, Text Output Editor, Chart Editor,
Copierea/mutarea elementelor ntre SPSS i alte aplicaii (Word, Excel etc.).
Panelul din stnga al ferestrei conine arborele de structur a ieirii. Se pot
extinde sau restrnge ramuri, se pot deplasa elementele prin drag-and-drop, se poate
naviga la un element prin selectarea nodului asociat.
Pentru copiere ntre aplicaii se poate utiliza tehnica uzual Edit Copy urmat
de Edit Paste/Paste Special.
Exist ns i posibilitatea de export a ieirii prin
Se activeaz fereastra Viewer i se d comanda File Export.
Se afieaz dialogul
Organizarea datelor
SPSS utilizeaz datele organizate n linii i coloane: liniile reprezint cazurile
(observaiile), coloanele reprezint variabilele cercetrii. Aparent, grila seamn cu o
foaie Excel, dar funcionalitatea nu este aceeai. Deoarece prelucrrile statistice se
aplic variabilelor, acestea au n SPSS o serie de atribute memorate n fiierul de date
i artate n Data Editor - Variable View:
n SPSS, variabilele sunt denumite, cel puin n versiunile mai vechi, cu
identificatori de maxim 8 caractere i care nu se pot termina cu punct (rezervat
pentru comenzi de scriptare). Identificatorii sunt formai dup regulile uzuale
(cele mai restrictive sunt interzicerea spaiilor i a caracterelor speciale &, !, ?,
', *) i nu sunt case sensitive.
Tipul unei variabile poate fi (semnificaia este evident) numeric, comma, dot,
scientific notation, date, custom currency sau string. Variabilele numerice pot
avea cel mult 40 de caractere, dintre care 16 la partea zecimal. Variabilele
string se pot clasifica n short string (pn la 8 caractere) sau long string (pn
la 256 caractere). Variabilele short string suport unele proceduri SPSS.
Se poate defini pentru fiecare variabil care este valoarea lips (missing
value), cu alte cuvinte cum este codificat situaia c un caz nu conine o
valoare pentru variabila respectiv. Valorile lips pot fi separate n system
missing (un spaiu n cazul datelor numerice sau nimic, irul vid, n toate
cazurile) i user missing (cele specificate explicit ca valori lips). Variabilele
long string nu permit valori user-missing.
Pe lng denumire, care apare ca nume al coloanei, o variabil poate avea
ataat o etichet, label, care este un text explicit privind semnificaia
variabilei. De exemplu, variabila Nume poate avea ca label textul Numele i
prenumele candidatului. Aceste etichete vor fi utilizate n raportarea
rezultatelor.
Atributul Width fixeaz numrul maxim de caractere al valorilor string,
Columns precizeaz numrul de caractere afiate.
Deoarece cazul frecvent ntlnit n prelucrrile statistice este acela n care sunt
nscrise n fiierul de date codurile valorilor (de exemplu, 1=elev, 2=student
etc.), SPSS permite definirea i memorarea codificrilor utilizate pentru
fiecare variabil. n fereastra Data Editor, pagina Variable View, activarea
celulei din coloana Values conduce la afiarea dialogului Value Labels:
Fiecare pereche Value Value Label este adugat la lista de coduri prin
activarea butonului Add etc. Etichetele de valori, mpreun cu etichetele de
variabile conduc la o form explicit a rezultatelor.
Ultimul atribut specific al unei variabile este scala de msur utilizat, atribut
reinut n coloana Measure din Variable View. Denumirile SPSS utilizate
n zona Target Variable se trece denumirea noii variabile pentru care se poate
preciza tipul i eticheta n subdialogul afiat prin acionarea butonului Type &
Label.
n zona de formare a expresiei de calcul, Numeric Expression, se formeaz
expresia de calcul prin utilizarea butoanelor existente pentru operatori i
funcii sau prin tastare direct. Denumirile variabilelor existente pot fi aduse n
expresie prin selectare n lista variabilelor, dublu click sau butonul X.
Se poate efectua o filtrare a nregistrrilor (cazurilor) pentru care are loc
transformarea dac se acioneaz butonul If. Cazurile neselectate vor avea
valoarea system-missing pentru noua variabil.
Comanda Recode
Recodificarea unei variabile este util n dou situaii principale:
1. se transform o variabil de interval ntr-o variabil ordinal pentru a o
raporta ca date grupate sau pentru a studia asocierea cu alte variabile ordinale,
2. o variabil string trebuie recodificat cu coduri numerice necesare pentru a
putea aplica anumite proceduri SPSS, care cer variabile codificate numeric.
Recodificarea poate fi n aceeai variabil, sau ntr-o nou variabil, cazul
discutat aici.
Prin Transform Recode Into Different Variables se afieaz dialogul
n care se transfer variabila numerica pentru care se realizeaz recodificarea din lista
Prelucrri statistice
Prelucrrile statistice din SPSS se realizeaz prin comenzile din meniul
Analyze, sau prin executarea comenzilor scrise n fereastra Syntax Editor. Deoarece
efectuarea unei prelucrri necesit operarea cu un numr de dialoguri specializate,
pentru familiarizarea cu principalele dialoguri care apar la comenzile de prelucrri
statistice se prezint n continuare modul n care se obin statisticile descriptive i o
procedur de testare a egalitii mediilor.
Analyze - Frequencies
Analyze Descriptives
O comand sintetic pentru statisticile descriptive ale variabilelor continue
este Analyze - Descriptive Statistics - Descriptives. Parametrii prelucrrii se fixeaz
n urmtoarele dou dialoguri.
Analyze Crosstabs
Obinerea tabelelor de frecvene ncruciate, utile la studiul asocierii dintre
variabile, este gestionat de comanda Analyze Descriptive Statistics Crosstabs,
care iniializeaz dialogul urmtor.
Se vor selecta variabilele, dup care se compar cele dou grupuri, din lista
variabilelor (continue) i se trec n lista variabilelor de test. Pentru a preciza grupurile
care sunt comparate precizeaz variabila care identific grupurile (Grouping
Variable) i se iniiaz dialogul Define Groups n care, pentru o variabil discret,
se precizeaz valorile etichete ale celor dou grupuri sau, pentru o variabil continu,
valoarea care separ cele dou grupuri.
Prin intermediul dialogului iniiat la Options, se poate fixa pragul de semnificaie i modul de tratare a valorilor lips.
F
Fuel efficiency
Equal
variances
assumed
Equal
variances not
assumed
,004
Sig.
,948
df
Sig.
(2-tailed)
Mean
Difference
Std. Error
Difference
95% Confidence
Interval of the
Difference
Lower
Upper
8,664
152
,000
5,597
,646
4,321
6,874
9,356
79,405
,000
5,597
,598
4,407
6,788
Tabelul conine dou linii de rezultate numerice: rndul superior privete testul
t n situaia dispersiilor egale, rndul inferior se refer la cazul dispersiilor neegale.
Alegerea este condus de testul Levene de egalitate a dispersiilor, care este realizat
prin intermediul coloanelor aflate sub antetul Levene's Test. Statistica este F (=0,004
n cazul ilustrat) iar probabilitatea critic este Sig (0,948 n cazul ilustrat). Prin
urmare, la pragul de 0,05, nu se respinge ipoteza egalitii dispersiilor. In acest caz se
vor utiliza valorile din rndul superior al tabelului i se citete valoarea statisticii
testului t = 8,664 i probabilitatea critic bilateral Sig < 0,001. Drept urmare se va
respinge ipoteza egalitii mediilor celor dou grupuri.
Ultimele 4 coloane conin diferena dintre medii, eroarea standard a acestei
diferene i intervalul de ncredere pentru diferena mediilor (faptul c intervalul nu
conine valoarea 0 este echivalent cu respingerea egalitii mediilor).
Alte teste, neparametrice, pot fi aplicate individual prin intermediul
comenzilor grupate n Analyze - Nonparametric Tests.
C. Lucrarea practic
1. Se va importa n SPSS fiierul de date (utilizat i la lucrarea nr.1)
http://thor.info.uaic.ro/~val/statistica/Admitere.txt
i. Se vor completa, pentru fiecare variabil, atributele specifice:
tipul (nominal, ordinal, interval), denumirea, modul de afiare
(coloane, zecimale etc.), etichetele de valori (acolo unde este
cazul).
ii. Se vor elimina coloanele care poart n fiierul text informaii
auxiliare.
iii. Se va crea o variabil filtru cu valoarea 1 dac proba la alegere
este analiza matematic i valoarea 0 n rest.
iv. Se va recodifica variabila reprezentnd situaia dup examen
astfel nct s poat fi asimilat unei variabile ordinale (ordinea
fiind cea intuitiv - reuit fr tax, cu tax, n ateptare,
respins).
2. Se vor caracteriza variabilele cu ajutorul indicatorilor statistici
adecvai.
3. S se creeze tablourile de frecvene ncruciate dintre variabilele
Opiune i Situaie, incluznd i calculul frecvenelor relative.
4. Se va testa egalitatea mediilor de admitere dup cele trei discipline la
alegere.
5. Se va testa egalitatea mediilor de admitere pentru cei care au ales
analiza matematic i cei care au ales o prob de programare.
6. Se vor crea i edita grafice adecvate ale repartiiilor variabilelor
coninnd proba la alegere, mediile la bacalaureat, scris, final.
Statistic multivariat
Formal, dispunem de k grupuri de valori, de volume n1, n2, , nk, respectiv, notate cu
A1, A2, , Ak. n sensul discuiei generale, se poate considera c A1, A2, sunt
categoriile unei variabile (de obicei nominale) care face deosebirea dintre grupuri.
Aceasta este variabila independent a analizei. Variabila X este variabila dependent,
variabila dup care se compar populaiile..
Variaia datorat diferenelor dintre grupuri este definit ca variaie explicat
partea din variaia variabilei dependente explicat de variabila independent. Cu alte
cuvinte, variaia explicat este partea explicat de ctre mprirea n grupuri. Variaia,
care rmne dup separarea variaiei explicate, este definit drept variaie rezidual
(variaia neexplicat) i este datorat unor surse ntmpltoare de variaie. Variaie
explicat mai este denumit i variaie ntre grupuri (exterioar), iar cea rezidual
variaie n grupuri (intern).
Se poate considera c modelul de baz al analizei dispersionale afirm c orice
valoare a variabilei X este obinut prin cumularea a dou efecte, unul sistematic i
unul ntmptor:
xij = efect sistematic (al nivelului Ai ) + efect ntmpltor (din nivelul Ai).
Formule de calcul
Mediile grupurilor
xi =
xi1 + xi 2 + K + x ini
ni
1
ni
ni
x
j =1
ij
, i = 1,2, K , k
x=
1
n1 + n 2 + K + n k
ni
ij
i =1 j =1
Cu aceste notaii, se definete variaia din interiorul unui grup prin abaterile fa de
media grupului, iar variaia dintre grupuri prin abaterile de la media general a
mediilor grupurilor. Se demonstreaz c are loc relaia
k
ni
( xij x) 2 =
i =1 j =1
ni
( xij xi ) 2 +
i =1 j =1
ni
( x
x) 2 .
i =1 j =1
unde SPg este suma ptratelor global, SPexp este suma ptratelor explicat, iar SPrez
este suma ptratelor rezidual, cu interpretarea de descompunere a variaiei globale n
variaia explicat i variaia rezidual.
Cele trei sume de ptrate au, respectiv, urmtoarele grade de libertate:
k
g = ni 1 = n 1, exp = n k , rez = k 1.
i =1
SPg
2
; s exp
=
SPexp
esp
2
; s rez
=
SPrez
rez
2
2
Prin urmare, ntre s rez
i s exp
apar diferene semnificative cnd mediile grupurilor sunt
neomogene. Din acest motiv, analiza dispersional este uneori referit drept un test F
pentru o comparare multipl.
Se construiete astfel tabelul analizei dispersionale unifactoriale, ANOVA.
Sursa
variaiei
ntre grupuri
(extern)
n grupuri
(intern)
Global
Suma
ptratelor
Grade de
libertate
Media
ptratelor
SPexp
exp
2
s exp
SPrez
rez
2
s rez
SPg
s g2
F=
2
s exp
2
s rez
2
2
Testul F. Compararea cantitilor s exp
i s rez
se efectueaz ntr-un test F cu ipotezele:
organizarea datelor n zona care ncepe din celula A1 este ntmpltoare (din
motive de prezentare).
unde:
Source of Variation reprezint descompunerea n variaie explicat (Between
Groups) i variaie neexplicat (Within Groups)
SS este coloana sumelor de ptrate
df este coloana gradelor de libertate asociate sumelor de ptrate
MS conine mediile sumelor de ptrate
F este valoarea calculat a staticii F
P-value, F crit sunt, respectiv, probabilitatea critic i valoarea critic care
permit decizia n testul statistic: ipoteza nul a grupurilor omogene se respinge
dac p-value este mai mic sau egal cu pragul a ales sau dac valoarea F
calculat este mai mare sau egal cu valoarea critic..
SPSS
Pentru a realiza o analiz dispersional unifactorial se d comanda Analyze Compare Means - One-Way ANOVA... Este afiat dialogul
valorile extreme,
statisticile specifice modelului de analiz solicitat (cu efecte sistematice sau cu
efecte ntmpltoare).
C. Lucrarea practic
1. Se salveaz i se deschide n Excel fiierul
http://thor.info.uaic.ro/~val/statistica/TVHours.xls
Datele privesc un studiu desfurat timp de 4 sptmni n care s-a urmrit
numrul de ore de vizionare a trei tipuri de programe TV: filme, divertisment,
tiri.
2. S se analizeze setul de date TVHours.xls i s se rspund la urmtoarele
ntrebri:
a. exist diferene ntre brbai i femei n ceea ce privete numrul total
de ore de vizionare?
b. exist diferene ntre brbai i femei n ceea ce privete numrul de ore
de vizionare pe categorii de programe?
c. pe total i pe brbai-femei separat, cele 4 sptmni ale studiului
difer
i. dup numrul total al orelor de vizionare?
ii. dup numrul de ore pe categorii de programe?
d. se mpart subiecii pe categorii de vrst: 21-25, 26-30, 31-35. S se
decid dac exist deosebiri ntre cele trei categorii de vrst definite
n ceea ce privete
i. numrul total al orelor de vizionare?
ii. numrul de ore pe categorii de programe?
3. Se va importa n SPSS fiierul TVHours.xls i se va reface analiza n vederea
obinerii rspunsurilor la ntrebrile 2-b, 2-d.
4. Se va deschide n SPSS fiierul cars.sav (fiierul de date se gsete n folderul
aplicaiei SPSS). S se decid dac, ntre caracteristicile tehnice ale
autoturismelor considerate n studiul respectiv, exist deosebiri dup
localizarea productorului (Europa, Japonia, America) att pe ansamblul
perioadei considerate, ct i pe ultimii 5 ani ai studiului.
Statistic multivariat
Variaie neexplicat
Variaie explicat
de al doilea factor
Variaie explicat de
interaciunea factorilor
se noteaz astfel a k-a valoare din eantionul care corespunde grupului determinat de
nivelul i al factorului A i nivelul j al factorului B.
Utiliznd valorile medii calculate pentru linii, coloane, celule i pentru totalitatea
valorilor se demonstreaz c are loc relaia de descompunere a variaiei totale n
variaia datorat factorului A, variaia datorat factorului B, variaia datorat
interaciunii AB i variaia rezidual:
SPg = SPA + SPB + SPAB + SPrez
unde
SPg =
( xijk x )
i =1 j =1k =1
SPA = qn
( x i x) 2
i =1
q
SPB = hn
( x j x) 2
j =1
SPAB = n
( x ij x i x j + x) 2
i =1 j =1
SPrez =
( xijk x ij ) 2 .
i =1 j =1k =1
Suma
ptratelor
Grade de
Media ptratelor
libertate
ntre grupuri
Interaciunea AB
SPA
SPB
SPAB
A
B
AB
n interiorul
grupurilor
SPrez
rez
2
s rez
= SPrez / rez
Global
SPg
Factorul A
Factorul B
s A2 = SPA / A
2
FA = s A2 / s rez
s B2 = SPB / B
2
FB = s B2 /s rez
2
s AB
= SPAB / AB
2
2
FAB = s AB
/s rez
(AB)
H0 : interaciunea
(efectul lui A
H1 : interaciunea
(efectul lui A
(A)
(B)
(A)
FA F1 ; A ; rez
(B)
FB F1 ; B ; rez
B. Instrumente Excel
n Excel nu se poate efectua analiza post-hoc (dac nu se dezvolt/deschide etc. un
proiect VBA dedicat).
Pentru analiza dispersional bifactorial, datele se vor organiza n modul urmtor:
Este important de reinut c se pot efectua doar analize n care planul de experimente
este echilibrat, deci fiecare celul are acelai numr de valori, n.
Din Tools - Data Analysis se continu cu:
ANOVA: Two-Factor With Replication n cazul n > 1
ANOVA: Two-Factor Without Replication n cazul n = 1
Dialogul afiat n primul caz, cel mai general deoarece se permite studiul interaciunii
ntre factori, este
unde se completeaz:
Input Range - referina la zona datelor, zona colorat din figura cu structura
datelor.
Rows per sample - valoarea lui n, numrul de valori dintr-o celul.
Restul zonelor sunt explicate prin denumirile lor.
Instrumente SPSS
Analiza Post Hoc
Pentru a realiza o analiz dispersional unifactorial se d comanda Analyze Compare Means - One-Way ANOVA... dup cum s-a explicat n lucrarea
anterioar.
Analiza post-hoc este realizat prin acionarea butonului Post Hoc. n dialogul afiat
se marcheaz metodele dorite, att n cazul ANOVA (dispersii egale), ct i n cazul
n care dispersiile nu sunt egale.
Two-Way ANOVA
Analiza bifactorial se poate realiza n dou moduri:
1. din fereastra de sintax sau
2. utiliznd comanda General Linear Model (GLM).
Comanda ANOVA
Se deschide o nou fereastr de sintax prin File - New - Syntax:
{AFTER }
[/MAXORDERS={ALL** }]
{n }
{NONE }
[/METHOD={UNIQUE** }]
{EXPERIMENTAL}
{HIERARCHICAL}
[/STATISTICS=[MCA] [REG] [MEAN] [ALL] [NONE]]
[/MISSING={EXCLUDE**}]
{INCLUDE }
unde:
VARIABLES specific lista variabilelor analizate. Analize diferite sunt separate prin
slash-uri.
variabilele din faa cuvntului rezervat BY sunt dependente, cele de dup
sunt factorii analizei.
fiecare factor trebuie s fie codificat numeric i grupurile considerate se
precizeaz prin valorile minim i maxim asociate.
variabilele listate dup WITH sunt covariabilele analizei (analiza
covarianei)
COVARIATES specific ordinea de considerare n analiz a covariabilelor i a
factorilor principali.
FIRST produce procesarea covariabilelor naintea factorilor; WITH
procesare simultan; AFTER proceseaz covariabilelor la sfrit.
ordinea este neglijat dac METHOD=UNIQUE.
MAXORDERS precizeaz ordinul maxim de interaciune considerat n analiz.
ALL fixeaza ordinul de interaciune la 5 (valoarea implicit n SPSS); n
stabilete ordinul maxim; NONE nu se analizeaz interaciunile.
interaciunile omise sunt incluse n variana rezidual.
METHOD controleaz metoda de descompunere a sumei de ptrate n construcia i
analiza tabelului ANOVA.
UNIQUE nseamn abordare regresional (toate efectele - covariabile, factori
- sunt considerate simultan); EXPERIMENTAL abordarea clasic;
HIERARCHICAL abordare ierarhic a considerrii efectelor.
alegerea unei opiuni poate impune restricii n alegerea altor parametri ai
comenzii, ceea ce poate produce mesaje de atenionare.
STATISTICS precizeaz statisticile suplimentare calculate
MEAN = mediile i frecvenele celulelor, pentru toate nivelurile de
interaciune cerute ; REG = coeficienii de regresie nestandardizai (explicaia
va fi neleas mai bine doar dup studiul modelului liniar); MCA (Multiple
Classification Analysis) = diverse statistici privind mediile prognozate,
rapoarte de corelaie etc. studiate ulterior; ALL, NONE cu sensurile evidente.
MISSING precizeaz modul de tratare a valorilor lips.
EXCLUDE - valoarea implicit- este exclus orice observaie cu o valoare
lips n orice variabil menionat n analiz; INCLUDE are ca efect
includerea n analiz a observaiilor care au valori lips definite de utilizator.
Comanda GLM
Fundamentarea acestei proceduri se va gsi n capitolul privind modelul liniar,
considerndu-se deocamdat c analiza dispersional poate fi privit ca o problem de
model liniar i, deci, rezolvat printr-o metod dedicat acestei probleme.
n care se precizeaz factorii pentru care se dorete analiza post hoc, ca i metodele de
analiz selectate.
C. Lucrarea practic
1. Se va deschide fiierul
http://thor.info.uaic.ro/~val/statistica/MagAds.xls
care conine date obinute n urma analizrii reclamelor unor reviste n ceea ce
privete gradul de dificultate a lecturii lor, dup nivelul de educaie al
cititorilor int. Variabilele urmrite sunt:
Statistic multivariat
1
Asociere negativ
(invers)
0
Lips de asociere
+1
Asociere pozitiv
(direct)
Scala nedirecional (01). Este mai puin senzitiv dect scala direcional,
permite doar diferenierea asociere neasociere, fr a specifica sensul asocierii.
Pentru variabilele asociate puternic nu se poate preciza tipul de asociere. Este
specific variabilelor nominale.
Atributul PRE (Proportional Reduction in Error) reducerea proporional a erorii,
se refer la mbuntirea prognozei valorilor variabilei dependente atunci cnd se
cunoate valoarea variabilei independente. Se definete ca msur a cantitii cu care
cunoaterea variabilei independente mrete corectitudinea prediciei n raport cu o
"ghicire" pur (bazat doar pe cunoaterea repartiiei variabilei dependente):
Eroarea folosind
variabila independent
PRE=
Eroarea folosind doar variabila dependent
Se poate gndi PRE ca variana explicat de variabila independent.
X1
Xi
Xr
Total
Y1
Yj
Ys
Total
n11
ni1
nr1
n*1
n1j
nij
nrj
n*j
n1s
nis
nrs
n*s
n1*
ni*
nr*
n
unde ni* reprezint totalul frecvenelor de pe linia i, iar n*j este suma frecvenelor de
pe coloana j.
Se consider c variabilele X i Y sunt independente empiric, dac are loc relaia
ni n j
nij =
, ()i, j
n
care exprim faptul c liniile (coloanele) sunt proporionale, deci profilele-linii sunt
egale (ca i profilele-coloane). Se poate demonstra c, n aceste condiii, proporia
elementelor clasate Yj este aceeai ntre elementele clasate Xi ca i ntre elementele
neclasate Xi (elementele non Xi).
ntre nivelurile Xi i Yj
exist o asociere pozitiv dac nij > (ni* n*j) / n (adic n celula ij exist o
frecven mai mare dect n populaie);
exist o asociere negativ dac nij < (ni* n*j) / n (adic n celula ij exist o
frecven mai mic dect n populaie).
Se adopt ca msur a asocierii (globale) mrimea (Pearson)
n n
nij i* * j
n
d2 (sau 2) =
ni* n* j
i, j
n
sau
nij2
d = n
1 .
ij ni* n* j
2
Indicatorul (numit indicator al contingenei ptratice) nu este msurat pe o scal
0-1 i din acest motiv, nencadrndu-se n teoria general a indicilor de asociere, nu
poate fi utilizat cu bune rezultate pentru comparaii. Au fost propui atunci o serie de
ali indici, (derivai din 2):
2
2 =
C=
2
n
2
, coeficientul contingenei ptratice medii (Pearson)
n+ 2
T2 =
V2 =
2
( s 1)(t 1)
2
min{( s 1), (r 1)}
variabila 1
variabila 2
v11
v12
v1n
1
2
v21
v22
v2n
ranguri
variabila 1
ranguri
variabila 2
d2
r11
r21
(r11-r21)2
r12
r22
(r12-r22)2
r1n
r2n
(r1n-r2n)2
6 d i2
i
n(n 1)
n2
,
1 rs2
fa fi
fa + fi
r1j
r2i
r2j
se potrivesc dac ordinea este aceeai n cele doucoloane i c are loc o inversiune
dac ordinea este schimbat.
Semnificaia lui poate fi testat prin utilizarea unei formule aproximative (aplicabil
pentru n 10)
fa + fi
n(1 - 2 )
z=
care, n ipoteza H0: = 0, este o variabil normal redus i se poate aplica un test
bazat pe repartiia normal standard.
( x X )( y Y ) ,
( ( x X ) )( ( y Y ) )
i
n2
.
1 r2
CORRELATION
Este procedura care calculeaz coeficienii de corelaie liniar, cunoscui i drept
coeficienii de corelaie Pearson. Variabilele implicate sunt variabile continue (de
interval). n cazul cnd exist un numr suficient de mare de valori i de ranguri
posibile, procedura poate fi utilizat i pentru calculul coeficienilor de corelaie a
rangurilor (Spearman).
Dialogul de iniiere a procedurii Correlation este prezentat n figura alturat.
Input
Input Range se precizeaz domeniul
datelor de intrare. Acesta trebuie s
fie o zon compact dintr-o foaie de
calcul.
Grouped By se selecteaz butonul
corespunztor modului de nscriere
a valorilor unei variabile: Columns
pentru variabile pe coloane, Rows
pentru variabile pe linie.
Labels in First Row se marcheaz
dac prima linie (cazul Columns)
sau prima coloan (cazul Rows)
conine denumirile variabilelor.
Output options
Output Range, New Worksheet Ply, New Workbook Precizeaz zona unde se vor nscrie
rezultatele. Zona de rezultate cuprinde un tabel ptratic cu coeficienii de corelaie ntre
toate perechile de variabile din domeniul de intrare. Deoarece tabloul este simetric fa de
prima diagonal, se afieaz doar partea inferioar (stnga-jos).
z=
1 1+ r
ln
2 1 r
n3
z1 i z2 = z +
n3
z1
numr de valori
depite
n-1
100 %,
unde rangul este o simpl convenie), cele n ranguri posibile (= numrul de observaii)
separ (n1) intervale de lungimi egale i se calculeaz atunci ct la sut din aceste
intervale (sau din domeniul rangurilor) este sub valoarea pentru care se calculeaz
rangul centilic. De remarcat c sunt utilizate i alte formule (cu rezultate uor diferite)
pentru calculul rangului centilic, formule bazate pe rangul mediu atribuit valorilor
egale. n general, asemenea formule sunt utilizate pentru eantioane relativ mici,
pentru care erorile estimaiilor sunt mari i deci utilizarea unei formule sau a alteia nu
ne scoate din limitele de siguran acceptate.
Calculele sunt efectuate pentru toate variabilele prezente n domeniul precizat ca
intrare, datele trebuind s fie organizate ntr-un domeniu dreptunghiular continuu.
n figur se prezint dialogul Rank and Percentile, parametrii care trebuie s fie
specificai sunt doar de localizare a intrrilor i ieirilor i sunt explicai n continuare.
Input
Input Range, Grouped By, Labels in First Row Se specific domeniul de intrare, modul de
organizare a variabilelor (pe coloane sau pe linii) i faptul dac exist denumiri n
domeniul indicat. Pentru o descriere mai pe larg a cmpurilor se va vedea zona Input de la
Descriptive Statistics.
Output options
Output Range, New Worksheet Ply, New Workbook Fixeaz zona unde se vor nscrie
rezultatele.
Rezultatele unui apel la procedura Rank and Percent, situaia ilustrat este pur
didactic, sunt structurate dup cum urmeaz.
Primele dou coloane conin datele de sondaj. Aplicarea procedurii pentru variabila
Scoruri produce rezultatele din coloanele DG. Prima coloan, Point, prezint
numerele de ordine iniiale ale valorilor. Coloana a doua, Scoruri, este ordonarea
descresctoare a valorilor. Coloana a treia conine rangurile ordinale atribuite
valorilor. Se observ c valorile egale cu 15, care ar avea rangurile 4 i 5, primesc
ambele rangul 4 iar rangul 5 nu mai este atribuit (urmtoarea valoare are rangul 6).
Coloana a patra conine rangurile centilice, calculate dup formula precizat. Astfel
valoarea 18, cu rangul 3, depete 3 valori. Cum n = 6 se obine un rang centilic egal
cu 3/(61), adic de 60%. Aceasta valoare poate fi neleas potrivit figurii urmtoare:
Se vede c valoarea 18 are n dreapta ei, deci valori mai mici ordinea este
valori
27
23
18
15
15
ranguri
12
5
60%
descresctoare , trei segmente din totalul de 5, adic 60% din distribuie. Analog,
valoarea 15 depete 2 segmente din 5, deci 20% etc.
SPSS
Pentru a calcula coeficienii de corelaie dintre variabile de interval sau ordinale se d
comanda Analyze > Correlate > Bivariate
Prin dialogul Options se pot selecta anumite statistici elementare dorite n rezultat ca
i modul de tratare a observaiilor lips.
Potrivit procedurii de decizie ntr-un test statistic, se respinge ipoteza unei corelaii
nule dac probabilitatea critic este mai mic sau egal cu pragul de semnificaie ales.
Corelaiile semnificative pot fi marcate automat cu * (=0,05) sau ** (=0,01) prin
selectarea opiunii Flag significant correlations din dialogul principal.
Pentru cazul variabilelor discrete, se poate consulta tabelul urmtor care conine o
sistematizare a coeficienilor de asociere definii (ei sunt calculai i de SPSS), tabel
adaptat dup tabelul similar din
http://demography.anu.edu.au/Publications/SDA-course-notes/sec03.htm.
Denumirile statisticilor sunt pstrate pentru a fi recunoscute n dialogurile
specializate.
Coeficient
Statistic
Variabila
dependent
Variabila
independent
Observaii
Coeficieni bazai pe
CHISQ
Chi-square
Orice tip
Orice tip
PHI
Phi sau
Cramer's V
Orice tip
Orice tip
CC
Contingency coefficient
Orice tip
Orice tip
Phi se utilizeaz de
obicei pentru tabele
22
Lambda
Orice tip
Orice tip
UC
Uncertainty coefficient
Orice tip
Orice tip
Kendall tau-b
Ordinal
Ordinal
CTAU
Kendall tau-c
Ordinal
Ordinal
Se recomand BTAU
GAMMA
Gamma
Ordinal
Ordinal
Somer's d
Ordinal
Ordinal
Se recomand BTAU
Ali coeficieni
KAPPA
Kappa
Nominal
Nominal
RISK
Relative risk
Interval
Orice tip
ETA
Eta
Interval
Orice tip
CORR
Correlation
Interval
Interval
Tabele ptratice de
frecvene
C. Lucrarea practic
1. S se genereze n Excel dou iruri de numere dintr-o repartiie uniform.
a) S se calculeze coeficientul de corelaie ntre cele dou variabile astfel
construite. S se interpreteze rezultatul i s se verifice concordana cu
reprezentarea grafic adecvat.
b) S se repete generarea de numere i s se testeze semnificaia statistic
a coeficientului de corelaie n fiecare caz.
c) Pentru o generare de numere, s se calculeze coeficientul de corelaie a
rangurilor (Spearman).
2. S se deschid n SPSS fiierul University of Florida graduate salaries.sav din
fiierele de test care nsoesc aplicaia SPSS.
Statistic multivariat
y0
x0
Linia estimat este "cea mai bun" n sensul c exprim cel mai central drum
printre puncte: linia pentru care suma ptratelor distanelor (pe vertical) dintre puncte
i dreapt este minim. Termenul comun pentru dreapta estimat este acela de dreapta
de regresie.
( x X )( y Y )
(x X )
i
a = Y b X .
Valoarea estimat, totui, este numai o medie care se poate atepta. Acurateea
depinde de ct de bine se potrivete dreapta de regresie cu datele reale. Aceast
potrivire este evaluat prin considerarea unei statistici: eroarea standard a estimaiei,
definit ca abaterea standard a erorilor de estimare (a reziduurilor estimaiei):
s=
(y
y ei ) 2
n2
unde yei reprezint valoarea estimat (prin ecuaia de regresie) pentru xi.
O eroare standard mare arat c valorile observate sunt la distan de dreapta
de regresie i deci aceasta este mai puin reprezentativ pentru datele reale. n
consecin i valorile prognozate sunt afectate de erori mai mari.
( x0 x) 2
1
+
,
n ( xi x ) 2
s(y0) = s
(y0-t1-/2;n-2s(y0), y0+t1-/2;n-2s(y0))
( x X )( y Y ) ,
( ( x X ) )( ( y Y ) )
i
Graficul funciei
20
15
10
y = 3,33x + 6,92
R 2 = 0,73
5
0
-4
-3
-2
-1
-5
Diagrama din primul subtip este utilizat pentru studiul asocierii dintre
variabila X i variabilaY. Dispunerea ascendent sau descendent a norului de puncte
obinut ofer informaii asupra existenei i formei asocierii ntre variabile.
Interpretrile reprezentrilor X-Y de forma puncte unite ntre ele sunt cele
uzuale pentru graficele de funcie: maxime, minime, ritm de cretere, ritm de
descretere, care serie are valori mai mari, cine depete pe cine etc.
Observaie. Trebuie s se fac distincie ntre diagramele de tip linie i cele de
tip X-Y. Se poate ns considera c, pentru valori numerice, diagramele de tip linie au
o variabil X implicit: seria 1,2, sau o serie temporal.
SPSS
Scatterplot
Diagrama de mprtiere (scatterplot dup denumirea utilizat n SPSS)
presupune, uzual, c variabila dependent este pe axa vertical (Oy) iar variabila
independent este pe axa orizontal.
Pentru a obine o diagram de mprtiere se utilizeaz comanda Graphs >
Scatter... Se va afia dialogul:
n acest dialog, se pot marca casetele din grupul Fit Line, care vor produce
trasarea dreptelor de regresie pe total sau/i pe grupuri.Opiunile disponibile pentru
trasarea dreptelor de regresie se gsesc n dialogul Fit Options:
Dreapta de regresie
Principalul dialog pentru estimarea unui model liniar se obine prin Analyze
Regression Linear.
In aceast lucrare se vor preciza doar acele elemente care sunt necesare pentru
estimarea dreptei de regresie (ecuaia de regresie simpl). Lucrarea urmtoare va
conine explicaiile complete ale dialogurilor SPSS implicate n estimarea i
analizarea modelului liniar.
Tabelul Coefficients conine informaiile privind coeficienii: coloana B valoarea coeficientului, Std. Error - eroarea standard a coeficientului (abaterea
standard n distribuia de sondaj a coeficientului), Beta - valoarea coeficientului
standardizat (arat cu cte abateri standard se modific Y dac X se modific cu o
abatere standard), t - statistica testului de semnificaie a coeficientului, Sig. probabilitatea critic a testului. Prin urmare, un coeficient este semnificativ (diferit de
zero n ecuaia de regresie) dac Sig < .
Pentru exemplul din tabel se poate scrie ecuaia de regresie simpl
Y = - 0.157 X + 39.855, toi coeficienii fiind semnificativi statistic.
C. Lucrarea practic
1. Exist o anumit eviden c prevenirea atacurilor de inim este ajutat de
un consum moderat de vin. n tabelul urmtor sunt prezentate date statistice din 1994
privind aceast problem (consumul de alcool in litri/persoana, decesele sunt
anuale/100000 locuitori).
- S se realizeze o diagram de mprtiere i s se descrie forma relaiei dintre cei
doi indicatori.
- Exist asociere ntre cei doi indicatori?
- S se calculeze coeficientul de corelaie dintre cei doi indicatori.
Alcool
Decese datorate
ara
din vin afectiunilor cardiace
Australia
2.5
211
Austria
3.9
167
Belgia
2.9
131
Canada
2.4
191
Danemarca
2.9
220
Finlanda
0.8
297
Franta
9.1
71
Islanda
0.8
211
Irlanda
0.7
300
Italia
7.9
107
Olanda
1.8
167
Noua Zeelanda
1.9
266
Norvegia
0.8
227
Spania
6.5
86
Suedia
1.6
207
Elvetia
5.8
115
Marea Britanie
1.3
285
ara
SUA
Germania
Alcool
din vin
1.2
2.7
Decese datorate
afectiunilor cardiace
199
172
Statistic multivariat
i =1
i =1
2
i =1 i
Se obine
(ee) = 0 .
a
a = (X'X)-1X'y
i se demonstreaz c este ndeplinit criteriul de minim i c este singura valoare cu
aceast proprietate adic valorile determinate reprezint estimaia prin cele mai mici
ptrate a coeficienilor modelului liniar.
Ecuaia
y = a1x1 + a2x2 + + apxp
se numete ecuaia de regresie multipl.
nlocuind n aceast relaie valori pentru variabilele independente xi se obine
valoarea prognozat pentru variabila dependent y.
Interpretarea coeficienilor
Un coeficient ai are interpretarea: modificarea cu 1 a valorii variabilei xi
produce o modificare a valorii y cu ai uniti. Deoarece scalele de msur sunt, n
general, diferite, interpretarea n acest sens a coeficienilor poate deforma imaginea
importanei variabilelor independente n model. Din acest motiv se introduc
coeficienii de regresie standardizai definii drept coeficienii de regresie estimai ai
modelului:
~
y = 1 ~
x1 + 2 ~
x2 + K + p ~
xp
~
~
n care nu exist termen liber, iar variabilele y i x sunt variabilele standardizate,
i
xx
x=
.
prin standardizare nelegndu-se transformarea de tipul ~
sx
Coeficienii de regresie standardizai au interpretarea: modificarea cu o abatere
standard a valorii variabilei x produce o modificare cu i abateri standard a valorii
variabilei dependente. n acest fel, mrimea coeficienilor standardizai reflect
importana variabilelor independente n predicia lui y.
Distribuia estimatorului
Exp(a) =
Var(a) = 2(X'X)-1.
Estimaia dispersiei erorilor (2)
Notnd cu valoarea ajustat, dat de ecuaia de regresie, pentru o realizare a
vectorului x, considerat la estimarea parametrilor, se obine eroarea de ajustare,
notat cu e:
ei = yi - i, i = 1,,n.
Erorile de ajustare sunt denumite uzual reziduuri i analiza lor este o parte
important studiului calitativ al ecuaiei de regresie. Este evident c reziduurile
constituie estimaii ale erorilor . Se demonstreaz c
n
s2 =
(y
i =1
yi ) 2
n p
este o estimaie nedeplasat a dispersiei necunoscute 2. Este de notat c numitorul
este egal cu numrul gradelor de libertate a sumei de la numrtor (n observaii din
care am obinut p estimaii).
Precizia ajustrii
Reziduuri mici exprim o ajustare mai bun a datelor experimentale, dar
stabilirea unui criteriu care s indice ct de mici trebuie s fie reziduurile pentru ca
regresia s fie acceptat este o problem dificil.
Pentru a obine o msur a preciziei ajustrii se pleac de la identitatea
yi yi = ( yi y ) ( y i y )
care, prin reorganizarea termenilor, produce
yi y = ( y i y ) + ( yi yi ).
Se poate demonstra c are loc identitatea:
( yi y )2 = ( yi y )2 + ( yi yi )2 .
i
i y )2
i
Testarea ipotezelor
Notm
SPg =
( yi y )2 ,
i
SPreg =
( yi y )2 ,
i
SPrez =
( yi yi )2
i
cele trei sume de ptrate care apar n identitatea introdus la definirea coeficientului
de determinare. Sumele sunt referite ca suma ptratelor global (SPg), suma ptratelor
datorate regresiei (SPreg) i suma ptratelor reziduale (SPrez). Fiecare sum de ptrate
are ataat un numr de grade de libertate: g = n-1, reg = p-1, rez = n-p i se poate
realiza un tabel al analizei dispersionale (ANOVA) sub forma
Sursa
de variaie
Regresie
Rezidual
Global
Suma
de ptrate
SPreg
SPrez
SPg
Grade de
libertate
reg
rez
g
Media ptrat
F = s2reg / s2
Intervale de ncredere
Apar de interes dou tipuri de intervale de ncredere: pentru parametrii
modelului, i, i pentru valorile prognozate cu ajutorul modelului estimat.
Parametrii modelului
O regiune de ncredere, la nivelul , pentru ansamblul parametrilor este dat
de
( a)XX( a) ps2F1-,p,n-p
Utiliznd repartiia statisticilor ti, definite la testarea semnificaiei
parametrilor, se demonstreaz c intervalul de ncredere pentru parametrul i,
i = 1, 2, , p, este dat la pragul de ncredere , de relaia
ai t1-/2;n-ps(ai) 1 ai + t1-/2;n-ps(ai) .
Valorile prognozate
Utilitatea principal a modelului liniar este prognozarea valorilor variabilei
dependente. Valoarea prognozat este evident o statistic pentru c se obine prin
modelul estimat (din datele experimentale). Se poate atunci vorbi de repartiia de
sondaj a valorii prognozate, repartiie care st la baza determinrii intervalelor de
ncredere pentru valorile prognozate.
n estimarea intervalului de ncredere pentru o valoare y0= x0 + 0, se
distinge ntre situaiile n care observaia x0 a fost, sau nu, utilizat la estimarea
coeficienilor (cu alte cuvinte, dac matricea X conine sau nu linia x0).
n primul caz, intervalul de ncredere pentru valoarea estimat este
0 t1-/2;n-ps x0 ( X X ) 1 x0 y0 0 + t1-/2;n-ps x0 ( X X ) 1 x0
unde 0 = x0a, este valoarea prognozat de ecuaia de regresie.
n al doilea caz, intervalul de ncredere este
0 t1-/2;n-ps x0 ( X X ) 1 x0 + 1 y0 0 + t1-/2;n-ps x0 ( X X ) 1 x0 + 1 .
n cazul regresiei simple (dreapta de regresie), ultimul interval de ncredere are
forma
0 t1-/2;n-ps
1
( x0 x ) 2
1
( x0 x ) 2
+
+
+
t
s
,
0
0
1-/2;n-p
n ( xi x ) 2
n ( xi x ) 2
Analiza reziduurilor
Analiza statistic a ecuaiei de regresie este bazat pe ipotezele Gauss-Markov
asupra erorilor ~ N(0, 2In ). Valabilitatea acestor ipoteze, n special cea a
normalitii erorilor, poate fi testat prin analiza reziduurilor. Ca i n cazul testelor
statistice, concluziile analizei sunt de genul: ipoteza normalitii se respinge sau
ipoteza normalitii nu se respinge. Analiza reziduurilor este, n esen, de natur
grafic.
Calculul estimaiilor erorilor produce
e = Yobs-Yest = Yobs Xa = Yobs X(XX)-1XYobs = (1 X(XX)-1X)Yobs
Notnd Z = X(XX)-1X = (zij), rezult c, n cazul ndeplinirii ipotezelor
Gauss-Markov, dispersia reziduului ei este egal cu (1-zii) 2 unde zii sunt elementele
de pe diagonala principal a matricei Z, cu estimaia s2(ei) = (1-zii)s2. Reamintim c
media reziduurilor este egal cu zero.
Ipotezele de repartiie a erorilor sunt reflectate n repartiia reziduurilor
(estimaii ale erorilor). Se analizeaz histograma reziduurilor sau diagrame ale
reziduurilor n raport de valorile estimate, de variabilele independente. Diagramele
construite n continuare pun n eviden eventualele abateri de la repartiiile presupuse
pentru erori, abateri ce vor exprima deviaiile de la ipotezele de repartiie a erorilor.
Diagrama reziduurilor
Deoarece ei ~ N (0; (1 zii ) 2 ) , rezult c mrimile di, i = 1,,n, date de
ei
di =
s 1 zii
sunt repartizate N(0;1). Din acest motiv, mrimile di sunt denumite reziduuri
normalizate.
Observaie. n practic, se neglijeaz uneori radicalul de la numitor.
Histograma mrimilor di trebuie s reflecte o repartiie normal standard.
Atunci cnd n este relativ mic, histograma va prezenta, n general, mari neregulariti
fa de situaia care ar permite aproximarea cu o curb normal. Decizia referitoare la
proveniena, sau neproveniena, dintr-o repartiie normal se poate lua n acest caz, de
exemplu, n urma comparaiei cu histograme obinute pentru eantioane de acelai
volum n generate aleatoriu dintr-o repartiie normal standard.
a)
b)
c)
d)
Multicoliniaritatea
Situaia descris drept multicoliniaritate apare atunci cnd un grup de variabile
independente sunt puternic corelate ntre ele. n acest caz, prin includerea n model a
unei variabile din grup, restul variabilelor din grup nu mai aduc o informaie
semnificativ. Simultan are loc o supraevaluare a coeficientului de determinare, ca i
a dispersiilor coeficienilor estimai, ceea ce poate denatura interpretarea modelului i,
n plus, produce mrirea intervalelor de ncredere.
Apar astfel dou probleme: determinarea multicoliniaritii i cum trebuie
procedat n cazul existenei multicoliniaritii.
Detectarea multicoliniaritii
Cea mai simpl metod de detectare a multicoliniaritii este bazat pe studiul
matricei de corelaie dintre variabilele x. Se pot determina astfel perechile de variabile
independente care sunt puternic corelate ntre ele. O structur mai complex a
intercorelaiilor poate fi detectat prin calcularea determinantului acestei matrice de
corelaie. O valoare apropiat de zero a determinantului reflect o puternic corelaie
ntre anumite variabile, deci existena multicoliniaritii.
O alt abordare a problemei este aceea a stabilirii unui indicator sintetic pentru
a decide dac o variabil este coliniar cu celelalte (sau cu un grup dintre celelalte).
Notnd cu Ri2 coeficientul de determinare obinut la estimarea regresiei multiple
avnd ca variabil dependent pe xi i ca variabile independente restul variabilelor x,
adic
xi = f ( x1 , x2 ,K, xi 1 , xi +1 ,K, x p )
se introduce tolerana variabilei xi prin
i = 1 Ri2 .
O valoare mic a lui i (uzual mai mic dect 0,1) reflect un coeficient Ri2
apropiat de 1, deci o legtur liniar puternic ntre xi i restul variabilelor
independente. Prin urmare xi este coliniar cu celelalte variabile independente.
Se definete factorul de inflaie a varianei, notat VIF, inversul toleranei:
1
VIFi = .
Eliminarea multicoliniaritii
O rezolvare comun a problemei multicoliniaritii este aceea ca dintre dou
variabile independente corelate s se rein n model doar una.
Prin interpretarea toleranelor sau a factorilor de inflaie se vor exclude din
model acele variabile care au tolerane mici (sau factori de inflaie mari).
R2
{x1}, {x2}
{x1,x2,,xn}
Selecia prospectiv
Procedura ncepe prin includerea n model a variabilei independente avnd cel
mai mare coeficient de corelaie cu variabila y. La fiecare pas urmtor, se analizeaz
fiecare dintre variabilele neincluse nc n model printr-un test F secvenial i se
extinde modelul prin includerea acelei variabile care aduce o contribuie maxim
(probabilitatea critic din testul F este cea mai mic). Procesul se oprete atunci cnd
modelul nu mai poate fi extins, criteriul uzual fiind acela al fixrii un prag de intrare
(PIN) i acceptnd doar variabilele pentru care probabilitatea critic n testul F
secvenial este mai mic sau egal cu acest prag.
Procedura are ca limitri faptul c anumite variabile nu vor fi incluse n model
niciodat, deci importana lor nu va fi determinat. Pe de alt parte, o variabil inclus
la un anumit pas rmne permanent n model, chiar dac, prin includerea ulterioar a
altor variabile, importana ei poate s scad.
Selecia retrograd
Se ncepe cu estimarea modelului complet i apoi, ntr-un numr de pai
succesivi, se elimin din model variabilele nesemnificative. La fiecare pas, pe baza
unui test F parial, se elimin acea variabil care are cea mai mare probabilitate
critic. Procesul se oprete atunci cnd nici o variabil nu mai poate fi eliminat.
Criteriul uzual este acela de fixare a unui prag de eliminare (POUT) i considerarea
doar a variabilelor care au probabilitatea critic mai mare dect acest prag.
Input
Input Y Range se precizeaz domeniul (coloana) pe care se afl valorile variabilei dependente.
Input X Range se precizeaz domeniul pe care se afl valorile tuturor variabilelor
independente. Acest domeniu trebuie s fie compact, fiecare variabil Xi ocupnd o
coloan.
Labels se marcheaz boxa de control n cazul n care prima linie din tabloul de date este cu
denumirile variabilelor (situaie recomandat).
Constant Is Zero se marcheaz boxa de control dac modelul care se estimeaz este fr
termen liber.
Confidence Level se precizeaz, procentual, sigurana statistic dorit n raportarea
intervalelor de ncredere deci valoarea (1)100, unde este pragul de semnificaie.
Intervalele obinute sunt suplimentare, ntotdeauna afindu-se cele pentru = 0,05. Boxa
se va marca doar dac se dorete i un alt prag de semnificaie.
Output options
Output Range, New Worksheet Ply, New Workbook Precizeaz zona unde se vor nscrie
rezultatele. Zona de rezultate este foarte complex, cuprinde tabele care depind de
mrimea modelului, de numrul de observaii, de numrul graficelor dorite etc. Prin
urmare se va prefera o foaie de calcul nou sau o zon liber n dreapta i n jos.
Residuals
Residuals se marcheaz boxa de control n cazul cnd se dorete calcularea reziduurilor
modelului estimat.
Residual Plots se marcheaz boxa de control n cazul cnd se dorete obinerea diagramelor
reziduuri variabil independent, adic vizualizarea punctelor de coordonate
(xij, rj), j = 1,n, avnd ca abscis o valoare a variabilei independente Xi, iar ca ordonat
reziduul corespunztor.
Standardized Residuals aceast box de control se va marca dac se dorete calculul
valorilor standardizate ale reziduurilor. Valorile astfel obinute provin, teoretic, dintr-o
distribuie normal standard, astfel nct o histogram a acestor valori trebuie s se
apropie de curba normal (clopotul lui Gauss).
Line Fit Plots se marcheaz aceast box de control dac se dorete afiarea diagramelor Y
variabil independent, prin care se vizualizeaz, pe un acelai grafic, punctele de
coordonate (xij, yobs,i), (xij, yest,i), j = 1,,n, unde abscisele sunt valorile variabilei
independente, iar ordonatele sunt valorile observate i cele estimate ale variabilei
dependente. Este desenat cte un grafic pentru fiecare variabil independent.
Interpretarea acestor diagrame poate oferi indicaii asupra adecvanei modelului, asupra
valorilor aberante.
Normal Probability
Normal Probability Plots se marcheaz dac se dorete vizualizarea repartiiei de sondaj a
variabilei Y ntr-o reea de probabilitate.
Exemplu
Un set de date cuprinde 25 de observaii asupra a 4 variabile, notate Y (considerat
variabila dependent) i X1, X2, X3 (considerate variabile independente). Valorile i
denumirile ocup n foaia de calcul un domeniu dreptunghiular continuu, B2:E27, valorile Y
ocupnd prima coloan.
b)
Suma de ptrate
datorat regresiei
Suma de ptrate
rezidual
Regiunea reziduurilor
Interpretare
Situaia "bun". Nu se contrazic
ipotezele de normalitate fcute asupra
erorilor.
Dispersia erorilor nu este constant (se
modific dup valorile X). Se poate ca
din model s fie omis o variabil de
gen "Timp".
Modelul liniar nu este adecvat n
privina
variabilei
independente
respective. Se poate ncerca un
introducerea unui termen ptratic.
Situaia poate s apar n urma unei
erori de calcul. Practic ar nsemna c
nu s-a considerat componenta liniar,
adic scopul modelului nu a fost atins.
SPSS
Dreapta de regresie
Principalul dialog pentru estimarea unui model liniar se obine prin Analyze
Regression Linear.
n Dependent se va transfera
variabila dependent. Variabilele
independente, Independent(s), pot fi
grupate pe blocuri: 1. se transfer
variabilele dorite, 2. se precizeaz n
Method modul de introducere a
acestor variabile n regresie (Enter
toate simultan, Forward, Backward,
Stepwise metodele discutate la
alegerea celei mai bune regresii), 3. se
definete un nou bloc prin Next.
Se pot selecta observaiile
preciznd n Selection Variable
variabila i, prin Rule, regula de
selectare a cazurilor n funcie de
valorile variabilei de selecie.
n Case Labels se poate preciza variabila care identific cazurile, etichetele
fiind considerate la reprezentrile grafice. Prin WLS Weight se poate preciza variabila
de ponderare pentru metoda celor mai mici ptrate ponderate (nediscutat n curs).
Butonul Statistics deschide dialogul sinonim n care se pot preciza statisticile
calculate. Unele opiuni sunt selectate i n mod implicit.
Estimates coeficienii estimai,
Confidence intervals intervalele de
ncredere ale coeficienilor, Model fit
calcularea statisticilor R, R2 i a tabelului
ANOVA, R squared change modificrea
coeficientului de determinare i testarea
semnificaiei schimbrii la adugarea
fiecrui bloc de variabile, Descriptive
statisticile eseniale pentru fiecare variabil,
Collinearity diagnostics calcularea toleranelor, a statisticilor VIF i studiul
multicoliniaritii prin analiza n componente principale (a se vedea capitolul urmtor
al cursului). n zona Residuals se produce o analiza a reziduurilor pentru a putea
decide asupra normalitii acestora i a diagnostica valorile aberante.
Prin Plots se afieaz dialogul sinonim n care se pot indica reprezentrile
grafice dorite.
n lista variabilelor disponibile pentru
diagrame se afl DEPENDNT variabila
dependent i variabile derivate din
regresie cum ar fi valorile prognozate
standardizate
(*ZPRED),
reziduurile
standardizate (*ZRESID).
Diagramele indicate n Standardized
Residual Plots sunt utile pentru verificarea
normalitii reziduurilor.
C. Lucrarea practic
1. Legea lui Ohm, I = V/R, afirm c intensitatea curentului, I, este
proporional cu tensiunea, V, i invers proporional cu rezistena, R.
Elevii dintr-un laborator de fizic efectueaz experimente bazate pe legea
lui Ohm: variaz tensiunea, msoar intensitatea curentului i determin n
final rezistena firului. Se obin rezultatele:
V 0,50 1,00 1,50 1,80 2,00
I 0,52 1,19 1,62 2,00 2,40
Deoarece legea lui Ohm poate fi rescris sub forma unei regresii liniare,
I = +V, unde = 0 i =1/R, s se estimeze, pe baza datelor
experimentale, coeficienii i .
3.
Statistic multivariat
Multicoliniaritatea
Situaia descris drept multicoliniaritate apare atunci cnd un grup de variabile
independente sunt puternic corelate ntre ele. n acest caz, prin includerea n model a
unei variabile din grup, restul variabilelor din grup nu mai aduc o informaie
semnificativ. Simultan are loc o supraevaluare a coeficientului de determinare, ca i
a dispersiilor coeficienilor estimai, ceea ce poate denatura interpretarea modelului i,
n plus, produce mrirea intervalelor de ncredere.
Apar astfel dou probleme: determinarea multicoliniaritii i cum trebuie
procedat n cazul existenei multicoliniaritii.
Detectarea multicoliniaritii
Cea mai simpl metod de detectare a multicoliniaritii este bazat pe studiul
matricei de corelaie dintre variabilele x. Se pot determina astfel perechile de variabile
independente care sunt puternic corelate ntre ele. O structur mai complex a
intercorelaiilor poate fi detectat prin calcularea determinantului acestei matrice de
corelaie. O valoare apropiat de zero a determinantului reflect o puternic corelaie
ntre anumite variabile, deci existena multicoliniaritii.
O alt abordare a problemei este aceea a stabilirii unui indicator sintetic pentru
a decide dac o variabil este coliniar cu celelalte (sau cu un grup dintre celelalte).
Notnd cu Ri2 coeficientul de determinare obinut la estimarea regresiei multiple
avnd ca variabil dependent pe xi i ca variabile independente restul variabilelor x,
adic
xi = f ( x1 , x2 ,K, xi 1 , xi +1 ,K, x p )
i = 1 Ri2 .
O valoare mic a lui i (uzual mai mic dect 0,1) reflect un coeficient Ri2
apropiat de 1, deci o legtur liniar puternic ntre xi i restul variabilelor
independente. Prin urmare xi este coliniar cu celelalte variabile independente.
Se definete factorul de inflaie a varianei, notat VIF, inversul toleranei:
1
VIFi = .
Valori aberante
Printr-o valoare aberant (outlier) se nelege o observaie extrem, adic o
observaie care nu se "ncadreaz" n paternul general al celorlalte valori. Atunci cnd
este studiat o singur variabil, exist teste specifice eliminrii valorilor aberante, de
exemplu testul Dixon. Regula empiric (bazat pe distribuia normal) este aceea de
considera ca valoare aberant orice valoare care este deprtat de medie cu mai mult
de trei abateri standard.
n situaia special a regresiei liniare, problematica valorilor aberante este mai
complex deoarece anumite valori extreme (nu toate) pot influena major coeficienii
regresiei. Se pot astfel identifica valori aberante
ntre valorile y (n spaiul rspunsurilor)
ntre valorile x (n spaiul x, al variabilelor independente)
n ambele spaii.
n problematica valorilor aberante se disting astfel dou aspecte: identificarea
valorilor aberante i modul de tratare a valorilor identificate.
Identificarea valorile aberante se realizeaz prin analiza reziduurilor
standardizate, caz n care se identific valorile extreme n spaiul y. Din pcate,
anumite valori din acest spaiu nu pot fi identificate din cauz c, prin procesul de
estimare, curba de regresie a fost "tras" spre valoarea extrem. Acest fapt se ntmpl
atunci cnd valori extreme y sunt asociate valorilor extreme din spaiul x (aa-zisele
puncte prghie leverage points; punctele extreme y asociate valorii medii x nu
modific n mod exagerat curba). Au fost atunci dezvoltate i msuri specifice pentru
identificarea acelor puncte care influeneaz semnificativ regresia. Una este distana
Cook (sau D), explicat n continuare.
Cook's D. Considernd s eroarea standard a estimaiei, y j valoarea
estimat (pentru a j-a observaie) i y j (i ) valoarea estimat din regresia calculat
dup omiterea celei de a i-a observaii, distana Cook pentru observaia (punctul) i se
definete prin
(y y j (i))2
j =1 j
D =
,
n
i = 1, K , n
(k + 1) s 2
adic o msur a influenei celei de a i-a observaii asupra tuturor valorilor
prognozate. Regula detectrii unei valori aberante este, pentru distana Cook,
4
Di
n (k + 1)
Deoarece n este uzual mult mai mare dect k, unii autori propun devizarea
doar la n. Prin aceast regul are loc o supraidentificare, mai multe valori aberante
dect ar fi natural, i se recomand tratarea acestor distane ca o nou variabil pentru
care se determin valorile sale aberante (de exemplu regula celor 3 abateri standard).
De remarcat c procedura care utilizeaz distana Cook identific acele
observaii care au o influen major asupra coeficienilor de regresie (asupra
modelului estimat).
Tratarea valorilor aberante presupune, ca abordare direct, eliminarea acestora
(a observaiilor care le conin) i refacerea regresiei. Se poate totui ca n acest mod de
abordare s se piard informaii valoroase, poate singurele cu adevrat importante n
procesul studiat. Prin urmare, se va studia n prealabil:
dac valorile au aprut n urma unor erori de msurare,
dac reprezint cazuri neimportante pentru procesul studiat,
dac exist influene majore asupra modelului (a coeficienilor).
In cazul nendeplinirii unei asemenea condiii, atunci valoarea nu este
eliminat i se va ncerca, pentru o adecvan mai mare a modelului, s se obo
adecvan mai mare a modelului, s se obin determinri suplimentare n acea
regiune a spaiului variabilelor.
i
Transformri de variabile
n cazul n care relaia dintre y i x nu pare a fi liniar, situaie detectabil
ntr-o diagram de mprtiere, sau dispersia valorilor y nu pare a fi constant dup
valorile lui x, se poate ncerca o
transformare prealabil a lui x i/sau
y. Mosteller i Tukey (1977) propun
un ghid (bulging rule) pentru
selectarea unei transformri care s
pconduc la o "liniarizare" a relaiei.
Se observ, n figura alturat, c pe
fiecare ax, x sau y, se propune o
cretere (x2, x3 ...) sau o scdere (log
x, x , 1/x ...) a gradului variabilei
respective. Prin urmare, se va
identifica forma relaiei n diagrama
de mprtiere i se vor utiliza
transformrile
din
cadranul
corespunztor.
Un alt set de propuneri de transformri de variabile pornesc de la histograma
valorilor variabilei (i nu de la diagrama de mprtiere):
Histograma variabilei x
Transformarea propus
x
1.
lg x
2.
3.
1
x
max( x) +1 x
4.
lg (max(x) +1 x)
5.
1
max( x) + 1 x
6.
De notat c situaiile 4 - 6 sunt reduse la 1 - 3 prin simetrizare.
Regresia polinomial
Un caz particular des utilizat de model liniar este regresia polinomial.
Modelul polinomial este
y = 0 + 1x + 2x2 + + pxp +
Se observ c exist o singur variabil independent, x. Acest model se
impune atunci cnd forma relaiei dintre y i x este curbilinie, fapt sugerat de
diagrama de mprtiere sau de considerente teoretice.
Pentru a estima un model polinomial este necesar, dac produsul informatic
utilizat nu dispune de o procedur specializat, s se genereze variabilele
independente ca puteri ale variabilei iniiale.
y x x2 xp
y1 x1 x12 x1p
y2 x2 x22 x2p
Estimarea are loc prin procedura uzual a regresiei multiple, considernd
puterile calculate drept noi variabile, cu aceleai interpretri i teste ca la modelul
liniar.
B. Instrumente SPSS
SPSS
Dreapta de regresie
Reamintim principalul dialog pentru estimarea unui model liniar se obine prin
Analyze Regression Linear.
n Dependent se va transfera
variabila
dependent.
Variabilele
independente, Independent(s), pot fi
grupate pe blocuri: 1. se transfer
variabilele dorite, 2. se precizeaz n
Method modul de introducere a acestor
variabile n regresie (Enter toate
simultan, Forward, Backward, Stepwise
metodele discutate la alegerea celei mai
bune regresii), 3. se definete un nou bloc
prin Next.
Se pot selecta observaiile
preciznd n Selection Variable variabila
i, prin Rule, regula de selectare a
cazurilor n funcie de valorile variabilei
de selecie.
Butonul
Statistics
deschide
dialogul sinonim n care se pot preciza
statisticile calculate. Unele opiuni sunt
selectate i n mod implicit.
Estimates coeficienii estimai,
Confidence intervals intervalele de
ncredere ale coeficienilor, Model fit
calcularea statisticilor R, R2 i a tabelului
ANOVA, R squared change modificrea
coeficientului de determinare i testarea semnificaiei schimbrii
la adugarea fiecrui bloc de variabile, Descriptive statisticile
eseniale pentru fiecare variabil
Pentru tema curent este important alegerea Collinearity diagnostics
calcularea toleranelor, a statisticilor VIF i studiul multicoliniaritii prin analiza n
componente principale (a se vedea capitolul urmtor al cursului). n acest caz, tabelul
privind coeficienii modelului estimat va conine nc dou coloane cu statisticile
privind diagnosticul coliniaritii.
Apare totodat n fiierul de ieire un tabel intitulat Collinearity Diagnostics
care conine informaii privind analiza factorial (a se vedea capitolul urmtor din
curs) a variabilelor independente. Se poate deocamdat interpreta (mecanic) faptul c
existena mai multor valori proprii situate n imediata vecintate a lui 0 denot o
posibil coliniaritate n variabilele independente.
In ceea ce privete valorile aberante reamintim dialogul Plots (prezentat n
lucrarea trecut) prin intermediul cruia se pot solicita diagramele asociate
reziduurilor.
Din dialogul Save, care permite calcularea i salvarea unor variabile noi
(valorile prognozate, reziduuri sub diferite forme etc.) accentum elementele:
C. Lucrarea practic
1) Se va salva i deschide fiierul
www.infoiasi.ro/~val/statistica/Expenditures.xls
Datele se refer la cheltuielile publice (1960) pe cap de locuitor n statele
americane. Variabilele sunt
EX: cheltuieli publice pe locuitor
ECAB: indice de dezvoltare economic
MET: procentajul populaiei din zone metropolitane
GROW: modificarea procentual a populaiei 1950-1960
YOUNG: procentajul populaiei tinere 5-19 ani
OLD: procentajul populaiei peste 65 ani
WEST: 1 pentru statele din vest, 0 pentru celelalte
i) s se studieze relaia dintre EX (nivelul cheltuielilor) i indicatorii
demografici i economici (ECAB, MET, GROW, YOUNG, OLD)
ii) se va estima o regresie polinomial n cazul n care asocierea pare a fi
curbilinie
iii) se vor identifica valorile aberante i se va reface estimarea prin excluderea
acestora
iv) se va estima i analiza regresia multipl
EX = f(ECAB, MET, GROW, YOUNG, OLD)
att pe ansamblu, ct i pentru fiecare categorie de state (estice, vestice).
Se vor identifica diferenele.
2) Se va deschide fiierul Employee Data.sav dintre fiierele de test SPSS.
i) se va modela salariul curent funcie de celelalte variabile continue.
Statistic multivariat
P( y = 1 x) =
e + x
1 + e + x
sau
P( y = 1 | x)
= + x
ln
1
(
1
|
)
P
y
x
OR =
p
1 p
p
= e + x
1 p
de unde interpretarea coeficientului :
creterea cantitii logit atunci cnd x crete cu o unitate sau
OR crete de e ori atunci cnd x crete cu o unitate.
Testarea ipotezei = 0 se realizeaz prin testul Wald, corespunztor testului t
de la regresia liniar, statistica testului fiind
2 =
b2
Var (b)
b z1 SE (b ) b + z1 SE (b )
2
2
e
,
,e
unde b este estimaia lui (din ecuaia de regresie estimat) iar SE(b) este abaterea
standard a repartiiei de sondaj a lui b.
Se observ imediat c, pentru o observaie, dac p > 0,5, atunci este mai
probabil ca observaia s aparin grupului caracterizat de y=1. Aceast condiie este
echivalent cu OR > 1, adic logit > 0.
p
= 0 + 1 x1 + 2 x2 + ... k xk ,
ln
1-p
unde p este P(y = 1 | x1,x2,,xk). Se poate obine imediat i forma exponenial
echivalent.
Interpretarea coeficienilor i este evident: creterea cantitii logit (logaritm
din OR) atunci cnd xi crete cu o unitate (celelalte variabile x rmnnd constante).
Pentru interpretri mai sofisticate rescriem modelul sub forma:
P ( y = 1 | x1 , x2 ,K, xk ) =
exp( 0 + 1 x1 + 2 x2 + ... k xk )
1 + exp( 0 + 1 x1 + 2 x2 + ... k xk )
exp( 0 ) =
=
P ( y = 1 | x1 = x2 = K = xk = 0)
=
1 P ( y = 1 | x1 = x2 = K = xk = 0)
P( y = 1 | x1 = x2 = K = xk = 0)
P ( y = 0 | x1 = x2 = K = xk = 0)
exp( i ) =
=
P ( y = 1 | xi = 1, x j = 0 pentru j i )
1
=
1 P ( y = 1 | xi = 1, x j = 0 pentru j i ) OR baza
OR xi =1,
x j = 0 pentru j i
OR baza
2 LLk
2
2/ n
unde LLnull este logaritm din maximul funciei de verosimilitate pentru modelul
constant, iar LLk este logaritm din maximul funciei de verosimilitate pentru modelul
cu variabile independente incluse. Se poate astfel observa c se merge pe varianta de
comparare a cantitilor -2LL prin intermediul raportului lor i nu a mpririi lor (ca
la LR). Acest R2 nu atinge 1 i a fost introdus de Nagelkerke o modificare prin care
se atinge 1. Formula pentru Nagelkerke Pseudo-R2 este
2/ n
2 LLnull
1
2 LLk
2
R =
2/n
1 ( 2 LLnull )
P (Yi = s ) =
unde is =
eis
t =1 e
g
k =1 xik ks
p
it
B. Instrumente SPSS
Comanda este Analyse - Regression - Binary Logistic.
Testul Hosmer & Lemeshow este explicitat pentru fiecare pas prin raportarea
celor 10 frecvene observate/ateptate (statistica i semnificaia sunt raportate n
tabelul precedent).
C. Lucrarea practic
1. Un studiu care urmrete de cine depinde gustul brnzeturilor de tip
cheddar a prelevat probe i a determinat concentraia unor compui
chimici. Fiecare prob a fost supus unui proces de degustare i a
primit o not. Unele valori au fost transformate n prealabil (Acetic i
H2S sunt obinute prin logaritmarea valorilor msurate).
Fiierul de date este www.infoiasi.ro/~val/statistica/CheeseData.txt
Variabilele sunt
i. Taste: nota obinut n urma combinrii notelor acordate de
mai muli degusttori
ii. Acetic: logaritm natural din concentraia de acid acetic
iii. H2S: logaritm natural din concentraia de H2S.
iv. Lactic: concentraia de acid lactic
S se modeleze variabila Taste cu ajutorul celorlalte trei
variabile.
S se analizeze modelul obinut.
2. Date privind un numr de companii au fost selectate din lista Forbes
500 pentru anul 1986 (printr-un sondaj sistematic 1/10 din lista
alfabetic a companiilor). Studiul urmrete volumul de vnzri al
companiei.
Fiierul de date este www.infoiasi.ro/~val/statistica/ForbesData.txt
Variabilele sunt:
i. Company: numele companiei
ii. Assets: bunurile companiei (milioane $)
iii. Sales: volumul de vnzri (milioane $)
iv. Market_Value: valoarea de pia a companiei (milioane $)
v. Profits: profitul (milioane $)
vi. Cash_Flow: volumul tranzaciilor (milioane $)
vii. Employees: numrul de angajai (mii persoane)
viii. Sector: domeniul de activitate a companiei.
Statistic multivariat
unde E este o matrice rezidual, cu termeni suficient de mici astfel nct cele np valori
din X s fie reconstituite suficient de bine din cele q(n+p) valori ale vectorilor u i
v, =1,,q.
Problema se va rezolva cu ajutorul reprezentrilor geometrice.
Tabloul X poate fi privit drept mulimea coordonatelor pentru
n puncte n spaiul cu p dimensiuni, R p (fiecare linie a tabloului este un
punct n acest spaiu), sau
p puncte n spaiul cu n dimensiuni, R n (fiecare coloan a tabloului este
un punct n acest spaiu).
Ambele spaii, R p i R n, se consider dotate cu metrica euclidian uzual.
Intre vectorii proprii din cele dou spaii exist astfel relaiile
1
1
(*)
u =
X v , v =
Xu
X u u = v u .
=1
=1
u u
Cum
=1
transpusa sa, adic este matricea unitate, se obine reconstituirea tabloului iniial prin
p
X = v u'
=1
X X * = v u' .
=1
q =
=1
=1
numit rata de inerie (msoar partea din variana norului explicat de subspaiul cu q
dimensiuni). Se poate verifica i
q = xij*
i, j
ij
i, j
Analize particulare
Atunci cnd nu este vorba strict de o aproximare numeric i ne ncadrm n
analiza statistic, dispunem de informaii suplimentare asupra naturii datelor.
Considerarea acestor informaii conduce la transformri prealabile ale datelor
iniiale, astfel nct aplicarea metodei generale la datele transformate permite
interpretri mai adecvate structurii datelor.
Se obin astfel analize factoriale particulare, cele mai importante sunt
enumerate n continuare:
Analiza n componente principale,
Analiza n componente principale normate,
Analiza rangurilor,
Analiza corespondenelor.
Ideea de baz care st la baza tuturor acestor analize este aceea c
un tabel de valori poate produce (prin liniile, respectiv coloanele sale)
reprezentri sub forma norilor de puncte n dou spaii,
ajustrile punctelor din cele dou spaii sunt legate prin relaii simple,
interpretabile.
Z = a1 x1 + a2 x2 + K + a p x p
a
i =1
2
i
Analiza n R p
Cele n puncte ale acestui spaiu sunt indivizi (observaii) i se dorete o
reprezentare a apropierilor dintre aceste puncte ntr-un spaiu de dimensiune mai
mic. Prin transformrile prealabile are loc o translaie a norului de puncte ntr-un
reper avnd ca origine centrul de greutate al norului.
In ACPN se modific i scala pe fiecare ax.
Analiza n R n
Cele p puncte sunt aici variabilele, transformrile prealabile au ns o
interpretare diferit:
transformarea din ACP este o proiecie paralel cu prima bisectoare
Astfel, n cazul n=2 (neimportant din punct de vedere statistic, dar permite o
vizualizare corect), un punct variabil este supus transformrii:
n i =1
Distana dintre dou puncte este dat de
d 2 ( j ,0) =
d 2 ( j , k ) = 2 2cor ( j , k )
Rezult atunci
X = Z Aj + U
unde Unp este matricea reziduurilor.
Se poate arta atunci c primele j componente principale sunt acele variabile
necorelate care constituie cele mai bune variabile predictor (printr-un model liniar) ale
variabilelor observate.
Criteriul este tot al celor mai mici ptrate
min uij2
i
1 + ... + p
Acesta nu poate constitui un criteriu pentru numrul de factori reinui, ntruct
raportul crete o dat cu numrul factorilor (ajungnd la 1). Un prim criteriu poate fi
acela al reinerii acelor valori proprii care depesc media, adic
1
i >
(1 + ... + p )
p
criteriul implicit n SPSS, cu observaia c n ACPN criteriul devine identic cu
criteriul Kaizer.
Criteriul Kaiser
Se rein doar componentele principale corespunznd valorilor proprii mai mari
dect 1. Se aplic de regul n ACPN.
Reprezentri grafice
In ACP/ACPN datele iniiale se refer la n observaii asupra a p variabile, care
pot fi interpretate ca
n puncte-indivizi (observaii) n R p,
p puncte-variabile n R n.
Reinerea unui numr de axe factoriale echivaleaz cu determinarea unui
subspaiu n care datele iniiale pot fi regsite cu suficient acuratee. Examinarea
structurii norilor de puncte din subspaiile respective se realizeaz prin metode
grafice, reprezentnd punctele prin proiecii pe un numr suficient de plane factoriale.
Astfel, pentru a putea nelege structura unui nor de puncte n R 3 este nevoie
de proiecia lor pe dou plane (xOy i xOz, de exemplu). Interpretrile difer totui
dup cum este vorba de variabile sau de observaii.
Variabile
Prin metoda numeric utilizat, coordonatele punctelor variabile sunt mai mici
de 1, punctele fiind pe sfera unitate. Cum distanele dintre puncte sunt invers
proporionale cu corelaiile dintre variabilele corespunztoare, gruprile de puncte
indic grupuri de variabile corelate.
Pentru eliminarea erorilor de perspectiv, aprecierea corect apare doar dup
analiza proiecii-lor pe mai multe planuri factoriale (= nr.de factori 1). Variabilele
apropiate de o ax sunt corelate cu acea component principal, se poate considera c
axa respectiv este o combinaie a variabilelor apropiate de ea.
Observaii
Reprezentarea punctelor-observaii prezint de asemenea gruprile de
observaii, fr a mai fi pe sfera unitate.
Prima ax factorial este, uzual, factorul de talie, separnd de-a lungul ei
observaiile mici de cel mari. A doua ax factorial este factorul de form. care
nuaneaz diferen-ele efectuate de primul factor.
Dac observaiile aparin la grupuri de interes, evidenierea claselor (ca n
figur) poate oferi informaii utile prin configuraiile vizibile. Concluziile sunt
justificate doar dup utilizarea unui numr suficient de proiecii.
B. Instrumente SPSS
Dialogul Factor Analysis
Pentru a aplica analiza factorial, prin natura metodei, trebuie ca ntre
variabile s existe corelaii suficient de mari pentru a avea sens problema reducerii
Descriptives
n grupul Statistics se poate cere afiarea statisticilor elementare (media,
abaterea standard etc.). Selectarea Initial solution afieaz comunalitile iniiale,
valorile proprii etc.
Extraction
Din lista Method se poate fixa metoda de analiz factorial. Pentru analiza n
componente principale sau componente principale normate se va selecta Principal
components. n acest caz, tipul analizei este dat de selecia din grupul Analyze:
correlation matrix pentru ACPN sau covariance matrix pentru ACP.
Rotation
Rotaia reperului axelor factoriale pentru a prinde un unghi de vedere mai
bun se poate selecta n dialogul Rotation. Ca metode sunt disponibile: varimax (se
minimizeaz numrul de variabile cu ncrcri mari pe fiecare factor, ceea ce
simplific interpretarea factorilor), direct oblimin (rotaie oblic), quartimax
(minimizeaz numrul de factori necesari explicrii fiecrei variabile), equamax
(combinaie ntre metodele varimax i quartimax) i promax (rotaie oblic n care se
admit factori corelai).
Pentru soluia obinut n urma rotaiei se poate cere soluia sau diagramele
ncrcrilor pentru primii doi (dac nu s-au extras cel puin trei factori) sau trei
factori. i pentru procesul de rotaie se poate preciza numrul maxim de iteraii n
Maximum Iterations for Convergence.
Scores
Se poate cere salvarea ca noi variabile a scorurilor factoriale finale, fiecare
factor producnd o variabil. Cu alte cuvinte coordonatele cazurilor n reperul
factorial sau transformri ale acestora.
Se poate preciza metoda de calcul a scorurilor: regression (scorurile produse
au media zero i o dispersie egal cu ptratul corelaiei multiple ntre scorurile
factoriale estimate i coordonatele factoriale adevrate), Bartlett (scorurile produse au
media zero i este minimizat suma ptratelor factorilor reinui) sau Anderson-Rubin
(scorurile au media zero, abatere standard unitar i sunt necorelate).
Options
Se precizeaz modul de tratare a valorilor lips ca i modul de afiare a
matricelor, de exemplu se pot omite coeficienii care sunt n valoare absolut sub un
anumit prag.
Component
1
2
3
4
5
6
7
Initial Eigenvalues
% of
Cumulative
Total
Variance
%
3.313
47.327
47.327
2.616
37.369
84.696
.575
8.209
92.905
.240
3.427
96.332
.134
1.921
98.252
9.E-02
1.221
99.473
4.E-02
.527
100.000
Eigenvalue
1.0
.5
0.0
1
Component Number
COLOR
AROMA
REPUTAT
TASTE
COST
ALCOHOL
SIZE
Component
1
2
.760
-.576
.736
-.614
-.735
-.071
.710
-.646
.550
.734
.632
.699
.667
.675
a. 2 components extracted.
Structura mai util pentru interpretare este, totui, cea obinut dup rotirea
factorilor, care ofer o "viziune" mai bun. Matricea de ncrcare este afiat i dup
ce s-au rotit factorii, interpretarea fiind cea dat mai sus.
TASTE
AROMA
COLOR
SIZE
ALCOHOL
COST
REPUTAT
Component
1
2
.960
-.028
.958 1.E-02
.952 6.E-02
7.E-02
.947
2.E-02
.942
-.061
.916
-.512
-.533
C. Lucrarea practic
1) Un studiu din 1979 a urmrit n diferite ri europene modul de ncadrare a forei
de munc n diferite ramuri industriale. Datele sunt sub form de procentaje i se
gsesc n fiierul www.infoiasi.ro/~val/statistica/EuropeanJobs.txt. Variabilele
sunt Country numele rii, Agr procentajul de muncitori din agrucultur, Min
procentajul de muncitori din minerit, Man procentajul de muncitori din
industria prelucrtoare, PS procentajul de muncitori din industria energetic,
Con procentajul de muncitori din construcii, SI procentajul de muncitori din
servicii, Fin procentajul de muncitori din finane, SPS procentajul de
muncitori din servicii sociale, TC procentajul de muncitori din transporturi i
comunicaii.
a) S se realizeze o analiz n componente principale.
b) S se deduc grupurile principale de state omogene ca structur a muncii.
2) Datele
necesare
acestul
exerciiu
sunt
la
adresa
web
www.infoiasi.ro/~val/statistica/boston.sav.
Datele au fost utilizate i n lucrarea 8 n scopul prognozei preului de vnzare a
unei case din regiunea Boston n funcie de caracteristici diverse ale locuinei i
ale localizrii ei. Reamintim c variabilele sunt, n ordine, CRIM rata
criminalitii, ZN proporia teritoriului zonat n loturi de peste 25,000 sq.ft.,
INDUS proporia terirorial a zonei industriale, CHAS indicator de nvecinare
cu rul din zon (= 1 da, 0 nu), NOX concentraia de oxizi nitrici, RM numrul
mediu de camere, AGE proporia de locuine construite nainte de 1940 i
ocupate de proprietar, DIS distana ponderat la cinci centre productive din
Boston, RAD indicele de accesibilitate la reeaua de autostrzi, TAX rata de
impozit (procent la 10000$), PTRATIO raportul copii-profesori n zon, B
1000(Bk0.63)2 unde Bk este procentajul populaiei de culoare n zon, LSTAT
procentajul populaiei srace, MEDV valoarea medie a caselor (n mii de dolari).
a) S se realizeze o analiz n componente principale a variabilelor dintre care
s-au exclus CHAS i MEDV.
b) S se analizeze dac apar diferene n rezultate atunci cnd se consider
separat grupurile definite de CHAS.
Statistic multivariat
Lucrarea nr. 12 Clasificare - SPSS
A. Noiuni teoretice
Clasificare
Prin clasificare se nelege gruparea unor entiti (observaii, obiecte etc.) n
clase (grupuri) de entiti similare. Atunci cnd gruparea este efectuat manual, cel
care o efectueaz opereaz cu judeci de similaritate, asemnare, apropiere. Acest tip
de raionament este formalizat i n metodele automate.
Exist, n esen, dou tipuri de clasificare automat:
1. predictiv, de exemplu analiza discriminant; se asigneaz o observaie la
un grup pornind de la reguli de clasificare derivate din observaii
clasificate n prealabil. Se poate ca schema de clasificare existent s fie
subiectiv, neutilizabil efectiv, astfel nct metoda descoper aspectele
eseniale ale schemei i le transform n reguli practice.
2. descriptiv, de exemplu analiza cluster; se grupeaz obiectele pe baza
similaritii lor, nu este cunoscut o grupare prealabil.
Clasificare predictiv
Considerm cazul a dou populaii multivariate, 1 i 2, fiecare caracterizat
de repartiiile diferitelor variabile msurate. Problema clasificrii revine la a stabili
populaia la care aparine o observaie u (caracterizat de valorile variabilelor
considerate).
Notnd cu S spaiul de eantionare (care cuprinde observaii din 1 i din 2),
o regul de clasificare revine la a partiiona S n A1 i A2, astfel nct pentru o
observaie u se poate dezvolta o procedur care decide
dac u A1, atunci u 1
Definim centrul unei clase (sau centroidul clasei) n mod uzual, ca punctul
avnd drept componente mediile aritmetice ale componentelor corespunztoare din
punctele clasei. Funciile de clasificare sunt estimate pe baza distanelor dintre o
observaie (valorile celor m variabile determin un punct n spaiul R m) i punctele
centrale, centroizii claselor. Distanele se pot calcula ca distane euclidiene, dar, din
pcate distana euclidian nu reflect proprietile distribuionale ale variabilelor:
variabile msurate pe scale diferite, de ordine de mrime diferite, pot afecta foarte
mult distanele euclidiene. Componentele cu variabilitate mare ar trebui s contribuie
cu ponderi mai mici dect cele cu variabilitate mic.
Pentru a considera i distribuiile variabilelor au fost definite distane noi, cea
mai utilizat fiind distana Mahalanobis: dac este matricea de covarian a celor m
variabile, adic = cov(x)=exp[(x-exp(x))(x-exp(x))] atunci distana Mahalanobis
ntre punctele x = (x1, , xm) i y = (y1, , ym) , este definit prin
d (x, y ) = (x y) 1 (x y)
i, corespunztor, se definete norma unui vector prin
x = d (x,0) = x' 1x .
Clasificare descriptiv
In analiza multivariat, clasificarea descriptiv (cluster analysis) se refer la
metodele utilizate pentru a identifica ntr-o mulime de obiecte grupurile de obiecte
similare. Cazurile de aplicare ale acestor metode sunt similare celor n care se
utilizeaz analiza factorial.
Datele sunt (sau pot fi) organizate ca un tablou (liniile sunt observaii, obiecte,
coloanele sunt variabile, atribute). In plus,
datele sunt omogene n sensul c are sens calculul distanelor dintre
elemente
exist suficient de multe date nct simpla inspecie vizual sau
prelucrrile statistice elementare nu ofer o imagine satisfctoare a
structurii datelor
tabloul de date este amorf: nu exist o structurare a priori (dependene
funcionale, relaii, clasificri cunoscute).
d (i, j ) =
f =1
(f)
ij
d ij( f )
ij( f )
[0,1]
i =1
unde
(f)
ij
(f)
ij
(Hamming)
dac f este continu, atunci (normalizare prin amplitudine)
d ij( f ) =
xif x jf
max xhf min xhf
h
altfel
rif 1 i se
max rhf 1
h
jS
3. Se selecteaz clusterul cu cel mai mare diametru. Acesta este divizat prin
paii 1 2.
4. Se repet 3) pn cnd toate grupurile constituite au un singur element.
Exist o diagram sugestiv (diagram steag) pentru un algoritm descendent,
n care pe axa vertical sunt obiectele, pe axa orizontal se trec diametrele clusterelor.
Cele k obiecte iniiale se pot alege aleatoriu sau dup criterii oferite de o
analiz prealabil (clasificare ascendent, analiz n componente principale etc.).
Clusterele iniiale pot fi date de o clasificare ascendent, de exemplu. De reinut,
totui, c partiii iniiale diferite conduc la clustere finale diferite.
Algoritmii care se bazeaz pe criteriul minimizrii sumei de ptrate a erorilor
conduc la atingerea unui optim local, cel puin dac grupurile nu sunt bine
difereniate. Se poate depi acest neajuns repetnd clasificarea cu partiii iniiale
diferite.
Dac se ajunge la o aceeai partiie, atunci se mrete ncrederea c s-a
atins un optim global.
In caz c nu, se pot analiza subgrupurile stabile (elemente care sunt
mereu mpreun), care pot oferi informaii despre numrul de clustere.
Actualizarea partiiei
Exist mai multe moduri de abordare a pasului 2 din metoda general:
Atribuirea fiecrui obiect la clusterul cu centrul cel mai apropiat.
o Centrele se recalculeaz dup fiecare atribuire, sau
o Centrele se recalculeaz dup ce au fost procesate toate obiectele.
Atribuirea fiecrui obiect n fiecare cluster i evaluarea funciei criteriu.
Se reine partiia care reduce cel mai mult valoarea funciei criteriu. Se
ncearc astfel evitarea unui optim local.
Ajustarea partiiei
Se pot defini condiii pentru reducerea, sau extinderea numrului de clustere.
Se ncearc astfel atingerea unui numr natural de clustere, apropiat de gruparea
real, neinfluenat de perturbaii introduse n procesul de determinare a observaiilor
sau din alte cauze exterioare.
Algoritmul cel mai cunoscut este, n acest sens, ISODATA (Ball & Hall,
Jensen):
Clusterele sunt comasate dac au puine elemente (sub un prag fixat) sau
dac distana dintre centrele lor este mic (sub un prag fixat).
Un cluster este divizat dac dispersia elementelor (dup atributul cel mai
dispersat) depete un prag fixat i dac exist un numr suficient de
elemente (de exemplu, de dou ori mai multe dect numrul minim).
Este de remarcat c existena valorilor aberante poate denatura procesul de
clusterizare. Din acest motiv, anumii autori recomand excluderea obiectelor
aberante (i chiar a celor din clusterele cu puine elemente).
Convergena
Dei nu se garanteaz atingerea unui optim global, algoritmul se oprete atunci
cnd funcia criteriu nu mai poate fi mbuntit, sau n anumite variante cnd
partiia nu se modific n dou iteraii succesive.
Demonstraii matematice ale convergenei au fost bazate
fie pe formularea problemei ca o problem de programare matematic,
fie pe artarea faptului c de la o iteraie la alta se mrete variana
interclase i se micoreaz variana intraclase, ceea ce dat fiind
finitudinea mulimii de obiecte produce oprirea procesului.
J m = uijm d 2 ( xi , c j )
i =1 j =1
unde
n - numrul de obiecte, c numrul de clustere,
m R , m > 1 este parametru (uzual este 2),
cj, j = 1c sunt centrele clusterelor, d este o distan de similaritate, uij este
gradul de apartenen al lui i la clusterul j.
Rezultatul este coninut n matricea de apartenen (uij) care ofer
probabilitile apartenenei elementelor la clase.
Partiionarea fuzzy se realizeaz iterativ (optimiznd implicit funcia obiectiv)
prin actualizarea la fiecare pas a matricei de apartenen (uij) i a centrelor clusterelor
(cj)
1
uij =
1
c d 2 ( x , c ) m 1
d 2 ( xi , c j )
l =1
i l
n
cj =
uijm xi
i =1
n
uijm
i =1
x x
Dendrograma
Ca rezultat al algoritmului se obine arborele de clasificare (dendrograma).
Prin secionarea orizontal a dendrogramei se obine o partiie a mulimii
elementelor clasificate. Componentele partiiei sunt clasele cutate.
n figura alturat este prezentat o dendogram. Pe axa orizontal sunt
elementele iniiale (ordinea este cea care permite desenarea arborelui). Pe axa
vertical sunt distanele dintre obiecte, de exemplu, ntre obiectele 4 i 6 este o
distan egal cu 4.
Calitatea clasificrii
Deoarece ntr-o problem de clusterizare nu se cunoate nimic a priori
(numrul de clase n special), evaluarea calitii partiiei obinute este o etap foarte
important. Evaluarea trebuie s ia n considerare att faptul c, poate, mulimea
iniial nu are o structur bine determinat de clase, ct i faptul c diferite metode
conduc la clase diferite.
Procedurile uzuale de evaluare:
Vizualizarea partiiei (dendrograme, profiluri, proiecii).
Indicatori de calitate
o Coeficienii de divizare (divisive coefficient DC) i de aglomerare
(agglomerative coefficient AC) care ofer indicatori (medii)
globali.
o Indici de siluet (Silhouette) care se pot defini att global, ct i
local pentru fiecare cluster.
Divisive Coefficient (DC): Pentru fiecare obiect i, se calculeaz d(i) ca fiind
raportul dintre diametrul ultimului cluster (n ordinea dat de algoritmul de divizare)
la care a aparinut obiectul nainte de a fi separat ca un singleton i diametrul mulimii
totale de obiecte (clusterul iniial). Atunci
1
DC = d (i )
n
Agglomerative coefficient (AC) este un indice de calitate pentru clasificarea
ascendent: Pentru fiecare obiect i, se calculeaz d(i) ca fiind raportul dintre
disocierea primului cluster (n ordinea dat de algoritm) la care se ataeaz obiectul i
diametrul mulimii totale de obiecte (clusterul final).
1
AC = [1 d (i )]
n
B. Instrumente SPSS
Procedurile care rezolv probleme de clasificare sunt grupate n Analyze
Classify. Dintre ele se prezint n continuare K-Means Cluster care urmrete metoda
general prezentat n curs i Hierarchical Cluster pentru clasificarea ierarhic. De
menionat c dei algoritmul K-Means este cel mai direct i mai eficient ca volum de
K-Means Cluster
Algoritmul const n fixarea iniial aleatorie a centrelor claselor (numrul de
clase este cunoscut) i apoi se repet etapele:
atribuirea fiecrui caz la centrul cel mai apropiat,
actualizarea centrelor ca valori medii ale elementelor aparinnd clasei
respective.
Ca interpretare se poate considera c centrul unei clase finale reflect
caracteristicile unui element tipic al clasei prin valorile variabilelor n acel centru.
Prin Analize Classify K-Means Cluster se deschide dialogul
Centrele claselor finale sunt afiate ntr-un tabel similar celui care arat
centrele iniiale:
Hierarchical Cluster
Algoritmul pleac de la clustere coninnd un singur element (cazurile) i
reunete clustere pn cnd se obine un singur cluster. Se pot selecta mai multe
distane, se afieaz statistici la fiecare pas pentru a ajuta la selectarea numrului
optim de clustere.
Comanda este Analyze Classify Hierarchical Cluster care produce
afiarea dialogului principal.
Analiza se poate efectua pentru cazuri, sau pentru variabile, potrivit opiunii
selectate n grupul Cluster. Variabilele reprezentnd caracteristicile dup care are loc
clasificarea sau care se clasific se trec n lista Variables i se poate alege o variabil
de etichetare a cazurilor (la clasificarea cazurilor) util n reprezentrile grafice.
Grupul Display controleaz ce se afieaz, deci accesibilitatea la butoanele Statistics,
Plots. Dialogurile secundare sunt explicate n continuare.
Statistics
Agglomeration schedule se afieaz
combinaiile din fiecare iteraie, distane etc.
Proximity matrix se afieaz distanele sau
similaritile dintre elemente. Cluster Membership
produce afiarea apartenenei la clustere n una sau
mai multe iteraii.
Plots
Diagramele de aglomerare sunt disponibile n
formatul
Dendrogram (dendrograma explicat in curs,
orientat spre vizualizarea clusterelor) sau
Icicle (similar diagramei steag, orientat spre
vizualizarea cazurilor).
Orientarea diagramei poate fi vertical sau
orizontal. n reprezentarea dendrogramei, distanele
dintre elementele care se unesc sunt transformate pe o
scal 0 25, cu pstrarea raportului distanelor.
Method
n lista Cluster Method se poate alege una dintre metodele explicate n curs ca
metode de agregare, de calculare a distanelor dintre clustere: cel mai apropiat vecin
(nearest neighbor), cel mai deprtat vecin
(furthest neighbor), distana fa de centru
(centroid clustering), Ward etc.
n grupul Measure se poate specifica
distana sau similaritatea utilizat n grupare
potrivit tipului de date:
Interval pentru datele continue sunt
disponibile distanele: euclidian, cosinus
(cosinusul unghiului dintre vectorii
punctelor), corelaia Pearson, Chebychev
(diferena absolut maxim dintre valorile
elementelor), block (suma diferenelor
absolute dintre componente, distana Manhattan), Minkowski (rdcina de ordin p
din suma diferenelor absolute la puterea p), Customized (similar cu distana
Minkowski, dar rdcina poate fi de ordin r diferit de puterea p a diferenelor de
coordonate)
Count pentru frecvene (de date discrete) sunt disponibile msurile de disociere
2 i 2 (a se vedea seciunea privind asocierea datelor nominale).
Save
Se poate salva, sau nu, ca variabile noi,
apartenena la clustere. Selectarea opiunii Single
solution i precizarea numrului de clustere
considerat ca soluie final va salva apartenena la
acel stadiu.
Dac se selecteaz Range of solutions, se va
salva apartenena la fiecare stadiu dintre cele
menionate.
C. Lucrarea practic
1) Setul de date aflat la adresa www.infoiasi.ro/~val/statistica/EuropeanProtein.txt
conine consumul de proteine n 25 de ri europene. Datele se refer la anul 1973.
Sunt msurate urmtoarele variabile: Country - numele rii, RdMeat - carne roie,
WhMeat - carne alb, Eggs - ou, Milk - lapte, Fish - pete, Cereal - cereale,
Starch - grsimi, Nuts - oleaginoase, Fr&Veg - fructe, vegetale.
a) s se realizeze o analiz factorial pentru a stabili numrul de clase n care pot
fi grupate cele 25 de ri
b) s se realizeze o clasificare a celor 25 de ri; s se studieze concordana cu
situaia observat la punctul a).
2) Datele acestei probleme sunt cele prelucrate i n lucrarea numrul 11,
www.infoiasi.ro/~val/statistica/EuropeanJobs.txt. Reamintim variabilele: Country
numele rii, Agr procentajul de muncitori din agrucultur, Min procentajul
de muncitori din minerit, Man procentajul de muncitori din industria
prelucrtoare, PS procentajul de muncitori din industria energetic, Con
procentajul de muncitori din construcii, SI procentajul de muncitori din
servicii, Fin procentajul de muncitori din finane, SPS procentajul de
muncitori din servicii sociale, TC procentajul de muncitori din transporturi i
comunicaii.
a) s se aplice un algoritm de clasificare ierarhic
b) s se aplice algoritmul k-means pentru k = 4; s se compare cu rezultatul
clasificrii realizate la a).