You are on page 1of 14

Analiza datelor spatiale utilizand GEODA

Exercitiul 1 : Deschiderea si inchiderea unui proiect


Dupa lansarea in executie a programului GeoDa se selecteteaza din meniul File ->
Open Project sau butonul aferent Open Project de pe bara de instrumente standard.
In fereastra aparuta se selecteaza la Input Map numele fisierului care se doreste incarcat
(cu extensia .shp, de exemplu sids2.shp) si la Key variable se lasa cel implicit FIPSNO.
Cheia identifica unic fiecare observatie.
Se selecteaza OK si se va incarca fisierul ales. (daca alegem sids2 se va incarca fisierul
cu cele 100 de regiuni ale statului North Carolina).
Pentru alte setari: click dreapta pe suprafata hartii, optiunea Color -> Map, Shading,
Background.
Map pentru a alege o alta culoare pentru suprafata hartii.
Background pentru a alege o alta culoare pentru fundal.
Pentru a inchide toate proiectele: File -> Close all sau butonul aferent Close all
windows de pe bara de instrumente standard.
Meniul principal:

File deschiderea si inchiderea proiectelor


View selectarea barelor de instrumente active
Windows selectarea si rearanjarea ferestrelor
Help informatii ajutatoare ( nu este inca implementat)
Edit manipularea hartilor si a layerelor
Tools manipularea datelor spatiale
Table manipularea datelor tabelare
Map parametri specifici hartilor
Explore grafice statistice
Space analiza autocorelarilor spatiale
Regress regresii spatiale
Options optiuni specifice

Bara de instrumente standard:


Este formata din 6 grupe de icoane:
Deschidere si inchidere de proiect
Construirea ponderilor spatiale
Functii de editare
Analiza de date
Autocorelare spatiala

Netezire si mapare

Exercitiul 2 : Crearea si manipularea unei harti:


Harti quantile
Setul de date SIDS contine variabile pentru a analiza statistic decesele din cele 100 de
regiuni ale statului North Carolina in 2 perioade de timp diferite: SID74 si SID79.
Numarul nasterilor: BIR74 si BIR 79 si numarul copiilor nascuti de alta culoare decat
albi: NWBIR74 si NWBIR79.
Se construiesc 2 harti quantile pentru a compara distributia spatiala a copiilor nascuti de
alta culoare, respectiv a deceselor in 1974. (NWBIR74 si SID 74).
Meniul Map -> Quantile. Din fereastra aparuta Variable Settings se selecteaza variabila
NWBIR74 -> OK. Nu se bifeaza casuta de mai jos pentru a selecta aceasta variabila ca si
implicita. Acest lucru este util doar cand dorim sa facem diferite analize pentru aceeasi
variabila. In acest caz vrem sa facem aceeasi analiza pentru diferite variabile.
Apare o noua fereastra in care se selecteaza numarul categoriilor -> alegem 4 (harta
quartila).
Alta solutie pentru pasii de mai sus: click dreapta pe harta -> Choropleth Map ->
Quantile.
Pentru a crea cea de-a doua harta de pe bara de instrumente se alege butonul Duplicate
the main map sau Edit ->Duplicate map.
Se reia produra de mai sus selectand variabila SID74.
Exista 2 probleme legate de aceasta harta: in primul rand variabila legata de decese este
una extensiva si tinde sa fie corelata cu suprafata sau totalul populatiei (ar fi fost mai
potrivita densitatea populatiei care este variabila intensiva), in al doilea rand este o
problema cu numararea punctelor de ruptura. Decesele in general urmeaza o distributie
Poisson. Se poate vedea ca prima categorie cuprinde 0 observatii, iar urmatoarea 38.
Pentru salvarea hartii: Edit -> Copy to Clipboard.
Pentru exportare: File -> Export -> Capture to file si se va exporta in format .bmp.
Pentru a stabili forma selectiei unei zone: click dreapta pe harta -> Selection Shape:
Point, Rectangle, Polygon, Line, Circle.
Pentru a adauga sau a elimina zone din selectie : Shift ->Click.
Exercitiul 3: Operatii de baza privind tabelele
Navigare prin tabel
Se incarca fisierul sids.shp
Se creeaza o harta quantila ca in exercitiul anterior in functie de variabila NWBIR74.
Se selecteaza o regiune de pe harta.
Se vizualizeaza regiunile selectate in tabel (vor aparea cu albastru).

Pentru a vedea zonele selectate mai bine acestea sa apara intr-o zona contigua la
inceputul tabelei: Table ->Promotion sau click dreapta pe harta ->Promotion.
Pentru deselectare: Table->Clear selection sau click dreapta pe harta->Clear selection.
Sortarea tabelei in functie de anumite campuri
Se apasa dublu-click pe antetul campului dupa care se doreste sortarea.
Pentru a selecta o inregistrare se apasa click pe cel mai din stanga camp (care este
cheia).
Interogari
Click dreapta in tabel ->Range selection sau Table->Range selection.
In fereastra aparuta se construieste interogarea.
Vrem sa aflam acele regiuni unde sunt mai putin de 500 de nasteri in 1974.
Avem variabila BIR74, limita din stanga va fi 0 si limita din dreapta 500.1, deoarece
avem interval deschis la dreapta (<).
Selectam Apply.
Daca vrem sa se creeze o noua variabila, numele implicit este REGIME selectam Apply
si mai jos dupa care OK.
Efectuarea de calcule in tabel
Fisierul sids.shp contine doar numarul de nasteri si decese nu si rate.
Adaugam o noua coloana in tabel SIDR74: click dreapta in tabel -> Add column sau
Table -> Add column.
Click dreapta in tabel -> Field calculation sau Table ->Field calculation.
Selectam a treia fila Rate Operations.
La Method selectam Raw Rate, Event variable: SID74 (decesele) si la Base variable:
BIR74.
Deoarece din punct de vedere demografic se exprima de obicei rata la 100 000 de
nasteri trebuie sa ajustam aceasta rata.
Selectam din nou Field calculation pentru SIDR74.
Selectam a doua fila Binary operations.
Variable 1: SIDR74, Operators: Multiply, Variable 2: 100 000.
Pentru a salva aceasta noua coloana se salveaza intregul tabel sub o alta denumire: File
->Save to Shape File As
Exercitiul 4: Manipularea datelor spatiale
Crearea unei harti care contine centroidele regiunilor
Tools -> Polygons to Points.
La input selectam ohlung.shp.
3

Introducem numele hartii pe care dorim sa o cream (ex. ohcent.shp).


Selectam Create si pe urma Done.
In partea dreapta a ferestrei va aparea o harta formata doar din puncte reprezentand
centroidele regiunilor.
Deschidem proiectul ohlung.shp.
Schimbam culoarea hartii in alb.
Adaugam un nou layer: Edit->Add layer sau butonul aferent Add layer de pe bara de
instrumente.
Adaugarea centroidelor ca variabile in tabel
Click dreapta pe suprafata hartii -> Add Centroids to Table sau Options->Add
Centroids to Table.
Se va cere sa se introduca numele variabilelor pentru cele doua coordonate X si Y.
Lasam denumirile implicite XC00 si YC00.
Selectam OK.
Salvam noul tabel cu cele doua coloane nou introduse.
Crearea unei harti poligonale de tip Thiessen
Hartile formate numai din puncte pot fi convertite in poligoane printr-o transformare de
tip Thiessen.
Reprezentarea poligonala este utila pentru a vizualiza distributia spatiala a unei
variabile si permite construirea ponderilor spatiale bazate pe contiguitate.
Tools-> Points to Polygons.
La input selectam oz9799.shp 30 de locatii de monitorizare a traficului aerian in
regiunea Los Angeles.
La output specificam un nume: ozthies.shp.
Selectam Create sip e urma Done.
Se incarca fisierul ozthies.shp cu Key: Station.
Se schimba culoarea hartii in alb.
Se adauga un layer specificand oz9799.shp (ca si in cazul centroidelor).
Exercitiul 5: Bazele EDA (Exploratory Data Analysis), Linking
Linking Histograms
Se incepe cu vizualizarea distributiei non-spatiale a unei variabile prin intermediul unei
histograme.
Histograma este o aproximatie discreta a functiei densitate de probabilitate a unei
variabile aleatoare si este utila pentru a detecta asimetria.
Se lucreaza pe fisierul grid100s.shp.
Se contruiesc 2 harti quantile (cu 5 categorii) pentru variabilele zar09 si ranzar09.

Explore -> Histogram sau butonul aferent Histogram de pe bara de instrumente pentru
variabila zar09.
Se pot observa caracteristicile unei variabile care urmeaza legea normala.
Se realizeaza histograma si pentru variabila ranzar09.
Se poate observa ca cele 2 histograme sunt identice, singura diferenta este unde sunt
distribuite valorile nu si caracteristicile non-spatiale ale distributiei.
Daca selectam bara din histograma pentru zar09 cu cele mai multe observatii se observa
ca in cealalta histograma pentru ranzar09 distributia difera.
Pentru a schimba numarul de intervale Options -> Intervals sau click dreapta pe
histograma si optiunea Intervals. (se schimba in 12).
Linking Box Plots
Ne arata mediana, precum si prima si a treia cuartila a unei distributii (la 25% si la
75%) si descrie notiunea de outlier.
O observatie este clasificata ca si outlier daca se situeaza in afara intervalului format
din prima si a treia cuartila.
Multiplicatorii utilizati sunt 1.5 si 3 ori intervalul inter-cuartil.
Se lucreaza cu fisierul stl_hom.shp.
Explore -> Box plot sau butonul aferent Box Plot de pe bara de instrumente.
Se selecteaza variabila HR8893 rata omuciderilor intre anii 1988 si 1993.
Dreptunghiul reprezinta distributia cumulativa a variabilei, valoarea de sus reprezinta
numarul de observatii.
Linia dreapta reprezinta mediana, partea hasurata cu o culoare inchisa reprezinta
suprafata care cuprinde valorile cuprinse intre prima si a treia cuartila.
Linia subtire reprezinta limita intervalului inter-cuartil multiplicat cu 1.5.
Se observa ca dincolo de aceasta linie avem 6 observatii clasificate ca si outliers.
Pentru a schimba multiplicatorul: Options -> Hinge. (se schimba in 3).
Se pot selecta zone din box plot si se observa atat in tabel cat si pe harta observatiile
sau regiunile care au fost selectate.
Exercitiul 6: Desenarea hartilor si scatter plot
Scatter plot
Este utilizat pentru a studia legatura dintre 2 variabile.
Lucram pe fisierul stl_hom.shp.
Explore -> Scatter plot sau butonul Scatter plot de pe bara de instrumente standard.
Selectam variabila HR7984 rata omuciderilor intre 1979 si 1984 ca si variabila y, iar
variabia x va fi RDAC80 un index care ne arata privarea de resurse.
Linia albastra ne arata regresia obtinuta pe baza celor doua variabile, prin metoda celor
mai mici patrate.
Valoarea 4.7957 ne arata panta regresiei.

Dupa cum se poate observa relatia dintre cele doua variabile este una pozitiva, deci
evolueaza direct proportional, la o rata a omuciderilor mai mare exista o mai mare privare
de resurse.
In origine este trasata o linie verticala deoarece variabila RDAC80 are atat valori
pozitive cat si negative.
Options -> Scatter plot ->Standardized data transforma scatter plot intr-un correlation
plot, in care panta dreptei de regresie corespunde corelatiei dintre cele doua variabile.
Excluderea valorilor selectate
Se selecteaza cele 2 puncte situate in partea dreapta sus semnificand cea mai mare rata
a omuciderilor.
Options->Exclude selected
Se va observa ca regresia noua va aparea cu o linie maro, iar panta acesteia va fi 0.9568
(deci mult mai mica in comparative cu 4.7957) semnificand faptul ca aceste doua puncte
au avut o influenta majora.
Desenarea scatter plot
Se verifica sa fie activa optiunea Exclude Selected.
Se selecteaza anumite puncte trasand un dreptunghi in jurul lor.
Se tine apasata tasta Ctrl.
Se muta zona de selectie.
Se va observa ca in momentul in care mutam zona de selectie se va schimba automat
regresia si se va recalcula panta acesteia.
Aceasta optiune este foarte utila atunci cand dorim sa realizam o analiza multivariata.
Cream o harta quantila pe baza variabilei HR8488.(5 categorii).
Selectand zone din scatter plot se poate vedea pe harta zonele selectate si asociatiile.
Desenarea hartilor
Se procedeaza la fel ca si in cazul anterior la scatter plot.
Se selecteaza de data aceasta o zona de pe harta.
Se tine apasata tasta Ctrl.
Se vizualizeaza pe scatter plot cum se recalculeaza regresia, respectiv panta ei.
Exercitiul 7: Analiza multivariata EDA (Exploratory Data Analysis)
Matrice scatter plot
Se lucreaza cu fisierul police.shp.
Se creeaza 3 harti cuantile pentru variabilele police, unemp si crime. (5 categorii)
Se creeaza urmatoarele scatter plot-uri:
police si crime, respectiv crime si police
6

police si unemp, respectiv unemp si police


unemp si crime, respectiv crime si unemp
Se aranjeaza doua cate doua alaturi de hartile quantile corespunzatoare.
Se verifica pentru fiecare scatter plot sa fie activata optiunea Exclude selected.
Se poate observa de exemplu ca in cazul politiei cheltuielile sunt mai mari atunci cand
creste numarul crimelor (relatie direct proportionala), dar invers proportionala cu rata de
somaj.
Pe de alta parte exista o relatie direct proportionala intre numarul de crime si rata
somajului.
Selectam in scatter plot-ul police-crime observatia care semnifica cele mai mari
cheltuieli ale politiei.
Daca excludem aceasta observatie vom vedea in toate celelate grafice ca pantele
regresiilor scad semnificativ.
Plot-uri coordonate in paralel
Este o alternativa pentru matricea scatter plot.
Fiecare variabila considerata in analiza multivariata va deveni o axa paralela in grafic.
Pe fiecare axa valorile observate pentru acea variabila sunt situate in ordine crescatoare
de la cea mai mica valoare (stanga) la cea mai mare valoare (dreapta).
O observatie cu mai multe variabile este reprezentata printr-un numar de segmente.
Explore -> Parallel Coordinate Plot
Se selecteaza cele 3 variabile anterioare: police, crime si unemp.
De exemplu pe axa crime se selecteaza cea mai mare valoare (in dreapta) si se va
observa ca pentru aceasta valoare avem cele mai mari cheltuieli ale politiei si cea mai
mica rata a somajului.
Exercitiul 8: Bazele ESDA (Exploratory Spatial Data Analysis) si Geovizualizare
Harti procentuale (centile)
Se lucreaza cu fisierul buenosaires.shp contine datele de la sondajele electorale din
acest oras din 209 regiuni in anul 1999.
Map -> Percentile sau click dreapta pe harta -> Choropleth map -> Percentile
Se selecteaza variabila APR99PC rezultatele electorale pentru partidul Action por la
Republica.
Se poate observa de pe harta ca acest partid a obtinut cele mai multe voturi in 3 regiuni
foarte mici.
Box Map
Este o versiune imbunatatita a unei harti quartile, in care outlierii din prima si a patra
quartila sunt evidentiati separat.
Procedura este similara ca si in cazul Box plot.
7

Map ->Box map -> Hinge=1.5.


Se selecteaza aceeasi variabila APR99PC.
Construim de asemenea un box plot tot pentru aceasta variabila.
Se selecteaza valorile cele mai mari din box plot si se poate vedea pe harta ca acestea
corespund intr-adevar regiunilor unde acest partid a obtinut cele mai multe voturi.
Cartograma
Este cea de-a treia varianta pentru a evidentia valorile extreme pe o harta.
Map -> Cartogram pentru aceeasi variabila APR99PC.
In acest caz regiunile unde acest partid a obtinut cele mai multe voturi sunt evidentiate
cu cercuri de culoare rosie.
Pentru a imbunatati distributia spatiala a cercurilor click dreapta pe cartograma ->
improve cartogram with -> 1000 iterations.
Exercitiul 9: Maparea ratelor sau a proportiilor pe o harta
Maparea bruta a ratelor (Raw rate map)
Se lucreaza cu fisierul ohlung.shp numarul imbolnavirilor de cancer pulmonar in 88
de regiuni ale statului Ohio.
Map -> Smooth -> Raw Rate sau click dreapta pe suprafata hartii -> Smooth -> Raw
Rate.
La variabila event se selecteaza LFW68 totalul deceselor cauzate de cancer pulmonar
din randul femeilor albe in 1968, iar la base variable selectam POPFW68 totalul
populatiei feminine de rasa alba in 1968.
La tipul hartii selectam Box map.
Observam ca sunt 3 regiuni in care rata mortalitatii este foarte mare.
Pentru a salva ratele de mortalitate: click dreapta pe suprafata hartii -> Save rates.
Noua variabila o denumim RLFW68.
Realizam un Box plot pe baza noii variabile RLFW68 (Hinge=1.5).
Harti pentru risc excesiv
Operam cu notiunea de rata de mortalitate standardizata (SMR) sau rata de mortalitate
observata in functie de un standard national.
Riscul excesiv este rata observata comparativ cu rata medie calculata pentru toate
datele.
Aceasta rata medie nu este media tuturor ratelor pentru toate regiunile.
Se calculeaza ca suma a ratelor tuturor evenimentelor impartit la suma totala a
populatiei supusa la risc (in exemplul anterior numarul deceselor in randul femeilor albe
intr-un stat impartit la populatia reprezentata de femei albe in acel stat).
Map -> Smooth -> Excess risk sau click dreapta pe suprafata hartii -> Smooth ->
Excess risk.
8

Din nou se selecteaza la event variable: LFW68 si la base variable: POPFW68.


Regiunile colorate cu albastru sunt regiuni in care rata de risc excesiv <1.
Regiunile colorate cu rosu sunt regiuni in care rata de risc excesiv>1.
Click dreapta pe suprafata hartii -> Save rates.
Noua variabila o denumim R_EXCESS.
Realizam un Box plot pe baza noii variabile R_EXCESS (Hinge=1.5)
Exercitiul 10: Netezirea hartilor care utilizeaza rate sau proportii
Netezire empirica Bayes
Se lucreaza cu fisierul ohlung.shp
Aceasta tehnica de netezire presupune calcularea unei medii ponderate a ratelor brute
pentru fiecare regiune si pentru statul respectiv, unde ponderile sunt proportionale in
functie de volumul populatiei supuse la risc.
Map -> Smooth -> Empirical Bayes sau click dreapta pe suprafata hartii -> Smooth ->
Empirical Bayes.
Se selecteaza la event variable: LFW68 si la base variable: POPFW68.
Se observa ca apare o noua regiune de risc excesiv in partea de sud-vest.
Realizam un Box plot pe baza noii variabile RLFW68 (Hinge=1.5).
Se selecteaza acea regiune noua pe harta si se vizualizeaza in box plot.
Se observa ca aceasta observatie se afla undeva pe la ultima quartila.
Cele mai multe regiuni desemnate ca si outlieri au o populatie putin numeroasa supusa
la risc, prin urmare ratele lor netezite empiric sunt diferite (mult mai mici decat cele
initiale).
Aceasta noua regiune are o populatie numeroasa supusa la risc, deci rata netezita nu
difera foarte mult de cea initiala.
Netezirea spatiala a ratelor
Acest lucru presupune calcularea ratelor intr-o fereastra dinamica pentru fiecare regiune
in parte.
Fereastra dinamica include atat regiunea respectiva cat si vecinii.
Vecinii sunt definiti prin intermediul unui fisier de ponderi spatiale.
Crearea ponderilor spatiale
Vom construi un fisier de ponderi spatiale care contine 8 vecini apropiati pentru fiecare
regiune in parte.
De pe bara de instrumente selectam icoana Create weights sau din meniu selectam
Tools -> Weights -> Create.
Selectam la input ohlung.shp.

La output: ohk8.gwt.
Variabila ID: FIPSNO.
La k-Nearest Neighbors selectam 8.
Trebuie sa incarcam noul fisier creat cu ponderile spatiale: de pe bara de instrumente
standard selectam butonul Load weights sau din meniu Tools -> Weights -> Open.
Harti netezite spatial
Dupa incarcarea fisierului cu ponderile spatiale: Map -> Smooth -> Spatial rate sau
click dreapta pe harta -> Smooth -> Spatial rate.
Se selecteaza la event variable: RLFW68 si la base variable: POPFW68.
La tipul hartii se selecteaza Box map (Hinge=1.5).
Se poate observa ca nu mai exista outlieri.
Exercitiul 11: Ponderi spatiale bazate pe contiguitate
Contiguitate Rook
Se utilizeaza fisierul sacramentot2.shp.
Tools -> Weights- > Create
Selectam la input sacramentot2.shp.
La output: sacrook.gal.
Key variable: POLYID.
La contiguity weight bifam butonul radio Rook contiguity.
Se deschide sacrook.gal cu un editor text.
Ne concentram atentia asupra observatiei cu POLYID 2.
Aceasta are 4 vecini, iar id-urile vecinilor sunt evidentiate pe linia urmatoare.
Selectam observatiile cu aceste id-uri in tabel.
Se poate observa pe harta ca acest criteriu rook uneori elimina vecini din colt, cei care
nu au un segment comun in totalitate.
Histograma de conectivitate
Select Tools -> Weights -> Properties
Histograma este importanta pentru a detecta caracteristici care se abat de la normal
pentru aceasta distributie, care pot afecta autocorelatia spatiala sau regresia spatiala.
Aceste caracteristici pot fi: aparitia insulelor sau a observatiilor necorelate, o distributie
bimodala cu unele regiuni cu prea putini vecini si alte regiuni cu prea multi vecini.
In histograma rezultata se poate vizualiza numarul de observatii din fiecare categorie si
in legenda numarul de vecini.

10

Contiguitate Queen
Se utilizeaza fisierul sacramentot2.shp.
Tools -> Weights- > Create
Selectam la input sacramentot2.shp.
La output: sacqueen.gal.
Key variable: POLYID.
La contiguity weight bifam butonul radio Queen contiguity
Contiguitate de ordin superior
Se procedeaza ca si in cazurile anterioare doar ca la contiguity weight la order of
contiguity se selecteaza un ordin superior.
Exista doua definitii pentru contiguitatea de ordin superior.
Una este pura si nu include locatii care au fost contigue si la nivel inferior.
A doua definitie se refera la faptul ca este cumulativa adica include si vecinii existenti
la nivel inferior.
Selectam la input sacramentot2.shp.
La output: sacrook2.gal.
Key variable: POLYID.
Order of contiguity: 2
Exercitiul 12: Ponderi spatiale bazate pe distante
Se utilizeaza fisierul boston.shp.
Tools -> Weights- > Create
Selectam la input boston.shp.
La output: bostondist.gwt.
Key variable: ID.
La distance weight selectam X variabila pentru coordonata X, Y- variabila pentru
coordonata Y.
Bifam butonul radio Threshold distance.
Observam ca valoarea pentru threshold distance se schimba in 3.972568.
Aceasta este distanta minima necesara pentru a ne asigura de faptul ca fiecare locatie
are cel putin un vecin.
Daca valoarea distantei este mai mica atunci vor aparea insule sau observatii necorelate.
Deschidem fisierul bostondist.
Fiecare intrare in acest fisier semnifica id-ul origine, id-ul destinatie, precum si distanta
dintre cele doua puncte.
Select Tools -> Weights -> Properties
Ponderi k-Nearest Neighbor

11

Tools -> Weights- > Create


Selectam la input boston.shp.
La output: bostonk6.gwt.
Key variable: ID
Bifam butonul radio k-Nearest Neighbor si specificam valoarea 6.
Acest criteriu asigura ca fiecare observatie sa aiba acelasi numar de vecini.
Exercitiul 13: Variabile decalate spatial
Contruirea decalajului spatial
Variabilele decalate spatial reprezinta o parte esentiala pentru calculul autocorelatiei
spatiale, respectiv pentru specificarea modelelor de regresie spatiala.
Se utilizeaza fisierul sacramentot2.shp.
Tools > Weights > Open si alegem sacrook.gal.
Selectam tabelul prin intermediul butonului Table de pe bara de instrumente.
Click dreapta in tabel -> Field calculation.
Selectam fila Lag Operations.
Result: W_INC.
Variables: HH_INC (census tract median household income).
Observam de exemplu ca valoarea W_INC (50164) pentru observatia cu POLYID 2
este media valorilor HH_INC pentru observatiile cu POLYID: 1,3,4,6.
Autocorelare spatiala
Un scatter plot Moran este un plot in care variabila care ne intereseaza se afla pe axa X
si decalajul spatial pe axa Y.
Explore > Scatter plot
Coloana din stanga: W_INC.
Coloana din dreapta: HH_INC.
Se poate observa ca panta regresiei este 0.5632 ceea ce semnifica faptul ca se aplica
statistica Moran I pentru HH_INC utilizand definitia de la ponderi spatiale bazate pe
contiguitate (Rook).
Exercitiul 14: Realizarea regresiilor
Se va utiliza fisierul columbus.shp care contine statistici privind crimele din vecinatatea
regiunii Columbus.
Meniul Regress
In fereastra aparuta numele specificat la Report title poate fi ignorat.
La Output file name se specifica numele fisierului de output unde se vor salva
rezultatele regresiei in format RTF (rich text format).

12

Output file name: columbus.rtf


Bifam casutele text: Predicted Value and Residuals si Coefficient Variance Matrix.
Specificarea modelului de regresie
Selectam crime ca si variabila dependenta.
Selectam hoval si inc ca si variabile independente sau factori.
Selectam butonul Run pentru a rula regresia.
Selectam Save pentru a salva valorile prezise si reziduurile.
Selectam OK pentru a vizualiza rezultatele regresiei.
Salvarea valorilor prezise si a reziduurilor
Dupa ce am selectat Run pentru a rula regresia selectam Save.
Specificam cate un nume pentru variabilele in care se vor salva valorile prezise si
reziduurile.
Nu uitam sa salvam tabelul sub un alt nume pentru a nu pierde valorile celor doua
variabile nou-create.
Outputul regresiei
In partea superioara sunt cateva informatii generale: media si deviatia standard a
variabilei dependente, numarul de observatii, numarul gradelor de libertate, numarul de
variabile.
Statistica F=28.3856. (pentru a respinge ipoteza nula conform careia toti coeficientii
regresiei sunt 0).
Estimarea coeficientilor regresiei, statistica t si probabilitatea (pentru a vedea daca
variabilele sunt reprezentative pentru regresie).
Log likelihood (-187.377), Akaike information criterion (380.754) si Schwarz criterion
(386.43).
Pentru log likelihood cu cat este mai mare cu atat este mai bun modelul.
Pentru criteriile privind informatiile directia este inversa cu cat avem o valoare mai
mica cu atat avem un model mai bun.
Harti bazate pe valorile prezise si pe reziduuri
In momentul in care am salvat cele doua variabile in tabel privind valorile prezise si
reziduurile putem construi harti pe baza lor pentru a descoperi anumite sabloane.
Harta pe baza valorilor prezise este asemenea unei harti netezite, adica s-au eliminat
variatiile cauzate de alti factori decat cele incluse in model.
Harta pe baza reziduurilor ne furnizeaza informatii privind corectitudinea predictiei in
anumite regiuni si pe baza careia se poate studia autocorelatia spatiala.
Construim o harta quantila pe baza variabilei OLS_PREDIC. (6 categorii).

13

Construim o alta harta: Map -> St.Dev pe baza variabilei OLS_RESIDU, care va fi o
harta bazata pe deviatii standard ale reziduurilor.
Se poate observa ca exista o tendinta de a supraestima (reziduuri negative) in regiunile
din exterior, de asemenea o tendinta de a subestima (reziduuri pozitive) in regiunile
centrale.
Acest lucru ar putea semnifica existenta eterogenitatii spatiale.

Exercitiul 15: Autocorelatie spatiala globala


Moran scatter plot
Se va lucra cu fisierul scotlip.shp.
Pentru a putea compara Moran scatter plot pentru rate brute cu cel cu rate standardizate
trebuie sa avem o variabila cu rate brute in tabel.
Map -> Smooth -> Raw Rate
Selectam Cancer ca si variabila Event si Pop ca si variabila Base.
Alegem tipul de harta Box map.
Click dreapta pe harta -> Save rates.
Lasam denumirea implicita: R_RAWRATE.
Cream un fisier de ponderi denumit scot5k.gwt in care fiecare regiune va avea 5 vecini.
Functia Moran scatter plot
Space -> Univariate Moran
Selectam variabila R_RAWRATE.
Selectam fisierul scot5k ca si fisier de ponderi.
Fiecare cadran corespunde unui tip diferit de autocorelare spatiala: mare-mare, mic-mic
pentru autocorelari spatiale pozitive, mic-mare si mare-mic pentru autocorelari spatiale
negative.
In partea superioara a graficului avem statistica Moran I = 0.4836.
La fel ca si la anumite exercitii anterioare putem selecta Exclude selected pentru a
putea observa cum se schimba panta graficului.
Click dreapta pe grafic -> Save Results.
Schimbam numele variabilelor: Standardized data: W_Rawrate si Spatial Lag:
Lag_Rawrate.

14