You are on page 1of 2

RAZVOJ I DOKUMENTOVANJE BAZE PODATAKA

Baza podataka, bez obzira da li je u papirnoj ili elektronskoj formi, konfigurisana je kao matrični
zapis, gde se svaki red odnosi na jedinicu opservacije a svaka kolona na varijablu. Na taj način
dimenzije takve matrice definisane su brojem jedinica opservacija (a to je najčešće broj ispitanika
/pacijenata) što odgovara broju redova u bazi podataka, i brojem karakteristika koje su predmet
ispitivanja što odgovara broju kolona.
Istraživačka baza podataka praćena je kodeksom (šafranikom) koji sadrži informacije o nazivu i
poretku varijabli, opisu varijabli, mernim jedinicama, i skali merenja (nominalni, ordinalni,
numerički). Osim toga u kodeks su, za kategorijalne varijable, uključene informacija o broju
kategorija i kodovima tih kategorija.
Kreiranje baze podataka za analizu obuhvata više koraka. Prvo se kreira nova prazna datoteka, zatim
se definišu varijable prema šafraniku i na kraju se u datoteku unesu podaci dobijeni u istraživanju.

FORMIRANJE BAZE PODATAKA U TABELARNIM KALKULATORIMA


Postoji nekoliko načina da se uz pomoć odgovarajućeg softvera formira baza podataka i učita u R
programsko okruženje. Ovde će biti prikazano formiranje baze u tabelarnim kalkulatorima
(″spreadsheet″) kao što je MS Office Excel, OpenOffice Calc i LibreOffice Calc.
1. U tabelarnim kalkulatorima nazivi varijabli unose se u prvi red i preporuka je da budu u formi
jedne reči. Ukoliko je potrebno da naziv varijable ima više reči nazive varijabli treba pisati ili
spojenim rečima (npr. navikapusenja) ili ih razdvajati donjom crtom (npr. navika_pusenja) ili
tačkom. U slučaju da se reči ukucaju odvojeno, prilikom učitavanja R automatski svaki razmak
zamenjuje tačkom.
2. U prvu kolonu unose se oznake identifikacije jedinica posmatranja, što će najčešće biti redni broj
u bazi počev od 1.
3. Numeričke podatke (prekidne i neprekidne) treba unositi kao brojčane vrednosti bez naziva
jedinica. Npr. podatak o telesnoj masi uneti kao broj bez oznake kg.
4. Nominalni i ordinalni podaci mogu se uneti kao tekstualni nazivi kategorija ili kao numerički
kodovi.
Nominalni podaci se unose kao tekstualni nazivi kategorija (npr. za pol: muski, zenski). Ukoliko
postoji više od dve kategorije nominalnih podataka preporučuje se dodavanje rednog broja pre
naziva kategorije da bi se u rezultatima prikazivali po željenom redosledu (npr. varijabla mesto
boravka tokom studiranja: 1.kod_roditelja, 2.privatan_smestaj, 3.studentski_dom).
Ordinalni podaci se unose kao numerički kodovi koji odražavaju poredak kategorija. Npr. za
podatke o zadovoljstvu zdravstvenom zaštitom (vrlo nezadovoljan, nezadovoljan, neutralan,
zadovoljan i vrlo zadovoljan) upotrebiti kodove za taj uređeni niz počev od najmanjeg do
najvećeg nivoa što mora biti zabeleženo u šafraniku zbog jednostavnije interpretacije podataka i
rezultata statističke analize.
Uređeni niz kategorija Kod (šifra)
vrlo nezadovoljan 1
nezadovoljan 2
neutralan 3
zadovoljan 4
vrlo zadovoljan 5

5. Nakon formiranja baze i unošenja podataka, datoteku sačuvati na računaru klikom na File→Save
As…
MS Office Excel 2007-2013 svoje datoteke čuva sa ekstenzijom .xlsx.
MS Office Excel 2003 svoje datoteke čuvaju sa ekstenzijom .xls.
Obratiti pažnju na ekstenziju datoteke prilikom učitavanja baze u R programsko okruženje.

Primer formirane baze podataka u MS Office Excel 2007 programu.

NAPOMENA:
R programsko okruženje nema podršku za naša slova (č, ć, š, ž, đ) pa ih ne treba koristiti za nazive
varijabli i unos podataka.
Obratiti pažnju da R pravi razliku između malih i velikih slova, što treba uzeti u obzir prilikom
upotrebe naziva datoteka i varijabli u komandama.

You might also like