Professional Documents
Culture Documents
DM Pitanja Za Test 1
DM Pitanja Za Test 1
Rudarenje podataka je proces pronalaenja novog i potencijalno korisnog znanja iz podataka, odnosno
kao otkrivanje ili rudarenje znanja iz velike koliine podataka.
2. Sa kojim terminima se Data mining izjednaava?
otkrivanje i predvianje znanja
3. Koje koncepte, metode i tehnike upotrebljava Data mining?
Baze podataka, statistiku i vjetaku inteligenciju
4. ta predstavlja otkrivanje znanja?
Proces otkrivanja znanja implicira korisnikovo razumevanje izreenih informacija za koje je bitno da su u
itljivom obliku.
5. ta predstavlja predvianje znanja?
Odnosi se na budue dogaaje i u nekim pristupima moe biti itljivo i providno dok u drugim
neprovidno.
6. Porijeklo pojma Data mining-a?
Potie od prvih stvari koje su se pojavile sa pojavom raunara.
7. ta je mainsko uenje?
Mainsko uenje - kao oblast vjetake inteligencije predstavlja skup paradigmi, algoritama,
teorijskih rezultata i primjena iz razliitih oblasti vjetake inteligencije i evolucionih modela (u smislu
pretraivanja) ali i drugih oblasti: statistike i vjerovatnoe (Bajesov klasifikator, raspodjele i testovi) i
drugih oblasti matematike, teorije izraunljivosti (mora postojati svijest o sloenosti problema i
ogranienjima koja proistiu iz toga), teorije (adaptivnog) upravljanja, informacione teorije, psihlogije
i neurobiologije (neuronske mree), filozofije, kognitivnih i drugih nauka.
8. ta je vjetaka inteligencija?
predstavlja mjeavinu konvencionalne nauke, fiziologije i psihologije, sve u cilju da se napravi maina
koja bi se, po ljudskim mjerilima, mogla smatrati "inteligentnom".
9. ta je baza podataka?
Baze podataka predstavlja kolekciju podataka organizovanih za brzo pretraivanje i pristup, koja
zajedno sa sistemom za administraciju, organizovanje i memorisanje tih podataka, ini sistem baze
podataka. Iz ugla korisnika, podaci su na neki nain logiki nain povezani.
10.Gdje je najvie zastupljeno koritenje Data mining a?
U poslovanju Data Mining se najvie koristi na podruju marketinga
11.Za ta se koristi Data mining u marketingu?
Direktni marketing
Izradu profila kupca
Segmentaciju
Istrazivanje povezanosti prodaje razlicitih proizvoda
Stimulacija kupovine drugih artikala istog preduzeca
Zadrzavanja kupaca
Predvianje poplava
Cilj: predvidjeti na vrijeme poplave da bi se umanjile posledice
Pristup:
a) mjerenje vodostaja
b) mjerenje koliine padavina
c) vremenska prognoza
22.ta je grupisanje (klasterovanje)?
Grupisanje (Klastering) - je razvrstavanje jedinki u grupe u kojima je postignuta njihova najvea
slinost. Slini podaci (u odnosu na odgovarajue atribute) se grupiu zajedno u klastere.Klasteri nisu
unaprijed odreeni. Obino je potrebno znanje eksperta da bi protumaio znaenje formiranih klastera.
Naziva se i uenje bez nadzora jer klasteri nisu odreeni prije ispitivanja podataka. Segmentacija
pojam koji se ee koristi kod baza podataka. Oznaava podelu podataka u disjunktne grupe.
23.Primjeri klasterovanja!
Upravljanje Marketnigom
Cilj: smanjiti trokove tampe kataloga u robnim kuama. Katalozi su namijenjeni demografskim
grupama u zavisnosti od atributa (zarada, lokacija, nivo obrazovanja, fizike karakteristike - visina,
teina, ...)potencijalnih kupaca
Pristup:
a. koristi se klasterovanje potencijalnih kupaca na osnovu odreivanja vrijednosti atributa
b. Na osnovu izlaza se formiraju posebni katalozi za odreene grupe kupaca
Otkrivanje prevara
Cilj: preduprediti mogue prevare kreditnim karticama
Pristup:
a. registrovanje transakcija svih vlasnika kartica zajedno sa informacijama o godinjem prihodu,
kreditnoj sposobnosti,godinama ivota, ...
b. broj prevara sa karticama je relativno mali u odnosu na broj transakcija primenom tehnika za
otkrivanje anomalija se formira profil vaee transakcije za korisnika.
c. svaka nova transakcija se poredi sa profilom korisnika
d. u sluaju velike razlike transakcija se oznaava kao mogue rizina, odn. potencijalna prevara
24.ta je sumarizacija?
Sumarizacija (Summarization) - Preslikava podatke u podskupove sa pridruenim (jednostavnim)
opisima. Izdvaja ili izvodi reprezentativne informacije iz baze.Naziva se i karakterizacija ili
generalizacija. Iz podataka mogu da se izvedu i razliiti sumarni prikazi (npr. numeriki).
25.ta je pridruivanje?
Pridruivanje (Association Rules) - su pravila oblika AKO-TADA. Pokazuje vjerovatnost da jedan
dogaaj vee uz sebe drugi dogaaj. Analiza pridruivanja (analiza veza, analiza afiniteta) oznaava
otkrivanje obrazaca koji opisuju meusobno vrsto povezane osobine podataka. Obino se predstavljaju
preko implikacije ili osobina podskupova. Kako prostor koji se pretrauje raste eksponencijalno, cilj je
izdvojiti najinteresantnije obrasce na najefikasniji nain.
26.Koje su metode rudarenja podataka?
Stabla odluke, Neuronske mree, genetski algoritmi, text mining (tekst rudarstvo)
27.ta je stablo odluivanja?
Stabla odluke - su serije pravila pomou kojih se izdvajaju odreene klase ili vrijednosti. Mogu se
podijeliti kandidati za kredit na dobre ili loe. Prva komponenta u stablu odluke jeste korijen stabla
koji sutinski predstavlja test koji treba uraditi. Sutina tog testa je grananje stabla na podstabla od
kojih svako predstavlja jedan od moguih odgovora. Zavisno od algoritma svaki nod stabla moe imati
dva ili vie podstabla. Svako podstablo vodi do noda koji predstavlja novu taku odluke i tako se ide do
dna stabla do nodova koji se nazivaju listovi,koji predstavljaju zavrnu klasifikaciju i predstavljaju
odgovor na postavljeno pitanje.
28.ta su neuronske mree?
Neuronske mree - djeluju slino ljudskom mozgu. One se upotrebljavaju u analizi rizika i
prognoziranju npr. vrijednosti deonica. Rudarenje podataka temeljeno na ovoj metodi poinje
uenjem mree pomou podataka za koje je poznata vrijednost koju elimo prognozirati. Nakon toga
naueno znanje se provjerava. Postupak uenja i provjere ponavlja se sve dok rezultati provjere ne budu
zadovoljavajui. Problem neuronske mree je to to ona funkcionie kao crna kutija, pa tako ona daje
odgovore, ali ne daje objanjenja, pa korisnik ne mora strogo da vjeruje metodu neuronske mree. Za
upotrebu neuronskih mrea,potrebna je intenzivna obuka, jer se ona razlikuje od klasinih statistikih
metoda.
29.Koje su prednosti, a koji nedostaci upotrebe neuronskih mrea?
Dobre strane neuronskih mrea:
1) iroke su primjene, daju dobre rezultate u veliokom broju komplikovanih problem.
Loe strane neuronskih mrea:
1) Neuronske mree ne pomau razumjevanju podataka
2) Ulazne i izlazne vrijednosti najee moraju biti normalizovane u odgovarajue intervale
30.ta su genetski algoritmi?
Genetski algoritmi - su temeljeni na ideji imitiranja pravila biolokog razvoja. Koriste se za
optimizaciju i mainsko uenje pri rjeavanju problema. Primjena genetskih algoritama je mogua u
sluajevima kada problem moemo opisati kao pretraivanje ili optimizaciju proizvoljnih podataka, te
poznajemo nain mogueg mjerenja uspjenosti svakog pojedinog rjeenja.
31.Koje su karakteristike genetskih algoritama?
Model
Davanje prednosti nekom kriterijumu radi izbora najboljeg modela
Tehnike za pretraivanje podataka
32.ta je Text mining?
Tekst rudarstvo (Text Mining) - ponekad naizmjenino nazivaju tekst data mining, odnosi se na
proces izvoenja kvalitetnih informacija iz teksta. Kvalitetne informacioje obino se izvode kroz
osmiljavanje uzoraka i trendova putem sredstava kao to su statistiki uzorak za uenje. Tekst
rudarstvo obino ukljuuje proces strukturiranja unosa teksta (obino ralanjivanjem, uz dodatak nekih
izvedenih jezinih karakteristika i uklanjanje drugih, i kasnije ubacivanje u bazu podataka), iz ega
proistiu uzorci unutar strukturiranih podataka, te konano procenu i tumaenje izlaza.
33.ta je proces rudarenja podataka?
Proces Data Mininga sastoji se od vie faza koje jedna osoba samostalno ne moe izvriti. Te faze,
odnosno zadatke, moemo posmatrati iz tri perspektive. Prva je problemska perspektiva koja je vana
na samom poetku i kraju Data Mininga. Sastoji se od odabira problema, njegovog definisanja, procjene
i primjene znanja. Osoba koja obavlja ove zadatke moe se jednostavno nazvati korisnik. Druga
perspektiva je perspektiva podataka i obuhvata sve zadatke vezane za pripremu podataka za njihovo
rudarenje, a obavlja je informatiar. Metodoloka perspektiva, kao trea i poslednja, sastoji se od svih
zadataka vezanih za analizu podataka, metode selekcije, implementacije, prezentacije i interpretacije