Rudarenje Podataka 2

1.
Kratice:
BI -Sustavi poslovne inteligencije (Business Intelligence) obuhvaćaju široki skup aplikacija i tehnologija prikupljanja,
spremanja i analiziranja podataka.
DW- Skladišta podataka (Data Warehouse) Cilj je da se podaci o poslovanju nađu na jednom mjestu kako bi se iz njih
mogle izvući cjelovite informacije.
ETL- (Extraction, Transformation, Loading) skup procesa kojima je zadaća zahvaćanje, preoblikovanje i punjenje ili
unošenje podataka iz jednog ili više transakcijskih sustava u skladište podataka.
OLAP (On-Line Analytical Processing) multidimenzijska analiza ili „online analitička obrada“ . Najpoznatiji proizvođači
OLAP alata na tržištu: IBM, Microsoft, Oracle, SAS, SAP...
CRM (Customer Relationship Management) tehnološko rješenje se sastoji od tri glavna dijela: Operativni
CRM,Analitički CRM, Kolaborativni CRM
DM- (data mining) rudarenje podataka, otkrivanje interesantnih struktura, neočekivanih vezai uzoraka u podacima.
2. BIL INMON I KIMBAL (4 FAZE)
Bill Inmon skladište podataka je: subjektno orijentirano, integrirano, vremenski ovisno, nepromjenjivo
Ralpha Kimballa govori da je skladište podataka kopija transakcijskih podataka specijalno strukturirana za upite i
analize.
3. ZVJEEZDASTA SHEMA I PAHULJIČASTA SHEMA
Zvjezdasta (star) shema podrazumijeva da je svaka dimenzija za analizu u potpunosti denormalizirana.
Pahuljičasta (snowflake) shema nije u potpunosti denormalizirana. Točnije, dimenzijske tablice nisu do kraja
denormalizirane, što rezultira s više tablica vezanih za jednu dimenziju.
4. CROSS SELL i UP SELL
Cross Sell i Up Sell aplikacije omogućavaju prepoznavanje potencijalnog tržišta u postojećoj korisničkoj populaciji.
Cross Sell se odnosi na prodaju novih grupa proizvoda postojećim korisnicima Up Sell se odnosi na prodaju
proizvoda unutar grupe
5. OUTLIERS (pronalaženje ekstremnih vrijednosti)
Većina algoritama koji se koriste u rudarenju podataka nastoji minimizirati utjecaj podataka koji odstupaju od cjeline
(outliers), ali u iznimnim prilikama te podatke se ne smije zanemariti. U takvim slučajevima, potrebno je posebno
istražiti podatke koji odstupaju od cjeline (outlier mining).
6. PRIPREMA PODATAKA
Pronalaženje ekstremnih vrijednosti (outliers); dijagnostiku i predviđanje nedostajućih vrijednosti; ispravljanje

podataka s prisutnim šumom; transformaciju podataka;
7. GIGO EFEKT
Krajnji cilj čišćenja i pretprocesiranja podataka u tradicionalnim Data mining analizama jest formiranje jedne
(jedinstvene) tablice nad kojom će se primjenjivati metode rudarenja podataka koje kao rezultat pružaju nova pravila
i veze među podacima. (GIGO; GARBAGE-IN, GARBAGE-OUT);
8. KAKO SE DIJELE PODACI?
Podaci za učenje modela; podaci za testiranje modela;
Podaci za učenje i podaci za testiranje moraju biti izabrani slučajno i nezavisno. To znači da u skupu za učenje i u
skupu za testiranje mora biti približno podjednak broj pripadnika svakog razreda. Preporuča veći dio podataka
ostaviti za učenje modela.
9. ANALIZA USPJEŠNOSTI: KONFUZIJSKA MATRICA (Confusion Matrix) sadrži podatke o djelovanju klasifikatora nad
testnim skupom podataka i podatke o stvarnim razredima kojima uzorci pripadaju.
10. TOČNOST I POGREŠKA, SENZITIVNOST I SPECIFIČNOST (TOČNOST UNUTAR POJEDINOG REDA)
Točnost se definira kao omjer broja ispravno klasificiranih primjera prema ukupnom broju klasificiranih primjera.
Pogreška se definira kao omjer broja neispravno klasificiranih primjera prema ukupnom broju klasificiranih primjera.
11. ROE ANALIZA - grafički orijentirana mjera kvalitete klasifikacijskog modela.
12. DATA MINIG METODE PODJELE?
Kod ovih metoda ne postoji razlika između atributa. Najznačanije metode rudarenja podataka su: Stabla odlučivanja;
Neuronske mreže; Regresija; Bayesove mreže; Klasteriranje; Asocijativna pravila;
Data Mining metode se dijele na tri osnovne skupine: Klasifikacijska metoda;Segmetancijska metoda; Metoda
asocijacije;
Mogu se podjeliti na sljedeći način: nadgledane i nenadgledane metode;
13. OVERFITTING ( Stablo odlučivanja)
Pojava pretjerano razgranatog stabla odlučivanja zbog grananja na atributima koji samo prividno proizvode
informacijski dobitak, dok je stvarni uzrok grananja šum u primjerima za učenje se naziva pretjerana prilagođenost
podacima za učenje.
14. AKO-ONDA (Stablo odlučivanja) (Razlika između stabla i neuronske mreže)
Osnovna prednost stabla odlučivanja kao metode rudarenja podataka leži u činjenici da, u odnosu na neke druge
modele (npr. neuronske mreže), nude modele u “čitljivom”, razumljivom obliku, koji se lako mogu eksportirati u
druge sustave u obliku pravila (AKO-ONDA).
15. NEURONSKA MREŽA DEFINICJA S OBZIROM NA RAZLIKU OD STABLA ODLUČIVANJA?
Znanje o obradi podataka pohranjeno je kod neuronskih mreža u obliku različitih iznosa težinskih koeficijenata.
Takvo implicitno znanje teško je interpretirati i predočiti ga čovjeku u obliku pravila (za razliku od npr. stabala
odlučivanja).
16. K-MEANS ALGORITAM (KLASTERIRANJE)
Klasteriranje se ukratko može definirati kao pronalaženje sličnih grupa unutar podataka. Postoji cijeli niz algoritama
za klasteriranje, ali najpoznatiji je K-means clustering, koji pomoću funkcija za procjenu distance i centroida u
iterativnom procesu kreira klastere.Jedan od temeljnih nedostataka metode klasteriranja K-means clustering se
ogleda u činjenici da se broj rezultirajućih grupa (klastera) mora unaprijed odrediti tako da je potrebno
eksperimentirati s različitim brojem grupa. Dosta veliki problem prilikom korištenja K-means algoritma predstavljaju i
izolirani podaci (outliers).
17. PODRŠKA, POUZDANOST (ASOCIJATIVNAPRAVILA)
Asocijativna pravila analiziraju međuovisnosti (učestalost veza) među svim atributima skupa za učenje ukazujući na
to koliko često se pojavljuju zajedno. Opći oblik asocijativnog pravila:
AKO (tijelo_pravila) TADA (glava_pravila) [podrška, pouzdanost]
Dvije su osnovne mjere kojima se izražava kvaliteta asocijativnih pravila: Podrška – vjerojatnost svih elemenata
pravila (u tijelu i glavi) u cijelom skupu primjera (podataka; Pouzdanost – vjerojatnost posljedice (glave pravila) ako
je ispunjen uvjet (tijelo pravila) – to je uvjetna vjerojatnost.
18. APRIORI ALGORITAM (ASOCIJATIVNA PRAVILA)
Najpoznatiji algoritam za otkrivanje asocijativnih pravila je apriori algoritam. Ključni koraci apriori algoritma:
interativno nađi česte skupove elemenata s kardinalnošću od 1 do k; iskoristi česte skupove za generiranje pravila;
selektiraj jaka pravila;
Nedostatak apriori algoritma proizlazi iz njegove kompleksnosti i osjetljivosti na umnožavanje elemenata analize, što
uzrokuje povećanje broja kombinacija.
19. CRISP-DM CRISP-DM je metodologija koju su u konzorciju predložili i podržali: SPSS, NCR, Daimler Chrysler i
OHRA.
20. NABROJITE ALATE OPEN SOURCE DATA MININGA I DATA MININGA
Open suorce: weka/per taho, rapidminer, KNIME, R, Orange
Data mining: IBM SPSS, Microsoft SQL server, SAS, Statistica, Oracle

Rudarenje Podataka 2

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Rudarenje Podataka 2

Uploaded by

Copyright:

Available Formats

1.

2. BIL INMON I KIMBAL (4 FAZE)

3. ZVJEEZDASTA SHEMA I PAHULJIČASTA SHEMA

Zvjezdasta (star) shema podrazumijeva da je svaka dimenzija za analizu u potpunosti denormalizirana.

4. CROSS SELL i UP SELL

Pronalaženje ekstremnih vrijednosti (outliers); dijagnostiku i predviđanje nedostajućih vrijednosti; ispravljanje

8. KAKO SE DIJELE PODACI?

Podaci za učenje modela; podaci za testiranje modela;

10. TOČNOST I POGREŠKA, SENZITIVNOST I SPECIFIČNOST (TOČNOST UNUTAR POJEDINOG REDA)

11. ROE ANALIZA - grafički orijentirana mjera kvalitete klasifikacijskog modela.

12. DATA MINIG METODE PODJELE?

Mogu se podjeliti na sljedeći način: nadgledane i nenadgledane metode;

13. OVERFITTING ( Stablo odlučivanja)

15. NEURONSKA MREŽA DEFINICJA S OBZIROM NA RAZLIKU OD STABLA ODLUČIVANJA?

16. K-MEANS ALGORITAM (KLASTERIRANJE)

17. PODRŠKA, POUZDANOST (ASOCIJATIVNAPRAVILA)

AKO (tijelo_pravila) TADA (glava_pravila) [podrška, pouzdanost]

18. APRIORI ALGORITAM (ASOCIJATIVNA PRAVILA)

20. NABROJITE ALATE OPEN SOURCE DATA MININGA I DATA MININGA

Open suorce: weka/per taho, rapidminer, KNIME, R, Orange

You might also like