Professional Documents
Culture Documents
Orescanin Kvaliteta Podataka
Orescanin Kvaliteta Podataka
Draen Oreanin
MAGISTARSKI RAD
Zagreb, 2011.
1 / 95
Magistarski rad je izraen u Zavodu za primjenjeno raunarstvo Fakulteta
elektrotehnike i raunarstva
2 / 95
Zahvale:
Mentorici Prof.dr.sc. Mirti Baranovi, za vjeru i upornost bez kojih ovaj rad
nikada ne bio dovren
3 / 95
Sadraj:
1. Uvod ............................................................................................ 6
2. Integracija podataka i aplikacija ................................................ 12
2.1. Tipovi integracija podataka i aplikacija ...................................... 13
2.2. Nejednakost podataka i upravljanje matinim podacima ........... 17
2.3. Integracijski centri kompetencije ............................................... 18
3. Definicije i pojanjenja bitnih pojmova ....................................... 23
3.1. Skladita podataka .................................................................... 23
3.2. Izvori podataka .......................................................................... 29
3.3. Transformacija podataka i privremeni spremnik ........................ 30
3.4. Metapodaci................................................................................ 31
3.5. Data mart .................................................................................. 31
3.6. Izvjetajni i analitiki sustavi ...................................................... 32
3.7. OLAP ........................................................................................ 33
3.8. Dubinska analiza podataka ....................................................... 34
3.9. Upravljanje matinim podacima ................................................ 35
4. Kvaliteta podataka i informacija................................................. 37
4.1. Kvaliteta metapodataka ili definicije podataka ........................... 37
4.2. Kvaliteta sadraja podataka ...................................................... 38
4.3. Kvaliteta prikaza podataka ........................................................ 38
5. Upravljanje kvalitetom podataka ............................................... 39
5.1. Tri okruenja za osiguranje kvalitete podataka ......................... 40
5.2. ienje podataka na aplikacijskoj razini .................................. 40
5.3. ienje podataka u integracijskom sloju ................................. 42
5.4. Odravanje povijesnih podataka u skladitu podataka .............. 43
6. Pojmovi i algoritmi vezani za platforme za kvalitetu podataka .. 45
6.1. Oznaavanje ............................................................................. 46
6.2. Soundex i NIISYS algoritmi ....................................................... 47
6.3. Edit Distance algoritam ............................................................. 49
6.4. Hamming Distance algoritam .................................................... 50
6.5. Jaro-Winkler Distance algoritam ............................................... 51
6.6. Bigram Distance algoritam ........................................................ 52
6.7. Neizrazita logika ........................................................................ 53
4 / 95
7. Proces poboljanja kvalitete podataka ...................................... 55
7.1. Analiza i profiliranje ................................................................... 55
7.2. Standardizacija i korekcija ......................................................... 57
7.3. Dopunjavanje ............................................................................ 58
7.4. Uparivanje ................................................................................. 58
7.5. Preivljavanje ............................................................................ 60
8. Dobavljai i platforme za poboljanje kvalitete podataka .......... 61
8.1. IBM QualityStage ...................................................................... 62
8.2. Informatica Data Quality ............................................................ 63
8.3. Oracle Warehouse Builder i Oracle Data Integrator .................. 64
8.4. Microsoft SQL Server Integration Services ............................... 65
9. Proces lokalizacije i izrade pravila za Hrvatsku ......................... 67
9.1. IBM QualityStage ...................................................................... 67
9.2. Informatica Data Quality ............................................................ 73
10. Studija sluaja T-Mobile Hrvatska ............................................. 76
10.1. Okruenje projekta .................................................................... 76
10.2. Poslovne potrebe ...................................................................... 76
10.3. Arhitektura rjeenja ................................................................... 77
10.4. Kljuni indikatori poslovanja i dimenzije .................................... 79
10.5. Hardverska infrastruktura .......................................................... 79
10.6. Softverska infrastruktura ........................................................... 80
10.7. Implementacijski tim .................................................................. 81
10.8. Proces implementacije .............................................................. 82
10.9. Implementacija rjeenja za poboljanje kvalitete podataka ....... 83
10.10. Sljedei koraci ....................................................................... 84
10.11. Rezultati uvoenja sustava .................................................... 84
11. Zakljuak ................................................................................... 86
Reference ............................................................................................. 88
5 / 95
1. Uvod
6 / 95
manji dio ulagao u sustave koji kreiraju informacije i znanje. Danas je
situacija obrnuta veina novca ulae se u kreiranje znanja i informacija te u
nove modele poslovanja, komuniciranja i prikupljanja podataka.
Trei razlog vrlo je povezan s drugim razlogom. Naime, sve velike kompanije
ive od svojih klijenata i kupaca te im primarni poslovni fokus postaje
klijentocentrian. Posljedica toga je prikupljanje sve vee koliine podataka o
svim moguim interakcijama putem svih kanala kontakta izmeu kompanije i
klijenta, podataka demografske, transakcijske i behavioristike prirode, koji
takoer slue za analizu i kreiranje informacija za podrku donoenju
poslovnih odluka.
7 / 95
Druga komponenta je sustav za planiranje i budetiranje koji omoguava
brzo, jednostavno i pouzdano kreiranje stratekih i operativnih planova te
budeta i predvianja.
8 / 95
podataka, platforme i algoritmi za ienje, konsolidaciju i ispravljanje
netonih podataka, o kojima e takoer biti rijei u ovom radu.
9 / 95
Prvi razlog je cijena takvih platformi koja je previsoka ak i za najvee
potencijalne klijente na tritu.
Drugi je razlog da veina kompanija nije svjesna koristi koje mogu dobiti od
ove vrste softverskih platformi.
10 / 95
U osmom poglavlju su ukratko opisane funkcionalnosti vodeih platformi za
poboljanje kvalitete podataka prisutnim na hrvatskom tritu.
11 / 95
2. Integracija podataka i aplikacija
12 / 95
business poslovnih modela putem Interneta, sve je vie i rasla potreba za
integracijom podataka iz razliitih sustava.
13 / 95
jednom dnevno u doba kada izvorni i ciljni sustavi nisu optereeni korisnikim
zahtjevima, najee tijekom noi. Koliine podataka koje se prebacuju su
srednje do velike, uz sloene transformacije.
14 / 95
Platforme za integraciju podataka su se kroz seriju akvizicija i spajanja ve
pomalo prorijedile (IBM je kupio Ascential, Business Objects je kupio Actu,
Oracle je kupio Sunopsis) [4], a i sam koncept se razvio prema potpunoj
integraciji podataka. Sa strane operativne integracije su doli i neki drugi
dobavljai poput Tibca [6]. Gartner kategoriju platformi za podatkovnu
integraciju definira kao platforme koje podravaju jednu ili vie navedenih
funkcionalnosti opisanih u tablici 2.1 [6].
15 / 95
Tip integracije Opis funkcionalnosti
Sinkronizacija podataka
Omoguavanje konzistentnosti na nivou baza podataka,
meu operativnim
u jednom ili dva smjera, unutar tvrtke ili prema okruenju
aplikacijama
16 / 95
2.2. Nejednakost podataka i upravljanje matinim
podacima
17 / 95
2.3. Integracijski centri kompetencije
Osnovna ideja koja stoji iza ovog koncepta je da postoji sredinje mjesto u
organizaciji koje se brine za integraciju aplikacija i podataka, organizacijska
jedinica sa skupinom ljudi i platformom ili platormama s kojima mogu
rjeavati integracijske izazove svih triju tipova, umjesto da se svaki zadatak
integracije sustava gleda kao zaseban problem.
18 / 95
Jedna vrlo jednostavna analogija koja se moe primijeniti je analogija prema
avio-prijevozu i takozvanom hub and spoke konceptu po kojem u svakoj
regiji postoji veliki, centralni tranzitni aerodrom (poput Frankfurta u Europi ili
Hong Konga na Dalekom istoku) koji je spojen sa svim lokalnim i velikim
globalnim aerodromima i koji omoguava da se s jednim presjedanjem moe
doi iz Zagreba do bilo kojeg dijela svijeta.
19 / 95
Slika 2.2: Interakcija meu sustavima u organizaciji s integracijskim centrom
kompetencije
20 / 95
Najjednostavniji model je model projektne optimizacije. U tom modelu nema
dijeljenja resursa, ve se svi projekti vode zasebno. Tehnologija, procesi i
organizacija su nezavisni, ali satndardizirana organizacija i voenje projekata
omoguavaju kreiranje dodane vrijednosti u odnosu na organizacije bez
centraliziranih projektnih standarda.
21 / 95
Odabir prikladnog modela za pojedinu organizaciju ovisi o vie vanih
imbenika, od kojih svakako valja naglasiti postojeu organizaciju i
korporativnu kulturu te informacijsku infrastrukturu.
22 / 95
3. Definicije i pojanjenja bitnih pojmova
23 / 95
subjektno orijentiranih, integriranih, vremenski ovisnih i nepromjenjivih
podataka za podrku poslovnom odluivanju [3]. Svaka od ove etiri
znaajke zasluuje malo detaljnije pojanjenje, s osvrtom na utjecaj kvalitete
podataka.
24 / 95
organizacije. U praksi se zna deavati da doe do reorganizacije
tvrtke te da je zahtjev korisnika informacija da se trokovi iz prijanjih
godina prikazuju korisnicima prema novoj organizaciji. U tom sluaju
potrebno je poslovna pravila za alokaciju na podatke u skladitu
podataka iz prijanjih godina.
injenine tablice imaju velik broj zapisa, ponekad i desetke ili stotine
milijuna. Primjer injenine tablice je tablica ostvarene prodaje kupcima po
proizvodima. U injeninim tablicama se ne nalaze samo podaci iz
operativnih sustava, nego i dodatni kalkulirani podaci koji donose novu
poslovnu vrijednost. Tako u spomenutoj tablici prodaje se za svaki proizvod
moe dodati i nabavna ili proizvodna cijena te se izraunati kontribucija po
svakoj stavci i profitabilnost proizvoda i klijenta.
25 / 95
Kod uitavanja podataka u skladite vri se denormalizacija i optimizacija
podataka za analitike upite. Dva najzastupljenija naina modeliranja su
zvjezdasta (engl. Star) i pahuljiasta (engl. Snowflake) shema.
26 / 95
Slika 3.1.: Primjer Zvjezdaste (engl. Star) sheme
27 / 95
Slika 3.2.: Primjer Pahuljiaste (engl. Snowflake) sheme
28 / 95
korisnicima, koje u sluaju loeg dizajna i indeksiranja mogu znaajno
degradirati s poveanjem koliine podataka.
29 / 95
podaci poput PDF ili Word dokumenata ili e-mail poruka. Istraivanja kau da
tvrtka ima preko 80% podataka u nestrukuriarnim izvorima.
Drugu grupu ine podaci ije je porijeklo vezano za web servise i messaging
platforme. Oni su najee u nekoj od formi XML-a te se prilino jednostavno
uitavaju u skladite podataka.
30 / 95
3.4. Metapodaci
Vrlo esto velike tvrtke koriste vie razliitih softverskih proizvoda razliitih
tvrtki u procesu kreiranja i koritenja analitikih sustava te mogunost
razmjene metapodataka izmeu razliitih platformi moe utedjeti i vrijeme i
resurse pri implementaciji.
31 / 95
3.6. Izvjetajni i analitiki sustavi
32 / 95
3.7. OLAP
33 / 95
Prednost relacijskog izvjetavanja pred OLAP-om je u injenici da ne postoji
faza izgradnje viedimenzionalne kocke, koja kod kreiranja kocaka od stotina
milijuna zapisa moe biti jako dugotrajna. S druge strane, mogunosti analize
koje prua OLAP su daleko vee.
34 / 95
Za dubinsku analizu podataka izuzetno je bitno imati kvalitetne podatke,
budui da predikitvni modeli bazirani na nekvalitetnim i nekonsolidiranim
podacima nee davati kvalitetne rezultate.
35 / 95
Implementacija sustava za upravljanje matinim podacima je vrlo esto
potrebna u velikim meunarodnim korporacijama kako bi se omoguio uvid u
odnos s klijentom na razini korporacije kroz sve sustave ili kako bi se mogla
pratiti prodaja istog proizvoda na razliitim tritima. U Hrvatskoj sustav za
upravljanje matinim podacima koristi Agrokor, a u drugim velikim tvtkama
poput Hrvatskog Telekoma, Hrvatske Pote ili Zagrebakog Holdinga planira
se uvoenje sustava za upravljanje matinim podacima.
36 / 95
4. Kvaliteta podataka i informacija
37 / 95
4.2. Kvaliteta sadraja podataka
38 / 95
5. Upravljanje kvalitetom podataka
39 / 95
upravljanja za kvalitetu podataka, koji se bazira na tri osnovne komponente
ulogama, podrujima i odgovornostima koje su definirane za pojedinu
dimenziju kvalitete.
40 / 95
Naalost, u stvarnom ERP-u i transakcijskim sustavima to nije mogue.
Nekoliko faktora onemoguava da aplikacija bude jedino rjeenje za
probleme vezane za kvalitetu podataka.
Razlog zato osobe koje rade na razvoju aplikacije dvaput razmisle prije no
to se vrate u stari kod je da oni ne vide koristi od toga jer su fokusirani na
postojee zahtjeve i ne vide hitnost, ili bilo kakvu motivaciju da se vraaju u
stari kod i da ga mijenjaju kako bi rijeili tue probleme.
41 / 95
Kompanije koje implementiraju skladite podataka obino imaju nekoliko
aplikacijskih sustava koji imaju suelja na aplikacijskoj razini samo za
podatke koji se razmjenjuju, no glavni podaci nisu sinkronizirani.
42 / 95
najznaajniji pozitivan poslovni rezultat, stoga e u ovom radu biti dan
naglasak upravo na ovu priliku.
Postoje tri osnovne vrste takvih dimenzija, koje su vrlo detaljno obraene u
teoriji skladitenja podataka te nekoliko hibridnih pristupa koji koriste neke od
znaajki pojedinih osnovnih tipova. Nekad su potrebna i radikalnija rjeenja,
koja se mogu prikazati kroz nekoliko jednostavnih primjera.
Prvi je primjer uvoenje Eura kao nove valute u Europskoj uniji 2000. godine,
to je sve prole transakcije obavljene u bivim valutama uinilo
neupotrebljivim i neusporedivim s novim transakcijama. Prema tome, svi stari
rauni i fakture morali su se u skladitu podataka pretvoriti u iznose izraene
u Eurima.
43 / 95
povijesni podaci koji su ve uitani u skladite podataka moraju se pretvoriti i
transformirati tako da budu usporedivi s novim podacima u skladitu
podataka.
44 / 95
6. Pojmovi i algoritmi vezani za platforme za kvalitetu podataka
45 / 95
6.1. Oznaavanje
46 / 95
oznaen s koritenjem rjenika hrvatskih imena i prezimena imao oblik ime
prezime word, budui da se Smith ne nalazi u rjeniku hrvatskih imena i
prezimena.
1 b, f, p, v
2 c, g, j, k, q, s, x, z
3 d, t
4l
5 m, n
6-r
47 / 95
Ukoliko se znak s istom kodom pojavi dvaput za redom, koristi se samo
jedan kod. Takoer, maksimalna duina kodiranog niza je 4. Ukoliko je niz
krai od 4, do kraja se nadopunjava s nulama.
48 / 95
6.3. Edit Distance algoritam
Edit Distance algoritam [9] kreira rezultat slinosti za dva niza podataka
izraunom minimalnog broja transformacija odnosno troka za
transformaciju jednog niza u drugi ubacivanjem, brisanjem ili zamjenom
pojedinih znakova. to je rezultat vei, vea je i slinost izmeu dva niza.
Ovaj algoritam daje najbolje rezultate kada se usporeuju nizovi koji sadre
jednu rije ili kratki tekstualni nizovi, poput imena ili kratkih adresa.
Kraljavieva Ul
Kraljevieva Ul.
Implementacija ovog algoritma u pseudo kodnoj funkciji, koja uzima dva niza
duljine m i n te izraunava rezultat slinosti, izgleda ovako [9]:
for i from 0 to m
d[i, 0] := i
for j from 1 to n
d[0, j] := j
49 / 95
for i from 1 to m
for j from 1 to n
if s[i] = t[j] then cost := 0
else cost := 1
d[i, j] := minimum(
d[i-1, j] + 1, //
deletion
d[i, j-1] + 1, //
insertion
d[i-1, j-1] + cost //
substitution
)
return d[m, n]
Dakle, ako su dva niza duljine sedam znakova potpuno jednaka, rezultat e
biti nula, ako se razlikuju u jednom znaku, rezultat e biti jedan, a ako se
razlikuju u svim znakovima, rezultat e biti sedam.
50 / 95
6.5. Jaro-Winkler Distance algoritam
Jaro distance algoritam daje izraun razliitosti, tj. distance dj dva niza s1 i s2,
kao:
gdje je:
dw = dj + (l * p * (1 dj))
gdje je:
51 / 95
Jaro-Winkler Distance algoritam jedan je od algoritama koji daje najbolje
rezultate. Kod implementacija na pojedinim platformama za poboljanje
kvalitete podataka vrlo se esto koristi reverzna logika, tako da se umjesto
konstante za uveavanje rezultata koristi konstanta za penalizaciju odnosno
umanjenje rezultata ukoliko prvih l znakova na poetku niza nisu istovjetni.
52 / 95
Ti algoritmi se vrlo esto koriste u obradi i analizi teksta, ne samo u
platformama za poboljanje kvalitete podataka, nego i kod prepoznavanja
govora i u prediktivnim modelima. Ovisno o aplikaciji, n-gram algoritam moe
raditi sa znakovima ili rijeima kao jedininim elementima. Google neke od
svojih algoritama za raspoznavanje i pretraivanje temelji na n-gram
algoritmima.
Pojednostavljeno, neizrazita logika koristi IF [A] AND [B] THEN [C] pristup da
bi dola do rjeenja, umjesto uobiajenog matematikog modeliranja te je u
tome vrlo slina ljudskom nainu zakljuivanja. Vano je primijetiti da nema
ELSE opcije te da su u neizrazitnoj logici sve alternative definirane.
Kao primjer se moe koristiti ovjek koji se tuira i situacija da je voda koju
koristi prehladna i postaje sve hladnija, gdje bi neizrazitna logika dala
sljedee rezultate:
2) IF [voda je jako hladna] AND [voda postaje hladnija] THEN [brzo pojaaj
toplu vodu]
53 / 95
U ovom logikom procesu nigdje egzaktno nije definirana temperatura vode i
brzina hlaenja vode, ali zakljuci koji su izvedeni su potpuno logini. Ovakva
logika koristi se kod neegzaktnih premisa, ali ipak u implementaciji zahtijeva
numerike varijable koje ocjenjuju iznos nepreciznosti.
54 / 95
7. Proces poboljanja kvalitete podataka
Analiza i profiliranje,
Standardiziranje i ispravljanje,
Obogaivanje,
Uparivanje i
Preivljavanje.
U nastavku ovog poglavlja svaki od tih koraka biti e detaljnije opisan, kako
bi kasnije u radu bio napravljen prikaz kako su konkretno implementirani.
55 / 95
ovaj nain pomau pri utvrivanju razine trenutne kvalitete podataka i pri
odluivanju koje bi aktivnosti za poboljanje kvalitete podataka trebalo uzeti u
obzir kod sljedeih koraka. Profiliranje je vrlo mono sredstvo za
razumijevanje sadraja podataka. Osim vrijednosti i frekvencija pojavljivanja
pojedinih vrijednosti, alati za profiliranje omoguavaju mnoge druge
funkcionalnosti, poput profiliranja upita koji povezuju vie tablica, grafikog
prikaza vrijednosti te kreiranje pravila za standardizaciju i validaciju koja
poboljavaju vrijednost i razumljivost izraenog profila.
Kao primjer takve analize, uzorak broja pojavljivanja nekih uobiajenih rijei u
sluajnom uzorku od 8.000 adresa prikazan je u Tablici 7.1.
00000085 B
00000050 BANA
00000157 BRAE
00000116 BRDO
00000112 BREG
00000088 BRIJEG
00000306 CESTA
00000089 D
00000059 DOL
00000085 DON
00000114 DONJA
00000076 DONJE
00000243 DONJI
56 / 95
7.2. Standardizacija i korekcija
2 Kuni broj
/ Separator
3 Kat
57 / 95
1) Kraljavieva nije vaee ime ulice pa e se zamijeniti s
Kraljevieva, temeljeno na slinosti uzorka netono napisane i
ispravne vrijednosti.
7.3. Dopunjavanje
Primjerice, ako adresa kupca ima vaee ime grada, moe se dopuniti s
vaeim potanskim brojem, upanijom ili regijom. Takoer, imena se mogu
nadopuniti odgovarajuim prefiksima za oslovljavanje.
Ovaj se korak ne koristi esto zbog toga to se veina dopuna moe obaviti u
fazi standardizacije i korekcije.
7.4. Uparivanje
Obino se proces uparivanja obavlja kroz nekoliko faza. U svakoj fazi koristi
se jedan ili vie atributa za blokiranje dijelova skupova zapisa koji e se
58 / 95
upariti te se analizira jedan ili vie atributa kako bi se otkrilo da li su oni
dovoljno slini da bi se radilo o podacima vezanim za istu osobu ili
kuanstvo.
Osim zapisa koji sigurno predstavljaju iste subjekte, postoje i parovi koji
moda predstavljaju iste subjekte, odnosno relativna slinosti ima vrijednost
manju od praga slinosti, a veu od praga sigurne razliitosti. Za takvo
uparivanje koristi se engleski izraz clerical. Kod takvih uparivanja potrebna je
ljudska intervencija kako bi se potvrdilo ili opovrgnulo da je rije o pravom
uparivanju te se za to najee koriste web suelja koja su standardni dio
funkcionalnosti vodeih platformi za poboljanje kvalitete podataka.
Slika 7.1. Informatica Data Quality Assistant primjer web aplikacije u kojoj
poslovni korisnik potvruje predloeno uparivanje
59 / 95
7.5. Preivljavanje
60 / 95
8. Dobavljai i platforme za poboljanje kvalitete podataka
61 / 95
Drugi razlog je problem s pravilima potrebnima za to da platforme pravilno
rade s imenima i adresama. Pravila su specifina za pojedine jezike i drave,
a veina je dobavljaa kreirala i prilagodila ova pravila za SAD i nekoliko
najvanijih svjetskih jezika engleski, njemaki, francuski i panjolski te u
zadnje vrijeme sve ee i za jezike Dalekog Istoka.
U Hrvatskoj su formalno prisutni SAS i SAP, ali nisu bitnije usmjereni prema
implementaciji rjeenja za poboljanje kvalitete podataka.
62 / 95
U novijim verzijama, unazad nekoliko godina, QualityStage je integriran s
DataStage platformom za integraciju podataka te veina ovih problema osim
specifinog programskog jezika u aktualnim verzijama vie nije prisutna
63 / 95
Slika 8.1. Informatica Data Quality Analyst suelje u web pretraivau
namjenjeno primarno poslovnim korisnicima
Oracle nikada nije imao ozbiljniji fokus na razvoj ili akviziciju specifine
platforme za poboljanje kvalitete podataka. Oba njihova proizvoda za
integraciju podataka imaju neke osnovne funkcionalnosti za poboljanje
kvalitete podataka, ali u obimu i kvaliteti koja nije usporediva s platformama
Informatice i IBM-a.
64 / 95
Pristup Oraclea se najee temeljio na rjeenjima u kojima se kao ugraena
funkcionalnost (engl. OEM original equipment manufacturer) koristi neka od
postojeih platformi na tritu. Ovisno o tome da li je neko rjeenje plod
internog razvoja ili je dolo kroz akviziciju kojih je Oracle napravio vrlo mnogo
u proteklih desetak godina u razliitim podrujima, najee su u Oracleovim
rjeenjima ugraene platforme Informatice i Trilliuma.
Fuzzy Grouping uzima set ulaznih podataka, unutar njih pronalazi grupe
zapisa koje smatra jednakima te ih sukladno tome u izlaznom setu grupira.
Kod obje transformacije moe se podesiti koji e se znakovi smatrati
graninicima te podesiti prag minimalne slinosti.
65 / 95
Iako je rije o elementarnoj funkcionalnosti uparivanja i deduplikacije, u
odreenim sluajevima na projektima ove transformacije su se ve pokazale
izuzetno korisnima, pogotovo kod konsolidacije matinih podataka o
klijentima koji dolaze iz vie razliitih operativnih aplikacija.
66 / 95
9. Proces lokalizacije i izrade pravila za Hrvatsku
67 / 95
1) Dictionary File definira polja za izlaznu datoteku ili tablicu skupa pravila.
Ova datoteka sadri listu domena i polja za uparivanje i izvjetavanje.
Svako polje je identificirano pomou kratice, na primjer IG za Ime Grada.
Ovdje se takoer mogu pronai informacije o tipu podataka (npr.
character) i njihovoj duljini.
68 / 95
Da bi se dovrila lokalizacija pravila za hrvatski jezik, potrebno je kreirati tri
od pet opisanih komponenti: Klasifikacijsku tabelu, Lookup tablice i Pattern-
Action file. Dictionary File koji definira strukturu je uglavnom isti kao i za
skupove pravila za druge jezike. Override tablice se kreiraju u izvrnom
okruenju, s ciljem finog podeavanja pravila. Naalost, javni izvori koji mogu
pomoi pri kreiranju Lookup i Klasifikacijskih tablica nisu dostupni, osim liste
hrvatskih potanskih ureda.
AV AVENIJA
AVENIJA AVENIJA
OD ODVOJAK
ODV ODVOJAK
ODVOJAK ODVOJAK
OGRAN OGRANAK
OGRANAK OGRANAK
UL ULICA
ULICA ULICA
ET ETALITE
ETAL ETALITE
ETALITE ETALITE
69 / 95
Lookup tablica za svako se pravilo kreira na slian nain kao i Klasifikacijska
tablica. Primjerice, za kreiranje Lookup tablice za osobna imena biti e
koritena razliita imena iz nekoliko velikih izvora. Ovu bi listu trebalo
detaljno provjeriti i utvrditi ima li nepravilno napisanih imena, moguih
prezimena ili pak nehrvatskih imena.
Ovo iziskuje mnogo vie vremena nego kreiranje Lookup tablica. Isto tako,
Klasifikacijske tablice zahtijevaju s vremenom mnogo vie odravanja.
Na slici 9.1. prikazan je izvadak koda koji obrauje samo jednu proceduru
kod obrade hrvatskih adresa. Cijela Pattern-Action datoteka ima vie od dvije
tisue redova programskog koda.
70 / 95
;--------------------------------------------------------
-----
; Floors_and_Units SUBROUTINE Starts Here
;--------------------------------------------------------
-----
\SUB Floors_and_Units
; Floor and Unit Patterns
;
*F | ^ | $ | [ {FT} = "" & {FV} = "" ]
COPY_A [1] {FT}
COPY [2] {FV}
RETYPE [2] 0
RETURN
*U | ^ | $ | [ {UT} = "" & {UV} = "" ]
COPY_A [1] {UT}
COPY [2] {UV}
RETYPE [1] 0
RETYPE [2] 0
RETURN
\END_SUB
Slika 9.1.: Primjer procedure za obradu katova kao dijela adrese u Pattern-
Action Fileu u IBM QualityStage
Kad se kreiraju sve potrebne tablice i pravila, moe zapoeti faza testiranja i
podeavanja pravila. Ova faza oduzima mnogo vremena. Izlazne vrijednosti
procesa standardizacije usporeuju se s ulazima kako bi se pronali oni koji
nisu definirani ili nisu na odgovarajui nain obraeni u Pattern-Action Fileu.
IBM QualityStage ima kao dio korisnikog suelja ugraenu i funkcionalnost
za testiranje pravila, koja uneeni slijed znakova obrauje s odabranim
pravilom i prikazuje povratne rezultate.
71 / 95
Slika 9.2.: Funkcionalnost testiranja pravila u IBM QualityStage platformi
72 / 95
9.2. Informatica Data Quality
Referentne tablice korisnik sam kreira, sadraj unosi direktno kroz web
suelje ili uvozi iz datoteka koritenjem jednostavnog arobnjaka. U
referentne tablice se osim navedenog sadraja koji je vezan za korisnike i
adrese moe unositi i drugi sadraj koji omoguava poboljanje kvalitete
podatak iz drugih domena, poput kodova i naziva proizvoda i slino.
73 / 95
Slika 9.4.: Funkcionalnost izrade preslikavanja za kvalitetu podataka u
Informatica Data Quality Developer konzoli
74 / 95
Slika 9.4.: Funkcionalnost predloaka adresnog modela u Informatica Data
Quality platformi
75 / 95
10. Studija sluaja T-Mobile Hrvatska
76 / 95
Slijedom navedenog, zapoet je projekt implementacije skladita podataka
iji je sadraj bio namjenjen prvenstveno rukovoditeljima i poslovnim
korisnicima za donoenje pravovremenih i kvalitetnih poslovnih odluka,
putem koritenja pravovremenih i pouzdanih informacija. Na podacima iz
skladita podataka nadograuje se snana podrka za sustav poslovne
inteligencije.
77 / 95
Pojedine komponente sustava su sljedee:
78 / 95
postojeih podataka o klijentima i adresama iz postojeih operativnih
sustava.
79 / 95
podataka, a 6 je na raspolaganju za procese integracije podataka i
produkcijski privremeni spremnik. Ova dva vora nalaze se u klasteru te u
sluaju da jedan vora nije dostupan drugi e preuzeti funkciju oba vora. Od
preostala etiri procesora, po dva procesora alocirana su za razvojnu i testnu
instancu skladita podataka.
80 / 95
Kao osnova za modeliranje skladita podataka koriten je standardni
industrijski model skladita podataka za mobilne operatere tvrtke ADRM.
Kako je navedeni model bio razvijen temeljem poslovne prakse
sjevernoamerikih operatera, zahtijevao je znatnu doradu za potrebe projekta
u T-Mobile-u Hrvatska. Kao front-end platforma za izvjetavanje koriten je
Business Objects.
81 / 95
Treneri su osigurali pravovremeni transfer znanja na djelatnike T-Mobilea,
kroz teajeve, kroz praktine radionice i zajedniki rad na razvoju procedura.
82 / 95
Slika 10.2.: Model T-Mobile DWH sustava
83 / 95
tablica u kojoj se nalaze ID-evi potencijalnih duplikata te pripadajui
koeficijent slinosti.
84 / 95
DWH sustav sadri kompanijske podatke prikupljene iz cijelog niza
produkcijskih sustava. Podaci se, sukladno potrebama, uvaju u detaljnom
i/ili u agregiranom obliku kroz dui vremenski period, kako bi se osiguralo
povijesno praenje i izvjetavanje. DWH sustav je optimiziran za operacije
nad velikom koliinom podataka i zadovoljavajui odziv prema krajnjim
korisnicima, a bitno je naglasiti kako je kvaliteta podataka u DWH sustavu
unaprijeena u odnosu na izvorine sustave te da se kontinurano
poboljaava i unapreuje.
85 / 95
11. Zakljuak
86 / 95
za poboljanje kvalitete podataka u realnom vremenu za potrebe
implementacije rjeenja za upravljanje matinim podacima.
87 / 95
Reference
[6] Ted Friedman, Mark A. Beyer, Eric Thoo: Magic Quadrant for
Data Integration Tools, 2010, Gartner Group
[8] Ted Friedman, Andreas Bitterer: Magic Quadrant for Data Quality
Tools, 2011, Gartner Group
[9] www.wikipedia.org
88 / 95
[13] Draen Oreanin, Kreimir iki, Fran Pregernik: Sustav za
normalizaciju i uparivanje podataka u Croatia Osiguranju, 2008,
Zbornik radova MIPRO konferencije
89 / 95
Osiguranje kvalitete podataka u skladitima podataka
Saetak:
Kljune rijei:
90 / 95
Data Quality Assurance in Data Warehouse
Summary:
The path from data to information and knowledge is not easy. On this path
there is always the problem of data quality. Data in operational systems are
always partly incomplete, inconsistent and inaccurate. During implementation
of data warehouse and business intelligence systems great attention must be
paid to the quality of data. Policies for data quality assurance, platforms and
algorithms for the cleaning, consolidation and correction of inaccurate data
were developed. Platforms for improving data quality are probably the least
explored and used group of analytical software in Croatia. Croatian market is
not big enough to be interesting to global suppliers to invest in the
development of localized rules for their platforms. None of the leading
platforms for improving data quality is ready to work with the names and
addresses specific to the Croatian language in the process of standardization
and cleansing. Before using these platforms need to create rules for Croatian
names and addresses. For some platforms, creating rules for the Croatian
language is not an easy process, because the architecture of the platforms is
not easy for creating extensions. This work shows the localization process
and creation of a set of rules for improving the quality of data for the two
leading platforms, and a practical example of implementation of the project in
a large Croatian company.
Keywords:
91 / 95
Draen Oreanin - ivotopis
92 / 95
InfoTrenda, Lidera i Banke. Kourednik je prvog hrvatskog nezavisnog web
centra za skladitenje podataka i poslovnu inteligenciju
www.skladistenje.com.
93 / 95
Draen Oreanin - Curriculum Vitae
Oreanin Drazen was born in Zagreb 1968. year. After primary school, he
graduated from Mathematics-Informatics High School V. Popovic (MIOC, the
present XV gimnasium) in 1986.. He graduated from the University of Zagreb
Faculty of Electrical Engineering and Computer Science in
Radiocommunications and Professional Electronics in February 1992. After
graduation he was employeed from 1992. in Zagrebaka banka.
His first experience in the field of systems for data warehousing and business
intelligence was in Zagrebaka banka where he participated in numerous
projects and developed applications for credit risk assessment and risk
management from 1994 until 1998 at the position of expert developer and
team leader. Afer that, he was employed in Kaptol Bank Group as Vice
president for information technology. Since 2000 he was working as Deputy
Director of IT department in Agrokor.
94 / 95
independent Croatian web center for data warehousing and business
intelligence www.skladistenje.com.
In recent years Draen has lectured several lectures within the course
"information system" for students EUCIP program organized by Algebra, and
as a lecturer at seminars "Decision Support Academy", organized by
Algebra.
95 / 95