You are on page 1of 51

DEBRECENI EGYETEM INFORMATIKAI KAR

INFORMCI TECHNOLGIA TANSZK

Intelligens Adattrhzak
Diplomamunka

Debrecen
2009.

Dr. Juhsz Istvn Csepei Csaba


egyetemi adjunktus programtervez-
matematikus szak
Intelligens Adattrhzak

1 TARTALOMJEGYZK
1 Tartalomjegyzk................................................................................................................... 2
2 Bevezets ............................................................................................................................... 4
3 Adattrhz koncepcik ........................................................................................................ 5
3.1 Mi az adattrhz? ................................................................................................................... 5
3.2 Az adattrhz jellemzi .......................................................................................................... 5
3.2.1 Trgyorientlt.........................................................................................................................5
3.2.2 Integrlt ..................................................................................................................................5
3.2.3 Nem illkony..........................................................................................................................6
3.2.4 Idben vltoz........................................................................................................................6
3.3 Operatv adatbzisok s az adattrhzak ................................................................................ 6
3.4 OLTP s OLAP rendszerek.................................................................................................... 8
3.5 Az adattrhz komponensei ................................................................................................. 10
3.5.1 Operatv forrs rendszerek ...................................................................................................10
3.5.2 tmeneti adattrol terlet...................................................................................................11
3.5.3 Adat megjelentsi terlet ....................................................................................................12
3.5.4 Adathozzfrsi eszkzk....................................................................................................13
3.6 Adatok az adattrhzban ...................................................................................................... 13
3.6.1 Adatok tpusai ......................................................................................................................13
3.6.2 Metaadatok...........................................................................................................................14
4 Adattrhz tervezs............................................................................................................ 14
4.1 Adattrhz architektrk ...................................................................................................... 14
4.1.1 Alap architektra..................................................................................................................15
4.1.2 Architektra egy sszestsi terlettel..................................................................................15
4.1.3 Architektra egy sszestsi terlettel s adatpiacokkal ......................................................16
4.2 Adattrhzak logikai s fizikai tervezse ............................................................................. 17
4.2.1 Logikai terv ..........................................................................................................................17
4.2.2 Fizikai terv ...........................................................................................................................18
5 Tbbdimenzis adatmodellezs......................................................................................... 18
5.1 Adatkockk .......................................................................................................................... 18
5.1.1 Kocka mveletek..................................................................................................................20
5.2 MOLAP architektra............................................................................................................ 23
5.3 ROLAP architektra............................................................................................................. 23
5.3.1 Dimenzitblk ....................................................................................................................24
5.3.2 Tnytblk............................................................................................................................25
5.3.3 Tnyek s dimenzik sszekapcsolsa.................................................................................27
5.3.4 ROLAP adatmodellek ..........................................................................................................28
5.3.5 Tbbdimenzis modelltervezsi folyamat ...........................................................................29
5.4 HOLAP architektra ............................................................................................................ 30
6 ETL folyamatok.................................................................................................................. 31
6.1 Adatok kinyerse a forrsrendszerekbl .............................................................................. 31
6.2 Adatok transzformcija ...................................................................................................... 33
6.3 Adatok betltse az adattrhzba ......................................................................................... 34
7 Intelligens Adattrhzak ................................................................................................... 34
7.1 zleti Intelligencia ............................................................................................................... 37
7.1.1 Az zleti intelligencia kategrii..........................................................................................39
7.2 Dntstmogat rendszerek, dnts hozs........................................................................... 40

IntelligensAdattrhzak 2/51
Intelligens Adattrhzak

7.3 Tudsfeltrs - KDD ............................................................................................................ 41


7.4 Adatbnyszat ...................................................................................................................... 42
7.4.1 Az adatbnyszat clja .........................................................................................................43
7.4.2 Adatok elfeldolgozsa........................................................................................................44
7.4.3 Adatbnyszati technikk.....................................................................................................46
8 sszegzs............................................................................................................................. 48
9 Ksznetnyilvnts ........................................................................................................... 49
10 brajegyzk ........................................................................................................................ 50
11 Irodalomjegyzk................................................................................................................. 51

IntelligensAdattrhzak 3/51
Intelligens Adattrhzak

2 BEVEZETS
Az informcis rendszerek s technolgik fejldsvel, a papr eszkzkkel dolgoz
irattrakat felvltottk a szmtgpes informatikai rendszerek, valamint egyre inkbb
elterjedt a gazdasgi, zleti, kzigazgatsi s kutatsi tranzakcik szmtgppel trtn
vgrehajtsa. Ez azt eredmnyezte, hogy naprl-napra tbb adat gylik ssze a vllalatok
adatbzisaiban. Az adatok mennyisge hihetetlen mrtkben nvekszik. Ez a
felhalmozd adatmennyisg gyakran inkbb akadlyozja, mint elsegtje a
tisztnltsnak, mindaddig, amg ezt a hatalmas adattmeget nem alaktjuk szmunkra
hasznos informciv s tudss.
Az adatok sokig hagyomnyos adatbzisokban, vagy rendszerezett knyvtri
llomnyokban gyltek. Ezeket az adatokat kezdetben operatv adatbzisra pl vezeti
informcis rendszerekben kezeltk. Ezutn krlbell kt vtizede kezdtek el
megjelenni az adattrhzak. Ennek egy klasszikus pldja, hogy Eurpa egyik
legnagyobb bankjba, a hollandiai ABN AMRO bankba az 1990-es vek elejn vezettek
be egy sikeres kezdeti adattrhz implementcit, de ennek a fejlesztsei mr az 1980-as
vek vgn megindultak.
Minden vllalat zleti rdekben ll, hogy minl tbbet tudjon meg magrl a vllalatrl,
gyfeleirl, s azok szoksairl. Ezrt nyilvnval, hogy a vllalat lete sorn
felgyleml adathalmazok elemzse s a bellk levonhat kvetkeztetsek stratgiai
eszkzknt szolglhatnak. Sok vllalat sikernek fontos alappillre, hogy stratgiai
mdon hasznlja ki az zleti intelligencia lehetsgeit s az adattrhzra pl
informatikai technolgikat. A vllalatok letben fontos, hogy a kritikus helyzetekben
helyes dntseket hozzanak. Az adattrhzban egy vllalat klnbz terleteirl, a
legnagyobb rszletessgig visszakereshet adatok troldnak. Az adattrhz legnagyobb
elnye, hogy az sszegyjttt adattengerbl a megfelel mdszerekkel segtsget
nyjthatunk a vllalat szmra legjobb dntsek meghozatalhoz.
Diplomamunkm els fejezeteinek clja, hogy bemutatassam az adattrhzak alapvet
ismrveit, koncepcijukat, komponenseit, az OLTP s OLAP rendszereket. Ezek utn
rtrek az adattrhzak architektrjnak, az adattrhz adatok feldolgozsnak, valamint
az adattrhz ptsnl alkalmazott adatmodellek bemutatsra. Vgezetl pedig
ismertetem az intelligens adattrhzakat s a hozzjuk kapcsold technolgikat.

IntelligensAdattrhzak 4/51
Intelligens Adattrhzak

3 ADATTRHZ KONCEPCIK

3.1 Mi az adattrhz?
Az adattrhzak olyan adatbzisok, melyeket inkbb lekrdezsek s elemzsek
vgrehajtsra terveztek, mint a tranzakcik feldolgozsra. Ez legfkpp tranzakcis
adatokbl nyert hisztorikus adatok feldolgozst foglalja magba, de ezek az adatok
gyakran szrmazhatnak ms forrsbl. Klnvlasztja az elemzsi munkatemet a
tranzakcis munkatemtl, s lehetv teszi a szervezetek szmra, hogy a tbb forrsbl
szrmaz adatokat egyestse.
A relcis adatbzisokhoz kpest az adattrhzak krnyezete magba foglal kivonatolsi,
szlltsi, feldolgozsi s betltsi (ETL) megoldsokat, egy online elemzsi feldolgoz
motort (OLAP), kliens-elemzsi eszkzket, valamint ms alkalmazsokat, melyek
kezelik az sszegyjttt adatok feldolgozst, s tovbbtjk azokat az zleti felhasznlk
fel.
Az adattrhzak bemutatsnl gyakran hivatkoznak a William Inmon ltal
meghatrozott adattrhz jellemzkre. Ezek alapjn egy adattrhz
trgyorientlt,
integrlt,
nem illkony,
idben vltoz.

3.2 Az adattrhz jellemzi

3.2.1 Trgyorientlt

Az adattrhzak clja, hogy segtsen az adatok elemzsben. Pldul, ha tbbet akarunk


megtudni egy cg eladsi adatairl, akkor pthetnk egy adattrhzat, mely a begyjttt
adatokat az elads szempontjbl vizsglja. Egy ilyen adattrhzat hasznlva, vlaszt
kaphatunk pldul olyan krdsekre, hogy ki volt a legjobb fogyasztnk egy adott
termkre vonatkozan a legutbbi vben.

3.2.2 Integrlt

Az integrltsg szorosan kapcsolatban van a trgyorientltsggal. Az adattrhznak a


klnbz forrsokbl szrmaz adatokat egysges formba kell transzformlnia. Meg
kell oldani az elnevezsi konfliktusokat, valamint a mrtkegysgeket egysgesteni kell.
Mikor ezt elrtk, akkor mondhatjuk, hogy adataink integrltak. Az adattrhzak a

IntelligensAdattrhzak 5/51
Intelligens Adattrhzak

szervezet zleti s egyb informciit egysges formban tkrzik. Erre azrt van
szksg, mivel a klnbz idben, klnbz clokra ksztett alkalmazsokhoz nagyon
sokfle tpus informcit trolnak az operatv adatbzisok, s elfordulhat, hogy az
egyik alkalmazsban ugyanazt az egyedet mskppen nevezik, mint egy msik
alkalmazsban. Az adattrhzak egyik leglnyegesebb tulajdonsga, hogy az informcit
egysgestve, konzisztens formban troljk, azaz minden egyed csak egy nvvel
szerepelhet az adatbzisban.

3.2.3 Nem illkony

A nem illkonysg szmunkra azt jelenti, hogy amelyik adat egyszer bekerlt az
adattrhzba, azok a tovbbiakban nem fognak vltozni. Ez logikus, hiszen az adattrhz
clja, hogy lehetv tegye szmunkra, hogy az adatok elemzsvel kvetkeztessnk
mltbli trtnsekre. Az adattrhz adatait csak lekrdezsekhez hasznljuk, s soha
sem mdostjuk, legfeljebb jabb idpontokhoz tartoz rekordokkal bvtjk. Az
adattrhzakat ms operatv adatbzisokbl tltjk fel adatokkal, s amennyiben a
vgfelhasznl mdostani szeretn az adatait, azt csak az operatv adatbzisokon
keresztl teheti meg, mivel csak ezekben lehet frissteni, megvltoztatni vagy trlni
adatokat. A mdostott adatok aztn jabb betltssel, j idponthoz tartoz adatokknt
kerlnek be az adattrhzba.

3.2.4 Idben vltoz

Annak rdekben, hogy trendeket fedezhessenek fel, az elemzknek nagy mennyisg


adatra van szksgk. Ez teljesen ellenttes az online tranzakci feldolgoz
rendszerekkel (OLTP), ahol a teljestmny megkveteli azt az ignyt, hogy a hisztorikus
adatokat archivljuk. Az adattrhzak figyelembe veszik az adatok idbeli vltozst.

3.3 Operatv adatbzisok s az adattrhzak


A legtbb szervezet nagy adatbzisokat mkdtet a napi gyletek lebonyoltsra, illetve
felgyeletre. Ezeket a mindennapi zemeltetshez szksges adatbzisokat operatv
adatbzisoknak hvjuk. Az operatv adatbzisokat ltalban nem arra a clra tervezik,
hogy hossz trtneti adatokat troljanak vagy segtsgkkel nagyon sszetett
lekrdezseket gyorsan meg lehessen vlaszolni, hanem arra, hogy a napi gymenethez
szksges alkalmazsokat tmogassk.

IntelligensAdattrhzak 6/51
Intelligens Adattrhzak

Az adattrhz egy msik tpus adatbzist jelent. Az adattrhzakat eleve stratgiai


dntsek tmogatsra tervezik, mindazonltal az adattrhzakat ltalban operatv
adatbzisokbl vagy azok rszeibl ptik fel. Az adattrhzak mg a szoksos
adatbzisoknl is sokkal tbb adatot tartalmaznak. A rekordok szma tbb millird is
lehet. (Az ennl kisebb mret, helyi adattrhzakat adatpiacoknak hvjuk.)
Az adattrhz vglis egy adatbzis, melyet az adott szervezet operatv adatbzistl
elklnlten tartanak fenn. Az adattrhz-rendszer lehetv teszi klnbz felhasznli
rendszerek integrcijt. Az informcifeldolgozst is tmogatja az elemzs cljra
felhasznlhat, egyestett, trtneti adatok biztostsval. Konkrtan megfogalmazva az
adattrhz egy olyan dntstmogat s informci-feldolgoz egysg, melyet kln
zemeltetnek a szervezet mkdshez kapcsold adatbzistl, s megbzhat,
feldolgozott, hisztorikus elemzsek cljbl sszegyjttt adatokat tartalmaz.
Az egyik legjelentsebb klnbsg a kt fajta rendszer kztt, hogy az adattrhzak
ltalban nincsenek harmadik norml formban. Az adattrhzak s az operatv
tranzakcis rendszerek eltr kvetelmnyeket tmasztanak. me, nhny klnbsg a
tipikus adattrhzak s operatv rendszerek kztt:
Munkateher (Workload)
Az adattrhzakat arra terveztk, hogy ad-hoc lekrdezseket futtassanak le
bennk. Lehetsges, hogy nem ismerjk elre az adattrhzunk munkaterht, gy az
adattrhzat optimalizlni kell, hogy a sokfle lekrdezsi mveleteket minl jobb
teljestmnnyel vgrehajthassk
Az operatv rendszerek csak az elre meghatrozott mveleteket tmogatjk.
Adatok mdostsa
Az adattrhzakat rendszeresen frisstik ETL folyamatok segtsgvel,
(jszaknknt vagy hetente) az mlesztett adatmdostsok technikjval. A
vgfelhasznlk nem rik el a legfrissebb adatokat, csak azokat, amik mr
bekerltek az adattrhzba.
Az operatv rendszerekben a vgfelhasznlk rutinszeren adjk ki adatmdost
utastsokat az adatbzisnak. Az operatv adatbzis mindig napraksz, s az egyes
zleti tranzakcik aktulis llapott tkrzi.
Sma design

IntelligensAdattrhzak 7/51
Intelligens Adattrhzak

Az adattrhzak gyakran hasznlnak denormalizlt vagy rszlegesen denormalizlt


smkat (mint pldul a csillag-sma), hogy optimalizljk a lekrdezsek
teljestmnyt.
Az operatv rendszerek gyakran hasznlnak teljesen normalizlt smt, hogy
gyorstsk az update/insert/delete utastsokat, s hogy garantljk az adatbzis
konzisztencit.
Jellemz mveletek
Az tlagos adattrhz mveletek tbb ezer, vagy akr tbb milli sort rintenek.
Egy operatv rendszerben a mveletek csak nhny rekordot rintenek.
Hisztorikus adatok
Az adattrhzak rendszerint tbb hnapos, tbb ves adatokat trolnak. Ennek
clja, hogy tmogassa az adatok trtneti elemzst.
operatv rendszerben az adatokat ltalban pr htig vagy hnapig troljk. Az
operatv rendszerekben csak akkor trolnak trtneti adatokat, ha azok teljes
mrtkben megfelelnek az aktulis tranzakcinak.

3.4 OLTP s OLAP rendszerek


Az on-line operatv adatbzisrendszerek f feladata, hogy vgrehajtsk az online
tranzakcikat s feldolgozzk a lekrdezseket. Az ilyen rendszereket OLTP (Online
Transaction Processing, online tranzakci feldolgoz) rendszereknek hvjuk. Ezek lefedik
egy szervezet legtbb naponta hasznlt mvelett.
Ezzel szemben az adattrhzak a felhasznlkat, a szakrtket az adatelemzs s
dntshozs feladatban segtik. Ezek a rendszerek eltr felhasznli ignyeknek
megfelelen sokfle formban kpesek rendszerezni s bemutatni az adatokat. Ezekez a
rendszereket OLAP (online analitikus feldolgoz) rendszereknek nevezzk.
Az OLTP s OLAP rendszerek f megklnbztet jellemzi a kvetkezkppen
foglalhatak ssze:
Felhasznl- s rendszerorientlt: Az OLTP rendszer gyflorientlt, s az
gyintzk, kliensek, illetve informcitechnolgiai szakemberek hasznljk a
tranzakcik s a lekrdezsek feldolgozsi cljra. Az OLAP rendszerek
piacorientlt, s szakrtk, elemzk, vezetk hasznljk adatelemzs cljbl.
Adattartalom: Az OLTP rendszer napraksz adatokat kezel, amelyek jellemzen tl
rszletesek ahhoz, hogy a dntshozsban knnyen hasznlhatak legyenek. Az

IntelligensAdattrhzak 8/51
Intelligens Adattrhzak

OLAP rendszer nagymennyisg trtneti adatot kezel, lehetsget nyjt az


sszefoglalsra s az sszestsre, s az informcikat klnbz finomsgi
szinteken trolja s kezeli. Ezek a jellemzk megknnytik, hogy az adatokat
krltekint dntshozatal sorn hasznljk.
Adatbzis-szerkezet: Az OLTP rendszer ltalban Egyed-Kapcsolat(ER Entity
Realationship) adatmodellt s alkalmazsorientlt adatbzis-szerkezetet hasznl.
Egy OLAP rendszer jellemzen csillag vagy a hpehely adatmodellt s
tmaorientlt adatbzis-szerkezetet alkalmaz.
Nzpont: Az OLTP rendszer fleg a vllalaton vagy rszlegen belli aktulis
adatokra koncentrl, trtneti adatokra, vagy ms szervezetek adataira val utals
nlkl. Ezzel szemben az OLAP rendszer gyakran tvel az adatbzissma tbb
verzijn is. Olyan informcikkal dolgoznak, amelyek tbb klnbz forrsbl
szrmaznak, egyestve az informcikat. Az OLAP adatokat hatalmas mennyisgk
miatt gyakran tbb adathordozn troljk.
Hozzfrsi mintk: Az OLTP rendszerekhez val hozzfrs fleg rvid, egyszer
tranzakcik jelentik. Egy ilyen rendszer konkurenciavezrl s helyrellt
mechanizmusokat ignyel. Az OLAP rendszerekhez val hozzfrseket azonban
zmben csak olvas (read-only) mveletek jelentik (mivel a legtbb adattrhz
inkbb trtneti, mint napraksz informcikat trol), br ezek kztt sok sszetett
lekrdezs is elfordulhat.

Tovbbi jellemzk amik az OLTP s OLAP rendszereket egymstl megklnbztetik,


az adatbzis mrete, a mveletek gyakorisga, valamint hogy mi alapjn mrjk a
teljestmnyt.

TULAJDONSG OLTP OLAP

Jellegzetessg Operatv feldolgozs Informci feldolgozs

Orientci Tranzakci Elemzs

Funkci Napi mveletek Hossz tv informcis ignyek,


dntstmogats

IntelligensAdattrhzak 9/51
Intelligens Adattrhzak

Adatbzissma ER alap, alkalmazsorientlt Csillag/hpehely, tmaorientlt

Adatok Aktulis, a legfrissebbek Trtneti, folyamatos pontosts

Elrs Olvass/rs Fleg olvass

Fkusz Adatok begyjtse Informci kiadsa

Elrt rekordok Tzes nagysgrend Millis nagysgrend

Felhasznlk szma Ezres nagysgrend Szzas nagysgrend

Adatbzis mrete GB-os nagysgrend 100GB TB-ig

Teljestmny Tranzakcis teljestmny Lekrdezs vgrehajtsnak


mrtke hatkony-sga, vlaszid

3.5 Az adattrhz komponensei


Ebben a fejezetben megvizsgljuk az adattrhz komponenseit, melyekbl felpthetjk
az adattrhz krnyezetet. Hasznos lehet, hogyha jl megrtjk az egyes rszeket mieltt
elkezdnk azokbl adattrhzat pteni. Minden sszetev egy-egy jl meghatrozott
funkcit szolgl. Az egyik legnagyobb fenyegets, amivel szembe tallkozhatunk az
adattrhz ptsnl, az, hogy sszekeverjk az egyes komponensek szablyait s
funkciit.[3]
Ahogyan az 1. bra is mutatja, ngy klnbz komponenst fogunk megvizsglni:
operatv forrs rendszerek, tmeneti adattrol terlet, adat megjelentsi terlet s
adathozzfrsi eszkzk.

3.5.1 Operatv forrs rendszerek

Ezek a rendszerek az zleti tranzakcik ltal ltrehozott s mdostott rekordokat


tartalmaz operatv rendszerek. A forrs rendszereknek az adattrhzon kvl kell
lennik, mert elfordulhat, hogy elvesztjk az adattartalmak s az adatformzsok feletti
ellenrzsnket. A forrs rendszerek f prioritsa a feldolgozsi teljestmny s az
elrhetsg biztostsa. Az operatv rendszereknek nem az a clja hogy hossz tv
trtneti adatokat troljanak. Ha az operatv rendszerek mellet van egy j adattrhz,
akkor a forrsrendszereket felmenthetjk a sok trtneti adat trolsnak felelssge all.
A forrs rendszerek gyakran megosztanak ltalnos adatokat , mint pldul

IntelligensAdattrhzak 10/51
Intelligens Adattrhzak

termkadatok, fogyasztk adatai, fldrajzi adatok a szervezeten bell ms operatv


rendszerekkel. Nagyszer lenne, ha ezeket a forrs rendszereket konzisztens nzettel jra
lehetne tervezni. Pldakpp, egyfle alkalmazs integrci (EAI - Enterprise Application
Integration) bevezetse az adattrhz tervezst sokkal knnyebb tehetn.

3.1. bra - Adattrhz komponensek

3.5.2 tmeneti adattrol terlet

Az adattrhz tmeneti adattrol terletnek (data staging area) feladata az adatok


ideiglenes trolsa, valamint az ETL (Extract Transform and Load) folyamatok
vgrehajtsa. A nyers adatok ttranszformldnak, az adattrhzba bevihet, a
felhasznli lekrdezseknek s felhasznlsnak megfelel adatokk. Termszetesen ez
az tmeneti terlet csak a megfelel szakemberek szmra rhet el, az adatok biztonsga
rdekben. Az adattrhz vgfelhasznli mr csak az adattrhznak megfelel,
adattrhzba bekerlt adatokhoz frhetnek hozz.
Az adatok kinyerse (extraction) az els lpse az adatok adattrhz krnyezetbe val
tltetsnek folyamatban. Ez a lps pontosabban azt jelenti, hogy olvassuk s
rtelmezzk a forrsadatokat, majd azokat az adatokat, melyek szksgesek az
adattrhznak, tmsoljuk az tmeneti trol terletre, hogy tovbbi adattranszforml
mveleteket vgezhessnk el rajtuk.
Miutn az adat tkerlt az tmeneti terletre, szmos transzformcit vgeznek el rajta.
Ezek kz tartozik pldul az adattisztts (tartomnytkzsek feloldsa, hinyz
elemek ptlsa, egysges formra hozs), klnbz forrsokbl szrmaz adatok

IntelligensAdattrhzak 11/51
Intelligens Adattrhzak

egyestse, duplikcik megszntetse valamint kulcsok meghatrozsa. Ezek a


transzformcik mind elfutrai az adatok megjelentsei terletre val betltshez.
Az adatokon vgzett transzformcik utn az ETL folyamat utols lpse az adatok
betltse az adattrhz krnyezetbe. A betltsi folyamat sorn az tmeneti terletrl a
megfelel adatok ttltdnek az adatpiacokba. A betlts utn a frissen rkezett adatokat
indexelni kell a j lekrdezsi teljestmny elrshez.

3.5.3 Adat megjelentsi terlet

Az adatmegjelentsi terlet (data presentation area) az, ahol az adatok szervezetten s


elrheten troldnak, hogy a felhasznlk, jelents rk s analitikus alkalmazsok
kzvetlen lekrdezseket hajthassanak vgre rajtuk. Igazbl mr ezt nevezhetjk
adattrhznak, hiszen az itt lv adatokon mr semmilyen transzformci nem megy
vgbe. Itt tallhat minden olyan adat, amit a tovbbiakban az zleti kzssg lthat s
elrhet az egyes adatelrsi eszkzkn keresztl. Ez a megjelentsi terlet valjban
integrlt adatpiacok sorozatt foglalja magba. Az adatpiacokkal lnyegben az
adatmegjelentsi terletet rszekre osztjuk, particionljuk, hogy gy a cg, szervezet
klnbz ignyekkel rendelkez, elklnl rszeit megfelelen kiszolgljuk.
Az adatmegjelentsi terleten az adatokat dimenzis modellben troljuk. A dimenzis
modellezs egy rgi technika j elnevezse, melynek alapjai egyszerek s knnyen
megrthetk. Az 1970-es vekben IT-szervezetek, tancsadk, vgfelhasznlk s
forgalmazk gy vltk, hogy szksges egy olyan dimenzis struktra kitallsa, mely
illeszkedik az egyszersg irnti alap emberi szksgletre. A dimenzis modellezs
elgg klnbzik a harmadik norml formban trtn ER modellezstl (Entity-
Relationship modeling), melyet arra terveztek, hogy feldertsk s eltvoltsk az
adatredundancikat. Ebben az adatokat tbb klnll entitsokra osztjk, melyek egy-
egy tblt alkotnak a relcis adatbzisban. A normalizlt modellezs jl alkalmazhat az
operatv feldolgoz rendszerek teljestmnynl, hiszen egy mdost vagy beszr
utasts csak egy helyen rinti az adatbzist. A normalizlt modellek viszont tl
sszetettek lennnek egy adattrhzban vgrehajtott lekrdezsnek, s szemben llna az
adattrhzak azon cljval, hogy az adatokon trtn lekrdezseket a lehet
leghatkonyabban vgezhessk el.
Teht az adattrhzunkban a dimenzis modellezst kell megvalstanunk. Ha a
megjelentsi terlet relcis adatbzison alapszik, akkor a tblkat a csillagsma alapjn

IntelligensAdattrhzak 12/51
Intelligens Adattrhzak

rdemes ltrehozni. Ha viszont tbbdimenzis adatmodellt vall adatbzissal dolgozunk,


vagy a megjelentsi terlet az OLAP (on-line analytical processing) technikn alapszik,
akkor adatainkat adatkockkban kell trolnunk. A dimenzis modellezs mind relcis-
mind tbbdimenzis adatbzisok esetn is alkalmazhat. Mindkt esetben kzs logikai
tervet alkalmazhatunk a dimenzik felismersvel; habr a fizikai implementcik
eltrnek.

3.5.4 Adathozzfrsi eszkzk

Az adattrhz krnyezet utols komponense az adathozzfrsi eszkzk (data access


tools). Ebben a terminolgiban az eszkzk kifejezs azon klnbz lehetsgeket
foglalja magba, melyek segtsgvel az zleti felhasznlk elemzsi dntseket tudnak
hozni. gy is fogalmazhatnnk, hogy az adathozzfrsi eszkzk lehetv teszik az
adatok lekrdezst az adattrhzbl. Az adathozzfrsi eszkzk olyan egyszerek
lehetnek, mint egy eseti (ad-hoc) lekrdezs, vagy akr olyan bonyolultak is lehetnek,
mint egy kifinomult adatbnyszati alkalmazs. Leggyakrabban az zleti felhasznlk
valamilyen paramtervezrelt elemzsi alkalmazson keresztl rik el az adattrhz
adatait.

3.6 Adatok az adattrhzban


Az adatok klnbz varicikban troldnak a szmtgpeken. Az adatoknak csak
nhny tpusa teljesen megfelel arra, hogy adattrhzban trolhassuk ket. A fejezet
clja, hogy felfedjk az adatok tpusai kztti klnbsgeket, s hogy feltrjuk azokat a
tpusokat, melyek megfelelek az adattrhzakban val trolsra.

3.6.1 Adatok tpusai

Az adatokat megfogalmazhatnnk gy, hogy az zleti informcik virtualizlt


reprezentcii. Az adatoknak hrom szintjt klnbztethetjk meg, ha meg akarjuk
hatrozni az adattrhzak terjedelmt:
Jelents (Meaning)
A szmtgpes adatokat rgta alkalmazzk zleti tevkenysgek lefolytatsra s
kezelsre. Az ilyen adatokat zleti adatoknak (business data) nevezzk, melyek az
zleti tevkenysgek llapott brzoljk, s rtkk azon jelentsen alapszik, amit
reprezentlnak.

IntelligensAdattrhzak 13/51
Intelligens Adattrhzak

Az adatok egy msik tpusnak a fontossga gyorsan nvekszik. Az ilyen adatoknak


megvan a sajt lnyegi jelentsk, s rtkk inkbb az adat tartalmn alapszik,
mint azon, hogy mit reprezentl. Ezeket az adatokat termk, mint adat (data as
product) nven fogalmazhatnk meg, hiszen ezeket ellltjk, ruljk, eladjk
ugyangy, mint egy fizikai rtelemben vett termket. Erre pldaknt szolglhat a
digitlis formban trolt filmek vagy knyvek.
Vgl pedig vannak a metaadatok, melyek az adatok jelentst rjk le. Az ilyen
adatok csak azrt vannak, hogy zleti adatokat vagy termkeket hatrozzanak meg,
rjanak le.
Struktra (Structure)
Az adatok lehetnek jl-strukturltak, amikor a mezk s rekordok kztti jl-
meghatrozott kapcsolat van; vagy lehetnek nem-strukturltak, mely esetn a bels
struktra nagyon vltoz lehet. Valamint az adatok szerkezete lehet a kt
szlssges (teljesen strukturlt nem strukturlt) eset kztt.
Terjedelem (Scope)
Az adatok lehetnek szemlyes adatok, melyeket csak a tulajdonosa vltoztathat
meg. Valamint lehetnek nyilvnosak. A nyilvnos adatok tbb ember kztt meg
vannak osztva. Ekkor az adatok vltozsnak kezelse fokozott figyelmet ignyel.

3.6.2 Metaadatok

A metaadatok az adattrhz krnyezet olyan informcit hordoz adatai, melyek maguk


nem elemzend adatok. A metaadatokat az adattrhz egy enciklopdihoz
hasonlthatnnk. A metaadatok klnbz formban jelennek meg, hogy tmogathassk
az adattrhz technikai-, adminisztratv- s zleti felhasznl csoportjainak eltr
ignyeit. A metaadatok fontos szerepet jtszanak az adattrhzaknl. Kt csoportra
oszthatjuk ket: zleti- s technikai metaadatok. Az zleti metaadatok azt rjk le, hogy
mi van az adattrhzban. Ezzel ellenttben a technikai metaadatok magukat az
adatelemeket rjk le. Az ilyen tpus metaadatokat adatmodellezsre hasznljk.

4 ADATTRHZ TERVEZS

4.1 Adattrhz architektrk


Az adattrhzak s architektrjuk az adott szervezet helyzettl fgg. ltalban hrom
fle architektrt klnbztetnk meg:

IntelligensAdattrhzak 14/51
Intelligens Adattrhzak

Alap architektra
Architektra egy sszestsi terlettel
Architektra egy sszestsi terlettel s adatpiacokkal

4.1.1 Alap architektra

Az albbi bra mutatja az egyszer adattrhz architektrt. A vgfelhasznlk az


adattrhzon keresztl kzvetlenl hozzfrhetnek a klnbz forrsokbl ered
adatokhoz.

Adatforrsok Adattrhz Felhasznlk

Elemzs
Operatv rendszer

Metaadatok

Jelentsek
Operatv rendszer
sszegz adatok Nyers adatok

Adattrhz

Flat file-ok

Adatbnyszat

4.1. bra - Alap architektra

Az brn szerepl meta-adatok s nyers adatok egy hagyomnyos OLTP rendszerben


vannak jelen, mint ahogyan egy tovbbi tpus adatok, az sszegz adatok is. Ez utbbi
adatok nagyon fontosak az adattrhzban, hiszen hossz mveleteket elre kirtkelnek.
Ezeket az sszegzket Oracle-ben materializlt nzetnek hvjuk.

4.1.2 Architektra egy sszestsi terlettel

Az elz bra esetben meg kell tiszttani s fel kell dolgozni az adatokat mieltt
bekerlnek az adattrhzba. Ezt megoldhatnnk egy program futtatsval, br ltalban e
helyett inkbb egy sszestsi terlet-et alkalmaznak. Az sszestsi terlet egyszersti
az sszefoglalk s az ltalnos adattrhz kezels felptst. A kvetkez bra mutatja
ezt a tpus architektrt.

IntelligensAdattrhzak 15/51
Intelligens Adattrhzak

4.2. bra - Architektra egy sszestsi terlettel

4.1.3 Architektra egy sszestsi terlettel s adatpiacokkal

Br az ez elz brn szerepl architektra elg gyakori, mgsem lesz szmunkra


megfelel, ha az adattrhzunk architektrjt, az adott szervezeten belli klnbz
csoportoknak megfelelen akarjuk kialaktani. Ezt mg kiegszthetjk adatpiacokkal,
melyek olyan rendszerek, amelyeket egy-egy zleti vonalhoz terveztek.

4.3. bra - Architektra egy sszestsi terlettel s adatpiacokkal

IntelligensAdattrhzak 16/51
Intelligens Adattrhzak

4.2 Adattrhzak logikai s fizikai tervezse


Tegyk fel, hogy egy szervezet gy dnt, hogy adattrhzat pt. Ekkor a szervezetnek
meg kell hatroznia az zleti kvetelmnyeket, meg kell llapodniuk az alkalmazs
terjedelmben, valamint ltre kell hozni egy alaptervet. A kvetelmnyeket olyan
formban kell meghatrozni, hogy azok a rendszerben realizlhatak legyenek. Ehhez
ltre kell hozni az adattrhz logikai- s fizikai tervt, melyekben a kvetkezknek kell
szerepelnik:
konkrt adattartalom
adatcsoportok kztti kapcsolatok
az adattrhz ltal tmogatott rendszerkrnyezet
az adat-transzformci megkvetelse
az adatok frisstsnek gyakorisga

A logikai terv sokkal elmletibb s absztraktabb, mint a fizikai terv. A logikai tervezs
folyamn az objektumok kztti logikai kapcsolatokat trkpezzk fel. A fizikai tervezs
sorn meghatrozzuk a szmunkra leghatsosabb trolsi, valamint helyrelltsi mdokat
annak megfelelen, hogy hogyan kezeljk objektumainkat a szllts, biztonsgi msolat
ltrehozsa (backup) s a helyrellts (recovery) szemszgeibl.
A tervezs folyamn figyelembe kell venni a vgfelhasznlk ignyeit, akik
leggyakrabban elemzsekre s aggregt adatok megtekintsre hasznljk az adattrhzat.
Egy jl ltrehozott terv lehetv teszi a fejlesztsek s vltoztatsok bevezetst.

4.2.1 Logikai terv

A logikai terv elmleti s absztrakt. Ekkor mg nem kell trdnnk a fizikai


implementcis krdsekkel, hanem legfkpp azoknak az informcitpusoknak a
meghatrozsval, melyekre szksgnk lesz. Egy technika, mellyel modellezhetjk egy
szervezet logikai informci kvetelmnyeit, az egyed-kapcsolat modellezs (entity-
relationship modeling).
A logikai tervezs folyamn az adatokat olyan logikai kapcsolatok sorozatba
szervezzk, melyeket entitsoknak s attribtumoknak neveznk. Egy relcis
adatbzisban az entitsok tblkknt jelennek meg. Az attribtum az entits egy
sszetevje, mely lehetv teszi, hogy egyedi entitsokat definiljunk. Egy relcis
adatbzisban az attribtumok a tblk oszlopaiknt jelennek meg.

IntelligensAdattrhzak 17/51
Intelligens Adattrhzak

Hogy biztostsuk adataink konzisztencijt, egyedi azonostkat kell alkalmaznunk. A


fizikai tervben ezek az egyedi azonostk elsdleges kulcsokknt jelennek meg.
Habr az egyed-kapcsolat modellezst leginkbb a magasan normalizlt OLTP
alkalmazsok esetben alkalmazzk, ez a technika hasznos a dimenzi modellezs
(dimensional modeling) esetben is, melyet adattrhzaknl hasznlnak. A dimenzi
modellezsben ahelyett, hogy atomi informciegysgek s a kzttk lv kapcsolatok
feltrsval foglalkoznnk, feltrjuk azokat az informcikat, melyek egy kzponti
tnytblhoz s az ehhez tartoz dimenzi tblkhoz tartoznak.

4.2.2 Fizikai terv

A fizikai adatbzis tervezs a fizikai adatbzis struktra felptsre fekteti a hangslyt,


belertve az adatbzis krnyezet belltst valamint a megfelel biztonsgnyjtst.
Habr egy relcis adatbzis fizikai adatmodellje nagyon hasonlt a dimenzi modellhez,
a dimenzi modell tovbbi lehetsgeket biztost a cmzs tern, mint pldul
teljestmnyfokoz stratgik az indexelstl kezdve a partcionlsig s aggregciig.

5 TBBDIMENZIS ADATMODELLEZS
Az OLAP technolgia elsdleges clja a rendkvl gyors lekrdezsek vgrehajtsa, s
hogy a vlaszid a lehet legkevesebb legyen. Az OLAP rendszerekben fontos az lland
lekrdezsi teljestmny megrzse. Azaz a dimenzik szmnak s az adatbzis
mretnek nvelsvel a felhasznl ne tapasztaljon jelents teljestmnycskkenst.

5.1 Adatkockk
Az adattrhzak s az OLAP eszkzk tbbdimenzis adatmodellt vesznek alapul, amely
az adatot adatkockknak tekinti. Az adatkocka lehetv teszi, hogy az adatot tbb
dimenziban modellezzk, s tbb dimenziban tekintsnk r. Habr a kockra ltalban,
mint hromdimenzis geometriai struktrra szoks tekinteni, az adattrhzak esetben
az adatkocka n-dimenzis lehet, gy nem szortjk az adatokat hrom dimenziba. Az
adatkockt dimenzik s tnyek definiljk.
A tnyek azokat az rtkeket hatrozzk meg, amelyeket az elemzs szempontjbl az
adatkockk adatcelliban trolunk. Ezeket a tnyeket tmaorientltan troljuk az
adatkockkban, melyek ltalban valamilyen kzponti tma kr szervezdnek.

IntelligensAdattrhzak 18/51
Intelligens Adattrhzak

A dimenzik azokat a nzpontokat reprezentljk, melyek szerint adatainkat elemezni


szeretnnk. A dimenzikat feloszthatjuk dimenzielemekre. Pldul a cm dimenzit fel
tudjuk bontani Hajdszoboszl, Debrecen, Szombathely, s Srvr dimenzielemekre.
Tovbb ltre tudunk hozni hierarchikat, melyek a dimenzielemek kztti
kapcsolatokat rjk le. Ez azt jelenti, hogy a dimenzikhoz klnbz dimenzielem
halmazokat tudunk rendelni, mely halmazok egymssal hierarchikus viszonyban vannak.
Teht egy dimenzielemet egy msik dimenzielem halmazzal tovbb tudunk bontani, s
ez ltal klnbz rszletessg lekrdezseket hajthatunk vgre. gy pldul a cm
dimenzit a vros alapjn trtn dimenzielemeken kvl tekinthetjk a megyk alapjn
is (Hajd-Bihar megye, Vas megye). A dimenzielemek rendelkezhetnek
tulajdonsgokkal, amik olyan plusz informcikat hordoz adatok, melyek nem
minslnek csoportostsi szempontnak az elemzseket tekintve. Ilyen tulajdonsg lehet
pldul egy termk csomagolsa vagy szne. A lekrdezsek sorn lehetsgnk van arra,
hogy bizonyos dimenzielemek kzl csak azokat vlasszuk ki, melyek megfelelnek egy
adott tulajdonsgnak.
Hogy jobban megrtsk ezt a tbbdimenzis szemlletmdot, vegynk egy pldt.
Tegyk fel, hogy egy ruhzlnc rtkestsi adatait szeretnnk elemezni. Kezdetben
vegynk egy ktdimenzis adatkockt, melyben negyedves bontsban szeretnnk ltni
az rucikkek rtkestsi adatait. Ekkor ezt az adatkockt gy kpzelhetnnk el, mint egy
tblzatot, melyben a dimenzik (id s rucikk) lehetsges rtkei cmkzik a sorokat s
oszlopokat, valamint a kztes cellkban a tnyek szerepelnek. A tnyek mutatjk az
rtkestsi adatokat, amit pldul megadhatunk eurban, vagy valamilyen ms
pnznemben, esetleg egyb mrtkegysgben. Ha az rtkestseket pldul aszerint is
elemezni szeretnnk, hogy hol adtuk el az adott rucikkeket, akkor azt egy j dimenzi
(cm) bevezetsvel rhetnnk el. Ekkor mr hromdimenzis az adatkocknk, melyet az
5.1-es bra szerint kpzelhetnk el.

IntelligensAdattrhzak 19/51
Intelligens Adattrhzak

)
os
r
(v
m
C

5.1. bra Adatkocka

Az adatkockk mind relcis-, mind tbbdimenzis adatbzisokban is trolhatak. gy


hrom klnbz trolsi architektrt klnbztethetnk meg: ROLAP, MOLAP, s
HOLAP. A trolsi stratgit annak megfelelen kell megvlasztanunk, hogy a
lekrdezsek sebessgnek maximalizlsa, vagy a trhely minimalizlsa e a clunk.

5.1.1 Kocka mveletek

A tbbdimenzis modellben az adatok rtelem szeren tbb dimenzi mentn


szervezdnek, s minden dimenzi tbb absztrakcis szintet foglal magba, a fogalmi
hierarchiknak megfelelen. Ez a szervezs biztostja a felhasznlknak, hogy klnbz
tvlatokbl tekintsen az adatokra. Szmos OLAP adatkocka-mvelet ltezik a klnbz
nzetek megvalstsra, amely interaktv lekrdezsekre s elemzsre nyjt
lehetsget.[5]

5.1.1.1 Felgrgets (Roll-up)

A felgrgets mvelet az sszestst egy adott dimenzi fogalmi hierarchijn val felfel
haladssal vagy dimenzicskkentssel hajtja vgre. Pldul a cm dimenzihoz hozz
tartozhat az (utca, vros, megye, orszg) hierarchia. Ezen a hierarchin az utctl az
orszg fel haladva sszestst vgezhetnk.

IntelligensAdattrhzak 20/51
Intelligens Adattrhzak

Amikor a felgrgetst dimenzicskkenssel hajtjuk vgre, akkor egy vagy tbb


dimenzit tvoltunk el az adatkockbl. Ha pldul az rtkestsi adatokat csak cm s
rucikk dimenzik szerint szeretnnk vizsglni, akkor felgrgetssel eltvolthatjuk az
id dimenzit.[5]
s)
Hajdszoboszl e)
ro
v gy
m( Debrecen me
C m( Hajd-Bihar
C
Szombathely
Vas
Srvr
Q1
Q1
A cm felgrgetse

Id(negyedv)
Id(negyedv)

(vrosrl megyre)
Q2
Q2
Q3
Q3
Q4
Q4
telefon biztonsg
telefon biztonsg
Szrakoztat
Szrakoztat szmtgp
szmtgp elektronika
elektronika rucikk(tpus)
rucikk(tpus)

5.2. bra - A cm dimenzi felgrgetse (vrosrl megyre)

5.1.1.2 Lefrs (Drill-down)

A lefrs a felgrgets ellenkezje: a kevsb rszletes adatoktl a mg rszletesebb


adatokig halad. A lefrst vagy egy adott dimenzi fogalmi hierarchijn val lefel
haladssal, vagy j dimenzik bevezetsvel hajtjuk vgre. Pldul az id dimenzin a
negyedv szintjrl a rszletesebb hnap szintre lphetnk. Az eredmnyl kapott
adatkocka az sszes eladst negyedvek helyett hnapokra bontja le.
Mivel a lefrs tbb rszletet ad hozz az adatokhoz, ez gy is elrhet, ha j
dimenzikat vesznk fel az adatkockba. Az adatkocknkon gy is vgrehathatunk
lefrst, ha pldul bevezetnk egy j vsrl_tpus dimenzit.[5]

IntelligensAdattrhzak 21/51
Intelligens Adattrhzak

Id(negyedv)
Id(negyedv)

5.3. bra - Lefrs az id dimenzin (negyedvrl hnapra)

5.1.1.3 Szeletels s kockzs (Slice and Dice)

A szeletels mvelet egy kivlasztst hajt vgre az adott kocka egyik dimenzijn, s
ennek eredmnye egy alkocka lesz. A kockzs mvelet kett vagy tbb dimenzin hajt
vgre kivlasztst, amelynek az eredmnye szintn egy alkocka.[5]

5.4. bra - Szeletels s kockzs

5.1.1.4 Forgats (Pivoting)

A forgats (vagy pivotls) kpi mvelet, amely elforgatja az adattengelyeket, hogy az


adatokat msmilyen brzolsban lssuk.[5]

IntelligensAdattrhzak 22/51
Intelligens Adattrhzak

5.2 MOLAP architektra


MOLAP (Multidimensional OLAP) architektra esetn adatainkat tbbdimenzis
adatbzisban troljuk. Az adatok ilyenkor specilis dimenzis struktrban troldnak,
mely arra irnyul, hogy a lekrdezseket minl gyorsabban vgre tudjuk hajtani. A
MOLAP architektrban egy olyan adatkocka szerkezeteket kezelnk, melyet gy
kpzelhetnk el, mint egy tbbdimenzis tmbt. Ez a szerkezeti megolds sokszor
gyorsabb, mint ms megkzeltsek, mert lehetsg van arra, hogy kzvetlen indexelssel
rjk el az adatkocka struktrban lv adatokat.
Egy MOLAP architektrban a dimenzik hierarchiba rendezst gy lehet megoldani,
hogy a dimenzielemek kz felvesszk a hierarchia fentebbi csompontjait s sszestett
adatokat rendelnk hozzjuk. A specilis indexelsnek ksznheten az sszetett
kalkulcik esetn is gyorsan megkaphatjuk egy lekrdezs eredmnyt. Viszont, ha
hatalmas adatmennyisggel dolgozunk, s rengeteg dimenzit hasznlunk, akkor a
MOLAP megoldsok nem mindig a leghatkonyabbak. A dimenzik szmnak
nagymrtk nvekedsvel sok olyan cella rtke res lehet, melyek tbb specifikus
attribtum-kombincihoz tartoz rtket reprezentlnnak. Ez nha elfogadhatatlan
szintig megnvelheti a trhely ignyeket, s a teljestmnyt is visszaveti.

5.3 ROLAP architektra


ROLAP (Relational OLAP) architektra esetn adatainkat relcis adatbzisban troljuk.
A ROLAP kockt nem egy tbbdimenzis tmb valstja meg , mint MOLAP esetn,
hanem elre meghatrozott smk alapjn sszekapcsold relcis tblk (dimenzi- s
tnytblk) egyttese alkotja. Ezen smk kzl a leggyakrabban a csillagsmt
alkalmazzk. A ROLAP architektrban az adatok feldolgozshoz s lekrdezshez
hagyomnyos relcis adatbzis technikkat hasznlhatunk (mint pldul indexelsek s
sszekapcsolsok). A ROLAP hatkony lehet nagy adatmennyisgek esetn, hiszen a
tblknak csak azokat az adatkocka cellkat kell tartalmazniuk, melyek tnylegesen
tartalmaznak adatot. gy a trkapacits kihasznltsga optimlisabb, mint a MOLAP
esetn. A tovbbiakban ttekintjk a tnytblk s dimenzitblk fogalmt, valamint
sszekapcsolsukat.

IntelligensAdattrhzak 23/51
Intelligens Adattrhzak

5.3.1 Dimenzitblk

ltalban vve egy dimenzi egy olyan nzpont vagy elem, amellyel kapcsolatban a
szervezet feljegyzseket kvn kszteni. Pldul egy ruhzlncot zemeltet cg
ltrehozhat egy rtkests adattrhzat, hogy ruhzainak eladsait nyilvntartsa az id,
rucikk, zlet, cm s egyb dimenzik szerint. Ezekkel a dimenzikkal pldul lehetv
vlik olyan dolgok nyomon kvetse, mint pldul az rucikkek irnti havi kereslet
alakulsa.
A dimenzitblk a dimenzikrl tartalmaznak informcikat, tovbbi lersokat. Egy jl
megtervezett tbbdimenzis modellben a dimenzitblknak sok oszlopa s attribtuma
van. Ezek az attribtumok lerjk a dimenzitbla sorait. Nem ritka, hogy egy
dimenzitblnak 50 vagy 100 attribtuma is van.
A dimenzi attribtumok a lekrdezsi megszortsok, csoportostsok s riport cmkk
elsdleges forrsaknt szolglnak. Pldul, ha egy felhasznl le szeretn krdezni a heti
eladsokat mrkk szerint, akkor a ht-nek s mrka-nak lteznik kell, mint
dimenzi attribtum. Fontos hogy ezeket jl meghatrozzuk, mert a dimenzi
attribtumok minsge s mlysge nagy kihatssal van arra, hogy mennyire hatkony
lekrdezseket tudunk vgrehajtani az adattrhzunkban.
Azok a legjobb attribtumok, melyek szvegesek s diszkrtek. Pldul egy termk-
dimenzi attribtumknt tartalmazhatna egy rvidebb s egy hosszabb lerst, mrka
nevet, kategria nevet, csomagolsi tpust, mretet s mg szmos egyb termkjellemzt
(5.5. bra). Habr a mret ltalban egy szmrtket kpvisel, mgis szolglhat dimenzi
attribtumknt, hiszen inkbb szveges lersknt viselkedik, mint numerikus rtkknt.
Nha az adatbzis tervezsekor nem teljesen vilgos, hogy egy numerikus adatmez
tnyknt, vagy dimenzi attribtumknt fog e szerepelni. Ilyenkor j, ha dntsnknl
figyelembe vesszk, hogy a mez rtke olyan mrtkknt szolgl, ami sok rtket
felvehet s szmtsoknl is hasznljuk, vagy pedig inkbb egy diszkrten meghatrozott
ler jellemz.

IntelligensAdattrhzak 24/51
Intelligens Adattrhzak

Termk Dimenzitbla
Termk_azonost (TK)
Termk_lers
Gyriszm
Mrka_megnevezs
Kategria
Csomag_tpus
Csomag_mret
Sly
Trolsi_tpus
.

5.5. bra - Plda dimenzitbla

A dimenzi tblk gyakran hierarchikus kapcsolatokat reprezentlnak. Fenti pldnkat


folytatva a termk dimenzi tbla minden sorban le lesz trolva a termk kategrija s
mrkja is, gy a hierarchikus ler informcikat redundnsan troljuk. Megtehetnnk
azt is, hogy pldul a mrkalers helyett mrkakdot hasznlva sszekapcsolnnk a
dimenzitblnkat egy j tblval, mely a mrkra adatokat tartalmazn ebben az
estben a hpehelysma adatmodell szerint szerveznnk a dimenzitblkat. Igaz gy
trhelyet nyernnk, viszont ekkor a tblakapcsolatok bonyoldsval a lekrdezsek
sebessge is lassulhat. A dimenzitblk a legtbb esetben denormalizltak , hogy a
lekrdezsek egyszerbbek legyenek , de ezzel ltalban kevesebb, mint tz szzalkot
vesztnk a szksges trhelybl. Teht rdemes dimenzitbla terletet felldozni az
egyszersg s a teljestmny kedvrt.

5.3.2 Tnytblk

A tbbdimenzis adatmodell jellemzen egy kzponti tma kr (pl. rtkests)


szervezdik. Ezt egy tnytbla reprezentlja. A tnyek szmrtkek, valamilyen
mrtkegysgben megadva. gy kell rjuk gondolni, mint azokra a mennyisgekre, vagy
mrtkekre, amelyek szerint elemezni akarjuk a dimenzik kztti sszefggseket. A
tnytblzat tartalmazza a tnyek vagy mrtkek nevt s egy-egy kulcsot minden
kapcsold dimenzitblhoz. A dimenzik fogjk meghatrozni a tnytbla
szemcszettsgt.
A legjobban hasznlhat tnyek numerikusak s sszeadhatk (additive), mint pldul az
eur, mint eladsi rtk. Az sszeadhatsg elg fontos, mivel az adattrhz
alkalmazsok szinte sohasem egyetlen egy tnytbla sort adnak vissza. Sokkal inkbb
tbb szzat, ezret vagy akr millit. A termkes pldnknl maradva, az 5.6-os brt

IntelligensAdattrhzak 25/51
Intelligens Adattrhzak

megfigyelve mindegy, hogy a felhasznl az rtkeket milyen felosztsban szeretn ltni,


a mennyisget s rtket egy rvnyes sszegben visszaadhatjuk. A tnytblban lehetnek
olyan adatok melyek csak esetenknt sszeadhatk (semiadditive vagy partly-additive),
s olyanok is, melyek egyltaln nem sszeadhatk (nonadditive). Az esetenknt
sszeadhat tnyeket csak bizonyos dimenzik esetn tudjuk sszegezni. A nem
sszeadhat tnyeket pedig egyszeren nem tudjuk sszeadni. Ebben az esetben
megkvetelhetjk, hogy a darabszmukat vagy tlagukat adjuk vissza.

5.6. bra - Plda tnytbla

Elmletileg lehetsg van arra is, hogy egy tnyrtk szveges legyen, br ilyen elg
ritkn fordul el. A legtbb esetben, ha egy rtk szveges, akkor az valaminek a lersa,
s rtkeit egy diszkrt listbl veszi fel. A tervezknek figyelmet kell sznniuk arra,
hogy az ilyen rtkeket dimenzitblkba rakjuk. Redundns szveges informcikat
nem clszer tnytblban trolni. Ha pedig a szveges rtk a tnytbla minden sorra
nzve egyedi, akkor pedig ez az rtk inkbb a dimenzitblba tartozik. Az igazi
szveges tny nagyon ritka egy adattrhzban, mivel egy megjsolhatatlan tartalm
szveges tnyt , mint pldul egy szabadon megadott megjegyzst szinte lehetetlen
megfelelen elemezni.
A pldnkhoz visszatrve, tegyk fel, hogy szeretnk az eladsokat elemezni. Ha nincs
olyan eladsi tevkenysg, mely egy adott napon, adott trol helyen lv adott termkre
vonatkozik, akkor azt a sort kihagyjuk a tblbl. Fontos, hogy a tnytblt ne tltsk fel
zr rtkeket reprezentl tnyekkel.
Az egyik legfontosabb lps a tbbdimenzis tervezsnl a tnytbla szemcszettsgnek
meghatrozsa. Ez pontosan azt jelenti, hogy meg kell llaptanunk, hogy a tnytbla
rekordjai mit fognak reprezentlni. A tnytblkat szemcszettsgk szerint hrom
csoportba sorolhatjuk: tranzakcis szemcszettsg, peridikus pillanatnyi szemcszettsg
s felhalmoz pillanatnyi szemcszettsg.

IntelligensAdattrhzak 26/51
Intelligens Adattrhzak

A tranzakcis szemcszettsg (transaction grain) a legkisebb szemcszettsg, s ezt


alkalmazzk leggyakrabban. Egy fogyaszthoz vagy termkhez akkor van sor a
tnytblban, ha ehhez valaha egy tranzakcis esemny vgbement. Teht ilyenkor egy
fogyaszthoz vagy termkhez tbb sor is tartozhat a tnytblban, ha tbb mint egy
tranzakci futott le hozz kapcsolddan. A tranzakcis tnytblk mrete hatalmasra
nhet, akr tbb millird rekordot is tartalmazhat.
A peridikus pillanatnyi szemcszettsg (periodic snapshot grain) egy elre
meghatrozott idtartamhoz kapcsoldik. A tnyrtkek sszegzik a tevkenysgeket az
adott idintervallumban. Ez a szemcszettsg garantlja, hogy minden riportoland
entits (pl. bankszmla) megjelenik minden peridusnl mg akkor is, ha nem ment
vgbe hozz kapcsoldan semmilyen tevkenysg. Az ilyen szemcszettsg tnytblk
szintn elg nagyok lehetnek.
A felhalmoz pillanatnyi szemcszettsg (accumulating snapshot grain) egy elre
meghatrozott folyamathoz kapcsoldik, melynek meghatrozott kezdete s vge van. A
tnytbla sorai idrl idre vltoznak, fellrdnak. Egy ilyen tnytbla esetn pldul
nyomon kvethetnk egy termkszlltmnyt egszen addig, amg azok ki nem kerlnek
a raktrbl. Ez a szemcszettsg elgg eltr az elzektl. A tnytbla is sokkal
kevesebb sort tartalmaz a fellrsi stratgia miatt.
A tnytblba soraiban kett vagy tbb kls kulcsos hivatkozs is szerepelhet. Ezek a
kls kulcsok valamely dimenzitbla elsdleges kulcshoz kapcsoldnak. Ha a
tnytblban minden kulcs helyesen illeszkedik a megfelel dimenzitblhoz, akkor azt
mondjuk, hogy a tblk eleget tesznek a hivatkozsi integritsnak (referential integrity).
A tnytblt mindig a hozz kapcsold dimenzitblkon keresztl rjk el.
A tnytblnak magnak van egy elsdleges kulcsa, melyet kls kulcsok egy
rszhalmaza alkot. Ezt a kulcsot gyakran sszetett vagy konkatenlt kulcsnak nevezik
(composite key). Minden dimenzi modellben lv tnytblnak van sszetett kulcsa, s
fordtva is igaz, hogy minden olyan tbla, mely rendelkezik sszetett kulccsal, az
tnytbla. A dimenzi modellben a tnytblk lerjk a dimenzik kztti N:M-es
kapcsolatot.

5.3.3 Tnyek s dimenzik sszekapcsolsa

Miutn megrtettk, hogy mik is azok a tny- s dimenzitblk, rakjuk ket ssze egy
tbbdimenzis modellben. Ahogy azt az 5.7-es brn is lthatjuk, a tnytblnk tbb

IntelligensAdattrhzak 27/51
Intelligens Adattrhzak

numerikus rtket tartalmaz, melyekhez tbb, ler attribtumokkal feltlttt


dimenzitblt kapcsoltunk. Az sszekapcsolt tblk jellegzetes csillagszer szerkezetet
mutatnak, melyet csillagsmnak neveznk.

5.7 bra - Tny- s dimenzitblk a tbbdimenzis modellben

Amit az brn elsnek szrevehetnk az, hogy az eredmnyl kapott dimenzis sma
elgg egyszer s szimmetrikus. Ezltal mindent knnyebben tlthatunk. Az egyszer
dimenzis modellnek teljestmnybeli elnyei is vannak. Az adatbzis optimalizlk a
kevesebb kapcsolatokkal rendelkez, egyszer smkat sokkal hatkonyabban fel tudjk
dolgozni. Ezen fell dimenzis modellnkn brmikor vltoztathatunk. Pldul
beilleszthetnk egy teljesen j dimenzit, ha a tnytbla minden sorhoz hozz tudunk
rendelni egy rtket az j dimenzibl. Valamint a dimenzik attribtumait is
mdosthatjuk.
Ha mr rendelkeznk egy normalizlt ER diagrammal, azt is tltethetjk dimenzis
modellbe. Ilyenkor els lpsknt az ER diagramot szt kell vlasztanunk elklnl
zleti folyamatok szerint, majd ezeket kln-kln kell lemodelleznnk. Msodik
lpsknt ki kell vlogatnunk az ER diagram alapjn azokat az N:M kapcsolatokat,
melyek numerikusak s additvak, valamint nem szolglnak kulcsknt, s ezeket t kell
ltetnnk a tnytblba. Vgs lpsknt denormalizlnunk kell a fennmarad tblkat,
s ltrehozni a dimenzikat a tnytblhoz kapcsold kulcsokkal.

5.3.4 ROLAP adatmodellek

Az adattrhzak legnpszerbb adatmodellje a tbbdimenzis adatmodell. A


tbbdimenzis modellezs leggyakoribb smi a csillagsma, a hpehelysma vagy a
galaxissma (ms nven csillagkpsma).

IntelligensAdattrhzak 28/51
Intelligens Adattrhzak

5.3.4.1 Csillagsma adatmodell

A leggyakoribb modellez minta a csillagsma, amelyben az adattrhz tartalmaz egy


nagymret kzponti tblzatot, a tnytblzatot, amely nagymennyisg adatot trol
redundancia nlkl, s kisebb ksr tblzatokat (dimenzitblzatokat), egyet minden
dimenzihoz. A relci tpusa a tnytbla s a dimenzitblk kztt 1-N kapcsolat, ezrt
a dimenzitblk jelentsen kisebb mretek a tnytblnl. gy lehet elkpzelni, mintha
a dimenzitblk alkotnk a csillag cscsait, a tnytbla pedig a kzept. Innen ered a
csillagsma elnevezs.

5.3.4.2 Hpehelysma adatmodell

A hpehelysma a csillagsma vltozata azzal a klnbsggel, hogy nhny, kzvetlenl


a tnytblhoz csatlakoz dimenzis tbla tovbbi altblkra van osztva, ezzel lehetv
tve a dimenzis tblk normalizlst (mert amgy a dimenzis tblk msodik
normlformban vannak), s gy a szksges trhely cskkentst. Tovbbi elnye, hogy
a trols hatkonysga javul a redundancia cskkentse miatt. Htrnya azonban, hogy a
tblk szmnak nvekedsvel az adatlekrdezsek bonyolultsga nhet, s a
megtakartott trhely is elenysz a tnytbla mrethez kpest. Ezrt nem vlt olyan
elterjedtt, mint a csillagsma modell.

5.3.4.3 Galaxissma adatmodell

A csillagsmnak ebben a vltozatban mg egy tnytbla tallhat. Ezek a tnytblk a


dimenzis tblkat is megoszthatjk egyms kztt. Erre kifinomult alkalmazsokban
lehet szksg, azaz, hogy tbb tnytbla megosszon egyms kztt egy-egy
dimenzitblt.

5.3.5 Tbbdimenzis modelltervezsi folyamat

A tbbdimenzis tervezsi folyamatot ngy rszre oszthatjuk. Ezeket nzzk meg a


kvetkezkben.
1. Elsknt meg kell hatroznunk azokat az zleti folyamatokat, melyeket
modellezni szeretnnk. Ezek alatt a folyamatok alatt a szervezet ltal gyakorolt
termszetes zleti tevkenysgeket rtjk. Fontos, hogy az zleti folyamatok nem
felttlenl esnek egybe a szervezet egyes elklnl zleti rszlegeivel vagy
funkciival. Pldul ltrehozhatunk egy olyan dimenzis modellt, mely a
megrendelseket kezeli; ahelyett, hogy kln modellt ptennk a szervezet

IntelligensAdattrhzak 29/51
Intelligens Adattrhzak

eladsi s marketing rszlegnek, melyek mindegyike a megrendelsi adatokat


szeretn elrni. Ha ugyanazon zleti folyamatokra vonatkozan eltr dimenzis
modelleket hozunk ltre, akkor szinte elkerlhetetlen lesz, hogy ezek
rtelmezskben s terminolgijukban ne klnbzzenek. Ez az adatok
inkonzisztencijhoz vezethet. A legjobb mdszer arra, hogy az adatok
konzisztencijt biztostsuk az, hogy az adatokat csak egyszer publikljuk a
modellben. Ez rszben azrt is j, mert ezzel cskkenthetjk az ETL folyamatok
fejlesztsi erforrs-szksgleteit.
2. Msodik lpsknt meg kell hatroznunk az zleti folyamatok szemcszettsgt.
Ez szmunkra azt fogja jelenteni, hogy pontosan meg kell mondanunk, hogy mit
fog reprezentlni a tnytbla egy sora. A szemcszettsg meg fogja hatrozni a
tnytbla rtkeihez rendelt rszletessg szintjt. Az adattrhz-tervez csapatok
gyakran tugorjk ezt a ltszlag felesleges lpst, pedig ez nagyon lnyeges
momentuma a tervezsi folyamatnak. A szemcszettsg helytelen meghatrozsa
adattrhz implementcinkat frekventltt teheti, azaz elidzhet, hogy gyakran
kell vltoztatnunk rajta.
3. A harmadik lpsben kivlasztjuk a dimenzikat, melyeket a tnytblnl
alkalmazunk. Ha a szemcszettsget sikerlt jl meghatroznunk, akkor a
dimenzikat is knnyedn azonosthatjuk. A dimenzik megvlaszoljk azt a
krdst, hogy Mik rjk le azokat az adatokat, melyeket egy zleti folyamat
eredmnyez?.
4. Negyedik lpsknt meg kell hatroznunk azon numerikus rtkeket, melyek a
tnytblba kerlnek. Minden tnynek meg kell felelnie a 2. pontban definilt
szemcszettsgnek. Amennyiben olyan tnyeink is vannak, melyek ms
szemcszettsghez tartoznak, azokat egy klnll tnytblba kell raknunk. A
tnyek azt a krdst vlaszoljk meg, hogy Mit mrnk?. ppen ezrt a tnyek
tipikusan numerikus rtkek (mint pldul megrendelt mennyisg, vagy eurban
megadott kltsg).

5.4 HOLAP architektra


A HOLAP (Hybrid OLAP) az elz kt architektra elnyeit tvzi. Ezt gy ri el, hogy
az sszegzett adatokat MOLAP-, az elemi adatokat pedig ROLAP architektra szerint
trolja.

IntelligensAdattrhzak 30/51
Intelligens Adattrhzak

Ezen fell lehetsgnk van arra is, hogy egy adatkockn bell klnbz trolsi
mdokat vlasszunk. Pldul az 5 vtl rgebbi, kevsb hasznlt adatokat trolhatjuk a
trkapacits szempontjbl kedvezbb ROLAP architektrj partcin, mg az ettl
korbbi adatokat trolhatjuk a lekrdezsi teljestmnyre optimalizlt MOLAP partcin.

MOLAP ROLAP HOLAP


Adatok trolsa tbbdimenzis Adatok trolsa relcis oldalon sszegzett adatok trolsa
adatbzisban tbbdimenzis, elemi adatok
trolsa relcis oldalon
Leggyorsabb lekrdezs Legkisebb trkapacits ROLAP s MOLAP elnynek
tvzse

A MOLAP adatkockk szerkezete nagyon hasonlt a relcis csillagsma


adatmodellekhez. Mivel relcis oldalon nagyon knny felpteni egy csillagsmt,
ezrt sokszor alkalmazzk azt a megoldst, hogy csillagsmbl ltetik t az adatokat egy
MOLAP adatkockba. Ez egyszerbb megolds, mint a forrsrendszerekbl kzvetlenl
tlteni az adatkockkat. Feltehetnnk azt a krdst, hogy akkor mirt ptnk ugyanarra
az adatkrre egy relcis s egy tbbdimenzis adatbzist is. Erre az lehet a vlasz, a
MOLAP architektra elemzsek szempontjbl sok elnnyel rendelkezik relcis trsval
szemben, hiszen lnyegesen jobb lekrdezsi teljestmnyt nyjt, valamint fejlettebb
elemzst segt funkcikkal rendelkezik.

6 ETL FOLYAMATOK
Az ETL (Extraction, Transform and Load) folyamatok az adatok forrsrendszerekbl
trtn kinyerst, transzformcijt valamint az adattrhzba val betltst foglaljk
magukba. Ezen fell biztostjk az adatok megfelel minsgben trtn adattrhzba
jutst. Az ETL rendszerek a httrben, az adattrhz vgfelhasznli ell elrejtve
mkdnek. Egy adattrhz ETL rendszernek megptse gyakran az adattrhz
implementcis s karbantartsi erforrsainak hetven szzalkt is felemszthetik. Ebbl
is ltszik, hogy mennyire fontos ennek az alrendszernek a pontos, j megtervezse.

6.1 Adatok kinyerse a forrsrendszerekbl


Adatok nlkl egy adattrhznak semmi hasznt sem vehetnnk, ezrt azt fel kell
tltennk adatokkal. Ezeket az adatokat klnbz adatforrsokbl nyerjk ki, mely

IntelligensAdattrhzak 31/51
Intelligens Adattrhzak

tevkenysg az ETL folyamatok els lpst kpzi. Az adatok hrom f adatforrsbl


kerlhetnek az adattrhzba. A kls adatforrsok (external data source) a vllalathoz
kzvetlenl nem ktd adatokat jelentenek meg (pl. gazdasgi informcik). A
fggetlen adatpiac (independent data mart) egy olyan adattr, mely egy loklis, jl
krlhatrolt tmj, meghatrozott felhasznli csoport rszre konkrt feladatot lt el.
Az adatpiacon trolt adatok a kzponti adattrhzba tlthetek annak rdekben, hogy a
vllalat klnbz rszlegei is hozzfrhessenek az adatokhoz. Az adatok harmadik f
forrst az tranzakcis (OLTP), hagyomnyos relcis s ms adatbzisok jelentik.
Az adatok elszr egy tmeneti terletre kerlnek (data staging area), ahol azokon
vgrehajtdnak a megfelel transzformcik. Idnknt, ezen az tmeneti terleten
megriznek olyan adatokat, melyek segtsgvel olyan funkcionalitsokat nyjthatnak,
melyek hisztorikus adatokat ignyelnek, mg mskor az adatok minden egyes sikeresen
lezrult folyamat vgeztvel trldnek.[4]
Az egyes cgek, szervezetek egyszerre tbb klnll vagy sszekapcsold
szmtgpes rendszert is hasznlhatnak, mint pldul eszkzkezelsi, termkvezrlsi,
vagy ltalnos knyvviteli rendszereket. Ami viszont szmunkra fontos, hogy ezek a
rendszerek gyakran logikailag s fizikailag is inkompatibilisek. Ezrt, mieltt egy ETL
rendszert ptennk, ltre kell hoznunk egy logikai adattrkpet (logical data map), mely
a tblk kezdeti forrs-adatmezi s a vgs cl-adatmezk kztti kapcsolatokat
dokumentlja. A logikai adattrkp tartalmazza az adattrhz forrsrendszereinek adat
definciit, a cl adattrhz adatmodelljt, valamint azt a pontos adatkezelst, mely
szksges ahhoz, hogy az adatokat az eredeti formjukbl a megfelel, vgs formra
hozhassuk. A logikai adattrkpet ltalban tblban vagy valamilyen tblzatkezel
formtumban jelenik meg, s a kvetkez sszetevket tartalmazza[4]:
Cl tbla neve: a tbla fizikai neve, ahogy az megjelenik az adattrhzban.
Cl oszlop neve: az oszlop neve az adattrhz tblban.
Tbla tpus: azt jelzi, hogy a tbla tnytbla, dimenzi vagy aldimenzitbla e.
SCD (slowly changing dimension) tpus: Ez a tpusjell a lass dimenzi vltozst
jelzi. Leggyakrabban a Type-1, Type-2 s Type-3 SCD tpusokat alkalmazzk. Ez
a tpusjell rtk oszloponknt klnbz lehet.
Forrs adatbzis: annak az adatbzisnak a neve, ahonnan a forrs adat szrmazik.
Ez lehet egy adatbzis elrsi nv, vagy akr egy fjl neve.

IntelligensAdattrhzak 32/51
Intelligens Adattrhzak

Forrs tbla neve: annak a tblnak a neve, amelyikbl a forrs adat szrmazik. Sok
esetben itt tbb tblanevet is meg kell adnunk. Ekkor egyszeren fel kell sorolni
azoknak a tblknak a nevt, melyek szksgesek ahhoz, hogy feltltsk a
megfelel adatokat a cltblba.
Forrs oszlop neve: a forrs oszlop vagy oszlopok nevei. Azon oszlopok nevei,
melyek szksgesek, hogy a closzlop rtkeit meghatrozzuk.
Transzformci: a forrsadaton vgzend pontos mdostsok, melyek
meghatrozzk a cl elvrt formjt. Ezt a komponenst ltalban SQL-el vagy
pszeud kddal rjk le.

Az ellltott logikai adattrkp azt a clt szolglja, hogy lerjuk vele, mit is vrunk el
pontosan az egyes ETL folyamatoktl.
Az adattrhzban lv adatoknak kvetnik kell az operatv adatokban bekvetkezett
vltozsokat. Az adatfrissts gyakorisgnak meghatrozsa alapos krltekintst
ignyl feladat, mivel a tl gyakori adatfrissts knnyen a tranzakcis rendszerek
tlterheltsghez vezet, mg a tl ritka adatfrissts esetn az elemzett adatok vlnak
elavultt. gy az adatok csoportosthatk rnknt, naponta, hetente vagy havonta, illetve
az egyes esemnyek bekvetkezse utn frisstend adatokra, s ez alapjn idzthet az
adattlts a tranzakcis rendszerek szmra megfelel idpontra (kis terheltsg
idszakok, jszakai rk, htvgk). Ez rendkvl fontos lehet, hiszen az adattrhzba
val adatttlts hatalmas mennyisg adat mozgsval jrhat. Az adattrhzat
inkrementlisan tltjk fel adatokkal, azaz a forrsrendszerekbl csak azokat az adatokat
kell kivonnunk, melyek mg nem kerltek be az adattrhzba.

6.2 Adatok transzformcija


Az adatok transzformcijhoz definilnunk kell, hogy milyen minsgben szeretnnk
adatainkat ltni az adattrhzban. Fontos, hogy az adatminsget gy hatrozzuk meg,
hogy adataink legyenek akkurtusak, azaz teljesljenek rjuk a kvetkez jellemzk:
Korrektsg: az adatokat ler rtkek megfelelnek a valsgnak. (Pldul, ha egy
szemly az Ady Endre utcban lakik, akkor a levelezsi cmben az utca
megjellsekn az Ady Endre utcnak kell szerepelnie.)
Egyrtelmsg: az adatokat ler rtkeket csak egy jelentsnek megfelelen
elehet venni. (Pldul, mivel nagyon sok vrosban tallhat Ady Endre utca,

IntelligensAdattrhzak 33/51
Intelligens Adattrhzak

ezrt hogy egyrtelm legyen, az utcanevet minsthetjk annak a vrosnak a


nevvel, amelyikben lv adott utcra hivatkozunk Debrecen, Ady Endre
utca.)
Konzisztenssg: az adatokat ler rtkek esetn egyetlen, azonos konvencit
alkalmazunk a jelentsk tadsra. (Pldul Magyarorszgra hivatkozhatunk
Mo. rvidtssel, vagy akr a teljes nevvel. A konzisztencia azt jelenti ebben az
esetben, hogy mindenhol ugyanazzal a konvencival hivatkozunk
Magyarorszgra.)
Teljessg: a teljessgnek kt szempontja van. Az els, hogy biztostanunk kell,
hogy az adatok klnbz rtkei minden pldnyhoz definilva vannak. A
msodik szempont szerint pedig biztostanunk kell, hogy adatok sszevont
rekordjai esetn ne vesszenek el egyes rekordok.

Adatgyjts utn a klnbz adattisztt s adatfeldolgoz eljrsokkal juthatunk


tiszttott s feldolgozott adatokhoz. Az adattiszttson hinyz rtkek ptlst (pl. egy
odaill tlagos rtkkel), a normalizlst (pl. eur-forint vlts), illetve konzisztens
reprezentcit rtnk. Adatfeldolgoz eljrs pedig pldul a kdfelolds (pl. vonalkd
megfejtse). Finomtson a rszadathalmazok generlst, szmtott mezk
ltrehozst, informcik sszegzst rtjk.

6.3 Adatok betltse az adattrhzba


Az adatokon vgzett transzformcik mind azrt trtntek, hogy az adatokat a
tovbbiakban minl knnyebben be tudjuk tlteni az adattrhzba. ltalnossgban az
adattrhzba kerlt adat mr nem fog vltozni. Ez all egy nyilvnval kivtel lehet, ha
kiderl, hogy hibs adatok kerltek az adattrhzba.

7 INTELLIGENS ADATTRHZAK
Az els genercis adattrhzak tmogatjk az adattiszttst, transzformcit s az
adatbetltst. Gyakran ezek az adatok a szervezet legegyszerbb, legkisebb szint
ismeretet hordoz adatai. Ahhoz, hogy ezeket az ismereteket elrhetv tegyk,
metaadatokat definilnak. A metaadatok lerjk az adatok attribtumait,
transzformcikat, aggregcis szinteket, valamint munkafolyamat informcikat.

IntelligensAdattrhzak 34/51
Intelligens Adattrhzak

A kvetkez genercis adattrhzakat intelligens adattrhzakknt (IDW Intelligent


Data Warehouse) hozzk ltre. Az IDW-k olyan adattrhzak, melyek egy tudstrhz
ltal aktv adatforrsknt vannak kezelve. A tudstrhzak (Knowledge Warehouse)
szakrti rendszermodelleket hasznl szoftver motor ltal ltrehozott s vezrelt
objektumokat alkalmaznak. Ezek az objektumok szablyokat, metdusokat s eljrsokat
biztostanak jrafelhasznlhat mdon. A tudstrhzak kezelik az zleti objektumokat,
szablyokat s eljrsokat, hogy ez ltal formljk az leti tudst. Az zleti tuds pedig
kialaktja az alapokat s az infrastruktrt az intelligens adattrhz zleti folyamatainak
kezelshez.
Napjainkban rengeteg olyan szervezet van, melyek rmutatnak, vagy szba hozzk az
intelligens adattrhzak szksgessgt. Ezek a szervezetek klnbz mdokat
javasolnak az els genercis adattrhzakban val zleti intelligencia alkalmazsnak.
Sokan kzlk azt a szemlletet valljk, hogy az adatbnyszat szolgltat intelligencit
az adattrhzaknl. Nhnyan pedig gy vlik, hogy a tartalom-menedzsels szolgltatja
ugyanezt, msok szerint pedig a portlok.
Az intelligens adattrhzak megkvetelik az adatbnyszat hasznlatt az ismertek
hasznostshoz. Az adatbnyszat kiterjeszti az intelligencit, hogy felfedjk az
adattrhz adatok s zleti folyamatok kztti kapcsolatokat. Habr magban az
adatbnyszat nem kveteli meg az adattrhzak hasznlatt, viszont az zleti
folyamatokat tmogat adatbnyszati stratgik nlkl egy intelligens adattrhz nem
lehet teljes.
Szmos szoftvercsomag ltezik, melyek tmogatjk a tuds-menedzsmentet. Ezek
leginkbb a tuds-tartalom menedzsmentre (knowledge content mangement) fektetik a
hangslyt. A tuds-tartalom menedzsment modern lehetsgeket nyjt a
dokumentumkezelsre s a csoportok kztti interakcikra. Ezeknek a szoftvereknek a f
erssge az email-kommunikci s a munkacsoport egyttmkds erstse, valamint
segtsget nyjtanak a dokumentumok keressben s trolsban. Ezek a szoftverek
azzal tmogatjk az IDW-t, hogy informcikat szolgltatnak a vllalatrl. Habr tudst
hordoznak magukban az adattrhz metaadatai, s a tartalom menedzsment is, ezek
nincsenek kapcsolatban egymssal. Az adat s a tuds kztti kapcsolat kiptst az
adatportlok (Data Protals) oldjk meg. Az adatportlok kapcsolatot ltestenek az
adatforrsok s a tartalom informcik kztt. gy mr majdnem azt mondhatnnk, hogy
a portlok utat biztostanak az adattrhzaknak az zleti intelligencia integrlsa fel, de

IntelligensAdattrhzak 35/51
Intelligens Adattrhzak

mi van az informcik jrafelhasznlhatsgval? Gyakran a tartalomban lv tuds nem


jrafelhasznlhat s rvid lettartamuk van, mely sorn idnknt frissteni kell ket. Az
adatportlok az IDW egy fontos rszt kpezik, de ez mg mindig csak egyetlen
komponense az IDW architektrnak.
Az intelligens adattrhz architektra magba foglal egy tudstrhzat (Knowledge
Warehouse), mely tmogatja az jrafelhasznlhat ismeret rugalmas mdszerekkel s
folyamatokkal val sszekapcsolst. A tudstrhz s az adattrhz szerkezetnek
olyannak kell lennie, hogy kpes legyen kvetni a cg vltozsait, mely ltal az
informcik s a vllalat cljai sszhangba kerlnek egymssal.

Tudstrhz Adattrhz

Tudsbzis Adat
Metaadatok
csoportok
Tudsbzis

Folyamatok ODS Nzetek


Objektumok
Szablyok
Csomagok
Tbbdimenzis Adatbnyszat

7.1. bra - IDW architektra 1

Ahhoz, hogy egy els genercis adattrhzat intelligens adattrhz szintre emeljnk,
ngy tervezsi lpst kell vgrehajtanunk.
Elsknt szksgnk van egy olyan szoftverre, mely kezeli az adattrhz metaadatait. A
legtbb ilyen szoftver tmogatja az OMG (Object Management Group) ltal kifejlesztett
Common Warehouse Metamodel-t. A CWM egy olyan keretrendszer, mellyel lerhatjuk
az adaterforrsokat, adatelemzsi- s trhzkezelsi informcikat. A CWM tbb
metamodelt, zleti intelligencit, ismeret-kezelst (knowledge management) s portl
technolgit definil.
Kvetkezknt, a trhznak az zleti hlzaton keresztl kell kommuniklnia, hogy az
adatokat kzel vals idben tudja kezelni.
Harmadik kvetelmnyknt lennie kell egy tudstrhznak, melynek tudsbzis
knyvtrakat kell tartalmaznia. Ezekben a tudsbzisokban konkrt zleti szablyokkal,
mdszerekkel s konkrt feladatokra vonatkoz eljrsokkal rendelkez objektumok

IntelligensAdattrhzak 36/51
Intelligens Adattrhzak

vannak. A tudsbzisok ms tudsbzisokkal egytt dolgoznak, hogy ezzel is nveljk az


jrafelhasznlhatsg.
Vgl pedig az IDW-nek tartalmaznia kell egy szoftveres motort, mely egy szakrti
rendszert implementl, hogy az adattrhz adatait feldolgozza, konkrt zleti clok
elrshez. Ehhez a tudstrhz objektumait hasznlja fel.
Az IDW elsdleges clja, hogy sszekapcsolja a tudstrhz- s az adattrhz
folyamatokat az operatv rendszerekkel, ezzel biztostva minsget, funkcionalitsokat s
informci megosztst. Az IDW tudstrhza vezrli a vgfelhasznlk front-end
rendszerek fell rkez krseit, szakrt rendszer rutinokat hv meg, valamint vezrli az
informci megosztst. A vgfelhasznlk hozz frhetnek az zleti szablyokhoz,
eljrsokhoz s a munkafolyamatokhoz.

7.2. bra - IDW architektra 2

Mint lthattuk, az intelligens adattrhzakhoz szorosan kapcsoldnak az zleti


intelligencia, dntstmogats s adatelemzs fogalmak. A tovbbiakban ezeket nzzk
meg kicsit rszletesebben.

7.1 zleti Intelligencia


Az zleti intelligencit (Business Intelligence - BI) gy definilhatjuk, hogy a helyes
hozzfrs a helyes adatokhoz s informcikhoz, melyek szksgesek ahhoz, hogy
meghozzuk a helyes zleti dntseket a helyes idben. Egy msik megfogalmazs szerint
pedig, zleti intelligencia alatt rtnk minden olyan tevkenysget, eszkzt, vagy
folyamatot, melyet arra hasznlunk fel, hogy megszerezzk a leghasznosabb

IntelligensAdattrhzak 37/51
Intelligens Adattrhzak

informcikat a helyes dntshozatalhoz. Ez az zleti intelligencinak egy elg


szleskr megfogalmazsa, mely nem korltozdik kizrlag az adattrhzakra. A BI
szmos alkalmazs, valamint adatbegyjtsi-, trolsi-, elemzsi s adathozzfrsi
technikk szles kategrijt foglalja magba. Ezen alkalmazsok s technikk clja,
hogy segtsget nyjtsanak felhasznlinak a jobb zleti- s stratgia dntsek
meghozatalhoz, valamint hogy szlesebb kr rltst biztostson a vllalat zleti
folyamataira. A BI ltal szolgltatott informcik minden felhasznl s vllalat szmra
fontos lehet. A BI alapjai nem j keletek, hiszen mr szmos trekvs volt az zleti
dntstmogats elsegtsre.
DSS: Decision Support Systems dntstmogat rendszerek. A DSS
rendszerek nagy npszersgre tettek szert, mivel szmtgpes erforrsok s
hisztorikus adatok segtsgvel elsegtik olyan sszetett problmk
megoldst, mint pldul termelsi temezs s ms szokvnyos tervezsi
dntsek.
EIS: A DSS sikerre felsznre kerlt egy jabb dnts-menedzsel eszkz,
melyet Executive Information Systems (EIS Vezeti Informcis Rendszerek)
technolginak neveznek.
MIS, MDS, AIS, s msok: szmos BI-t megelz trekvsek szlettek. Ezek
kzl a legfontosabbak a Management Information Systems, Management
Decision Systems, Analysis Information Systems, s mg sok ms hasonl
rendszer, melyek mindegyike kicsit j stlust hozott a cgek dntshoz
folyamatba.

Ezek a technolgik hozzjrultak a mai zleti intelligencia fogalom kialakulshoz,


termszetesen nmelyik jobban, msok pedig kevsb.
A tranzakcis alkalmazsok ltalban a tranzakcis tblkban lv, aktulis adatokat
jellemz riportokon keresztl nyjtanak zleti intelligencit az zleti felhasznlk
szmra. Ezek a kivlasztott riportok kulcs kvetelmnyek alapjn jnnek ltre.
Sok cg a riportok s elemzsek egyre bonyolultabb vlsval, olyan zleti intelligencia
megoldsokat alkalmaznak, melyek sszetett adattrhz stratgin alapulnak. Az
adattrhz megptse eltt viszont tisztzni kell, hogy milyen tpus zleti intelligencira
van szksgnk. A tovbbiakban nzzk meg az zleti intelligencia egy lehetsges
kategorizlst.

IntelligensAdattrhzak 38/51
Intelligens Adattrhzak

7.1.1 Az zleti intelligencia kategrii

Az zleti intelligencinl ngy kategrit klnbztethetnk meg:


alap lekrdezsek s riportolsok (Basic querying and reporting)
zleti elemzs (Business Analysis BA)
adatbnyszat (Data mining)
Dashboards

7.1.1.1 Lekrdezsek s riportolsok

Az alap lekrdezsek s riportolsok nagyrszt az elemzsi clbl felhasznlhat adatok


hagyomnyos alkalmazst foglalja magba. Az elemzend adatokat ltalnos riportokkal
vagy ad-hoc lekrdezsekkel rjk el, majd az eredmnyt egy meghatrozott formban
jelentjk meg a vgfelhasznl szmra a kpernyn vagy nyomtatott formban. Ez
alapjn a kvetkez lpsekre bonthatjuk fel ezt a folyamatot:
1. az elemzend adatok irnti igny meghatrozsa,
2. adatok kinyerse a megfelel forrsokbl,
3. amennyiben szksges, az adatok sszegzse, jraszervezse,
4. az adatok formzsa,
5. s vgl megjelents.

7.1.1.2 zleti elemzs

Az zleti elemzs (Business Analysis) a felhasznl interakcis modellbe egy elemzsi


folyamatot s a vltoztathatsg lehetsgt vezeti be. Alapjban vve az elz
kategrin fell a kvetkezket biztostja:
6. Az adatokra klnbz szemszgkbl tekinthetnk. Pontosabban
meghatrozhatjuk, hogy mit szeretnnk ltni.
7. Neknk tetszen mdosthatjuk meg a megjelentst.

7.1.1.3 Adatbnyszat

Az adatbnyszat (Data mining) mr jobban elklnl az zleti intelligencia elz kt


formjtl, mivel az zleti felhasznlk nem rendelkeznek az adatbnyszat statisztikai
alapjainak elvrt tudsval. Az adatbnyszati eszkzk olyan elemzsi technikkat
nyjtanak, melyek megkvetelik az alapvet adatbnyszati algoritmusok ismerett. Ezek
az eszkzk hatalmas adatmennyisgeket elemeznek, melyekben mintkat s ms
aspektusokat igyekeznek felfedezni, mellyel lehetv vlik, hogy a jvbe mutat

IntelligensAdattrhzak 39/51
Intelligens Adattrhzak

kvetkeztetseket vonhassunk le. Fontos, hogy az adatbnyszat egy olyan technika,


mely a lehetsgeket mutatja meg szmunkra, s nem egy olyan szolgltats, ami
megmondja a jvt.
A lekrdezsek s riportolsoknl, valamint az zleti elemzsnl az zleti intelligencit
az biztostotta szmunkra, hogy pontosan feltett krdsekre kaptuk meg a vlaszainkat. Itt
a kulcssz a krds volt. Ezeknl a kategriknl, ha nincs krds, akkor nincs is mit
megvlaszolni. Az adatbnyszat viszont tovbb mutat ennl, hiszen feltrs-orientlt
termszetbl addan akkor is kapunk vlaszokat, ha mg nem is tudjuk pontosan mi a
krds. Ez kicsit furnak tnhet, de az adatbnysz rendszerek tipikusan olyan vlaszokat
nyjtanak szmunkra, melyeket komplex modellek felptsvel hatroz meg. Ezeket a
modelleket adatelemzsre hasznljk, mely adatokban trendeket, tendencikat igyekeznek
felfedezni. Az adatbnyszatrl rszletesebben a 7.4. fejezetben rok.

7.1.1.4 Dashboards

Az zleti intelligencia sztrban megjelen dashboard kifejezst nehezen tudnnk


igazn visszaadni magyar szavakkal. A sz eredeti jelentse mszerfal, amirl
legtbbnknek egy gpjrm rsze juthat esznkbe. Ezt nevezhetnnk tall
elnevezsnek is, hiszen a dashboard az autk mszerfalhoz hasonlan a legfontosabb
informcikat jelenti meg szmunkra. Ez az eszkz vglis egy megjelentsre alkalmas
grafikus megolds. A dashboard gyakran egy portl oldal formjban jelenik meg,
mely adatok s grafikus diagramok segtsgvel jelenti meg a f teljestmny jelzket, s
fontos informcikat. Ez az eszkz klnbz forrsokbl kpes informcikat
megjelenteni, valamint gyors, knnyen rthet, magas szint nzetet nyjt az zleti
mveletek prezentlsra.[7]

7.2 Dntstmogat rendszerek, dnts hozs


A dntstmogat rendszerek (Decision Support Systems DSS) a szmtgp alap
informcis rendszerek (Computer-based Information Systems CBIS) rszt kpzik. Ez
az elnevezs (CBIS) klnbz informcis rendszereket foglal magba, mint pldul
iroda-gpestsi rendszereket, tranzakcis feldolgoz rendszereket, menedzsment
informcis rendszereket s menedzsment-tmogat rendszereket. A menedzsment
tmogat rendszerek (Management Support Systems) kz tartoznak a szakrti
rendszerek, vgrehajt informcis rendszerek, valamint a dntstmogat rendszerek is
ide sorolhatak. A dntstmogats a dntshozs folyamatnak egy rszt kpezi. A

IntelligensAdattrhzak 40/51
Intelligens Adattrhzak

dntst gy definilhatnnk, hogy egy vlaszts tbb lehetsges alternatva kzl. A


dntshozs folyamatnak clja, ennek a vlasztsnak a meghatrozsa. A dntshozs s
a dntstmogats nem sszekeverend fogalmak. Egy dntstmogat rendszer nllan
nem hoz dntst, csak tmogatja a dntshozs folyamatt. A dntsi folyamat ngy
lpsbl ll:
feladat meghatrozsa s adatgyjts: bels s kls rendszerekbl
trtn adatgyjts. A problma azonostsa s felbontsa
rszproblmkra.
tervezs: modellpts, vlasztsi felttelek, szablyok meghatrozsa,
alternatvk keresse.
vlaszts: megolds kivlasztsa, vlaszts igazolsa.
megvalsts: dnts sikernek s sikertelensgnek elbrlsa,
visszacsatols.

7.3 Tudsfeltrs - KDD


A tudsfeltrs (Knowledge Discovery in Databases KDD) tbb sszekapcsold
lpsbl ll, melynek csak egy rsze az adatbnyszat. A KDD egy feltrekv terlet,
mely tbb eszkzt s technikt nyjt a dntstmogats s az adatanalzis szmra,
melyek megknnytik a hasznos tuds kinyerst nagy mennyisg adatokbl. A KDD
folyamat egy iteratv, tbblpses, az emberi interakcikhoz kzel ll folyamat. A 7.3.
bra jelli a KDD folyamat lpseit.

7.3. bra - KDD folyamat

IntelligensAdattrhzak 41/51
Intelligens Adattrhzak

Krvonalazzuk a KDD folyamat alaplpseit. Elsknt azonostanunk kell a folyamat


cljt, mely visszatkrzi a felhasznl nzpontjt. Msodikknt ltre kell hoznunk egy
cl adathalmazt: ki kell vlasztanunk azokat az adatokat, amelyeken vgre akarjuk hajtani
a tudsfeltrst. A harmadik lps az adattisztts s elfeldolgozst. Ezek alapmveletek,
melyek eltvoltjk az adatokbl a zajokat, sszegyjtik a szksges informcikat a
modell szmra, kivlasztjk a hinyz adatmezket ptl stratgit, s mg ms egyb
elkszt mveleteket hajtanak vgre. A negyedik lps az adatredukci s projekci. A
feladat cljtl fggen kell az adatokat reprezentlni. Ide dimenzi redukci mveletek
s transzforml mdszerek tartoznak. tdikknt a KDD folyamat cljait r kell
illeszteni egy jl megvlasztott adatbnyszati algoritmusra, mint pldul sszegezs,
osztlyozs, regresszi, klaszterezs vagy ms egyb. A hatodik lpsben feltr
elemzseket s a feltevsek kivlasztst kell elvgezni. Ki kell vlasztani azokat az
adatbnyszati algoritmusokat s mdszereket, melyeket az adatmintk feltrsra
hasznlunk fel. Itt dntennk kell, hogy melyik modellt s milyen paramtereket,
valamint milyen adatbnyszati algoritmust hasznlunk, figyelembe vve a KDD
folyamat kritriumait. A hetedik lps az adatbnyszat: az rdekes mintk megkeresse.
A nyolcadik lps a megtallt mintk interpretlsa, valamint estenknt iterls az elz
ht lps valamelyikhez val visszatrssel. Az utols, kilencedik lps pedig a feltrt
tuds felhasznlsa: a tuds kvetlen felhasznlsa, a feltrt tuds tovbbtsa egy msik
rendszerhez tovbbi tevkenysgek elvgzsre, vagy egyszeren csak dokumentls s
riportols.

7.4 Adatbnyszat
Az adatbnyszat (Data Mining) a 90-es vekben kezdett elterjedni. Az adatbnyszat,
mint nll szakterlet gy jhetett ltre, hogy knnyen hasznlhat, hatkony elemzsi
eszkzket tudott biztostani szakrtk szmra. Az adatbnyszat lnyege, hogy nagy
mennyisg nyers adatokbl elzetesen nem ismert, hasznos, kls szemll szmra
nem-trivilis informcikat, sszefggseket nyerjnk ki. Az adatbnyszat folyamata a
szksges adatok sszegyjtsbl, adatbnyszati mdszer alkalmazsbl, a kinyert
informcik reprezentlsbl s a megszerzett tuds felhasznlsbl ll.
Az adatok mennyisgnek nvekedse legfkpp annak ksznhet, hogy az utbbi
vtizedekben az emberi tevkenysgek, az informatiknak ksznheten egyre inkbb
automatizltt vlnak. Ez a megnvekedett automatizltsg s elektronikus mdon

IntelligensAdattrhzak 42/51
Intelligens Adattrhzak

trtn dokumentltsg folyamn nvekedik egyre nagyobb az adathalmaz. Az adatok


gylnek mindenhol s mindenrl, s hogy felhasznlsuk egyszerbb vljon, ki kell
tudnunk szrni a hatalmas adathalmazbl a fontos informcikat.
Az elbbiekben tbbszr is hasznltuk az adat, az informci s a tuds szavakat. Habr
hasonlan hangzanak, jelentsk mgis eltr egymstl. Az adatok nmagukban is
hordoznak valamifle informcit, viszont az is nagyon gyakori eset, hogy tbb adat
egytt, csoportosan szolgl szmunkra valamilyen informcival. A harmadik sz, a
tuds alatt pedig a feldolgozott informcit rthetjk, mely tmogatst szolgltathat a
dntshozatalra.[5]

7.4.1 Az adatbnyszat clja

Az adatbnyszat egy olyan dntstmogatst szolgl folyamat, mely rvnyes, hasznos


s elzleg nem ismert, tmr informcit tr fel nagy adathalmazbl. Az adat alap
tudsfelmrsnek tulajdonkppen ktfle clja lehet: megersts s felfeds. Megersts
alatt azt rtjk, amikor a tudsfeltrs clja az adatelemz egy adott feltevsnek
megerstse. Ezzel szemben a felfeds (tudsfeltrs) sorn a rendszer generl hasznos
informcikat az adatokbl. A tudsfeltrs alapjn az adatbnyszati feladatokat tovbbi
kt csoportra oszthatjuk: predikcis s ler jelleg feladatokra.
predikcis feladatok: A predikcis feladatoknl egyes jelensgek
jvbeni viselkedst, illetve nem ismert tulajdonsgait kell megjsolni.
ler jelleg feladatok: A ler jelleg feladatoknl a jelensget, illetve
annak alakulst, s a jelensggel kapcsolatosan feltrt sszefggseket
kell a lehet legjobban rtelmezhet mdon megtallni.

Az adatbnyszat legalapvetbb problmja az, hogy hogyan lehet egy ttekinthetetlen


adathalmazban megbv hasznos informcikat feltrni, s ezeket eredeti adatok
megjelensi formjnl kompaktabb, absztraktabb, informatvabb, s knnyebben
kezelhet mdon reprezentlni. A tuds, melyet az adatbnyszat elllt, valamilyen
modell vagy a rendelkezsre ll adatok ltalnostsaknt ll rendelkezsre. Annak
ellenre, hogy ma mr rengeteg adatbnyszati algoritmus ltezik, ezen algoritmusok
kzs vonsa, hogy indukci-alap tanulson alapulnak. Ennek a tanulsnak ngy szintjt
tudjuk megklnbztetni:

IntelligensAdattrhzak 43/51
Intelligens Adattrhzak

Tnyek: A tny egy adott igazsg egyszer megllaptsa. (pl. ma esett


az es)
Koncepci: A koncepci objektumok, szimblumok vagy esemnyek
csoportja, melyek azonos jelleggel brnak. (pl. oktberben gyakran esik
az es)
Eljrsok: Az eljrs lpsrl lpsre trtn, valamely cl elrsrt
vgzett akcisorozat. (pl. ha induls eltt kinznk az ablakon s esik az
es, akkor visznk esernyt)
Alapigazsgok (principk): Az alapigazsgok feltrsa jelenti a tanuls
legmagasabb szintjt. Principk ltalnos igazsgok, melyek ms
igazsgok alapjai.

Az indukci-alap tanuls egy koncepcialkotsi folyamat, mely sorn adatok alapjn


valamely koncepci, adat, ltalnos rvny ismeret keletkezik. E koncepcik ltalban
adatbnyszati algoritmusok kimenetei, melyek ltalban dntsi fkban,
szablybzisokban, hlzatokban vagy matematikai egyenletekben formalizldnak. A
tanulsnak ezt a formjt felgyelt tanulsnak nevezzk, ugyanis a tanuls sorn
rendelkezsre ll az az informci, hogy az adott esetek milyen osztlyokba tartoznak.
A felgyelet nlkli tanuls az adatok elzetes osztlyba val tartozsnak ismerett
nlklzve mkdik. ltalban egy adott problmakrhz tartoz objektumok egyes
csoportjai bizonyos szempontok szerint hasonlak egymshoz, gy az adatbzisban
szerepl objektumokat azok egymshoz val hasonlsga alapjn csoportokba lehet
sorolni.[5]

7.4.2 Adatok elfeldolgozsa

Az adatbnyszati mdszerekkel elemezni kvnt adatok hinyosak, zajosak vagy


inkonzisztensek lehetnek.
Hinyos adat: ez akkor fordul el, mikor bizonyos attribtumok rszlegesen
vagy teljesen hinyoznak. Ez cskkenti az adatok minsgt. Tbb mdszer is
kialakult a hinyz adatok kezelsre.
- Figyelmen kvl hagyhatjuk a hinyz adatot, ha az elemzs szempontjbl
nem olyan fontos. ltalnossgban, ha egy attribtum rtknek 20%-a
hinyzik, akkor nem veszik figyelembe.

IntelligensAdattrhzak 44/51
Intelligens Adattrhzak

- Megadhatjuk manulisan a hinyz adatot. Erre akkor van szksg, ha fontos


informcirl van sz.
- Hasznlhatunk globlis konstanst is. Ez lehet egy megadott fix rtk vagy
NULL rtk. Esetleg hasznlhatunk tlagrtket. Ez numerikus rtkek esetn
alkalmazhat jl.
Zajos adat: A zaj az adatokra rakdott, vletlenszer hiba. A hiba lehet kis
mrtk, de folyamatos, vagy ritka esetekben lehet kiugr rtket generl. Erre
is ltezik tbbfle technika.
- A Kosarazs technika lnyege, hogy azonos szm kivlasztott rtket
ugyanazzal a rtkkel fellrjuk. A kivlasztshoz tegyk fel, hogy egy kosrba
legfeljebb n adat fr. Sorba rendezzk az adatokat, s az egyms mellett lv n
db rtket egy-egy kln kosrba pakoljuk. A simtst gy vgezzk, hogy
vesszk az adott kosrban lv rtkek tlagt vagy medinjt, vagy az als
vagy fels hatrrtket, s ezzel fellrjuk a kosrban lv rtkeket. Minl
szlesebb kosarat vesznk, annl ersebb lesz a simts.
- A klaszterezs technika lnyege, hogy a hasonl rtkeket csoportokba,
klaszterekbe soroljuk, s azokat az rtkeket, amik nem kerltek
klaszterbe(szlssgesek), azokat nem vesszk figyelembe.
- A regresszi technika esetn az adatok rtkeire egy grbt illesztnk, amit a
tovbbi feldolgozsban hasznlunk. Lineris vagy tbbvltozs regresszit
szoktak hasznlni.
Inkonzisztens adatok: Inkonzisztens adatok alatt azokat az eseteket kell rteni,
amikor bizonyos adatok teljesen sszefrhetetlenek, az ltaluk reprezentlt
rtkek nem felelnek meg egymsnak. Nincs meg az elvrt kapcsolat s
egymsrautaltsg az adatok kztt. Ezzel kapcsolatban oda kell figyelnnk az
adatok kztti kapcsolatok srtetlensgre.

Az adatok elfeldolgozst ignyelnek, melyeket adattisztt rutinok futtatsval


segthetnk el. Ezek a rutinok a zajos adatokon simtst vgeznek, s azonostjk vagy
eltvoltjk a szlssges rtkeket, valamint megszntetik az inkonzisztencit.[5]

IntelligensAdattrhzak 45/51
Intelligens Adattrhzak

7.4.3 Adatbnyszati technikk

Az adatbnyszat fogalmainak elbbi krvonalazsaival kzelebb kerlnk ahhoz a


krdshez, hogy egy adott problma megoldsra milyen adatbnyszati technika
alkalmazsa clszer. A kvetkezekben, krvonalazva az adatbnyszati
algoritmusokban alkalmazott alapvet technikkat, mveleteket nznk meg. Elszr
tekintsk a felgyelt tanuls adatbnyszati technikit:[5]
Osztlyozs: Az osztlyozs egy olyan sszefggs tanulst takarja, mely
alkalmas arra, hogy ismert vltozk alapjn egyes eseteket (objektumokat, azaz
adatbzisbeli rekordokat) osztlyokba sorolja. Az osztlyozsi feladat ennek
megfelelen kt rszfeladatra oszthat: modell generls s elrejelzs.
ltalban a modell generls egy adott adathalmaz osztlyozst jelenti adott
szm diszjunkt rszhalmazba. Az osztlyozsra alkalmas modell bemeneti
ismrvekbl (tant pldkbl) szmol kiemeti attribtumokat (teszt pldkat).
A felgyelt tanulsi stratgia egy adott tanulsi halmaz mely ismert
osztlyokba tartoz pldnyokbl ll segtsgvel pti fel az osztlyozsi
modellt. Egy fggvnykapcsolatot hatroz meg a modell bemeneti s kimeneti
attribtumai kztt. A generlt modell elemzsvel ltalban lehetsg nylik
annak a megllaptsra, hogy a rendelkezsre ll ismrvek miknt hatrozzk
meg azt, hogy az adott elem melyik rszhalmazba tartozik.
Regresszi: A regresszi egy kvetkeztetsre alkalmas fggvny
meghatrozst jelenti, de ebben az esetben a fggvny clja az ismert
ismrvekbl ms numerikus rtkekre trtn kvetkeztets, azaz nem
valamilyen kategorikus vltoz (pl. osztlycmke) becslse. Regresszis feladat
pldul egy gazdasgi vagy a termelsi adatok ltal definilt idsor jvbeni
rtknek meghatrozsa. Regresszis feladatok termszetesen nem mindig
kell, hogy kapcsoldjanak idben trtn vltozsok elemzshez, gyakorta
statikus sszefggsek feltrsa a cl.

A nem felgyelt tanulshoz tartoz technikk:


Csoportosts(szegmentls, klaszterezs): Olyan, nem felgyelt tanulsi
technika, mely segtsgvel egy adathalmaz objektumait gy oszthatjuk fel
csoportokra, hogy a csoportokon bell egymshoz hasonl objektumok vannak,
mg a csoportok szmotteven klnbznek egymstl. Az adatok

IntelligensAdattrhzak 46/51
Intelligens Adattrhzak

csoportostst gyakran azok ler jelleg elemzsre szoktk alkalmazni,


ugyanis e technika alkalmazsa sorn a cl az adatokat jellemz tipikus esetek
olyan halmaznak feltrsa, melyek az adatbzisban lv eseteket jl jellemzik.
E feltrt csoportok gyakorta egymst kizrak, de egyes esetekben akr
egymssal tfedk, netn hierarchikusak is lehetnek. A csoportostsi feladat
algoritmikus eszkzkkel trtnhet, gy az adatbnysznak mr csak annyi a
feladata, hogy megprblja a csoportosts eredmnyt kirtkelni, feltrni azt,
hogy milyen jelentssel s mekkora jelentsggel brnak a kialakult csoportok.
Asszocici: Az asszocicis szablyok feltrsnak lnyege az, hogy az
adatbzisban lv objektumok kztt sszefggseket talljon. Amennyiben
ltezik ilyen kapcsolat, akkor az adatbnyszat segtsgvel feltrhat, s annak
erssge jellemezhet. E feladatra tipikus alkalmazsi plda a fogyaszti-kosr
elemzs, mely olyan informcit prbl feltrni, hogy ha a vsrl X s Y
termket vsrol, akkor valsznleg Z termket is.

IntelligensAdattrhzak 47/51
Intelligens Adattrhzak

8 SSZEGZS
A diplomamunkm megrsa sorn igyekeztem tfog, ltalnos rvnysggel ismertetni
az adattrhzak vilgt, az adattrhzakra pl, adatmenedzselst segt rendszereket, az
adattrhzak architektrjt, adatmodellezsi koncepcikat, valamint az adattrhzaknl
alkalmazott intelligens megoldsokat bemutatni. Dolgozatombl remlhetleg tisztn
ltszik, hogy az zleti intelligencia s az adattrhz technolgik bevezetse mennyire
fontos szerepet jtszhat egy vllalat letben. Ez a technolgia mg most kezd igazn
elterjedtt vlni, s lthat, hogy a jvben valsznleg mg rengeteget fog fejldni. Ma
mr a legtbb nagyvllalat egyrtelmen ltja, hogy szksg van az adattrhzak s
elemzsi mdszerek hasznlatra.
Az ETL folyamatok egyre jobb megoldsai mellett a lekrdezsek gyorsasgt elsegt
minl intelligensebb megoldsokra is figyelmet fordtanak az adattrhz-fejleszt cgek
(ilyen lekrdezs-optimalizl megolds pldul az Oracle szoftvere, az Exadata Storage
Server, mely egy intelligens adatbzis protokollt biztost a lekrdezsek gyorstshoz).
A technolgia fejldsvel a vllalatok az adattrhzak adattrol kapacitsnak
nvekedse mellett is egyre knyelmesebben elemezhetik adataikat s egyre tbb hasznos
informcihoz juthatnak hozz. Ezen fell az adattrhz technolgik alkalmazsa s
intelligens megoldsok integrlsa nem csak a megknnytik a projektvezetk s
vllaltirnytk dntshozatalt, de felpezsdtik a konkurens cgekkel folytatott piaci
versenyt is.

IntelligensAdattrhzak 48/51
Intelligens Adattrhzak

9 KSZNETNYILVNTS
Ksznetet mondok tmavezet tanromnak, Dr. Juhsz Istvnnak a diplomamunkmhoz
nyjtott segtsgrt.

IntelligensAdattrhzak 49/51
Intelligens Adattrhzak

10 BRAJEGYZK
3.1. bra - Adattrhz komponensek ................................................................................... 11
4.1. bra - Alap architektra ................................................................................................ 15
4.2. bra - Architektra egy sszestsi terlettel................................................................ 16
4.3. bra - Architektra egy sszestsi terlettel s adatpiacokkal .................................... 16
5.1. bra Adatkocka .......................................................................................................... 20
5.2. bra - A cm dimenzi felgrgetse (vrosrl megyre) .............................................. 21
5.3. bra - Lefrs az id dimenzin (negyedvrl hnapra).............................................. 22
5.4. bra - Szeletels s kockzs ........................................................................................ 22
5.5. bra - Plda dimenzitbla ........................................................................................... 25
5.6. bra - Plda tnytbla ................................................................................................... 26
5.7 bra - Tny- s dimenzitblk a tbbdimenzis modellben ........................................ 28
7.1. bra - IDW architektra 1............................................................................................. 36
7.2. bra - IDW architektra 2............................................................................................. 37
7.3. bra - KDD folyamat .................................................................................................... 41

IntelligensAdattrhzak 50/51
Intelligens Adattrhzak

11 IRODALOMJEGYZK
[1] Barry Devlin: Data Warehouse from Architecture to Implementation. Addison Wesley
Longman, 1997.
[2] Ralph Kimball: The Data Warehouse lifecycle toolkit, 2nd edition. Wiley Computer
Puplishing, 2008.
[3] Ralph Kimball, Margy Ross: The Data Warehouse Toolkit, 2nd edition. Wiley
Computer Publishing, 2002.
[4] Ralph Kimball, Joe Caserta: The Data Warehouse ETL Toolkit. Wiley Computer
Publishing, 2004
[5] Jiawei Han, Micheline Kamber: Adatbnyszat koncepcik s technikk. Panem
kiad, 2004.
[6] Hsiao-Fan Wang: Intelligent Data Analysis. Information Science Reference
Publishing, 2008.
[7] R. Stackowiak, J. Rayman, R. Greenwald: Oracle Data Warehousing and Business
Intelligence Solutions. Wiley Computer Publishing, 2007.
[8] http://download.oracle.com/docs/cd/B10501_01/server.920/a96520/toc.htm
[9] http://www.cs.sfu.ca/CC/459/han/papers/chaudhuri97.pdf
[10] http://www2.sas.com/proceedings/sugi27/p170-27.pdf

IntelligensAdattrhzak 51/51

You might also like