Professional Documents
Culture Documents
IntelligensAdattárházak PDF
IntelligensAdattárházak PDF
Intelligens Adattrhzak
Diplomamunka
Debrecen
2009.
1 TARTALOMJEGYZK
1 Tartalomjegyzk................................................................................................................... 2
2 Bevezets ............................................................................................................................... 4
3 Adattrhz koncepcik ........................................................................................................ 5
3.1 Mi az adattrhz? ................................................................................................................... 5
3.2 Az adattrhz jellemzi .......................................................................................................... 5
3.2.1 Trgyorientlt.........................................................................................................................5
3.2.2 Integrlt ..................................................................................................................................5
3.2.3 Nem illkony..........................................................................................................................6
3.2.4 Idben vltoz........................................................................................................................6
3.3 Operatv adatbzisok s az adattrhzak ................................................................................ 6
3.4 OLTP s OLAP rendszerek.................................................................................................... 8
3.5 Az adattrhz komponensei ................................................................................................. 10
3.5.1 Operatv forrs rendszerek ...................................................................................................10
3.5.2 tmeneti adattrol terlet...................................................................................................11
3.5.3 Adat megjelentsi terlet ....................................................................................................12
3.5.4 Adathozzfrsi eszkzk....................................................................................................13
3.6 Adatok az adattrhzban ...................................................................................................... 13
3.6.1 Adatok tpusai ......................................................................................................................13
3.6.2 Metaadatok...........................................................................................................................14
4 Adattrhz tervezs............................................................................................................ 14
4.1 Adattrhz architektrk ...................................................................................................... 14
4.1.1 Alap architektra..................................................................................................................15
4.1.2 Architektra egy sszestsi terlettel..................................................................................15
4.1.3 Architektra egy sszestsi terlettel s adatpiacokkal ......................................................16
4.2 Adattrhzak logikai s fizikai tervezse ............................................................................. 17
4.2.1 Logikai terv ..........................................................................................................................17
4.2.2 Fizikai terv ...........................................................................................................................18
5 Tbbdimenzis adatmodellezs......................................................................................... 18
5.1 Adatkockk .......................................................................................................................... 18
5.1.1 Kocka mveletek..................................................................................................................20
5.2 MOLAP architektra............................................................................................................ 23
5.3 ROLAP architektra............................................................................................................. 23
5.3.1 Dimenzitblk ....................................................................................................................24
5.3.2 Tnytblk............................................................................................................................25
5.3.3 Tnyek s dimenzik sszekapcsolsa.................................................................................27
5.3.4 ROLAP adatmodellek ..........................................................................................................28
5.3.5 Tbbdimenzis modelltervezsi folyamat ...........................................................................29
5.4 HOLAP architektra ............................................................................................................ 30
6 ETL folyamatok.................................................................................................................. 31
6.1 Adatok kinyerse a forrsrendszerekbl .............................................................................. 31
6.2 Adatok transzformcija ...................................................................................................... 33
6.3 Adatok betltse az adattrhzba ......................................................................................... 34
7 Intelligens Adattrhzak ................................................................................................... 34
7.1 zleti Intelligencia ............................................................................................................... 37
7.1.1 Az zleti intelligencia kategrii..........................................................................................39
7.2 Dntstmogat rendszerek, dnts hozs........................................................................... 40
IntelligensAdattrhzak 2/51
Intelligens Adattrhzak
IntelligensAdattrhzak 3/51
Intelligens Adattrhzak
2 BEVEZETS
Az informcis rendszerek s technolgik fejldsvel, a papr eszkzkkel dolgoz
irattrakat felvltottk a szmtgpes informatikai rendszerek, valamint egyre inkbb
elterjedt a gazdasgi, zleti, kzigazgatsi s kutatsi tranzakcik szmtgppel trtn
vgrehajtsa. Ez azt eredmnyezte, hogy naprl-napra tbb adat gylik ssze a vllalatok
adatbzisaiban. Az adatok mennyisge hihetetlen mrtkben nvekszik. Ez a
felhalmozd adatmennyisg gyakran inkbb akadlyozja, mint elsegtje a
tisztnltsnak, mindaddig, amg ezt a hatalmas adattmeget nem alaktjuk szmunkra
hasznos informciv s tudss.
Az adatok sokig hagyomnyos adatbzisokban, vagy rendszerezett knyvtri
llomnyokban gyltek. Ezeket az adatokat kezdetben operatv adatbzisra pl vezeti
informcis rendszerekben kezeltk. Ezutn krlbell kt vtizede kezdtek el
megjelenni az adattrhzak. Ennek egy klasszikus pldja, hogy Eurpa egyik
legnagyobb bankjba, a hollandiai ABN AMRO bankba az 1990-es vek elejn vezettek
be egy sikeres kezdeti adattrhz implementcit, de ennek a fejlesztsei mr az 1980-as
vek vgn megindultak.
Minden vllalat zleti rdekben ll, hogy minl tbbet tudjon meg magrl a vllalatrl,
gyfeleirl, s azok szoksairl. Ezrt nyilvnval, hogy a vllalat lete sorn
felgyleml adathalmazok elemzse s a bellk levonhat kvetkeztetsek stratgiai
eszkzknt szolglhatnak. Sok vllalat sikernek fontos alappillre, hogy stratgiai
mdon hasznlja ki az zleti intelligencia lehetsgeit s az adattrhzra pl
informatikai technolgikat. A vllalatok letben fontos, hogy a kritikus helyzetekben
helyes dntseket hozzanak. Az adattrhzban egy vllalat klnbz terleteirl, a
legnagyobb rszletessgig visszakereshet adatok troldnak. Az adattrhz legnagyobb
elnye, hogy az sszegyjttt adattengerbl a megfelel mdszerekkel segtsget
nyjthatunk a vllalat szmra legjobb dntsek meghozatalhoz.
Diplomamunkm els fejezeteinek clja, hogy bemutatassam az adattrhzak alapvet
ismrveit, koncepcijukat, komponenseit, az OLTP s OLAP rendszereket. Ezek utn
rtrek az adattrhzak architektrjnak, az adattrhz adatok feldolgozsnak, valamint
az adattrhz ptsnl alkalmazott adatmodellek bemutatsra. Vgezetl pedig
ismertetem az intelligens adattrhzakat s a hozzjuk kapcsold technolgikat.
IntelligensAdattrhzak 4/51
Intelligens Adattrhzak
3 ADATTRHZ KONCEPCIK
3.1 Mi az adattrhz?
Az adattrhzak olyan adatbzisok, melyeket inkbb lekrdezsek s elemzsek
vgrehajtsra terveztek, mint a tranzakcik feldolgozsra. Ez legfkpp tranzakcis
adatokbl nyert hisztorikus adatok feldolgozst foglalja magba, de ezek az adatok
gyakran szrmazhatnak ms forrsbl. Klnvlasztja az elemzsi munkatemet a
tranzakcis munkatemtl, s lehetv teszi a szervezetek szmra, hogy a tbb forrsbl
szrmaz adatokat egyestse.
A relcis adatbzisokhoz kpest az adattrhzak krnyezete magba foglal kivonatolsi,
szlltsi, feldolgozsi s betltsi (ETL) megoldsokat, egy online elemzsi feldolgoz
motort (OLAP), kliens-elemzsi eszkzket, valamint ms alkalmazsokat, melyek
kezelik az sszegyjttt adatok feldolgozst, s tovbbtjk azokat az zleti felhasznlk
fel.
Az adattrhzak bemutatsnl gyakran hivatkoznak a William Inmon ltal
meghatrozott adattrhz jellemzkre. Ezek alapjn egy adattrhz
trgyorientlt,
integrlt,
nem illkony,
idben vltoz.
3.2.1 Trgyorientlt
3.2.2 Integrlt
IntelligensAdattrhzak 5/51
Intelligens Adattrhzak
szervezet zleti s egyb informciit egysges formban tkrzik. Erre azrt van
szksg, mivel a klnbz idben, klnbz clokra ksztett alkalmazsokhoz nagyon
sokfle tpus informcit trolnak az operatv adatbzisok, s elfordulhat, hogy az
egyik alkalmazsban ugyanazt az egyedet mskppen nevezik, mint egy msik
alkalmazsban. Az adattrhzak egyik leglnyegesebb tulajdonsga, hogy az informcit
egysgestve, konzisztens formban troljk, azaz minden egyed csak egy nvvel
szerepelhet az adatbzisban.
A nem illkonysg szmunkra azt jelenti, hogy amelyik adat egyszer bekerlt az
adattrhzba, azok a tovbbiakban nem fognak vltozni. Ez logikus, hiszen az adattrhz
clja, hogy lehetv tegye szmunkra, hogy az adatok elemzsvel kvetkeztessnk
mltbli trtnsekre. Az adattrhz adatait csak lekrdezsekhez hasznljuk, s soha
sem mdostjuk, legfeljebb jabb idpontokhoz tartoz rekordokkal bvtjk. Az
adattrhzakat ms operatv adatbzisokbl tltjk fel adatokkal, s amennyiben a
vgfelhasznl mdostani szeretn az adatait, azt csak az operatv adatbzisokon
keresztl teheti meg, mivel csak ezekben lehet frissteni, megvltoztatni vagy trlni
adatokat. A mdostott adatok aztn jabb betltssel, j idponthoz tartoz adatokknt
kerlnek be az adattrhzba.
IntelligensAdattrhzak 6/51
Intelligens Adattrhzak
IntelligensAdattrhzak 7/51
Intelligens Adattrhzak
IntelligensAdattrhzak 8/51
Intelligens Adattrhzak
IntelligensAdattrhzak 9/51
Intelligens Adattrhzak
IntelligensAdattrhzak 10/51
Intelligens Adattrhzak
IntelligensAdattrhzak 11/51
Intelligens Adattrhzak
IntelligensAdattrhzak 12/51
Intelligens Adattrhzak
IntelligensAdattrhzak 13/51
Intelligens Adattrhzak
3.6.2 Metaadatok
4 ADATTRHZ TERVEZS
IntelligensAdattrhzak 14/51
Intelligens Adattrhzak
Alap architektra
Architektra egy sszestsi terlettel
Architektra egy sszestsi terlettel s adatpiacokkal
Elemzs
Operatv rendszer
Metaadatok
Jelentsek
Operatv rendszer
sszegz adatok Nyers adatok
Adattrhz
Flat file-ok
Adatbnyszat
Az elz bra esetben meg kell tiszttani s fel kell dolgozni az adatokat mieltt
bekerlnek az adattrhzba. Ezt megoldhatnnk egy program futtatsval, br ltalban e
helyett inkbb egy sszestsi terlet-et alkalmaznak. Az sszestsi terlet egyszersti
az sszefoglalk s az ltalnos adattrhz kezels felptst. A kvetkez bra mutatja
ezt a tpus architektrt.
IntelligensAdattrhzak 15/51
Intelligens Adattrhzak
IntelligensAdattrhzak 16/51
Intelligens Adattrhzak
A logikai terv sokkal elmletibb s absztraktabb, mint a fizikai terv. A logikai tervezs
folyamn az objektumok kztti logikai kapcsolatokat trkpezzk fel. A fizikai tervezs
sorn meghatrozzuk a szmunkra leghatsosabb trolsi, valamint helyrelltsi mdokat
annak megfelelen, hogy hogyan kezeljk objektumainkat a szllts, biztonsgi msolat
ltrehozsa (backup) s a helyrellts (recovery) szemszgeibl.
A tervezs folyamn figyelembe kell venni a vgfelhasznlk ignyeit, akik
leggyakrabban elemzsekre s aggregt adatok megtekintsre hasznljk az adattrhzat.
Egy jl ltrehozott terv lehetv teszi a fejlesztsek s vltoztatsok bevezetst.
IntelligensAdattrhzak 17/51
Intelligens Adattrhzak
5 TBBDIMENZIS ADATMODELLEZS
Az OLAP technolgia elsdleges clja a rendkvl gyors lekrdezsek vgrehajtsa, s
hogy a vlaszid a lehet legkevesebb legyen. Az OLAP rendszerekben fontos az lland
lekrdezsi teljestmny megrzse. Azaz a dimenzik szmnak s az adatbzis
mretnek nvelsvel a felhasznl ne tapasztaljon jelents teljestmnycskkenst.
5.1 Adatkockk
Az adattrhzak s az OLAP eszkzk tbbdimenzis adatmodellt vesznek alapul, amely
az adatot adatkockknak tekinti. Az adatkocka lehetv teszi, hogy az adatot tbb
dimenziban modellezzk, s tbb dimenziban tekintsnk r. Habr a kockra ltalban,
mint hromdimenzis geometriai struktrra szoks tekinteni, az adattrhzak esetben
az adatkocka n-dimenzis lehet, gy nem szortjk az adatokat hrom dimenziba. Az
adatkockt dimenzik s tnyek definiljk.
A tnyek azokat az rtkeket hatrozzk meg, amelyeket az elemzs szempontjbl az
adatkockk adatcelliban trolunk. Ezeket a tnyeket tmaorientltan troljuk az
adatkockkban, melyek ltalban valamilyen kzponti tma kr szervezdnek.
IntelligensAdattrhzak 18/51
Intelligens Adattrhzak
IntelligensAdattrhzak 19/51
Intelligens Adattrhzak
)
os
r
(v
m
C
A felgrgets mvelet az sszestst egy adott dimenzi fogalmi hierarchijn val felfel
haladssal vagy dimenzicskkentssel hajtja vgre. Pldul a cm dimenzihoz hozz
tartozhat az (utca, vros, megye, orszg) hierarchia. Ezen a hierarchin az utctl az
orszg fel haladva sszestst vgezhetnk.
IntelligensAdattrhzak 20/51
Intelligens Adattrhzak
Id(negyedv)
Id(negyedv)
(vrosrl megyre)
Q2
Q2
Q3
Q3
Q4
Q4
telefon biztonsg
telefon biztonsg
Szrakoztat
Szrakoztat szmtgp
szmtgp elektronika
elektronika rucikk(tpus)
rucikk(tpus)
IntelligensAdattrhzak 21/51
Intelligens Adattrhzak
Id(negyedv)
Id(negyedv)
A szeletels mvelet egy kivlasztst hajt vgre az adott kocka egyik dimenzijn, s
ennek eredmnye egy alkocka lesz. A kockzs mvelet kett vagy tbb dimenzin hajt
vgre kivlasztst, amelynek az eredmnye szintn egy alkocka.[5]
IntelligensAdattrhzak 22/51
Intelligens Adattrhzak
IntelligensAdattrhzak 23/51
Intelligens Adattrhzak
5.3.1 Dimenzitblk
ltalban vve egy dimenzi egy olyan nzpont vagy elem, amellyel kapcsolatban a
szervezet feljegyzseket kvn kszteni. Pldul egy ruhzlncot zemeltet cg
ltrehozhat egy rtkests adattrhzat, hogy ruhzainak eladsait nyilvntartsa az id,
rucikk, zlet, cm s egyb dimenzik szerint. Ezekkel a dimenzikkal pldul lehetv
vlik olyan dolgok nyomon kvetse, mint pldul az rucikkek irnti havi kereslet
alakulsa.
A dimenzitblk a dimenzikrl tartalmaznak informcikat, tovbbi lersokat. Egy jl
megtervezett tbbdimenzis modellben a dimenzitblknak sok oszlopa s attribtuma
van. Ezek az attribtumok lerjk a dimenzitbla sorait. Nem ritka, hogy egy
dimenzitblnak 50 vagy 100 attribtuma is van.
A dimenzi attribtumok a lekrdezsi megszortsok, csoportostsok s riport cmkk
elsdleges forrsaknt szolglnak. Pldul, ha egy felhasznl le szeretn krdezni a heti
eladsokat mrkk szerint, akkor a ht-nek s mrka-nak lteznik kell, mint
dimenzi attribtum. Fontos hogy ezeket jl meghatrozzuk, mert a dimenzi
attribtumok minsge s mlysge nagy kihatssal van arra, hogy mennyire hatkony
lekrdezseket tudunk vgrehajtani az adattrhzunkban.
Azok a legjobb attribtumok, melyek szvegesek s diszkrtek. Pldul egy termk-
dimenzi attribtumknt tartalmazhatna egy rvidebb s egy hosszabb lerst, mrka
nevet, kategria nevet, csomagolsi tpust, mretet s mg szmos egyb termkjellemzt
(5.5. bra). Habr a mret ltalban egy szmrtket kpvisel, mgis szolglhat dimenzi
attribtumknt, hiszen inkbb szveges lersknt viselkedik, mint numerikus rtkknt.
Nha az adatbzis tervezsekor nem teljesen vilgos, hogy egy numerikus adatmez
tnyknt, vagy dimenzi attribtumknt fog e szerepelni. Ilyenkor j, ha dntsnknl
figyelembe vesszk, hogy a mez rtke olyan mrtkknt szolgl, ami sok rtket
felvehet s szmtsoknl is hasznljuk, vagy pedig inkbb egy diszkrten meghatrozott
ler jellemz.
IntelligensAdattrhzak 24/51
Intelligens Adattrhzak
Termk Dimenzitbla
Termk_azonost (TK)
Termk_lers
Gyriszm
Mrka_megnevezs
Kategria
Csomag_tpus
Csomag_mret
Sly
Trolsi_tpus
.
5.3.2 Tnytblk
IntelligensAdattrhzak 25/51
Intelligens Adattrhzak
Elmletileg lehetsg van arra is, hogy egy tnyrtk szveges legyen, br ilyen elg
ritkn fordul el. A legtbb esetben, ha egy rtk szveges, akkor az valaminek a lersa,
s rtkeit egy diszkrt listbl veszi fel. A tervezknek figyelmet kell sznniuk arra,
hogy az ilyen rtkeket dimenzitblkba rakjuk. Redundns szveges informcikat
nem clszer tnytblban trolni. Ha pedig a szveges rtk a tnytbla minden sorra
nzve egyedi, akkor pedig ez az rtk inkbb a dimenzitblba tartozik. Az igazi
szveges tny nagyon ritka egy adattrhzban, mivel egy megjsolhatatlan tartalm
szveges tnyt , mint pldul egy szabadon megadott megjegyzst szinte lehetetlen
megfelelen elemezni.
A pldnkhoz visszatrve, tegyk fel, hogy szeretnk az eladsokat elemezni. Ha nincs
olyan eladsi tevkenysg, mely egy adott napon, adott trol helyen lv adott termkre
vonatkozik, akkor azt a sort kihagyjuk a tblbl. Fontos, hogy a tnytblt ne tltsk fel
zr rtkeket reprezentl tnyekkel.
Az egyik legfontosabb lps a tbbdimenzis tervezsnl a tnytbla szemcszettsgnek
meghatrozsa. Ez pontosan azt jelenti, hogy meg kell llaptanunk, hogy a tnytbla
rekordjai mit fognak reprezentlni. A tnytblkat szemcszettsgk szerint hrom
csoportba sorolhatjuk: tranzakcis szemcszettsg, peridikus pillanatnyi szemcszettsg
s felhalmoz pillanatnyi szemcszettsg.
IntelligensAdattrhzak 26/51
Intelligens Adattrhzak
Miutn megrtettk, hogy mik is azok a tny- s dimenzitblk, rakjuk ket ssze egy
tbbdimenzis modellben. Ahogy azt az 5.7-es brn is lthatjuk, a tnytblnk tbb
IntelligensAdattrhzak 27/51
Intelligens Adattrhzak
Amit az brn elsnek szrevehetnk az, hogy az eredmnyl kapott dimenzis sma
elgg egyszer s szimmetrikus. Ezltal mindent knnyebben tlthatunk. Az egyszer
dimenzis modellnek teljestmnybeli elnyei is vannak. Az adatbzis optimalizlk a
kevesebb kapcsolatokkal rendelkez, egyszer smkat sokkal hatkonyabban fel tudjk
dolgozni. Ezen fell dimenzis modellnkn brmikor vltoztathatunk. Pldul
beilleszthetnk egy teljesen j dimenzit, ha a tnytbla minden sorhoz hozz tudunk
rendelni egy rtket az j dimenzibl. Valamint a dimenzik attribtumait is
mdosthatjuk.
Ha mr rendelkeznk egy normalizlt ER diagrammal, azt is tltethetjk dimenzis
modellbe. Ilyenkor els lpsknt az ER diagramot szt kell vlasztanunk elklnl
zleti folyamatok szerint, majd ezeket kln-kln kell lemodelleznnk. Msodik
lpsknt ki kell vlogatnunk az ER diagram alapjn azokat az N:M kapcsolatokat,
melyek numerikusak s additvak, valamint nem szolglnak kulcsknt, s ezeket t kell
ltetnnk a tnytblba. Vgs lpsknt denormalizlnunk kell a fennmarad tblkat,
s ltrehozni a dimenzikat a tnytblhoz kapcsold kulcsokkal.
IntelligensAdattrhzak 28/51
Intelligens Adattrhzak
IntelligensAdattrhzak 29/51
Intelligens Adattrhzak
IntelligensAdattrhzak 30/51
Intelligens Adattrhzak
Ezen fell lehetsgnk van arra is, hogy egy adatkockn bell klnbz trolsi
mdokat vlasszunk. Pldul az 5 vtl rgebbi, kevsb hasznlt adatokat trolhatjuk a
trkapacits szempontjbl kedvezbb ROLAP architektrj partcin, mg az ettl
korbbi adatokat trolhatjuk a lekrdezsi teljestmnyre optimalizlt MOLAP partcin.
6 ETL FOLYAMATOK
Az ETL (Extraction, Transform and Load) folyamatok az adatok forrsrendszerekbl
trtn kinyerst, transzformcijt valamint az adattrhzba val betltst foglaljk
magukba. Ezen fell biztostjk az adatok megfelel minsgben trtn adattrhzba
jutst. Az ETL rendszerek a httrben, az adattrhz vgfelhasznli ell elrejtve
mkdnek. Egy adattrhz ETL rendszernek megptse gyakran az adattrhz
implementcis s karbantartsi erforrsainak hetven szzalkt is felemszthetik. Ebbl
is ltszik, hogy mennyire fontos ennek az alrendszernek a pontos, j megtervezse.
IntelligensAdattrhzak 31/51
Intelligens Adattrhzak
IntelligensAdattrhzak 32/51
Intelligens Adattrhzak
Forrs tbla neve: annak a tblnak a neve, amelyikbl a forrs adat szrmazik. Sok
esetben itt tbb tblanevet is meg kell adnunk. Ekkor egyszeren fel kell sorolni
azoknak a tblknak a nevt, melyek szksgesek ahhoz, hogy feltltsk a
megfelel adatokat a cltblba.
Forrs oszlop neve: a forrs oszlop vagy oszlopok nevei. Azon oszlopok nevei,
melyek szksgesek, hogy a closzlop rtkeit meghatrozzuk.
Transzformci: a forrsadaton vgzend pontos mdostsok, melyek
meghatrozzk a cl elvrt formjt. Ezt a komponenst ltalban SQL-el vagy
pszeud kddal rjk le.
Az ellltott logikai adattrkp azt a clt szolglja, hogy lerjuk vele, mit is vrunk el
pontosan az egyes ETL folyamatoktl.
Az adattrhzban lv adatoknak kvetnik kell az operatv adatokban bekvetkezett
vltozsokat. Az adatfrissts gyakorisgnak meghatrozsa alapos krltekintst
ignyl feladat, mivel a tl gyakori adatfrissts knnyen a tranzakcis rendszerek
tlterheltsghez vezet, mg a tl ritka adatfrissts esetn az elemzett adatok vlnak
elavultt. gy az adatok csoportosthatk rnknt, naponta, hetente vagy havonta, illetve
az egyes esemnyek bekvetkezse utn frisstend adatokra, s ez alapjn idzthet az
adattlts a tranzakcis rendszerek szmra megfelel idpontra (kis terheltsg
idszakok, jszakai rk, htvgk). Ez rendkvl fontos lehet, hiszen az adattrhzba
val adatttlts hatalmas mennyisg adat mozgsval jrhat. Az adattrhzat
inkrementlisan tltjk fel adatokkal, azaz a forrsrendszerekbl csak azokat az adatokat
kell kivonnunk, melyek mg nem kerltek be az adattrhzba.
IntelligensAdattrhzak 33/51
Intelligens Adattrhzak
7 INTELLIGENS ADATTRHZAK
Az els genercis adattrhzak tmogatjk az adattiszttst, transzformcit s az
adatbetltst. Gyakran ezek az adatok a szervezet legegyszerbb, legkisebb szint
ismeretet hordoz adatai. Ahhoz, hogy ezeket az ismereteket elrhetv tegyk,
metaadatokat definilnak. A metaadatok lerjk az adatok attribtumait,
transzformcikat, aggregcis szinteket, valamint munkafolyamat informcikat.
IntelligensAdattrhzak 34/51
Intelligens Adattrhzak
IntelligensAdattrhzak 35/51
Intelligens Adattrhzak
Tudstrhz Adattrhz
Tudsbzis Adat
Metaadatok
csoportok
Tudsbzis
Ahhoz, hogy egy els genercis adattrhzat intelligens adattrhz szintre emeljnk,
ngy tervezsi lpst kell vgrehajtanunk.
Elsknt szksgnk van egy olyan szoftverre, mely kezeli az adattrhz metaadatait. A
legtbb ilyen szoftver tmogatja az OMG (Object Management Group) ltal kifejlesztett
Common Warehouse Metamodel-t. A CWM egy olyan keretrendszer, mellyel lerhatjuk
az adaterforrsokat, adatelemzsi- s trhzkezelsi informcikat. A CWM tbb
metamodelt, zleti intelligencit, ismeret-kezelst (knowledge management) s portl
technolgit definil.
Kvetkezknt, a trhznak az zleti hlzaton keresztl kell kommuniklnia, hogy az
adatokat kzel vals idben tudja kezelni.
Harmadik kvetelmnyknt lennie kell egy tudstrhznak, melynek tudsbzis
knyvtrakat kell tartalmaznia. Ezekben a tudsbzisokban konkrt zleti szablyokkal,
mdszerekkel s konkrt feladatokra vonatkoz eljrsokkal rendelkez objektumok
IntelligensAdattrhzak 36/51
Intelligens Adattrhzak
IntelligensAdattrhzak 37/51
Intelligens Adattrhzak
IntelligensAdattrhzak 38/51
Intelligens Adattrhzak
7.1.1.3 Adatbnyszat
IntelligensAdattrhzak 39/51
Intelligens Adattrhzak
7.1.1.4 Dashboards
IntelligensAdattrhzak 40/51
Intelligens Adattrhzak
IntelligensAdattrhzak 41/51
Intelligens Adattrhzak
7.4 Adatbnyszat
Az adatbnyszat (Data Mining) a 90-es vekben kezdett elterjedni. Az adatbnyszat,
mint nll szakterlet gy jhetett ltre, hogy knnyen hasznlhat, hatkony elemzsi
eszkzket tudott biztostani szakrtk szmra. Az adatbnyszat lnyege, hogy nagy
mennyisg nyers adatokbl elzetesen nem ismert, hasznos, kls szemll szmra
nem-trivilis informcikat, sszefggseket nyerjnk ki. Az adatbnyszat folyamata a
szksges adatok sszegyjtsbl, adatbnyszati mdszer alkalmazsbl, a kinyert
informcik reprezentlsbl s a megszerzett tuds felhasznlsbl ll.
Az adatok mennyisgnek nvekedse legfkpp annak ksznhet, hogy az utbbi
vtizedekben az emberi tevkenysgek, az informatiknak ksznheten egyre inkbb
automatizltt vlnak. Ez a megnvekedett automatizltsg s elektronikus mdon
IntelligensAdattrhzak 42/51
Intelligens Adattrhzak
IntelligensAdattrhzak 43/51
Intelligens Adattrhzak
IntelligensAdattrhzak 44/51
Intelligens Adattrhzak
IntelligensAdattrhzak 45/51
Intelligens Adattrhzak
IntelligensAdattrhzak 46/51
Intelligens Adattrhzak
IntelligensAdattrhzak 47/51
Intelligens Adattrhzak
8 SSZEGZS
A diplomamunkm megrsa sorn igyekeztem tfog, ltalnos rvnysggel ismertetni
az adattrhzak vilgt, az adattrhzakra pl, adatmenedzselst segt rendszereket, az
adattrhzak architektrjt, adatmodellezsi koncepcikat, valamint az adattrhzaknl
alkalmazott intelligens megoldsokat bemutatni. Dolgozatombl remlhetleg tisztn
ltszik, hogy az zleti intelligencia s az adattrhz technolgik bevezetse mennyire
fontos szerepet jtszhat egy vllalat letben. Ez a technolgia mg most kezd igazn
elterjedtt vlni, s lthat, hogy a jvben valsznleg mg rengeteget fog fejldni. Ma
mr a legtbb nagyvllalat egyrtelmen ltja, hogy szksg van az adattrhzak s
elemzsi mdszerek hasznlatra.
Az ETL folyamatok egyre jobb megoldsai mellett a lekrdezsek gyorsasgt elsegt
minl intelligensebb megoldsokra is figyelmet fordtanak az adattrhz-fejleszt cgek
(ilyen lekrdezs-optimalizl megolds pldul az Oracle szoftvere, az Exadata Storage
Server, mely egy intelligens adatbzis protokollt biztost a lekrdezsek gyorstshoz).
A technolgia fejldsvel a vllalatok az adattrhzak adattrol kapacitsnak
nvekedse mellett is egyre knyelmesebben elemezhetik adataikat s egyre tbb hasznos
informcihoz juthatnak hozz. Ezen fell az adattrhz technolgik alkalmazsa s
intelligens megoldsok integrlsa nem csak a megknnytik a projektvezetk s
vllaltirnytk dntshozatalt, de felpezsdtik a konkurens cgekkel folytatott piaci
versenyt is.
IntelligensAdattrhzak 48/51
Intelligens Adattrhzak
9 KSZNETNYILVNTS
Ksznetet mondok tmavezet tanromnak, Dr. Juhsz Istvnnak a diplomamunkmhoz
nyjtott segtsgrt.
IntelligensAdattrhzak 49/51
Intelligens Adattrhzak
10 BRAJEGYZK
3.1. bra - Adattrhz komponensek ................................................................................... 11
4.1. bra - Alap architektra ................................................................................................ 15
4.2. bra - Architektra egy sszestsi terlettel................................................................ 16
4.3. bra - Architektra egy sszestsi terlettel s adatpiacokkal .................................... 16
5.1. bra Adatkocka .......................................................................................................... 20
5.2. bra - A cm dimenzi felgrgetse (vrosrl megyre) .............................................. 21
5.3. bra - Lefrs az id dimenzin (negyedvrl hnapra).............................................. 22
5.4. bra - Szeletels s kockzs ........................................................................................ 22
5.5. bra - Plda dimenzitbla ........................................................................................... 25
5.6. bra - Plda tnytbla ................................................................................................... 26
5.7 bra - Tny- s dimenzitblk a tbbdimenzis modellben ........................................ 28
7.1. bra - IDW architektra 1............................................................................................. 36
7.2. bra - IDW architektra 2............................................................................................. 37
7.3. bra - KDD folyamat .................................................................................................... 41
IntelligensAdattrhzak 50/51
Intelligens Adattrhzak
11 IRODALOMJEGYZK
[1] Barry Devlin: Data Warehouse from Architecture to Implementation. Addison Wesley
Longman, 1997.
[2] Ralph Kimball: The Data Warehouse lifecycle toolkit, 2nd edition. Wiley Computer
Puplishing, 2008.
[3] Ralph Kimball, Margy Ross: The Data Warehouse Toolkit, 2nd edition. Wiley
Computer Publishing, 2002.
[4] Ralph Kimball, Joe Caserta: The Data Warehouse ETL Toolkit. Wiley Computer
Publishing, 2004
[5] Jiawei Han, Micheline Kamber: Adatbnyszat koncepcik s technikk. Panem
kiad, 2004.
[6] Hsiao-Fan Wang: Intelligent Data Analysis. Information Science Reference
Publishing, 2008.
[7] R. Stackowiak, J. Rayman, R. Greenwald: Oracle Data Warehousing and Business
Intelligence Solutions. Wiley Computer Publishing, 2007.
[8] http://download.oracle.com/docs/cd/B10501_01/server.920/a96520/toc.htm
[9] http://www.cs.sfu.ca/CC/459/han/papers/chaudhuri97.pdf
[10] http://www2.sas.com/proceedings/sugi27/p170-27.pdf
IntelligensAdattrhzak 51/51