Professional Documents
Culture Documents
OLAP technológie
multidimenzionálne databázy
Základný princíp na ktorom sú aplikácie BI založené je niekoľkodimenzionálna tabuľka
umožňujúca veľmi rýchlo a pružne meniť jednotlivé dimenzie a meniť tak pohľady užívateľa
na modelovanú ekonomickú realitu. Ide tak v podstate o princíp ´n-dimenzionálnej Rubikovej
kocky´ naplnenej najdôležitejšími podnikovými dátami.
[Pour a kolektív, Informační systémy a elektronické podnikání, 69]
1. Moderné MIS neslúži iba k podpore strategického rozhodovania. Výsledky analýz dát
z prevádzkových aplikácii sú veľmi často používané aj pri operatívnej činnosti.
Stávajú sa tak neoddeliteľnom súčasťou podpory riadenia podnikových procesov
2. Moderné MIS vyžaduje odlišný pohlaď na jeho zakomponovanie do podnikovej
architektúry, budovania aj funkčne požiadavky.
3. Moderný MIS je širšie vymedzený pojem ako dátový sklad.
VDW(Virtual Data Warehouse )- virtuálny dátový sklad- môže mať viacej možných
významov. Označujú sa tak napríklad aplikácie umožňujúce náhľady do hlavnej databázy
EDW s cieľom získania informácií pred vykonaním vlastnej analýzy, typizáciou a uložením
dotazu. Môže ísť ale aj o synonymum pre dátové trhovisko.
[Sodomka,Klčová, Informační systémy v podnikové praxi, 411]
K problematike dátových skladov patrí bezpochyby aj dolovanie dát – Data Mining.
Predstavuje ucelenú metodiku odkrývania skorej nejasných či neznámych vzoriek a vzťahov
v rozsiahlych databázach, ktorá svojimi výsledkami obohacuje manažérke rozhodnutia
o doposiaľ neznámej, overenej a pritom použiteľnej znalosti.
[Sodomka,Klčová, Informační systémy v podnikové praxi, 411]
Dátový sklad nemusí ale vždy predstavovať vhodný zdroj pre dolovanie dát. Veľmi záleží na
tom, aké úpravy boli pri plnení skladu na dátach vykonané. Ich čistením mohlo napríklad
dôjsť k strate údajov súvisiacich s pôvodom zdroja. Tieto potom môžu pri hľadaní skrytých
súvislostí citeľne chýbať.
[Sodomka,Klčová, Informační systémy v podnikové praxi, 411]
2. História
Prvá implementácia automatizovanej podpory manažérskeho rozhodovania spadá do polovice
60.rokov minulého storočia. V roku 1964 prišla spoločnosť IBM na trh s mainframovou
platformou System/360. Tá znamenala do tejto doby nevídaný technologický pokrok, ktorý
umožnil spoločnostiam integrovať všetky jeho aplikácie do jedného informačného systému.
Prakticky neobmedzené schopnosti uskladňovania dát a možnosť okamžitého prístupu
dovolili na tejto platforme nasadiť prvé manažérske informačné systémy.
[Sodomka,Klčová, Informační systémy v podnikové praxi, 408]
Skutočné dátové sklady sa začali budovať na začiatku osemdesiatych rokov minulého
storočia. Boli využívané predovšetkým pre podporu strategického rozhodovania. Priamy
prístup k nim mal iba veľmi obmedzený počet užívateľov a vtedajšie technológie nedovolili
ich plnenie inak ako štvrťročných alebo mesačných intervaloch.
[Sodomka,Klčová, Informační systémy v podnikové praxi, 408]
Hlavným problémom prvých dátových skladov bola obťažná integrácia dát z rôznych
prevádzkových systémov a nízka kvalita vstupných dát , neodpovedala požiadavkám na
spracovanie. Väčšina dotazov odosielaných do dátového skladu bola vtedy predom známa.
Ďalší ťažkosti prinášali dlhé odozvy na zadávanie dotazov.
[Sodomka,Klčová, Informační systémy v podnikové praxi, 408]
V Českej republike sa napríklad dátové sklady začali zavádzať v prvej polovici
deväťdesiatych rokov minulého storočia. V tej dobe išlo skôr o manažérske nadstavby nad
ERP systémom, využívané iba pre vrcholové riadenie.
[Sodomka,Klčová, Informační systémy v podnikové praxi, 409]
V tej dobe boli na český trh uvedené tiež komerčné DW produkty, ako napríklad SAS pre
oblasť bankovníctva alebo odborové aplikácie spoločnosti Pragodata, vybudované na bázi
manažérskeho informačného systému spoločnosti Pilot Software. Manažérske riešenie Pilot
bolo v spolupráci s centralizovaným dátovým skladom Oracle úspešne aplikované napr.
V Českým energetických závodoch.
[Sodomka,Klčová, Informační systémy v podnikové praxi, 409]
Behom nasledujúceho obdobia sa výrazne premenilo podnikateľské prostredie. Podstatne
zosilneli nároky na rýchlosť spracovania (odozvy na zadané dotazy) a významne sa zvýšilo
percento predom neznámych dotazov. V dôsledku automatizácie procesov na nižšom stupni
riadení organizácie bolo rovnako potrebné zaistiť priamy prístup k dátovému skladu väčšiemu
počtu užívateľov.
[Sodomka,Klčová, Informační systémy v podnikové praxi, 409]
Všetky spomenuté faktory potom spoločne priniesli značný nárast požiadaviek na výkonnosť
technológií (hardware, sieťová infraštruktúra a databázová platforma), ktoré sú
k vybudovaniu dátového skladu potrebné.
[Sodomka,Klčová, Informační systémy v podnikové praxi, 409]
Informačné technológie prešli za tú dobu tiež dynamickým vývojom. Dnes sú už natoľko
pokročilé, že nepredstavujú žiadnu prekážku, a to ani pri realizácií veľmi náročných
DW(Datawarehouse) projektov. Problémom zostáva ich dostupnosť pre široké spektrum
organizácií. Sú totiž náročné na finančné investície a schopnosť ľudí naučiť sa jej správne
využívať.
[Sodomka,Klčová, Informační systémy v podnikové praxi, 409]
Pokiaľ majú iné aplikácie využívať služby dátového skladu, musí byť presne popísane, čo
dátový sklad obsahuje. Každý z nástrojov obsahuje vlastný spôsob popisu dát (databáze
systémový katalóg, ETL nástroje- popisy vstupných a výstupných polí a popisy transformácii,
OLAP nástroje – popisy dimenzii a faktov), tímy sú pravé metadáta.
[Sodomka,Klčová, Informační systémy v podnikové praxi, 413]
4. Multidimenzionálna databáza
Pre dáta analytického typu sa nehodí, aby bola ukladaná do relačných databáz. Aby mohli
poskytovať rôzne analýzy a prehľady slúžiace pre strategické rozhodovanie, je nutné, aby sme
sa na tieto dáta mohli dívať z viacerých hľadísk súčasne, malo by teda byť možné vytvárať
tzv. Multidimenzionálne pohľady, čo je pre dáta uložené v relačnej databáze veľký problém.
Nástroje koncového užívateľa musí umožňovať analýzu v zmysle nachádzania súvislostí,
ktoré nie sú z primárnych dát na prvý pohľad zrejmé. Naviac je nutné prechádzať ohromné
množstvá dát, vypočítavať súčty (ktoré v relačných databázach nie sú automaticky uložené),
rýchlo meniť pohľady na dáta, rýchlo a čo možno automatizovane ich ukladať do
prehľadných tabuliek a grafu.
[Pour a kolektív, Informační systémy a elektronické podnikání, 72]
[Jiří Horák , Bronislava Horáková, Datové sklady a 0využití datové struktury typu
hvězda pro prostorová data, 5]
4.3 MOLAP
Implementácia BI na úrovni binárnych OLAP databáz
Aby analytické systémy mohli poskytovať požadované analytické funkcie a podporu
v rozhodovaný, je nutné, aby sa na ich dáta mohlo pozerať z viacero hľadísk súčasne. Malo by
teda byť možné vytvárať tzv. multidimenzionálne pohľady, čo je pre dáta transakčných
aplikácií veľký problém. Je nutné prechádzať veľké množstva dát, vypočítavať agregácie,
rýchlo meniť pohľady na dáta a ukladať ich do prehľadných tabuliek a grafov.
[Gála, Podniková informatika, 94]
4.4 ROLAP
implementácia BI na úrovni relačnej databáze
ROLAP (Relačná OLAP) znamená implementáciu DW pomocou relačných tabuliek (tabuľky
dimenzionálne a tabuľky faktov) organizovaných do hviezdicových schém.
[Šarmanová, Informační Systémy a Datové sklady, 114]
Dátové modely produkčných systémov sú komplexné, obsahujú mnoho tabuliek a ich väzieb.
Takto organizované dáta sú z hľadiska ich vytvárania a aktualizácie veľmi efektívne, ale pre
bežného užívateľa sa stávajú veľmi nepriehľadné. Pre vyššie uvedený nedostatok sa objavila
snaha o zjednodušenie takého uloženia dát a jeho prispôsobenie pre tvorbu BI riešení. Vznikol
tak relační dimenzionálni model, ktorému sa tiež bežne hovorí Schéma hviezdy (STAR
scheme), resp. Schéma snežnej vločky (SNOWFLAKE scheme)
[Gála, Podniková informatika, 95]
[Jiří Horák , Bronislava Horáková, Datové sklady a 0využití datové struktury typu
hvězda pro prostorová data, 8]
Obr.4 schéma tabuliek dimenzií (Snežnej vločky)
[Jiří Horák , Bronislava Horáková, Datové sklady a 0využití datové struktury typu
hvězda pro prostorová data, 8]
V centre schémy je tzv. tabuľka faktov, takže tabuľka sledovaných ekonomických a ďalších
ukazovateľov identifikovaných kľúčom zložených z kľúčov tzv. dimenzionálnych tabuliek,
v nich sú uložené prvky jednotlivých dimenzií. Dimenzionálne tabuľky slúžia pre uloženie
textových informácií o hodnotách uložených v tabuľke faktov. Typicky si to ide predstaviť
ako číselník. V niektorých prípadoch sa preto dimenzionálne tabuľky upravujú, resp.
normalizujú. To v tomto prípade znamená, že sa dimenzionálna tabuľka rozdelí podľa
hierarchickej úrovne dimenzií do viacerých tabuliek, aby sa rovnaké dáta v tabuľke
neopakovali. Schéma, ktorá takto vznikne, nazývame SNOWFLAKE (schéma snežnej
vločky)
[Gála, Podniková informatika, 96-97]
4.5 DOLAP
(Desktop OLAP, dátový sklad na klientskom počítači) Databázista si ľahko predstaví
realizáciu schémy v relačnom dátovom modeli. Bohužiaľ pre multidimenzionálne analýzy by
boli výsledné normalizované tabuľky príliš ťažkopádne. Tabuľky agregovaných hodnôt by sa
pri každej zmene základných dát museli počítať. Počet stupňov hierarchie dimenzií je pevný z
analýzy a nie je rýchlo dynamicky meniť zobrazovanie sum "hore a dole" podľa tejto
hierarchie.
[Šarmanová, Informační Systémy a Datové sklady, 114]
5. Metadáta
5.1 Metadáta dátového skladu
Metadáta sú definované ako dáta o dátach a tejto súvislosti aj s implementáciou riešení
Business Inteligence. Metadáta sú teda popisom všetkých informačných systémov a ich
jednotlivých častí. Z pohľadu riešenia Business Intelligence zahŕňajú hlavne dátové modely,
popisy funkcii, pravidiel, reportu, či požiadaviek na reporty a pod.
[Gála, Podniková Informatika,105]
Prirodzene aj v DW budú potrebné metadáta, dokonca je ich ešte viac. V operatívnych
databázach sú metadáta koncovým užívateľom v podstate skryté, pracujú s nimi len vývojári a
správcovia databázy. Používatelia pracujú s IS prostredníctvom používateľského rozhrania len
ako s čiernou skrinkou. O obsahu dátového skladu = o jeho dátových štruktúrach však musia
byť užívatelia - analytici vopred informovaní, aby mohli DS správne a efektívne využívať.
Preto musí pracovať aj s jeho metadátami, rýchlo pomocou nich vyhľadať požadované dáta aj
ich interpretáciu.
[Šarmanová, Informační Systémy a Datové sklady ,131]
Podľa obsahu môžeme metadáta pre DS rozdeliť na niekoľko druhov:
5.1.1 Metadáta pre správu DS
Sú informácie, ktoré slúžia analytikom, návrhárom pri vývoji DW a správcom DW pri
prevádzke. Sú to:
• metadáta zdrojových dát pre potrebu analýzy a návrhu DS
- rozmiestnenie databáz na serveroch,
- štruktúry zdrojových databáz,
- štruktúry a opisy entít a ich väzieb,
- definícia a opis atribútov, ich dátových typov, domén vrátane merných jednotiek, kľúčov,
indexov,
- informácie o vlastníctvo dát a prípadných väzbách medzi zdrojovými dátami (kto komu
poskytuje
dáta);
[Šarmanová, Informační Systémy a Dátové sklady ,131-132]
Zakladateľom a priekopníkom tejto architektúry dátového skladu sa stal v roku 1996 Ralph
Kimball. Jej základné rysy sú:
dátový sklad firmy môže byť vybudovaný inkrementálnym prístupom – postupným
budovaním nezávislých dátových trhov
primárnym komponentom dátového skladu je nezávislé dátový trh s odpovedajúcimi
dimenziami sledovania javu vo firme
všetky dátové trhy sú navrhnuté s využitím metód dimenzionálneho modelovania
každé dátové trhy odpovedá aplikačnej doméne vo firme (vlastné metadáta, vlastné
OLAP nástroje a pod.).
za dátový sklad sa považuje zjednotenie dátových trhov firmy s odpovedajúcimi
dimenziami
[Bebr – Doucek, Informační systémy pro podporu manažerské práce, 174-175]
Požiadavku zaistiť koherenciu dát v rôznych organizačných jednotkách firmy sa do BUS
architektúry dátového skladu (resp. dátového trhu) premieta v ´Upravených dimenziách´ (
CD – Conformed Dimensions) a ´Upravených faktoch´ (CF – Conformed Facts). Význam
týchto dimenzií a faktov odráža potrebu sledovať niektoré veličiny v lokálnych dátových
trhoch bez ohľadu na to, či sú bezprostredne potrebné pre prácu určitej inej organizačnej
jednotky.
[Bebr – Doucek, Informační systémy pro podporu manažerské práce, 175]
Kľúčovým hľadiskom pre správnu implementáciu dátového skladu s BUS architektúrou je
spôsob, akým sú v ňom zahrnuté dimenzie spravujúce dáta o celofiremných prierezových
procesoch. Riešenie tejto otázky má značný vplyv na charakter dátového modelu, najmä na
jeho granularitu a celkový počet dimenzií obsiahnutých v dátových modeloch.
[Bebr – Doucek, Informační systémy pro podporu manažerské práce, 175]
V praxi to znamená, že počas prípravy dimenzionálneho dátového modelu je nutné spraviť
analýzu prierezových procesov, z nich odvodiť spoločné – odpovedajúce CD dimenzie a tie
potom zahrnúť do celkovej koncepcie riešenia dielčích dátových trhov vo firme ako celku.
V tejto fáze projektu obvykle komplikuje riešenie dátového skladu rozdielnosť používania
a interpretácia niektorých pojmov, názvov a termínov v rámci firmy. Na analytikov
a projektantov dátového skladu kladie táto skutočnosť vyššie nároky a pre úspešné zvládnutie
projektu zavádzania dátového skladu by bolo vhodné, aby mali veľmi dobrú znalosť
vnútorného firemného prostredia. Celofiremný CD predstavuje dáta o rovnakej skutočnosti
(entite) vo všetkých jej výskytoch vo firme. Obecne povedané, predstavuje skutočnosť že
dimenzie sú identicky rovnaké v každom jednotlivom dátovom trhu čo sa týka štruktúry aj
obsahu. Príkladom môžu byť dimenzie regiónu, času, výrobnej značky a podobne.
[Bebr – Doucek, Informační systémy pro podporu manažerské práce, 175-176]
Fungovanie, dôveryhodnosť a konzistencia dát v takto definovanom dátovom sklade sú
značne závislé na kvalite správy jednotlivých dimenzií.
[Bebr – Doucek, Informační systémy pro podporu manažerské práce, 176]
Princíp dátových trhov je obdobný ako v prípade dátových skladov. Rozdiel je v tom že
dátové trhy – Data Marty, sú určené iba pre obmedzený okruh užívateľov (oddelenia, divízie,
pobočky, závod, ...). Podstatou sú tak decentralizované dátové sklady, ktoré sa budú postupne
integrovať do celopodnikových riešení. V niektorých prípadoch slúžia ďalej Data Marty aj pre
vytvorenie celopodnikového dátového skladu ako medzistupeň pri transformácii dát
a produkčných databáz.
[Pour a kolektív, Informační systémy a elektronické podnikání, 75]
„Dátový sklad nie je nič iné ako zjednotenie dátových trhov,“ je veta s ktorou prišiel
zakladateľ dátových skladov Ralph Kimball. Tvrdenie R.Kimballa znamená, že namiesto
vytvárania jedného dátového skladu postupne budujeme jednotlivé dátové trhy. Logickým
zjednotením týchto dátových trhov potom vzniká dátový sklad.
[Gala, Podniková informatika, 103]
7.2 Integrovaný dátový sklad
Počiatkom 90-tych rokov vznikli dva rozdielne pohľady na vnútorné usporiadanie dátových
skladov v súvislosti s dátovými trhmi vzhľadom na vnútornú architektúru dátových skladov.
Hlavnými predstaviteľmi týchto názorov boli Bill Immon, ktorý formuloval svoju teóriu
dvojúrovňovej architektúry dátového skladu, a Ralph Kimball ktorý bol duchovným otcom
architektúry jednoúrovňovej.
[Bebr, Informační systémy pro podporu manažerské práce, 173]
Pri koncepcii integrovaných dátových skladov sa dáta z prevádzkových systémov ukladajú do
centrálneho dátového skladu. Nad týmto dátovým skladom sú potom budované dátové trhy,
ktoré slúžia pre podporu rozhodovacích procesov jednotlivých útvarov podniku. Táto
architektúra bola navrhnutá Billom Inmonom s myšlienkou vytvoriť architektúru, ktorá by
minimalizovala redundantné dáta a zároveň počet interface medzi produkčnými systémami
a dátovým skladom.
Je teda zrejmé, že R. Kimball preferuje cestu od dátových trhov k dátovým skladom, zatiaľ čo
B. Inmon práve opačnú. Obidve poňatia majú svoje výhody a nevýhody, a záleží vždy na
konkrétnych podmienkach a potrebách podniku, ktorý dátový sklad a trhy vytvára.
[Gala, Podniková informatika, 103]
8. Dátové kocky
Dimenzie kocky reprezentujú rozdielne kategórie pre analýzu dát. Kategórie ako napríklad
čas, geografické umiestnenie alebo rôzne výrobkové rady sú typickými dimenziami v
dátových kockách. Kocky však nie sú obmedzené len na tri dimenzie. Dimenzie sú zvyčajne
usporiadané do hierarchií tak, že mapujú stĺpce v relačných databázach.
[Brzák, Manažerská informatika, 77]
[ Brzák, Manažerská informatika, 78]
Hierarchie dimenzií sú zoskupované do úrovní obsahujúcich hodnoty danej dimenzie. Každá
úroveň v dimenzii môže byť sumarizovaná, aby vytvorila hodnoty pre vyššiu úroveň. Napr. v
dimenzii času sumarizáciou hodnôt v úrovni deň získame hodnoty pre vyššiu úroveň mesiac.
[Brzák, Manažerská informatika, 77-78]
Miery sú kvantitatívne hodnoty v databáze, ktoré majú byť analyzované. Typickými mierami
bývajú predaje, náklady a rozpočty. Miery sú analyzované oproti rôznym kategóriám dimenzií
dátovej kocky. Napr. analýza predajov (miera) určitého výrobku (dimenzie) v rôznych
krajinách (konkrétna úroveň dimenzie -geografická poloha) počas dvoch určitých rokov
(úroveň dimenzie čas).
[Brzák, Manažerská informatika, 78]
1. Nesprávna reťaz sponzorstva - správna reťaz zahŕňa dve kľúčové osoby nad manažérom,
ktorý zodpovedá za DW: sponzora (dodáva peniaze do projektu) a ťahúňa z aplikačného
prostredia - ten by mal mať tri vlastnosti: už predtým získaný rešpekt, vlastný zdravý
skepticizmus nad technológiami a byť rozhodný a pružný.
2. Stanovenie nevhodných očakávaní - nie všetko bude vyhovovať užívateľovi, DW sa
väčšinou napĺňajú agregovanými dátami, ak chce používateľ zdrojové dáta, odpoveď je
frustrujúca -frustrácia sa hodí na hlavu DW manažérovi.
3. Politicky naivné správanie - často sa tvrdí, že DW umožní robiť manažérovi lepšie
rozhodnutia. Správny manažér sa stane nedôverčivý, DW robí lepšie rozhodnutia ako ja?
4. Predimenzovanie DW – neodporúča sa prísť s dotazníkom, čo by malo byť v DW. Možno
tak získať príliš veľa požiadaviek a príliš málo skutočne potrebného.
5. Zámena návrhu databázy DW za návrh transakčného systému - ide o dva úplne odlišné
ciele. U DW sa pýtame viac na agregované dáta, trendy, sumy a podobne, otázky sú často len
raz, databáza je často neštandardná (ukladanie agregáciou narúša 3NF) pre jednoduchšiu
navigáciu potencionálnemu užívateľovi, DW obsahuje aj odvodená dáta, napr. spočítané
časové rady a podobne.
6. Voľba manažéra pre DW - skôr technicky než užívateľsky orientovaného.
7. Interné údaje starého štýlu (záznamy) - a nie externé dáta typu video, obrázky, zvuk (napr.
Používateľ chce vidieť obrazovú kópiu pôvodného papierového dokumentu a ten nie je k
dispozícii).
8. Prekrývanie a omyly v definíciách dát - jeden z najzauzlenejších problémov, ktorý sa
vypomstí riadiacemu pracovníkovi, ktorý nedodá a neodsúhlasí korektné definície dát.
9. Viera v sľuby týkajúce sa výkonu - skutočnosť neskôr ukáže, že prostriedky neboli dobre
odhadnuté a sú potrebné ďalšie investície. Zvlášť sa podceňujú náklady na sieť.
10. Stanoviť si krátky termín na vývoj DW - domnienka, že akonáhle je DW hotový, všetky
problémy skončili. DW je cesta, nie vzdialenosť. Užívatelia chcú stále nové dáta.
11. Zameranie sa na ad hoc dolovania dát a periodické zostavy - ani to nemusí viesť
k pokroku. Manažéri často nemajú čas všetko čítať, lepšie je vyvíjať systémy reagujúce na
zmeny toku dát do DW.
[Šarmanová, Informační systémy a datové sklady, 153]
Data mining nie je hotovým riešením, ktoré je dosiahnuteľné jednoduchým stlačením tlačidla.
Použitie techník Data miningu je spojené s vynaložením úsilia predovšetkým na strane
metodických a odborných zamestnancov podniku, ktorí sú znalcami svojej problematiky a
svojich údajov. Ako príklad je možné uviesť úplný postup procesu Data mining, ktorý je
popísaný metodológiou SEMMA a pozostáva z 5 základných krokov:
1) Sampling – výber vzoriek údajov. Tento krok nie je nevyhnutný, je však odporučený.
Databázy, ktoré sú v Data miningu predmetom skúmania, majú gigabyte-ové objemy.
V tejto situácií je potrebné uvážiť, či je pre danú analýzu potrebné použiť celú množinu
údajov, alebo bude postačujúca reprezentatívna vzorka údajov.
2. typy nástrojov
Uvádzali sme si, že dátový sklad sa na začiatku naplní jednorazovo dátami z archívov a iných
starších zdrojov, prípadne z aktuálnych operatívnych databáz. Potom sa pomocou dátovej
pumpy dopĺňa periodicky novými dátami, vzniknutými v operatívnych databázach od
posledného plnenia. Perióda môže byť rôzne dlhá, od denného cyklu (napríklad u obchodných
dátach) až po veľmi dlhý interval.
Zvlášť u denných dát treba dobu plnenia - prácu dátové pumpy - optimalizovať.
Výpočet agregovaných hodnôt zaberá veľmi dlhý čas. Ako sa celková veľkosť dát stále
rozširuje, sú to stále väčšie objemy pre sumovanie. Veľa času sa môže ušetriť na vhodnom
inkrementálnom spôsobe výpočtu agregátnych funkcií: suma nová = suma predošlá + suma
prírastku minimum novej = min (minimum predchádzajúce, minimum prírastku)
obdobne sa spočíta počet a maximum.
Nie je nutné znovu sumovať všetko. Len nové priemery je nutné spočítať podielom nových
súm a počtov. Počty, sumy, extrémy prírastkov sa spočítajú priebežne počas konverzie dát a
predchádzajúce hodnoty sú uložené v DS.
Indexové technológie
Indexov v DS sa používa niekoľkých typov. Niektoré z nich poznáme od IS, iné sú nové.
• B + stromy (majú všeobecné použitie v relačných SRBD)
• Binárne indexové matice (používajú sa v DS a OLAP)
• Join indexy (riešenie je súčasťou multidimenzionálnej analýzy)
• R stromy a rastrové indexy
[Jana Šarmanová, Informačné systémy a dátové sklady, 136]
B + stromy (Balanced tree)
Indexuje sa jeden alebo viac stĺpcov pomocou viacúrovňovej údajovej štruktúry, obsahujúcu
koreňový uzol s ukazovateľmi na uzly v ďalšej úrovni. Najnižšia úroveň obsahuje bloky listov
na každý riadok indexovej tabuľky. Ak sú listy previazané ukazovateľmi, umožňujú
sekvenčné prechádzanie tabuľkou, pátraniach na intervaly, triedenie podľa indexového kľúča
bez prechádzania celým B stromom - potom ich nazývame B + stromy.
Ďalšími možnosťami sú
orezávanie indexových hodnôt v nelistových blokoch u dlhých reťazových stĺpcov,
uchovanie u sekundárnych indexov nielen hodnôt indexového stĺpca, ale aj primárneho
kľúča pre
otázky zahŕňajúce oba atribúty (avšak index je efektívny, ak sú jeho záznamy oveľa kratšie
oproti záznamom dátové tabuľky!),
kombinovanie viacerých indexov na základe zložených selektívnych podmienok pomocou
dotazov AND / OR, vytváranie niekoľkých dočasných indexov, jednoduchých, tie logicky
spojiť podľa selektívnej podmienky a ešte záverom pristúpiť k dátovým riadkom,
SQL optimalizátory spracujú u hviezdicovej schémy najprv obmedzujúce podmienky nad
tabuľkami dimenzií a až nakoniec ich pripoja k tabuľke faktov.
Tieto technológie používa väčšina súčasných výrobcov SRBD - IBM, Oracle, Informix,
Sybase, atď.
[Jana Šarmanová, Informačné systémy a dátové sklady, 136-137]
R stromy
Paralelizmus
Pre efektívnu prevádzku DS sa používajú ďalej paralelné technológie. Pre paralelný prístup sa
používajú dve metódy: