You are on page 1of 31

Inżynieria Systemów

Bazodanowych
W7 – Hurtownie danych
Opracowano na podstawie:
Projektowanie hurtowni danych Ch. Todman.
Hurtownie danych. Podstawa organizacji i funkcjonowania. M. Jarke, M. Lenzerini, Y.
Vassiliou, P. Vassiliadis
Materiały z Internetu
Wstęp
• Hurtownia Danych (HD) - trwała analityczna baza danych, która jest podstawą
(fundamentem) systemu wspomagania podejmowania decyzji
• Systemem, którego zadaniem jest dostarczenie użytkownikowi informacji
umożliwiających analizowanie sytuacji i podjęcie decyzji.
– Innymi słowy, jest to system dostarczający informacje, które mają pomóc pracownikom w
podejmowaniu decyzji, tym samym czyniąc ich pracę bardziej efektywną
• System wspomagania podejmowania decyzji posiada następujące cechy
– Klarowność – struktury danych są zrozumiałe dla użytkowników
– Statyczność – wielkość zmian w bazie danych odbywa się w sposób kontrolowany
podczas ładowania danych zgodnie z ustalonym wcześniej harmonogramem
– Nieprzewidywalne i bardzo złożone zapytania
– Złożone kryteria oceny działalności organizacji – jednoczesność wielowymiarowej
oceny organizacji
– Duże i złożone zbiory wyników są przechowywane w odpowiedni sposób, aby
istniała możliwość szybkiej ich prezentacji
– Odzyskiwalność - regularne tworzenie kopi zapasowych lub zrzucanie wybranych
fragmentów statycznej bazy danych chronią przed utratą danych
HD - Definicja
• Hurtownia danych to zbiór zintegrowanych, nieulotnych, ukierunkowanych baz danych,
wykorzystywanych w systemach wspomagania decyzji

• HD to zorientowana tematycznie (subject-oriented), zintegrowana (integrated), zmienna


w czasie (time-variant) i nieulotna (trwała, non-volatile) składnica danych wspierająca
proces wspomagania decyzji zarządczych

• HD to repozytorium danych zaprojektowane w celu wspomagania Zarządu w


podejmowaniu decyzji oraz jako źródło zintegrowanych i historycznych danych na
podstawie, których mogą być wykonywane różnorodne analizy

• HD jest procesem i architekturą (wymagającą solidnego zaplanowania) służącą


implementacji platformy, na którą składa się selekcja, konwersja, transformacja,
konsolidacja, integracja, czyszczenie i mapowanie danych (bieżących i historycznych) z
różnych źródeł danych operacyjnych.
– HD wspomaga proces podejmowania decyzji w przedsiębiorstwie i systemy Business
Intelligence (BI);
– Architektura HD zapewnia elastyczność i rozszerzalność służąc aplikacjom działające aktualnie i
w przyszłości;
– Architektura HD jest czymś więcej niż pojedynczy produkt i wymaga uwzględnienia pięć
zasadniczych komponentów:
• źródła danych,
• ekstrakcji i transformacji danych,
• DBMS,
• administracji,
• narzędzi BI
HD - definicja
• Centrum hurtowni danych stanowi zbiór danych

• zintegrowanych - czyli wyrażonych we wspólnym języku na poziomie


pojęć i schematu baz danych, niezależnie od pochodzenia danych

• nieulotnych - czyli przeznaczonych do długiego przechowywania,


mających wartość archiwalną, w zasadzie niepodlegających zmianom
innym, niż dodawanie nowych porcji danych

• ukierunkowanych - czyli zorganizowanych w sposób mający ułatwić


konkretne zadania analityczne, zoptymalizowanych pod kątem
przetwarzania konkretnych rodzajów zapytań
HD - Cele
• Podstawowe cele dla których buduje się hurtownie danych, to:
– Przetwarzanie analityczne danych (On-Line Analytical Processing, OLAP) - kwerendy
(w SQL lub innych językach wspomagających tego typu operacje) pozwalające na
wykonywanie zestawień statystycznych, wykresów i raportów, podsumowujących
znaczne ilości danych.
– Wspomaganie decyzji (Decision Support, DS) - wykonywanie bardziej złożonych
analiz, symulacji scenariuszy biznesowych itd. Pokrewne pojęcie: Business
Intelligence (BI). Wspomaganie decyzji można łączyć również z bardziej
zaawansowanymi i zautomatyzowanymi projektami dotyczącymi Odkrywania Wiedzy
w Bazach Danych (Knowledge Discovery in Databases, KDD).
– Centralizacja danych - gromadzenie szczegółowych danych napływających z różnych
źródeł, często związanych z bazami OLTP, często przetwarzanych i integrowanych przy
użyciu narzędzi Extract Transform Load (ETL), celem udostępniania szerokiego zakresu
danych dla poszczególnych hurtowni tematycznych, narzędzi OLAP czy też narzędzi
Data Mining (DM). W takim rozumieniu, hurtownia danych jest centralnym punktem
dla infrastruktury danych w przedsiębiorstwie czy zastosowaniu, zwanej Corporate
Information Factory (CIF).
– Archiwizacja - wykonywana ze względu na wymagania prawne (niektóre instytucje
zobowiązane są do przechowywania pewnych danych), gdzie szybki dostęp do danych
poprzez SQL jest jednak wciąż ważny.
OLAP a OLTP
• Zadania OLAP (On-Line Analytical Processing)można
scharakteryzować porównując je z drugim popularnym rodzajem
przetwarzania danych w systemach bazodanowych: OLTP (On-Line
Transactional Processing, przetwarzanie transakcyjne).
• Transakcyjne przetwarzanie danych to operacje dokonywane w
bieżących (produkcyjnych) bazach danych przedsiębiorstwa,
wykorzystywanych do codziennej pracy.
– Są to systemy optymalizowane pod kątem maksymalnej wydajności
transakcyjnej, wysokiej równoległości i dostępności.
– Przykłady: system bankowy obsługujący odczytywanie i modyfikację salda
rachunków klientów; system finansowo-księgowy obsługujący supermarket
i połączony z kasami fiskalnymi; baza danych obsługująca aktywną
zawartość portalu internetowego, system billingowy sieci komórkowej itp.
OLAP a OLTP
• Podstawowe cechy systemów OLTP to:
– wykonywanie dużej liczby prostych zapytań pochodzących
od wielu użytkowników (nierzadko są to setki zapytań na
sekundę)
– system bazodanowy powinien być zoptymalizowany pod
kątem szybkiego wyszukiwania danych
– częste operacje dodawania, usuwania i modyfikacji
pojedynczych rekordów
– wymagany natychmiastowy dostęp do aktualnych informacji
OLAP
• Przetwarzane typu OLAP to przede wszystkim tworzenie
raportów (zwykle predefiniowanych) obejmujących
zestawienia tabelaryczne i wykresy. Ten rodzaj przetwarzania
przeznaczony jest zwykle dla innego rodzaju użytkowników:
kierownictwa, analityków, administratorów.
• Przykłady:
– raport dynamiki sprzedaży produktów w różnych krajach, dla którego
źródłem są pojedyncze zapisy wszystkich transakcji przy kasach 100
supermarketów danej sieci z ostatnich trzech lat;
– raporty podsumowujące obroty i prowizje klientów banku w rozbiciu
na miesiące, rodzaje opłat i grupy klientów;
– typowe statystyki miesięczne ruchu internetowego na serwerach
WWW
Cechy OLAP
• Niewielka liczba zapytań, lecz dotyczących wielkich
ilości danych (podsumowania itp., mogą to być
zapytania zadawane raz na kilka minut przez kilku-
kilkuset użytkowników) systemy te zasadniczo tylko
odczytują informację z bazy
• Jeśli system OLAP jest logicznie oddzielony od baz
transakcyjnych, to informacje są cyklicznie uzupełniane
(dodawanie dużych grup nowych rekordów) nie
zakładamy pełnej aktualności informacji: dane mogą
być dostępne z opóźnieniem (najlepiej znanym z góry,
np. jednodniowym), a same obliczenia mogą trwać od
sekund do wielu godzin.
OLTP i OLAP
• Rozbieżność wymagań pomiędzy przetwarzaniem typu OLTP i
OLAP uzasadnia rozdzielenie tych zadań. Jest to jeden z
powodów, dla których tworzy się hurtownie danych - oddzielne
(logicznie i fizycznie) systemy informatyczne, wykorzystujące inne
rodzaje silników bazodanowych, mające inaczej skonstruowaną
zawartość, niż systemy produkcyjne (transakcyjne)
przedsiębiorstwa.
• Z drugiej strony, wymagania użytkowników hurtowni danych
powodują wprowadzanie coraz większej liczby elementów OLTP
do funkcjonalności hurtowni danych, co może być związane, np.,
z potrzebą generowania raportów w czasie rzeczywistym podczas
ładowania nowych danych, lub z koniecznością wykonywania
raportów operacyjnych przez wielu użytkowników jednocześnie,
co wiąże się z coraz bardziej ostatnio popularnym pojęciem
Operational BI
OLAP - Wspomaganie decyzji
• Przetwarzanie typu OLAP to jedno z narzędzi wspomagania decyzji
• Systemy wspomagania decyzji (DSS - Decision Support Systems) tworzone są
na potrzeby kierownictwa przedsiębiorstwa i analityków, szukających
sposobu na minimalizację kosztów, poprawę jakości produktów i ich
promowanie, obsługi klienta, przewidywanie ryzyka itp.
• DSS odpowiada na takie pytania jak:
– jaka była wielkość sprzedaży w rozbiciu na miesiące?
– jaka grupa klientów generuje 80% obrotu?
– jaka jest struktura (histogram) wielkości zakupów?
– jakie są charakterystyczne cechy naszych najlepszych klientów, biorąc pod uwagę
te informacje, które o nich gromadzimy?
– jak automatycznie wykryć, którzy klienci zamierzają prawdopodobnie niedługo
zrezygnować z naszych usług?
• KDD (Knowledge Discovery in Databases), sztuczna inteligencja,
czyli np. drzew decyzyjnych, systemy regułowe, sieci neuronowe
itd. pomagają odpowiedzieć na ww. pytania
Właściwości HD
• Systemy klasy HD są uznane i coraz powszechniej stosowane
systemy do zarządzania zintegrowaną informacją w
organizacji
• Służą wyszukiwaniu i zintegrowaniu danych z różnych źródeł
(najczęściej z archiwów, systemów przetwarzania danych,
Intranetu, Internetu, itp.), połączeniu słabo
skonsolidowanych danych i ich przetwarzaniu w celu
uzyskania informacji decyzyjnej dla użytkowników wszystkich
szczebli zarządzania
• Integrują dane kluczowe i informacje biznesowe z istotną
informacją kontekstową w celu monitorowania ważnych
zdarzeń i wyjaśniania kwestii budzących wątpliwości
• Obejmują „obserwację” tendencji w organizacji w celu
szybkiej adaptacji do zmieniających się sytuacji oraz
podejmowanie inteligentnych decyzji, bazując na
niepewnych przesłankach i sprzecznych informacjach.
Właściwości HD
• Cechą charakterystyczną odróżniającą HD od tradycyjnych systemów informacyjnych
(np. Zintegrowany System Informatyczny – ZSI) jest:
– Znacznie szerszy zakres przedmiotowy, wykraczający poza ewidencjonowanie i analizę
danych, które cechują się ściśle określoną i powtarzalną strukturą
– Wysoka jakość danych – HD wymaga na wejściu danych wysokiej jakości, które można uzyskać
jedynie posługując się zasobami danych o jakości równie wysokiej; jeżeli organizacja zamierza
zrealizować HD powinna zrozumieć i docenić wartość zasobów danych wysokiej jakości
– HD umożliwia również analizę danych nieustrukturalizowanych , pochodzących ze źródeł i
dokumentów pozbawionych ściśle określonej struktury, jak np. pisma przewodnie, notatki
służbowe, sprawozdania, itp. HD może funkcjonować jako system niezależny i pozyskiwać
dane pośrednio z systemów transakcyjnych niezintegrowanych , systemów zintegrowanych i
innych ( np. pliki, arkusze kalkulacyjne).
– Systemy HD stanowią ważny przełom w technikach pracy z informacją. Są rozwiązaniami
wypełniającymi lukę informacyjną, głównie w zakresie analizy strategicznej, finansowej,
oczekiwań klientów, analizy przedsiębiorstwa oraz rynku.
– Idea systemów HD zakłada zintegrowaną analizę oraz ocenę przedsiębiorstwa z
wykorzystaniem wskaźników finansowych i niefinansowych. Wykorzystując technologię
hurtowni danych oraz dwie podstawowe techniki w dziedzinie analizy danych (tj. OLAP On-
line Analytical Proccessing) i data mining tworzy się nową generację systemów informacyjno –
decyzyjnych. Takie rozwiązanie umożliwia integralną eksplorację danych z wielu
rozproszonych źródeł informacji, wielowymiarową analizę w czasie rzeczywistym oraz
prezentację w różnych układach i perspektywach
Zastosowanie HD
• Poprawy efektywności zarządzania strategicznego, taktycznego i operacyjnego
a w szczególności:
– Informowania o realizacji strategii organizacji, jej misji, celów i zadań,
– Dostarczania informacji o realizacji planów, o rezultatach i postępach
wprowadzonych zmian, o trendach w organizacji,
– Identyfikacji problemów i „wąskich gardeł” oraz dostarczania wiedzy o rozwiązaniu
tych problemów,
– Udostępniania analiz „najlepszych”, lub „najgorszych” realizowanych usług na rzecz
klienta, pracowników, oddziałów, itp.,
– Dostarczania analiz o odchyleniach w realizacji planów dla poszczególnych
jednostek organizacyjnych, osób, czy wskaźników,
• Tworzenia oraz poprawy „relacji” z klientami, a w szczególności:
– Dostarczania klientom wyników usług o najwyższej jakości w określonym czasie, odpowiedniej
konsultacji o usługach, tak, aby szybko mogli reagować na ich potrzeby,
– Śledzenia poziomu satysfakcji klientów i skuteczności realizacji usług,
• Analizy i poprawy efektywności procesów działalności podstawowej i sprawności
operacyjnej, a zwłaszcza:
– Dostarczania wiedzy i doświadczeń powstałych przy wykonywaniu czynności dozorowych oraz
wprowadzaniu nowych rodzajów usług dozorowych,
– Dostarczania wiedzy o poszczególnych procesach poprzez rozpowszechnianie procedur
Systemu Jakości,
– Wymianie wiedzy pomiędzy poszczególnymi pracownikami, zespołami, oddziałami.
– Rozwiązania HD spełniające powyższe funkcje dają szansę organizacji stać się „inteligentną
organizacją”
Infrastruktury techniczne HD
• Infrastruktury techniczne hurtowni danych są
blisko związane z architekturą. Zalicza się do
nich:
– technologie,
– platformy,
– bazy danych,
– platformy sprzętowe i systemowe,
– oraz inne składniki niezbędne do tego, aby
architektura hurtowni była funkcjonalna.
• Przyjęto, że za infrastrukturę techniczną też
uważane jest szkolenie
Infrastruktury techniczne HD
• Infrastruktury techniczne –narzędzia, platformy, komunikacja,
bazy danych, szkolenia, itp. – wymagają sporo czasu na ich
określenie, instalację i dostrojenie. Nowy sprzęt i
oprogramowanie należy zakupić i uruchomić.
• Ponadto należy przejrzeć i wybrać narzędzia do integracji danych,
zorganizować sieci, bramy baz danych i komunikację.
• Techniczne infrastruktury powinny zostać określone, w zależności
od przyjętej architektury hurtowni danych i być w fazie
instalowania przed rozpoczęciem tworzenia hurtowni danych.
• Bardzo duży wpływ na wybór odpowiednich infrastruktur
technicznych ma aktualne środowisko przetwarzania danych, a
mianowicie czy jest ono ustrukturalizowane (zintegrowane) czy
niezintegrowane.
• Środowisko przetwarzania danych ma bardzo duży wpływ na
wybór metodyki (cyklu życia systemu hurtowni danych) realizacji
systemu wspomagania podejmowania decyzji.
Architektura hurtowni danych
• Strukturę hurtowni danych tworzą kolejne warstwy danych
– każda następna warstwa stanowi przetworzenie poprzedniej
• Najniższą warstwę tworzą źródła danych,
– zastane bazy danych przedsiębiorstwa,
– często rozproszone geograficznie,
– zróżnicowane pod względem sposobu dostępu (zwykłe bazy danych
różnych formatów, pliki binarne lub tekstowe, źródła specjalne),
– zróżnicowane pod względem struktury logicznej,
– zróżnicowane pod względem wielkości i jakości danych.
Architektura hurtowni danych
• Środkową warstwę na schemacie zajmuje centralna hurtownia
danych (podstawowa, korporacyjna).
– Stanowi ona podstawowe miejsce przechowywania nieulotnej informacji
gromadzonej ze źródeł, jak też częściowych podsumowań przydatnych w
zadaniach typu OLAP i we wspomaganiu decyzji.
– Globalna hurtownia danych rejestruje historię źródła danych i jest
cyklicznie, podczas aktualizacji, uzupełniana o nowe, skondensowane
informacje dotyczące aktualnego stanu źródła danych, zapisywane obok
poprzednich.
• Dane w hurtowniach danych mogą pochodzić sprzed wielu lat, gdyż hurtownia
spełnia także funkcje archiwalne.
Architektura hurtowni danych
• Kolejną warstwę stanowią hurtownie lokalne
– Tworzone na potrzeby użytkowników (działów analitycznych),
– Zawierają wyselekcjonowane dane w postaci silnie zagregowanej,
pozwalające na szybką prezentację podsumowań wykorzystywanych w
zarządzaniu, planowaniu długoterminowym, analizach historycznych,
analizach trendów, przetwarzaniu informacji i analizach zintegrowanych
• Lokalne hurtownie danych nazywane są hurtowniami tematycznymi
(data marts, hurtownie oddziałowe). Ze względu na mniejszy rozmiar i
możliwość pracy lokalnej, hurtownie tematyczne pozwalają na
sprawniejsze operowanie danymi. Mogą być zaimplementowane jako
relacyjne bazy danych lub specjalne struktury wielowymiarowe.
Architektura hurtowni danych
• Czasem pomiędzy warstwą danych źródłowych a globalną hurtownią danych
wprowadza się warstwę pośrednią, zwaną magazynem danych operacyjnych
(Operational Data Store, ODS)
– Warstwa ODS zawiera zwykle wyniki transformacji, integracji i agregacji danych ze
źródeł i sama stanowi bezpośrednie źródło zasilające globalną hurtownię danych.
– ODS jest aktualizowany o wiele częściej niż hurtownia danych i zawiera znacznie
aktualniejsze informacje, jednak dane są tam o wiele mniej zagregowane, co
utrudnia wykonywanie zadań OLAP.
– Tworzenie warstwy ODS może odciążyć centralną hurtownię danych od części
zadań związanych z aktualizacją danych, często jest to też uzasadnione ze
względów technicznych (np. znacznego geograficznego rozproszenia źródeł
danych).
Architektura hurtowni danych
• Dodatkowym elementem systemu hurtowni danych jest baza
metadanych (metadata repository).
– Baza metadanych ma w założeniu przechowywać aktualny i historyczny
schemat fizyczny, logiczny i pojęciowy hurtowni, w tym procesów
ekstrakcji, transformacji, agregacji, czyszczenia i przechowywania
informacji, a także historię użycia danych.
• Projektowanie hurtowni danych polega na stworzeniu modelu
pojęciowego, logicznego i fizycznego hurtowni.
• Modelowanie na tych trzech poziomach dotyczy wszystkich
elementów hurtowni danych - centralnej hurtowni, procesów
ETL (ang. Extract, Transform and Load), hurtowni tematycznych
itp.
Modelowanie HD
• Model pojęciowy to opis struktury, zawartości i przeznaczenia
hurtowni danych przeprowadzony na poziomie pojęciowym, tzn. z
punktu widzenia celów biznesowych, przy użyciu nazw z języka
naturalnego specjalistycznego, właściwego dla danej organizacji.
– Model pojęciowy może np. określić, że konieczne jest gromadzenie pewnych
informacji o klientach, definiuje też pojęcie "klient" i wskazuje na biznesowe cele
zaplanowanych analiz.
• Model logiczny to opis odwołujący się do elementów logicznych baz
danych i procesów hurtowni, a więc kolumn, tablic, relacji itp.
– Opis na poziomie logicznym przypomina typowy projekt bazy danych wykonany
np. w języku UML.
• Model fizyczny to opis parametrów mających na celu optymalizację
działania hurtowni danych, takich jak indeksowanie, partycjonowanie,
kopiowanie danych, a także takich elementów, jak sprzęt
komputerowy, sieć, systemy archiwizujące, rozmieszczenie
poszczególnych zasobów logicznych, itp.
Modele projektowania
• Z punktu widzenia przyjętej metody postępowania,
wyróżniamy
– projektowanie wstępujące (od szczegółu do ogółu), w ramach
którego najpierw tworzone są projekty związane z
poszczególnymi źródłami danych, działami przedsiębiorstwa,
potrzebami użytkowników itp., a następnie projekty te scalane
są w jeden projekt ogólny;
– projektowanie zstępujące, w ramach którego rozpoczynamy
od stworzenia modelu przedsiębiorstwa na poziomie
pojęciowym, by następnie stopniowo przejść do projektu
integracji potrzebnych danych źródłowych.
• Ta metoda jest trudniejsza i droższa, pozwala jednak na ominięcie
pułapek związanych z integracją (potencjalnie niespójnych) modeli
lokalnych.
Hurtownie tematyczne
• Hurtownie tematyczne stanowią wydzielone i
przetworzone podzbiory danych, przeznaczone do
konkretnych rodzajów analiz.
• Zastosowania i typowe operacje hurtowni tematycznych
obejmują:
– OLAP: obracanie wielowymiarowej kostki danych, zwijanie,
rozwijanie... (zestawienia statystyczne, raporty, wykresy)
– Eksplorację danych (syntetyczny i ukierunkowany opis danych
lub zadania automatycznej klasyfikacji i wykrywania wzorców)
– GIS (systemy informacji geograficznej/przestrzennej)
– inne zadania typu Business Intelligence (np. analiza wariantów:
co by było, gdyby...)
Wielowymiarowy model danych
• Jeden ze sposobów na przyspieszenie typowych operacji
podsumowujących OLAP, stosowany zwłaszcza w hurtowniach
tematycznych.
– Najczęściej wykonywane zadania analityczne to podsumowania (tabele,
wykresy) pewnych wielkości liczbowych, jak ilość towaru, kwoty pieniędzy
itp., w rozbiciu na pewne kategorie, często w różnych momentach czasu.
– Typowe zapytania podsumowujące to takie, które w języku SQL zapisuje
się za pomocą klauzuli GROUP BY i agregacji (np. SUM, COUNT).
• Aby takie zapytania nie wymagały przejrzenia całych
(wieloterabajtowych) danych źródłowych, część agregacji może
być policzona zawczasu i przechowywana w postaci
wielowymiarowych tabel, tzw. kostek danych.
Operacje wielowymiarowe
• W modelu OLAP zakładamy, że baza zawiera fakty opisane przez wymiary i
określające wartość miar.
– Faktem jest zapis dotyczący pojedynczego zdarzenia podlegającego
podsumowaniom (np. fakt sprzedaży, pojedyncze żądanie do serwera WWW itp).
– Centralna hurtownia danych może takie fakty przechowywać w jednej lub wielu
tablicach danych.
• Cechy biznesowe danego faktu, jak np. rodzaj produktu, którego dotyczy, lub
moment zajścia faktu, to z kolei jego wymiary.
• Miara jest natomiast liczbowym określeniem faktu, które podlega
podsumowaniu i jest na wykresach czy w tabelach prezentowane jako wynik
podsumowania (np. wartość transakcji sprzedaży).
• Model wielowymiarowy zakłada stworzenie n-wymiarowej tabeli
syntetycznej, której krawędzie opisane są wymiarami, a poszczególne komórki
zawierają podsumowania miar.
• Taka tabela stanowi następnie dogodne źródło danych do podsumowań -
często wystarczy jedynie wyselekcjonować jej dwa wymiary, by uzyskać
wymaganą tabelę statystyczną do raportu.
Przykład modelu wielowymiarowego
• Baza danych zawiera zapisy transakcji sprzedaży odczytywane z kas
supermarketu.
• Hurtownia danych gromadzi informację pochodzącą z baz źródłowych 300
sklepów sieci, rozmieszczonych w wielu miastach.
• Klienci są identyfikowani dzięki kartom rabatowym, z których korzystają
podczas zakupów.
• Docelowa kostka jest 4-wymiarowa.
– Fakt to w tym przypadku pojedyncza sprzedaż jednego produktu jednemu
klientowi (pozycja na paragonie).
– Fakty opisane są wymiarami: czas, klient, produkt, sklep.
– Miara to wartość sprzedaży i liczba sztuk.
– Poziom agregacji informacji w kostce to poziom szczegółowości opisu wymiarów,
np. czas można dzielić na dni lub na kwartały, produkty można grupować w grupy
produktów.
– Zawartość komórki to zagregowana miara (suma sprzedaży danego produktu w
danym sklepie, danego dnia, danemu klientowi).
Systemy zarządzające
• Ze względu na wymagania dotyczące ilości zgromadzonych danych i specyfiki
przetwarzanych zapytań, elementy składowe hurtowni danych działają zwykle z
wykorzystaniem więcej, niż jednego systemu zarządzającego.
– W przypadku baz źródłowych, a także magazynów danych operacyjnych, są to zwykle
systemy zastane (często bardzo zróżnicowane), będące najczęściej jednym z systemów
bazodanowych ogólnego zastosowania (jak Microsoft SQL Server, Oracle, DB2, MySQL
i podobne). W tym przypadku projektant hurtowni ma niewielki wpływ na wybór
rozwiązań
– W centralnych hurtowniach danych wykorzystuje się więc systemy klasy VLDB (very
large databases)
• Przykładem to rozwiązanie centralnego magazynu hurtowni danych proponowane przez
firmę Teradata. Składa się z modułów sprzętowo-programowych, opartych na dedykowanej
odmianie Unixa i odpowiednich rozwiązaniach konstrukcyjnych (m.in. połączenia optyczne).
Moduły te zapewniają wysoką skalowalność (rozszerzenie systemu polega na dokupieniu
kolejnych modułów, z których każdy przeznaczony jest na 0,5 TB danych). Całości dopełnia
wydajny silnik z elementami kompresji danych.
– Oddzielny problem dotyczy obsługi dostępu typu OLAP do danych zgromadzonych w
hurtowniach tematycznych. W tym przypadku priorytetem jest nie tyle obsługa
wielkich ilości danych (gdyż hurtownie tematyczne zwykle stanowią wycinek
wszystkich przechowywanych danych), co optymalizacja zapytań typu
podsumowującego i wspieranie modelu gwiazdy lub kostek wielowymiarowych.
Superrelacyjne SZBD
• Superrelacyjne systemy zarządzania bazą danych
to systemy zarządzające rozszerzone o możliwości
współpracy z narzędziami OLAP za pomocą tzw.
funkcji superrelacyjnych.
– Są to rozszerzenia formatów przechowywania danych,
operacji relacyjnych i indeksowania.
– Dane w tych systemach są przechowywane w
strukturze gwiazdy lub płatka śniegu (omówimy na
kolejnych wykładach), co pozwala automatycznie
optymalizować zapytania typu OLAP.
Architektura ROLAP
• Jest to sposób dostępu do danych za pomocą narzędzi do analizy
informacji wielowymiarowych (kostek danych), przy czym źródłem
danych dla zapytań jest ukryta, wewnętrzna struktura relacyjna
(jak w przypadku systemów superrelacyjnych).
• Dzięki temu użytkownik zyskuje klarowny model danych, bez
potrzeby znajomości modelu gwiazdy lub płatka śniegu.
– Przykładem tego typu systemów jest rozwiązanie hurtowni danych
proponowane przez MicroStrategy.
– Inne serwery ROLAP to Red Brick (Informix/IBM), oraz Sybase.
• Wychodząc z założenia, że hurtownie danych powinny być
tworzone stopniowo, metodą wstępującą, producenci oferują
systemy ROLAP nie tylko z myślą o hurtowniach tematycznych, ale
też ogólnie o rozproszonych hurtowniach danych.
Wielowymiarowe systemy bazodanowe
• Multidimensional Ddatabase Systems, MDDB odtwarzają sposób, w jaki
narzędzia OLAP prezentują i przetwarzają dane.
• MDDB przechowuje dane wprost w postaci kostek wielowymiarowych. Każdy
wymiar reprezentuje jeden aspekt danych.
– Na przykład dane o sprzedaży w sieci sklepów mogą mieć wymiar towaru, czasu i miejsca.
Dzięki takiej konstrukcji w systemach MDDB nie ma potrzeby wykonywania operacji łączenia
podczas przetwarzania zapytania dotyczącego sprzedaży względem jednego z tych
wymiarów. Dlatego też MDDB bywają w zastosowaniach OLAP znacznie efektywniejsze, niż
tradycyjne systemy bazodanowe, jednak trudniejsza jest aktualizacja tak przechowywanej
informacji, a same kostki mogą przybierać znaczne rozmiary.
– Przykłady rozwiązań tego typu to Cognos PowerPlay, Business Objects czy Brio (tanie
systemy MDDB, tzw. desktop OLAP, będące jedynie interfejsem do hurtowni danych).
• Bardziej złożone rozwiązania typu HOLAP (hybrydowe), zapewniają pełną
integrację relacyjnej hurtowni danych (gdzie priorytetem jest skalowalność) z
modelem wielowymiarowym (gdzie priorytetem jest efektywność zadań
OLAP) w ramach jednej, złożonej architektury.
– Systemy: Hyperion Essbase, Oracle Express i Microsoft OLAP.

You might also like