Isbd W7 HZ

Inżynieria Systemów
Bazodanowych
W7 – Hurtownie danych
Opracowano na podstawie:
Projektowanie hurtowni danych Ch. Todman.
Hurtownie danych. Podstawa organizacji i funkcjonowania. M. Jarke, M. Lenzerini, Y.
Vassiliou, P. Vassiliadis
Materiały z Internetu
Wstęp
• Hurtownia Danych (HD) - trwała analityczna baza danych, która jest podstawą
(fundamentem) systemu wspomagania podejmowania decyzji
• Systemem, którego zadaniem jest dostarczenie użytkownikowi informacji
umożliwiających analizowanie sytuacji i podjęcie decyzji.
– Innymi słowy, jest to system dostarczający informacje, które mają pomóc pracownikom w
podejmowaniu decyzji, tym samym czyniąc ich pracę bardziej efektywną
• System wspomagania podejmowania decyzji posiada następujące cechy
– Klarowność – struktury danych są zrozumiałe dla użytkowników
– Statyczność – wielkość zmian w bazie danych odbywa się w sposób kontrolowany
podczas ładowania danych zgodnie z ustalonym wcześniej harmonogramem
– Nieprzewidywalne i bardzo złożone zapytania
– Złożone kryteria oceny działalności organizacji – jednoczesność wielowymiarowej
oceny organizacji
– Duże i złożone zbiory wyników są przechowywane w odpowiedni sposób, aby
istniała możliwość szybkiej ich prezentacji
– Odzyskiwalność - regularne tworzenie kopi zapasowych lub zrzucanie wybranych
fragmentów statycznej bazy danych chronią przed utratą danych
HD - Definicja
• Hurtownia danych to zbiór zintegrowanych, nieulotnych, ukierunkowanych baz danych,
wykorzystywanych w systemach wspomagania decyzji
• HD to zorientowana tematycznie (subject-oriented), zintegrowana (integrated), zmienna

w czasie (time-variant) i nieulotna (trwała, non-volatile) składnica danych wspierająca
proces wspomagania decyzji zarządczych
• HD to repozytorium danych zaprojektowane w celu wspomagania Zarządu w

podejmowaniu decyzji oraz jako źródło zintegrowanych i historycznych danych na
podstawie, których mogą być wykonywane różnorodne analizy
• HD jest procesem i architekturą (wymagającą solidnego zaplanowania) służącą

implementacji platformy, na którą składa się selekcja, konwersja, transformacja,
konsolidacja, integracja, czyszczenie i mapowanie danych (bieżących i historycznych) z
różnych źródeł danych operacyjnych.
– HD wspomaga proces podejmowania decyzji w przedsiębiorstwie i systemy Business
Intelligence (BI);
– Architektura HD zapewnia elastyczność i rozszerzalność służąc aplikacjom działające aktualnie i
w przyszłości;
– Architektura HD jest czymś więcej niż pojedynczy produkt i wymaga uwzględnienia pięć
zasadniczych komponentów:
• źródła danych,
• ekstrakcji i transformacji danych,
• DBMS,
• administracji,
• narzędzi BI
HD - definicja
• Centrum hurtowni danych stanowi zbiór danych
• zintegrowanych - czyli wyrażonych we wspólnym języku na poziomie

pojęć i schematu baz danych, niezależnie od pochodzenia danych
• nieulotnych - czyli przeznaczonych do długiego przechowywania,

mających wartość archiwalną, w zasadzie niepodlegających zmianom
innym, niż dodawanie nowych porcji danych
• ukierunkowanych - czyli zorganizowanych w sposób mający ułatwić

konkretne zadania analityczne, zoptymalizowanych pod kątem
przetwarzania konkretnych rodzajów zapytań
HD - Cele
• Podstawowe cele dla których buduje się hurtownie danych, to:
– Przetwarzanie analityczne danych (On-Line Analytical Processing, OLAP) - kwerendy
(w SQL lub innych językach wspomagających tego typu operacje) pozwalające na
wykonywanie zestawień statystycznych, wykresów i raportów, podsumowujących
znaczne ilości danych.
– Wspomaganie decyzji (Decision Support, DS) - wykonywanie bardziej złożonych
analiz, symulacji scenariuszy biznesowych itd. Pokrewne pojęcie: Business
Intelligence (BI). Wspomaganie decyzji można łączyć również z bardziej
zaawansowanymi i zautomatyzowanymi projektami dotyczącymi Odkrywania Wiedzy
w Bazach Danych (Knowledge Discovery in Databases, KDD).
– Centralizacja danych - gromadzenie szczegółowych danych napływających z różnych
źródeł, często związanych z bazami OLTP, często przetwarzanych i integrowanych przy
użyciu narzędzi Extract Transform Load (ETL), celem udostępniania szerokiego zakresu
danych dla poszczególnych hurtowni tematycznych, narzędzi OLAP czy też narzędzi
Data Mining (DM). W takim rozumieniu, hurtownia danych jest centralnym punktem
dla infrastruktury danych w przedsiębiorstwie czy zastosowaniu, zwanej Corporate
Information Factory (CIF).
– Archiwizacja - wykonywana ze względu na wymagania prawne (niektóre instytucje
zobowiązane są do przechowywania pewnych danych), gdzie szybki dostęp do danych
poprzez SQL jest jednak wciąż ważny.
OLAP a OLTP
• Zadania OLAP (On-Line Analytical Processing)można
scharakteryzować porównując je z drugim popularnym rodzajem
przetwarzania danych w systemach bazodanowych: OLTP (On-Line
Transactional Processing, przetwarzanie transakcyjne).
• Transakcyjne przetwarzanie danych to operacje dokonywane w
bieżących (produkcyjnych) bazach danych przedsiębiorstwa,
wykorzystywanych do codziennej pracy.
– Są to systemy optymalizowane pod kątem maksymalnej wydajności
transakcyjnej, wysokiej równoległości i dostępności.
– Przykłady: system bankowy obsługujący odczytywanie i modyfikację salda
rachunków klientów; system finansowo-księgowy obsługujący supermarket
i połączony z kasami fiskalnymi; baza danych obsługująca aktywną
zawartość portalu internetowego, system billingowy sieci komórkowej itp.
OLAP a OLTP
• Podstawowe cechy systemów OLTP to:
– wykonywanie dużej liczby prostych zapytań pochodzących
od wielu użytkowników (nierzadko są to setki zapytań na
sekundę)
– system bazodanowy powinien być zoptymalizowany pod
kątem szybkiego wyszukiwania danych
– częste operacje dodawania, usuwania i modyfikacji
pojedynczych rekordów
– wymagany natychmiastowy dostęp do aktualnych informacji
OLAP
• Przetwarzane typu OLAP to przede wszystkim tworzenie
raportów (zwykle predefiniowanych) obejmujących
zestawienia tabelaryczne i wykresy. Ten rodzaj przetwarzania
przeznaczony jest zwykle dla innego rodzaju użytkowników:
kierownictwa, analityków, administratorów.
• Przykłady:
– raport dynamiki sprzedaży produktów w różnych krajach, dla którego
źródłem są pojedyncze zapisy wszystkich transakcji przy kasach 100
supermarketów danej sieci z ostatnich trzech lat;
– raporty podsumowujące obroty i prowizje klientów banku w rozbiciu
na miesiące, rodzaje opłat i grupy klientów;
– typowe statystyki miesięczne ruchu internetowego na serwerach
WWW
Cechy OLAP
• Niewielka liczba zapytań, lecz dotyczących wielkich
ilości danych (podsumowania itp., mogą to być
zapytania zadawane raz na kilka minut przez kilku-
kilkuset użytkowników) systemy te zasadniczo tylko
odczytują informację z bazy
• Jeśli system OLAP jest logicznie oddzielony od baz
transakcyjnych, to informacje są cyklicznie uzupełniane
(dodawanie dużych grup nowych rekordów) nie
zakładamy pełnej aktualności informacji: dane mogą
być dostępne z opóźnieniem (najlepiej znanym z góry,
np. jednodniowym), a same obliczenia mogą trwać od
sekund do wielu godzin.
OLTP i OLAP
• Rozbieżność wymagań pomiędzy przetwarzaniem typu OLTP i
OLAP uzasadnia rozdzielenie tych zadań. Jest to jeden z
powodów, dla których tworzy się hurtownie danych - oddzielne
(logicznie i fizycznie) systemy informatyczne, wykorzystujące inne
rodzaje silników bazodanowych, mające inaczej skonstruowaną
zawartość, niż systemy produkcyjne (transakcyjne)
przedsiębiorstwa.
• Z drugiej strony, wymagania użytkowników hurtowni danych
powodują wprowadzanie coraz większej liczby elementów OLTP
do funkcjonalności hurtowni danych, co może być związane, np.,
z potrzebą generowania raportów w czasie rzeczywistym podczas
ładowania nowych danych, lub z koniecznością wykonywania
raportów operacyjnych przez wielu użytkowników jednocześnie,
co wiąże się z coraz bardziej ostatnio popularnym pojęciem
Operational BI
OLAP - Wspomaganie decyzji
• Przetwarzanie typu OLAP to jedno z narzędzi wspomagania decyzji
• Systemy wspomagania decyzji (DSS - Decision Support Systems) tworzone są
na potrzeby kierownictwa przedsiębiorstwa i analityków, szukających
sposobu na minimalizację kosztów, poprawę jakości produktów i ich
promowanie, obsługi klienta, przewidywanie ryzyka itp.
• DSS odpowiada na takie pytania jak:
– jaka była wielkość sprzedaży w rozbiciu na miesiące?
– jaka grupa klientów generuje 80% obrotu?
– jaka jest struktura (histogram) wielkości zakupów?
– jakie są charakterystyczne cechy naszych najlepszych klientów, biorąc pod uwagę
te informacje, które o nich gromadzimy?
– jak automatycznie wykryć, którzy klienci zamierzają prawdopodobnie niedługo
zrezygnować z naszych usług?
• KDD (Knowledge Discovery in Databases), sztuczna inteligencja,
czyli np. drzew decyzyjnych, systemy regułowe, sieci neuronowe
itd. pomagają odpowiedzieć na ww. pytania
Właściwości HD
• Systemy klasy HD są uznane i coraz powszechniej stosowane
systemy do zarządzania zintegrowaną informacją w
organizacji
• Służą wyszukiwaniu i zintegrowaniu danych z różnych źródeł
(najczęściej z archiwów, systemów przetwarzania danych,
Intranetu, Internetu, itp.), połączeniu słabo
skonsolidowanych danych i ich przetwarzaniu w celu
uzyskania informacji decyzyjnej dla użytkowników wszystkich
szczebli zarządzania
• Integrują dane kluczowe i informacje biznesowe z istotną
informacją kontekstową w celu monitorowania ważnych
zdarzeń i wyjaśniania kwestii budzących wątpliwości
• Obejmują „obserwację” tendencji w organizacji w celu
szybkiej adaptacji do zmieniających się sytuacji oraz
podejmowanie inteligentnych decyzji, bazując na
niepewnych przesłankach i sprzecznych informacjach.
Właściwości HD
• Cechą charakterystyczną odróżniającą HD od tradycyjnych systemów informacyjnych
(np. Zintegrowany System Informatyczny – ZSI) jest:
– Znacznie szerszy zakres przedmiotowy, wykraczający poza ewidencjonowanie i analizę
danych, które cechują się ściśle określoną i powtarzalną strukturą
– Wysoka jakość danych – HD wymaga na wejściu danych wysokiej jakości, które można uzyskać
jedynie posługując się zasobami danych o jakości równie wysokiej; jeżeli organizacja zamierza
zrealizować HD powinna zrozumieć i docenić wartość zasobów danych wysokiej jakości
– HD umożliwia również analizę danych nieustrukturalizowanych , pochodzących ze źródeł i
dokumentów pozbawionych ściśle określonej struktury, jak np. pisma przewodnie, notatki
służbowe, sprawozdania, itp. HD może funkcjonować jako system niezależny i pozyskiwać
dane pośrednio z systemów transakcyjnych niezintegrowanych , systemów zintegrowanych i
innych ( np. pliki, arkusze kalkulacyjne).
– Systemy HD stanowią ważny przełom w technikach pracy z informacją. Są rozwiązaniami
wypełniającymi lukę informacyjną, głównie w zakresie analizy strategicznej, finansowej,
oczekiwań klientów, analizy przedsiębiorstwa oraz rynku.
– Idea systemów HD zakłada zintegrowaną analizę oraz ocenę przedsiębiorstwa z
wykorzystaniem wskaźników finansowych i niefinansowych. Wykorzystując technologię
hurtowni danych oraz dwie podstawowe techniki w dziedzinie analizy danych (tj. OLAP On-
line Analytical Proccessing) i data mining tworzy się nową generację systemów informacyjno –
decyzyjnych. Takie rozwiązanie umożliwia integralną eksplorację danych z wielu
rozproszonych źródeł informacji, wielowymiarową analizę w czasie rzeczywistym oraz
prezentację w różnych układach i perspektywach
Zastosowanie HD
• Poprawy efektywności zarządzania strategicznego, taktycznego i operacyjnego
a w szczególności:
– Informowania o realizacji strategii organizacji, jej misji, celów i zadań,
– Dostarczania informacji o realizacji planów, o rezultatach i postępach
wprowadzonych zmian, o trendach w organizacji,
– Identyfikacji problemów i „wąskich gardeł” oraz dostarczania wiedzy o rozwiązaniu
tych problemów,
– Udostępniania analiz „najlepszych”, lub „najgorszych” realizowanych usług na rzecz
klienta, pracowników, oddziałów, itp.,
– Dostarczania analiz o odchyleniach w realizacji planów dla poszczególnych
jednostek organizacyjnych, osób, czy wskaźników,
• Tworzenia oraz poprawy „relacji” z klientami, a w szczególności:
– Dostarczania klientom wyników usług o najwyższej jakości w określonym czasie, odpowiedniej
konsultacji o usługach, tak, aby szybko mogli reagować na ich potrzeby,
– Śledzenia poziomu satysfakcji klientów i skuteczności realizacji usług,
• Analizy i poprawy efektywności procesów działalności podstawowej i sprawności
operacyjnej, a zwłaszcza:
– Dostarczania wiedzy i doświadczeń powstałych przy wykonywaniu czynności dozorowych oraz
wprowadzaniu nowych rodzajów usług dozorowych,
– Dostarczania wiedzy o poszczególnych procesach poprzez rozpowszechnianie procedur
Systemu Jakości,
– Wymianie wiedzy pomiędzy poszczególnymi pracownikami, zespołami, oddziałami.
– Rozwiązania HD spełniające powyższe funkcje dają szansę organizacji stać się „inteligentną
organizacją”
Infrastruktury techniczne HD
• Infrastruktury techniczne hurtowni danych są
blisko związane z architekturą. Zalicza się do
nich:
– technologie,
– platformy,
– bazy danych,
– platformy sprzętowe i systemowe,
– oraz inne składniki niezbędne do tego, aby
architektura hurtowni była funkcjonalna.
• Przyjęto, że za infrastrukturę techniczną też
uważane jest szkolenie
Infrastruktury techniczne HD
• Infrastruktury techniczne –narzędzia, platformy, komunikacja,
bazy danych, szkolenia, itp. – wymagają sporo czasu na ich
określenie, instalację i dostrojenie. Nowy sprzęt i
oprogramowanie należy zakupić i uruchomić.
• Ponadto należy przejrzeć i wybrać narzędzia do integracji danych,
zorganizować sieci, bramy baz danych i komunikację.
• Techniczne infrastruktury powinny zostać określone, w zależności
od przyjętej architektury hurtowni danych i być w fazie
instalowania przed rozpoczęciem tworzenia hurtowni danych.
• Bardzo duży wpływ na wybór odpowiednich infrastruktur
technicznych ma aktualne środowisko przetwarzania danych, a
mianowicie czy jest ono ustrukturalizowane (zintegrowane) czy
niezintegrowane.
• Środowisko przetwarzania danych ma bardzo duży wpływ na
wybór metodyki (cyklu życia systemu hurtowni danych) realizacji
systemu wspomagania podejmowania decyzji.
Architektura hurtowni danych
• Strukturę hurtowni danych tworzą kolejne warstwy danych
– każda następna warstwa stanowi przetworzenie poprzedniej
• Najniższą warstwę tworzą źródła danych,
– zastane bazy danych przedsiębiorstwa,
– często rozproszone geograficznie,
– zróżnicowane pod względem sposobu dostępu (zwykłe bazy danych
różnych formatów, pliki binarne lub tekstowe, źródła specjalne),
– zróżnicowane pod względem struktury logicznej,
– zróżnicowane pod względem wielkości i jakości danych.
• Środkową warstwę na schemacie zajmuje centralna hurtownia
danych (podstawowa, korporacyjna).
– Stanowi ona podstawowe miejsce przechowywania nieulotnej informacji
gromadzonej ze źródeł, jak też częściowych podsumowań przydatnych w
zadaniach typu OLAP i we wspomaganiu decyzji.
– Globalna hurtownia danych rejestruje historię źródła danych i jest
cyklicznie, podczas aktualizacji, uzupełniana o nowe, skondensowane
informacje dotyczące aktualnego stanu źródła danych, zapisywane obok
poprzednich.
• Dane w hurtowniach danych mogą pochodzić sprzed wielu lat, gdyż hurtownia
spełnia także funkcje archiwalne.
• Kolejną warstwę stanowią hurtownie lokalne
– Tworzone na potrzeby użytkowników (działów analitycznych),
– Zawierają wyselekcjonowane dane w postaci silnie zagregowanej,
pozwalające na szybką prezentację podsumowań wykorzystywanych w
zarządzaniu, planowaniu długoterminowym, analizach historycznych,
analizach trendów, przetwarzaniu informacji i analizach zintegrowanych
• Lokalne hurtownie danych nazywane są hurtowniami tematycznymi
(data marts, hurtownie oddziałowe). Ze względu na mniejszy rozmiar i
możliwość pracy lokalnej, hurtownie tematyczne pozwalają na
sprawniejsze operowanie danymi. Mogą być zaimplementowane jako
relacyjne bazy danych lub specjalne struktury wielowymiarowe.
• Czasem pomiędzy warstwą danych źródłowych a globalną hurtownią danych
wprowadza się warstwę pośrednią, zwaną magazynem danych operacyjnych
(Operational Data Store, ODS)
– Warstwa ODS zawiera zwykle wyniki transformacji, integracji i agregacji danych ze
źródeł i sama stanowi bezpośrednie źródło zasilające globalną hurtownię danych.
– ODS jest aktualizowany o wiele częściej niż hurtownia danych i zawiera znacznie
aktualniejsze informacje, jednak dane są tam o wiele mniej zagregowane, co
utrudnia wykonywanie zadań OLAP.
– Tworzenie warstwy ODS może odciążyć centralną hurtownię danych od części
zadań związanych z aktualizacją danych, często jest to też uzasadnione ze
względów technicznych (np. znacznego geograficznego rozproszenia źródeł
danych).
• Dodatkowym elementem systemu hurtowni danych jest baza
metadanych (metadata repository).
– Baza metadanych ma w założeniu przechowywać aktualny i historyczny
schemat fizyczny, logiczny i pojęciowy hurtowni, w tym procesów
ekstrakcji, transformacji, agregacji, czyszczenia i przechowywania
informacji, a także historię użycia danych.
• Projektowanie hurtowni danych polega na stworzeniu modelu
pojęciowego, logicznego i fizycznego hurtowni.
• Modelowanie na tych trzech poziomach dotyczy wszystkich
elementów hurtowni danych - centralnej hurtowni, procesów
ETL (ang. Extract, Transform and Load), hurtowni tematycznych
itp.
Modelowanie HD
• Model pojęciowy to opis struktury, zawartości i przeznaczenia
hurtowni danych przeprowadzony na poziomie pojęciowym, tzn. z
punktu widzenia celów biznesowych, przy użyciu nazw z języka
naturalnego specjalistycznego, właściwego dla danej organizacji.
– Model pojęciowy może np. określić, że konieczne jest gromadzenie pewnych
informacji o klientach, definiuje też pojęcie "klient" i wskazuje na biznesowe cele
zaplanowanych analiz.
• Model logiczny to opis odwołujący się do elementów logicznych baz
danych i procesów hurtowni, a więc kolumn, tablic, relacji itp.
– Opis na poziomie logicznym przypomina typowy projekt bazy danych wykonany
np. w języku UML.
• Model fizyczny to opis parametrów mających na celu optymalizację
działania hurtowni danych, takich jak indeksowanie, partycjonowanie,
kopiowanie danych, a także takich elementów, jak sprzęt
komputerowy, sieć, systemy archiwizujące, rozmieszczenie
poszczególnych zasobów logicznych, itp.
Modele projektowania
• Z punktu widzenia przyjętej metody postępowania,
wyróżniamy
– projektowanie wstępujące (od szczegółu do ogółu), w ramach
którego najpierw tworzone są projekty związane z
poszczególnymi źródłami danych, działami przedsiębiorstwa,
potrzebami użytkowników itp., a następnie projekty te scalane
są w jeden projekt ogólny;
– projektowanie zstępujące, w ramach którego rozpoczynamy
od stworzenia modelu przedsiębiorstwa na poziomie
pojęciowym, by następnie stopniowo przejść do projektu
integracji potrzebnych danych źródłowych.
• Ta metoda jest trudniejsza i droższa, pozwala jednak na ominięcie
pułapek związanych z integracją (potencjalnie niespójnych) modeli
lokalnych.
Hurtownie tematyczne
• Hurtownie tematyczne stanowią wydzielone i
przetworzone podzbiory danych, przeznaczone do
konkretnych rodzajów analiz.
• Zastosowania i typowe operacje hurtowni tematycznych
obejmują:
– OLAP: obracanie wielowymiarowej kostki danych, zwijanie,
rozwijanie... (zestawienia statystyczne, raporty, wykresy)
– Eksplorację danych (syntetyczny i ukierunkowany opis danych
lub zadania automatycznej klasyfikacji i wykrywania wzorców)
– GIS (systemy informacji geograficznej/przestrzennej)
– inne zadania typu Business Intelligence (np. analiza wariantów:
co by było, gdyby...)
Wielowymiarowy model danych
• Jeden ze sposobów na przyspieszenie typowych operacji
podsumowujących OLAP, stosowany zwłaszcza w hurtowniach
tematycznych.
– Najczęściej wykonywane zadania analityczne to podsumowania (tabele,
wykresy) pewnych wielkości liczbowych, jak ilość towaru, kwoty pieniędzy
itp., w rozbiciu na pewne kategorie, często w różnych momentach czasu.
– Typowe zapytania podsumowujące to takie, które w języku SQL zapisuje
się za pomocą klauzuli GROUP BY i agregacji (np. SUM, COUNT).
• Aby takie zapytania nie wymagały przejrzenia całych
(wieloterabajtowych) danych źródłowych, część agregacji może
być policzona zawczasu i przechowywana w postaci
wielowymiarowych tabel, tzw. kostek danych.
Operacje wielowymiarowe
• W modelu OLAP zakładamy, że baza zawiera fakty opisane przez wymiary i
określające wartość miar.
– Faktem jest zapis dotyczący pojedynczego zdarzenia podlegającego
podsumowaniom (np. fakt sprzedaży, pojedyncze żądanie do serwera WWW itp).
– Centralna hurtownia danych może takie fakty przechowywać w jednej lub wielu
tablicach danych.
• Cechy biznesowe danego faktu, jak np. rodzaj produktu, którego dotyczy, lub
moment zajścia faktu, to z kolei jego wymiary.
• Miara jest natomiast liczbowym określeniem faktu, które podlega
podsumowaniu i jest na wykresach czy w tabelach prezentowane jako wynik
podsumowania (np. wartość transakcji sprzedaży).
• Model wielowymiarowy zakłada stworzenie n-wymiarowej tabeli
syntetycznej, której krawędzie opisane są wymiarami, a poszczególne komórki
zawierają podsumowania miar.
• Taka tabela stanowi następnie dogodne źródło danych do podsumowań -
często wystarczy jedynie wyselekcjonować jej dwa wymiary, by uzyskać
wymaganą tabelę statystyczną do raportu.
Przykład modelu wielowymiarowego
• Baza danych zawiera zapisy transakcji sprzedaży odczytywane z kas
supermarketu.
• Hurtownia danych gromadzi informację pochodzącą z baz źródłowych 300
sklepów sieci, rozmieszczonych w wielu miastach.
• Klienci są identyfikowani dzięki kartom rabatowym, z których korzystają
podczas zakupów.
• Docelowa kostka jest 4-wymiarowa.
– Fakt to w tym przypadku pojedyncza sprzedaż jednego produktu jednemu
klientowi (pozycja na paragonie).
– Fakty opisane są wymiarami: czas, klient, produkt, sklep.
– Miara to wartość sprzedaży i liczba sztuk.
– Poziom agregacji informacji w kostce to poziom szczegółowości opisu wymiarów,
np. czas można dzielić na dni lub na kwartały, produkty można grupować w grupy
produktów.
– Zawartość komórki to zagregowana miara (suma sprzedaży danego produktu w
danym sklepie, danego dnia, danemu klientowi).
Systemy zarządzające
• Ze względu na wymagania dotyczące ilości zgromadzonych danych i specyfiki
przetwarzanych zapytań, elementy składowe hurtowni danych działają zwykle z
wykorzystaniem więcej, niż jednego systemu zarządzającego.
– W przypadku baz źródłowych, a także magazynów danych operacyjnych, są to zwykle
systemy zastane (często bardzo zróżnicowane), będące najczęściej jednym z systemów
bazodanowych ogólnego zastosowania (jak Microsoft SQL Server, Oracle, DB2, MySQL
i podobne). W tym przypadku projektant hurtowni ma niewielki wpływ na wybór
rozwiązań
– W centralnych hurtowniach danych wykorzystuje się więc systemy klasy VLDB (very
large databases)
• Przykładem to rozwiązanie centralnego magazynu hurtowni danych proponowane przez
firmę Teradata. Składa się z modułów sprzętowo-programowych, opartych na dedykowanej
odmianie Unixa i odpowiednich rozwiązaniach konstrukcyjnych (m.in. połączenia optyczne).
Moduły te zapewniają wysoką skalowalność (rozszerzenie systemu polega na dokupieniu
kolejnych modułów, z których każdy przeznaczony jest na 0,5 TB danych). Całości dopełnia
wydajny silnik z elementami kompresji danych.
– Oddzielny problem dotyczy obsługi dostępu typu OLAP do danych zgromadzonych w
hurtowniach tematycznych. W tym przypadku priorytetem jest nie tyle obsługa
wielkich ilości danych (gdyż hurtownie tematyczne zwykle stanowią wycinek
wszystkich przechowywanych danych), co optymalizacja zapytań typu
podsumowującego i wspieranie modelu gwiazdy lub kostek wielowymiarowych.
Superrelacyjne SZBD
• Superrelacyjne systemy zarządzania bazą danych
to systemy zarządzające rozszerzone o możliwości
współpracy z narzędziami OLAP za pomocą tzw.
funkcji superrelacyjnych.
– Są to rozszerzenia formatów przechowywania danych,
operacji relacyjnych i indeksowania.
– Dane w tych systemach są przechowywane w
strukturze gwiazdy lub płatka śniegu (omówimy na
kolejnych wykładach), co pozwala automatycznie
optymalizować zapytania typu OLAP.
Architektura ROLAP
• Jest to sposób dostępu do danych za pomocą narzędzi do analizy
informacji wielowymiarowych (kostek danych), przy czym źródłem
danych dla zapytań jest ukryta, wewnętrzna struktura relacyjna
(jak w przypadku systemów superrelacyjnych).
• Dzięki temu użytkownik zyskuje klarowny model danych, bez
potrzeby znajomości modelu gwiazdy lub płatka śniegu.
– Przykładem tego typu systemów jest rozwiązanie hurtowni danych
proponowane przez MicroStrategy.
– Inne serwery ROLAP to Red Brick (Informix/IBM), oraz Sybase.
• Wychodząc z założenia, że hurtownie danych powinny być
tworzone stopniowo, metodą wstępującą, producenci oferują
systemy ROLAP nie tylko z myślą o hurtowniach tematycznych, ale
też ogólnie o rozproszonych hurtowniach danych.
Wielowymiarowe systemy bazodanowe
• Multidimensional Ddatabase Systems, MDDB odtwarzają sposób, w jaki
narzędzia OLAP prezentują i przetwarzają dane.
• MDDB przechowuje dane wprost w postaci kostek wielowymiarowych. Każdy
wymiar reprezentuje jeden aspekt danych.
– Na przykład dane o sprzedaży w sieci sklepów mogą mieć wymiar towaru, czasu i miejsca.
Dzięki takiej konstrukcji w systemach MDDB nie ma potrzeby wykonywania operacji łączenia
podczas przetwarzania zapytania dotyczącego sprzedaży względem jednego z tych
wymiarów. Dlatego też MDDB bywają w zastosowaniach OLAP znacznie efektywniejsze, niż
tradycyjne systemy bazodanowe, jednak trudniejsza jest aktualizacja tak przechowywanej
informacji, a same kostki mogą przybierać znaczne rozmiary.
– Przykłady rozwiązań tego typu to Cognos PowerPlay, Business Objects czy Brio (tanie
systemy MDDB, tzw. desktop OLAP, będące jedynie interfejsem do hurtowni danych).
• Bardziej złożone rozwiązania typu HOLAP (hybrydowe), zapewniają pełną
integrację relacyjnej hurtowni danych (gdzie priorytetem jest skalowalność) z
modelem wielowymiarowym (gdzie priorytetem jest efektywność zadań
OLAP) w ramach jednej, złożonej architektury.
– Systemy: Hyperion Essbase, Oracle Express i Microsoft OLAP.

Isbd W7 HZ

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Isbd W7 HZ

Uploaded by

Copyright:

Available Formats

Inżynieria Systemów

• HD to zorientowana tematycznie (subject-oriented), zintegrowana (integrated), zmienna

• HD to repozytorium danych zaprojektowane w celu wspomagania Zarządu w

• HD jest procesem i architekturą (wymagającą solidnego zaplanowania) służącą

• zintegrowanych - czyli wyrażonych we wspólnym języku na poziomie

• nieulotnych - czyli przeznaczonych do długiego przechowywania,

• ukierunkowanych - czyli zorganizowanych w sposób mający ułatwić

You might also like