You are on page 1of 475

„HURTOWNIE DANYCH I SYSTEMY

BUSINESS INTELLIGENCE” – CZ. 1


dr inż. Piotr Muryjas
Instytut Informatyki, Politechnika Lubelska
PARTNERZY:

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


AGENDA

 Co to jest Business Intelligence (BI)?


 Podstawowe pojęcia związane z BI

 Miejsce BI w architekturze systemów


informatycznych
 Obszary implementacji BI

 Wybrane funkcjonalności narzędzi BI

 Zalety stosowania BI

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


CZYM JEST BUSINESS INTELLIGENCE?

Biznes

BI

Technologie
Zarządzanie
informacyjne

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


DEFINICJA BUSINESS INTELLIGENCE (BI)
 Zbiór praktyk, metodyk, narzędzi i technologii
informatycznych, służących zbieraniu i
integrowaniu danych w celu dostarczania
informacji i wiedzy właściwym osobom, we
właściwym miejscu oraz we właściwym czasie
 Technika przekształcania danych w informacje, a
informacji w wiedzę w celu optymalizacji działania
procesów biznesowych i całej organizacji.
 Kultura organizacyjna nastawiona na świadome
podejmowanie decyzji na podstawie faktów

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PODSTAWOWE POJĘCIA BI (1)
 Dane biznesowe – dane opisujące procesy biznesowe i
wykorzystywane w procesach decyzyjnych
 Zapytanie ad-hoc – sposób pozyskiwania informacji
biznesowej, której struktura nie została określona na
etapie budowy systemu BI
 Alert – komunikat generowany automatycznie przez
system BI w momencie wystąpienia określonego
zdarzenia
 Analityka biznesowa – technika analizowania
danych biznesowych i wizualizacji ich rezultatów w
celu wspomagania procesów decyzyjnych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PODSTAWOWE POJĘCIA BI (2)
 Analiza wielowymiarowa – technika analizowania i
wizualizacji danych (metryk), opisujących procesy
biznesowe, z różnych punktów widzenia
 OLAP – wielowymiarowe analizy biznesowe,
wspierające procesy decyzyjne
 Portal BI – aplikacja konfigurowalna przez
użytkownika w celu dostosowania jej funkcjonalności
do potrzeb biznesowych, zapewniająca szybki dostęp
do narzędzi BI
 Narzędzia BI – aplikacje umożliwiające dostęp i
analizę olbrzymich ilości danych biznesowych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PODSTAWOWE POJĘCIA BI (3)
 Zrównoważona karta wyników – instrument
zarządzania strategicznego, oparty na definicji celów
i mierników, umożliwiających pomiar stopnia
osiągnięcia celu
 KPI (Key Performance Indicator) – wskaźnik (miara)
opisujący proces lub obiekt, które są najważniejsze ze
strategicznego punktu widzenia
 Kokpit menedżerski – miejsce i sposób wyświetlania
informacji niezbędnych do osiągnięcia celów
biznesowych; prezentuje dane skonsolidowane i
umożliwia dotarcie do dowolnych danych w sposób
intuicyjny

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PODSTAWOWE POJĘCIA BI (4)

 Operacyjna składnica danych – baza danych, będąca


repliką transakcyjnych baz, zasilana na bieżąco lub
okresowo; może stanowić pewną formę tymczasową
analitycznej bazy danych przed wdrożeniem
hurtowni danych
 Hurtownia danych – centralne miejsce składowania
danych analitycznych, opisujących różne aspekty
biznesu
 Drążenie danych – technika odkrywania wzorców
oraz zależności między danymi

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


DLACZEGO BUSINESS INTELLIGENCE?
 Dlaczego trudno podejmować decyzje?
 Olbrzymia ilość danych w przedsiębiorstwie i jego
otoczeniu
 Duża szczegółowość danych
 Rozproszenie danych
 Redundancja danych
 Różna postać i format danych
 Niska jakość danych z punktu widzenia podejmowania
decyzji
 BI zapewnia istnienie głównego repozytorium, które
będzie gwarantować pewność korzystania ze
sprawdzonych źródeł danych, znacznie ułatwi i
przyspieszy dostęp do nich, a także pozwoli śledzić ich
zmiany
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu
MIEJSCE BI W ARCHITEKTURZE SI
Systemy eksperckie

Bazy wiedzy Baza reguł wnioskowania

Systemy wspomagania decyzji


Business Intelligence

Hurtownia danych

Systemy informowania
kierownictwa

Transakcyjne bazy danych

Systemy transakcyjne
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu
HIERARCHIA POJĘĆ UŻYWANYCH W BI

Mądrość

Wiedza

Informacje

Dane

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


TRANSFORMACJA INFORMACJI
W SYSTEMACH BUSINESS INTELLIGENCE

Korzyści

Mierzalne rezultaty

Zarządzanie zmianami Zarządzanie zmianami Analizy ROI


kultury organizacyjnej procesów biznesowych

Podejmowanie decyzji w oparciu o dane

Wiedza
Zapytania i raportowanie Zaawansowana analityka

Gotowość organizacyjna Gotowość techniczna

Misja, wizja Kultura Umiejętności Systemy Hurtownie ETL


i cele dług. informacyjna BI operacyjne danych
Informacja

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


WARTOŚĆ STRATEGICZNA DANYCH
W SYSTEMACH BUSINESS INTELLIGENCE

Wysoka wartość
strategiczna
Dane walidujące reguły biznesowe
Dane aplikacji korporacyjnych
zintegrowanych w EAI

Informacje o kondycji przedsiębiorstwa


Mierniki realizacji celów
Wartości progowe (krytyczne, oczekiwane)
Wartości wskaźników

Charakterystyka trendów
Scenariusze
Hurtownie danych

Dane aktualne z SI przedsiębiorstwa


Dane historyczne przedsiębiorstwa
Dane ze źródeł zewnętrznych
Niska wartość
strategiczna

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


OBSZARY IMPLEMENTACJI
 Obszary biznesu:
 Zarządzanie relacjami z klientami
 Sprzedaż
 Zarządzanie finansami
 Zarządzanie zasobami ludzkimi
 Marketing
 Działy gospodarki:
 Logistyka
 Ubezpieczenia
 Telekomunikacja
 Bankowość

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


WYBRANE FUNKCJONALNOŚCI SYSTEMÓW BI
 Definiowanie strategii działania
 Tworzenie scenariuszy realizacji strategii
 Symulacja wpływu różnych czynników
(wewnętrznych i zewnętrznych) na rezultaty
przyjętej lub symulowanej strategii działania
 Planowanie działań biznesowych wynikających z
przyjętej strategii
 Kontrola stopnia osiągania celów wpływających na
realizację strategii

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


WYBRANE FUNKCJONALNOŚCI SYSTEMÓW BI
 Wizualizacja strategicznych celów przedsiębiorstwa
oraz poziomu ich realizacji
 Proaktywne alertowanie i powiadamianie w
przypadku wystąpienia zdarzeń biznesowych
wymagających podjęcia natychmiastowych działań
 Rozbudowana wizualizacja rezultatów analiz,
prognoz, tendencji, zależności
 Wyszukiwanie danych biznesowych w zewnętrznych
źródłach (Internet), nie posiadających jednolitej
struktury
 Interaktywne raportowanie, umożliwiające drążenie
danych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


WYBRANE FUNKCJONALNOŚCI SYSTEMÓW BI
 Usługi komunikowania się z pracownikami i
właściwej dystrybucji informacji, niezbędnych do
realizacji strategii (właściwe osoby otrzymują
właściwe informacje we właściwym czasie)
 Publikowanie informacji o realizacji strategii przez
portal korporacyjny (będący punktem dostępu do
korporacyjnych ośrodków webowych) oraz przez
inne platformy komunikacji pracowników i
tworzenia relacji z otoczeniem przedsiębiorstwa
(klientami czy partnerami biznesowymi)

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PRZYKŁADY KORZYŚCI STOSOWANIA BI
 Skuteczne pozyskiwanie nowych klientów i utrzymanie
istniejących
 Właściwe i skuteczne plasowanie ofert
 Efektywne i skuteczne zarządzanie kampaniami
marketingowymi
 Zwiększenie efektywności wykorzystania zasobów ludzkich
 Lepsze zarządzanie relacjami z kontrahentami
 Kontrola kosztów na różnych poziomach organizacji
 Zarządzanie ryzykiem
 Skuteczna realizacja strategii w różnych obszarach biznesu

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PRZYKŁAD KOKPITU MENEDŻERSKIEGO (1)

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PRZYKŁAD KOKPITU MENEDŻERSKIEGO (2)

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


DOSTAWCY ROZWIĄZAŃ BI

Źródło: Gartner
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu
PODSUMOWANIE
 BI to jeden ze sposobów zwiększenia efektywności
prowadzenia biznesu
 BI jest sposobem zaspokajania analitycznych potrzeb
informacyjnych różnych podmiotów zaangażowanych
w funkcjonowanie przedsiębiorstwa
 BI to nowoczesna koncepcja realizacji strategii
inteligentnego wspomagania biznesu
 BI można także traktować jako sposób generowania
wiedzy korporacyjnej, niezbędnej do podejmowania
decyzji na różnych szczeblach zarządczych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


„HURTOWNIE DANYCH I SYSTEMY
BUSINESS INTELLIGENCE” – CZ. 2
dr inż. Piotr Muryjas
Instytut Informatyki, Politechnika Lubelska
PARTNERZY:

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


AGENDA

 Architektura systemów klasy BI


 Działania biznesowe i technologiczne
w warstwach architektury
 Miejsce hurtowni danych w systemach klasy BI

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ARCHITEKTURA SYSTEMÓW BI

 Warstwy:
 Pozyskiwania i integracji danych
 Składowania danych
 Analitycznego przetwarzania i drążenia danych
 Publikowania danych
 Poszczególne warstwy reprezentują zarówno
procesy IT jak i biznesowe

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ARCHITEKTURA
BUSINESS
INTELLIGENCE

Źródło: Portal bi.pl

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


WARSTWA POZYSKIWANIA I INTEGRACJI

Źródło: Portal bi.pl

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


WARSTWA SKŁADOWANIA DANYCH

Źródło: Portal bi.pl

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


WARSTWA ANALITYCZNEGO PRZETWARZANIA

Źródło: Portal bi.pl

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


WARSTWA PREZENTACJI

Źródło: Portal bi.pl

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


MIEJSCE HURTOWNI DANYCH W BI
 Hurtownia gromadzi dane przetworzone,
otrzymane na podstawie źródeł transakcyjnych
 Hurtownia danych stanowi centralne repozytorium
danych dla:
 Zapytań analitycznych
 Narzędzi raportujących
 Drążenia danych
 Hurtownia zapewnia jednolity, wiarygodny, spójny
obraz całego przedsiębiorstwa
 Postać danych zawartych w hurtowni odpowiada
potrzebom biznesu

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PODSUMOWANIE

 Architektura systemu BI pozwala zobrazować


sposób przejścia od danych do wiedzy
 Architektura BI uwydatnia złożoność systemów tej
klasy
 Działania w poszczególnych warstwach architektury
wymagają głębokiej wiedzy i doświadczenia osób
zaangażowanych
 Centralnym magazynem danych w systemach BI
jest hurtownia danych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


„HURTOWNIE DANYCH I SYSTEMY
BUSINESS INTELLIGENCE” – CZ. 3

dr inż. Piotr Muryjas


Instytut Informatyki, Politechnika Lubelska
PARTNERZY:

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PODSTAWY ANALITYKI BIZNESOWEJ

ANALIZA WIEWYWMIAROWA DANYCH


RELACYJNYCH

ANALIZA DANYCH
WIELOWYMIAROWYCH
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu
AGENDA

 Rodzaje i charakterystyka operacji analityki


biznesowej (OLAP)
 Analiza wielowymiarowa danych relacyjnych
(ROLAP)
 Analiza danych wielowymiarowych (MOLAP)

 SQL jako wsparcie dla operacji analityki


biznesowej

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


OPERACJE OLAP

 Wykonywane przez narzędzia dedykowane do analiz


biznesowych
 Miejscem ich realizacji może być środowisko, w
którym dane są składowane lub odrębne miejsce tzw.
serwer OLAP
 Umożliwiają analityczne przetwarzanie danych

 Wykorzystują dane składowane w postaci:


 Relacyjnej
 Częściowo zagregowanej
 Wielowymiarowej

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PODSTAWOWE OPERACJE OLAP
Obracanie (rotating)

Wycinanie (slicing and dicing)

Selekcja (selection)

Rozwijanie (drilling down)

Zwijanie (rolling up)

Przestawianie (pivoting)

Obliczanie rankingu (ranking)

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


OBRACANIE – OPIS

 Prezentowanie danych w różnych wymiarach


 Zmiana kolejności wymiarów w opisie faktów

 Uwydatnienie znaczenie określonego wymiaru

 Przykład:
 Fakt: Sprzedaż
 Kolejność wymiarów przed operację: Czas, Obszar,
Produkty
 Po wykonaniu obrotu: Obszar, Czas, Produkty

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


OBRACANIE – SCHEMAT

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


WYCINANIE – OPIS

 Zawężenie danych o faktach do:


 Określonych wymiarów np. tylko regionu
 Określonych poziomów hierarchii wymiarów np. do
województw w ramach regionów
 Określonych wartości poziomów hierarchii wymiarów
np. do konkretnego województwo
 Możliwość uszczegóławiania analiz z różnych
punktów widzenia (ta sama kostka danych, ale
różne przekroje informacyjne)

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


WYCINANIE – PRZYKŁADY
 Przykład 1:
 Fakt: Sprzedaż
 Wymiary: Obszar, Produkty, Czas
 Określone wymiary analizy: Obszar, Produkty
 Rezultat: Wartość sprzedaży każdego artykułu w
każdym obszarze w całym analizowanym okresie
 Przykład 2:
 Fakt: Sprzedaż
 Wymiary: Obszar, Produkty, Czas
 Określone wymiary analizy: Obszar, Produkty
 Określona wartość kategorii wymiaru Czas: 2011
 Rezultat: Wartość sprzedaży każdego artykułu w
każdym obszarze w 2011 roku

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


WYCINANIE – SCHEMAT (1)

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


WYCINANIE – SCHEMAT (2)

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


WYCINANIE – SCHEMAT (3)

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


WYCINANIE – SCHEMAT (4)

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


SELEKCJA – OPIS

 Wybór danych dla zadanego przedziału wartości,


przyjmowanych w ramach określonego poziomu
hierarchii wymiaru
 Przykład:
 Fakt: Sprzedaż
 Wymiar: Czas
 Hierarchia poziomów: Rok  Kwartał  Miesiąc 
Tydzień  Dzień_Tygodnia
 Poziom wybrany do selekcji: Miesiąc
 Przedział wartości: Styczeń - Czerwiec

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


SELEKCJA – SCHEMAT

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ROZWIJANIE – OPIS
 Uszczegóławianie danych w ramach wybranej
wartości kategorii, występującej na określonym
poziomie hierarchii wymiaru
 Przykład:
 Fakt: Sprzedaż
 Wymiar: Czas
 Hierarchia poziomów: Rok  Kwartał  Miesiąc 
Tydzień  Dzień_Tygodnia
 Wybrany poziom hierarchii: Rok
 Wybrana wartość kategorii na poziomie Rok: 2011
 Przedział otrzymanych wartości w wyniku rozwijania:
wartości dla poszczególnych miesięcy 2011 roku

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ROZWIJANIE – UWAGI

 Zakres rozwijania uwarunkowany jest definicją


wymiaru, ilością poziomów hierarchii i szerokości w
ramach danego poziomu hierarchii (definicja
przyjęta na etapie projektowania)

 Poziom szczegółowości danych, możliwy do


otrzymania w wyniku rozwijania, zależy od stopnia
agregacji danych (im bardziej szczegółowy agregat,
tym szerszy zakres rozwijania)

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ROZWIJANIE – SCHEMAT

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ZWIJANIE – OPIS
 Operacja odwrotna do rozwijania
 Celem zwijania jest uogólnianie danych od niższych
poziomów hierarchii wymiaru do coraz to wyższych
 Uwarunkowania wykonania jak dla operacji rozwijania
 Przykład:
 Fakt: Sprzedaż
 Wymiar: Czas
 Hierarchia poziomów: Rok  Kwartał  Miesiąc  Tydzień
 Wybrany poziom hierarchii: Miesiąc
 Wartości kategorii na poziomie Miesiąc: styczeń – grudzień
2011
 Przedział otrzymanych wartości w wyniku zwinięcia: wartość
dla 2011 roku

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ZWIJANIE – SCHEMAT

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PRZESTAWIANIE – OPIS
 Wyznaczeniu wartości miary dla zadanej wartości
kategorii hierarchii jednego wymiaru przy
wskazaniu pozostałych wymiarów jako ogólnych
cech faktu (bez ich podziału na kategorie)
 Przykład:
 Fakt: Sprzedaż
 Wymiar: Czas, Obszar, Produkty
 Zadana wartość wymiaru Produkty: Artykuł 1
 Pozostałe wymiary: Obszar, Czas
 Rezultat otrzymany w wyniku przestawienia : wartość
sprzedaży danego artykułu we wszystkich regionach w
ciągu wszystkich lat

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PRZESTAWIANIE – SCHEMAT

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


OPERACJE MOLAP

Push

Pull

Destroy Dimension

Restriction

Join

Merge
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu
OPERACJA PUSH

 Wstawienie wartości kategorii wymiaru do


wartości agregatu
 Nowa wartość jest wartością złożoną
(rozszerzoną) i składa się z wartości poprzedniej
agregatu oraz wartości kategorii wymiaru
 Rozbudowanie dotyczy tylko tych wartości
agregatów, które są różne od zera
 Skutkiem operacji jest usunięcie (przesunięcie)
jednego z wymiarów z krawędzi kostki do
agregatu (wnętrza kostki)

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


OPERACJA PUSH – SCHEMAT

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


OPERACJA PULL

 Operacja odwrotna do PUSH


 Ekstrakcja wartości wymiaru z agregatu do
postaci niezależnego wymiaru (krawędzi kostki),
opisującego fakt
 Utworzenie nowego wymiaru rozszerza
możliwości analizy danych
 Operacja stosowana również podczas scalania
struktur danych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


OPERACJA PULL – SCHEMAT

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


OPERACJA DESTROY DIMENSION

 Usunięcie wymiaru (wymiarów) z agregatu


 Operacja wykonywana w celu zmniejszenia
złożoności i wielkości agregatu
 Dopuszcza się wykonanie operacji tylko dla tych
wymiarów, które nie posiadają hierarchii
kategorii (mają tylko jeden poziom hierarchii)
 Rezultatem operacji na agregacie n-wymiarowym
jest agregat (n-1)-wymiarowy
 W przypadku usuwania wymiaru hierarchicznego
należy uprzednio wykonać operację MERGE

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


OPERACJA RESTRICTION

 Operacja ograniczenia zbioru agregatów do tych,


które spełniają zadany warunek
 Warunek definiowany jest dla określonych
wymiarów (dotyczy wartości kategorii hierarchii
wymiaru)
 Rezultatem operacji jest nowa, mniejsza kostka,
zawierająca:
 Tę samą liczbę wymiarów jak kostka przed operacją,
 Mniejszą liczbę agregatów

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


OPERACJA RESTRICTION – SCHEMAT

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


OPERACJA JOIN

 Operacja stosowana do złączenia danych,


znajdujących się w różnych kostkach
 Wymaga wskazania łączonych kostek oraz
opcjonalnie wymiarów złączenia
 Jeśli stosuje się wymiary złączenia, powinny one
znajdować się w każdej z kostek
 Jeśli wymiary złączenia nie są zgodne pod
względem poziomu hierarchii, wówczas konieczne
jest wykonanie mapowania kategorii jednego z
wymiarów na kategorie drugiego wymiaru

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


OPERACJA JOIN – MAPOWANIE WYMIARÓW

 Kostka C1 zawiera wymiar Czas, opisany przez


kategorię Kwartał
 Kostka C2 również zawiera wymiar Czas, ale
opisany przez kategorię Miesiąc
 Złączenie kostek C1 i C2 będzie możliwe po
uprzednim wykonaniu mapowania kategorii
Miesiąc na kategorię Kwartał
 Mapowanie jest wykonywane przy pomocy
operacji MERGE

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


OPERACJA JOIN – RODZAJE ZŁĄCZEŃ

 Cartesian product – stosowane w przypadku, gdy


kostki łączone nie posiadają wspólnego wymiaru
złączenia
 Associate – złączenie umożliwiające określenie
udziału wartości jednego agregatu w wartości
drugiego agregatu
 Złączenie Associate wymaga obecności tego samego
wymiaru w kostkach łączonych (mogą być różne
kategorie hierarchii)

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


OPERACJA JOIN – SCHEMAT (1)

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


OPERACJA JOIN – SCHEMAT (2)

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


OPERACJA MERGE
 Operacja ma charakter agregacji wartości
agregatów (np. sumowania, wyznaczania wartości
średniej)
 Wykorzystuje hierarchię wymiaru tzn. wyznacza
wartości agregatu dla kategorii wyższej w
hierarchii na podstawie wartości agregatu z
kategorii niższej
 W zależności od poziomu w hierarchii, operacja
może odbywać się w układzie 1 1 lub 1  wiele,
np. wartości z poziomu Miesiąc mogą być
przeliczone na wartości z poziomu Kwartał lub z
poziomu Rok

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


OPERACJA MERGE – SCHEMAT

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


OPERACJE ROLAP – OGÓLNA
CHARAKTERYSTYKA

 Operacje ROLAP mają na celu wygenerowanie


wartości agregatów dla różnych kombinacji
wymiarów oraz na różnych poziomach hierarchii
wymiaru
 Generowanie wartości agregatów odbywa się
poprzez wykonywanie zapytań, których składnia
uwzględnia potrzeby analizy danych
 Mogą one być definiowane w bardzo elastyczny
sposób ze względu na zastosowany model gwiazdy
lub płatka śniegu

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


OPERACJE ROLAP W SQL

 Operacje analityczne ROLAP opierają się na


zastosowaniu:
 Klauzuli GROUP BY
 Funkcji agregujących (COUNT, MIN, MAX, SUM, AVG)
 Funkcji statystycznych (STDEV, VARIANCE)

 Wadą tych rozwiązań jest brak możliwości


przeprowadzania agregacji na dowolnym poziomie
hierarchii wymiaru
 Podsumowania na różnych poziomach wymagają
stosowania wielu zapytań, co wydłuża czas
otrzymania odpowiedzi
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu
OPERACJE ROLAP – ROZSZERZENIE SQL

 Rozszerzenie klauzuli GROUP BY:


 ROLLUP
 CUBE
 GROUPING_SETS

 Funkcje związane z grupowaniem:


 GROUPING
 GROUPING_ID
 GROUP_ID

 Tworzenie perspektyw zmaterializowanych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ROLLUP – SKŁADNIA
SELECT kolumna1, kolumna2, kolumna3,
funkcja_agr(kolumna4)
FROM tabela
GROUP BY ROLLUP(kolumna1, kolumna2, kolumna3)

gdzie:
kolumna1, kolumna2 – nazwy kolumn tabeli, będących wymiarami
kolumna4 – miara faktu
tabela – nazwa tabeli faktu, z której wybierane są rekordy do grupowania
funkcja_agr – funkcja agregująca (SUM, COUNT, MIN, MAX, AVG)

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ROLLUP – PRZYKŁAD

Wymiary:
Time (1996, 1997)
Department (Video Sprzedaz, Video Rental)
Region (East, West, Central)

Miara faktu:
Zysk

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ROLLUP – WYNIK ZAPYTANIA

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ROLLUP – OPIS PRZYKŁADU
 Wyznaczenie wartości funkcji SUM dla agregatu o
następujących wymiarach: Time, Region,
Department
 Wyznaczenie wartości funkcji SUM dla agregatu o
następujących wymiarach: Time, Region
 Wyznaczenie wartości funkcji SUM dla agregatu o
następujących wymiarach: Time
 Wyznaczenie wartości funkcji SUM dla całej tabeli

 Wartość funkcji wyznaczana jest dla kolejnych


agregatów dla kolejnych wymiarów, w kierunku od
prawej do lewej

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PARTIAL ROLLUP – SKŁADNIA
SELECT kolumna1, kolumna2, kolumna3,
funkcja_agr(kolumna4)
FROM tabela
GROUP BY kolumna1, ROLLUP(kolumna2, kolumna3)

gdzie:
kolumna1, kolumna2, kolumna3 – nazwy kolumn tabeli, będących
wymiarami
kolumna4 – miara faktu
tabela – nazwa tabeli faktu, z której wybierane są rekordy do grupowania
funkcja_agr – funkcja agregująca (SUM, COUNT, MIN, MAX, AVG)

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PARTIALL ROLLUP – PRZYKŁAD

Wymiary:
Time (1996, 1997)
Department (Video Sprzedaz, Video Rental)
Region (East, West, Central)

Miara faktu:
Zysk

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PARTIALL ROLLUP – WYNIK ZAPYTANIA

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PARTIAL ROLLUP – OPIS PRZYKŁADU
 Tworzy podsumowania wg określonej kolejności
wymiarów
 Liczba poziomów podsumowań wynosi 3
 I poziom – wartości funkcji SUM dla agregatu o
następujących wymiarach: Time, Region, Department
 II poziom – wartości funkcji SUM dla agregatu o
następujących wymiarach: Time, Region
 III – wartości funkcji SUM dla agregatu o
następujących wymiarach: Time
 Nie występuje tutaj podsumowanie całkowite
 Alternatywą dla ROLLUP jest wiele zapytanie
połączonych operatorem UNION

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


CUBE – SKŁADNIA
SELECT kolumna1, kolumna2, kolumna3,
funkcja_agr(kolumna4)
FROM tabela
GROUP BY CUBE(kolumna1, kolumna2, kolumna3)

gdzie:
kolumna1, kolumna2 – nazwy kolumn tabeli, będących wymiarami
kolumna4 – miara faktu
tabela – nazwa tabeli faktu, z której wybierane są rekordy do
grupowania
funkcja_agr – funkcja agregująca (SUM, COUNT, MIN, MAX, AVG)

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


CUBE – OPIS

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


CUBE – PRZYKŁAD

Wymiary:
Time (1996, 1997)
Department (Video Sprzedaz, Video Rental)
Region (East, West, Central)

Miara faktu:
Zysk

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


CUBE – WYNIK ZAPYTANIA

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


CUBE – OPIS PRZYKŁADU

 CUBE tworzy podsumowania wg wszystkich


kombinacji kolejności wymiarów
 Operator CUBE tworzy 2n rodzajów podsumowań

 Wyniki zapytania mogą być przedstawione w tabeli


przestawnej
 Zapytanie z operatorem CUBE wykona się szybciej,
jeśli zostanie zrównoleglone

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PARTIAL CUBE – PRZYKŁAD

Wymiary:
Time (1996, 1997)
Department (Video Sprzedaz, Video Rental)
Region (East, West, Central)

Miara faktu:
Zysk

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PARTIAL CUBE – WYNIK ZAPYTANIA

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PARTIAL CUBE – OPIS PRZYKŁADU
 Ogranicza liczbę tworzonych podsumowań
 Tworzy podsumowania dla następujących wymiarów:
 Time, Region, Dept
 Time, Region
 Time, Dept
 Time

 Alternatywą dla CUBE jest wiele zapytań (2n),


połączonych przy pomocy UNION ALL, w których
zastosowano różne kombinacje wymiarów w GROUP
BY

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ROLLUP I CUBE – PROBLEMY
 Wynik zapytania z użyciem operatorów ROLLUP
i CUBE nie pozwala wyraźnie wskazać:
 Które wiersze zawierają podsumowania
 Którego poziomu dotyczy dane podsumowanie

 Dodatkowo wartość NULL znajdująca się w


wierszu z podsumowaniem nie pozwala
jednoznacznie odpowiedzieć na pytania:
 Czy wartość ta jest wynikiem funkcji agregacji na
danych, wśród których wystąpił NULL?
 Czy wartość ta została wygenerowana przez operator
ROLLUP lub CUBE?
 Rozwiązanie problemu – funkcja GROUPING

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


GROUPING – SKŁADNIA
SELECT kolumna1, kolumna2, kolumna3, funkcja_agr(kolumna4),
GROUPING (kolumna1) AS ALIAS1,
GROUPING (kolumna2) AS ALIAS2,
GROUPING (kolumna3) AS ALIAS3
FROM tabela
GROUP BY CUBE | ROLLUP (kolumna1, kolumna2, kolumna3)

Jeśli wartość NULL w kolumnie, będącej parametrem


funkcji GROUPING, została nadana przez operator
ROLLUP lub CUBE, to funkcja ta zwraca wartość 1.
W przeciwnym razie – 0.

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


GROUPING – PRZYKŁAD

Wymiary:
Time (1996, 1997)
Department (Video Sprzedaz, Video Rental)
Region (East, West, Central)

Miara faktu:
Zysk

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


GROUPING – WYNIK ZAPYTANIA

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


GROUPING – OPIS PRZYKŁADU
 Dodatkowe kolumny w zapytaniu opisują rezultat
funkcji GROUPING, działającej na poszczególnych
wymiarach
 Zaleca się wstawienie na liście kolumn polecenia
SELECT tylu funkcji GROUPING, ile jest
wymiarów
 Wartości z kolumn, będących wynikiem funkcji
GROUPING mogą być wykorzystane podczas
obliczeń analitycznych np. określaniu udziału
procentowego
 GROUPING może być używane do filtrowania i
sortowania wyniku zapytania
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu
CUBE + GROUPING – PRZYKŁAD

Wymiary:
Time (1996, 1997)
Department (Video Sprzedaz, Video Rental)
Region (East, West, Central)

Miara faktu:
Zysk

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


CUBE + GROUPING – WYNIK ZAPYTANIA

CUBE + GROUPING + DECODE

CUBE bez GROUPING

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


CUBE + GROUPING – OPIS PRZYKŁADU

 Jeśli w instrukcji SELECT, która zawiera operator


CUBE, nie zastosowano funkcji GROUPING,
wówczas nie jest możliwe określenie znaczenia
wartości NULL w kolumnach wymiaru lub jego
poziomów
 Funkcja DECODE pozwala dokonać interpretacji
wartości 1 i 0, będącej wynikiem funkcji
GROUPING, tym samym rozpoznanie podsumowań i
ich poziomów

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


RANK, DENSE_RANK – SKŁADNIA
SELECT kolumna1, … ,
RANK () OVER (ORDER BY wyrażenie ASC | DESC),
DENSE_RANK OVER(ORDER BY wyrażenie ASC | DESC)
FROM tabela
GROUP BY kolumna1, …

SELECT kolumna1, … ,
RANK () OVER (PARTITION BY kolumnan ORDER BY
wyrażenie ASC | DESC),
DENSE_RANK OVER(PARTITION BY kolumnan ORDER
BY wyrażenie ASC | DESC)
FROM tabela
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu
RANK, DENSE_RANK – OPIS
 Funkcje pozwalają tworzyć listy rankingowe (różnice
między nimi wynikają z odmiennego sposobu
numerowania na liście)
 DENSE_RANK – określa liczbę unikalnych wartości
na liście i przypisuje tę wartość rankingową
największej lub najmniejszej wartości z listy, w
zależności od porządku sortowania (zachowuje
ciągłość wartości rankingu)
 RANK – określa ranking wartości w grupie, nie
zachowuje jednak ciągłości wartości rankingu w
przypadku istnienia tych samych wartości na liście

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


RANK, DENSE_RANK – PRZYKŁAD

Wymiary:
Time (1996, 1997)
Department (Video Sprzedaz, Video Rental)
Region (East, West, Central)

Miara faktu:
Zysk

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


RANK, DENSE_RANK – WYNIK ZAPYTANIA

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


RANK + GROUP BY – PRZYKŁAD

Wymiary:
Time (1996, 1997)
Department (Video Sprzedaz, Video Rental)
Region (East, West, Central)

Miara faktu:
Zysk
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu
RANK + GROUP BY – WYNIK ZAPYTANIA

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


RANK + GROUP BY – OPIS PRZYKŁADU

 Wynik zapytania podzielony jest na grupy wg


regionu i produktu i posortowany wg regionu
 Pierwsza kolumna rankingowa podaje ranking
sprzedaży produktów w każdym regionie
 Druga kolumna rankingowa podaje ogólny ranking
sprzedaży produktów, bez względu na region

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


KIEDY UŻYWAĆ FUNKCJI ANALITYCZNYCH?
 ROLLUP jeśli podsumowania dotyczą tego samego
wymiaru, ale dla różnych jego poziomów np. rok,
kwartał, miesiąc
 CUBE jeśli podsumowania dotyczą różnych
wymiarów
 Funkcje rankingowe pozwalają odpowiedzieć na
pytania typu: Których 3 klientów przynosi nam
największe dochody?

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PODSUMOWANIE
 Wielowymiarowa analiza danych wychodzi
naprzeciw oczekiwaniom biznesowym
 Operacje analityczne, wykonywane w środowisku
MOLAP i ROLAP, uwzględniają charakter danego
środowiska (model danych)
 SQL posiada dedykowane rozszerzenia, pozwalające
wykonywać analizy danych o szerszym zakresie niż
te wynikające z obecności klauzuli GROUP BY i
funkcji agregujących
 Rezultaty zapytań analitycznych mogą być
przetwarzane przy pomocy instrukcji języka
programowania np. PL/SQL
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu
„HURTOWNIE DANYCH I SYSTEMY
BUSINESS INTELLIGENCE” – CZ. 4

dr inż. Piotr Muryjas


Instytut Informatyki, Politechnika Lubelska
PARTNERZY:

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


DEFINICJA HURTOWNI DANYCH
ORAZ PODSTAWOWYCH POJĘĆ
Z NIĄ ZWIĄZANYCH

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


AGENDA

 Definicja podstawowych pojęć w obszarze:


 Systemu hurtowni danych
 Jakości danych
 Transformacji danych
 Agregacji danych
 Zapytań do bazy danych
 Inne

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PODSTAWOWE POJĘCIA – SYSTEM
HURTOWNI DANYCH (1)

 Baza metadanych – miejsce składowania struktur


danych, opisujących dane i procesy zachodzące w
hurtowni danych
 Czyszczenie danych – usuwanie błędnych wartości
z danych pobranych ze źródeł, podczas ładowania
danych
 Data mart – hurtownia tematyczna, przechowująca
dane opisujące wybrany aspekt funkcjonowania
przedsiębiorstwa
 Metadane – dane opisujące lokalizację i strukturę
danych źródłowych oraz związki między nimi

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PODSTAWOWE POJĘCIA – SYSTEM
HURTOWNI DANYCH (2)

 MOLAP – wielowymiarowy OLAP, umożliwiający


tworzenie i manipulowanie danymi
wielowymiarowymi
 OLAP – analityczne i interaktywne przetwarzanie
danych, ukierunkowane na zaspokajanie
biznesowych potrzeb informacyjnych
 OLTP – przetwarzanie transakcyjne, wykonywane
w operacyjnych systemach informatycznych,
zapewniające obsługę podstawowych procesów
biznesowych
 ROLAP – relacyjny OLAP, umożliwiający
przetwarzanie danych składowanych w relacyjnych
bazach danych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PODSTAWOWE POJĘCIA – SYSTEM
HURTOWNI DANYCH (3)

 Architektura hurtowni danych – zbiór zasobów,


umożliwiających składowanie danych, wdrażanie i
eksploatację hurtowni danych wraz z zależnościami
zachodzącymi między nimi
 Architektura rozproszona – dane składowane są w
minihurtowaniach, które zarządzane są przez
nadrzędny system przy pomocy agentów
 Architektura scentralizowana – wszystkie dane,
opisujące różne obszary biznesu, przechowywane
są w jednej, centralnej bazie danych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PODSTAWOWE POJĘCIA – SYSTEM
HURTOWNI DANYCH (4)

 Schemat – sposób opisu danych w określonym


miejscu ich składowania
 Schemat danych – sposób zapisu informacji w bazie
danych hurtowni
 Schemat gwiazdy – schemat zawierający jedną
centralną tabelę (faktów) oraz tabele pomocnicze
(wymiarów), posiada postać zdenormalizowaną,
która prowadzi do redundancji danych
 Schemat płatka śniegu – rozbudowany schemat
gwiazdy, w którym występują rozbudowane tabele
wymiarów, eliminujące nadmierną redundancję
danych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PODSTAWOWE POJĘCIA – SYSTEM
HURTOWNI DANYCH (5)

 Schemat źródłowy – szczegółowa definicja źródeł


danych, uwzględniająca nazwy baz danych, tabel,
kolumn w miejscu składowania danych
pobieranych do hurtowni
 Schemat docelowy – szczegółowa definicja miejsc
(przestrzeni, tabel, kolumn), w których zostaną
umieszczone dane otrzymane po transformacji i
agregacji danych źródłowych
 Repozytorium – miejsce w bazie danych, w
którym znajduje się opis schematu źródłowego i
docelowego
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu
PODSTAWOWE POJĘCIA – SYSTEM
HURTOWNI DANYCH (6)

 Repozytorium projektowe – miejsce w bazie


danych, wykorzystywanej na etapie projektu
hurtowni danych, do składowania danych
opisujących schemat źródłowy i docelowy

 Repozytorium eksploatacyjne – miejsce w bazie


danych, wykorzystywanej na etapie eksploatacji
hurtowni danych, w którym wdrożono schemat
docelowy oraz przechowuje się analityczne dane

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PODSTAWOWE POJĘCIA – SYSTEM
HURTOWNI DANYCH (7)

 Tabela faktów – tabela danych w schemacie


gwiazdy lub płatka śniegu, przechowująca dane na
określony temat (wartości opisujące fakty)
 Tabela wymiarów – tabela danych w schemacie
gwiazdy lub płatka śniegu, przechowująca
wszystkie możliwe wartości danego wymiaru
 Wielowymiarowa baza danych – baza danych
umożliwiająca przechowywanie wartości w postaci
kostek, opisujących fakty oraz wielowymiarową ich
analizę

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PODSTAWOWE POJĘCIA – SYSTEM
HURTOWNI DANYCH (8)

 Tabela faktów – tabela danych w schemacie


gwiazdy lub płatka śniegu, przechowująca dane na
określony temat (wartości opisujące fakty)
 Tabela wymiarów – tabela danych w schemacie
gwiazdy lub płatka śniegu, przechowująca
wszystkie możliwe wartości danego wymiaru
 Wielowymiarowa baza danych – baza danych
umożliwiająca przechowywanie wartości w postaci
kostek, opisujących fakty oraz wielowymiarową ich
analizę
 Źródło danych – miejsce składowania danych
pobieranych do hurtowni danych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PODSTAWOWE POJĘCIA – JAKOŚĆ DANYCH (1)

 Adekwatność – przydatność zasobów źródłowych w


hurtowni danych z punktu widzenia potrzeb
biznesowych
 Aktualność danych – parametr czasowy opisujący
moment wprowadzenia danych do zasobów
hurtowni
 Cel jakościowy – wymaganie zdefiniowane przez
użytkownika w odniesieniu do różnych elementów i
procesów zachodzących w hurtowni, którego
podstawą jest osiągnięcie celu biznesowego

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PODSTAWOWE POJĘCIA – JAKOŚĆ DANYCH (2)

 Częstotliwość aktualizacji – częstotliwość


wprowadzania danych do baz danych hurtowni
 Dokładność danych – właściwy sposób opisu
wymiarów i faktów oraz ich reprezentacji w bazie
danych
 Czystość danych – jednolitość sposobu opisu tych
samych faktów i wymiarów
 Nieulotność danych – przedział czasowy, w którym
dane zachowują swoją ważność

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PODSTAWOWE POJĘCIA – JAKOŚĆ DANYCH (3)

 Wiarygodność danych – cecha danych,


zapewniająca uzyskanie pełnego zaufania co do ich
źródła pochodzenia, wartości i ważności
 Jakość danych – cecha określająca ogólną
użyteczność danych w procesach decyzyjnych z
punktu widzenia osób podejmujących decyzje
 Kompletność danych – ilość danych zgromadzonych
w hurtowni do ogólnej ilości, możliwej do
pozyskania z rzeczywistości

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PODSTAWOWE POJĘCIA – JAKOŚĆ DANYCH (4)

 Metryki jakości – wielkości pozwalające określić


jakość danych przy pomocy wartości
 Minimalność danych – poziom redundancji danych

 Spójność danych – zgodność danych


zgromadzonych w bazie danych hurtowni
 Spójność przetwarzania – zgodność realizacji
procesów transformacji i agregacji danych z
rzeczywistym przebiegiem tych procesów w
organizacji i otoczeniu

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PODSTAWOWE POJĘCIA – JAKOŚĆ DANYCH (4)

 Semantyka danych – opis znaczenia atrybutów i


związków między nimi w hurtowni danych
 Syntaktyka danych – opis typów danych
atrybutów, rodzajów związków między nimi, kluczy
i procedur składowanych (słownik danych)
 Wersjonowanie metadanych – zapamiętywanie
poprzedniej wersji metadanych po ich uprzedniej
modyfikacji
 Weryfikacja – kontrola poprawności danych oraz
procesów przetwarzania danych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PODSTAWOWE POJĘCIA – TRANSFORMACJA
DANYCH (1)

 Asercja schematów – definicja związków między


danymi pochodzącymi z różnych źródeł
 Źródło danych – własny system informatyczny lub
zasób danych znajdujący się w otoczeniu
przedsiębiorstwa
 Opis źródła danych – charakterystyka miejsca
składowania danych, które będą pobierane do
hurtowni danych
 Ekstrakcja danych – proces wyboru danych ze
źródła

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PODSTAWOWE POJĘCIA – TRANSFORMACJA
DANYCH (2)

 Czyszczenie danych – ujednolicanie sposobu opisu


tych samych wielkości, opisujących obiekty i
procesy znajdujące się w modelowanej
rzeczywistości
 Integrowanie danych – łączenie danych z różnych
źródeł w celu otrzymania wymaganego opisu
obiektu lub procesu z rzeczywistości
 ETL – całokształt procesów, których realizacja ma
doprowadzić do ekstrakcji danych ze źródeł,
transformacji i agregacji, a następnie umieszczenia
w środowisku produkcyjnym (docelowym)
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu
PODSTAWOWE POJĘCIA – TRANSFORMACJA
DANYCH (3)

 Ładowanie danych – proces wybrania danych ze


źródeł i umieszczenia ich w obszarze, w którym
będą podlegać dalszemu przetwarzaniu (np.
agregacji)
 Mapowanie – opis sposobu przejścia od danych
źródłowych do danych docelowych w hurtowni
 Schemat pojęciowy hurtowni – model konceptualny
hurtowni, opisujący rodzaj danych w niej
zgromadzonych
 Ujednolicenie schematów – proces tworzenia
jednolitego i spójnego opisu danych wejściowych,
niezależnie od źródła ich przechowywania

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PODSTAWOWE POJĘCIA – TRANSFORMACJA
DANYCH (4)

 Projektowanie schematu – tworzenie w


repozytorium hurtowni definicji schematów
wejściowych i docelowych
 Wdrożenie schematu – utworzenie w środowisku
produkcyjnym schematu docelowego, w którym
zostaną umieszczone dane zagregowane
 Wykonanie – uruchomienie procedur, które
spowodują realizację procesów ETL

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PODSTAWOWE POJĘCIA – AGREGACJA (1)

 Agregacja – tworzenie wielopoziomowych


podsumowań przy zastosowaniu wybranych funkcji
agregujących
 Konsolidacja – zbieranie różnych danych
znajdujących się w hurtowni w celu tworzenia
nowych jakościowo przekrojów informacyjnych
 Rozwijanie – proces przechodzenia od danych
ogólnych do bardziej szczegółowych
 Zwijanie – proces przechodzenia od danych bardziej
szczegółowych do ogólnych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PODSTAWOWE POJĘCIA – AGREGACJA (2)

 Drążenie danych – proces odkrywania zależności


między danymi i budowania (rozpoznawania)
wzorców
 Filtrowanie danych – proces wyboru danych wg
przyjętego kryterium, które musi być spełnione
przez wybierane dane
 Sortowanie danych – uporządkowanie danych wg
przyjętego kryterium lub kryteriów
 Funkcja agregująca – funkcja matematyczna o
charakterze analitycznym (COUNT, MAX, MIN,
SUM, AVG), umożliwiająca tworzenie podsumowań
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu
PODSTAWOWE POJĘCIA – AGREGACJA (3)

 Miara – wymierny sposób opisu (najczęściej


numeryczny) poszczególnych faktów np. wartość
sprzedaży, wielkość sprzedaży
 Modelowanie wymiarów – proces identyfikowania
wymiarów oraz określania ich atrybutów
 Przecinanie – wyodrębnianie podzbiorów danych
dla zadanych wartości wymiarów
 Rzutowanie – wyodrębnianie podzbioru danych,
poprzez wybór kolumn, ze zbioru otrzymanego z
operacji przecinania

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PODSTAWOWE POJĘCIA – AGREGACJA (4)

 Obracanie – zmiana kolejności wymiarów


opisujących dany fakt, umożliwiająca zmianę
sposobu patrzenia i interpretacji miar, opisujących
fakty
 Poziom – jednostka podrzędna w ramach danego
wymiaru (np. dla wymiaru czas poziomami mogą
być: kwartały, miesiące, tygodnie, dni, godziny)
 Ziarnistość danych – stopień szczegółowości opisu
wymiarów (rok – mała ziarnistość, dzień – duża
ziarnistość)

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PODSTAWOWE POJĘCIA – AGREGACJA (5)

 Wymiar – punkt widzenia, umożliwiający opis


faktu; przykładem wymiar może być czas, region,
wiek
 Fakt – obszar biznesu, opisany za pomocą wielu
wymiarów oraz miar, którego procesy będą
wspierane za pomocą hurtowni danych
 Kostka – podzbiór danych (tabela), którego
krawędzie są definiowane przez wymiary, a
zawartość przez wartości (miary)

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PODSTAWOWE POJĘCIA – ZAPYTANIA (1)

 Indeksy – struktury pomocnicze, ułatwiające


wybieranie danych; w hurtowniach ich stosowanie
jest efektywniejsze, gdyż nie wykonuje się w nich
operacji DML
 Perspektywy zmaterializowane – tabele istniejące
w fizycznej postaci w bazie danych zawierające
dane zagregowane (w przeciwieństwie do widoków,
które nie zawierają danych)

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PODSTAWOWE POJĘCIA – ZAPYTANIA (2)

 Raport statyczny – zbiór danych wyjściowych,


którego struktura została określona na etapie
projektowania hurtowni danych
 Raport analityczny – zbiór zawierający dane
analityczne tj. dane otrzymane w wyniku procesu
agregacji
 Raport ad-hoc – zbiór danych, którego struktura
nie jest znana na etapie projektowania hurtowni,
lecz powstaje dopiero podczas jej eksploatacji

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PODSTAWOWE POJĘCIA – ZAPYTANIA (3)

 Zapytanie predefiniowane – definicja (składnia)


instrukcji wyboru danych, określona na etapie
projektowania hurtowni danych
 Zapytanie analityczne – definicja instrukcji wyboru
danych, zawierająca funkcję analityczną
 Zapytanie ad-hoc – definicja instrukcji wyboru,
której struktura nie jest znana na etapie
projektowania hurtowni, lecz jest tworzona
dynamicznie dopiero podczas jej eksploatacji

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PODSTAWOWE POJĘCIA – INNE (1)

 System wspomagania decyzji – system


informatyczny dostarczający informacji,
umożliwiających podejmowanie właściwych decyzji
 DSS – systemy wspomagania decyzji, klasa
systemów informatycznych, wspierających
funkcjonowanie przedsiębiorstw
 EIS – systemy eksperckie, klasa systemów
informatycznych, wspierająca podejmowanie
decyzji na poziomie strategicznym przedsiębiorstw

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PODSTAWOWE POJĘCIA – INNE (2)

 Przetwarzanie analityczne – przetwarzanie


danych, w celu wygenerowania informacji,
opisujących różne warianty decyzyjne
 Przetwarzanie operacyjne – przetwarzanie danych
w systemach informatycznych, wspomagających
bieżącą działalność przedsiębiorstwa
 Analityczna baza danych – baza danych
zawierająca dane agregowane, przeznaczona tylko
do odczytu

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PODSTAWOWE POJĘCIA – INNE (3)

 Hurtownia danych – analityczna baza danych,


opisująca przedsiębiorstwo jako całość,
wykorzystywana w systemach informatycznych
wspierających podejmowanie decyzji

 Tematyczna hurtownia danych – hurtownia


danych zorientowana tylko na określony obszar
biznesu np. zarządzanie zasobami ludzkimi,
zarządzanie relacjami z klientami

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PODSTAWOWE POJĘCIA – INNE (4)

 Dane źródłowe – zbiór danych, zlokalizowanych w


zasobach systemów informatycznych
przedsiębiorstwa lub w jego otoczeniu, posiadający
strukturę, która nie jest adekwatna do potrzeb
informacyjnych osób zarządzających, gdyż opisują
proste procesy biznesowe
 Dane docelowe – zbiór danych, których struktura,
format i jakość odpowiadają wymogom systemów
wspomagania podejmowania decyzji

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PODSTAWOWE POJĘCIA – INNE (5)
 Źródła heterogeniczne – zasoby danych różniące
się:
 sposobem dostępu do nich
 sposobem odczytu z nich danych
 wewnętrzną strukturą,
 rodzajem platformy systemowej, na której istnieją

 Źródła homogeniczne charakteryzują się


jednolitością z każdego w/w punktu widzenia
 Przykład źródeł heterogenicznych: baza danych
Oracle oraz MS SQL Server lub plik txt i xls
 Przykład źródeł homogenicznych: pliki XML

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PODSTAWOWE POJĘCIA – INNE (6)

 Źródła ustrukturyzowane – zasoby danych,


posiadające wyraźnie określoną strukturę np.
relacyjne bazy danych, pliki tekstowe i arkuszy
kalkulacyjnych, pliki XML i HTML

 Źródła nieustrukturyzowane – zasoby nie


posiadające wyodrębnionej struktury np. treść
emaili, blogów, for dyskusyjnych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PODSTAWOWE POJĘCIA – INNE (7)
 Poziomy użytkowników hurtowni danych – grupy
osób, zaangażowane w eksploatację systemu
informatycznego, o zróżnicowanych
umiejętnościach i potrzebach informacyjnych

 Klasy narzędzi hurtowni danych – zróżnicowane


funkcjonalnie grupy narzędzi IT, umożliwiające
realizację procesów związanych z projektowaniem,
wdrażaniem i eksploatacją hurtowni danych np.
narzędzia OLAP, narzędzia ETL, narzędzia
raportujące

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PODSTAWOWE POJĘCIA – INNE (8)

 Synonimy – elementy opisu danych, posiadające


różne nazwy, lecz to samo znaczenie lub
reprezentację np. biznesową
 Homonimy – elementy opisu danych, posiadające
te same nazwy, ale odnoszące się do różnych
faktów lub znaczeń
 Analogie – elementy opisu danych, posiadające
różne nazwy, ale równoważne znaczenie

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PODSTAWOWE POJĘCIA – INNE (9)

 Dane biznesowe – kategoria danych opisująca


procesy biznesowe na różnych poziomach
hierarchicznych organizacji; rodzaj danych i ich
szczegółowość zależy od poziomu w hierarchii
 Hierarchia danych – wzajemne zależności logiczne
między danymi typu „rodzic-dziecko”, np. kraj-
województwo-powiat-miasto
 Konwersja danych – proces przekształcania
transakcyjnych danych źródłowych do postaci
analitycznej

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


POJĘCIE HURTOWNI DANYCH
 Analityczna baza danych przeznaczona jedynie
do odczytu, używana jako podstawa systemu
wspomagania decyzji

 Zintegrowany bank danych wspomagający


procesy decyzyjne

 Zorientowana tematycznie kolekcja danych,


służąca wsparciu procesu podejmowania decyzji
kierownictwa

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


POJĘCIE HURTOWNI DANYCH
 Repozytorium danych z procedurami ich
ładowania do hurtowni danych

 Repozytorium uzupełnione minihurtowniami


danych

 Repozytorium, minihurtownie danych oraz


aplikacje analityczne

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


HURTOWNIA DANYCH – GDZIE LEŻY PRAWDA?

Bill Inmon

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


DEFINICJA HURTOWNI DANYCH WG INMONA
Centralna składnica danych, zawierająca dane:
 zorientowane tematycznie
 zintegrowane
 zorganizowane w czasie
 trwałe

służące do wspomagania podejmowania


decyzji strategicznych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ZORIENTOWANIE TEMATYCZNE HURTOWNI
DANYCH

 Zgromadzone dane opisują problemy


 Lokalizacja danych uzależniona od ich treści
ekonomicznych
 Dane zorientowane na podejmowanie decyzji w
różnych obszarach działania

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ZINTEGROWANE DANE W HURTOWNI
DANYCH

 Dane pochodzą ze źródeł:


 heterogenicznych lub homogenicznych
 ustrukturyzowanych lub nieustrukturyzowanych
 wewnętrznych lub zewnętrznych

 Czystość – ta sama informacja zapisana jeden raz


i tylko na jeden sposób (format, jednostka miary)
 Poprawność – kontrola danych pobieranych
z systemów szczebla operacyjnego
 Właściwa agregacja – wybór zmiennych
agregujących

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ELEMENT CZASU W HURTOWNI DANYCH

 Dane utrzymywane są w długim horyzoncie czasu


(ponad 5 lat)

 Czas jako wymiar innych danych


 Dane tworzą szeregi czasowe
 Dane załadowane do hurtowni danych nie są w
czasie aktualizowane

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


TRWAŁOŚĆ DANYCH W HURTOWNI DANYCH

 W hurtowni danych dopuszcza się operacje:


 ładowania danych
 dostępu do danych

 W hurtowni nie przeprowadza się operacji


aktualizacji załadowanych danych
 Dane analityczne przechowywane są w postaci
gotowych agregatów

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PODSUMOWANIE

 Hurtownia danych to nowoczesne narzędzie


wspierające procesy decyzyjne w
przedsiębiorstwie
 Funkcjonalność hurtowni danych pozwala
zbudować całościowy, jednolity i wiarygodny
obraz przedsiębiorstwa
 Infrastruktura techniczna hurtowni danych
wymaga zaawansowanych narzędzi IT,
umożliwiających efektywne gromadzenie i
eksplorację danych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


„HURTOWNIE DANYCH I SYSTEMY
BUSINESS INTELLIGENCE” – CZ. 5

dr inż. Piotr Muryjas


Instytut Informatyki, Politechnika Lubelska
PARTNERZY:

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


KLASYFIKACJA SYSTEMÓW INFORMATYCZNYCH
(SI) WYKORZYSTYWANYCH W ORGANIZACJI.

MIEJSCE HURTOWNI DANYCH


W HIERARCHII SI.

OBSZARY ZASTOSOWAŃ HURTOWNI DANYCH.

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


AGENDA

 Klasyfikacja systemów informatycznych wg


kryteriów funkcjonalnych oraz
 Miejsce hurtowni danych w hierarchii systemów
informatycznych przedsiębiorstwa
 Systemy transakcyjne a systemy analityczne

 Obszary zastosowań hurtowni danych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


HIERARCHIA SYSTEMÓW INFORMATYCZNYCH

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


RODZAJE SYSTEMÓW INFORMATYCZNYCH

 Systemy transakcyjne (TS – Transaction Systems)


 Systemy informowania kierownictwa (MIS –
Management Information Systems)
 Systemy wspomagania podejmowania decyzji (DSS
– Decision Support Systems)
 Systemy eksperckie (EIS – Executive Information
Systems)

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


SYSTEMY TRANSAKCYJNE
 Opisują proste procesy na poziomie operacyjnym
 Olbrzymia ilość rekordów
 Ukryte zależności między danymi
 Ciągły wzrost objętości zbiorów danych
 Wiele tabel i relacji między nimi
 Wydłużony czas oczekiwanie na odpowiedź dla
zapytań analitycznych
 Opis rzeczywistości w wybranym obszarze
funkcjonowania przedsiębiorstwa

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


SYSTEMY INFORMOWANIA KIEROWNICTWA

 Zasilane stosunkowo prostymi agregatami


otrzymanymi na podstawie danych
z transakcyjnych systemów dedykowanych
 Źródło danych dla MIS znajduje się wewnątrz
organizacji (w rozproszonych systemach
transakcyjnych)
 Postać danych i stopień agregacji są adekwatne do
potrzeb informacyjnych i decyzji podejmowanych
przez kierownictwo średniego szczebla

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


SYSTEMY WSPOMAGANIA DECYZJI

 Budowane w oparciu o wybrane modele


biznesowe opisujące procesy decyzyjne
 Uwzględniają szerszy aspekt prowadzenia
biznesu
 Źródłem danych są systemy transakcyjne i/lub
agregaty z systemów MIS
 Stopień agregacji danych uwzględnia różne
wymiary analiz
 Stosowane na szczeblu taktycznym (kierownictwo
wyższego szczebla np. dyrektorzy departamentów)

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


SYSTEMY EKSPERCKIE

 Umożliwiają całościowe spojrzenie na organizację


i jej miejsce w otoczeniu
 Odnoszą się do wszystkich, typowych dla
organizacji aspektów biznesu
 Wykorzystują wewnętrzne i zewnętrzne źródła
danych
 Wykorzystywane są na szczeblu strategicznym
organizacji (zarządy, rady nadzorcze)

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


SYSTEMY DSS I EIS W PROCESACH
DECYZYJNYCH

Wymagania:
 Całościowe spojrzenie na organizację
 Prawidłowa ocena aktualnej sytuacji organizacji,
oparta na wiarygodnej informacji aktualnej i
archiwalnej
 Możliwość przeprowadzania analiz w dowolnym
przekroju informacyjnym niezbędnym dla
podjęcia decyzji
 Generowanie wariantów decyzyjnych i ocena ich
skutków

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


DLACZEGO NIE WYKORZYSTAĆ TS? (1)

 Brak właściwych danych


 Zapytania przekrojowe znacznie obciążają
bieżącą pracę TS
 Bazy danych w TS nie są zoptymalizowane do
analitycznego przetwarzania danych
 Pobieranie danych z różnych źródeł nie jest
centralnie kontrolowane
 Wysoka ulotność danych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


DLACZEGO NIE WYKORZYSTAĆ TS? (2)

 Uzyskanie informacji globalnych wymaga złączenia


wielu tabel baz danych
 Brak mechanizmów zapewniających jakość danych
 Brak reguł korekcji danych (dla wartości
nieistniejących i równych NULL)
 Różne poziomy ziarnistości danych
 Brak możliwości drążenia danych
 Różne nazwy pól opisujące te same fakty

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


RÓŻNICE MIĘDZY HURTOWNIĄ DANYCH I
SYSTEMEM TRANSAKCYJNYM (1)

Hurtownie danych oparte są na bazach


analitycznych, systemy transakcyjne na bazach
operacyjnych tzn.:
 Dane w hurtowni mają charakter zagregowany,
w systemach transakcyjnych – szczegółowy
 Hurtownia danych zawiera wybrane dane, baza
danych system transakcyjnego – wszystkie dane
 Systemy transakcyjne zawierają zawsze dane
aktualne, hurtownie danych – archiwalne (obraz
tych danych)

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


RÓŻNICE MIĘDZY HURTOWNIĄ DANYCH I
SYSTEMEM TRANSAKCYJNYM (2)

Struktura i przetwarzanie danych:


 TS przechowują dane w postaci znormalizowanej, w
hurtowniach – nadmiarowość danych
 TS oparte są na przetwarzaniu transakcyjnym, w
hurtowni nie ma transakcji
 TS pozwalają na zapis, odczyt, usuwanie i modyfikację
danych, w hurtowniach– tylko operacja odczytu
 TS zasilane są stałym i równomiernym strumieniem
danych, hurtownia – duża ilość danych w krótkich
odcinkach czasu

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


SEPARACJA HURTOWNI DANYCH I TS

Cztery powody, dlaczego należy odseparować te


systemy od siebie:
 Wydajność
 Dostęp do danych
 Format danych
 Jakość danych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PODOBIEŃSTWO HURTOWNI DANYCH DO TS
 Systemy oparte na serwerach baz danych, które
mogą być zarówno bazą danych hurtowni jak i TS
 Niekiedy podobieństwo modelu danych – model
relacyjny w TS i ROLAP w hurtowni
 Posiadają wbudowane języki przetwarzania danych
(niekiedy ten sam język np. SQL, który oferuje
polecenia tradycyjnego SELECT-a jak i
rozszerzonego o elementy analityczne)
 Wysoki poziom bezpieczeństwo danych (dostęp do
danych, archiwizacja danych)

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


HURTOWNIE DANYCH W DSS I EIS (1)

 DSS/EIS posiadają rozbudowane narzędzia


analizy danych i nie są odpowiednio wyposażone
w narzędzia organizacji danych
 Hurtownia danych dostarcza dla DSS/EIS
wsparcia w postaci analitycznej bazy danych
(postać danych adekwatna do potrzeb biznesu)
 Hurtownie danych dostarczają wiarygodnych
danych, odpowiednio oczyszczonych i
zagregowanych na wymaganym poziomie,
wymaganym przez osoby zarządzające

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


HURTOWNIE DANYCH W DSS I EIS (2)

 Struktura danych w hurtowni jest zgodna ze


sposobem patrzenia na biznes i analizy działań w
określonym jego obszarze
 Hurtownie mają zaimplementowane modele
danych, które zapewniają wielowymiarową analizę
danych
 Zapytanie analityczne w bazie danych hurtowni
zawsze wykona się szybciej niż w bazie
transakcyjnej, dlatego hurtownie stanowią źródło
danych dla DSS i EIS

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


OBSZARY ZASTOSOWAŃ HURTOWNI DANYCH
 Branże:
 Bankowość
 Telekomunikacja
 Energetyka
 Służba zdrowia
 Ubezpieczenia
 Obszary biznesu:
 Sprzedaż
 Obsługa klienta
 Marketing
 CRM (zarządzanie kontaktami z klientami)
 Controlling

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


OBSZARY ZASTOSOWAŃ – BANKI
 W jakim wieku są klienci, którzy najczęściej
korzystają z kart kredytowych?
 Który z produktów bankowych generuje największe
zyski?
 Którzy klienci zapewniają bankowi najwyższe
przychody?
 Jaka jest struktura regionalna korzystania z usług
banku?
 Jaka jest struktura wiekowa klientów, którzy
korzystają z różnych usług banku?
 Który oddział jest najbardziej rentowny?

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


OBSZARY ZASTOSOWAŃ – TELEKOMUNIKACJA
 Którzy klienci płacą najwyższe rachunki?
 Z których usługi najwięcej korzystają klienci
instytucjonalni?
 Jakie były średnie miesięczne rachunki klientów,
którzy zrezygnowali z usług?
 Jaki był średni czas reakcji help desku na zgłoszenie
klienta?
 Która marka telefonów jest najczęściej kupowana w
poszczególnych taryfach?
 Jaki jest współczynnik wykorzystania limitów
minut/SMS-ów w ramach abonamentu?

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PRZYKŁADY ZASTOSOWAŃ – CRM

 Lojalność klientów wobec organizacji


 Rezygnacje klientów ze współpracy i powody
takiej decyzji
 Rodzaj produktu czy usługi (mix-produkt)
oferowane klientom określonej grupy wiekowej,
zawodowej, terytorialnej
 Efektywność realizacji programów pozyskiwania
nowych klientów czy też utrzymania klientów
dotychczasowych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PRZYKŁADY ZASTOSOWAŃ – E-BIZNES

 Średnia wartość transakcji w internetowym


biurze maklerskim
 Wartość kredytów zaciągniętych przez Internet

 Rodzaje lokat zakładanych przez Internet, ich


średnia wysokość i czas lokaty
 Wartość przelewu bankowego dokonanego drogą
elektroniczną
 Średnia wartość transakcji przy użyciu kart
płatniczych
 Miejsce i czas używania różnych kart płatniczych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PRZYKŁADY ZASTOSOWAŃ – PROJEKTOWANIE I
EKSPLOATACJA WITRYN WEBOWYCH

 Jakie są ścieżki odwiedzin portalu korporacyjnego?


 Która zawartość portalu cieszy się największym
zainteresowaniem?
 Jaki jest współczynnik konwersji?

 Jaki jest współczynnik ukończonych zadań?

 Analiza zachowań klientów na stronach portalu

 Dedykowanie treści do profilu klienta

 Profilowanie klientów wg różnych kryteriów


(region, źródła wejść, itp.)

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PODSUMOWANIE

 Hurtownia stanowi centralną składnicę wiedzy na


temat wszystkich obszarów prowadzonego biznesu
 Informacje w niej zawarte są wiarygodne i
pozwalają podejmować decyzje zarządcze
 Umiejętne korzystanie z funkcjonalności hurtowni
przynosi korzyści całemu przedsiębiorstwu
 Hurtownia danych stwarza możliwości poprawy
prowadzenia biznesu oraz lepszego dostosowania
się do wymogów otoczenia

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


„HURTOWNIE DANYCH I SYSTEMY
BUSINESS INTELLIGENCE” – CZ. 6

dr inż. Piotr Muryjas


Instytut Informatyki, Politechnika Lubelska
PARTNERZY:

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ARCHITEKTURA HURTOWNI
DANYCH.

STRUKTURA FUNKCJONALNA
HURTOWNI DANYCH.

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


AGENDA

 Rodzaje architektur hurtowni danych:


 Architektura podstawowa
 Architektura z obszarem pośrednim
 Architektura z hurtowniami tematycznymi

 Struktura funkcjonalna hurtowni danych:


 Elementy struktury
 Zależności między elementami struktury

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ARCHITEKTURA PODSTAWOWA

Źródło: docs.oracle.com
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu
ARCHITEKTURA PODSTAWOWA – OPIS
 Źródła danych:
 Systemy operacyjne (transakcyjne), dostarczające
danych operacyjnych, które zostaną przekształcone w
agregaty
 Pliki płaskie – ustrukturyzowane (tekstowe, HTML,
XML) lub inne nieustrukturyzowane
 Hurtownia danych:
 Metadane – opis docelowej struktury danych
 Dane analityczne (zagregowane w różnym stopniu)
 Użytkownicy:
 Analizy danych
 Raportowanie
 Drążenie danych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ARCHITEKTURA Z OBSZAREM POŚREDNIM

Źródło: docs.oracle.com
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu
ARCHITEKTURA Z OBSZAREM POŚREDNIM – OPIS

 Obszar pośredni jest miejscem transformacji


danych (zamiast w środowisku hurtowni)
 Może to być odrębne środowisko, dostosowane do
efektywnego przetwarzania danych (czyszczenia,
agregacji) np. odrębny serwer bazy danych
 Takie rozwiązanie zapewnia:
 Kompletność danych przed rozpoczęciem transformacji
danych
 Kompletność danych, które mają być załadowane do
hurtowni
 Efektywność procesów ETL

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ARCHITEKTURA Z HURTOWNIAMI
TEMATYCZNYMI – WARIANT 1

Źródło: docs.oracle.com
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu
ARCHITEKTURA Z HURTOWNIAMI
TEMATYCZNYMI – OPIS
 W architekturze występują hurtownie tematyczne
(data mart) jako warstwa składowania danych
przeznaczonych dla wybranych grup użytkowników
 Tematyczne hurtownie danych koncentrują się nie
na całym przedsiębiorstwie, lecz tylko na wybranym
obszarze jego funkcjonowania np. HR, CRM,
Finanse, Marketing, Sprzedaż
 Zalety rozwiązania:
 Skrócenie czasu dostępu do danych
 Profilowanie informacji dla właściwych odbiorców
 Możliwość efektywnego doboru modelu danych
niezależnie od modelu hurtowni centralnej

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ARCHITEKTURA Z HURTOWNIAMI
TEMATYCZNYMI – WARIANT 2

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ARCHITEKTURA Z HURTOWNIAMI
TEMATYCZNYMI – WARIANT 2 – OPIS

 Brak centralnej hurtowni danych


 Dane z systemów źródłowych ładowane są
bezpośrednio do hurtowni tematycznych
 Zalety rozwiązania:
 Niezależność implementacji poszczególnych data mart
 Szybsze uzyskanie rezultatów wdrożenia data mart
 Krótszy czas realizacji procesów poszczególnych ETL

 Wady rozwiązania:
 Konieczność zastosowania narzędzi integrujących w
przypadku potrzeby stworzenia jednego obrazu
przedsiębiorstw
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu
STRUKTURA FUNKCJONALNA

 Opisuje hurtownię danych z punktu widzenia:


 procesów jakie w niej zachodzą
 zadań, jakie można realizować przy jej wykorzystaniu

 Jest niezależna od architektury technicznej


 Pozwala zrozumieć zależności między procesami z
obszaru IT oraz biznesu
 Uwydatnia złożoność procesów zachodzących w
hurtowni
 Uwydatnia biznesowy charakter tego rodzaju
rozwiązania

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


STRUKTURA FUNKCJONALNA

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ELEMENTY STRUKTURY FUNKCJONALNEJ

 Dedykowane źródłowe systemy transakcyjne


przedsiębiorstwa
 Oprogramowanie zasilania danymi bazy danych
hurtowni (realizacji procesów ETL)
 System zarządzania wielowymiarową bazą danych
 Oprogramowanie klienta realizujące funkcję:
 Dostępu do danych
 Analizy danych
 Prezentacji dany

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


STRUKTURA FUNKCJONALNA (2)

Rodzaje zadań realizowanych na wejściu i wyjściu hurtowni danych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PODSUMOWANIE

 Architektura hurtowni pokazuje, jaka jest droga


od danych do informacji
 Istnieje ścisła zależność między rodzajem
architektury a jej wydajnością
 Dobór właściwej architektury uwarunkowany jest
potrzebami biznesu (jedna hurtownia czy wiele
hurtowni tematycznych)
 Rodzaj strategii budowy hurtowni danych wpływa
na wybór rodzaju architektury

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


„HURTOWNIE DANYCH I SYSTEMY
BUSINESS INTELLIGENCE” – CZ. 7

dr inż. Piotr Muryjas


Instytut Informatyki, Politechnika Lubelska
PARTNERZY:

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PROJEKTOWANIE HURTOWNI
DANYCH.
STRATEGIE BUDOWY,
ETAPY PROJEKTOWANIA.

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


AGENDA

 Cele budowy hurtowni danych

 Cykl życia hurtowni danych w systemie


wspomagania podejmowania decyzji

 Etapy budowy hurtowni danych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


CELE BUDOWY HURTOWNI DANYCH (1)

 Realizacja misji przedsiębiorstwa


 Zwiększenie konkurencyjności firmy
 Osiąganie celów biznesowych
 Optymalne wykorzystanie zasobów informacyjnych
przedsiębiorstwa

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


CELE BUDOWY HURTOWNI DANYCH (2)
 Nadrzędny cel – wspomaganie procesów decyzyjnych
w wybranych obszarze biznesowym
 Przykłady celów biznesowych:
 Badanie rentowności produktów, oddziałów,
współpracy z klientami, spółek zależnych
 Analiza ryzyka działalności
 Prognozowanie sprzedaży
 Wyznaczenie kosztu operacji handlowych
 Badanie struktury sprzedaży
 Budowa systemów sprawozdawczości zarządczej

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ZADANIA REALIZOWANE PRZY UŻYCIU
HURTOWNI DANYCH

 Budowa modelu ekonomicznego


 Weryfikacja hipotez biznesowych
 Identyfikacja trendów i zależności
 Określanie ryzyka
 Alokacja zasobów
 Poszukiwanie źródeł nowych zysków

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


WARUNKI SUKCESU HURTOWNI DANYCH

 Koncentracja uwagi na wybranym obszarze


funkcjonowania przedsiębiorstwa (najważniejszy jest
biznes, nie technologia)
 Zrozumienie danych analitycznych i operacyjnych
 Małe, ale widoczne kroki w budowie i wdrażaniu
hurtowni danych
 Korzystanie z pomocy konsultantów w fazie projektu
 Współpraca z przyszłym użytkownikiem hurtowni
(definicja potrzeb, szkolenia)

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ETAPY CYKLU ŻYCIA HURTOWNI (1)
1. Planowanie
2. Definicja wymagań informacyjnych w
odniesieniu do danych i modelowania procesów
biznesowych
3. Wykonanie fizycznego projektu schematu
docelowego oraz jego wdrożenie w środowisku
produkcyjnym
4. Zaprojektowanie procesów ETL
5. Wdrożenie procesów ETL

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ETAPY CYKLU ŻYCIA HURTOWNI (2)

6. Automatyzacja procesów ETL i zarządzania


danymi
7. Tworzenie raportów statycznych
8. Kontrola poprawności funkcjonowania hurtowni
danych oraz wykonanie testów funkcjonalnych i
wydajnościowych
9. Przeprowadzenie szkoleń przyszłych
użytkowników hurtowni
10. Oddanie hurtowni do eksploatacji

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ETAP 1. PLANOWANIE

Źródło: Poe V., Klauer P., Brobst S.: Tworzenie hurtowni danych. WNT, Warszawa 2000

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ETAP 1. PLANOWANIE – WPROWADZENIE

Cele biznesowe:
dlaczego budujemy
i wdrażamy
hurtownię danych?
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu
ETAP 1. PLANOWANIE – OPIS (1)

 Definicja zakresu projektu – jaki obszar biznesu


będzie wspierany przez hurtownię
 Definicja planu projektu – określenie rodzaju
działań, jakie są konieczne do zrealizowania w
trakcie budowy, wdrożenia i eksploatacji hurtowni
 Definicja zadań, jakie należy zrealizować, by
osiągnąć cel projektu i ich rezultatów, które
pozwolą zmierzyć poziom osiągnięcia celu
 Określenie różnych zasobów, niezbędnych do
realizacji projektu (technicznych, finansowych,
informacyjnych, itp.)
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu
ETAP 1. PLANOWANIE – OPIS (2)

 Określenie uczestników projektu (biznesowych,


technologicznych), ich zadań oraz odpowiedzialności,
zasad współpracy między nimi
 Zdefiniowanie terminów realizacji zadań oraz
osiągnięcia celów cząstkowych oraz celu głównego
budowy hurtowni
 Przydział zasobów do poszczególnych zadań, z
uwzględnieniem wymiaru czasu
 Zdefiniowanie końcowych rezultatów wdrożenia i
eksploatacji hurtowni

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ETAP 1. PLAN PROJEKTU (1)

 Wybór strategii budowy hurtowni danych:


 strategia Top Down
 strategia Bottom Up

 Wybór metodologii budowy hurtowni danych:


 model kaskadowy
 model spirali

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ETAP 1. STRATEGIA BUDOWY TOP DOWN (1)
 Zakłada budowę jednej centralnej hurtowni danych,
z której będą korzystać poszczególne obszary biznesu
 Zalety:
 Wspomaganie procesów decyzyjnych we wszystkich
obszarach biznesu prowadzonego przez przedsiębiorstwo
 Synergia korzyści eksploatacji hurtowni w
poszczególnych obszarach biznesu
 Wady:
 Długi czas realizacji
 Wyższe ryzyko, iż cele stawiane hurtowni nie zostaną
osiągnięte
 Wyższy koszt realizacji przedsięwzięcia

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ETAP 1. STRATEGIA BUDOWY TOP DOWN (2)

Wariant I – bezpośredni dostęp do warstwy prezentacji

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ETAP 1. STRATEGIA BUDOWY TOP DOWN (3)

Wariant II – dostęp do danych z wykorzystaniem hurtowni tematycznych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ETAP 1. STRATEGIA BUDOWY BOTTOM UP (1)

 Zakłada budowę tematycznej hurtowni danych


 Zalety:
 Krótszy czas realizacji niż w strategii Top Down
 Krótszy czas uzyskania wymiernych korzyści
biznesowych
 Niższe ryzyko niepowodzenia przedsięwzięcia
 Mniejszy koszt budowy i wdrożenia
 Wady:
 Wspomaganie procesów decyzyjnych tylko w wybranym
obszarze biznesu

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ETAP 1. STRATEGIA BUDOWY BOTTOM UP (2)

Wariant II – dostęp do danych z wykorzystaniem hurtowni tematycznych


oraz hurtowni danych
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu
ETAP 1. PLAN PROJEKTU – KASKADOWA
METODOLOGIA BUDOWY
Diagram
przepływu Określenie
danych potrzeb
użytkowników

Wymagania i analiza Diagram


E-R
Model
metadanych
Projekt systemu Komponenty
HD

Integracja

Aplikacje
OLAP Modyfikacja
metadanych

Weryfikacja i konserwacja

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ETAP 1. PLAN PROJEKTU – SPIRALNA
METODOLOGIA BUDOWY

Diagram
przepływu Określenie
danych potrzeb
użytkowników

Wymagania i analiza Diagram


E-R
Model
metadanych
Projekt systemu Komponenty
HD

Integracja

Aplikacje
OLAP Modyfikacja
metadanych

Weryfikacja i konserwacja

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ETAP 1. PLAN PROJEKTU W OBSZARZE IT (1)
 Planowany rozmiar danych:
 Dostosowanie infrastruktury technicznej (rozproszona czy
zcentralizowana architektura systemu hurtowni danych)
 Rodzaj platformy systemowej (system operacyjny, rodzaj
serwera bazy danych)

 Strategie integracji danych z różnych źródeł danych:


 Dostępność źródeł (jakie źródła są dostępne i gdzie one się
znajdują)
 Jakość danych w źródłach
 Sposób dostępu do źródeł (płatne, bezpłatne, przez Internet,
protokoły dostępu)
 Miejsce integracji danych (obszar pośredni, baza danych
hurtowni)
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu
ETAP 1. PLAN PROJEKTU W OBSZARZE IT (2)
 Strategie wykonywania kopii zapasowych:
 Rodzaje kopii
 Częstotliwość ich wykonywania

 Opracowanie polityki bezpieczeństwa:


 Zasady dostępu do danych (uprawnienia grup
użytkowników wewnętrznych i zewnętrznych)
 Rodzaje udostępnianych informacji biznesowych
(wirtualne bazy danych jako metoda ograniczenia dostępu
do określonych zasobów)
 Rodzaje wykonywanych operacji przez poszczególne grupy
użytkowników
 Zasady przechowywania kopii zapasowych i dostępu do
nich
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu
ETAP 1. PLAN PROJEKTU W OBSZARZE IT (3)
 Strategie realizacji procesów ETL:
 Częstotliwość ładowania danych do hurtowni
 Sposoby zapewnienia jakości danych
 Aktualizacja planów konwersji

 Strategie udostępniania danych:


 Miejsca udostępniania (kokpity menedżerskie, intranet,
Internet, email,
 Sposób prezentacji (raporty drukowane lub
elektroniczne, forma prezentacji danych – wykresy,
tabelki)
 Rodzaje urządzeń, używanych do prezentacji danych
(mobilne, stacjonarne)

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ETAP 2. DEFINICJA WYMAGAŃ
INFORMACYJNYCH

Źródło: Poe V., Klauer P., Brobst S.: Tworzenie hurtowni danych. WNT, Warszawa 2000

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ETAP 2. DEFINICJA WYMAGAŃ
INFORMACYJNYCH – OPIS (1)

 Identyfikacja docelowych użytkowników hurtowni


 Zrozumienie potrzeb biznesowych i wymagań
informacyjnych poszczególnych grup
użytkowników
 Identyfikacja modelu prowadzenia biznesu

 Wskazanie KPI (key performance indicators)


używanych w ocenie działań biznesowych
 Określenie opcjonalnych wskaźników oceny
prowadzonego biznesu

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ETAP 2. DEFINICJA WYMAGAŃ
INFORMACYJNYCH – OPIS (2)

 Hierarchia ważności wskaźników biznesowych


 Określenie rodzajów danych używanych obecnie w
biznesie i danych pożądanych
 Definicja rodzaju i ziarnistości danych
analitycznych
 Określenie rodzaju narzędzi dostępu do danych
oraz ich prezentacji
 Określenie miejsca, czasu i sposobu dostarczenia
oraz prezentacji danych analitycznych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ETAP 2. UŻYTKOWNICY HURTOWNI

 Osoby odpowiedzialne za realizację misji i


strategii przedsiębiorstwa (zarządy, rady
nadzorcze)
 Analitycy biznesowi
 Pracownicy merytoryczni
 Informatycy

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ETAP 2. OGÓLNE WYMAGANIA
UŻYTKOWNIKÓW HURTOWNI

 Kompleksowa analiza danych


 Wiarygodność informacji zarządczej

 Możliwość definiowania zapytań ad-hoc (dowolne


zapytania na dowolnych przekrojach danych,
zapytania w języku naturalnym)
 Udzielanie szybkich odpowiedzi
 Właściwy sposób prezentowania informacji

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ETAP 2. WYMAGANIA I ANALIZA –
WŁAŚCICIEL HURTOWNI

 Jakie problemy biznesowe będą rozwiązywane?


 Ile to kosztuje?

 Kiedy będą pierwsze efekty?

 Jaki będzie wpływ hurtowni danych na


pracowników, ich umiejętności, organizację?
 Czy potrafimy podołać takiemu zadaniu?

 Jakie jest ryzyko zastosowania tej technologii?

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ETAP 2. WYMAGANIA I ANALIZA –
ANALITYK BIZNESOWY

 Jakie analizy można przeprowadzać?


 Jakie funkcje oferuje hurtownia danych?
 Jaka jest ziarnistość danych?
 Jakie raporty można generować?
 Jakie są możliwości modyfikacji raportów?
 Jakie są możliwości budowy raportów od
podstaw?
 Jakie dodatkowe analizy można samodzielnie
definiować?

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ETAP 2. WYMAGANIA I ANALIZA –
INFORMATYK

 Jaka jest platforma implementacji hurtowni


danych?
 Jakie są standardy i interfejsy?
 Czy architektura hurtowni danych jest otwarta?
 Jakie są metody i narzędzia dostępu oraz
zasilania hurtowni danych?
 Jaka jest struktura sieci, w której zostanie
osadzona hurtowni danych?
 Jakie są możliwości optymalizacji działania
hurtowni danych?
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu
ETAP 2. MODELOWANIE

 Proces tworzenia logicznego modelu hurtowni


danych w oparciu o wymagania uprzednio
zdefiniowane:
 Identyfikacja wymiarów
 Określenie faktów
 Definicja miar
 Definicja zależności między faktami i wymiarami

 Wybór modelu danych (gwiazda, płatek śniegu,


hierarchiczny)
 Określenie sposobu zapisu modelu (diagram ERD,
model wielowymiarowy, inny)
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu
ETAP 3. PROJEKT SCHEMATU
DOCELOWEGO I JEGO WDROŻENIE

Źródło: Poe V., Klauer P., Brobst S.: Tworzenie hurtowni danych. WNT, Warszawa 2000

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ETAP 3. PROJEKT SCHEMATU DOCELOWEGO
I JEGO WDROŻENIE – OPIS (1)

 Budowa struktur danych bazy danych hurtowni:


 Denormalizacja danych
 Projekt tabel wymiarów
 Projekt tabel faktów
 Definicja agregatów
 Definicja kluczy łączących tabele faktów z tabelami
wymiarów
 Definicja indeksów wykorzystywanych w procesie
dostępu do danych
 Definicja strategii indeksowania (natychmiastowe,
z opóźnieniem)

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ETAP 3. PROJEKT SCHEMATU DOCELOWEGO
I JEGO WDROŻENIE – OPIS (2)

 Przygotowanie środowiska produkcyjnego do:


 Wdrożenia schematu docelowego (np. zapewnienie
miejsca do składowania danych analitycznych)
 Wykonania procesów ETL (np. zapewnienie dostępu
do źródeł danych)
 Wdrożenie schematu docelowego w środowisku
produkcyjnym:
 Utworzenie tabel, indeksów, perspektyw
zmaterializowanych w bazie danych z repozytorium
eksploatacyjnym
 Wdrożenie procedur składowanych, realizujących
analityczne przetwarzanie

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ETAP 4. PROJEKT PROCESÓW ETL

Źródło: Poe V., Klauer P., Brobst S.: Tworzenie hurtowni danych. WNT, Warszawa 2000

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ETAP 4. – PROJEKT PROCESÓW ETL – OPIS
BIZNESOWY (1)

 Cel: budowa modelu ekstrakcji danych ze źródeł,


ich transformacji do wymaganej postaci
analitycznej i ładowania danych do docelowego
miejsca składowania

 Identyfikacja dostępnych systemów źródłowych:


 Przedsiębiorstwa np. systemy sprzedażowe,
magazynowe, CRM, finansowo-księgowe
 Otoczenia np. bankowe kursy walut, wskaźniki makro-
i mikroekonomiczne (np. inflacja), dane z wywiadowni
gospodarczych i innych oficjalnych raportów
gospodarczych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ETAP 4. – PROJEKT PROCESÓW ETL – OPIS
BIZNESOWY (2)

 Określenie jakości źródeł danych (miary jakości,


wiarygodność źródeł)
 Identyfikacja miejsc w systemach źródłowych,
w których składowane są wymagane dane
(precyzyjne wskazanie np. pól tabel, nazw plików)
 Identyfikacja formatów danych źródłowych (jakie
formaty stosowane były dla synonimów i analogii)
 Precyzowanie formatów docelowych (ustalenie
formatu poszczególnych miar, opisujących fakty)

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ETAP 4. – PROJEKT PROCESÓW ETL – OPIS
BIZNESOWY (3)

 Zasady ujednolicania danych opisujących te same


fakty (m.in. identyfikatorów opisujących fakty)
 Aktualizacja hierarchii danych

 Określenie częstotliwości zmian danych źródłowych

 Definicja zasad integracji danych (jakie reguły


biznesowe należy stosować)
 Definicja sposobów agregacji (jakie wymiary mają
opisywać fakty, definicja kostek)

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ETAP 4. – PROJEKT PROCESÓW ETL –
OPIS IT

 Jaka jest platforma systemu zarządzania bazą


danych (np. Oracle, SQL Server, MySQL)
 Jaki jest sposób dostępu do zasobów danych
(autoryzacja, prawa do operacji)
 Jakie technologie ekstrakcji danych użyć dla
poszczególnych źródeł
 Jakie są możliwości i techniki ekstrakcji danych ze
źródeł nieustrukturyzowanych
 Definicja sposobów agregacji (jakie technologie i
narzędzia zastosować do szybkiego wykonania
obliczeń)
 Ile miejsca potrzeba na zagregowane dane

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ETAP 5. WDROŻENIE I REALIZACJA
PROCESÓW ETL

Źródło: Poe V., Klauer P., Brobst S.: Tworzenie hurtowni danych. WNT, Warszawa 2000

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ETAP 5. WDROŻENIE I REALIZACJA
PROCESÓW ETL – OPIS

 Wdrożenie procesów ETL to implementacja


projektu tych procesów w środowisku
eksploatacyjnym (to jeszcze nie jest napełnienie
danymi)
 Realizacja procesów ETL prowadzi do zapełnienia
danymi analitycznymi repozytorium
eksploatacyjnego (fizyczne wykonanie ekstrakcji,
transformacji, agregacji i ładowania danych do
docelowej bazy danych)

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ETAP 5. – WDROŻENIE I REALIZACJA
PROCESÓW ETL – OPIS IT (1)

 Znajomość struktur danych na platformie


źródłowej (np. tabele, pliki płaskie, pliki XML)
 Znajomość narzędzi i technologii dostępu do baz
danych (jak dotrzeć do źródła danych np. JDBC)
 Techniki ekstrakcji danych ze źródeł (SQL, inny
język, dedykowane narzędzia)
 Obsługa sytuacji wyjątkowych podczas ekstrakcji
i czyszczenia danych (błędne dane, niepełne dane,
sprzeczne dane)

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ETAP 5. – WDROŻENIE I REALIZACJA
PROCESÓW ETL – OPIS IT (2)

 Narzędzia konwersji danych


 Znajomość języków programowania do
przetwarzania analitycznego
 Znajomość języka manipulowania danymi w
środowisku docelowym
 Wdrożenie strategii indeksowania

 Testowanie poprawności wykonania procesów


ETL

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ETAP 4. I ETAP 5. – PRZYKŁAD
IMPLEMENTACJI

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ETAP 6. AUTOMATYZACJA PROCESÓW ETL

Źródło: Poe V., Klauer P., Brobst S.: Tworzenie hurtowni danych. WNT, Warszawa 2000

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ETAP 6. AUTOMATYZACJA PROCESÓW ETL
– OPIS

 Identyfikacja zakresu działań, które można


zautomatyzować (ekstrakcja, transformacja,
ładowanie)
 Zdefiniowanie mechanizmów umożliwiających
automatyzację czynności w obrębie ETL (np. jobs)
 Kontrola rezultatów automatycznego wykonania
procesów ETL
 Realizacja polityki bezpieczeństwa w obszarze
tworzenia kopii zapasowych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ETAP 7. TWORZENIE RAPORTÓW

Źródło: Poe V., Klauer P., Brobst S.: Tworzenie hurtowni danych. WNT, Warszawa 2000

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ETAP 7. TWORZENIE RAPORTÓW – OPIS
 Określenie zawartości informacyjnej raportów
 Określenie sposobu prezentacji danych
analitycznych (wykresy, tabele, drzewa decyzyjne)
 Definicja układu raportu (tzw. layout)

 Mapowanie danych hurtowni na ich postać w


raportach
 Adaptacja raportu do miejsca jego prezentacji
(desktop, urządzenie mobilne)
 Testowanie poprawności merytorycznej
(zawartość informacyjna) oraz prezentacyjnej
(sposób wyświetlania)

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ETAP 8. KONTROLA POPRAWNOŚCI HURTOWNI

Źródło: Poe V., Klauer P., Brobst S.: Tworzenie hurtowni danych. WNT, Warszawa 2000

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ETAP 8. KONTROLA POPRAWNOŚCI
HURTOWNI – OPIS

 Proces przeprowadzany z udziałem


użytkowników biznesowych
 Zakres kontroli biznesowej:
 Poprawność zawartości raportów statycznych
 Poprawność raportowania ad-hoc
 Poprawność rezultatów analiz

 Zakres kontroli IT:


 Poprawność dostępu do źródeł danych
 Czas dostępu do danych i wykonania analiz
 Wykorzystanie zasobów IT w procesach ETL

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ETAP 9. SZKOLENIA

Źródło: Poe V., Klauer P., Brobst S.: Tworzenie hurtowni danych. WNT, Warszawa 2000

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ETAP 9. SZKOLENIA BIZNESOWE
 Zakres szkolenia:
 Jakie są cele eksploatacji hurtowni danych
 Promocja hurtowni danych (wewnętrzna i zewnętrzna)
 Zawartość informacyjnej hurtowni
 Miejsce hurtowni danych w systemie informacyjnym
przedsiębiorstwa
 Promowanie aktywnego wykorzystywania hurtowni w
bieżącej działalności biznesowej
 Myślenie analityczne czy operacyjne
 Rodzaje analiz w hurtowniach danych
 Jak prezentować dane analityczne

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ETAP 9. SZKOLENIA IT

 Zakres szkolenia:
 Rodzaje narzędzi wykorzystywanych w hurtowni
(raportujące, analityczne, wizualizacji danych)
 Zasady eksploatacji narzędzi (funkcjonalność,
nawigacja, sposób obsługi)
 Tworzenie zapytań ad-hoc w hurtowniach danych
 Tworzenie raportów dynamicznych w hurtowniach
danych
 Data mining – odkrywanie wiedzy
 OLAP – aktywna analiza danych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ETAP 10. ODDANIE DO EKSPLOATACJI

Źródło: Poe V., Klauer P., Brobst S.: Tworzenie hurtowni danych. WNT, Warszawa 2000

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ETAP 10. – ODDANIE DO EKSPLOATACJI –
OPIS (1)

 Udostępnienie użytkownikom środowiska


eksploatacji hurtowni danych:
 Przyznanie dostępu do zasobów hurtowni
 Udostępnienie funkcjonalności w warstwie prezentacji
danych
 Przyznanie dostępu do zasobów danych:
 Utworzenie kont w środowisku systemu bazy danych
 Przyznanie uprawnień użytkownikom
 Udostępnienie funkcjonalności:
 Dyslokacja oprogramowania użytkowego (komu jaka
apliakcja)
 Instalacja i konfiguracja oprogramowania dostępowego
do hurtowni na komputerach klienckich

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ETAP 10. – ODDANIE DO EKSPLOATACJI –
OPIS (2)

 Wdrożenie strategii zarządzania metadanymi


 Implementacja procedur administrowania bazą
danych hurtowni
 Opracowanie i wdrożenie strategii zarządzania
zmianami
 Wdrożenie procedur komunikacji użytkowników
hurtowni z jej administratorem oraz
kierownictwem
 Wdrożenie procedur help desku

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PODSUMOWANIE

 Znajomość cyklu życia hurtowni pozwala


zidentyfikować miejsca krytyczne, które wpływają
na poprawność realizacji przedsięwzięcia budowy
hurtowni
 W projektowaniu i implementacji hurtowni należy
zawsze pamiętać o celach biznesowych, a nie
technologicznych
 Miarą sukcesu projektu i wdrożenia hurtowni będą
wymierne korzyści biznesowe

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


„HURTOWNIE DANYCH I SYSTEMY
BUSINESS INTELLIGENCE” – CZ. 8

dr inż. Piotr Muryjas


Instytut Informatyki, Politechnika Lubelska
PARTNERZY:

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


MODELE DANYCH I TECHNOLOGIE

W HURTOWNIACH DANYCH:

OLAP, MOLAP, HOLAP

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


AGENDA

 Definicja pojęcia OLAP


 Specyfikacja przetwarzania OLAP
 Technologie OLAP (ROLAP, MOLAP, HOLAP)
 Analiza porównawcza ROLAP i MOLAP

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


SPECYFIKACJA PRZETWARZANIA OLAP
 Reguły Codda (4 kategorie):
 18 reguł podzielonych na cztery kategorie
 Cechy podstawowe
 Cechy specjalne
 Cechy raportowania
 Cechy kontroli wymiarów

 Reguła FASMI:
 Alternatywa dla reguł Codda, zdefiniowana w 1995
 Obejmuje 5 ogólnych zasad dotyczących wymagań
stawianych OLAP

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


REGUŁY CODDA – CECHY PODSTAWOWE
Wielowymiarowa koncepcja widoku danych

Intuicyjne manipulowanie danymi

Dostępność – OLAP jako pośrednik

Ekstrakcja kontra interpretacja

Model analizy OLAP

Architektura klient – serwer

Przeźroczystość

Obsługa wielu użytkowników

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


REGUŁY CODDA – CECHY SPECJALNE

Sposób traktowania danych


nieustrukturyzowanych

Separacja przechowywania rezultatów OLAP


i źródeł danych

Ekstrakcja nieistniejących wartości

Sposób traktowania nieistniejących wartości

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


REGUŁY CODDA – CECHY RAPORTOWANIA

Elastyczne raportowanie

Jednolitość generowania raportów

Automatyczne dostosowanie zawartości


raportów do poziomu fizycznego danych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


REGUŁY CODDA – CECHY KONTROLI WYMIARÓW

Ogólna wymiarowość

Nieograniczona wymiarowość oraz


stopień agregacji

Nieograniczone operacje tworzenia


krzyżowych przekrojów informacyjnych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


REGUŁY CODDA – CECHY PODSTAWOWE (1)

 Wielowymiarowa koncepcja widoku danych:


 Podstawowa cecha każdego przetwarzania
analitycznego
 Możliwość analizy danych z różnych punktów
widzenia (wymiarów)
 Dostępność mechanizmów, umożliwiających takie
operacje jak wycinanie, rzutowanie, selekcja,
obracanie, zwijanie, rozwijanie, itp.

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


REGUŁY CODDA – CECHY PODSTAWOWE (2)

 Intuicyjne manipulowanie danymi:


 Operacje na danych powinny odbywać się w sposób
zgodny ze sposobem myślenia użytkownika
 Posługiwanie się prostymi technikami,
umożliwiającymi wykonanie operacji analitycznego
przetwarzania (np. drag-and-drop)
 Stosowanie intuicyjnych mechanizmów
przeglądania i przetwarzania danych
wielowymiarowych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


REGUŁY CODDA – CECHY PODSTAWOWE (3)

 Dostępność: OLAP jako pośrednik:


 OLAP używany jako interfejs dostępu do źródeł
danych
 OLAP pozwala na dostęp do heterogenicznych źródeł
danych
 OLAP umożliwia pobieranie danych ze źródeł
nieustrukturyzowanych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


REGUŁY CODDA – CECHY PODSTAWOWE (4)

 Ekstrakcja kontra interpretacja:


 Dane analityczne można przedstawiać w różnej
ziarnistości
 Możliwa jest dowolna agregacja danych z
zapewnieniem możliwości dostępu do danych
szczegółowych
 Spośród danych zagregowanych można dokonywać
operacji wycinania wymiarów

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


REGUŁY CODDA – CECHY PODSTAWOWE (5)

 Model analizy OLAP:


 Zastosowanie statycznych raportów
parametrycznych
 Możliwość tworzenia dowolnych zapytań do
hurtowni danych (ad-hoc query)
 Wykonywanie analiz typu „What-If”
 Optymalizacja jedno- lub wielokryterialna

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


REGUŁY CODDA – CECHY PODSTAWOWE (6)

 Architektura klient – serwer:


 OLAP zapewnia mechanizmy dostępu do dowolnych
źródeł danych
 Implementacja narzędzi OLAP w wydzielonej
warstwie hurtowni danych (obszar pośredni),
umożliwiającej szybkie przetwarzanie danych
 Zastosowanie interfejsów dostępu do dowolnych
źródeł, a nie tylko relacyjnych (np. OLE DB zamiast
ODBC)

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


REGUŁY CODDA – CECHY PODSTAWOWE (7)

 Przeźroczystość:
 Zapewnienie swobodnego dostępu do danych (chcę
dane, mam dane)
 Dostęp do źródeł odbywa się w sposób przeźroczysty
tj. użytkownik nie musi wiedzieć skąd dane
pochodzą, tylko jakie potrzebuje dane
 Dostęp do danych odbywa się bez konieczności
procesów autoryzacji i autentykacji użytkownika

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


REGUŁY CODDA – CECHY PODSTAWOWE (8)

 Obsługa wielu użytkowników:


 OLAP zapewnie dostęp współbieżny wielu
użytkownikom
 Różne, konkurencyjne operacje OLAP mogą być
realizowane współbieżnie (np. pobieranie i
aktualizowanie danych w obszarze pośrednim)
 Dostępność mechanizmów równoległego
przetwarzania danych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


REGUŁY CODDA – CECHY SPECJALNE (1)

 Sposób traktowania danych


nieustrukturyzowanych:
 Dane nieustrukturyzowane muszą podlegać
szczególnej kontroli jakości
 Dane pochodzące ze źródeł nieustrukturyzowanych
nie mogą być modyfikowane w środowisku źródłowym
 Zasady obsługi synonimów, homonimów i analogii
(szczególnie istotne w tego rodzaju źródłach ze
względu na dużą różnorodność ich opisu)

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


REGUŁY CODDA – CECHY SPECJALNE (2)

 Przechowywanie danych analitycznych,


otrzymanych z OLAP, w schematach danych
izolowanych od źródeł danych:
 Narzędzia OLAP nie mogą wykonywać operacji
DML w systemach źródłowych, mogą tylko pobierać
dane
 Operacje analitycznego przetwarzania nie mogą być
wykonywane w systemach źródłowych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


REGUŁY CODDA – CECHY SPECJALNE (3)

 Ekstrakcja nieistniejących wartości:


 Konieczność rozróżnienia w procesie pobierania
danych tych wartości, które nie istnieją w źródłach
danych
 Sposoby uzupełniania wartości nieistniejących np.
nadanie wartości NULL, zero lub innej wyraźnie
wskazującej, że jest to wartość charakterystyczna
dla takiej sytuacji w systemie źródłowym

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


REGUŁY CODDA – CECHY SPECJALNE (4)

 Traktowanie nieistniejących wartości:


 Zasada powiązana z ekstrakcją wartości
nieistniejących
 Pomijanie w analizach tych wartości, które nie
istniały w źródłach danych (np. podczas liczenia
wartości średniej nie uwzględnia się brakujących
danych przy wyznaczaniu tej wartości)

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


REGUŁY CODDA – CECHY RAPORTOWANIA (1)

 Elastyczne raportowanie:
 Raporty powinny umożliwiać prezentację danych z
dowolnego punktu widzenia reprezentowanego przez
wymiar lub ich kombinację
 Raporty są formą nie tylko graficznej prezentacji
danych, ale łączą w sobie również elementy analiz
(np. prezentują rezultaty różnych wariantów
decyzyjnych)

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


REGUŁY CODDA – CECHY RAPORTOWANIA (2)

 Jednolitość generowania raportów:


 Infrastruktura techniczna zapewnia efektywne
tworzenia dowolnych raportów
 Liczba wymiarów i stopień konsolidacji danych nie
ma istotnego wpływu na efektywność procesu
tworzenia raportów
 Systemy raportowania oparte są na
wysokowydajnych komputerach oraz rozbudowanych
funkcjonalnie aplikacjach wizualizacji danych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


REGUŁY CODDA – CECHY RAPORTOWANIA (3)

 Automatyczne dostosowanie zawartości


raportów do fizycznego poziomu danych:
 Systemy OLAP posiadają wbudowaną inteligencję,
zapewniającą automatyczny dobór rodzaju i
zawartości raportów do w zależności od:
 Modelu danych
 Rozmiaru danych

 Gęstości danych

 Konieczność wbudowania w narzędzia OLAP


mechanizmów sztucznej inteligencji

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


REGUŁY CODDA – CECHY KONTROLI
WYMIARÓW (1)

 Ogólna wymiarowość:
 Dopuszcza się możliwość wykonywania dowolnych
operacji na każdym wymiarze (np. konwertowanie
wymiary typu „czas” do innej postaci)
 Standaryzacja operacji wykonywanych na
określonych wymiarach (ten sam sposób operowania
danymi określonego rodzaju, np. określanie
elementów daty)
 Duża kontrowersyjność implementacji tej zasady
wśród producentów narzędzi OLAP

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


REGUŁY CODDA – CECHY KONTROLI
WYMIARÓW (2)

 Nieograniczona wymiarowość i stopień agregacji:


 Dopuszczalne jest definiowanie dowolnej liczby
wymiarów opisujących fakty
 Analizy danych mogą odbywać się z na dowolnym
poziomie konsolidacji danych
 Nie istnieją bariery techniczne, które
uniemożliwiałyby wykonywanie złożonych obliczeń
matematycznych
 Propozycja Codd-a: maksymalnie 15 do 25
wymiarów i stopni konsolidacji danych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


REGUŁY CODDA – CECHY KONTROLI
WYMIARÓW (3)

 Nieograniczone operacje krzyżowe:


 Realizacja idei wykonywania analiz biznesowych o
dowolnym stopniu złożoności
 Zapewnienie możliwości tworzenia dowolnych
przekrojów informacyjnych z użyciem dowolnej
liczby wymiarów i operacji na wymiarach
 Realizacja koncepcji drążenia danych (data mining)

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ZASADA FASMI

FAST

ANALYSIS

SHARED

MULTIDIMENSIONAL

INFORMATION

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ZASADA FASMI – FAST

 Narzędzia OLAP powinny dostarczać rezultatów


analiz w bardzo krótkim czasie (rzędu sekund)
 Proste analizy powinny natychmiast dostarczać
wyników
 Analizy bardziej złożone – max 20 sekund (wg
specyfikacji tej zasady)
 Specyficzne zapytania analityczne, oparte na
dużej liczbie wymiarów mogą wykonywać się
dłużej, jednak czas rzędu minut jest
niedopuszczalny
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu
ZASADA FASMI – ANALYSIS

 OLAP pozwala na wykonywanie analiz


predefiniowanych oraz elastycznych, dostosowanych
do potrzeb biznesowych użytkownika hurtowni
 Przykładowe rodzaje specyficznych analiz:
 What-If
 Analizy ad-hoc
 Data mining
 Monitorowanie sytuacji nadzwyczajnych (tzw. alerty)

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ZASADA FASMI – SHARED

 Zapewnienie współbieżnego dostępu do danych


źródłowych i analitycznych oraz równoległego
przetwarzania danych
 Stosowanie mechanizmów blokowania tam, gdzie
jest to konieczne np. podczas zapisu danych w
bazie danych hurtowni
 Możliwość określenia polityki bezpieczeństwa w
zakresie udostępniania danych źródłowych oraz
analitycznych
 Organizacja dostępu do danych analitycznych
(forma i miejsce udostępniania danych)

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ZASADA FASMI – MULTIDIMENSIONAL

 Zapewnienie wielowymiarowego obrazu


przedsiębiorstwa
 Możliwość tworzenia rozbudowanych hierarchii
wymiarów (podziału wymiaru na mniejsze logiczne
jednostki np. roku na kwartały, kwartałów na
miesiące, itd.)
 Wykonywanie analiz z wykorzystaniem operacji
charakterystycznych dla danych wielowymiarowych
(obracanie, wycinanie, rzutowanie, rozwijanie i
zwijanie, itd.)

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ZASADA FASMI – INFORMATION

 Określenie sposobu przechowywania informacji


(centralna hurtownia, hurtownie tematyczne,
rodzaj architektury hurtowni danych)
 Zasady dotyczące archiwizacji danych i
wykonywania kopii zapasowych
 Określenie zapotrzebowania na pamięci masowe i
operacyjne
 Określenie wydajności hurtowni danych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


MOLAP – OGÓLNA CHARAKTERYSTYKA (1)
 Multidimesional Online Analytical Processing –
koncepcja analitycznego przetwarzania oparta na
serwerze wielowymiarowej bazy danych
 Dane gromadzone w takiej bazie posiadają
wielowymiarowy charakter
 Postać gromadzonej danej jest macierzą n-
wymiarową (n – liczba wymiarów opisujących fakt)
 Przykłady macierzy:
 Tablica (macierz 2-wymiarowych)
 Kostka (macierz 3-wymiarowych)
 Zbiór kostek (macierz n-wymiarowa)

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


MOLAP – PRZYKŁAD STRUKTURY DANYCH (1)

Kostka 3-wymiarowa

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


MOLAP – PŁASKA REPREZENTACJA KOSTKI 3W
Obszar (Wszystkie)

Suma Sprzedaż Okres


Produkty 2009 2010 2011
Artykuł 1 703 703 703
Artykuł 2 641 641 641
Artykuł 3 763 763 763
Artykuł 4 749 749 749

Okres (Wszystkie)

Suma Sprzedaż Rok


Produkty Ameryka Płd. Ameryka Płn. Azja Europa
Artykuł 1 306 897 606 300
Artykuł 2 270 609 645 399
Artykuł 3 333 906 597 453
Artykuł 4 300 867 564 516

Kostka 3-wymiarowa

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


MOLAP – PRZYKŁAD STRUKTURY DANYCH (2)

Kostka 4-wymiarowa

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


MOLAP – STRUKTURY DANYCH – HYPERCUBE

 Odwzorowanie rzeczywistości w postaci pojedynczej


n-wymiarowej kostki
 Dane mogą być wprowadzone do każdej kombinacji
wymiarów
 Każda część przestrzeni jest określona przez te
same wymiary
 Wymiary nie muszą posiadać równych rozmiarów
 Baza danych oparta na hypercube wymaga dużych
zasobów pamięci do gromadzenia i przetwarzania
danych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


MOLAP – STRUKTURY DANYCH – HYPERCUBE

http://www.clearthought.info/math/hypercube/hypercube.html

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


MOLAP – STRUKTURY DANYCH – HYPERCUBE

4-wymiarowa hiperkostka

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


MOLAP – STRUKTURY DANYCH – HYPERCUBE

5-wymiarowa hiperkostka

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


MOLAP – STRUKTURY DANYCH – HYPERCUBE

6-wymiarowa hiperkostka

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


MOLAP – STRUKTURY DANYCH – HYPERCUBE

9-wymiarowa hiperkostka
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu
MOLAP – STRUKTURY DANYCH – HYPERCUBE

12-wymiarowa hiperkostka
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu
MOLAP – STRUKTURY DANYCH – MULTICUBE

 Powstaje w wyniku rozbicia bazy danych na wiele


mniejszych, wielowymiarowych struktur danych
(podzbiorów)
 Struktura składa się z kostek, które w sposób
bardziej naturalny (niż hypercube) opisują
rzeczywistość (większa uniwersalność takiej
kostki)
 W praktyce struktura multicube składa się z
wielu logicznych, wielowymiarowych sześcianów

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


MOLAP – MULTICUBE VS HYPERCUBE
 W hypercube dany wymiar należy dokładnie do
jednej kostki
 W multicube ten sam wymiar może występować
w wielu kostkach
 Rozmiar kostki w multicube jest mniejszy od
rozmiaru kostki w hypercube
 Ograniczenie eksplozji danych w multicube
 Wysoka wydajność przetwarzania dla multicube,
szczególnie dla danych rzadkich

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


MOLAP – HYPECUBE VS MULTICUBE

Hypercube Multicube

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


AGREGATY W MDDB

 Agregat podstawowy – kostka oparta na wszystkich


zmiennych kategoryzujących (polach zawierających
dane do grupowania)
 Agregaty dodatkowe (częściowe):
 Dane częściowo zagregowane
 Dane silnie zagregowane
 Agregaty generowane na żądanie

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


AGREGATY W MDDB – SCHEMAT LOKALIZACJI

Agregat
dodatkowy

Agregat
podstawowy

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ROZMIAR AGREGATÓW W MOLAP – SCHEMAT

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


AGREGATY W MDDB – PRZYKŁAD

Konsolidacja w
pojedynczym wierszu

Konsolidacja dla
wszystkich wierszy

Konsolidacja dla
ostatniego wiersza

Konsolidacja dla
ostatniej kolumny
Pendse Nigel. Database explosion.
http://www.olapreport.com

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu
AGREGATY W MDDB – UWAGI (1)

 Agregat podstawowy zawiera dane, które z punktu


widzenia wielowymiarowej bazy danych są danymi
atomowymi
 Struktura agregatu dodatkowego zależy od
informacyjnych potrzeb biznesowych
 Agregaty dodatkowe powstają w wyniku operacji
przetwarzania agregatów podstawowych na etapie
tworzenia bazy danych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


AGREGATY W MDDB – UWAGI (2)

 W MDDB należy przechowywać agregaty danych:


 Których generowanie w czasie rzeczywistym zajmuje
zbyt dużo czasu
 Które są często pobierane z bazy
 Które stanowią podstawę wyznaczania wartości
agregatów dodatkowych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


AGREGATY W MDDB – UWAGI (3)

 Pełną agregację danych przeprowadza się, jeśli:


 Operacje matematyczne wyznaczania agregatów są
proste i pamięć masowa jest bardzo duża
 Liczba wymiarów jest mniejsza od 5
 Zachodzi konieczność obliczeń, w których występują
zależności pomiędzy poszczególnymi agregatami
 Wymagane są obliczenia kompleksowe (globalne
podsumowania)
 Konieczne jest wykonywanie dowolnych agregacji,
wymaganych przez użytkownika biznesowego

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ZAPYTANIA W MDDB
 Zapytania trafiają do agregatów podstawowych; jeśli
nie mogą być tutaj wykonane – do agregatów
dodatkowych strukturze zgodnej lub zbliżonej; jeśli
także tutaj nie istnieją odpowiednie dane, wówczas
wykonywane są obliczenia na agregatach
podstawowych
 Czas wykonania zapytania zależy od tego, czy
istnieje agregat o strukturze zgodnej lub zbliżonej do
struktury zapytania
 Skrócenie czasu wykonania zapytania prowadzi do
eksplozji danych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ROZMIAR DANYCH A CZAS WYKONANIA
ZAPYTANIA

Krótki czas wykonania zapytania, Dłuższy czas wykonania zapytania,


duża zajętość pamięci masowej mniejsza zajętość pamięci masowej

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


OPTIMUM STOPNIA AGREGACJI

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


HIERARCHIA WYMIARÓW
 Pojęcie ściśle związane z agregatem
 Określa sposób grupowania zmiennych
kategoryzujących (kategorii) w ramach
poszczególnych wymiarów
 Hierarchia może być rozbudowana poziomo (liczba
wartości kategorii) oraz pionowo (liczba kategorii)
 Rodzaje hierarchii:
 Bezpośrednie (proste) – poziom niższy należy tylko do
jednego, bezpośredniego poziomu nadrzędnego
 Pośrednie (złożone) – poziom niższy może należeć do
wielu poziomów nadrzędnych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


HIERARCHIA PROSTA WYMIARÓW –
PRZYKŁAD (1)

Wymiar: Okres
I kategoria: Kwartał
II kategoria: Miesiąc
III kategoria: Dzień

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


HIERARCHIA PROSTA WYMIARÓW –
PRZYKŁAD (2)

Europa

Polska … Niemcy

Lublin … Kraków Berlin … Drezno

Wymiar: Obszar
I kategoria: Państwo
II kategoria: Miasto

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


HIERARCHIA ZŁOŻONA WYMIARÓW – PRZYKŁAD

Wymiar: Czas
Kategorie nadrzędne: Kwartał, Tydzień
Kategoria podrzędna Dzień należy do dwóch kategorii nadrzędnych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


EKSPLOZJA DANYCH
 Zjawisko narastania ilości danych wskutek
wzrostu liczby wymiarów oraz wzrostu złożoności
hierarchii wymiarów
 Dodatkowe czynniki wpływające na wzrost ilości
danych:
 Gęstość danych (większa gęstość w agregatach –
większy rozmiar bazy)
 Niski stopień konsolidacji (im dane bardziej
zagregowane, tym większy stopień konsolidacji, tym
mniej miejsca zajmują w bazie danych)
 Niska kompresja danych
 Błędy aplikacji

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


EKSPLOZJA DANYCH – WSPÓŁCZYNNIKI
 Gęstość danych – ilość danych istniejących w bazie
do ogólnej ilości, jaka może ogólnie wystąpić, np.:
 wymiar Czas, liczba wszystkich kategorii w ramach
poziomu Kwartał – 4, liczba kategorii na tym poziomie,
dla których istnieją dane – 3, gęstość danych na tym
poziomie = 75%
 Współczynnik wzrostu (GF) – określa ile razy
rozmiar danych analitycznych będzie większy od
danych atomowych
 Wartość współczynnika GF jest równa 2n, gdzie n
jest liczba wymiarów

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


EKSPLOZJA DANYCH – GĘSTOŚĆ DANYCH
Klienci

Produkty

Pendse Nigel. Database explosion.


http://www.olapreport.com

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


WSPÓŁCZYNNIK WZROSTU – FORMUŁA
 Wartość współczynnika GF jest równa 2n, gdzie n
jest liczba wymiarów
 Wg Nigela Pendse, wzrost ilości danych
przedstawia się następująco:
Liczba CGF GF
wymiarów
5 2 32

6 2,1 85,8

7 2,2 249,4

8 2,3 783.1

9 2,4 2641.8

Nigel Pendse, Database explosion,


OLAP Report 2000

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


WSPÓŁCZYNNIK WZROSTU A LICZBA WYMIARÓW

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ZŁOŻONY WSPÓŁCZYNNIK WZROSTU A GĘSTOŚĆ
DANYCH

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


WPŁYW POZIOMU KONSOLIDACJI NA
GĘSTOŚĆ DANYCH

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


JAK UNIKNĄĆ EKSPLOZJI DANYCH?

 Rezygnacja z pełnych agregacji


 Wykonywanie agregacji „w locie” (dodatkowe
korzyści to informacje statystyczne o danych tak
przetwarzanych)
 Eliminowanie zjawiska „rzadkich danych”
 Ograniczenie liczby pojedynczych wymiarów np.
przez połączenie kilku w jeden złożony
 Ograniczenie hierarchii wymiarów (pionowej)

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ROLAP – OGÓLNA CHARAKTERYSTYKA (1)
 ROLAP – Relational Online Analytical Processing
 Najpopularniejszy sposób analitycznego
przetwarzania we współczesnych hurtowniach
danych
 Wykorzystanie serwera relacyjnej bazy danych jako
miejsca wdrożenia schematu docelowego (bazy
eksploatacyjnej)
 W przeszłości ROLAP nie był efektywnym sposobem
implementacji OLAP (wysoka cena środowiska,
niska efektywność analiz)

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ROLAP – OGÓLNA CHARAKTERYSTYKA (2)
 Obecnie ROLAP jest dominującą techniką OLAP ze
względu na rozwój relacyjnych baz danych,
w których :
 Wprowadzono możliwość wielowymiarowej analizy
danych
 Zaimplementowano techniki dostępu do dużych zbiorów
danych
 Zaimplementowano wydajne algorytmy przetwarzania
analitycznego
 Wprowadzono do języka SQL możliwości wykonywania
operacji analitycznych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


RODZAJE TABEL W ROLAP
 Tabela faktu:
 Opis zdarzenia, opisującego pewien fakt biznesowy np.
sprzedaż, rezerwacja, udzielenie kredytu
 Posiadają dużo rekordów i małą liczbę pól
 Tabele wymiarów:
 Opis sposobu patrzenia na zdarzenie (fakt) z
określonego punktu widzenia np. czasu zdarzenia,
miejsca, uczestnika
 Posiadają mało rekordów i dużą liczbę pól
 Tabele relacji – pomocnicze asocjacyjne tabele
faktów

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


TOPOLOGIE STRUKTUR DANYCH W ROLAP

Struktura gwiazdy (star


schema)

Struktura konstelacji
(constelation schema)

Struktura płatka śniegu


(snowflake schema)
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu
MODEL GWIAZDY – CHARAKTERYSTYKA (1)
 Najprostsza struktura relacyjnej bazy danych w
hurtowni
 Struktura zawiera:
 Jedną centralną tabelę faktów
 Wiele tabel wymiarów, opisujących fakty (każdy
wymiar to jedna tabela)
 Tabela faktów zawiera dane szczegółowe oraz
zagregowane
 Tabele wymiarów są silnie zdenormalizowane
(redundancja danych)

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


MODEL GWIAZDY – CHARAKTERYSTYKA (2)
 Klucz główny tabeli faktów jest kluczem
złożonym z kluczy obcych, odwołujących się do
kluczy głównych tabel wymiarów
 Tabele wymiarów mogą także zawierać klucz
obcy, odwołujący się do klucza głównego
zewnętrznej tabeli wymiarów
 Przykład:
 Tabela faktów: Sprzedaż
 Tabele wymiarów: Okres, Rynek, Produkt

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


MODEL GWIAZDY – ZALETY

 Krótki czas odpowiedzi na zapytania przy


niewielkiej liczbie wymiarów
 Prosta struktura bazy danych, umożliwiająca
elastyczne tworzenie zapytań
 Intuicyjny schemat struktur danych,
odpowiadający sposobowi myślenia użytkownika
 Prosta struktura metadanych, zrozumiała dla
projektantów i użytkowników
 Duża liczba narzędzi OLAP, umożliwiających
dostęp i analizę danych w tym schemacie

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


MODEL GWIAZDY – WADY

 Niska wydajność zapytań, wykonujących złożone


agregacje, oparte na wielu wymiarach
 Duże rozmiary tabel faktów dla rozbudowanych
hierarchii wymiarów
 Im większa liczba zewnętrznych tabel wymiarów,
tym model gwiazdy coraz bardziej przypomina
znormalizowaną bazę danych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


MODEL GWIAZDY (1)

Prosty schemat gwiazdy - model

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


MODEL GWIAZDY (2)

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


MODEL GWIAZDY (3)

Prosty schemat gwiazdy

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


MODEL GWIAZDY (4)

Schemat gwiazdy z hierarchią wymiaru Okres

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


MODEL GWIAZDY (5)

Schemat gwiazdy z zewnętrznymi tabelami


wymiarów

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


MODEL KONSTELACJI – CHARAKTERYSTYKA

 Odmiana topologii gwiazdy


 Posiada dodatkowe tabele faktów, umożliwiające
powiązanie ze sobą innych faktów lub opisujące
fakty dla poszczególnych hierarchii wymiarów
(np. fakty dla roku, fakty dla kwartału, itd.)
 Dodatkowe tabele faktów mogą pełnić rolę tabel
asocjacyjnych (model relacji wiele-do-wielu)

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


MODEL KONSTELACJI – ZALETY I WADY
 Zalety:
 Zwiększenie wydajności dostępu do bazy danych (są
mniejsze od tabeli centralnej)
 Skrócenie czasu wykonania zapytań (napełnieniu tabel
na różnych poziomach hierarchii nie jest konieczna
ponowna agregacja tych danych)
 Uproszczenie struktury centralnej tabeli faktów
(eliminacja pól wskaźnikowych dla poziomów hierarchii)
 Wady:
 Większa złożoność struktury przy dużej ilości hierarchii
wymiarów
 Większa ilość metadanych, dostarczanych do aplikacji
OLAP
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu
MODEL KONSTELACJI (1)

Schemat konstelacji z dodatkowymi tabelami faktów


z danymi częściowo zagregowanymi

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


MODEL KONSTELACJI (2)

Schemat konstelacji z dodatkową tabelą faktów


z danymi z okresu poprzedniego

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


MODEL KONSTELACJI Z TABELĄ ASOCJACYJNĄ

Schemat gwiazdy z asocjacyjną tabelą faktów

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


MODEL WIELOGWIAŹDZISTY –
CHARAKTERYSTYKA

 Stosowany w sytuacji, kiedy kombinacja kluczy


obcych w tabeli faktów nie pozwala jednoznacznie
zidentyfikować danego faktu
 Konieczność posługiwania się dodatkowymi
atrybutami, które jako element klucza tabeli
faktów, pozwolą precyzyjnie opisać fakt
 Przykład:
 Fakt – transakcja sprzedaży
 Dodatkowe atrybuty (klucze): Data, Rachunek_Num,
Rachunek_nr_seryjny

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


MODEL WIELOGWIAŹDZISTY

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


MODEL WIELOGWIAŹDZISTY

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


MODEL PŁATKA ŚNIEGU – CHARAKTERYSTYKA

 Najbardziej rozbudowana topologia bazy danych


hurtowni
 Tabele wszystkich wymiarów mają postać
znormalizowaną (3NF)
 Tabele faktów zachowują swoją strukturę tj.
złożone klucze obce, odwołujące się do kluczy
głównych tabel wymiarów

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


MODEL PŁATKA ŚNIEGU – ZALETY I WADY
 Zalety:
 Bardzo elastyczna struktura danych, pozwalająca realizować
najbardziej złożone zapytania (szczególnie ad-hoc
 Przejrzysta implementacja złożonych hierarchii wymiarów
 Wady:
 Eksplozja liczby tabel bazy danych
 Wydłużenie czasu wykonania złożonych zapytań
 Topologia niemal zbliżona do w pełni znormalizowanych
relacyjnych baz danych
 Skomplikowana struktura, utrudniająca jej analizę
projektantom hurtowni

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


MODEL PŁATKA ŚNIEGU

Struktura prostego płatka śniegu

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ROLAP – INNE PRZYKŁADY IMPLEMENTACJI (1)

Poe V., Klauer P., Brobst S.: Tworzenie hurtowni


danych. WNT, Warszawa 2000

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ROLAP – INNE PRZYKŁADY IMPLEMENTACJI (2)

Poe V., Klauer P., Brobst S.: Tworzenie hurtowni


danych. WNT, Warszawa 2000

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ROLAP – INNE PRZYKŁADY IMPLEMENTACJI (3)

Poe V., Klauer P., Brobst S.: Tworzenie hurtowni


danych. WNT, Warszawa 2000

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ROLAP – INNE PRZYKŁADY IMPLEMENTACJI (4)

Poe V., Klauer P., Brobst S.: Tworzenie hurtowni danych.


WNT, Warszawa 2000

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PORÓWNANIE MOLAP I ROLAP
 Kryteria porównawcze:
 Konsolidacja danych
 Wydajność serwera OLAP
 Wykonywanie zapytań
 Liczba wymiarów
 Rozmiar danych atomowych
 Ulotność danych (stopień zmienności danych)
 Skalowalność hurtowni

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


KONSOLIDACJA DANYCH – OPIS

 Konsolidacja danych jest procesem, który prowadzi


do otrzymania danych analitycznych
 W modelu MOLAP proces ten jest obowiązkowo
realizowany podczas ładowania danych do
hurtowni (podczas eksploatacji rzadko wykonuje
się konsolidację)
 W modelu ROLAP konsolidację wykonuje się na
etapie ładowania (wstępna konsolidacja) lub
podczas wykonywania zapytań

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


POZIOMY KONSOLIDACJI DANYCH
 0 – 15 % – niska konsolidacja, mała liczba
agregatów lub ich brak w bazie danych; jej skutkiem
jest niskie zapotrzebowanie na moc obliczeniową w
fazie ładowania oraz wysokie w trakcie realizacji
zapytań
 15 – 85% – średnia konsolidacja, prowadzi do
powstania najczęściej używanych agregatów; dane
agregatów są rzadkie (nie wszystkie agregaty są
przechowywane);
 85 – 100% – wysoka konsolidacja, ze wszystkimi
wymaganymi agregatami (indeksami);

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


KONSOLIDACJA W MOLAP I ROLAP
 Konsolidacja niska:
 charakterystyczna dla prostego schematu gwiazdy
 Stosowana przy stosunkowo małej wielkości pamięci
masowej
 Konsolidacja średnia używana jest:
 W strukturze gwiazdy, płatka śniegu lub konstelacji
 Jeśli wymagane jest szybsze wykonywanie zapytań
 Konsolidacja wysoka:
 stosowana jest w MOLAP lub ROLAP (pełna indeksacja
struktury płatka śniegu)
 Zapewnia bardzo szybkie wykonywanie zapytań
 Prowadzi do znacznego wzrostu wielkości bazy danych
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu
WPŁYW KONSOLIDACJI DANYCH NA OPERACJE
W HURTOWNI DANYCH

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


KONSOLIDACJA DANYCH – OBSZAR ROBOCZY

Cb – optimum dla ładowania i agregacji Cq – optimum wykonywania zapytań

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


WYDAJNOŚĆ SERWERA

 ROLAP – serwer analityczny musi mieć dużą moc


obliczeniową, aby umożliwić wykonywanie
złożonych agregacji, przeliczeń w przypadku
dużej ulotności dany oraz wykonywanie zapytań
ad-hoc
 MOLAP – serwer nie musi posiadać dużej mocy
obliczeniowej, gdyż większość agregatów została
utworzona na etapie ładowania danych do
hurtowni, a ulotność danych jest niska

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


WYKONYWANIE ZAPYTAŃ
 W ROLAP wykonywanie zapytań często wymaga
kalkulacji danych analitycznych
 ROLAP pozwala bardzo elastycznie definiować
zapytania, jednak kosztem czasu ich wykonania
 W MOLAP wydajność wykonywania zapytań jest
wysoka ze względu na obecność uprzednio
przygotowanych agregatów
 Dodatkowo w MOLAP wysoki stopień konsolidacji
danych, na poziomie 80%, pozwala uzyskać bardzo
krótkie czasy odpowiedzi

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


LICZBA WYMIARÓW
 W ROLAP liczba wymiarów oraz poziomów w
hierarchii wymiarów może być praktycznie
nieograniczona
 MOLAP pozwala na obsługę ograniczonej liczby
wymiarów oraz poziomów wymiarów (kategorii)
 W ROLAP wzrost liczba wymiarów w połączeniu ze
wzrostem współczynnika konsolidacji wpływa na
zwiększone zapotrzebowanie na moc obliczeniową
 Architektura MOLAP, przy bardzo dużej ilość
wymiarów, powoduje olbrzymie zapotrzebowanie na
moc obliczeniową w fazie ładowania i agregacji

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


LICZBA WYMIARÓW – PRZYKŁAD 1

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


LICZBA WYMIARÓW – PRZYKŁAD 2

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


LICZBA WYMIARÓW – PRZYKŁAD 3

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ROZMIAR DANYCH ATOMOWYCH

 ROLAP pozwala na analizę danych od najniższego


poziomu (transakcyjnego) do poziomu uogólnionego
 MOLAP może korzystać z ograniczonej liczby
źródeł i danych transakcyjnych
 MOLAP gwarantuje efektywne gromadzenie,
dostęp i analizę danych do 50GB
 ROLAP może gromadzić i analizować dane
wielkości TB (~10 TB)

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ULOTNOŚĆ DANYCH
 Ulotność danych – stopień zmian struktur danych
oraz danych
 Dla niskiego stopnia ulotności można stosować
zarówno ROLAP jak i MOLAP
 Dla wysokiego stopnia ulotności należy stosować
ROLAP (przeliczanie agregatów w MOLAP zajmuje
zbyt dużo czasu i wymaga dużej mocy obliczeniowej)
 Wzrost stopnia ulotności oraz wysoki stopnień
konsolidacji danych jeszcze bardziej przemawia za
stosowaniem ROLAP

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ULOTNOŚĆ DANYCH – PRZYKŁAD 1

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ULOTNOŚĆ DANYCH – PRZYKŁAD 2

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


SKALOWALNOŚĆ HURTOWNI
 Wg M.Gorawskiego, jest to zdolność hurtowni do:
 rozwoju i zwiększania liczby wymiarów
 zwiększania liczby atrybutów
 zwiększania liczby kategorii
 zwiększania liczby dany atomowych
bez konieczności wprowadzania zmian w systemie
raportowania
 Skalowalność określa zdolność adaptacji hurtowni
do rozwoju przedsiębiorstwa i nowych wymagań
informacyjny

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


MIARY SKALOWALNOŚCI

 Głębokość danych – liczba poziomów danych


zagregowanych
 Szerokość danych – możliwość dostępu do danych z
uwzględnieniem liczby wymiarów i atrybutów,
które będą dostępne w analizie
 Atomowość danych – szczegółowość (ziarnistość)
danych (od danych transakcyjnych do danych
uogólnionych)

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


OLAP – CO WYBRAĆ???

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


OLAP – CO WYBRAĆ? ROLAP CZY MOLAP

 Wybierz ROLAP, jeśli:


 Procesy analityczne dotyczą dużych ilości danych
 Zachodzi potrzeba dostępu do danych szczegółowych
 Czas wykonania zapytania nie jest czynnikiem
krytycznym
 Wymagane są zapytania (raporty) ad-hoc
 Jeśli posiadasz hurtownie danych, w której
zaimplementowano modele danych ROLAP

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


OLAP – CO WYBRAĆ? ROLAP CZY MOLAP

 Wybierz ROLAP, jeśli:


 Jeśli architektura hurtowni ma obejmować hurtownię
centralną oraz hurtownie tematyczne
 Przewiduje się rozbudowę hurtowni danych (nowe
struktury danych, wzrost ilości danych)
 Rozbudowa struktur danych będzie znaczna
 Hurtownia danych ma być skalowalna (użyteczna
zarówno przy „małej” jak i dużej ilości danych
 Istotna jest duża elastyczność zmian modelu danych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


OLAP – CO WYBRAĆ? ROLAP CZY MOLAP

 Wybierz MOLAP, jeśli:


 Jeśli ilość przetwarzanych danych nie jest duża (max.
50GB)
 Wymagany jest krótki czas odpowiedzi na zapytania
 Liczba wymiarów nie jest zbyt duża (max. 10-15)
 Nie przewiduje się zmiany liczby wymiarów
 Raportowanie opiera się na predefiniowanych raportach
(brak zapytań ad-hoc)

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


OLAP – CO WYBRAĆ? ROLAP CZY MOLAP

 Wybierz MOLAP, jeśli:


 System DSS, wykorzystujący MOLAP posiada
funkcjonalność symulowania procesów biznesowych i
zapisu wariantów decyzyjnych
 Będzie on implementowany w niewielkich DSS,
wspierających decyzje biznesowe, w oparciu o małe
hurtownie
 Przedsiębiorstwo nie posiada administratora
wielowymiarowej bazy danych (wymagana
specjalistyczna wiedza)

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


OLAP – CO WYBRAĆ DLA BIZNESU?

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


HOLAP – OGÓLNA CHARAKTERYSTYKA
 OLAP hybrydowy – połączenie ROLAP i MOLAP
 Synergia korzyści, jakie oferują technologie
składowe
 Wykorzystanie heterogenicznych źródeł danych
tj. relacyjnych oraz wielowymiarowych kostek
 Implementowany w warstwie pośredniczącej
między aplikacjami analitycznymi a relacyjną
bazą danych (transformacja danych relacyjnych
na widoki wielowymiarowe oraz
wielowymiarowych zapytać na ich relacyjną
postać

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


HOLAP – IDEA

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


HOLAP – ZALETY

 Intuicyjna analiza danych ze względu na


podobieństwo sposobu przechowywania danych
do sposobu myślenia o danych
 Dane przechowywane w postaci zagregowanej,
zapewniającej skrócenie czasu dostępu do ich
 Możliwość tworzenia i przechowywania
wielowymiarowych kostek o dowolnym stopniu
złożoności (realizacja zasad Codd-a dot. Cech
kontroli wymiarów)

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PODSUMOWANIE

 Wybór architektury gromadzenia i przetwarzania


danych uzależniony jest od wielu czynników
biznesowy oraz technologicznych
 Właściwy dobór modelu przetwarzania pozwala
efektywnie wykorzystać hurtownie danych w
fazie jej eksploatacji
 Przy wyborze rodzaju OLAP należy wziąć pod
uwagę bieżące uwarunkowania oraz potencjalny
rozwój przedsiębiorstwa

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


„HURTOWNIE DANYCH I SYSTEMY
BUSINESS INTELLIGENCE” – CZ. 9

dr inż. Piotr Muryjas


Instytut Informatyki, Politechnika Lubelska
PARTNERZY:

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ETL:

Ekstrakacja i integracja danych


Konwersja danych
Agregacje
Ładowanie danych do bazy

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


AGENDA

 Czym jest ETL?


 Znaczenie ETL w cyklu życiu hurtowni

 Jakie procesy składają się na ETL?

 Szczegółowa prezentacja poszczególnych


procesów
 A może ETL?

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


CZYM JEST ETL?

 ETL to zbiór działań, które prowadzą do:


 pobrania danych z systemów źródłowych (Extraction)
 przekształcenia ich do postaci wymaganej w hurtowni
(Transformation)
 załadowania ich do bazy danych hurtowni (Loading)

 ETL jest działaniem złożonym i trudnym ze


względu na szeroki zakres różnych aspektów,
które należy uwzględnić
 ETL to wstępny sposób zamiany danych w
informacje
 ETL to wyraz dynamiki (życia) hurtowni danych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ZNACZENIE ETL W CYKLU ŻYCIA HURTOWNI

 ETL jest odpowiedzialne za cykliczne zasilanie


nowymi danymi bazy danych hurtowni
 ETL odpowiada za:
 Kompletność danych
 Czystość danych
 Poprawność dany
 Właściwe agregacje
 Właściwe miejsce składowania agregatów
 Jakość procesów ETL wpływa na jakość danych
przechowywanych w bazie danych hurtowni, tym
samym na skutki podjętych decyzji biznesowych
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu
MIEJSCE ETL W ARCHITEKTURZE
FUNKCJONALNEJ

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


JAK SIĘ PRZYGOTOWAĆ DO WYKONANIA ETL?

 Rozpoznanie wymagań biznesowych stawianych


hurtowni danych
 Wybór architektury hurtowni danych

 Wstępne rozpoznanie źródeł danych w


przedsiębiorstwie oraz jego otoczeniu
 Traktowanie ETL jako odrębnego zadania
projektowe
 Zdefiniować środowisko pracy uczestników
zadania ETL (narzędzia), terminologię oraz
nazewnictwo

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


JAK SIĘ PRZYGOTOWAĆ DO WYKONANIA ETL?

 Uczestnicy procesów ETL – ludzie biznesu i


informatycy
 Zespoły zadaniowe:
 projekt struktury hurtowni (model logiczny)
 analiza danych źródłowych i miejsca ich składowania
 logika konwersji danych
 budowa i wykonanie procedur konwersji
 zapewnienie jakości danych
 Zrozumienie wymagań związanych z konwersją i
przepływami danych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


SCHEMAT ETL

Transformacja

Ładowanie
Ekstrakcja

Integracja

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PROJEKT ZASILANIA HURTOWNI DANYCH
Plan konwersji danych operacyjnych

Definicja specyfikacji konwersji

Ekstrakcja danych operacyjnych

Konwersja (konsolidacja) danych do postaci danych


ładowanych

Transformacja (agregacja) danych

Ładowanie i indeksowanie danych

Zapewnienie jakości danych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PLAN KONWERSJI DANYCH

 Określa najlepszy sposób migracji danych do


hurtowni
 Uwzględnia:
 Dostępne zasoby danych
 Liczność danych
 Liczbę różnych schematów danych
 Metody i platformy dostępu
 Języki ekstrakcji danych
 Strukturę danych w hurtowni
 Liczbę wymaganych agregacji

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


SPECYFIKACJA (MAPA) KONWERSJI DANYCH

 Określa sposób przypisania danych źródłowych


do danych w hurtowni (dane, logika) – precyzyjna
identyfikacja miejsca i sposobu składowania
danych źródłowych
 Wskazuje inne zewnętrzne źródła informacji

 Opisuje procesy:
 Ekstrakcji danych do postaci schematu pośredniego
 Konwersji schematu pośredniego
 Agregacji danych
 Migracji danych do baz danych hurtowni
 Walidacji danych
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu
EKSTRAKCJA DANYCH
 Proces fizycznego dotarcia do danych źródłowych,
pobrania ich i ulokowania w schemacie pośrednim
 Zachodzi w środowisku systemów transakcyjnych
lub w otoczeniu przedsiębiorstwa
 Wykorzystuje różne metody dostępu do danych na
poziomie:
 Systemów operacyjnych (dostęp do komputera)
 Systemu zarządzania bazą danych (dostęp do bazy
danych)
 Logicznym gromadzenia danych (np. dostęp do tabel)

 Konieczne procedury identyfikacji „starych” i


„nowych” danych operacyjnych
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu
RODZAJE EKSTRAKCJI

Logiczne Fizyczne
•Pełna •Online
•Przyrostowa •Offline

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


LOGICZNE RODZAJE EKSTRAKCJI
 Określają zakres wybieranych danych
 Ekstrakcja pełna:
 Wszystkie wymagane dane, dostępne aktualnie w systemie
źródłowym, są pobierane za każdym razem
 Nie istnieje potrzeba identyfikacji czasowej danych w
odniesieniu do uprzednio wykonywanych ekstrakcji
 Ekstrakcja przyrostowa:
 Dotyczy tylko tych danych, które zmieniły się od ostatniej
ekstrakcji lub które wówczas nie istniały
 Konieczność identyfikacji faktu zmiany (dodatkowe pola tabel
w źródłach, dziennik transakcji, metadane źródłowe)
 Realizowana alternatywnie jako ekstrakcja pełna w
odniesieniu do danych źródłowych i porównanie z danymi w
obszarze pośrednim

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


FIZYCZNE RODZAJE EKSTRAKCJI

 Określają miejsce wybierania danych


 Ekstrakcja online:
 Realizowana bezpośrednio na źródle, w którym
przechowywane są dane np. tabelach
 Wykorzystuje predefiniowane sposoby dostępu do
danych (logowanie, prawa dostępu)
 Ekstrakcja offline:
 Wykonywana w miejscu, w którym aktualne dane nie
znajdują się bezpośrednio np. pliki dziennika
transakcji, pliki archiwalne, kopie zapasowe, pliki
płaskie exportu danych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PROBLEMY EKSTRAKCJI DANYCH
 Lokalizacja (zmienna lokalizacja, szczególnie dla
źródeł zewnętrznych)
 Dostępność (bezpłatne, płatne, czy istnieją?)

 Heterogeniczność źródeł danych (różny charakter


źródeł danych np. baza danych, plik płaski lub
bazy danych różnych producentów
 Różnorodność schematów danych, nawet w
źródłach homogenicznych (model hierarchiczny,
relacyjny, relacyjno-obiektowy)
 Różnorodność formatów danych (np. formaty
walutowe, dokładność)

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


KONSOLIDACJA DANYCH
 Jest to proces analizowania i łączenia danych z
różnych źródeł w postać wymaganą w hurtowni
danych
 Polega na:
 Identyfikacji wzorców danych i liczby pól
 Określeniu kontekstu i przeznaczenia danych (czyszczenie
danych)
 Korekcji danych w oparciu o listy
 Eliminacji nadmiarowych danych
 Rezultat konsolidacji:
 dane o wymaganym poziomie granulacji
 dane dla tabel wymiarów i tabel faktów
 klucze główne i obce do wybierania danych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


TWORZENIE WYMIARÓW
 Identyfikacja i tworzenie wymiarów statycznych:
 Niezmienność liczby poziomów hierarchii wymiaru
 Niezmienność wartości kategorii na poszczególnych
poziomach
 Przykład: wymiar Czas, stała liczba kwartałów, stała
liczba miesięcy, stała liczba dni w poszczególnych
miesiącach
 Identyfikacja i tworzenie wymiarów zmiennych:
 Zmienność hierarchii wymiaru
 Liczba poziomów i wartości będzie zależeć od
wymagań informacyjnych biznesu
 Przykład: wymiar Wiek, zmienna ilość przedziału
wiekowego
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu
TWORZENIE KLUCZY GŁÓWNYCH I OBCYCH
W HURTOWNI DANYCH

Źródło: docs.oracle.com

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


TWORZENIE KLUCZY GŁÓWNYCH I OBCYCH
W HURTOWNI DANYCH – PRZYKŁAD

Postać znormalizowana Postać zdenormalizowana

Źródło: http://etlguru.com/blog/?p=14

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PROBLEMY KONSOLIDACJI DANYCH

 Pokrywanie się źródeł danych (te same dane w


różnych miejscach)
 Zasady ujednolicania danych

 Zależności między źródłami danych (synonimy,


homonimy oraz analogie)
 Identyfikację źródeł, które zawierają dane o
wysokiej ulotności
 Reguły rządzące danymi (szczegółowa
identyfikacja znaczenia tych samych danych, ale
gromadzonych w kontekście różnych tematów)

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


TRANSFORMACJA DANYCH
 Jest to proces wyznaczenia wartości, które zostaną
wstawione do bazy danych hurtowni
 Obliczanie wartości dotyczy kategorii w ramach
poziomów poszczególnych wymiarów (np. obliczenie
roku, kwartału, miesiąca na podstawie daty
sprzedaży)
 Agregacje według różnych wymiarów i dla ich
kategorii
 Działania dodatkowe:
 Konwersja typów danych
 Ujednolicanie zapisów np. duża pierwsza litera w nazwie
własnej

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PROBLEMY TRANSFORMACJI DANYCH

 Jest to jeden z bardziej kosztownych etapów ETL


 Konieczne ustalenie wartości domyślnych dla
kategorii wymiarów, jeśli wartość ta:
 Nie istniała (nie była dostępna) w systemie źródłowym
 Nie była określona w systemie źródłowym

 Określenie przejścia od jednego dopuszczalnego


zbioru wartości na inny dopuszczalny zbiór
wartości np. ocen w systemie 5, 4 … na A, B, …
 Kontrola wartości agregatów z biznesowego punktu
widzenia

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ŁADOWANIE DANYCH
 Proces przeniesienia danych z obszaru pośredniego
do bazy danych hurtowni i ich indeksowanie
 Zwiększenie szybkości ładowania poprzez
przetwarzanie równoległe w trakcie wczytywania
danych oraz tworzenia indeksów
 Partycjonowanie tabel i indeksów – rozpraszanie
danych na wiele dysków
 Tworzenie indeksów połączeniowych, bitmapowych
i bitmapowych indeksów połączeniowych
 Kompresja danych (tabele, indeksy, widoki
zmaterializowane)

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PROBLEMY ŁADOWANIA
 Archiwizacja danych hurtowni przed wykonaniem
ładowania
 Częstotliwość ładowania musi odpowiadać
potrzebom biznesu
 Wyłączenie indeksów w bazie danych hurtowni na
czas ładowania
 Powtarzanie ładowania w koniecznych przypadkach
(konieczność rejestrowania zdarzeń wyjątkowych)
 Obsługa wyjątków i błędów powstałych w trakcie
ładowania (biznesowych, bazodanowych)
 Zaleca się przeprowadzenie testowego ładowania

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


AUTOMATYZACJA ETL

 Procesy ETL nie są realizowane jednorazowo, lecz


okresowo
 Konieczność automatyzacji czynności ETL (jobs,
triggers, procedur i pakiety wbudowane)
 Harmonogram procesów ETL (kiedy i co ma być
dostarczone do bazy danych hurtowni)
 Scenariusze procesów ETL

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PODSUMOWANIE
 ETL może stanowić projekt sam w sobie ze
względu na dużą złożoność realizowanych
procesów
 Właściwy ETL powinien być poprzedzony
testami, które pozwolą wyeliminować potencjalne
błędy
 ETL przeprowadzany z użyciem obszaru
pośredniego pozwala efektywniej i bezpieczniej
przejść przez etap zasilania hurtowni
 Istotne jest dokumentowanie wszelkich działań,
związanych z realizacją ETL

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


„HURTOWNIE DANYCH I SYSTEMY
BUSINESS INTELLIGENCE” – CZ. 10

dr inż. Piotr Muryjas


Instytut Informatyki, Politechnika Lubelska
PARTNERZY:

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


METADANE
RODZAJE METADANYCH
ZARZĄDZANIE METADANYMI

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


AGENDA

 Rodzaje danych składowanych w hurtowni


 Pojęcie metadanych

 Rodzaje metadanych

 Zarządzanie metadanymi

 Znaczenie metadanych w cyklu życia hurtowni

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


RODZAJE DANYCH W HURTOWNI DANYCH

 Elementarne – kopie danych pobranych z


systemów operacyjnych, odpowiednio ujednolicone
 Zmaterializowane agregaty – dane wyliczone w
różnych wymiarach i różnych poziomach agregacji
 Metadane – dane opisujące hurtownię danych oraz
jej otoczenie

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


METADANE

 Dane o danych
 Metadane – dane opisujące strukturę hurtowni,
źródłowe systemy transakcyjne lub inne źródła, a
także
 Metadane istnieją tak długo jak funkcjonuje
hurtownia

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ZNACZENIE METADANYCH

Baza danych Baza danych


operacyjna hurtowni

Metadane Metadane

Profesjonalista IT Profesjonalista DSS

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


RODZAJE METADANYCH

 Techniczne – opis hurtowni danych z punktu


widzenia warstwy fizycznej (pobierania i
składowania danych)

 Administracyjne – opis hurtowni danych z punktu


widzenia eksploatacji bazy danych (udostępniania
danych i przetwarzania analitycznego)

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


METADANE TECHNICZNE (1)

 Opis miejsca istnienia źródeł (adresy www, IP)


 Opis zawartości źródeł (charakterystyka opisowa)

 Opis struktury źródeł (struktura tabel, plik płaski,


znaczniki XML i HTML)
 Opis metody dostępu do źródeł (sposoby logowania
się, prawa dostępu)
 Opis schematu danych hurtowni (tabel wymiarów
i faktów, więzy integralności)

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


METADANE TECHNICZNE (2)

 Opis mapowania danych źródłowych na wymiary i


fakty
 Opis harmonogramu ETL

 Opis scenariuszy ETL

 Historia zasilania danymi

 Historia archiwizacji danych

 Opis struktury fizycznej hurtowni (pliki danych,


indeksy, partycje)

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


METADANE ADMINISTRACYJNE (1)
 Opis aplikacji analitycznych hurtowni:
 Jakie mają funkcjonalności?
 Jakie zasoby danych są wymagane dla aplikacjo?
 Struktura raportów statycznych

 Opis miejsca eksploatacji aplikacji:


 Dokąd skierować dane z hurtowni?
 Opis sposobu udostępniania danych z hurtowni:
 Komu udostępnić dane?
 Jakie dane udostępnić tej osobie?
 W jakiej postaci dane mają być prezentowane?

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PODSTAWOWE KOMPONENTY METADANYCH

 Nazwy tabel faktów i wymiarów


 Nazwy kolumn w poszczególnych tabelach

 Nazwy kolumn, które są kluczami w


poszczególnych tabelach
 Opis tabel (np. znaczenie biznesowe)

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


MAPOWANIE
 Nazwy kolumn w tabelach źródłowych
 Nazwy kolumn w tabelach docelowych

 Nazwy atrybutów, które maja podlegać konwersji

 Rodzaje i sposób konwersji

 Sposób kodowania (tworzenie kluczy w tabelach


hurtowni)
 Wartości domyślne

 Wartości przypisane dla danych nie istniejących


lub nieokreślonych w źródłach
 Listy wartości i logika wyboru z list

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


HISTORIA EKSTRAKCJI DANYCH

 Czas wprowadzenia danych do bazy hurtowni


danych jako istotny składnik oceny danych
 Składowanie danych ładowanych w przeszłości z
opisem wymiaru czasu ładowania
 Ocena aktualności danych analitycznych

 Możliwość porównania z wynikami analiz z


okresów przeszłych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ALGORYTMY AGREGACJI

 Definicja struktury agregatów (jakie wymiary


tworzą agregaty)
 Definicja poziomów podsumowań (jaka jest
ziarnistość agregatów)
 Definicja operacji analitycznych, które należy
wykonać na danych na poszczególnych poziomach
podsumowań

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ZALEŻNOŚCI MIĘDZY DANYMI

 Określenie zależności, wynikającej z natury


danych, a nie tabel, w których są składowane (np.
zysk zależy od przychodów i kosztów)
 Rodzaj zależności wynika z charakteru procesów
biznesowych
 Pozwala wskazać, jakie czynniki wpływają na
określone wskaźniki, stosowane w podejmowaniu
decyzji biznesowych
 Określenie danych możliwych do wykorzystania
podczas wspierania procesów decyzyjnych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


HISTORIA ZALEŻNOŚCI MIĘDZY ŹRÓDŁAMI

 Informacja skąd dane były pobierane w przeszłości


i jakie były wówczas zależności między źródłami
jest istotna dla poprawnej interpretacji faktów z
ubiegłych okresów
 Analiza i zrozumienie zależności między danymi
przeszłymi i obecnymi wymaga wskazania
obecnych i przeszłych źródeł, a także zależności
między nimi

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


WERSJONOWANIE METADANYCH
 Ponieważ czas przechowywania danych w hurtowni
jest znacznie dłuższy niż w systemach operacyjnych,
konieczne jest zapamiętanie struktur danych z
przeszłości
 Wersjonowanie jest wyrazem zachowania ciągłości
między danymi z przeszłości i obecnymi
 Wersjonowanie metadanych pozwala zrozumieć,
dlaczego określone fakty miały miejsce w przeszłości
 Umożliwia także określanie trendów i
prognozowanie

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


KTO KORZYSTA Z DANYCH I OPERACJI
 W hurtowni z danych korzystają użytkownicy,
którzy są „właścicielami” danych jak i
użytkownicy, którzy są tylko odbiorcami
 Zakres odpowiedzialności za dane w hurtowni
jest inny od zakresu odpowiedzialności w
systemach transakcyjnych

Metadane

Modyfikowanie Ładowanie
Wykonywanie kopii Dostęp do danych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


WZORCE DOSTĘPU UŻYTKOWNIKÓW DO
DANYCH

 Dotyczą zarówno platformy sprzętowej jak i


softwarowej np. z jakich platform sprzętowych
korzystają użytkownicy hurtowni, jakie narzędzia
dostępu są używane przez analityków
 Konieczność przewidywania z jakich platform będą w
przyszłości korzystać
 Równoległe tworzenie wielu różnych wzorców
dostępu do tych samych danych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ODWZOROWANIE MODELU LOGICZNEGO NA
FIZYCZNY

 Model logiczny opisuje sposób patrzenia na


hurtownię z punktu widzenia biznesu, model
fizyczny – struktur danych, istniejących w
hurtowni
 Znajomość modelu fizycznego pozwala aktywnie
definiować zapytania ad-hoc
 Zrozumienie sposobu odwzorowania modelu
logicznego na fizyczny ułatwia ocenę czasu
generowania raportów np. wiedza na temat
złożoności schematu płatka śniegu

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


RELACJE Z INNYMI METADANYMI

 Korzystanie z metadanych zewnętrznych baz


danych np. tabel lub widoków systemowych,
pozwalających określić struktury źródeł danych,
ich użytkowników, prawa dostępu oraz do operacji
 Wykorzystanie dzienników transakcji innych
systemów informatycznych np. podczas procesów
ETL
 Dostęp do metadanych hurtowni tematycznych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


INNE METADANE

 Aliasy danych – opis danych adekwatnych do


obszaru biznesu, w którym dane będą prezentowane
(te same dane można różnie opisać dla różnych
działów firmy)
 Liczba rekordów w tabelach

 Status tabel (kiedy tabela była modyfikowana, które


kolumny mają zmienione wartości od ostatniej
ekstrakcji
 Analizy statystyczne dla tabel

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ZNACZENIE METADANYCH W CYKLU ŻYCIA
HURTOWNI

 Każdy proces, związany z projektem, wdrożeniem


czy eksploatacją hurtowni musi być zarejestrowany
w metadanych
 Metadane stanowią pewnego rodzaju pamięć
hurtowni o tym co było i co jest
 Analiza metadanych pozwala określić stopień jej
wykorzystania w procesach decyzyjny
 Dbałość o metadane pozwala skutecznie i
efektywnie zarządzać hurtownią

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ZARZĄDZANIE METADANYMI

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PODSUMOWANIE

 Metadane opisują pełny cykl życia hurtowni


 Metadane tłumaczą złożone pojęcia z obszaru IT
na zrozumiały język biznesowy
 Zarządzanie metadanymi zapewnia poprawność i
wysoką jakość funkcjonowania hurtowni
 Miara jakości metadanych są rezultaty decyzji
podjętych z wykorzystaniem hurtowni

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


„HURTOWNIE DANYCH I SYSTEMY
BUSINESS INTELLIGENCE” – CZ. 11

dr inż. Piotr Muryjas


Instytut Informatyki, Politechnika Lubelska
PARTNERZY:

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


EKSPLORACJA I DRĄŻENIE
DANYCH
W HURTOWNI DANYCH

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


AGENDA

 Działania eksploarycyjne:
 Statyczne zapytania analityczne
 Zapytania ad-hoc

 Drążenie danych (Data Mining):


 Czym jest drążenie danych
 Obszary zastosowań
 Jak odkrywać wiedzę?
 Główne działania w obszarze data mining

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


EKSPLORACJA DANYCH (1)

 Statyczne zapytania analityczne:


 Struktura zapytań została określona na etapie
projektowania hurtowni
 Duża ilość zapytań
 Ograniczony zbiór zapytań (nie można uzyskać
odpowiedzi na dowolne pytanie dotyczące prowadzonego
biznesu)
 Predefiniowana forma prezentacji rezultatów

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


EKSPLORACJA DANYCH (2)

 Zapytania ad-hoc:
 Struktura zapytań nie została określona na etapie
projektowania hurtowni, lecz jest definiowana
dynamicznie, adekwatnie do potrzeb biznesowych
 Duży stopień nietypowości zapytania, wynikający faktu,
iż nikt wcześniej tak nie myślał
 Wychodzi naprzeciw oczekiwaniom biznesu (postać
zapytań statycznych odpowiada bieżącym potrzebom
biznesu, ad-hoc – bieżącym i przyszłym)
 Wykorzystanie dynamicznego SQL-a

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


DATA MINING

 Co to jest drążenie danych?


 Nietrywialne wydobywanie ukrytej, poprzednio
nieznanej i potencjalnie użytecznej informacji z
danych
 Nauka zajmująca się wydobywaniem informacji z
dużych zbiorów danych lub baz danych
 Proces wydobywania uprzednio nieznanych,
zrozumiałych i praktycznych informacji z dużych baz
danych i wykorzystywanie ich do podejmowania
kluczowych decyzji biznesowych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


OBSZARY ZASTOSOWAŃ

 Biznes (bankowość, ubezpieczenia, handel


detaliczny, telekomunikacja, marketing)
 E-biznes

 Bezpieczeństwo publiczne (wojsko, walka z


terroryzmem)
 Administracja publiczna

 Medycyna (diagnostyka chorób)

 Transport (diagnostyka pojazdów)

 Web-mining (analiza ścieżek dostępu, marketing


internetowy, analiza ruchu sieciowego)

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


DO CZEGO STOSUJE SIĘ DATA MINING?
 Określanie zależności między czynnikami
wewnętrznymi (wewnątrz firmy), wpływającymi na
sposób prowadzenia biznesu np. jak podwyżka płac
wpłynie na cenę produktu
 Określanie wpływu czynników zewnętrznych
(otoczenie firmy) na rodzaj i zakres biznesu np.
wpływ czynników demograficznych na ofertę firmy
 Określanie wzorców zachowań klientów i powodów,
jakimi kierują się podejmując decyzje o skorzystaniu
z oferty firmy

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


DO CZEGO STOSUJE SIĘ DATA MINING?
 Wykrywanie sytuacji nietypowych (incydentów) np.
gwałtownego spadku sprzedaży określonego
produktu
 Prognozowanie wielkości, istotnych z punktu
widzenia biznesu np. wielkości sprzedaży, zysków
całkowitych, rentowności sprzedaży
 Klasyfikacja danych w odrębne zbiory według
kryteriów biznesowych np. określenie którzy klienci
prawdopodobnie będą zainteresowani określonym
produktem, profilowanie klientów z różnych
biznesowych punktów widzenia

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


DO CZEGO STOSUJE SIĘ DATA MINING?

 Optymalizacja działań biznesowych np. kampanii


marketingowych
 Prawdopodobieństwo wystąpienia zdarzenia np.
osiągnięcia zakładanego zysku, rezygnacji klienta,
odejścia pracownika
 Szacowanie czasu przetrwania klienta

 Ocena ryzyka np. kredytowego

 Wykrywanie oszustw np. w ubezpieczeniach,


telekomunikacji

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


JAK ODKRYWAĆ WIEDZĘ – SCHEMAT

Źródło: http://www.dataminingtechniques.net/
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu
JAK ODKRYWAĆ WIEDZĘ – OPIS
 Selekcja danych – wybór danych z różnych źródeł,
oczyszczenie, integracja, agregacja i umieszczenie
ich w bazie danych hurtowni
 Wybór danych z bazy hurtowni, dotyczących danego
zagadnienia
 Transformacja danych do postaci użytecznej w data
mining
 Drążenie danych

 Tworzenie wzorców i modeli

 Wiedza

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PROCESY W OBSZARZE DATA MINING
Zrozumienie Zrozumienie
biznesu danych

Przygotowanie
Wdrożenie
danych

Ewaluacja Modelowanie

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


TECHNIKI STOSOWANE W DATA MINING (1)
 Asocjacje – najbardziej znana technika; ma na celu
identyfikację skojarzeń między obiektami,
zdarzeniami, zachowaniami np. jakie inne produkty
były kupowane razem z produktem „Drukarka”
 Klasyfikacje – przydzielanie obiektów do
predefiniowanych grup np. którzy klienci skorzystają
z produktu bankowego „karta kredytowa”
 Grupowanie – tworzenie grup (wzorców) obiektów
(zdarzeń) o podobnych cechach i przydzielanie do
wybranej grupy np. jakie istnieją grupy klientów,
dokonujących zakupu produktu „samochód w
segmencie D” i którzy klienci do niego należą

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


TECHNIKI STOSOWANE W DATA MINING (2)
 Prognozowanie – określanie zależności między
obiektami czy zdarzeniami oraz prognozowanie ich
przyszłych wystąpień np. jaka jest zależność między
wzrostem populacji ludności a wielkością sprzedaży
określonych produktów spożywczych i jak wygląda
prognoza wielkości ich sprzedaży na najbliższe 5 lat
 Identyfikacja wzorców – określanie wzorców obiektów,
zachowań, zdarzeń, itp. charakterystycznych dla
danego obszaru biznesu np. które karty kredytowe są
najczęściej używane w transakcjach weekendowych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


DEFINICJI REGUŁ ASOCJACJI (1)

Definicja reguły asocjacji:

XY

Znaczenie zapisu:
 Razem z wartościami atrybutów ze zbioru X często
występują wartości atrybutów ze zbioru Y
 Istnieje wielu przypadków, w których występują
wszystkie wartości zbioru X i występują jednocześnie
wszystkie wartości ze zbioru Y

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


DEFINICJA REGUŁ ASOCJACJI (2)
 Nieprecyzyjność sformułowania „często” czy „wiele
przypadków” wymaga zdefiniowania dwóch miar:
wsparcia względnego (WZ) i zaufania (Z)
 Wsparcie względne określa się jako stosunek liczby
przypadków wystąpień wszystkich wartości zbioru
X i wszystkich wartości ze zbioru Y do liczby
wszystkich możliwych przypadków
 Zaufanie jest ilorazem liczby przypadków, w
których występują zarówno wartości ze zbioru X jak
i zbioru Y, oraz liczby przypadków, w których
występują tylko wartości ze zbioru X

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


REGUŁY ASOCJACJI – FORMUŁY

P X   liczba przypadków, w których znajduje się wartość zbioru X

WZ  X  Y  

P X Y 
Liczba wszystkichprzypadków

Z X  Y  

P X Y 
P X 

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PRZYKŁAD OKREŚLENIA REGUŁY ASOCJACJI
IDTR Produkty Zbiory ze wsparciem >= 2
1 P1, P2 P1(7), P2(7), P3(6), P4(7), P1P2(4), P1P3(4),
2 P1, P2, P3 P1P4(4), P2P3(4), P2P4(5), P3P4(4),
P1P2P3(2), P1P2P4(2), P1P3P4(2),
3 P1, P3 P2P3P4(3)
4 P2, P3, P4 Reguły asocjacyjne
5 P1, P4 P1  P2 WZ = 4/10, Z = 4/7
6 P2, P4 P2P3  P4 WZ = 3/10, Z = 3/4
7 P1, P2, P4 P2  P3P4 WZ = 3/10, Z = 3/7
8 P1, P3, P4 P1P3  P4 WZ = 2/10, Z = 2/4
9 P2, P3, P4 P1  P2P4 WZ = 2/10, Z = 2/7
10 P1, P2, P3, P4

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ANALIZA REGUŁY ASOCJACJI – WSPARCIE

 Zaufanie określa:
 Jak często kupowane były produkty P1 i P2 – 40%
 Jak często były kupowane produkty P2, P3 i P4 – 30%
 Jak często były kupowane produkty P1, P3 i P4 – 20%
 Jak często kupowano produkty P2, P2 i P4 – 20%

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ANALIZA REGUŁY ASOCJACJI – ZAUFANIE

 Zaufanie określa:
 Jak często zakupowi produktu P1 towarzyszy zakup
produktu P2 – 57,1%
 Jak często zakupowi produktów P2 i P3 towarzyszy
zakup produkt P4 – 75%
 Jak często zakupowi produktu P2 towarzyszy zakup
produktów P3 i P4 – 42,9%
 Jak często zakupowi produktów P1 i P3 towarzyszył
zakupu produktu P4 – 50%
 Jak często zakupowi produktu P1 towarzyszył zakup
produktów P2 i P4 – 28,6%

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PODSUMOWANIE
 Data mining to metoda wydobywania wiedzy
ukrytej w danych
 Data mining pozwala lepiej poznać własną firmę i
jej otoczenie
 Metoda stosowana do analizy zbiorów danych o
olbrzymiej liczności
 Niekiedy jako wadę data mining wymienia się
możliwość poznania tego, co powinno pozostać
ukryte
 Rezultaty data mining zawsze obarczone są
pewnym błędem, co w kontekście podejmowania
decyzji, może oznaczać negatywne konsekwencje
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu
„HURTOWNIE DANYCH I SYSTEMY
BUSINESS INTELLIGENCE” – CZ. 12

dr inż. Piotr Muryjas


Instytut Informatyki, Politechnika Lubelska
PARTNERZY:

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


NARZĘDZIA PROJEKTOWANIA
I IMPLEMENTACJI
HURTOWNI DANYCH

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


AGENDA

 Narzędzia budowy hurtowni danych różnych


producentów
 Skrócony opis funkcjonalności wybranych
narzędzi
 Statystki dotyczące dostawców rozwiązań
hurtowni danych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


NARZĘDZIA HURTOWNI DANYCH
 InfoSphere Warehouse, Cognos – IBM
 SQL Server 2008 R2 Parallel Data Warehouse –
Microsoft
 Oracle Warehouse Builder – Oracle

 SAP BusinessObjects Rapid Marts, SAP NetWeaver


Business Warehouse – SAP BusinessObjects
 SAS Enterprise BI Server

 SybaseIQ – Sybase Inc.

 Enterprise Data Warehousing – Teradata

 Adabas C i Adabas D – Software AG

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


ORACLE WAREHOUSE BUILDER
 Modelowanie danych (źródłowych i docelowych)
 Projektowanie i wdrażanie procesów ETL

 Profilowania danych i zapewnienia ich jakości

 Zarządzanie metadanymi

 Sprzętowe wsparcie wykonywania operacji


analitycznych (Exalytics)
 Możliwość zintegrowania z systemami ERP
przedsiębiorstwa oraz partnerów biznesowych
 Integracja z narzędziami business intelligence w
celu wykonywania analiz i raportowania

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


SQL SERVER 2008 R2 PARALLEL DATA
WAREHOUSE
 Możliwość gromadzenia do 100 TB danych
 Możliwość współprac z narzędziami BI (PowerPivot,
SQL Server Analysis Services, SQL Server Reporting
Services, SQL Server Integration Services)
 Możliwość eksploatacji w architekturze rozproszonej

 Budowa hurtowni w różnych strategiach

 Wsparcie przez sprzęt HP oraz Dell

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


SYBASEIQ – SYBASE INC.
 Wprowadzanie zmian w schemacie bazy danych
podczas pracy systemu
 Brak potrzeby tworzenia zmaterializowanych
widoków
 Bezpośrednie ładowanie danych od klientów

 Usprawnione przetwarzanie zapytań z


wykorzystaniem skompresowanych danych
umieszczonych w pamięci
 Obsługa wszystkich standardowych platform
sprzętowych i systemów operacyjnych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


SAS ENTERPRISE BI SERVER

 Rozbudowana funkcjonalność zarządzania


metadanymi
 Intuicyjne techniki analizy i drążenia danych

 Zaawansowany OLAP

 Szeroki wachlarz sposobów raportowania, od


przeglądarek internetowych po urządzenia mobilne

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


RYNEK DOSTAWCÓW HURTOWNI DANYCH –
2010 WG IDC
Dostawca
45,00
40,50
40,00
35,00
30,00
25,00 22,50
20,00 16,50
15,00 11,80
10,00
5,00
-
Oracle IBM Microsoft Teradata

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


OCENA DOSTAWCÓW HURTOWNI DANYCH WG
GARTNER GROUP

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


PODSUMOWANIE

 Wszyscy dostawcy rozwiązań hurtowni danych oferują


tę samą funkcjonalność, która wspiera procesy
decyzyjne w przedsiębiorstwie
 Różnice między oferowanymi rozwiązaniami dotyczą
możliwości współpracy z zewnętrznymi bazami
danych (natywnymi dla hurtowni lub obcych
producentów)
 Pozycja Oracle jako lider może wynikać z
długoletniego doświadczenia jako dostawcy serwerów
baz danych oraz zaawansowanych narzędzi
przetwarzania danych
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu
„HURTOWNIE DANYCH I SYSTEMY
BUSINESS INTELLIGENCE” -
WPROWADZENIE
dr inż. Piotr Muryjas
Instytut Informatyki, Politechnika Lubelska
PARTNERZY:

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


AGENDA

 Cele kształcenia
 Efekty kształcenia

 Treści programowe

 Kontrola rezultatu nauczania

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


CELE KSZTAŁCENIA

 Celem kształcenia jest zapoznanie studentów z


koncepcją business intelligence w
funkcjonowaniu systemu informacyjnego
współczesnych organizacji.

 Studenci poznają hurtownię danych (HD) jako


jedno z podstawowych rozwiązań stosowane w
tym obszarze, a w szczególności metodykę jej
projektowania i implementacji jako narzędzia
typu business intelligence.

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


EFEKTY KSZTAŁCENIA (1)

 Efektem kształcenia będą wiedza i umiejętności


w zakresie:
 zastosowania koncepcji business intelligence w
projektowaniu systemu informacyjnego organizacji,
 posługiwania się technologią hurtowni danych do
wspomagania procesów decyzyjnych oraz właściwego
doboru narzędzi dostępu do danych w nich
zgromadzonych
 projektowania struktury bazy danych HD z
wykorzystaniem modeli danych charakterystycznych
dla tego rodzaju technologii

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


EFEKTY KSZTAŁCENIA (2)

 Efektem kształcenia będą wiedza i umiejętności


w zakresie:
 projektowania procesów ekstrakcji, transformacji i
ładowania danych do HD,
 wykorzystania wybranych narzędzi dedykowanych do
projektowania struktur danych w HD,
 wykorzystania wybranych narzędzi typu business
intelligence do analizy danych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


TREŚCI PROGRAMOWE (1)
 Podstawowe pojęcia związane z business
intelligence (BI). Miejsce BI w architekturze
systemów informatycznych. Obszary
implementacji systemów klasy BI
 Architektura systemów klasy BI. Miejsce
hurtowni danych w systemach klasy BI
 Podstawy analityki biznesowej
 Definicja hurtowni danych oraz podstawowych
pojęć z nią związanych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


TREŚCI PROGRAMOWE (2)

 Klasyfikacja systemów informatycznych (SI)


wykorzystywanych w organizacji. Miejsce
hurtowni danych w hierarchii SI. Obszary
zastosowań hurtowni danych.
 Architektura hurtowni danych. Struktura
funkcjonalna hurtowni danych.
 Projektowanie hurtowni danych – strategie
budowy, etapy projektowania

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


TREŚCI PROGRAMOWE (3)
 Modele danych wykorzystywane w hurtowniach
danych (ROLAP, MOLAP, HOLAP).
 Procesy ETL – ekstrakcja i integracja danych,
konwersja danych, agregacje, ładowanie danych
do bazy danych.
 Metadane – rodzaje metadanych, zarządzanie
metadanymi.
 Eksploracja i drążenie danych w hurtowniach
danych.
 Wybrane narzędzia projektowania i
implementacji hurtowni danych
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu
LITERATURA PODSTAWOWA (1)

 D.T.Larose: Odkrywanie wiedzy z danych.


Wprowadzenie do eksploracji danych. Wyd.
Naukowe PWN, 2006
 Poe V., Klauer P., Brobst S.: Tworzenie hurtowni
danych. WNT, Warszawa 2000.
 Jarke M., Lenzerini M., Vassiliadis Y.,
Vassiliadis P.: Hurtownie danych. Podstawy
organizacji i funkcjonowania. WSiP, Warszawa
2003.

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


LITERATURA PODSTAWOWA (2)

 Jerzy Surma: Business Intelligence. Systemy


wspomagania decyzji biznesowych. PWN,
Warszawa, 2010
 Celina M. Olszak: Tworzenie i wykorzystywanie
systemów business intelligence na potrzeby
współczesnej organizacji. Wydawnictwo AE w
Katowicach, 2007
 Oracle Corporation WebSite: Oracle Warehouse
Builder and Business Intelligence Documentation

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


LITERATURA UZUPEŁNIAJĄCA (1)
 Todman Chris: Projektowanie hurtowni danych.
Zarządzanie kontaktami z klientami (CRM).
Wydanie 2, WNT, Warszawa, 2003
 Januszewski Arkadiusz: Funkcjonalność
informatycznych systemów zarządzania, tom 2.
PWN, Warszawa, 2008
 Olejniczak Wojciech (red.): Inżynieria systemów
informatycznych w e-gospodarce. Polskie
Wydawnictwo Ekonomiczne, Warszawa, 2005
 Janusz Zawiła-Niedźwiecki, Katarzyna Rostek,
Artur GąsiorkiewiczInformatyka Gospodarcza.
Tom II. Wydanie: 1. C.H. Beck. Warszawa, 2010
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu
LITERATURA UZUPEŁNIAJĄCA (2)
 Olszak C.M., Ziemba E. (red.): Strategie i modele
gospodarki elektronicznej. PWN, Warszawa, 2007
 Zasoby Internetu:
 www.bi.pl
 http://wazniak.mimuw.edu.pl/index.php?title=Zaawa
nsowane_systemy_baz_danych/Wyk%C5%82ad_12
 http://wazniak.mimuw.edu.pl/index.php?title=Zaawa
nsowane_systemy_baz_danych/Wyk%C5%82ad_13
 http://datawarehouse4u.info/index.html

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu


KONTROLA REZULTATÓW NAUCZANIA

 Egzamin pisemny
 Test wielokrotnego wyboru

 Pytania teoretyczne, weryfikujące wiedzę nt.


systemów klasy Business Intelligence oraz celu,
zasad projektowania, wdrażania i eksploatacji
hurtowni danych
 Pytania praktyczne sprawdzające
umiejętność projektowania,
wdrażania i eksploatacji
hurtowni danych

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu

You might also like