You are on page 1of 16

Uwarunkowania realizacyjne HD

Modele danych
Operacje na danych i perspektywy

• Potrzeba przetwarzania analitycznego danych:


 analiza działalności przedsiębiorstwa
 analiza trendów i anomalii
 opracowanie strategii marketingowej
 analiza rentowności inwestycji
…

• Aplikacje analityczne wymagają:


 integracji danych
 eksploracji danych
 złożonej analizy danych
…

1
- bankowość – np. identyfikacja czynników ryzyka
wskazujących, którzy klienci gwarantują bezpieczne
spłacanie udzielonego kredytu
- rynki finansowe – np. identyfikacja trendów w
zakresie akcji spółek giełdowych
- telekomunikacja – np. identyfikacja klientów
zainteresowanych nowymi usługami i nowymi
warunkami współpracy z firmą
- medycyna – np. analiza efektywności procedur
leczenia pacjentów
- edukacja – np. analiza potrzeb edukacyjnych
związanych z przemianami gospodarczymi

 Menedżerowie
Do zarządzania taktycznego
 Analitycy
Bieżąca analiza sytuacji podmiotu
Prognozy
 Stratedzy firmy
Tworzenie planów strategicznych krótko i
długookresowych.

2
 Powinna być łatwa w użyciu
 Ma stanowić główne źródło informacji
menedżerskich
 Winna synchronizować dane między
oddziałami firmy
 Powinna integrować dane w organizacji
 Jest przeznaczona do celów
analitycznych

3
 Różni producenci/technologie

 Różna funkcjonalność
- bazy danych / nie bazy danych
- dialekty SQL
- sposoby dostępu i przetwarzania danych
 Różne modele danych
- hierarchiczne i sieciowe
- relacyjne i postrelacyjne
- wielowymiarowe
- XML

 schemat (wymiary, hierarchie, fakty)


 użytkownicy i uprawnienia
 charakterystyka danych (rozkłady,
histogramy, rozmiary)
 struktury fizyczne (indeksy, klastry,
perspektywy
 zmaterializowane/predefiniowane zapytania,
partycjonowanie)
 fizyczna organizacja przestrzeni dyskowej

 profile użytkowników
 subskrypcje raportów
 definicje pojęć biznesowych
 preferencje wyświetlania raportów
 ustawienia portletów/kokpitów
menedżerskich

4
Hurtownia danych jest złożonym systemem informatycznym,
(różne komponenty użyteczne przy budowie i eksploatacji).
Oprogramowanie to można podzielić na kilka kategorii:

 Systemy zarządzania bazami danych


 Słowniki (repozytoria) metadanych
 Oprogramowanie typu middleware

 Narzędzia analityczne

 Inne

• Ekstrakcja danych
• Transformowanie danych (konwersja)
• Czyszczenie danych
• Integracja danych
• Ładowanie danych
• Monitorowanie zmian
• Odświeżanie danych

5
6
7
 Struktury danych – opisują logiczną
organizację danych oraz sposób w jaki są
dane postrzegane przez użytkowników
 Zbiór operatorów umożliwiających
wyszukiwanie i modyfikowanie danych
 Ograniczenia integralnościowe, które
specyfikują poprawność danych.

 Miara jest podstawowym pojęciem schematu pojęciowego, ma


charakter liczbowy (np. Ilość sprzedanych produktów, średnia ocen
studentów, średnie zarobki)
 Z każdą miarą jest związany zbiór wymiarów, od których zależy
wartość danej miary (np. ilość sprzedanych produktów w zależności od
produktu, czasu sprzedaży, czy miejsca sprzedaży)
 Wymiarami mogą być: produkt, lokalizacja i czas
 Relacja wiążąca wymiary z miarą (zbiorem miar) nazywamy tablicą
faktów
 Informacja o wymiarach jest reprezentowana przez zbiór tablic
nazywanych tablicami wymiarów
 Z każdym wymiarem związany jest zbiór atrybutów
 Atrybuty opisujące pojedynczy wymiar tworzą hierarchię wymiaru,
która umożliwia definiowanie różnych poziomów agregacji danych
(zasadniczy cel budowy systemu OLAP)

8
 Informacje dzielą się na faktyczne (opisują fizyczne
wystąpienia zdarzenia w świecie rzeczywistym np.
transakcja w sklepie, operacja bankowa) i referencyjne
(opisują wymiary wg których analizowane są dane faktyczne)
 Informacje zbiorcze – zagregowane kopie szczegółowych
informacji przechowywanych w relacjach faktów
 Metadane – opisują zawartość HD (szczegółowe informacje
o położeniu i charakterystyce źródeł danych, definicje
agregatów, informacje pozwalające na kierowanie zapytań
do najbardziej adekwatnych fragmentów HD itp..)
 Najczęściej stosuje się schematy: gwiazdy, płatka śniegu
lub konstelacji faktów

9
Sposób przechowywania i przetwarzania
wielowymiarowego modelu w HD:

1. ROLAP (Relational OLAP) - HD wykorzystująca


model relacyjny
2. MOLAP (Multidimensional OLAP) - HD
wykorzystująca model wielowymiarowy
3. HOLAP (Hybrid OLAP)

10
 Podstawowy model logiczny dla MDD/OLAP
 Dane są postrzegane przez użytkowników w postaci
wielowymiarowej perspektywy (tzw. kostki OLAP)
 Obiektem analizy jest zbiór miar numerycznych – fakty
 Fakt opisuje pojedyncze zdarzenie, o którym
informację chcemy przechować w HD
 Fakt jest daną ilościową (numeryczną) reprezentującą
jednostkę aktywności biznesowej przedsiębiorstwa,
np. średnia ocena studenta, zysk, wartość produktu
krajowego, itp.

2019 2020 2021

 Dane są rejestrowane  Dane są rejestrowane


jako agregacje jako rekordy
 Dane są hierarchiczne  Dane są zgodne
 Dane są aktualne tylko do z modelem relacyjnym
ostatniej aktualizacji  Dane są aktualne
 Predefiniowane zapytania  Wspomaganie
i funkcje doraźnych zapytań
 Wielkie zasoby danych w  Małe zasoby danych
transakcjach w transakcjach

11
 Drill-down (rozwijanie) - nawigacja wzdłuż hierarchii danego
wymiaru w celu rozbicia agregatu na agregaty składowe
 Roll-up (zwijanie) - nawigacja dla danego wymiaru w górę
hierarchii w celu prezentacji większych agregatów

2009 2010 2011

zwijanie
hierarchii czasu

Slice and dice (wycinanie) – operacja redukcji liczby


wymiarów (projekcja danych na wybranym podzbiorze dla
wybranych wartości innych wymiarów)

12
Rotating (obracanie) – prezentowanie danych w
różnych układach

Ranking – wybór pierwszych n elementów

3
2 3
1

Pivoting (wyznaczanie punktu centralnego) - wskazanie miary i


wybór 2 wymiarów, za pomocą których ma być reprezentowana
(sprzedaż w poszczególnych latach)

13
Agregacja – łączna sprzedaż dla poszczególnych miast dla
grup towarów

14
 Autoryzacja dostępu do danych (użytkownicy mają dostęp do
perspektyw, ale nie mają dostępu do tabel bazowych)
 Ułatwienie dostępu do danych (odwołania umożliwiają dostęp do
danych za pomocą prostych zapytań)
 Możliwość prezentowania tych samych danych w różny sposób
(mogą wystąpić np. wyrażenia arytmetyczne operujące na
atrybutach tabel bazowych i literałach – umożliwia to wstępne
przetworzenie danych z tabel bazowych i ich prezentację w
postaci preferowanej przez użytkownika)
 Logiczna niezależność danych ( w przypadku zmiany schematu
tabel bazowych należy zmodyfikować wyłącznie definicję
odpowiednich perspektyw tak, aby ich schemat pozostał taki, jak
poprzednio)

 Jest strukturą logiczną opartą o zapytanie do BD


 Umożliwia dostęp do podzbioru atrybutów i rekordów jednej lub
wielu tabel
 Nie posiada własnych danych lecz udostępnia tylko te dane,
które są wynikiem zapytania ją definiującego
 Wykorzystywana jest w HD i systemach rozproszonych
 Jej zadanie to:
- Integracja danych pochodzących z różnych geograficznie
rozproszonych źródeł
- Replikacja danych rozproszonych w celu skrócenia czasu
dostępu do nich
- materializowanie wyników czasochłonnych zapytań

 Posiada własne trwałe dane – będące wynikiem


zmaterializowania danych wyznaczonych przez
zapytanie definiujące tę perspektywę
 Jest mechanizmem wykorzystywanym w SZBD do
replikacji danych
 Może być indeksowana i partycjonowana
podobnie jak tabela
 Można dla niej zdefiniować parametry
składowania i przestrzeń tabel

15
◦ Nazwa perspektywy (migawki)
◦ Specyfikacja sposobu odświeżania
◦ Specyfikacja momentu pierwszego
odświeżania
◦ Specyfikacja częstości odświeżania
◦ Specyfikacja typu migawki
◦ Zapytania określającego zakres danych
dostępnych w migawce.

 Rodzaje (sposób identyfikowania rekordów)


- PRIMARY KEY
• tabela master musi posiadać włączone ograniczenie
PRIMARY KEY
• klauzula SELECT musi zawierać wszystkie atrybuty
wchodzące w skład klucza podstawowego tabeli master
- ROWID
 Rodzaje (struktura zapytania)
- perspektywa prosta
• bazująca na jednej tabeli master
• brak klauzul: GROUP BY, CONNECT BY, DISTINCT
• brak funkcji, połączeń, operatorów zbiorowych
- perspektywa złożona

16

You might also like