You are on page 1of 22

Консолідація даних

1
Консолідація – це комплекс методів і процедур,
направлених на вилучення даних із різних джерел,
забезпечення необхідного рівня їх інформативності
та якості, перетворення в єдиний формат, в якому
вони можуть бути завантажені у сховище даних або
аналітичну систему.

2
Основні критерії оптимальності консолідації:
• забезпечення високої швидкості доступу до
даних;
• компактність збереження;
• автоматична підтримка цілісності структури
даних;
• контроль суперечливості в даних.

3
Ключовим поняттям консолідації є
джерело даних – об’єкт, який містить
структуровані дані, які можуть бути корисними
для розв’язування аналітичної задачі. Необхідно,
щоб аналітична платформа, яку використовують,
могла здійснювати доступ до даних із об’єкта
безпосередньо або після їх перетворення у інший
формат.

4
Загальна схема процесу консолідації

Оцінка якості та Збагаченн


Джерела очистка даних я даних
даних

Звітні
системи ETL
Добування Перетво- Заванта Сховище
СУБД (Extraction) рення ження даних
(Transfor- (Loading)
Локальні mation)
документи
Зовнішні
Електронні джерела
архіви

Зовнішні
джерела
5
У процесі консолідації розв’язуються наступні
задачі:
• вибір джерел даних;
• розробка стратегії консолідації;
• оцінка якості даних;
• збагачення;
• очищення;
• перенесення у сховище даних.
Спочатку здійснюється вибір джерел, які містять
дані, які можуть мати відношення до розв’язуваної
задачі, потім визначаються тип і методика
організації доступу до них.
6
Спеціалізовані сховища даних є найбільш
приоритетним рішенням, оскільки їх структура і
функціонування спеціально оптимізуються для
роботи з аналітичною платформою.

Очищення даних – комплекс методів і процедур,


направлених на усунення причин, які заважають
коректній обробці: аномалій, пропусків,
дублікатів, суперечливостей, шумів тощо.

Збагачення даних – процес доповнення даних


деякою інформацією, яка дозволяє підвищити
7
ефективність розв’язування аналітичних задач.
OLTP-системи
Системи оперативної обробки інформації
одержали назву OLTP (On-Line Transaktion
Processing – оперативна, тобто в режимі реального
часу, обробка транзакцій).

Транзакція – це деякий набір операцій над базою


даних, який розглядається з точки зору користувача
як єдина закінчена дія над певною інформацією,
пов’язана, зазвичай зі зверненням до бази даних.

8
Типовим прикладом застосування OLTP-
систем є масове обслуговування клієнтів,
наприклад, бронювання авіа білетів або оплата
послуг телефонних компаній. Обидві ці послуги
мають дві загальні властивості:
- надзвичайно велика кількість клієнтів;
- неперервне надходження інформації.

Приклад. При бронюванні авіа білетів із великої


кількості пунктів продажу неперервно
консолідується інформація про вже продані
білети, яку вводять зі своїх робочих місць
9
оператори-продавці. У тій же БД формується
інформація про вільні місця.
З точки зору даної задачі транзакція включає в
себе набір наступних операцій:
•запит оператора про наявність вільних місць на
той чи інший рейс;
•відгук БД з наданням необхідної інформації;
•введення оператором інформації про клієнта,
номера замовленого місця і оплаченій сумі
(можлива ще інша допоміжна службова
інформація);
•передача нової інформації у базу даних та
занесення до неї відповідних змін;
•передача оператору підтвердження про те, що
операція виконана успішно.

Основним пріоритетом у даному випадку є 10

швидкість і паралельність обслуговування.


Розглянемо характерні риси даного процесу, які
властиві у певній мірі всім OLTP-системам.

• Запити і звіти повністю регламентовані.


Оператор не може сформувати власний запит,
щоб уточнити або проаналізувати яку-небудь
інформацію.

• Як тільки переліт здійснився, інформація про


обслуговування даного клієнта втрачає зміст,
стає неактуальною і підлягає знищенню через
певний час.

• Операції проводяться над даними з


максимальним рівнем деталізації, тобто по 11
кожному клієнту окремо.
Системи підтримки прийняття рішень

Системи підтримки прийняття рішень (СППР) –


новий клас інформаційних систем, орієнтований
на аналітичну обробку даних з метою одержання
знань, необхідних для розробки рішень в області
управління. В основі роботи СППР лежать запити,
з якими до неї звертається користувач (особа, яка
приймає рішення) – менеджер, експерт, аналітик.

12
В СППР використовуються спеціалізовані сховища
даних.

Сховище даних СППР – різновид систем


збереження, орієнтованих на підтримку процесу
аналізу даних, які забезпечують цілісність,
несуперечливість і хронологію даних, а також
високу швидкість виконання аналітичних запитів.

Найважливішим елементом такого сховища даних


є семантичний шар – механізм, який дозволяє
аналітику оперувати даними засобом бізнес-
термінів предметної області.
13
Основна відмінність сховищ даних від інших
баз даних – мета використання.
Аналіз динаміки продаж та попиту за кілька
років, що дозволяє виробити стратегію розвитку
фірми і спланувати роботу з доставками та
клієнтами, зручніше всього виконувати при
підтримці сховища даних.

Інша важлива відмінність полягає в


динаміці зміни даних. Дані зі сховища даних не
видаляються, а поповнення відбувається у
відповідності з відповідним регламентом (раз на
день, тиждень, у визначений час).

14
Відмінності СППР і OLTP-систем
Властивість OLTP-систем СППР
Мета використання Швидкий пошук, Аналітична обробка з
найпростіші алгоритми метою пошуку прихованих
обробки закономірностей, побудова
прогнозів та моделей і т.д.
Рівень узагальнення Деталізовані Як деталізовані так і
(деталізації) даних узагальнені (агреговані)

Вимоги до якості Можливі некоректні дані Помилки в даних не


даних (помилки реєстрації, допускаються, оскільки
введення і т.п.) можуть привести до
некоректної роботи
аналітичних алгоритмів
Формат збереження Дані можуть зберігатися у Дані зберігаються і
даних різних форматах в обробляються в єдиному
залежності від пакету, в форматі
якому вони формувалися
Термін збереження Як правило, не більше року Роки, десятиліття
даних (у межах звітного періоду) 15
Час виконання Кілька секунд До кількох хвилин
запиту
Властивість OLTP-систем СППР
Зміна даних Дані можуть додаватися, Допускається лише
змінюватися і видалятися поповнення; раніше додані
дані змінюватися не повинні,
що дозволяє забезпечувати
їх хронологію
Періодичність Часто, але в невеликих Рідко, але у великих об’ємах
оновлення об’ємах
Доступ до даних Повинен бути забезпечений Повинен бути забезпечений
доступ до всіх поточних доступ до історичних
(оперативних) даних (накопичених протягом
тривалого часу) даних з
дотриманням їх хронології
Характер Стандартні, налаштовані Нерегламентовані,
запитів, які раніше формуються аналітиком «по
виконуються ходу» в залежності від
необхідного аналізу

16
Основні вимоги до сховищ даних

• висока швидкість одержання даних із сховища;


• автоматична підтримка внутрішнього
непротиріччя даних;
• можливість одержання і порівняння зрізів
даних;
• наявність зручних засобів для перегляду даних у
сховищі;
• забезпечення цілісності і достовірності даних,
які зберігаються.
17
В основі концепції сховищ даних лежать
наступні положення:

• інтеграція і узгодження даних із різних джерел,


таких як звичайні системи оперативної обробки,
бази даних, звітні системи, офісні документи,
електронні архіви, розміщені в самому
підприємстві та в зовнішньому оточені;

• розподіл наборів даних, які використовуються


системами виконання транзакцій і СППР.

18
Основними задачами, які необхідно
розв’язати в процесі розробки сховищ даних

• вибір структури збереження даних, яка


забезпечує високу швидкість виконання запитів і
мінімізацію об'єму оперативної пам’яті;

• першочергове заповнення і наступні поповнення


сховища;

• забезпечення єдиної методики роботи з


різнотипними даними і створення зручного
інтерфейсу користувача. 19
Основні архітектури сховищ даних
У даний час розроблено декілька архітектур сховищ
даних реляційні, багатовимірні, гібридні і
віртуальні.
Реляційні СД використовують класичну реляційну
модель, характерну для оперативних реєструють
OLTP-систем. Дані зберігаються в реляційних
таблицях, але утворюють спеціальні структури,
адаптовані для багатовимірного представлення
даних. Така технологія позначається абревіатурою
ROLAP - Relational OLAP.
Багатовимірні CД реалізують багатовимірне
представлення даних на фізичному рівні у вигляді 20
багатовимірних кубів. Дана технологія отримала
назву MOLAP - Multidimensional OLAP.
Гібридні CД поєднують в собі властивості як
реляційної, так і багатовимірної моделі даних. У
гібридних CД деталізовані дані зберігаються в
реляційних таблицях, а агрегати - в багатовимірних
кубах. Така технологія побудови СД називається
HOLAP - Hybrid OLAP.

Віртуальні СД не є сховищами даних в звичному


розумінні. У таких системах робота ведеться з
окремими джерелами даних, але при цьому
емулюється робота звичайного СД. Інакше кажучи,
дані не консолідуються фізично, а збираються
безпосередньо в процесі виконання запиту. 21
Крім того, всі сховища даних можна розділити на
одноплатформенні і крос-платформенні.
Одноплатформенні сховища даних будуються на
базі тільки однієї СУБД, а крос-платформенні
можуть будуватися на базі кількох СУБД.

22

You might also like