You are on page 1of 28

Основы Data Science

Тема 2. Основні типи даних


та особливості їх обробки
при підготовці та прийнятті рішень

Pump up U
Слайд 2
Outline

1. Типи даних у математичних моделях


прикладних задач
2. Вихідні дані: основні типи та особливості
використання
3. Обробка даних з погляду теорії
дослідження операцій (ДО)
4. Прийняття рішень за умов невизначеності
Слайд 3
1. Типи даних у математичних моделях прикладних завдань

 Наука про дані (Data science) – комплексна дисципліна, що вивчає


проблеми аналізу, обробки та подання даних у цифровій формі. Поєднує
методи математичної статистики, проектування моделей та баз даних з
акцентом на обробку великих обсягів даних та їхній інтелектуальний аналіз у
рамках інформаційних технологій.
 На відміну від завдань організації ефективного аналізу та зберігання даних,
заснованих на використанні досить простих моделей подання та обробки
даних, що становлять інтерес з погляду програмування та теорії алгоритмів,
наука про дані спирається на апарат математичної статистики, штучного
інтелекту та ін.
 с метою:
– виявлення закономірностей у даних,
– Вилучення з них знань в узагальненій формі.
Слайд 4
1. Типи даних у математичних моделях прикладних завдань

У світлі описаного розуміння науки про дані, в даному курсі


розглядаються аспекти Data Science, які описують
взаємозв'язок типових моделей числових та інших типів
даних та методів їх обробки з метою виявлення якісно нової
інформації про закономірності, властиві цим даним, на основі
статистичних, чисельних та інших аналітичних методів
обробки числових та ранжированих даних

Зазначимо також, що фахівці з Data science (data scientist) в


даний час відзначається як одні з найперспективніших за
рахунок їхньої здатності до аналізу та виявлення
закономірностей у даних, що забезпечує отримання
конкурентних переваг у професійному зростанні.
Слайд 5
1. Типи даних у математичних моделях прикладних завдань

 Особливості даних, що використовуються для підготовки рішень,


виявляються у двох аспектах: у математичному та комп'ютерному.

У першому випадку вивчаються основні типи величин, які застосовуються в


математичних моделях практичних завдань, з точки зору:

(1) способів їх математичного опису, оцінки точності та їх впливу на результат


вирішення прикладних завдань, а також

(2) використання цих величин у моделях типових завдань обробки даних та


методах їх вирішення.

Саме в цьому сенсі дані розглядаються в даному курсі лекцій.

У другому випадку основна увага приділяється способам ефективного


машинного представлення чисел і символів без врахування того, величини
якого типу вони визначають. У цьому плані дане коло питань належить до
сфери програмування у плані побудови ефективних алгоритмів обробки та
структур зберігання чисел і символів, які не пов'язані з рішенням типових
прикладних задач, тому у цій дисципліні не розглядаються.
Слайд 6
1. Типи даних у математичних моделях прикладних завдань

 Вихідні дані для різних класів прикладних завдань отримують методами


об'єктивної та суб'єктивної оцінки параметрів різних числових та нечислових
моделей аналізованих об'єктів, а результати їх вирішення – за допомогою
методів обробки відповідних типів даних.

Моделі даних (числових, рангових та інших) визначаються як метою


розв'язання завдання, так і наявними можливостями збору та обробки даних
різних типів, їх точністю та іншими властивостями; разом, вони визначають
структуру фазового простору завдання.

Щоб отримати розв'язання задачі або оцінити можливість отримання


результату з необхідною оперативністю та точністю, вирішення
практичної задачі слід починати з вибору моделі вихідних даних щодо їх типу,
точності та інших характеристик.

Відповідно до цих параметрів вибирається і метод обробки даних. Тому при


різному виборі цих параметрів те саме завдання може вирішуватися різними
методами.
Слайд 7
2. Вихідні дані: основні типи та особливості використання

 Типи даних за ступенем визначеності:

1. В умовах визначеності розглядають детерміновані дані, які надаються


точними або наближеними цілими та дійсними числами та функціями із
зазначенням їх точності.

2. В умовах ризику розглядають стохастичні дані, подані випадковими


величинами та/або функціями та їх характеристиками (середніми значеннями
та ін.); ці параметри описуються теоретичними, а найчастіше – емпіричними
законами розподілу, які зазвичай отримують за вибіркою (вимірюванням,
експертною оцінкою та ін).

3. У разі невизначеності розглядають різні моделі даних: нечіткі множини,


інтервальний аналіз, експертні оцінки, стратегії та ін., де дані описується
функцією належності (у чомусь подібної щільності ймовірностей), числовим
інтервалом (всі значення у якому рівноможливі), рангом або балом,
ефективністю тощо.
Слайд 8
2. Вихідні дані: основні типи та особливості використання
 Типи даних за формою подання:

Точкова оцінка - точне (приближене значення точки у розглянутому просторі:


число на прямий, пара чисел на площині та ін.
• Може встановити значення окремих числових даних, а також параметрів,
що визначають структури ускладнених моделей даних.
• З комп'ютерної точки зору можуть представляти числа цілого типу, з
фіксованою або плаваючою точкою, знакові та ін.
• Оскільки символьні параметри (16 біт Unicode, 8 біт ASCII та ін.) повністю
детерміновані, з цієї точки зору можуть розглядатися як аналоги натуральних
чисел або номінальні дані.
Інтервальна оцінка – приближене значення, задане інтервалом у цьому
просторі; наприклад, парою чисел на прямий, що визначають довірчий
інтервал, інтервальне значення та ін.
Функціональні множини – числові параметри, задані функцією розподілу
(випадкова величина), функцією приналежності (нечітка множина), або
функціональними конструкціями іншого типу.
Слайд 9
2. Вихідні дані: основні типи та особливості використання

Кваліметричне шкалювання точкових даних

Точкові оцінки визначають основний тип подання даних, на якому ґрунтується


подання інших типів даних; вони можуть бути задані у таких:

• Шкала найменувань (номінальна, класифікаційна) – однорідний чи


розбитий на групи перелік назв об'єктів, як яких можна використовувати і
числа, але лише символи.

І хоча ця шкала не допускає арифметичних операцій із іменами, вона може


використовуватись у статистичних моделях.

Наприклад, під час виборів за мажоритарної системі кожен виборець віддає


голос за одного з кандидатів. За підсумками голосування можна підрахувати
кількість тих, хто проголосував за кожного кандидата, і визначити частоти, за
якими визначається переможець, а потім аналізувати ці результати за
допомогою методів математичної статистики.
Слайд 10
2. Вихідні дані: основні типи та особливості використання

• Шкала порядку (рангова) заснована на застосуванні відношення переваги,


яка для будь-яких двох об'єктів встановлює порядок прямування; якщо на
основі цього відношення впорядкувати всі об'єкти, які задані іменами, та
пронумерувати їх натуральними числами (які в цьому випадку називаються
рангами), отримаємо подання даних об'єктів у шкалі порядку, яку іноді
називають шкалою рангів.
Головна перевага цієї шкали в тому, що її використання дозволяє
застосовувати до нечислових об'єктів спектр статистичних методів. Модель у
разі будується так.
Нехай значення вибірки x1, x2, … , xN розташовані в порядку невтрати

Тоді k-ою порядковою статистикою називається k-е значення у цьому


варіаційному ряду X. Рангом ri спостереження називається його порядковий
номер у ряді X.
Ранговий критерій – це статистичний тест, у якому замість вибіркових значень
використовуються їхні ранги. Більшість рангових критеріїв є
непараметричними.
Слайд 11
2. Вихідні дані: основні типи та особливості використання

• Абсолютна (метрична) шкала – встановлює відповідність з числової віссю


у тому сенсі, що залежно від додатка можуть розглядатися всі числа: дійсні чи
натуральні, позитивні чи зі знаком.

Це та числова шкала, у якій зазвичай задаються точкові значення різних


величин; при цьому над числами, заданими в цій шкалі можуть виконуватися
будь-які математичні операції.

Зазвичай ця шкала використовується для кількісного завдання міри


відмінності (у формі відстані чи інтенсивності), або навпаки – міри близькості.

Іноді точки фіксують опорні значення; наприклад, знання оцінюються за


цілою шкалою: відмінно (5), добре (4), задовільно (3), незадовільно (2). Однак
для порівняння можуть розраховуватися середні значення оцінок групи, і тоді
середній бал може приймати дробове значення.
Слайд 12
2. Вихідні дані: основні типи та особливості використання
 Гетерогенні (неоднорідні) дані
Деякі дані надаються векторами з компонентами, які задані в різних шкалах,
але для подальшої обробки мають бути приведені до єдиного уявлення.
Ця ситуація типова для завдань класифікації, наприклад, при кластеризації
людей за декількома неоднорідними ознаками бінарного та унарного типу
(перші описують парні відносини, а другі – особисті властивості).
У цьому випадку для уніфікації шкал необхідно застосовувати метод згортки,
що дозволяє перейти від групи ознак, заданих у різних шкалах та метриках, до
одного показника.
Розв'язання цієї задачі схоже з переходом від векторної функції мети до
скалярної, як у розглянутих нижче задач оптимізації.
Якщо ознаки задані у різних фізичних одиницях, їх слід зробити
безрозмірними, інакше їхній спільний розгляд буде безглуздим; якщо задані в
одних одиницях, але в різних діапазонах значень, їх слід нормалізувати, щоб
виключити невиправдане домінування.
Слайд 13
2. Вихідні дані: основні типи та особливості використання
 Міри подібності та відмінності
При порівнянні вихідних даних та/або результатів рішення, заданих у тій чи
іншій шкалі, можуть використовуватися міри, різні за суттю та формою.

• По суті, розрізняють міри подібності та відмінності, які для людини та


математики мають різну значущість:
– міра подібності для людини зазвичай зрозуміліша, а тому її частіше
використовують при експертному оцінюванні, тоді як її використання в
алгоритмах викликає обчислювальні проблеми;
– міра відмінності (як відстань) – стандартний тип міри у математиці. Тому
збір даних, особливо – експертного характеру, іноді здійснюють у міру
близькості, а розрахунків перетворять на міру відмінності.
Тому збір даних експертного характеру іноді здійснюють у міру близькості, а
для розрахунків перетворять її на міру відмінності.

• За формою, основний клас становлять бінарні міри відмінності: Евклідова,


Чебишевська та інших., у кластерному аналізі та інших моделях також
розглядають тернарні міри типу (ij,k)-мір.
ρ
Слайд 14
E
2. Вихідні дані: основні типи та особливості використання
=
 Вибір міри відмінності осуществляют исходя из целей анализа данных, т.к.
различные меры ориентированы на выявление своих особенностей.
• Бінарні міри. Наприклад, якщо індивіди x(1) и x(2) описуються векторами

компоненти яких – нормовані величини, то відстань між ними


може визначатися евклідовою ρE , манхеттеновою ρM , або іншою бінарною
метрикою:

L = 4

L = 3
L = 5
ρM = | 3 + 4 | = 7
Слайд 15
2. Вихідні дані: основні типи та особливості використання

• Тернарні (ij, k)- міри. Наведені вище – звичайні (i, j)-міри, що


використовуються для оцінки відстані між елементами i та j. Особливий тип
мір – (ij, k)- міри – використовуються, наприклад, у кластерному аналізі, де
потрібно визначати відстань від кластера h до новоутвореного кластера k з
елементів з номерами i та j за відомими бінарними відстанями
між цими парами до кластеризації :

де параметри визначають сутність стратегії щодо розтягування чи


стиснення простору, інакше кажучи – виявлення особливих елементів чи
загальної структури відносин.
Слайд 16
2. Вихідні дані: основні типи та особливості використання
 Точність даних. Адекватна оцінка точності вихідних даних та одержуваних
результатів є чи не найважливішим аспектом рішення прикладних завдань.
Насамперед, слід пам'ятати, що Вихідні дані представляють оцінки параметрів
реальних об'єктів, а не точні значення.
Тож отримання адекватного результату спочатку необхідно оцінити точність самих
вихідних даних, а, по них – точність результату.
Важливість цього аналізу важко переоцінити, оскільки якщо похибка результату можна
порівняти чи перевищує його значення, це свідчить у тому, що цінність такого рішення
практично нульова, а то й негативна, оскільки опора на такий ненадійний результат
може призвести до великої шкоди.
• Тому замовник завжди повинен знати, яка точність отриманого результату.
При цьому для оцінки точності даних та результатів слід застосовувати методи, що
відповідають типам даних. Так,
• для оцінки
– точності вимірюваних даних та
– похибок, що вносяться розрахунками та моделями
використовується математична теорія похибок
Слайд 17
2. Вихідні дані: основні типи та особливості використання

• Для оцінки даних стохастичного (імовірнісного) типу використовуються :


– параметричні та
– непараметричні методи статистики;
 перші використовуються для отримання точкових та інтервальних числових
оцінок вхідних даних та результатів моделювання, а
 другі – для аналізу експертних оцінок (для аналізу узгодженості думок
експертів, виділення неадекватних експертів) та ін.
• для інших моделей даних (наприклад, для експертного оцінювання)
застосовуються методи оцінки точності, що відповідають типу даних.
 Крім того, слід мати на увазі, що високий рівень похибок та
невизначеностей вихідних даних може призводити до серйозних проблем;
зокрема, до того, що адекватне розв'язання задачі:
- Відсутн є або багатозначно;
– не може бути отримано за прийнятний час, або
– є нестійким, тобто. таким, що малі зміни вихідних даних спричиняють великі
зміни рішення.
Слайд 18
2. Вихідні дані: основні типи та особливості використання
 Ключові питання, пов'язані з аналізом точності вихідних даних та
результатів вирішення
Таким чином, щодо вихідних даних виникають наступні ключові питання, що
по суті визначають основні завдання перед- та пост-обробки даних
1. Чи є поставлене завдання коректно поставлене?
Якщо ні, то результат розв'язання задачі може бути помилковим чи відсутнім.
2. Чи досягається потрібна точність результату?
Отриманий результат може бути дуже далеким від розв'язання задачі
внаслідок недостатньої точності вихідних даних, моделі, методу розв'язання.
3. Чи відповідає трудомісткість розв'язання задачі (при заданому рівні
точності) вимогам щодо оперативності?
Якщо ні, отримання рішення завдання може вимагати неприйнятно великих
витрат часу, або вимагати зниження вимог щодо точності.
4. Чи відповідають обсяг і висока точність даних витрат на потрібні технічні,
фінансові та людські ресурси?
5. З урахуванням сказаного, чи слід використовувати модель оптимізаційного
типу чи обмежитись імітаційною моделлю?
Слайд 19
3. Обробка даних з погляду теорії дослідження операцій
 Дослідження операцій (ДО) – це наука, яка на системному рівні оперує з поняттями
та методами математики, статистики, економіки, менеджменту та ін.
з метою вирішення завдань, що забезпечують досягнення бажаного результату,
що визначає мету операції шляхом завдання критерію ефективності,
яка у поєднанні з вимогами до вихідних даних, процесу та результату рішення
визначає шлях її досягнення
за допомогою постановки та вирішення задачі імітації або оптимізації.
Щодо засобів автоматизації рішення широкого кола прикладних завдань при цьому
також говорять про системи підготовки та прийняття рішення (СППР).
• Критерій ефективності – правило використання показників ефективності з метою
оцінки ефективності чи неефективності результату дослідження операції (зокрема –
системи ППР).
Критерій називається:
– скалярним, якщо він визначається одним показником, та
– векторним, якщо він задається декількома показниками.
• Адекватність СППР – складна властивість, що визначає відповідність цілей ІВ
отриманим результатам. Без оцінки адекватності СППР, як людино-машинного
комплексу, практичне використання СППР є неприпустимим і навіть небезпечним.
Слайд 19
3. Обробка даних з погляду теорії дослідження операцій
Слайд 20
3. Обробка даних з погляду теорії дослідження операцій

• Ефективність – основна характеристика адекватності; для її оцінки


використовують:
Показники ефективності – якісні та кількісні оцінки найважливіших параметрів, які
характеризують функціонування СППР у цікавих для нас аспектах; наприклад:
– інтенсивність відмов,
– середній час напрацювання на відмову,
– час простою та ін.
– Оперативність – найважливіший типовий критерій (показник).

• Стійкість управління – комплексна характеристика СППР, яка визначається такими


показниками:
– живучість – здатність зберігати та швидко відновлювати працездатність після
виникнення відмови. Досягається резервуванням, маскуванням та ін;
– помехозахищеність – здатність протистояти впливу випадкових перешкод та
ворожих дій, що веде до постійного чи тимчасового припинення нормальної
роботи програмно-апаратних засобів;
- Технічна надійність.
Слайд 21
3. Обробка даних з погляду теорії дослідження операцій

 Модель даних у загальній задачі прийняття рішень


• Математична модель загального завдання є завданням прийняття рішення

де R – принцип оптимальності, а Ω = {Ф, Q} – множіна альтернатив, яка представляє


поєднання фазового простору Ф та заданих на ньому обмежень Q, де Ф є прямим
добутком наступних просторів:

де:
U – управління,
P – незалежні параметри,
Z – обурення (можуть залежати від U),
Y – результати управління (тобто розв'язання задачі).
Простір Ф: його параметри можуть описуватися різними типами даних,
причому в умови визначеності, ризику та/або невизначеності (див.
нижче)
Обмеження Q: задаються рівностями, нерівностями, логічними
умовами, і навіть з використанням геометричних моделей, графів та
інших. З огляду на неможливості оптимізації за всіма критеріями,
Слайд 22
3. Обробка даних з погляду теорії дослідження операцій

 Принцип оптимальності R :
– якщо він не заданий, маємо задачу у галузі експертних систем;
– якщо заданий, маємо задачу оптимізації чи імітації.
При цьому принцип оптимальності може бути заданий на будь-яких типах даних
(безперервних, дискретних, стохастичних та ін) та за допомогою будь-яких функцій
(лінійних, нелінійних та ін.).
Тому класифікація завдань оптимізації та імітації відбиває ці особливості.
• Загалом задачу СППР ставлять як завдання оптимізації чи імітації.
– у першому випадку шукають найкраще рішення із можливих (як правило – методом
послідовних наближень); але це можливо лише у приватних завданнях;
– у другому випадку шукають єдиний варіант дій за повного комплексу вихідних даних;
у типовому варіанті ці дані змінюють і з них оцінюють інші варіанти. Сюди належать і
розрахункові завдання.
• Загалом, оптимізаційна постановка краща, оскільки дає найкраще рішення з
можливих, а імітація – тільки розраховує один із варіантів.
Однак, витрати на оптимізацію, що включають розробку моделі, збір даних та процес
вирішення, можуть суттєво перевищувати ефект від оптимізації;
у разі і переходять до імітаційної моделі з елементами оптимізації.
Слайд 23
3. Обробка даних з погляду теорії дослідження операцій

 Прийняття рішень в умовах визначеності. Типи завдань оптимізації


• Принцип оптимальності R задается на множіні альтернатив Ω = {Ф, Q}, зазвичай – як
функції f(x) однієї чи кількох змінних, яка представляє безперервний одновимірний або
багатовимірний простір, дискретну множіну довільної природи (натуральні числа,
вершини графа та ін.), ймовірнісні характеристики (ймовірність, середнє значення,
тощо) та ін.
• Обмеження Q: якщо не задані, то говорять про безумовну оптимізацію, інакше – про
умовну.
При цьому особливе значення має те, чи є функції f(x) скалярною або векторною :
• У першому випадку шукається максимум (max) або мінімум (min), в узагальненому
вигляді – екстремуму (extr) скалярної функції, що позначається одним із таких способів

У цьому випадку оптимальне (тобто найкраще) рішення загалом існує, але його пошук
може становити суттєві труднощі, у зв'язку з чим зазвичай обмежуються пошуком
квазіоптимального (наближеного) рішення.
Слайд 24
3. Обробка даних з погляду теорії дослідження операцій
 У випадку, коли функція мети є векторною, оптимальне рішення може не
існувати навіть теоретично, оскільки альтернатива, оптимальна, наприклад, за першим
критерієм, не є оптимальною за іншими критеріями.
Тому, хоча така функція мети більш точно відображає мету розв'язання задачі, знайти її
вирішення стає проблематично, а тому векторну функцію мети зазвичай замінюють
однією з наступних конструкцій
• згортка – скалярна функція що становить суму нормованих критеріїв

де – ваговий коефіцієнт, що визначає значущість критерію fi (x)


Це нормування здійснюється, наприклад, нормуванням кожного приватного критерію
fi (x) шляхом переходу до величини , де

• лексикографічна оптимізація

де шукається множіна M1 оптимальних альтернатив для f1 (x), на ньому – множіна


оптимальних альтернатив M1,2 для f2 (x) и т.д. За оптимальне рішення приймається
будь-яка альтернатива з M1,2, … , n;

• переведення частини або n-1 критерію в обмеження, при оптимізації за рештою


Слайд 25
4. Прийняття рішень в умовах невизначеності

 розуміється як опис невідомих умов у ситуації, коли точність даних оцінюється


спеціальним чином, причому з високим ступенем невизначеності.
У цьому випадку невизначеність поділяється на:
• стохастичну (маємо інформацію про розподіл ймовірностей та/д та результатів);
• поведінкову (маємо інформацію про вплив на результати поведінки учасників);
• природну (відсутня інформація про зв'язок між рішеннями та результатами);
• апріорну (немає інформації та про можливі результати).
 Вибір за умов невизначеності представляє ядро теорії прийняття рішень, причому
«невизначеність» розуміється відповідно до моделі даних:
• Інтервальний аналіз. Вихідні дані (ВД) описуються інтервалом значень. Алгоритми
обробки даних проводять за традиційними процедурами, але над інтервалами. Чим
точніше ВД, тим більше їх інтервали точніше інтервальний результат.
• Нечіткі множини. Замість чисел розглядаються функції належності, задані на
інтервалах, які подібно до щільності ймовірності задають шанси на прийняття даною
величиною того чи іншого значення на цьому інтервалі. Вони використовуються і в
алгоритмах обробки даних замість чисел або інтервалів; Відповідно, і результат
рішення задається за допомогою функції приналежності.
• Невизначеність типу природи. Виходи не антагоністичні, але непередбачувані.
Слайд 26
4. Прийняття рішень в умовах невизначеності
 Теорія ігор. Модель взаємодій описується
платіжною матрицею
де, наприклад:
Xi – варіант дій ЛПР (бойове спорядження
винищувача-бомбардувальника для подолання
ППО та бомбометання з польових укріплень)
Sj – варіант дій протилежної сторони (ефективність системи ППО противника)
uij – ефективність операції при дії Xi та протидії Sj .

 Стратегії прийняття рішень в умовах невизначеності:


• Умови ризику : відомі умовні ймовірності pij. Тоді математичне очікування корисності
для стратегії Xi складе
• Критерій Лапласа : pij = Const;

• Критерій Вальда : прийняття стратегії, орієнтованої найгірші умови. Дає максимальний


виграш у найгірших умовах; його також називають критерієм крайнього песиміста,
обережного спостерігача, гарантованого результату.
За оптимальну приймається стратегія, на якій досягається максимін
Слайд 27
4. Прийняття рішень в умовах невизначеності
 Приклад. Платіжна матриця має вигляд

• Критерій крайнього песиміста : шукаємо стратегію, на якій досягається

– для стратегії X1 по всіх діях Sj отримуємо min (u1j) =1 при j = 2;


– для стратегії X2 по всіх діях Sj отримуємо min (u2j) =2 при j = 3.
Отже, для Xi: по всіх стратегиях отримуємо 2 для X2. У результаті обираємо стратегію X2 .
• Критерій крайнього оптиміста : шукаємо стратегію, на якій досягається :
𝒎 𝒂𝒙 𝒎𝒂𝒙 𝒖𝒊𝒋 (2)
𝑿 𝑺

У прикладі – 4 та 7, отримуємо 7 та у підсумку – вибираємо стратегію X1.


• Критерій Гурвіца – стратегія поміркованого оптиміста, який за допомогою параметра α
(показника оптимізму) дозволяє налаштовувати критерій на рівень ризику між крайнім
оптимізмом та крайнім песимізмом

де wij – шкода, а uij – виграш від поєднання стратегіїXi та дії Sj .

You might also like