You are on page 1of 72

ЛЕКЦІЯ № 1

Вступ до аналізу даних.

Навчальна дисципліна: «Вступ до технології Data Science»


Навчально-методичний комплекс:
https://drive.google.com/drive/folders/1xqv2CMJ_BJmOL8QK2GjUne6coi0T5l2U?usp=sharing
Конференція:
https://bbb.comsys.kpi.ua/b/xkx-dhx-zyb-oeg

РОЗДІЛ 1. Методологічні основи Data Science.


РОЗДІЛ 1.1. Прикладний статистичний аналіз даних.

Київ 2022
ВСТУП
ВСТУП

ПИСАРЧУК Олексій Олександрович


platinumpa2212@gmail.com
доктор технічних наук, професор,
професор кафедри обчислювальної техніки ФІОТ НТУУ “КПІ”
Спеціалізації за освітою:
математичне та програмно-алгоритмічне забезпечення
інформаційних систем;
Досвід:
• Практичний досвід розробки програмно-апаратних комплексів
14 років (30 реалізованих проектів);
• Досвід наукової діяльності – 12 років;
• Педагогічний стаж – понад 20 років.

Особисті профілі:
БД Scopus: Scopus author ID: 7801331277:
https://www.scopus.com/authid/detail.uri?authorId=7801331277;
БД Scholar Google:
https://scholar.google.com.ua/citations?user=yNDGOyMAAAAJ&hl=ru;
Профіль: www.researchgate.net/profile/Oleksii_Pysarchuk.
ВСТУП
ПИТАННЯ ЗАНЯТТЯ:
1. Структура та завдання дисципліни.
2. Основні відомості про технології Data Science.
3. Технології прикладного статистичного аналізу.
4. Технології Data Science в Python.
ВСТУП

НАВЧАЛЬНА ЛІТЕРАТУРА:
1. Навчально-методичний комплекс з дисципліни “Вступ до технології Data Science”,
[https://drive.google.com/drive/folders/1xqv2CMJ_BJmOL8QK2GjUne6coi0T5l2U?usp=sharing ].
2. Писарчук О.О. Нелінійне та багатокритеріальне моделювання процесів у системах керування рухом /
Писарчук О.О., Харченко В.П. – Монографія. – К.: Інститут обдарованої дитини, 2015. – 248 с.
3. Писарчук О.О. Багатокритеріальні математичні моделі ситуаційного управління та самоорганізації у складних
інформаційних системах / Писарчук О.О., Даник Ю. Г., Шестаков В.І., Соколов К.О., та інші. – Монографія. – Житомир:
ПП «Рута», 2016. – 232 c.
4. Ковбасюк С.В. Метод найменших квадратів та його практичне застосування / С.В. Ковбасюк, О.О. Писарчук,
М.Ю. Ракушев // Монографія . – Житомир: ЖВІ НАУ, 2008. – 228 с.
5. Салюк М.А. Статистична обробка даних експериментального дослідження. Методичний посібник з курсу
«Експериментальна психологія» / за ред. Е.Л. Носенко. – Дніпропетровськ: Інновація, 2010. – 26 с.
6. Ланде Д.В., Субач І.Ю., Бояринова Ю.Є. Основи теорії і практики інтелектуального аналізу даних у сфері
кібербезпеки: навчальний посібник. – К.: ІСЗЗІ КПІ ім. Ігоря Сікорського», 2018. — 297 с.
7. Бахрушин В.Є. Методи аналізу даних : навчальний посібник для студентів / В.Є. Бахрушин. – Запоріжжя : КПУ,
2011. – 268 с.
8. Уэс Маккинли Python та аналіз даних / Пер. с англ.., 2015. – 482 с.: ил.
9. Плас Дж. Вандер. Python для складних завдань: наука про дані та машинне навчання, 2018. – 576 с.
10. Майкл Хейдт. Вивчаємо pandas. Високопродуктивна обробка та аналіз даних в Python, 2018. – 438 с.
11. Себастьян Рашка, Вахид Мирджалили. Python та машинне навчання. Машинне та глибоке навчання з
використанням Python, scikit-learn, TensorFlow. К.: Діалектика, 2020. – 656 с.
12. Патрик Джоши. Штучний інтелект з прикладами на Python. К.: Діалектика, 2020. – 448 с. .
Питання 1.
Структура та завдання
дисципліни.
1. Структура та завдання дисципліни.

Ідеологія побудови структури дисципліни

Прикладна галузь:
Теоретичний базис

•банківська справа;
Навчальна •трендінгові процеси;
дисципліна “Вступ •економічний аналіз…
до технології Data
Science”
Спосіб реалізації:
Технології Data Science

Технології
практичного Технології та бібліотеки Python: Pandas, NumPy, Matplotlib,
застосування OpenCV, PIL, scikit-learn.
1. Структура та завдання дисципліни.

Дисципліна відноситься до виборного блоку


1. Структура та завдання дисципліни.
1. Структура та завдання дисципліни.

Особливості курсу:
1. Структура та завдання дисципліни.

Особливості курсу:
1. Структура та завдання дисципліни.

План курсу:
1. Структура та завдання дисципліни.

Тематика лабораторних робіт:


1. Структура та завдання дисципліни.

Тематика лабораторних робіт:


1. Структура та завдання дисципліни.

Результати навчання:

Здатність застосовувати базові технології Data


Science для розробки прикладних програмних
Результат навчання: скриптів мовою Python з використанням
бібліотек: Pandas, NumPy, Matplotlib,
Scikit-learn.

1. Аналіз даних електронної


Потребують посади: комерції;
Data Scientist, Data 2. Аналіз даних для промислових
Де це потрібно:
Engineer; Data Analyst CRM систем;
– Risk Team тощо. 3. Аналіз геопросторових даних;
4. Аналіз даних для медичної
галузі.
1. Структура та завдання дисципліни.

Бюджет часу курсу:


1. Структура та завдання дисципліни.

Рейтингова система оцінювання (РСО) курсу:


1. Структура та завдання дисципліни.

Рейтингова система оцінювання (РСО) курсу:


1. Структура та завдання дисципліни.

Ресурси для дистанційного викладання курсу:


Питання 2.
Основні відомості про
технології Data Science.
2. Основні відомості про технології Data Science.

Інформаційні технології – це технології отриманні, зберігання,


обробки і передачі інформації з використанням технічних та програмних
засобів.
Data Science – це наука о методах обробки та аналізу даних з метою
виявлення в них необхідної інформації.
Технології Data Science – це методи, моделі та способи, алгоритми і
програмні засоби обробки та аналізу даних з метою виявлення в них
необхідної інформації.
Технології Data Science, частіше реалізуються на обробці і аналізу великих
інформаційних масивів (технології Big Data), хоча існує значна кількість прикладних областей,
що потребують реалізації технологій Data Science на обмеженій кількості даних.
Big Data – це великі обсяги структурованих, неструктурованих та
різнотипних даних.
2. Основні відомості про технології Data Science.

Технологічний цикл обробки даних з метою отримання


інформації та вилучення знань.
2. Основні відомості про технології Data Science.
2. Основні відомості про технології Data Science.
2. Основні відомості про технології Data Science.
2. Основні відомості про технології Data Science.
2. Основні відомості про технології Data Science.
2. Основні відомості про технології Data Science.
2. Основні відомості про технології Data Science.

Модель – подоба (копія) реальної дійсності.

Модель – має абстрагуватись від деталей.

Модель – має бути адекватною.

Клас моделі-структурна
Клас моделі-математична
Структурно-функціональна модель
реального об'єкта

Блок 1

Блок 2 Блок 3
2. Основні відомості про технології Data Science.

Модель – подоба (копія) реальної дійсності.

Реальність

?
+ + =
3

=
1 + 1 = 1 = 3
Абстрактна числова модель
2. Основні відомості про технології Data Science.

Якій інструментарій створення моделі

Як створити адекватну модель

Як створити математичну модель

Відповіді на ці питання дають методи і


технології Data Science.
2. Основні відомості про технології Data Science.

реальність

1. Аналіз задачі.

рівень адекватності

2. Формалізація задачі.

3. Математична постановка задачі.


рівень абстракції рівень абстракції

4. Математичний розв'язок задачі.

5. Інтерпретація розв'язку.
реальність
2. Основні відомості про
технології Data Science.
2. Основні відомості про технології Data Science.

Місце технології Data Science в


інтелектуальних системах
підтримки прийняття рішень

Технології Data Science для


завдань електронної комерції
2. Основні відомості про технології Data Science.

Розподілені клієнт-серверні інформаційні


технології обробки та обміну інформацією
База даних

Обчислювальний
алгоритм
Серверна частина (Back-end)
База знань

Клієнтська частина (Front-end)


Система обміну інформацією
Питання 3.
Технології прикладного
статистичного аналізу.
3. Технології прикладного статистичного аналізу.

Технології прикладного статистичного аналізу

МЕТА

Виявлення закономірностей та прогнозування


розвитку досліджуваного процесу

МЕТОДИ

Рекурентне оцінювання Накопичене оцінювання


(згладжування) (згладжування)
3. Технології прикладного статистичного аналізу.

ПРИКЛАДИ задач прикладного статистичного аналізу

Технології Data
Science надають
можливість
передбачати
температуру повітря
поза мажами
інтервалу
спостереження

Прогнозування динаміки зміни температури повітря


3. Технології прикладного статистичного аналізу.

ПРИКЛАДИ задач прикладного статистичного аналізу

Спостерігаємо

Прогнозуємо

Магія Data Science


Прогнозування динаміки зміни температури повітря
3. Технології прикладного статистичного аналізу.

ПРИКЛАДИ задач прикладного статистичного аналізу

Технології Data
Science надають
можливість
передбачати динаміку
зміни і кількість
захворювань на
небезпечні хвороби

Прогнозування епідеміологічного стану


3. Технології прикладного статистичного аналізу.

ПРИКЛАДИ задач прикладного статистичного аналізу

Аналіз коливань фінансових та фондових ринків


3. Технології прикладного статистичного аналізу.

ПРИКЛАДИ задач прикладного статистичного аналізу

Економічний аналіз
3. Технології прикладного статистичного аналізу.

Експериментальні дані
3. Технології прикладного статистичного аналізу.

Похибки експериментальних даних

Коли фактори помилок невідомі – вони випадкові


3. Технології прикладного статистичного аналізу.

Теорія ймовірностей – оперує випадковою моделлю помилок


3. Технології прикладного статистичного аналізу.

Статистичні експериментальні дані


3. Технології прикладного статистичного аналізу.

Етапи прикладного статистичного аналізу

1. Первинний аналіз
статистичних даних

2. Визначення статистичних
характеристик

3. Побудова експериментальної
моделі (згладжування)

4. Екстраполяція

5. Інтерполяція
3. Технології прикладного статистичного аналізу.

Етапи прикладного статистичного аналізу

1. Первинний аналіз
4., 5. Інтерполяція статистичних даних
(екстраполяція) АВ
АВ 2. Визначення статистичних
характеристик

Модель процесу

3. Побудова
експериментальної моделі
Ділянка Ділянка Ділянка
інтерполяції спостереження екстраполяції
3. Технології прикладного статистичного аналізу.

1. Первинний аналіз статистичних даних

Без АВ

Аномальні виміри
значно спотворюють
результати когнітивного
аналізу та підлягають
вилученню
За наявності
АВ
3. Технології прикладного статистичного аналізу.

1. Первинний аналіз статистичних даних


3. Технології прикладного статистичного аналізу.

2. Визначення статистичних характеристик

Динаміка зміни кількості продажів товару

Задача прикладного Для реалізації прогнозу


статистичного аналізу слід визначити числові
– здійснити прогноз характеристики явно
процесу випадкового процесу
3. Технології прикладного статистичного аналізу.

2. Визначення статистичних характеристик


3. Технології прикладного статистичного аналізу.

2. Визначення статистичних характеристик

Закон розподілу вибірки


– нормальний та має
постійний тренд

Закон розподілу
випадкової складової –
нормальний та має
нелінійний тренд
3. Технології прикладного статистичного аналізу.

2. Визначення статистичних характеристик


3. Технології прикладного статистичного аналізу.

3. Побудова експериментальної моделі (згладжування)


3. Технології прикладного статистичного аналізу.

3. Побудова експериментальної моделі (згладжування)

Без АВ

Побудова лінії тренду


відображає процес
побудови
експериментальної
моделі
За наявності
АВ
3. Технології прикладного статистичного аналізу.

3. Побудова експериментальної моделі (згладжування)


3. Технології прикладного статистичного аналізу.

3. Побудова експериментальної моделі (згладжування)


3. Технології прикладного статистичного аналізу.

3. Побудова експериментальної моделі (згладжування)


3. Технології прикладного статистичного аналізу.

3. Побудова експериментальної моделі (згладжування)


3. Технології прикладного статистичного аналізу.

3. Побудова експериментальної моделі (згладжування)


3. Технології прикладного статистичного аналізу.

3. Побудова експериментальної моделі (згладжування)


3. Технології прикладного статистичного аналізу.

3. Побудова експериментальної моделі (згладжування)


3. Технології прикладного статистичного аналізу.

4,5. Екстраполяція (інтерполяція)

Ретроспектива Перспектива
Інтерполяція Екстраполяція
Питання 4.
Технології Data Science в
Python.
4. Технології Data Science в Python.
4. Технології Data Science в Python.

Система символьної алгебри Maple.


Призначення. Пакет Maple (клен) - класичний пакет символьної алгебри. Спільна розробка Університету
Ватерлоо (шт. Онтаріо, Канада) і Вищої технічної школи (ETHZ, Цюріх, Швейцарія), підтримується
компанією Waterloo Maple, Inc., Призначений для проведення математичних розрахунків будь-якої
складності в аналітичному та числовому вигляді.
Можливості:
•Проведення символьних та числових обчислень будь-
якої складності;
•Наявність потужної математичної бібліотеки:
диференціальне та інтегральне числення; лінійні та
нелінійні рівняння і системи рівнянь; аналітична
геометрія; матричні обчислення; статистичний аналіз;
•Механізми доступу до даних у формі файлів різних
форматів;
•Графічна візуалізація результатів розрахунків;
•Розвинені засоби програмування;
•Інтеграція з С-подібними мовами програмування.
4. Технології Data Science в Python.

Система програмування (IDLE (Integrated Development and Learning


Environment) , інтегроване середовище розробки) – це комплекс програмних
засобів, що об'єднують у собі мову програмування, текстовий редактор,
файлову системи, засоби тестування та відлагодження програм компілятор та
(або) інтерпретатор програмного коду високого рівня в об'єктний код.

Перелік деяких IDLE, що підтримують Python

PyScripter
4. Технології Data Science в Python.

Для практично-прикладного орієнтування на


майбутню професійну діяльність обрано
середовище розробки та від лагодження програм –
система програмування з лінійки найпоширеніших
продуктів компанії JetBrains
[https://www.jetbrains.com/ru-ru/].
4. Технології Data Science в Python.

Базові бібліотеки Python для реалізації


технологій Data Science:
Pandas; NumPy; Matplotlib; scikit-learn.
ВИСНОВКИ
ДЯКУЮ ЗА УВАГУ !

Навчальна дисципліна: «Вступ до технології Data Science»


Навчально-методичний комплекс:
https://drive.google.com/drive/folders/1xqv2CMJ_BJmOL8QK2GjUne6coi0T5l2U?usp=sharing
Конференція:
https://bbb.comsys.kpi.ua/b/rc9-ibe-pdb-zk
b

Київ 2021

You might also like