You are on page 1of 3

МІНІСТЕРСТВО ОСВІТИ І НАУКИ УКРАЇНИ

НАЦІОНАЛЬНИЙ УНІВЕРСИТЕТ «ОДЕСЬКА ПОЛІТЕХНІКА»


ІНСТИТУТ КОМП’ЮТЕРНИХ СИСТЕМ
КАФЕДРА ІНЖЕНЕРІЇ ПРОГРАМНОГО ЗАБЕЗПЕЧЕННЯ

Модульна контрольна робота №1


З дисципліни «Аналіз даних в програмній інженерії»
Варіант 15

Виконав
студент групи АС-213
Соболевський О.С.
Перевірив:
Приходько С.Б.

Одеса 2023
Завдання
1) Що таке інтервал цензурування вибірки?
2) Як здійснюють перевірку відхилення розподілу багатовимірних даних від
нормального?
3) Як визначають викиди у багатовимірних даних?

Відповіді
1) Інтервал цензурування вибірки - це інтервал, в межах якого може лежати
параметр популяції, який ми намагаємось оцінити за результатами вибірки,
із заданою ймовірністю. Інтервал цензурування вибірки обмежується
нижнім і верхнім значеннями, які залежать від вибраної рівня довіри. Чим
вищий рівень довіри, тим ширший буде інтервал цензурування.
2) Перевірку відхилення розподілу багатовимірних даних від нормального
здійснюють за такими методами:
a. За еліпсоїдом прогназування
Процес побудови еліпсоїда прогнозування полягає у визначенні
центру розподілу даних і матриці коваріації. Далі, для кожного
об’єкта вираховується відстань до центру розподілу в кількість
стандартних відхилень. Границя еліпсоїда визначається так, щоб
включити задану ймовірність входження даних. Для перевірки
відхилення розподілу багатовимірних даних від нормального,
як правило, беруть рівень значущості α, що дорівнює від 0,001 до
0,005.
b. За критерієм Мардіа
Щоб застосувати критерій Мардіа, потрібно визначити матрицю
вибіркових коваріацій і вектор середніх значень для
багатовимірних даних. За допомогою цих параметрів можна
обчислити статистику Мардіа, яка має xu-квадрат розподіл зі
степенями вільності, рівними кількості змінних.
Значення статистики Мардіа можна порівняти з критичним
значенням xu-квадрат розподілу, щоб визначити, чи є відхилення
від нормального розподілу значущим. Якщо значення статистики
Мардіа перевищує критичне значення хu-квадрат, то можна
сказати, що відхилення від нормального розподілу є статистично
значущим.
c. За багатовимірною асиметрію та багатовимірним ексцесом
Для використання цього методу необхідно виміряти асиметрію та
ексцес для кожної змінної у багатовимірному наборі даних. Потім
використовують формули для обчислення багатовимірної
асиметрії та багатовимірного ексцесу, які базуються на
вимірюваннях асиметрії та ексцесу для кожної змінної.
3) Викиди у багатовимірних даних визначають за такими методами:
a. За графіком xu-квадрат для квадрату відстані Махаланобіса
Для визначення викидів за допомогою графіку xu-квадрат для
квадрату відстані Махаланобіса, спочатку потрібно визначити
квадрат відстані Махаланобіса для кожної з точок даних. Далі,
створюємо графік xu-квадрат зі значеннями квадрату відстані
Махаланобіса по осі X та кількістю ступенів свободи xu-квадрат
по осі Y. Точки, які перебувають далеко від інших на графіку xu-
квадрат, можуть вважатися викидами. Поріг для визначення
викидів зазвичай встановлюють емпірично.
b. За еліпсоїдом передбачення
Суть цього методу полягає у побудові еліпсоїда передбачення
навколо центру групи даних, який відображає діапазон можливих
значень для нових спостережень. Цей еліпсоїд будують на основі
коваріаційної матриці даних і зв'язаний з довірчим інтервалом,
що охоплює заданий процент нових спостережень. Для
визначення викидів у багатовимірних даних, як правило, беруть
рівень значущості α, що дорівнює 0,005.

You might also like