You are on page 1of 7

МІНІСТЕРСТВО ОСВІТИ І НАУКИ УКРАЇНИ

НАЦІОНАЛЬНИЙ УНІВЕРСИТЕТ «ЛЬВІВСЬКА ПОЛІТЕХНІКА»

Лабораторна робота № 5
1 варіант
З дисципліни
“Інтелектуальний аналіз даних”

Виконала:
студентка групи ФЛ-33
Вареницька Софія
Прийняла:
Коштура Д. А.

Львів - 2023
Лабораторна робота № 5
Тема: дисперсійний одно- та двофакторний аналіз в Rstudio.

Мета: набути практичних навичок роботи з дисперсійними (ANOVA) моделями,


виконати одно- та двофакторний аналіз в середовищі Rstudio, оцінити виконані
припущення, що є основою ANOVA-моделей.

1. Приклад 1

Для доведення припущення про те, що фактор швидкості пред’явлення слів впливає на
показники їх відтворення вводимо дані в таблицю, та за допомогою функцій SUM та
AVERAGE обчислимо суму та середнє для кожного варіанту швидкості пред’явлення в
комірках B9:D10.
Тепер знайдемо кількість спостереження (n = 6) та кфлькість факторів (k = 3)
Далі розрахуємо суми Q1, Q2, Q3 за формулами:

Та емпіричний критерій розраховуємо за формулою:

Критичне значення обчислюємо за допомогою функції FINV.

У висновку виходить, що відмінності в обсязі відтворення слів є більш вираженим,


аніж випадковим.
2. Приклад 2
Доведемо значущість припущення про те, що між факторами довжини слова (А) і
швидкістю їх представлення (В) спостерігається взаємодія: при великій швидкості
представлення краще запам’ятовуються короткі, а при низькій швидкості – довгі слова:

Обчислимо середні значення показників за допомогою функції AVERAGE в комірках


D3; E3; D7; E7 та B11:D13.
Тепер можемо порахувати кількість об’єктів (n = 4), кількість факторів A (l = 2),
кількість факторів B (m = 2) та загальну кількість значення (n*l*k = 16):
Суми квадратів різниць розраховуємо за формулами:

Розраховуємо середні квадрати за формулами:

Критичне значення обчислюємо за допомогою функції FINV.

Відмінності в обсязі відтворення слів, що обумовленні окремо факторами A і B, не є


більш вираженими, ніж випадкові. Проте вплив фактора A на обсяг слів є різним при
різних градаціях фактора B і навпаки.
3. Приклад 3
Щоб реалізувати однофакторний дисперсійний аналіз даних про вагу томатів,
вирощених в різних умовах: на воді, в середовищі з додаванням добрива та в
середовищі з додаванням добрива та гербіциду, створимо базу даних та виведемо
вплив умов на вагу за допомогою візуалізації (використаємо функцію stripchart)

У висновках можемо побачити, що найнижча вага у помідорів, які росли на нітратах, а


найвища, з додаванням добрива.

4. Приклад 4
Для реалізації однофакторного коваріаційнийного аналізу на прикладі набору даних
litter інсталюємо пакет multcomp:

Тепер подивимось як впливає прийом ліків на вагу потомства мишей:


Щоб скоригувати середні значення використаємо функцію effect ()

Визначимо контраст між першою групою з усередненими по трьом іншим групам


значеннями:

У висновку отримуємо, що група, яка не отримувала ліків, характеризується більшою


вагою новонароджених мишенят, ніж всі інші експериментальні групи.

Для візуалізації результатів використовуємо функцію ancova () з пакету HH, що


дозволяє графічно відобразити залежність між залежною змінною, коваріатою і
фактором (незалежною змінною).

Спочатку інсталюємо пакет HH:


Візуалізація зоображає, що зі збільшенням тривалості вагітності зростає вага мишенят.
Крім того, можна бачити, що в групі, де препарат не застосовувався, вільний член
максимальний, а в групі з найбільшою дозою препарату вільний член мінімальний.

5. Завдання 5
● Для роботи з базою даних "diet" інсталюємо пакет WRS2:

Набір даних diet містить показники впливу трьох різних дієт на вагу різних особ.
В датасеті міститься 7 змінних (сать, вік, ріст, тип дієти, вага перед дієтою, вага
після дієти, втрата ваги)
● T-test - це один з методів статистичної перевірки гіпотез (статистичних
критеріїв).
● Двовибірковий t-test часто використовується для перевірки нульової гіпотези:
«Середні двох вибірок відносяться до однієї і тієї ж генеральної сукупності».

При використанні двовибіркового t-test можна виділити два випадки. У


першому випадку його застосовують для перевірки гіпотези про рівність
генеральних середніх двох незалежних (непарний двовибірковий t-критерій). В
цьому випадку є дві окремі групи, контрольна та експериментальна (дослідна),
кількість піддослідних в двох групах може бути різним.

У другому випадку, одна і та ж група об'єктів породжує данні для перевірки


гіпотез про середні, використовується так званий парний t-критерій. Вибірки при
цьому називають залежними, пов'язаними.

Двовимірний залежний t-test:


Незалежний двовимірний t-test:

Проведемо однофакторний дисперсійний аналіз для нашого датасету diet та


візуалізуємо результати:

З графіку можемо побачити, що чим більша вага була спочатку, тим легше було
скинути більше кілограмів.

Висновок: За допомогою цієї лабораторної роботи я отримала знання з теми


“дисперсійний одно- та двофакторний аналіз”, та на практиці виконала завдання з
дисперсійними моделями, виконати одно- та двофакторний аналіз та оцінювала
виконані припущення, що є основою ANOVA-моделей.

You might also like