You are on page 1of 12

МІНІСТЕРСТВО ОСВІТИ І НАУКИ УКРАЇНИ

НАЦІОНАЛЬНИЙ УНІВЕРСИТЕТ «ЛЬВІВСЬКА ПОЛІТЕХНІКА»

Лабораторна робота № 4
1 варіант
З дисципліни
“Інтелектуальний аналіз даних”

Виконала:
студентка групи ФЛ-33
Вареницька Софія
Прийняла:
Коштура Д. А.

Львів - 2023
Лабораторна робота № 4
Тема: розглянути основні відомості про кореляцію та коефіцієнти Пірсона, Спірмена.
Регресійний аналіз в Rstudio. Лінійна регресія і метод найменших квадратів.
Поліноміальна, множинна регресія.
Мета: провести кореляційний аналіз з отриманням коефіцієнтів Пірсона та Спірмена у
середовищі RStudio. Реалізувати лінійну та поліномінальну регресію методом
найменших квадратів з використанням відкритих даних.

1) Виконаємо приклад №1:

Коваріація - статистична міра, яка кількісно визначає зв'язок між двома


змінними. Він розповідає нам, як зміни в одній змінній пов'язані зі змінами в іншій.
Коваріація може бути позитивною, що вказує на позитивний зв'язок, негативною, що
вказує на негативний зв'язок, або нульовою, що вказує на відсутність відносин взагалі.

Коефіцієнт коваріації вказує на міру лінійної залежності між двома випадковими


величинами.
Тести на достовірність ми проводимо для того щоб отримати доступ до зв'язку
між двома змінними за шкалою співвідношення або інтервалу: як зріст і вага.

Виконаємо приклад №2:

Для початку вводимо дані у середовище MS Excel:


Підраховуємо суму для х-ів та у-ків за допомогою функцій SUM та AVERAGE:

За допомогою формули обчислюємо відношення значення змінної до середнього


значення:
Тепер (xi - X) та (yi - Y) підносимо до квадрату для того, щоб їхню суму використати
для формули обчислення r та перемножаєм значення між собою:

Щоб обчислити кореляційний коефіцієнт Пірсона, використовуємо формулу:

Коефіцієнт кореляції вийшов 0.70, що вказує на прямий зв’язок між ознаками.


Отримуємо, що коефіцієнт регресії (3.45) статистично значимо відрізняється від нуля
10 (p <0.001) і означає, що на кожен дюйм зростання очікується збільшення ваги на
3.45 фунта.
Тепер, за допомогою поліноміальної регресії, покращимо наші результати і зробимо їх
більш точними:
З під рахунків випливає, що обидва регресійних коефіцієнти виявляються значущими
на рівні p <0.0001. Значимість квадратного члена (t = 13.89, p <.001) вказує на те, що
його включення в модель покращило її адекватність. Тепер графік став більш точним,
крива краще описує реальні дані і відповідає показникам з невеликою похибкою.

Описую особливості датасету airquality:


В цьому датасеті йдеться про щоденні вимірювання якості повітря в Нью-Йорку, з
травня по вересень 1973 року.

Дата даних з 153 спостереженнями на 6 змінних:


[,1] Ozone - Озон (ppb);
[,2] Solar.R - Сонячний
[,3] Wind - Вітер (mph)
[,4] Temp - Температура (градуси F)
[,5] Month - Місяць (1 - 12)
[,6] Day - День місяця (1 - 31)

Побудуємо кореляційний графік для змінних Temp і Wind:


Обчислюємо кореляцію Пірсона та Кендалла:

● Графік попарної кореляції - це візуалізація розподілу одиничних змінних, а


також відносин між двома змінними. Він є відмінним методом для виявлення
тенденцій між змінними для подальшого аналізу.
Графік парної кореляції будується за допомогою функції pairs():
Створимо діаграму розсіювання за допомогою функції scatterplotMatrix() 4 з пакету
car:
Для початку встановимо цей пакет

● Cpairs з пакету gclus - це функція, яка малює матрицю розсіювання даних.


Змінні можуть бути змінені, а панелі розфарбовані на дисплеї.
Випробуємо цю функцію для нашого датасету:
Інсталюємо для початку пакет gclus
Ця функція надала змогу змінювати параметри кольору.

● CorPlot - це функція з пакету psych для графічного зображення підкреслення


структури. Це особливо корисний інструмент для показу структури кореляційних
матриць з чіткою структурою. Частково призначений для педагогічної цінності
графіки для викладання або обговорення факторного аналізу та інших
багатовимірних методів.

Тепер завантажимо пакет та для того ж датасету зробимо нову діаграму з додаванням
градієнт для кращої візуалізації:
● Корелограма або кореляційна матриця дозволяє аналізувати зв'язок між
кожною парою числових змінних у наборі даних. Він дає швидкий огляд всього
набору даних. Він більше використовується для пошукових цілей, ніж
пояснювальний.

Спочатку потрібно завантажити два пакети: corrgram і corrplot:

Ми візуалізували наші дані за допомогою функцій corrgram і corrplot, які градієнтом


показують відмінність між результатами, а також використали додатковий параметр
method, якій вказує на те, яким чином будуть відображені дані.

Висновок: Я ознайомилася із кореляцією та коефіцієнтами Пірсона, Спірмена,


регресійним аналізом, лінійною регресією і методом найменших квадратів. Та під час
практики використала ці знання у роботі з середовищем RStudio.

You might also like