You are on page 1of 5

5 РЕГРЕСІЙНИЙ АНАЛІЗ

5.1 Мета роботи

Набути практичних навичок побудови регресійної моделі, навчитись


аналізувати отриману модель та робити висновки щодо можливості її
використання.

5.2 Теоретичні відомості

Регресійний аналіз є основним статистичним методом побудови


математичних моделей об’єктів або явищ по експериментальним даним. Ці
моделі зв’язують кількісні змінні – результуючу і пояснюючі.
Мета регресійного аналізу – встановити конкретну аналітичну
залежність одного або декількох результативних показників від одного або
декількох ознак-факторів. Отримане при цьому рівняння регресії
використовується для змістовного опису досліджуваного процесу,
прогнозування, вибору оптимального варіанту тощо. Якщо в рівняння
регресії включені ознаки-фактори, що враховують і можливе випадкове
поводження результативної ознаки, то такий вираз являє регресійну модель
явища чи процесу. Найбільше застосування отримали рівняння регресії, що
відображають взаємозв'язок одного результативного ознаки з однією (парна
регресія) або декількома (множинна регресія) ознаками-факторами. При
аналізі біржових показників часто використовується модель множинної
регресії.
Відмітимо до речі, що визначувана в ході аналізу функція регресії лише
формально встановлює відповідність між змінними цих двох груп , хоча вони
в дійсності можуть і не бути в причинно-наслідкових стосунках. Тому
встановлювані в ході регресійного аналізу зв'язки можуть іноді помилково
тлумачитися як причинно-наслідкові. Таким чином, можуть виникнути так
звані нонсенс регресії (помилкові, абсурдні), які не мають практичного сенсу.
З цієї причини перед застосуванням статистичного апарату на основі
професійно-логічного аналізу проблеми необхідно вирішити, яку із змінних
розглядати як результуючу, а які з реєстрованих величин – як пояснюючі.
Розглянемо загальну схему регресійного аналізу. Нехай результуюча
змінна У пов'язана з деякими пояснюючими змінними х1 ,…., хk, які зручно
представляти у вигляді компонент вектору х=[ x 1 ,..., хk ]т , (т –
транспонування).
Зв’язок є стохастичним: значення змінної Y, отримані в різних
експериментах при фіксованих значеннях вектору Х, випадковим чином
флюктуїрує навколо деякого невідомого рівня (x) (формула 4.1):

Y  Y(x) (x)   (4.1)

де друга складова визначає випадкове відхилення результуючої змінної


від величини (x). Випадкові відхилення  можуть слугувати проявом впливу
не врахованих у векторі Х (і може бути, випадкових) факторів, випадковими
похибками вимірів результуючої змінної та іншими причинами. Середнє
значення відхилень приймається рівним нулю, тому математичне сподівання
результуючої змінної співпадає зі значенням функції (формула 4.2)

(x). M{Y(x)} (x) (4.2)

Це рівняння називається регресією (рівнянням регресії), а функція (x)


– функцією регресії.
Типовим практичним завданням регресивного аналізу є визначення
залежностей в системі даних.
Припустимо, ви спостерігаєте значення пари змінних X та Y і хочете
знайти залежність між ними. Наприклад:
‒ між ціною купівлі акції – X і ціною її продажу – Y;
‒ продуктивністю процесора – X та його ціною – Y;
‒ відсотком рідини у газі, що видобувається зі свердловини, – X і
вартістю видобутку одиниці газу – Y;
‒ доходом – X і споживанням – Y і т. д.
Звичайно, цей список можна продовжити. Змінна X носить назву
незалежної змінної, або предиктори, змінна Y називається залежною
змінною, або відгуком.
Дана термінологія пов'язана з тим, що ми хочемо визначити саме
залежність Y від X або передбачити, якими будуть значення Y за даних
значень X.
Значення змінної X в першому експерименті будемо позначати через
Х1, відповідне значення величини Y позначимо через Y1.
Отже, спостерігаємо значення незалежної Х 1 і відповідні їм значення
залежної Y1, 0 < К = n, і оцінюємо залежність Y від X. У статистиці подібні
завдання вирішуються у рамках регресійної моделі. Будемо розглядати
найпростішу регресійну модель – лінійну.
Приклад: регресійний аналіз продажів морозива.
Власник мережі з двадцяти магазинів з продажу морозива Ben&Jerry's
зауважив, що обсяги продажів зростають і знижуються разом з ростом і
зниженням температури повітря. Вирішивши визначити точну математичну
залежність між обсягом продажів і сезонними температурами, він зібрав дані
по щомісячним обсягам продажів за попередні п'ять років, а в Національній
метеорологічній службі отримав дані по середньомісячним температурам. В
результаті вийшла наступна таблиця (таблиця 5.1):

Таблиця 5.1 – Обсяги продажу морозива та температури повітря


Середньомісячна температура
Місяць Об’єм продажів, $
(за Фаренгейтом)
1 2 3
Січень 33 200 000
Продовження таблиці 5.1
1 2 3
Лютий 37 250 000
Березень 72 400 000
Квітень 65 500 000
Травень 78 900 000
Червень 85 1 100 000
Липень 88 1 500 000
Серпень 91 1 300 000
Вересень 82 800 000
Жовтень 73 600 000
Листопад 45 300 000
Грудень 36 500 000

Використовуючи регресійний аналіз, власник отримав наступний


результат (таблиці 5.2 і 5.3):

Таблиця 5.2 – Регресивна статистика – результат


Регресивна статистика Значення
R-квадрат 0,70427945
Похибка оцінки 243334,911
Число спостережень 12

Таблиця 5.3 – Регресивна статистика – стандарт


Величина Коефіцієнти Похибка Т-статистика
Ордината -379066,613
Змінна Х 16431,5915 3367,036871 4,880134

Що це означає?
Вражаюче: цей набір даних дозволяє скласти рівняння прямої, що
виражає залежність між температурою і обсягами продажів в магазинах
Ben&Jerry's. Спочатку пояснимо дані, на основі яких складається лінійне
рівняння.
Значення R-квадрат показує, «який відсоток розкиду даних
пояснюється даним регресійним рівнянням». У нашому випадку це 70,4%
розкиду даних за обсягом продажів - дуже високий показник. У більш
масштабному економічному аналізі дуже високим буде вважатися показник
30%, так як на стан економіки впливають тисячі змінних. Можна припустити,
що в бізнесі, пов'язаному з морозивом, на коливання обсягу продажів, крім
температури, впливають також реклама, знижки, години роботи магазину.
«Середньоквадратична похибка оцінки Y» і «середньоквадратична
похибка коефіцієнта X» – синоніми стандартного відхилення помилки
коефіцієнта Y і коефіцієнта X графіка регресії. У прикладі з компанією
Ben&Jerry's середньоквадратична похибка оцінки Y (обсяг продажів)
становить $ 243 334 у 68% випадків (таблиця 5.2), а коефіцієнта X
(температура) –3367 (таблиця 5.3). Можна провести ряд аналізів,
встановлюючи діапазон цих даних і надійності з урахуванням
середньоквадратичного відхилення, і перевірити надійність отриманого
рівняння регресії.
T-статистика може підказати, придатне чи ні для прогнозування
рівняння регресії, розраховане комп'ютерною програмою: T-статистика
перевіряє, чи робить змінна X статистично значимий вплив на Y, як,
наприклад, температура повітря – на обсяг продажів. Для визначення даного
критерію слід розділити коефіцієнт X на його середньоквадратичну похибку.
Якщо T-статистика виявиться більше 2 або менше –2, змінна X робить
статистично значимий вплив на Y. У нашому прикладі критерій має дуже
високе значення: 16431/3 367 = 4,88 (таблиця 5.3). Тому аналітик робить
висновок, що по температурі можна з високою вірогідністю прогнозувати
обсяг продажів.
Ордината в точці перетину осі Y=b= – 379,066, коефіцієнт Х=m=16,431.
Підставляючи ці значення в стандартне лінійне рівняння, яке ми
пригадали з курсу алгебри, одержуємо: Y=16,431Х – 379,066
Наносимо точки на графік і проводимо лінію регресії, описану цим
рівнянням. В результаті отримуємо наступне зображення (рисунок 5.1)

Рисунок 5.1 – Лінія регресії

На графіку видно, що лінія регресії проходить посередині між точками


даних. Ввівши значення температури X в рівняння, можна визначити
прогнозований обсяг продажів морозива. У випадку з Ben&Jerry's при
температурі 60 °F (15 °С) очікуваний обсяг продажів за місяць повинен
скласти $ 606 794.

Y = (16 431*60°F) – 379 066 = 606 794 $

Однак наскільки точно дане рівняння дозволяє прогнозувати продажу


морозива? Щоб відповісти, треба придивитися до іншого числа в таблиці – R-
квадрат.
Модель прогнозування підходить при високих значеннях і R, і T-
статистики.
Однак будьте пильні! Не надавайте зайвого значення результатам
регресійного аналізу! Вони кажуть нам тільки те, що обсяг продажів певним
чином змінюється при зміні температури. З цього аналізу не слід, що
«температура завжди впливає на обсяг продажів». Але якщо ви раціонально і
обґрунтовано вибрали незалежну змінну і вона добре передбачує поведінку
залежною змінною, значить, метод годиться.

5.3 Порядок виконання роботи

Створити програму для розрахунку коефіцієнтів рівняння лінійної


регресії з однією пояснюючою змінною.
Створити візуалізацію X, Y та рівняння регресії.
Проаналізувати коефіцієнт детермінації та інтерпретувати його
значення.
Проаналізувати залишки.
Показати зв’язок коефіцієнта детермінації і коефіцієнта кореляції для
регресійної моделі з однією пояснюючою змінною.

5.4 Зміст звіту

Звіт повинен містити наступні частини:


‒ тема;
‒ мета;
‒ індивідуальне завдання;
‒ частини програмного коду, що реалізують розрахунки коефіцієнтів
рівняння лінійної регресії з однією пояснюючою змінною та візуалізацію X,
Y і рівняння регресії;
‒ скріншот результатів виконання програми;
‒ аналіз результатів;
‒ висновки.

5.5 Контрольні питання

1. Що таке регресійна модель?


2. Яка різниця між простою та множинною регресією?
3. Що показує коефіцієнт детермінації?
4. Що таке залишок?
5. Як проаналізувати можливість використання моделі?

You might also like