You are on page 1of 29

ОБРОБКА Й АНАЛІЗ ДВОВИМІРНИХ ДАНИХ

Нехай задано двовимірний випадковий вектор ζ = ( ξ ( ω) , η ( ω) ) . В результаті


спостережень над ними отриманий масив Ω 2, N = {( xl , yl ) ; l = 1, N } . Під час опрацю-
вання кожну складову цього масиву можна розглядати окремо і застосовувати для
неї вже відомі методи одновимірного аналізу (підраховувати статистичні характери-
стики, вилучати аномальні спостереження, відтворювати закон розподілу тощо).
Але реальну віддачу можна отримати лише від сумісного вивчення обох складових,
що дає можливість виявити взаємозв’язок між ними.
Оточуючий світ повний всіляких взаємодій: між зростом та вагою людини
(як правило, чим вища людина за зростом, тим вона більше важить); між обсягом
продукції, що випускає підприємство, та витратами; між долею зусиль, що студент
витрачає на підготовку до занять, та результуючою оцінкою тощо. Вивчення поді-
бних взаємозв’язків у двовимірних даних зводиться до вирішення двох задач:
1) встановлення наявності стохастичного зв’язку між складовими двовимір-
ного випадкового вектора;
2) за наявності зв’язку – задачі ідентифікації та відтворення форми зв’язку.
Перша задача вирішується методами кореляційного аналізу, друга – регресій-
ного аналізу.

Кореляційний аналіз

Головна задача кореляційного аналізу – оцінка стохастичних зв’язків між


змінними за підсумками спостережень.

Кореляційне поле

Ідентифікація наявності зв’язку між ξ ( ω) та η ( ω) може бути здійснена візу-


ально після побудови кореляційного поля, що являє собою графічне зображення
масиву Ω 2,N , коли за віссю абсцис відкладаються значення xl , а за віссю ординат –
відповідні значення yl . Кореляційне поле у вигляді кола або овалу свідчить про те,
що ξ ( ω) та η ( ω) нормально розподілені. Якщо поле вписується в коло (рис. 1, а),
то можна вважати, що зв’язок між ξ ( ω) та η ( ω) відсутній, кут ϕ x, y = 90 . Поле у
вигляді овалу дає можливість говорити про наявність лінійного зв’язку, а нахил
овалу – про додатний (рис 1, б) чи від’ємний зв’язок (рис. 1, в).
Поле складної конфігурації (рис 1, г, д) свідчить про нелінійний зв’язок між
ξ ( ω) та η ( ω) і можливу потребу в перетворенні даних. Якщо в межах кола виділя-
ється декілька сукупностей (рис. 1, е), це вказує на неоднорідність даних.
В літературі замість терміну «кореляційне поле» інколи застосовується тер-
мін «діаграма розсіювання».
1
а б в

г д е
Рис. 1. Кореляційні поля: а – зв’язок відсутній; б – додатний лінійний зв’язок;
в – від’ємний лінійний зв’язок; г, д – нелінійний зв’язок; е – випадок неоднорідних даних

Кількісно міра залежності поміж змінними визначається коефіцієнтом ко-


реляції. Залежно від закону розподілу спостережуваних змінних вводяться різні
типи коефіцієнтів кореляції. Найпростіший є парний коефіцієнт кореляції, який
вимагає, щоб спостережувані змінні були нормально розподілені.

Парний коефіцієнт кореляції

Нехай задані дві випадкові величини ξ ( ω) та η ( ω) , розподіл яких є нормаль-


ний. Мірою лінійного зв’язку між ними слугує парний коефіцієнт кореляції

r=
{ }=
E ( ξ − E {ξ} ) ( η − E {η} ) cov {ξ, η}
.
D {ξ} D {η} σ {ξ} σ {η}
Коефіцієнт кореляції має властивості:
1) r ≤ 1 ;
2) при r = ±1 між ξ та η існує лінійний функціональний зв’язок ( η = α + βξ ),
у противному разі – лінійний стохастичний зв’язок ( η = α + βξ + ε , де ε – похибка);
3) якщо r = 0 , то ξ та η некорельовані (дане твердження справедливе, оскі-
льки висунуто припущення щодо нормального розподілу величин ξ та η ; у загаль-
ному випадку має місце твердження «якщо ξ та η некорельовані, то r = 0 »).

2
На практиці обробці підлягає масив Ω 2,N , за яким треба зробити висновок
щодо наявності зв’язку між ξ ( ω) та η ( ω) . Оцінка коефіцієнта r за масивом Ω 2,N
здійснюється так:
xy − x ⋅ y
rˆ = ,
σˆ x σˆ y
де
N N N
1 1 1
x=
N
∑ xl , y=
N
∑ yl , xy =
N
∑ ( xl ⋅ yl ) ,
l =1 l =1 l =1
N N
1 1
∑ ( xl − x ) ∑ ( yl − y )
2 2
σˆ x = , σˆ y = .
N l =1
N l =1
Оцінка парного коефіцієнта кореляції має геометричну інтерпретацію як ко-
синус кута ϕ xy поміж векторами спостережень
{
X = xl ; l = 1, N } та {
Y = yl ; l = 1, N . }
І справді,
N

X ⋅Y
∑ ( xl ⋅ yl )
cos ϕ x, y = = l =1 ,
X ⋅Y N N
∑ xl2 ⋅ ∑ yl2
l =1 l =1
тоді, якщо x = 0 та y = 0 при N → ∞ , вираз для оцінки r̂ є еквівалентний наведе-
ному для cos ϕ x, y .
Статистичне значення r̂ завжди є відмінне від нуля. Тому виникає задача
перевірки значущості коефіцієнта кореляції, отже, висувається гіпотеза Η 0 : r = 0 ,
для перевірки якої реалізується статистика
rˆ N − 2
t= .
1 − rˆ 2

Якщо t ≤ t1−α 2,ν , то вважається, що коефіцієнт кореляції рівний нулю (не-


значущий), інакше – відмінний ( t1−α 2,ν – квантиль розподілу Стьюденті з кількіс-
тю степенів вільності ν = N − 2 ; α – помилка першого роду, як правило α = 0,05 ).
Інтервальне оцінювання коефіцієнта кореляції здійснюється шляхом призна-
чення довірчого інтервалу з межами

rн,в = rˆ +
(
rˆ 1 − rˆ 2 ) ∓u 1 − rˆ 2
.
1−α 2
2N N −1
На практиці дані можуть формуватись у вигляді k масивів
Ω 2, N j = {( xl , yl ) ; l = 1, N j } , j = 1, k . Тоді виникає задача про формування єдиного ма-
сиву даних (за умови збігу відповідних середніх та середньоквадратичних маси-
вів). Під час розв’язання такої задачі можливий випадок перевірки парами та зага-

3
льний випадок, за яких на основі Ω 2, N j , j = 1, k , обчислюють масив {rˆj , j = 1, k } .
Формування парами зумовлює перевірку статистичної гіпотези
Η 0 : r j = rs , j ≠ s
з огляду на статистичну характеристику
z j − zs
u= ,
1 1
+
N j − 3 Ns − 3
де
1 1 + rˆi
zi = ln , i = j, s .
2 1 − rˆi
Величина u нормально розподілена, отже, для заданої помилки першого ро-
ду α перевіряють виконання умови
u ≤ u1−α 2 .
Якщо нерівність виконується, приймається рішення, що коефіцієнти r j , rs
статистично не різняться. У цьому випадку масиви початкових даних
об’єднуються в один, за яким переобчислюється коефіцієнт кореляції.
Для загального випадку здійснюється перевірка гіпотези
Η 0 : r1 = r2 = … = rk
на основі характеристики
2
 k 
k

 ∑(
N j −3 zj 

)
χ =
2
∑( )
2  j =1
Nj −3 zj − k
 ,
j =1
∑ ( N j − 3)
j =1

яка має розподіл χ із кількістю степенів вільності ν = k − 1 . Якщо має місце


2

χ 2 ≤ χ1−α ,ν , то головна гіпотеза є правильна і необхідне формування єдиного маси-


ву, за яким обчислюється r̂ із подальшою статистичною оцінкою.

Кореляційне відношення

Якщо залежність поміж випадковими величинами η, ξ нелінійна, то для оці-


нки такого зв’язку обчислюється коефіцієнт кореляційного відношення ρη ξ зале-
жної величини η за незалежною ξ. У загальному випадку ρη ξ ≠ ρξ η .
Кореляційне відношення має такі властивості:
1) 0 ≤ ρη2 ξ ≤ 1;
2) ρη2 ξ ≥ r 2 ;
3) якщо ρη2 ξ = 0 , то кореляційний зв’язок відсутній;

4
4) якщо ρη2 ξ = 1 , то поміж η та ξ існує функціональний зв’язок;
5) якщо ρη2 ξ = r 2 , то поміж η та ξ існує лінійний регресійний зв’язок.
Оцінювання ρη ξ виконується на основі масиву {xi , yi, j ; j = 1, mi , i = 1, k} , за
яким визначається квадрат оцінки кореляційного відношення:
k
∑ mi ( yi − y )
2
S y2( x )
ρˆ η2 ξ = i =1 = ,
k mi S y2
∑∑ ( yi, j − y )
2

i =1 j =1

де S y2( x ) – дисперсія середніх значень y у зрізах; S y2 – дисперсія змінної y ;


mi k
1 1
yi =
mi
∑ yi, j ; y=
N
∑ mi yi .
j =1 i =1

Перевірка гіпотези Η 0 : ρη2 ξ = 0 щодо наявності зв’язку між η та ξ здійсню-


ється на основі статистики
( k − 1)
ρˆ η2 ξ
f = ,
( η ξ) ( )
1 − ρ
ˆ 2
N − k
яка має розподіл Фішера з ν1 = k − 1 та ν 2 = N − k степенями вільності. Якщо
f ≤ f1−α ,ν1 ,ν 2 , то стверджується, що кореляційне відношення незначуще, тобто ко-
реляційний зв’язок поміж η, ξ відсутній.
Для перевірки гіпотези Η 0 : ρη2 ξ = r 2 щодо наявності лінійного зв’язку вико-
ристовується статистика

f =
( ρˆ η2 ξ − rˆ 2 ) ( k − 2 )
,
( η ξ)
1 − ρ
ˆ 2
( N − k )
яка розподілена за законом Фішера зі степенями вільності ν1 = k − 2 та ν 2 = N − k .
Тому у разі виконання нерівності f ≤ f1−α,ν1 ,ν 2 , головна гіпотеза приймається.
Базуючись на парному коефіцієнті кореляції та кореляційному відношенню фо-
рмулюється правило перевірки наявності зв’язку між двома змінними:
1) обчислюється значення ρˆ η ξ та оцінюється його значущість;
2) у разі прийняття гіпотези Η 0 : ρη2 ξ = 0 робиться висновок про відсутність
стохастичного зв’язку поміж η, ξ;
3) у разі відхилення гіпотези Η 0 : ρη2 ξ = 0 перевіряється гіпотеза Η 0 : ρη2 ξ = r 2 .
Якщо остання гіпотеза приймається, то говорять про наявність лінійного зв’язку
між η, ξ, інакше стверджують існування нелінійного зв’язку.

5
Зауваження 1. Для одержання масиву {xi , yi, j ; j = 1, mi , i = 1, k} на основі
xmax − xmin
Ω 2, N = {( xl , yl ) ; l = 1, N } можна провести розбиття осі X з кроком h =
k
.
Тоді xi = xmin + ( i − 0,5 ) h , i = 1, k . Відповідні yi , j знаходяться з використанням варі-
ант Ω 2, N , для яких xl ∈ [ xi − 0,5h; xi + 0,5h ] .

Рангові коефіцієнти кореляція

Процедури рангової кореляції реалізуються в тому випадку, коли передумови


лінійного кореляційного аналізу не виконуються. Так, якщо розподіли випадкових
величин η та ξ відмінні від нормального, то обчислюється ранговий коефіцієнт
Спірмена або Кендалла. Попередньо початковий масив даних
Ω 2, N = {( xl , yl ) ; l = 1, N } переформовується у масив рангів

{rx,l , ry,l ; l = 1, N } ,
де rx,l , ry ,l – ранги, тобто порядкові номери варіант у варіаційних рядах за x та y.
При цьому кожному rx,l приписується номер ry ,l , що відповідає значенню yl ,
або, навпаки, кожному ry ,l приписується відповідний rx,l .
На практиці можливий випадок збігу рангів. Такі ранги називаються
зв’язаними, а їх група – зв’язкою. Для зв’язаних рангів здійснюється їх усереднен-
ня і кожному зв’язаному рангу приписується середнє значення.
Приклад 1. Нехай заданий масив Ω 2,7 = {(10,13) , ( 7,5 ) , (11,10 ) , ( 3,5 ) , ( 7,8 ) ,
(12,15) , ( 5,9 )} . Підсумком ранжування змінної X будуть такі ранги:
Значення xl : 3 5 7 7 10 11 12
Ранги rx : 1 2 3,5 3,5 5 6 7
У результаті ранжування змінної Y одержуємо
Значення yl : 5 5 8 9 10 13 15
Ранги ry : 1,5 1,5 3 4 5 6 7
Після зіставлення рангів за змінною X остаточно маємо
rx : 1 2 3,5 3,5 5 6 7
ry : 1,5 4 1,5 3 6 5 7
Нижчеподана обчислювальна схема визначає ступінь стохастичного зв’язку
поміж rx , ry через наведені коефіцієнти рангової кореляції.
Значення оцінки рангового коефіцієнта кореляції Спірмена τˆ c обчислю-
ється за формулою

6
N
6
τˆ c = 1 − ∑ dl2 ,
(
N N 2 −1 ) l =1
де dl = rx,l − ry ,l .
За наявності зв’язаних рангів оцінка τˆ c визначається таким чином:

( ) ∑(
N
1
)
2
N N −1 −
2
rx,l − ry ,l − A− B
6 l =1
τˆ c = ,
1
6
( )
 1
 6
2 
 N N − 1 − 2 A  N N − 1 − 2 B 
2

( )
∑( ) ∑( )
z p
1 1
де A= A3j − Aj ; B= Bk3 − Bk ;
12 j =1
12 k =1
де z – кількість зв’язок поміж рангами rx ; j – порядковий номер зв’язки;
A j – кількість однакових значень x у зв’язці; так, якщо у першій зв’язці за rx
є два однакових x , то A1 = 2 ; це саме стосується і p , k і Bk за y і ry .
Коефіцієнт рангової кореляції Спірмена має такі властивості:
1) −1 ≤ τc ≤ 1 ;
2) якщо rx,l = ry ,l , l = 1, N , то τc = 1 , що означає повну узгодженість між X і Y ;
3) у разі τc = −1 має місце протилежне впорядкування послідовностей рангів,
тобто повна неузгодженість (від’ємна кореляція);
4) при τc = 0 кореляція відсутня.
Значущість τˆ c визначається на основі гіпотези
Η 0 : τc = 0 ,
для перевірки якої вводиться статистична характеристика
τˆ c N − 2
t= ,
1 − τˆ c2
яка має t -розподіл з кількістю степенів вільності ν = N − 2 .
Оцінка рангового коефіцієнта Кендалла τˆ k визначається за виразом
2S
τˆ k = ,
N ( N − 1)
де
N −1 N 1, якщо ry ,l < ry , j ,
S= ∑∑ νl , j ;
νl , j = 
 −1, якщо ry ,l > ry , j .
l =1 j =l +1
За наявності зв’язаних рангів оцінка τˆ k обчислюється у такий спосіб
S
τˆ k = ,
1  1 
 N ( N − 1) − C  N ( N − 1) − D 
2  2 
де
7
1, якщо ry ,l < ry , j та rx,l ≠ rx, j ,
N −1 N

S= ∑∑ νl , j ; νl , j =  −1, якщо ry ,l > ry , j та rx,l ≠ rx, j ,
l =1 j =l +1 
0, інакше;
z p
∑ A j ( A j − 1) ;
1 1
C= D= Bk ( Bk − 1) .

2 j =1
2 k =1
Для встановлення значущості τˆ k перевіряється гіпотеза
Η 0 : τk = 0
із використанням статистичної характеристики
3τˆ k
u= N ( N − 1) ,
2 ( 2 N + 5)
яка має стандартний нормальний розподіл Ν ( u;0,1) . Отже, якщо u ≤ u1−α 2 , то оці-
нка τˆ k не є значуща.
Коефіцієнт кореляції Кендалла має ті самі властивості, що й коефіцієнт Спі-
рмена. Завжди для одних і тих же масивів τc > τk , а у випадку досить великого N
3
τˆ c ≈ τˆ k .
2
Приклад 2. Для наведеного вище прикладу 1 правильне таке:
1 1 1 1
z = 1 , A1 = 2 , A= (8 − 2 ) = ; p = 1 , B1 = 2 , B= (8 − 2 ) = ;
12 2 12 2
значення рангового коефіцієнта Спірмена дорівнює
7 7
∑( ) ∑ ( rx,l − ry,l )
1 2 1 1 2
⋅ 7 ⋅ 48 − rx,l − ry ,l − − 55 −
6 l =1
2 2 l =1 55 − 10,5
τˆ c = = = = 0,809 .
1  1  55 55
 ⋅ 7 ⋅ 48 − 1 ⋅ 7 ⋅ 48 − 1
6  6 
У процесі оцінювання рангового коефіцієнта Кендалла має місце
7 7 7
v1 = ∑ v1, j = 5 , v2 = ∑ v2, j = 3 − 2 = 1 , v3 = ∑ v3, j = 3 ,
j =2 j =3 j=4
7 7 7
v4 = ∑ v4, j = 3 , v5 = ∑ v5, j = 1 − 1 = 0 , v6 = ∑ v6, j = 1 ,
j =5 j =6 j =7
6
S = ∑ vl = 13 ; С = 1; D = 1;
l =1

значення коефіцієнта становить


13 13
τˆ k = = = 0,65 .
( 0.5 ⋅ 7 ⋅ 6 − 1)( 0.5 ⋅ 7 ⋅ 6 − 1) 20
Наведені вирази не потребують лінійної кореляції поміж змінними. Обме-
жуючою вимогою є монотонність функції регресії! Слід відзначити, що проце-
дури рангової кореляції є ефективні під час оцінки стохастичних зв’язків як для кі-
лькісних, так і для якісних ознак.
8
Одновимірний регресійний аналіз

Подальший аналіз змінних, для яких встановлена наявність стохастичного


зв’язку, передбачає ідентифікацію та відтворення регресійної залежності за ними.

Найпростіша форма оцінки стохастичного зв’язку – одновимірний лінійний


регресійний аналіз, за яким формуються обчислювальні процедури відтворення лі-
нії регресії. Припускається, що дві нормально розподілені випадкові величини η та
ξ зв’язані лінійною регресійною залежністю
η = θ1 + θ2ξ + ε , (1)
де ε – похибка, яка має нормальний розподіл, причому
E {ε} = 0 ; D {ε} = σε2 = const .
Якщо обробці підлягає масив даних Ω 2, N = {( xl , yl ) ; l = 1, N } , лінійна регресій-
на модель має вигляд
y ( x ) = a + bx , (2)
тоді оцінкою наведеної залежності є
yˆ ( x ) = aˆ + bx
ˆ ,
де â , b̂ – оцінки вектора параметрів регресії Θ = {θ1, θ2 } (параметрів a , b ).
Відповідно до визначення регресія – це залежність середнього значення од-
нієї випадкової величини від однієї або кількох інших:
y ( x ) = E {η ξ = x} .
Неформальне визначення таке: регресія – це лінія (або крива), уздовж якої
розсіювання даних мінімальне (рис. 2). З огляду на це лінія, позначена пунктиром
(рис. 2), не може бути лінією регресії.

Рис. 2. Графік лінійної регресійної залежності

Проведення регресійного аналізу не обмежується відтворенням лінійної за-


лежності. Можлива оцінка залежностей
s
η= ∑ θiξi + ε , (3)
i =0
чи будь-яких інших нелінійних залежностей:
η = ϕ ( ξ; Θ ) , Θ = {θi ; i = 0, s} .

9
Слід зазначити, що відтворення саме залежностей типу (1), (3) має найбільше
поширення у відповідному програмному забезпеченні. Пояснюється це тим, що
обчислювальні схеми відтворення регресії зазвичай базуються на методі най-
менших квадратів оцінки параметрів.
Етапами обчислювальної схеми відтворення функції регресії є:
1) перевірка виконання початкових умов регресійного аналізу;
2) ідентифікація вигляду регресійної залежності;
3) вибір типу функції регресії y ( x ) = ϕ ( x; Θ ) та оцінка вектора параметрів Θ̂ ;
4) дослідження якості відтворення регресії.
Для переліку задач обробки даних вводиться процедура порівняння двох або
кількох регресійних залежностей. Якщо мають місце нелінійні залежності, то про-
цедури знаходження оцінок параметрів та довірчого оцінювання відрізняються від
процедури лінійної оцінки.

Початкові умови регресійного аналізу

Умови, що забезпечують застосування методів параметричного регресійного


аналізу, такі:
1. Сумісний розподіл випадкових величин η , ξ має бути нормальний (лише
для лінійного регресійного аналізу).
2. Дисперсія залежної змінної y залишається сталою під час зміни значення
аргументу x , отже,
D { y x} = σ2y = const (4)
або пропорційною деякій відомій функції від x :
D { y x} = σ2y h 2 ( x ) , (5)
де h ( x ) – саме така функція.
3. Підсумки спостережень xi , yi стохастично незалежні, тобто, результати,
одержані на i -му кроці експерименту, не пов’язані з попереднім ( i − 1) -м кроком і
не містять інформації для ( i + 1) -го кроку.
Нижче подана ілюстрація зазначених вимог (рис. 3).

10
б
Рис. 3. Графічне зображення початкових умов регресійного аналізу:
а – дисперсія y стала; б – дисперсія y пропорційна h ( x )

На практиці допускається формальне відхилення від указаних вимог. Напри-


клад, якщо обсяг вибірок досить великий, можливе порушення першої умови. Пе-
ревірка виконання першої та третьої умов не викликає труднощів. Для перевірки
другої використовують критерій однорідності для дисперсій (критерій Бартлетта).
Розглянемо його використання для даної задачі.
Нехай для кожного з X = { xi ; i = 1, k } зафіксовані значень залежної змінної
{ }
Y = yi ; i = 1, k , j = 1, mi . Загальний обсяг експериментальних даних Y за всіма xi до-
k
рівнює N = ∑ mi , отже, використовується масив Ω 2, N = { xi , yi, j ; i = 1, k , j = 1, mi } .
i =1
Зауваження 2. Відносно формування масиву { xi , yi, j ; i = 1, k , j = 1, mi } на осно-
ві {( xl , yl ) ; l = 1, N } див. заув. 1.
Як статистична характеристика гіпотези
Η 0 : D { y x1} = … = D { y xk } = σ2y
використовується статистика
1 k S y2 ( x )
χ =−
2
C
∑ mi ln S 2
i
,
i =1
яка при mi ≥ 3 приблизно має χ -розподіл із кількістю степенів вільності ν = k − 1 .
2

Константа C та відхилення S y2( xi ) , S 2 визначаються за формулами


1  k 1 1
m
∑( )
i
1 2
C = 1+  ∑ − ,
3 ( k − 1)  i =1 mi N 
S y2( x )
i
=
mi − 1 j =1
yi , j − yi ,

де
mi k
1 1
yi =
mi
∑ yi, j ; S2 =
N −k
∑ ( mi − 1) S y2( x ) .
i
j =1 i =1

11
Якщо виявиться, що χ 2 > χ12−α,ν , де α – помилка першого роду, то гіпотеза
Η 0 відкидається, отже, порушена умова (4). У цьому випадку висувається гіпотеза
відносно умови (5):
D { y x1} D { y xk }
Η0 : =…= = σ2y .
h 2
( x1 ) h 2
( xk )
Як статистична характеристика використовується статистика
1 k S ′y2( x )
χ′ = −
2
C
∑ mi ln S′
i
2
,
i =1
де
S y2 ( x ) 1 k
S ′y2( x )
i
=
h 2
i

( xi )
; S′ =
2
N −k
∑ ( mi − 1) S ′y2( x ) .
i
i =1
Наступна процедура перевірки гіпотези аналогічна розглянутій вище. Якщо і в
даному випадку головна гіпотеза буде відкинута, маємо порушення другої умови. У
цьому разі необхідно реалізовувати непараметричні процедури відтворення регресії.

Ідентифікація регресії

Метою процедури ідентифікації вигляду регресії є:


1) виявлення зв’язку поміж X та Y ;
2) за наявності зв’язку проведення класифікації на лінійність або нелінійність
як відносно змінних X та Y , так і щодо вектора параметрів Θ .
Процедура ідентифікації зумовлює реалізацію і візуальної схеми, і кількісної
оцінки зв’язку. У процесі візуалізації оцінюються початкові масиви, які відобра-
жаються у вигляді кореляційного поля (див. рис. 1).
Якщо кореляційне поле вписується в коло, то зв’язок між X та Y відсутній.
Для поля у вигляді овалу має місце лінійна регресійна залежність. Для кореляцій-
ного поля складної конфігурації необхідно здійснити підбір нелінійної функції.
Вибираючи вигляд регресії, слід комбінувати дослідження розташування точок ко-
реляційного поля з логіко-професійним аналізом, тобто приймати рішення щодо
вигляду кривої згідно з виглядом кореляційного поля. Найпростіші є процедури,
що описують лінійний зв’язок відносно оцінюваного вектора параметрів. Практич-
но це алгебричні поліноми порядку, не вищого за четвертий.
Під час проведення ідентифікації за допомогою числових методів реалізу-
ється двохетапна процедура. На першому етапі здійснюється статистичний аналіз,
підсумком якого є знаходження оцінок rˆx, y , ρ̂ та перевірка їх значущості. Напри-
клад, за умови, що коефіцієнт парної кореляції rˆx, y значущий, висувається твер-
дження про лінійний регресійний зв’язок поміж Y і X . Якщо ж ідентифікується
нелінійна регресійна залежність, то її тип уточнюється процедурою візуалізації ко-
реляційного поля та накладенням на нього типових кривих.

12
Статистичний аналіз, який ґрунтується на процедурах перевірки статистич-
них гіпотез про загальний вигляд регресійної залежності, проводиться на другому
етапі. Найбільш потужні критерії перевірки гіпотези про вигляд функції регресії
запропоновані для лінійної залежності (див. далі перевірку адекватності відтворе-
ної регресійної моделі).

Лінійний регресійний аналіз

Нехай результати спостережень задано масивом Ω 2, N = {( xl , yl ) ; l = 1, N } . Ви-


конуються початкові вимоги лінійного регресійного аналізу, причому має місце
умова (4). На основі процедури ідентифікації встановлено, що поміж Y , X існує
лінійний зв’язок
y ( x ) = a + bx ,
і ставиться задача знайти його оцінку у вигляді
yˆ ( x ) = aˆ + bx
ˆ .

Оцінка параметрів лінійної регресійної залежності

Загальноприйнятим методом оцінки параметрів регресії є метод найменших


квадратів (МНК). При цьому оцінки параметрів регресійної моделі знаходяться з
умови мінімуму функціонала залишкової дисперсії

∑( )
1 N 1 N
∑( )
2
yl − yˆ ( xl )
2
2
SЗал = = yl − aˆ − bx
ˆ
l ,
N − 2 l =1 N − 2 l =1
що формується як сума квадратів відхилень результатів спостережень від лінії ре-
гресії (рис. 4).

Рис. 4. Графічне зображення відхилення


результатів спостережень від лінії регресії

13
2
Необхідна та достатня умова min SЗал визначається СЛАР
a ,b
 ∂SЗал
2
 = 0,
 ∂aˆ
 2
 ∂SЗал = 0,
 ∂bˆ
яка у даному випадку має вигляд
 aˆ + bx
ˆ = y,

ˆ + bx
 ax ˆ 2 = xy,
звідки
y x 2 − x xy xy − x ⋅ y
aˆ = , bˆ = .
x2 − x 2 x −x
2 2

Одержані вирази можна переписати у більш зручному для користування виді:

aˆ =
y x 2 − x xy
=
y x 2 − x xy − y ⋅ x 2 + y ⋅ x 2
=
(
y x2 − x 2 ) − x xy − x ⋅ y = y − bxˆ ,
x2 − x 2 x2 − x 2 x2 − x 2 x2 − x 2
xy − x ⋅ y xy − x ⋅ y xy − x ⋅ y σˆ y σˆ y
bˆ = = = ⋅ = ˆ
rx, y ⋅
x2 − x 2 σˆ 2x σˆ x σˆ y σˆ x σˆ x
Тобто
σˆ y
â = y − bx
ˆ , bˆ = rˆx, y .
σˆ x

Статистичний аналіз відтвореної лінії регресії

Статистичний аналіз відтвореної лінії регресії для випадку


D { y x} = σ y = const зумовлює реалізацію таких процедур:
2

1) інтервальне оцінювання параметрів a , b та перевірка їх значущості;


2) інтервальне оцінювання лінії регресії;
3) побудова довірчого інтервалу для прогнозу нового спостереження;
4) обчислення коефіцієнта детермінації R 2 ;
5) перевірка адекватності відтвореної моделі регресії.

Інтервальне оцінювання параметрів a , b є результат перевірки гіпотез


про рівність параметрів деяким значенням
Η 0 : a = a0 , Η 0 : b = b0 .
Зазначені гіпотези перевіряються на основі t -тесту, який вимагає обчислення
t -статистик
aˆ − a0 bˆ − b0
ta = , tb = , (6)
Sa Sb

14
де Sa та Sb – середньоквадратичні відхилення оцінок параметрів â , b̂ .
Величини Sa та Sb знаходяться за стандартною процедурою методу най-
менших квадратів:
1 x2 SЗал
Sa = SЗал + 2 , Sb = ,
N σ x ( N − 1) σx N −1
де σ 2x – незміщена оцінка дисперсії змінної x .
Якщо гіпотези справедливі, то статистики ta та tb мають t -розподіл Стью-
дента з кількістю степенів вільності ν = N − 2 і виконуються нерівності
aˆ − a0 bˆ − b0
≤ t1−α 2, ν , ≤ t1−α 2, ν .
Sa Sb
Це дозволяє здійснити інтервальне оцінювання параметрів лінійної регресії,
виходячи з нерівностей
aˆ − t1−α 2,ν Sa ≤ a ≤ aˆ + t1−α 2,ν Sa ,
bˆ − t1−α 2,ν Sb ≤ b ≤ bˆ + t1−α 2, ν Sb .
Значущість параметрів a , b перевіряється, покладаючи в (6) a0 = 0 та
b0 = 0 . При цьому якщо гіпотеза H 0 : a = 0 приймається (виконується нерівність
ta ≤ t1−α 2,ν ), це означає, що лінія регресії проходить через початок координат. У
разі прийняття гіпотези Η 0 : b = 0 (виконання нерівності tb ≤ t1−α 2,ν ) говорять про
незначущість регресійного зв’язку.
Інтервальне оцінювання лінійної регресії здійснюється шляхом призна-
чення довірчого γ -імовірного ( γ = 1 − α ) інтервалу. При цьому оцінюється середнє
значення y ( x ) за конкретного значення x . Стандартна похибка ŷ ( x ) становить

{ 
} ( ( ))
2
S( y | x ) = D yˆ ( x ) = E  a + bx − aˆ + bx
ˆ =
 

{ } 2 1
= D {aˆ} + 2 x cov aˆ , bˆ + x 2 D bˆ = SЗал
N
{}
+ Sb2 ( x − x ) .
2

Тоді довірчий інтервал визначається з нерівності


yˆ ( x ) − t1−α 2, ν S( y | x ) ≤ y ( x ) ≤ yˆ ( x ) + t1−α 2,ν S( y | x ) ,
де ν = N − 2 .
Слід наголосити на існуванні двох закономірностей (рис. 5):
1) чим більша є для ∀x різниця x − x , тим ширша є величина довірчого інте-
рвалу, отже, довірчий інтервал розходиться відносно віддалення x від x ;
2) чим більший обсяг вибірки N , тим менша є величина довірчого інтервалу.

15
а б
Рис. 5. Графічне зображення інтервального оцінювання лінійної регресії:
а – N = 30 ; б – N = 300

Якщо ŷ ( x ) розглядати як оцінку єдиного значення y за конкретного x , то


виникає необхідність у побудові довірчого інтервалу для прогнозу нового спо-
стереження (рис. 6), який визначається нерівністю
yˆ ( x ) − t1−α 2,ν S( y| x ) ≤ y ( x ) ≤ yˆ ( x ) + t1−α 2,ν S( y| x ) .
Під час обчислення величини S( y| x ) враховують, що у даному випадку існує
два джерела невизначеності. По-перше, оскільки â та b̂ являють собою оцінки, то
ˆ містить елемент невизначеності. По-друге, присутня похибка ε, яка є части-
â + bx
ною лінійної моделі і яку також треба враховувати, аналізуючи окремі спостере-
ження. З огляду на це величина S( y| x ) стандартної похибки y при заданому x об-
числюється так:
2  1
1 +  + Sb ( x − x ) .
2
S( y| x ) = S(2y| x ) + SЗал
2
= S Зал 2
 N

Рис. 6. Графічне зображення довірчого інтервалу для


прогнозу нового спостереження у випадку лінійної регресії

Означені вище закономірності мають місце й у даному випадку.


Довірчий інтервал для нового спостереження можна апроксимувати таким
довірчим інтервалом:
yˆ ( x ) − t1−α 2,ν SЗал ≤ y ( x ) ≤ yˆ ( x ) + t1−α 2,ν SЗал .

16
Його межі називаються припустимими (або толерантними).
У ході інтерпретації толерантні межі дозволяють припускати, на якій відста-
ні від лінії регресії повинні бути розташовані (1 − α ) ⋅100% спостережень. Напри-
клад, близько 95% спостережень повинні знаходитися на відстані не більшій ніж
2SЗал вище або нижче лінії регресії (рис. 7). А приблизно дві третини даних будуть
розташовані на відстані, не більшій ніж SЗал .

Рис. 7. Графічне зображення толерантних меж


для лінійної регресії

Для наочності нижче наведені толерантні межі, довірчі інтервали для лінії
регресії та прогнозного значення (рис. 8).

Рис. 8. Графічне зображення довірчого оцінювання


лінійної регресії

Коефіцієнт детермінації R 2 – показник, що визначає, якою мірою варіабе-


льність ознаки Y пояснюється поведінкою X. Більш точно, R 2 – це та частка диспе-
рсії Y, яка пояснюється лінійною регресією Y по X. Значення коефіцієнта детермі-
нації обчислюється шляхом піднесення до квадрата значення оцінки коефіцієнта
парної кореляції:
R 2 = rˆx2, y ⋅100% .
Зрозуміло, що R 2 ∈ [0;100] і більші значення R 2 свідчать про «якісне» відт-
ворення лінійної регресії.
Перевірка адекватності відтвореної лінійної моделі регресії y ( x ) = a + bx
17
еквівалента перевірці статистичної гіпотези про значущість параметра b : Η 0 : b = 0 .
Критерій перевірки гіпотези базується на статистиці f:
N
∑ ( yˆ ( xi ) − y )
2

f = i =1 ,
2
SЗал
яка має F -розподіл Фішера з кількістю степенів вільності ν1 = 1, ν 2 = N − s .
У випадку перевірки гіпотези про лінійний зв’язок s = 2 .
Значення f порівнюють із критичним f1−α ,ν1 ,ν 2 і за виконання нерівності
f > f1−α,ν1 ,ν 2
роблять висновок про адекватність та значущість відтвореної залежності.
Зауваження 3. Критерії перевірка гіпотези Η 0 : b = 0 на основі статистик f та
t еквіваленті. Можна показати, що f = t 2 , а як відомо, якщо величина t розподіле-
на за законом Стьютенда з кількістю степенів вільності ν , тоді величина t 2 розпо-
ділена за законом Фішера зі степенями вільності ν1 = 1, ν 2 = ν .
Зауваження 4. Критерій на основі статистики f може бути реалізований для
перевірки адекватності не лише лінійної, а й довільної нелінійної моделі.

Порівняння двох регресійних залежностей

До задач лінійного регресійного аналізу обробки даних належить процедура


порівняння двох або більше регресійних залежностей. Слід відзначити, що по-
дібна задача є актуальна, коли з однієї генеральної сукупності одержані різні вибі-
рки. Отже, нехай за вибірковими даними Ω 2, N1 = { x1,l , y1,l ; l = 1, N1} ,

{ }
Ω 2, N 2 = x2,l , y2,l ; l = 1, N 2 відтворені лінії регресії:
yˆ1 ( x ) = aˆ1 + bˆ1 ( x − x1 ) , yˆ 2 ( x ) = aˆ2 + bˆ2 ( x − x2 ) ,
залишкова дисперсія для яких відповідно визначається так:
N
∑(
y1,l − aˆ1 − bˆ1 ( x1,l − x1 ) )
1 2
1
2
S1,Зал = ,
N1 − 2 l =1
N
∑(
y2,l − aˆ2 − bˆ2 ( x2,l − x2 ) )
2 2
1
2
S2,Зал = .
N 2 − 2 l =1
Необхідно оцінити, чи істотна різниця поміж ŷ1 ( x ) і ŷ2 ( x ) .
Процедура перевірки гіпотези
Η 0 : y1 ( x ) = y2 ( x )
має розбиття на декілька етапів:
1. Спочатку перевіряється гіпотеза про збіг залишкових дисперсій, отже, про
рівність дисперсій залишків:
Η 0 : σ1,2 ε = σ22,ε .

18
Перевірка здійснюється з урахуванням статистичної характеристики
 S1,Зал
2
 2 2
, якщо S1,Зал > S2,Зал
2
,
 2,Зал
S
f =
2
 S2,Зал
 2 , якщо S1,Зал < S2,Зал ,
2 2

 S1,Зал
яка має розподіл Фішера зі степенями вільності ν1 = N1 − 2 , ν 2 = N 2 − 2 . У разі
f ≤ f1−α ,ν1 ,ν 2 головна гіпотеза правильна, при цьому обчислюється зведена оцінка
дисперсії залишків:
( N1 − 2 ) S1,Зал
2
+ ( N 2 − 2 ) S2,Зал
2
S =
2
.
N1 + N 2 − 4
2. У випадку рівності залишкових дисперсій реалізується обчислювальна
схема перевірки гіпотези
Η 0 : b = b1 = b2
на основі статистичної характеристики
bˆ1 − bˆ2
t= , (6)
1 1
S +
( N1 − 1) σ x1 ( N 2 − 1) σ2x2
2

де σ 2x1 , σ2x2 – незміщені оцінки дисперсій x1 , x2 .


Статистична характеристика (6) має t -розподіл із ν = N1 + N 2 − 4 степенями
вільності, тоді:
1) якщо t ≤ t1−α 2,ν , то гіпотеза Η 0 правильна, таким чином, регресійні прямі
є паралельні, а лінії регресії можуть збігатись або різнитися постійними коефіцієн-
тами a1 , a2 ;
2) при t > t1−α 2,ν гіпотеза Η 0 повинна бути відкинута, отже, регресійні прямі
мають різні кути нахилу.
У разі прийняття Η 0 обчислюється bˆ1 = bˆ2 = bˆ :
( N1 − 1) σ2x1 bˆ12 + ( N 2 − 1) σ2x2 bˆ22
bˆ = .
( 1 ) x1 ( 2 ) x2
N − 1 σ 2
+ N − 1 σ 2

3. На завершальному етапі перевіряється


Η 0 : a = a1 = a2
на основі статистичної характеристики
bˆ − bˆ0
t= , (7)
S0
де
y −y
bˆ0 = 1 2 ;
x1 − x2

19
 1  1 1  1
2
=S
S02 + 2N
+  .
 ( N1 − 1) σ2x + ( N 2 − 1) σ2x ( x1 − x2 )  1 2  
N
 1 2

Статистична характеристика (7) має t -розподіл з ν = N1 + N 2 − 4 степенями


вільності, тому якщо t ≤ t1−α 2,ν , то обидві регресійні прямі вважаються ідентич-
ними, у противному разі має місце статистично значущий незбіг.
2 2
Якщо дисперсії залишків S1,Зал , S2,Зал різняться істотно, а отже, гіпотеза про
рівність дисперсій залишків не підтверджується, то для порівняння регресійних
прямих ŷ1 ( x ) , ŷ2 ( x ) адекватних статистичних критеріїв не існує. У цьому випадку
рекомендується застосовувати процедуру порівняння регресій на основі наближе-
них формул шляхом перевірки двох гіпотез. Аналогічно попередньому алгоритму
перевіряється гіпотеза Η 0 : b = b1 = b2 з урахуванням статистичної характеристики
bˆ1 − bˆ2
t= ,
2 2
S1,Зал S2,Зал
+
N1σˆ 2x1 N 2σˆ 2x2
яка має t -розподіл із кількістю степенів вільності
 2  −1 
ν =  0 +
C 2
(1 − C0 )   ,
 N − 2 N2 − 2  
 1  
де
S1,2Зал  S2 S2,2 Зал 
C0 =  1, Зал
+
 N1 σˆ 2x N 2 σˆ 2x
;

[⋅] – ціла частина.
N1 σˆ 2x1  1 2 
Якщо t ≤ t1−α 2,ν , то правильна гіпотеза про збіг кутових коефіцієнтів регресій.
Нижчерозглянута процедура полягає в перевірці гіпотези Η 0 : a = a1 = a2 на
основі статистичної характеристики
bˆ − bˆ0
u= , (8)
S10
де
 N1σˆ 2x N 2σˆ 2x2   N1σˆ 2x N 2σˆ 2x  y −y
b = b1 2
ˆ  ˆ 1
+ b2 2
ˆ   1
+ 2 2 ; bˆ0 = 1 2 ;
 S1, Зал S2, Зал   S1,2Зал S2,  x1 − x2
   Зал 
N 2 S1,2Зал + N1S2,2 Зал S1,2Зал S2,2 Зал
2
S10 = + .
N1N 2 ( x1 − x2 ) N1σˆ 2x1 S2,2 Зал + N 2σˆ 2x2 S1,2Зал
2

Статистична характеристика (8) має нормальний розподіл, тому Η 0 правильна,


коли u ≤ u1−α 2 . Якщо дві наведені гіпотези правильні, робиться висновок про їх випа-
дкову різницю, у противному разі має місце істотна розбіжність поміж ŷ1 ( x ) і ŷ2 ( x ) .

20
Нелінійний регресійний аналіз

У багатьох випадках у процесі ідентифікації кореляційного поля виявляєть-


ся, що треба відтворювати нелінійну регресійну залежність. Нелінійні регресійні
залежності класифікуються на:
1) лінійні відносно параметрів; це поліноми k -го порядку
y ( x ) = a0 + a1x + a2 x 2 + … + ak x k , k ≥ 2 ; (9)
частковим випадком яких є параболічна регресія (рис. 9):
y ( x ) = a + bx + cx 2 . (10)

Рис. 9. Графік параболічної регресійної залежності

2) нелінійні як відносно параметрів, так і відносно аргументів. Цей тип поді-


ляється на регресії:
– ті, що зводяться до лінійної форми відносно параметрів (квазілінійні
функції);
– нелінійні функції відносно параметрів, які не зводяться до лінійної форми.

Відтворення параболічної регресії

Параболічну регресію можна подати двома способами:


1) y ( x ) = a + bx + cx 2 ;
2) через поліноми Чебишева:
y ( x ) = a1ϕ0 ( x ) + b1ϕ1 ( x ) + c1ϕ2 ( x ) , (11)
де ϕ0 ( x ) , ϕ1 ( x ) , ϕ2 ( x ) – поліноми Чебишева
ϕ0 ( x ) ≡ 1 ; ϕ1 ( x ) = x − x ;
N N
∑ xl3 −x ∑ xl2 1 N
x3 − x 2 x
ϕ2 ( x ) = x −
2 l =1 l =1
(x − x)− ∑ xl2 = x 2 − ( x − x ) − x2 ;
N N σˆ x
2
∑ xl2 − Nx 2 l =1

l =1
що ортогональні між собою:

21
N
∑ ϕ j ( xl ) ϕk ( xl ) = 0 , j≠k. (12)
l =1
Нижче наведені процедури відтворення залежностей (10), (11) на основі ма-
сиву даних { xl , yl ; l = 1, N } .
Розглянемо застосування обчислювальної схеми МНК до регресійної залеж-
ності (10). Залишкова дисперсія має вигляд:

∑( )
1 N 2
(1) = yl − aˆ − bx
2 ˆ − cx 2
.
SЗал l ˆ l
N − 3 l =1
2
Умова min SЗал (1) мінімуму залишкової дисперсії еквівалентна
aˆ ,bˆ, cˆ
∂SЗал
2
(1) ∂SЗал
2
(1) ∂SЗал
2
(1)
= 0, = 0, = 0,
∂aˆ ∂bˆ ∂cˆ
що у свою чергу тотожньо розв’язанню СЛАР
1 x x 2   aˆ   y 
   
x 3  ˆ 
x2 x  b  =  xy  , (13)
   
 x 2 4   cˆ   2 
x3 x    x y 
 
N N N N
1 1 1 1
де x =
k
N
∑ xlk , k = 1, 4 ; y =
N
∑ yl ; xy =
N
∑ xl yl ; x y=
2
N
∑ xl2 yl .
l =1 l =1 l =1 l =1
Розв’язуючи дану СЛАР одержують, що
aˆ = y − bx
ˆ − cx
ˆ 2,
а b̂ , ĉ отримують із системи рівнянь

∑( )
 N N N
 b ( xl − x ) + cˆ
∑ xl − x ( xl − x ) = ( yl − y )( xl − x ) , ∑
ˆ 2 2 2
 l =1 l =1 l =1
 N
∑( ) ∑( ) ( )
N 2 N
ˆ
b xl − x ( xl − x ) + cˆ
2 2
xl − x
2 2
= ( yl − y ) xl2 − x 2 . ∑
 l =1 l =1 l =1
Ця система є еквівалентна такій:



σˆ 2x ( x − x x )   bˆ   rˆ σˆ σˆ 
3 2 x, y x y

=
   cˆ  
( )  x − ( x )      ( y − y ) ( x − x ) 
, (14)
 3  2

 x −x x
2 4 2
2 2

де
1 n k
xk = ∑
n i =1
xi , k = 1, 2,3, 4 ;

(x − x ) ∑ ( xl2 − x2 ) ( yl − y ) .
N
1
(y − y) 2 2
=
N l =1

22
Із розв’язку системи (14) знаходять оцінки параметрів регресії b̂ , ĉ :
 4
( )  rˆ ( )( y − y )( x − x )
2
x − x x, y σ
ˆ x σˆ y − x3 − x 2 x
2 2 2

bˆ =  ,
σˆ  x − ( x )  − ( x − x x )
 2 4  2
2
3 2
2
x
 
σˆ ( y − y ) ( x − x ) − ( x − x x ) rˆ σˆ σˆ
2
x
2 2 3 2
x, y x y
cˆ = .
σˆ  x − ( x )  − ( x − x x )
 2 4  2
2
3 2
2
x
 
Наведені вирази і визначають обчислювальну процедуру відтворення пара-
болічної регресії у вигляді (10).
Оцінювання дисперсій та коваріацій параметрів a , b , c здійснюється на ос-
нові дисперсійно-коваріаційної матриці
 D ( aˆ )

cov aˆ , bˆ ( ) cov ( aˆ , cˆ ) 

DCˆ = S Зал
2 −1 
(1) A =  cov aˆ , b
ˆ ( )
D bˆ () ( )
cov bˆ, cˆ  ,

 
 cov ( aˆ , cˆ ) cov bˆ, cˆ
 ( ) D ( cˆ ) 

де A – матриця системи (13).
Оцінка точності параметрів (за аналогією з лінійною моделлю) є результа-
том перевірки гіпотез
Η 0 : a = aˆ , Η 0 : b = bˆ , Η 0 : c = cˆ
на основі статистик
aˆ − a bˆ − b cˆ − c
ta = , tb = , tc = . (15)
D ( aˆ ) D b()
ˆ D ( cˆ )

Якщо виконуються умови ta ≤ t1−α 2,ν , tb ≤ t1−α 2,ν , tc ≤ t1−α 2,ν , де ν = N − 3 , то


відповідні гіпотези приймаються з довірчою імовірністю γ = 1 − α .
Значущість оцінок параметрів перевіряється, покладаючи в (15) a = 0 ,
b = 0, c = 0 .
Базуючись на статистичних характеристиках (15) проводиться інтервальне
оцінювання відповідних параметрів регресії:
aˆ − t1−α 2,v D ( aˆ ) ≤ a ≤ aˆ + t1−α 2,v D ( aˆ ) ,

()
bˆ − t1−α 2,v D bˆ ≤ b ≤ bˆ + t1−α 2,v D bˆ , ()
cˆ − t1−α 2,v D ( cˆ ) ≤ c ≤ cˆ + t1−α 2,v D ( cˆ ) .
Розглянемо відтворення параболічної регресії, що подана через поліноми
Чебишева. У такому разі обчислювальна процедура значно спрощується. Залишко-
ва дисперсія має вигляд

23
∑( )
1 N 2
2
SЗал ( 2) = yl − aˆ1 − bˆ1ϕ1 ( xl ) − cˆ1ϕ2 ( xl ) .
N − 3 l =1
2
З умови min SЗал ( 2 ) , враховуючи (12), одержують систему рівнянь:
aˆ1 , bˆ1 , cˆ1
   N 
   ∑
yl 
N 0 0   aˆ   l =1 
 N  1   N 
0
 ∑ ϕ12 ( xl ) 0   b1  =
ˆ 
    l =1
ϕ1 ( xl ) yl  ,
∑ 
(16)
l =1
  cˆ1  
N   N
   
0 0 ∑ ϕ2 ( xl ) 
2
 ϕ2 ( xl ) yl 

 l =1   l =1 
з якої знаходять оцінки параметрів:
N
1
aˆ1 =
N
∑ yl = y ,
l =1
N N
∑ ϕ1 ( xl ) yl ∑ ( xl − x ) yl ( x − x ) y
bˆ1 = l =1 = l =1 = , (17)
N N
σˆ 2x
∑ ϕ12 ( xl ) ∑ ( xl − x )
2

l =1 l =1
N
∑ ϕ2 ( xl ) yl ϕ2 ( x ) y
cˆ1 = l =1 = .
ϕ22 ( x )
N
∑ ϕ22 ( xl )
l =1
З аналізу виразів (17) випливає, що оцінки â1 , b̂1 повністю збігаються з оцін-
ками для лінійної регресії у вигляді
y ( x) = a + b ( x − x ) ,
що визначається властивостями поліномів Чебишева. Іншими словами, підвищую-
чи степінь полінома, для кожної приєднаної функції ϕk ( x ) обчислюють коефіцієнт
регресії, зберігаючи одержані раніше параметри.
Оцінювання дисперсій та коваріацій параметрів a1 , b1 , c1 здійснюється на ос-
нові дисперсійно-коваріаційної матриці, яка у випадку застосування МНК має вигляд
−1
DCˆ = SЗал
2
( 2) A ,
де A – матриця системи (16).
У даному випадку її елементи дуже легко обчислити, і тим самим одержати
дисперсії відповідних оцінок параметрів:
2 2 2 2 2

( )
SЗал ( 2) SЗал ( 2) SЗал ( 2) SЗал ( 2) SЗал ( 2)
D ( aˆ1 ) = ; D bˆ1 = = ; D ( cˆ1 ) = = .
N σˆ 2x N ϕ22 ( x )
N N
N
∑ ( xl )
ϕ12 ∑ ( xl )
ϕ22
l =1 l =1

24
Оцінка точності та значущості параметрів â1 , b̂1 , ĉ1 , як і раніше, прово-
диться шляхом перевірки гіпотез
Η 0 : a1 = aˆ1 , Η 0 : b1 = bˆ1 , Η 0 : c1 = cˆ1
на основі статистик
aˆ1 − a1 bˆ1 − b1 cˆ1 − c1
ta1 = , tb1 = , tc1 = . (18)
D ( aˆ1 ) D b( 1)
ˆ D ( cˆ1 )

Значущість оцінок параметрів перевіряють, вважаючи a1 = 0 , b1 = 0 , c1 = 0 , на


основі умови ta1 ≤ t1−α 2,ν , tb1 ≤ t1−α 2,ν , tc1 ≤ t1−α 2,ν ( ν = N − 3 ). Якщо хоча б одна з
нерівностей порушується, говорять про «втрату» відповідного члена параболи.
З урахуванням статистичних характеристик (18) проводиться інтервальне
оцінювання відповідних коефіцієнтів регресії:
S Зал (2) SЗал (2) SЗал (2)
aн,в = aˆ1 ∓ t1−α 2, ν , bн,в = bˆ1 ∓ t1−α 2,ν , сн,в = cˆ1 ∓ t1−α 2,ν .
σˆ x N
N N ϕ22 ( x)
Подальший аналіз якості відтворення параболічної регресії передбачає побу-
дову довірчих інтервалів для лінії регресії. Для цього перевіряється гіпотеза
Η 0 : y ( x ) = yˆ ( x ) щодо відхилення оцінки регресії ŷ ( x ) від теоретичної лінії. Її пе-
ревірка здійснюється на основі статистичної характеристики
yˆ ( x ) − y ( x )
t ( x) = ,
S( y | x )
де (за повною аналогією з лінійною моделлю)
1 2 SЗал( 2 ) ϕ2 ( x ) ϕ2 ( x )
S( y | x ) = SЗал( 2 ) + Sb21 ϕ12 ( x ) + Sc21 ϕ22 ( x ) = 1+ 1 2 + 2 ;
N N σˆ x ϕ2 ( x )
2

2 2
SЗал ( 2) SЗал ( 2)
Sb21 = ; Sc21 = .
N σˆ 2x N ϕ22 ( x )
Якщо t ( x ) ≤ t1−α 2,ν , де ν = N − 3 , то гіпотеза Η 0 приймається і проводиться
інтервальне оцінювання параболічної регресії (рис. 10). Межі довірчого інтер-
валу визначаються так:
yˆн,в ( x ) = yˆ ( x ) ∓ t1−α 2,ν S( y | x ) .
Порівняльний аналіз наведених меж із довірчими межами лінійної моделі
показує, що чим вищий порядок регресійної кривої, тим більше розходження дові-
рчих меж за віддалення від середнього x .

25
а б
Рис. 10. Графічне зображення інтервального оцінювання параболічної регресії:
а – N = 30 ; б – N = 300

Побудова довірчого інтервалу для прогнозу нового спостереження здійс-


нюється з урахуванням величини S( y| x0 ) стандартної похибки y при заданому x0:

 1 SЗал( 2 ) ϕ12 ( x ) ϕ22 ( x )


S( y x ) = 2
SЗал ( 2) 1 + + S
 b1 1 ϕ
2 2
( x ) + S ϕ
2 2
c1 2 ( x ) = N +1+ + .
 N σˆ 2x ϕ22 ( x )
0 N
Відповідний довірчий інтервал для нового спостереження y при заданому x0
(рис. 11) такий:
yˆ ( x0 ) − t1−α 2,ν S( y| x ) ≤ y ≤ yˆ ( x0 ) + t1−α 2,ν S( y| x ) , ν = N −3.
0 0

Рис. 11. Графічне зображення довірчого інтервалу для


прогнозу нового спостереження у випадку параболічної регресії

«Швидкий» довірчий інтервал для нового спостереження оцінюється за


аналогією з лінійною регресією шляхом призначення толерантних інтервалів
(рис. 12), межі яких визначають зі співвідношень
yˆ min ( x ) = aˆ1 + bˆ1ϕ1 ( x ) + сˆ1ϕ2 ( x ) − t1−α 2,ν SЗал ( 2 ) ,
yˆ max ( x ) = aˆ1 + bˆ1ϕ1 ( x ) + сˆ1ϕ2 ( x ) + t1−α 2,ν S Зал( 2 ) ,

26
Рис. 12. Графічне зображення толерантних меж
для параболічної регресії

Нижче для наочності показані толерантні межі, довірчі інтервали для лінії
регресії та прогнозного значення (рис. 13).

Рис. 13. Графічне зображення довірчого оцінювання


параболічної регресії

Визначення коефіцієнта детермінації R2 (частки варіабельності ознаки Y ,


поясненої за нелінійною моделлю) здійснюється у загальному випадку за виразом
 N 
∑( yl − yˆ ( xl ) )
2
 
   S 2 ( N − s) 
R 2 = 1 − l =1 Зал
 ⋅100% = 1 − σ2 N − 1  ⋅100% .
y( ) 
N
 ∑ ( yl − y )  
2
 
 l =1 
Можна показати, що коли yˆ ( x ) = aˆ + bx
ˆ , то R 2 = rˆ 2 ⋅100% .
x, y

Перевірка адекватності відтворення параболічної моделі здійснюється анало-


гічно з лінійною моделлю (на основі f статистики).

27
Відтворення квазілінійних регресійних залежностей

Для нелінійних функцій, що зводяться до лінійної форми відносно оцінок


параметрів, реалізуються різні перетворення координат (логарифмування, заміна
змінних та ін.). Після переформування масиву даних до них можна застосувати
МНК. Ортодоксальної теорії нелінійної регресії не існує. Проте зведення до ліній-
ної форми відносно шуканих параметрів дозволяє реалізовувати статистичні кри-
терії лінійної регресії.
Розглянемо у якості прикладу регресійну модель вигляду
ln x
y ( x) = a + .
b
Для знаходження оцінок параметрів за допомогою МНК зведемо регресію до
лінійного виду шляхом заміни змінних
1
t = ln x , z (t ) = y2 ( x ) , A= a, B= .
b
Одержимо лінійну регресійну модель
z ( t ) = A + Bt . (19)
Переформуємо початковий масив {( x , y ); l = 1, N } у масив {( t , z ); l = 1, N } , де
l l l l

tl = ln xl , zl = yl2 . За масивом {( t , z ) ; l = 1, N } відтворимо лінійну модель (19). Згідно


l l

МНК оцінки Â , B̂ обчислюються за такими формулами:


σˆ
Aˆ = z − Bt ˆ , Bˆ = rˆt , z z .
σˆ t
Довірче оцінювання параметрів A , B проводиться як в лінійній моделі:
Aˆ − t1−α 2,v S A ≤ A ≤ Aˆ + t1−α 2,v S A ,
(20)
Bˆ − t1−α 2,v S B ≤ B ≤ Bˆ + t1−α 2,v S B ,
де
1 t2 SЗал
S A = S Зал + ; SB = ;
N σt2 ( N − 1) σt N − 1
1 N
(( ) )
; zˆ ( tl ) = Aˆ + Bt
2
= 2
SЗал ∑ l
N − 2 l =1
z − ˆ
z tl
ˆ .
l

Довірчий інтервал на лінійну регресію z ( t ) будується так:


zˆ ( t ) − t1−α 2,v S ≤ z ( t ) ≤ zˆ ( t ) + t1−α 2,v S ,
( z |t ) ( z |t ) (21)

2 1
+ S B2 ( t − t ) ;
2
де S( z |t ) = SЗал ν = N −2.
N
Враховуючи зв’язок між a та A і b та B
1
a = A, b= ,
B

28
оцінки â , b̂ знаходять як
1
â = Aˆ ,
bˆ = .

Довірче оцінювання параметрів a , b проводять з урахуванням (20):
Aˆ − tα 2,v S A ≤ a ≤ Aˆ + tα 2,v S A ,
1
Bˆ − t1−α 2,v S B ≤ ≤ Bˆ + t1−α 2,v S B ,
b
1 1
≤b≤ .
Bˆ + t1−α 2,v S B Bˆ − t1−α 2,v S B
Довірчий інтервал для лінії регресії y ( x ) будують з урахуванням проведеної
заміни z ( t ) = y 2 ( x ) та формули (21):
zˆ ( t ) − t1−α 2,v S( z |t ) ≤ y 2 ( x ) ≤ zˆ ( t ) + t1−α 2,v S( z |t ) ,
zˆ ( t ) − t1−α 2,v S( z |t ) ≤ y ( x ) ≤ zˆ ( t ) + t1−α 2,v S( z |t ) .

29

You might also like