Professional Documents
Culture Documents
1 Обробка й аналіз двовимірних даних
1 Обробка й аналіз двовимірних даних
Кореляційний аналіз
Кореляційне поле
г д е
Рис. 1. Кореляційні поля: а – зв’язок відсутній; б – додатний лінійний зв’язок;
в – від’ємний лінійний зв’язок; г, д – нелінійний зв’язок; е – випадок неоднорідних даних
r=
{ }=
E ( ξ − E {ξ} ) ( η − E {η} ) cov {ξ, η}
.
D {ξ} D {η} σ {ξ} σ {η}
Коефіцієнт кореляції має властивості:
1) r ≤ 1 ;
2) при r = ±1 між ξ та η існує лінійний функціональний зв’язок ( η = α + βξ ),
у противному разі – лінійний стохастичний зв’язок ( η = α + βξ + ε , де ε – похибка);
3) якщо r = 0 , то ξ та η некорельовані (дане твердження справедливе, оскі-
льки висунуто припущення щодо нормального розподілу величин ξ та η ; у загаль-
ному випадку має місце твердження «якщо ξ та η некорельовані, то r = 0 »).
2
На практиці обробці підлягає масив Ω 2,N , за яким треба зробити висновок
щодо наявності зв’язку між ξ ( ω) та η ( ω) . Оцінка коефіцієнта r за масивом Ω 2,N
здійснюється так:
xy − x ⋅ y
rˆ = ,
σˆ x σˆ y
де
N N N
1 1 1
x=
N
∑ xl , y=
N
∑ yl , xy =
N
∑ ( xl ⋅ yl ) ,
l =1 l =1 l =1
N N
1 1
∑ ( xl − x ) ∑ ( yl − y )
2 2
σˆ x = , σˆ y = .
N l =1
N l =1
Оцінка парного коефіцієнта кореляції має геометричну інтерпретацію як ко-
синус кута ϕ xy поміж векторами спостережень
{
X = xl ; l = 1, N } та {
Y = yl ; l = 1, N . }
І справді,
N
X ⋅Y
∑ ( xl ⋅ yl )
cos ϕ x, y = = l =1 ,
X ⋅Y N N
∑ xl2 ⋅ ∑ yl2
l =1 l =1
тоді, якщо x = 0 та y = 0 при N → ∞ , вираз для оцінки r̂ є еквівалентний наведе-
ному для cos ϕ x, y .
Статистичне значення r̂ завжди є відмінне від нуля. Тому виникає задача
перевірки значущості коефіцієнта кореляції, отже, висувається гіпотеза Η 0 : r = 0 ,
для перевірки якої реалізується статистика
rˆ N − 2
t= .
1 − rˆ 2
rн,в = rˆ +
(
rˆ 1 − rˆ 2 ) ∓u 1 − rˆ 2
.
1−α 2
2N N −1
На практиці дані можуть формуватись у вигляді k масивів
Ω 2, N j = {( xl , yl ) ; l = 1, N j } , j = 1, k . Тоді виникає задача про формування єдиного ма-
сиву даних (за умови збігу відповідних середніх та середньоквадратичних маси-
вів). Під час розв’язання такої задачі можливий випадок перевірки парами та зага-
3
льний випадок, за яких на основі Ω 2, N j , j = 1, k , обчислюють масив {rˆj , j = 1, k } .
Формування парами зумовлює перевірку статистичної гіпотези
Η 0 : r j = rs , j ≠ s
з огляду на статистичну характеристику
z j − zs
u= ,
1 1
+
N j − 3 Ns − 3
де
1 1 + rˆi
zi = ln , i = j, s .
2 1 − rˆi
Величина u нормально розподілена, отже, для заданої помилки першого ро-
ду α перевіряють виконання умови
u ≤ u1−α 2 .
Якщо нерівність виконується, приймається рішення, що коефіцієнти r j , rs
статистично не різняться. У цьому випадку масиви початкових даних
об’єднуються в один, за яким переобчислюється коефіцієнт кореляції.
Для загального випадку здійснюється перевірка гіпотези
Η 0 : r1 = r2 = … = rk
на основі характеристики
2
k
k
∑(
N j −3 zj
)
χ =
2
∑( )
2 j =1
Nj −3 zj − k
,
j =1
∑ ( N j − 3)
j =1
Кореляційне відношення
4
4) якщо ρη2 ξ = 1 , то поміж η та ξ існує функціональний зв’язок;
5) якщо ρη2 ξ = r 2 , то поміж η та ξ існує лінійний регресійний зв’язок.
Оцінювання ρη ξ виконується на основі масиву {xi , yi, j ; j = 1, mi , i = 1, k} , за
яким визначається квадрат оцінки кореляційного відношення:
k
∑ mi ( yi − y )
2
S y2( x )
ρˆ η2 ξ = i =1 = ,
k mi S y2
∑∑ ( yi, j − y )
2
i =1 j =1
f =
( ρˆ η2 ξ − rˆ 2 ) ( k − 2 )
,
( η ξ)
1 − ρ
ˆ 2
( N − k )
яка розподілена за законом Фішера зі степенями вільності ν1 = k − 2 та ν 2 = N − k .
Тому у разі виконання нерівності f ≤ f1−α,ν1 ,ν 2 , головна гіпотеза приймається.
Базуючись на парному коефіцієнті кореляції та кореляційному відношенню фо-
рмулюється правило перевірки наявності зв’язку між двома змінними:
1) обчислюється значення ρˆ η ξ та оцінюється його значущість;
2) у разі прийняття гіпотези Η 0 : ρη2 ξ = 0 робиться висновок про відсутність
стохастичного зв’язку поміж η, ξ;
3) у разі відхилення гіпотези Η 0 : ρη2 ξ = 0 перевіряється гіпотеза Η 0 : ρη2 ξ = r 2 .
Якщо остання гіпотеза приймається, то говорять про наявність лінійного зв’язку
між η, ξ, інакше стверджують існування нелінійного зв’язку.
5
Зауваження 1. Для одержання масиву {xi , yi, j ; j = 1, mi , i = 1, k} на основі
xmax − xmin
Ω 2, N = {( xl , yl ) ; l = 1, N } можна провести розбиття осі X з кроком h =
k
.
Тоді xi = xmin + ( i − 0,5 ) h , i = 1, k . Відповідні yi , j знаходяться з використанням варі-
ант Ω 2, N , для яких xl ∈ [ xi − 0,5h; xi + 0,5h ] .
{rx,l , ry,l ; l = 1, N } ,
де rx,l , ry ,l – ранги, тобто порядкові номери варіант у варіаційних рядах за x та y.
При цьому кожному rx,l приписується номер ry ,l , що відповідає значенню yl ,
або, навпаки, кожному ry ,l приписується відповідний rx,l .
На практиці можливий випадок збігу рангів. Такі ранги називаються
зв’язаними, а їх група – зв’язкою. Для зв’язаних рангів здійснюється їх усереднен-
ня і кожному зв’язаному рангу приписується середнє значення.
Приклад 1. Нехай заданий масив Ω 2,7 = {(10,13) , ( 7,5 ) , (11,10 ) , ( 3,5 ) , ( 7,8 ) ,
(12,15) , ( 5,9 )} . Підсумком ранжування змінної X будуть такі ранги:
Значення xl : 3 5 7 7 10 11 12
Ранги rx : 1 2 3,5 3,5 5 6 7
У результаті ранжування змінної Y одержуємо
Значення yl : 5 5 8 9 10 13 15
Ранги ry : 1,5 1,5 3 4 5 6 7
Після зіставлення рангів за змінною X остаточно маємо
rx : 1 2 3,5 3,5 5 6 7
ry : 1,5 4 1,5 3 6 5 7
Нижчеподана обчислювальна схема визначає ступінь стохастичного зв’язку
поміж rx , ry через наведені коефіцієнти рангової кореляції.
Значення оцінки рангового коефіцієнта кореляції Спірмена τˆ c обчислю-
ється за формулою
6
N
6
τˆ c = 1 − ∑ dl2 ,
(
N N 2 −1 ) l =1
де dl = rx,l − ry ,l .
За наявності зв’язаних рангів оцінка τˆ c визначається таким чином:
( ) ∑(
N
1
)
2
N N −1 −
2
rx,l − ry ,l − A− B
6 l =1
τˆ c = ,
1
6
( )
1
6
2
N N − 1 − 2 A N N − 1 − 2 B
2
( )
∑( ) ∑( )
z p
1 1
де A= A3j − Aj ; B= Bk3 − Bk ;
12 j =1
12 k =1
де z – кількість зв’язок поміж рангами rx ; j – порядковий номер зв’язки;
A j – кількість однакових значень x у зв’язці; так, якщо у першій зв’язці за rx
є два однакових x , то A1 = 2 ; це саме стосується і p , k і Bk за y і ry .
Коефіцієнт рангової кореляції Спірмена має такі властивості:
1) −1 ≤ τc ≤ 1 ;
2) якщо rx,l = ry ,l , l = 1, N , то τc = 1 , що означає повну узгодженість між X і Y ;
3) у разі τc = −1 має місце протилежне впорядкування послідовностей рангів,
тобто повна неузгодженість (від’ємна кореляція);
4) при τc = 0 кореляція відсутня.
Значущість τˆ c визначається на основі гіпотези
Η 0 : τc = 0 ,
для перевірки якої вводиться статистична характеристика
τˆ c N − 2
t= ,
1 − τˆ c2
яка має t -розподіл з кількістю степенів вільності ν = N − 2 .
Оцінка рангового коефіцієнта Кендалла τˆ k визначається за виразом
2S
τˆ k = ,
N ( N − 1)
де
N −1 N 1, якщо ry ,l < ry , j ,
S= ∑∑ νl , j ;
νl , j =
−1, якщо ry ,l > ry , j .
l =1 j =l +1
За наявності зв’язаних рангів оцінка τˆ k обчислюється у такий спосіб
S
τˆ k = ,
1 1
N ( N − 1) − C N ( N − 1) − D
2 2
де
7
1, якщо ry ,l < ry , j та rx,l ≠ rx, j ,
N −1 N
S= ∑∑ νl , j ; νl , j = −1, якщо ry ,l > ry , j та rx,l ≠ rx, j ,
l =1 j =l +1
0, інакше;
z p
∑ A j ( A j − 1) ;
1 1
C= D= Bk ( Bk − 1) .
∑
2 j =1
2 k =1
Для встановлення значущості τˆ k перевіряється гіпотеза
Η 0 : τk = 0
із використанням статистичної характеристики
3τˆ k
u= N ( N − 1) ,
2 ( 2 N + 5)
яка має стандартний нормальний розподіл Ν ( u;0,1) . Отже, якщо u ≤ u1−α 2 , то оці-
нка τˆ k не є значуща.
Коефіцієнт кореляції Кендалла має ті самі властивості, що й коефіцієнт Спі-
рмена. Завжди для одних і тих же масивів τc > τk , а у випадку досить великого N
3
τˆ c ≈ τˆ k .
2
Приклад 2. Для наведеного вище прикладу 1 правильне таке:
1 1 1 1
z = 1 , A1 = 2 , A= (8 − 2 ) = ; p = 1 , B1 = 2 , B= (8 − 2 ) = ;
12 2 12 2
значення рангового коефіцієнта Спірмена дорівнює
7 7
∑( ) ∑ ( rx,l − ry,l )
1 2 1 1 2
⋅ 7 ⋅ 48 − rx,l − ry ,l − − 55 −
6 l =1
2 2 l =1 55 − 10,5
τˆ c = = = = 0,809 .
1 1 55 55
⋅ 7 ⋅ 48 − 1 ⋅ 7 ⋅ 48 − 1
6 6
У процесі оцінювання рангового коефіцієнта Кендалла має місце
7 7 7
v1 = ∑ v1, j = 5 , v2 = ∑ v2, j = 3 − 2 = 1 , v3 = ∑ v3, j = 3 ,
j =2 j =3 j=4
7 7 7
v4 = ∑ v4, j = 3 , v5 = ∑ v5, j = 1 − 1 = 0 , v6 = ∑ v6, j = 1 ,
j =5 j =6 j =7
6
S = ∑ vl = 13 ; С = 1; D = 1;
l =1
9
Слід зазначити, що відтворення саме залежностей типу (1), (3) має найбільше
поширення у відповідному програмному забезпеченні. Пояснюється це тим, що
обчислювальні схеми відтворення регресії зазвичай базуються на методі най-
менших квадратів оцінки параметрів.
Етапами обчислювальної схеми відтворення функції регресії є:
1) перевірка виконання початкових умов регресійного аналізу;
2) ідентифікація вигляду регресійної залежності;
3) вибір типу функції регресії y ( x ) = ϕ ( x; Θ ) та оцінка вектора параметрів Θ̂ ;
4) дослідження якості відтворення регресії.
Для переліку задач обробки даних вводиться процедура порівняння двох або
кількох регресійних залежностей. Якщо мають місце нелінійні залежності, то про-
цедури знаходження оцінок параметрів та довірчого оцінювання відрізняються від
процедури лінійної оцінки.
10
б
Рис. 3. Графічне зображення початкових умов регресійного аналізу:
а – дисперсія y стала; б – дисперсія y пропорційна h ( x )
де
mi k
1 1
yi =
mi
∑ yi, j ; S2 =
N −k
∑ ( mi − 1) S y2( x ) .
i
j =1 i =1
11
Якщо виявиться, що χ 2 > χ12−α,ν , де α – помилка першого роду, то гіпотеза
Η 0 відкидається, отже, порушена умова (4). У цьому випадку висувається гіпотеза
відносно умови (5):
D { y x1} D { y xk }
Η0 : =…= = σ2y .
h 2
( x1 ) h 2
( xk )
Як статистична характеристика використовується статистика
1 k S ′y2( x )
χ′ = −
2
C
∑ mi ln S′
i
2
,
i =1
де
S y2 ( x ) 1 k
S ′y2( x )
i
=
h 2
i
( xi )
; S′ =
2
N −k
∑ ( mi − 1) S ′y2( x ) .
i
i =1
Наступна процедура перевірки гіпотези аналогічна розглянутій вище. Якщо і в
даному випадку головна гіпотеза буде відкинута, маємо порушення другої умови. У
цьому разі необхідно реалізовувати непараметричні процедури відтворення регресії.
Ідентифікація регресії
12
Статистичний аналіз, який ґрунтується на процедурах перевірки статистич-
них гіпотез про загальний вигляд регресійної залежності, проводиться на другому
етапі. Найбільш потужні критерії перевірки гіпотези про вигляд функції регресії
запропоновані для лінійної залежності (див. далі перевірку адекватності відтворе-
ної регресійної моделі).
∑( )
1 N 1 N
∑( )
2
yl − yˆ ( xl )
2
2
SЗал = = yl − aˆ − bx
ˆ
l ,
N − 2 l =1 N − 2 l =1
що формується як сума квадратів відхилень результатів спостережень від лінії ре-
гресії (рис. 4).
13
2
Необхідна та достатня умова min SЗал визначається СЛАР
a ,b
∂SЗал
2
= 0,
∂aˆ
2
∂SЗал = 0,
∂bˆ
яка у даному випадку має вигляд
aˆ + bx
ˆ = y,
ˆ + bx
ax ˆ 2 = xy,
звідки
y x 2 − x xy xy − x ⋅ y
aˆ = , bˆ = .
x2 − x 2 x −x
2 2
aˆ =
y x 2 − x xy
=
y x 2 − x xy − y ⋅ x 2 + y ⋅ x 2
=
(
y x2 − x 2 ) − x xy − x ⋅ y = y − bxˆ ,
x2 − x 2 x2 − x 2 x2 − x 2 x2 − x 2
xy − x ⋅ y xy − x ⋅ y xy − x ⋅ y σˆ y σˆ y
bˆ = = = ⋅ = ˆ
rx, y ⋅
x2 − x 2 σˆ 2x σˆ x σˆ y σˆ x σˆ x
Тобто
σˆ y
â = y − bx
ˆ , bˆ = rˆx, y .
σˆ x
14
де Sa та Sb – середньоквадратичні відхилення оцінок параметрів â , b̂ .
Величини Sa та Sb знаходяться за стандартною процедурою методу най-
менших квадратів:
1 x2 SЗал
Sa = SЗал + 2 , Sb = ,
N σ x ( N − 1) σx N −1
де σ 2x – незміщена оцінка дисперсії змінної x .
Якщо гіпотези справедливі, то статистики ta та tb мають t -розподіл Стью-
дента з кількістю степенів вільності ν = N − 2 і виконуються нерівності
aˆ − a0 bˆ − b0
≤ t1−α 2, ν , ≤ t1−α 2, ν .
Sa Sb
Це дозволяє здійснити інтервальне оцінювання параметрів лінійної регресії,
виходячи з нерівностей
aˆ − t1−α 2,ν Sa ≤ a ≤ aˆ + t1−α 2,ν Sa ,
bˆ − t1−α 2,ν Sb ≤ b ≤ bˆ + t1−α 2, ν Sb .
Значущість параметрів a , b перевіряється, покладаючи в (6) a0 = 0 та
b0 = 0 . При цьому якщо гіпотеза H 0 : a = 0 приймається (виконується нерівність
ta ≤ t1−α 2,ν ), це означає, що лінія регресії проходить через початок координат. У
разі прийняття гіпотези Η 0 : b = 0 (виконання нерівності tb ≤ t1−α 2,ν ) говорять про
незначущість регресійного зв’язку.
Інтервальне оцінювання лінійної регресії здійснюється шляхом призна-
чення довірчого γ -імовірного ( γ = 1 − α ) інтервалу. При цьому оцінюється середнє
значення y ( x ) за конкретного значення x . Стандартна похибка ŷ ( x ) становить
{
} ( ( ))
2
S( y | x ) = D yˆ ( x ) = E a + bx − aˆ + bx
ˆ =
{ } 2 1
= D {aˆ} + 2 x cov aˆ , bˆ + x 2 D bˆ = SЗал
N
{}
+ Sb2 ( x − x ) .
2
15
а б
Рис. 5. Графічне зображення інтервального оцінювання лінійної регресії:
а – N = 30 ; б – N = 300
16
Його межі називаються припустимими (або толерантними).
У ході інтерпретації толерантні межі дозволяють припускати, на якій відста-
ні від лінії регресії повинні бути розташовані (1 − α ) ⋅100% спостережень. Напри-
клад, близько 95% спостережень повинні знаходитися на відстані не більшій ніж
2SЗал вище або нижче лінії регресії (рис. 7). А приблизно дві третини даних будуть
розташовані на відстані, не більшій ніж SЗал .
Для наочності нижче наведені толерантні межі, довірчі інтервали для лінії
регресії та прогнозного значення (рис. 8).
f = i =1 ,
2
SЗал
яка має F -розподіл Фішера з кількістю степенів вільності ν1 = 1, ν 2 = N − s .
У випадку перевірки гіпотези про лінійний зв’язок s = 2 .
Значення f порівнюють із критичним f1−α ,ν1 ,ν 2 і за виконання нерівності
f > f1−α,ν1 ,ν 2
роблять висновок про адекватність та значущість відтвореної залежності.
Зауваження 3. Критерії перевірка гіпотези Η 0 : b = 0 на основі статистик f та
t еквіваленті. Можна показати, що f = t 2 , а як відомо, якщо величина t розподіле-
на за законом Стьютенда з кількістю степенів вільності ν , тоді величина t 2 розпо-
ділена за законом Фішера зі степенями вільності ν1 = 1, ν 2 = ν .
Зауваження 4. Критерій на основі статистики f може бути реалізований для
перевірки адекватності не лише лінійної, а й довільної нелінійної моделі.
{ }
Ω 2, N 2 = x2,l , y2,l ; l = 1, N 2 відтворені лінії регресії:
yˆ1 ( x ) = aˆ1 + bˆ1 ( x − x1 ) , yˆ 2 ( x ) = aˆ2 + bˆ2 ( x − x2 ) ,
залишкова дисперсія для яких відповідно визначається так:
N
∑(
y1,l − aˆ1 − bˆ1 ( x1,l − x1 ) )
1 2
1
2
S1,Зал = ,
N1 − 2 l =1
N
∑(
y2,l − aˆ2 − bˆ2 ( x2,l − x2 ) )
2 2
1
2
S2,Зал = .
N 2 − 2 l =1
Необхідно оцінити, чи істотна різниця поміж ŷ1 ( x ) і ŷ2 ( x ) .
Процедура перевірки гіпотези
Η 0 : y1 ( x ) = y2 ( x )
має розбиття на декілька етапів:
1. Спочатку перевіряється гіпотеза про збіг залишкових дисперсій, отже, про
рівність дисперсій залишків:
Η 0 : σ1,2 ε = σ22,ε .
18
Перевірка здійснюється з урахуванням статистичної характеристики
S1,Зал
2
2 2
, якщо S1,Зал > S2,Зал
2
,
2,Зал
S
f =
2
S2,Зал
2 , якщо S1,Зал < S2,Зал ,
2 2
S1,Зал
яка має розподіл Фішера зі степенями вільності ν1 = N1 − 2 , ν 2 = N 2 − 2 . У разі
f ≤ f1−α ,ν1 ,ν 2 головна гіпотеза правильна, при цьому обчислюється зведена оцінка
дисперсії залишків:
( N1 − 2 ) S1,Зал
2
+ ( N 2 − 2 ) S2,Зал
2
S =
2
.
N1 + N 2 − 4
2. У випадку рівності залишкових дисперсій реалізується обчислювальна
схема перевірки гіпотези
Η 0 : b = b1 = b2
на основі статистичної характеристики
bˆ1 − bˆ2
t= , (6)
1 1
S +
( N1 − 1) σ x1 ( N 2 − 1) σ2x2
2
19
1 1 1 1
2
=S
S02 + 2N
+ .
( N1 − 1) σ2x + ( N 2 − 1) σ2x ( x1 − x2 ) 1 2
N
1 2
20
Нелінійний регресійний аналіз
l =1
що ортогональні між собою:
21
N
∑ ϕ j ( xl ) ϕk ( xl ) = 0 , j≠k. (12)
l =1
Нижче наведені процедури відтворення залежностей (10), (11) на основі ма-
сиву даних { xl , yl ; l = 1, N } .
Розглянемо застосування обчислювальної схеми МНК до регресійної залеж-
ності (10). Залишкова дисперсія має вигляд:
∑( )
1 N 2
(1) = yl − aˆ − bx
2 ˆ − cx 2
.
SЗал l ˆ l
N − 3 l =1
2
Умова min SЗал (1) мінімуму залишкової дисперсії еквівалентна
aˆ ,bˆ, cˆ
∂SЗал
2
(1) ∂SЗал
2
(1) ∂SЗал
2
(1)
= 0, = 0, = 0,
∂aˆ ∂bˆ ∂cˆ
що у свою чергу тотожньо розв’язанню СЛАР
1 x x 2 aˆ y
x 3 ˆ
x2 x b = xy , (13)
x 2 4 cˆ 2
x3 x x y
N N N N
1 1 1 1
де x =
k
N
∑ xlk , k = 1, 4 ; y =
N
∑ yl ; xy =
N
∑ xl yl ; x y=
2
N
∑ xl2 yl .
l =1 l =1 l =1 l =1
Розв’язуючи дану СЛАР одержують, що
aˆ = y − bx
ˆ − cx
ˆ 2,
а b̂ , ĉ отримують із системи рівнянь
∑( )
N N N
b ( xl − x ) + cˆ
∑ xl − x ( xl − x ) = ( yl − y )( xl − x ) , ∑
ˆ 2 2 2
l =1 l =1 l =1
N
∑( ) ∑( ) ( )
N 2 N
ˆ
b xl − x ( xl − x ) + cˆ
2 2
xl − x
2 2
= ( yl − y ) xl2 − x 2 . ∑
l =1 l =1 l =1
Ця система є еквівалентна такій:
σˆ 2x ( x − x x ) bˆ rˆ σˆ σˆ
3 2 x, y x y
=
cˆ
( ) x − ( x ) ( y − y ) ( x − x )
, (14)
3 2
x −x x
2 4 2
2 2
де
1 n k
xk = ∑
n i =1
xi , k = 1, 2,3, 4 ;
(x − x ) ∑ ( xl2 − x2 ) ( yl − y ) .
N
1
(y − y) 2 2
=
N l =1
22
Із розв’язку системи (14) знаходять оцінки параметрів регресії b̂ , ĉ :
4
( ) rˆ ( )( y − y )( x − x )
2
x − x x, y σ
ˆ x σˆ y − x3 − x 2 x
2 2 2
bˆ = ,
σˆ x − ( x ) − ( x − x x )
2 4 2
2
3 2
2
x
σˆ ( y − y ) ( x − x ) − ( x − x x ) rˆ σˆ σˆ
2
x
2 2 3 2
x, y x y
cˆ = .
σˆ x − ( x ) − ( x − x x )
2 4 2
2
3 2
2
x
Наведені вирази і визначають обчислювальну процедуру відтворення пара-
болічної регресії у вигляді (10).
Оцінювання дисперсій та коваріацій параметрів a , b , c здійснюється на ос-
нові дисперсійно-коваріаційної матриці
D ( aˆ )
cov aˆ , bˆ ( ) cov ( aˆ , cˆ )
DCˆ = S Зал
2 −1
(1) A = cov aˆ , b
ˆ ( )
D bˆ () ( )
cov bˆ, cˆ ,
cov ( aˆ , cˆ ) cov bˆ, cˆ
( ) D ( cˆ )
де A – матриця системи (13).
Оцінка точності параметрів (за аналогією з лінійною моделлю) є результа-
том перевірки гіпотез
Η 0 : a = aˆ , Η 0 : b = bˆ , Η 0 : c = cˆ
на основі статистик
aˆ − a bˆ − b cˆ − c
ta = , tb = , tc = . (15)
D ( aˆ ) D b()
ˆ D ( cˆ )
()
bˆ − t1−α 2,v D bˆ ≤ b ≤ bˆ + t1−α 2,v D bˆ , ()
cˆ − t1−α 2,v D ( cˆ ) ≤ c ≤ cˆ + t1−α 2,v D ( cˆ ) .
Розглянемо відтворення параболічної регресії, що подана через поліноми
Чебишева. У такому разі обчислювальна процедура значно спрощується. Залишко-
ва дисперсія має вигляд
23
∑( )
1 N 2
2
SЗал ( 2) = yl − aˆ1 − bˆ1ϕ1 ( xl ) − cˆ1ϕ2 ( xl ) .
N − 3 l =1
2
З умови min SЗал ( 2 ) , враховуючи (12), одержують систему рівнянь:
aˆ1 , bˆ1 , cˆ1
N
∑
yl
N 0 0 aˆ l =1
N 1 N
0
∑ ϕ12 ( xl ) 0 b1 =
ˆ
l =1
ϕ1 ( xl ) yl ,
∑
(16)
l =1
cˆ1
N N
0 0 ∑ ϕ2 ( xl )
2
ϕ2 ( xl ) yl
∑
l =1 l =1
з якої знаходять оцінки параметрів:
N
1
aˆ1 =
N
∑ yl = y ,
l =1
N N
∑ ϕ1 ( xl ) yl ∑ ( xl − x ) yl ( x − x ) y
bˆ1 = l =1 = l =1 = , (17)
N N
σˆ 2x
∑ ϕ12 ( xl ) ∑ ( xl − x )
2
l =1 l =1
N
∑ ϕ2 ( xl ) yl ϕ2 ( x ) y
cˆ1 = l =1 = .
ϕ22 ( x )
N
∑ ϕ22 ( xl )
l =1
З аналізу виразів (17) випливає, що оцінки â1 , b̂1 повністю збігаються з оцін-
ками для лінійної регресії у вигляді
y ( x) = a + b ( x − x ) ,
що визначається властивостями поліномів Чебишева. Іншими словами, підвищую-
чи степінь полінома, для кожної приєднаної функції ϕk ( x ) обчислюють коефіцієнт
регресії, зберігаючи одержані раніше параметри.
Оцінювання дисперсій та коваріацій параметрів a1 , b1 , c1 здійснюється на ос-
нові дисперсійно-коваріаційної матриці, яка у випадку застосування МНК має вигляд
−1
DCˆ = SЗал
2
( 2) A ,
де A – матриця системи (16).
У даному випадку її елементи дуже легко обчислити, і тим самим одержати
дисперсії відповідних оцінок параметрів:
2 2 2 2 2
( )
SЗал ( 2) SЗал ( 2) SЗал ( 2) SЗал ( 2) SЗал ( 2)
D ( aˆ1 ) = ; D bˆ1 = = ; D ( cˆ1 ) = = .
N σˆ 2x N ϕ22 ( x )
N N
N
∑ ( xl )
ϕ12 ∑ ( xl )
ϕ22
l =1 l =1
24
Оцінка точності та значущості параметрів â1 , b̂1 , ĉ1 , як і раніше, прово-
диться шляхом перевірки гіпотез
Η 0 : a1 = aˆ1 , Η 0 : b1 = bˆ1 , Η 0 : c1 = cˆ1
на основі статистик
aˆ1 − a1 bˆ1 − b1 cˆ1 − c1
ta1 = , tb1 = , tc1 = . (18)
D ( aˆ1 ) D b( 1)
ˆ D ( cˆ1 )
2 2
SЗал ( 2) SЗал ( 2)
Sb21 = ; Sc21 = .
N σˆ 2x N ϕ22 ( x )
Якщо t ( x ) ≤ t1−α 2,ν , де ν = N − 3 , то гіпотеза Η 0 приймається і проводиться
інтервальне оцінювання параболічної регресії (рис. 10). Межі довірчого інтер-
валу визначаються так:
yˆн,в ( x ) = yˆ ( x ) ∓ t1−α 2,ν S( y | x ) .
Порівняльний аналіз наведених меж із довірчими межами лінійної моделі
показує, що чим вищий порядок регресійної кривої, тим більше розходження дові-
рчих меж за віддалення від середнього x .
25
а б
Рис. 10. Графічне зображення інтервального оцінювання параболічної регресії:
а – N = 30 ; б – N = 300
26
Рис. 12. Графічне зображення толерантних меж
для параболічної регресії
Нижче для наочності показані толерантні межі, довірчі інтервали для лінії
регресії та прогнозного значення (рис. 13).
27
Відтворення квазілінійних регресійних залежностей
2 1
+ S B2 ( t − t ) ;
2
де S( z |t ) = SЗал ν = N −2.
N
Враховуючи зв’язок між a та A і b та B
1
a = A, b= ,
B
28
оцінки â , b̂ знаходять як
1
â = Aˆ ,
bˆ = .
Bˆ
Довірче оцінювання параметрів a , b проводять з урахуванням (20):
Aˆ − tα 2,v S A ≤ a ≤ Aˆ + tα 2,v S A ,
1
Bˆ − t1−α 2,v S B ≤ ≤ Bˆ + t1−α 2,v S B ,
b
1 1
≤b≤ .
Bˆ + t1−α 2,v S B Bˆ − t1−α 2,v S B
Довірчий інтервал для лінії регресії y ( x ) будують з урахуванням проведеної
заміни z ( t ) = y 2 ( x ) та формули (21):
zˆ ( t ) − t1−α 2,v S( z |t ) ≤ y 2 ( x ) ≤ zˆ ( t ) + t1−α 2,v S( z |t ) ,
zˆ ( t ) − t1−α 2,v S( z |t ) ≤ y ( x ) ≤ zˆ ( t ) + t1−α 2,v S( z |t ) .
29