You are on page 1of 14

МІЖРЕГІОНАЛЬНА

АКАДЕМІЯ УПРАВЛІННЯ ПЕРСОНАЛОМ


Інститут комп'ютерно інформаційних технологій та дизайну

ЗАЛІКОВА РОБОТА

з дисципліни: «Емпіричні методи програмної інженерії»

Прізвище та ініціали викладача: Чолишкіна О.Г.

Виконавець: Кулібаба Роман Сергійович

Київ - 2022
Завдання 1. Описова статистика.

Приклад. На основі наведених нижче результатів багаторазових спостережень за


величиною Х потрібно виконати наступні процедури:

1. скласти варіаційний ряд та статистичний розподіл абсолютних і відносних


частот;
2. побудувати полігон частот, емпіричну функцію розподілу відносних частот
(кумулятивну криву) ;
3. розрахувати точкові оцінки параметричних та непараметричних характеристик
положень (середнє арифметичне, моду, медіану), розсіяння (виправлену
дисперсію та середнє квадратичне відхилення результатів вимірювання);
4. скласти інтервальний статистичний розподіл частот, розбивши проміжок [хmax,
хmin] на 5 рівних інтервалів, і побудувати гістограму частот.

Результати спостережень:

37, 33, 33, 32, 37, 30, 40, 34, 35, 34, 36, 35, 41, 32, 40, 34, 31, 39, 38, 35 (1)

Розв'язання:

У даному експерименті. обсяг вибірки n = 20.

Для визначення розмаху вибірки R знайдемо варіанти хmax = 41,хmin = 30, звідки R = хmax
- хmin = 41 - 30 = 11.

1) Для запису варіаційного ряду ранжируємо вибірку (1) за зростанням:

30, 31, 32, 32, 33, 33, 34, 34, 34, 35, 35, 35, 36, 37, 37, 38, 39, 40, 40, 41 (2)

Побудуємо статистичні розподіли абсолютних частот ni та відносних частот wі =


ni /n, для чого з ряду (2) виберемо варіанти хi, (і =1,2, …,12) та кількість повторень
кожної із них і складемо відповідні таблиці:

Варіанти 3 3 3 3 3 3 3 3 3 3 4 4
хi 0 1 2 3 4 5 6 7 8 9 0 1
Частоти 1 1 2 2 3 3 1 2 1 1 2 1
ni

(3)

Варіа 3 3 3 3 3 3 3 3 3 3 4 4
нти хi 0 1 2 3 4 5 6 7 8 9 0 1

Відно 1 1 2 2 3 3 1 2 1 1 2 1
сні / / / / / / / / / / / /
частот 2 2 2 2 2 2 2 2 2 2 2 2
и ni 0 0 0 0 0 0 0 0 0 0 0 0

(4)

2) Побудуємо полігон частот:

Для цього відкладемо на осі абсцис значення варіант xi, а на осі ординат —
значення відповідних їм частот ni і послідовно з’єднаємо між собою точки (xi, ni)
відрізками.

Рис. 1. Полігон частот


[ ( ( ( ( 3 ( ( ( 3 ( ( (
В ; 3 3 3 3 ( 3 3 3 ( 3 4 4
а 3 0 1 2 3 4 5 6 7 8 9 0 1
р 0 ; ; ; ; ; ; ; ; ; ; ; ;
і ] 3 3 3 3 3 3 3 3 3 4 4 )
н 1 2 3 4 5 6 7 8 9 0 1
т ] ] ] ] ] ] ] ] ] ] ]
и
х
i

0 1/ 2/ 4/ 6/ 9/ 1 1 1 1 1 1 2
2 2 2 2 2 2/ 3/ 5/ 6/ 7/ 9/ 0
0 0 0 0 0 2 2 2 2 2 2 /
0 0 0 0 0 0 2
0. 0. 0. 0. 0. 0
0 1 2 3 4 0. 0. 0. 0. 0. 0.
5 0 0 0 5 6 6 7 8 8 9 1
0 5 5 0 5 5

Обчислимо значення емпіричної функції розподілу відносних частот

Рис. 2. Емпірична функція розподілу відносних частот

3) Розрахуємо точкові оцінки параметричних та не параметричних положень:

а) Середнє арифметичне вибіркове обчислюємо за формулою

= 30 * 0.05 + 31 * 0.05 + 32 * 0.1 + 33 * 0.1 + 34 * 0.15 + 35 * 0.15 + 36 * 0.05 + 37 * 0.1 +


38 * 0.05 + 39 * 0.05 + 40 * 0.1 + 41 * 0.05 = 35.3

Отже = 35.3.

б) Мода Мо = 34; 35 (вибірка бімодальна).

в) Оскільки обсяг вибірки парне число n = 2k то для обчислення медіани Mе


використовується формула , тобто у нашому прикладі
Ме = = 0.5(35+35) = 35.

г) Вибіркову дисперсію та виправлену вибіркову дисперсію обчислюємо за формулами

та

відповідно:

= (302 * 1 + 312 * 1 + 322 * 2 + 332 * 2 + 342 *3 + 352 * 3 + 362 *1 + 372 *2 + 382 * 1+ 392 *1 +
402 * 2 + 412) – 35,32 = 25110 - 1246.09= 1255.5 – 1246.09 = 9.41,

д)Середньо квадратичне відхилення та виправлення середньо квадратичне


відхилення відповідно мають значення:

4) Складемо інтервальний статистичний розподіл частот, розбивши проміжок [хmax, хmin]


= [30; 41] на 5 рівних інтервалів, довжиною h.

Інтервал [30; 32,2] (32,2; 34,4] (34,4; 36,6] (36,6; 38,8] (38,8; 41]

Частота 4 5 4 3 4

Для побудови гістограми обчислимо щільності частоти:

і побудуємо гістограму частот.

Завдання 2. Інтервальні оцінки параметрів розподілу


В багатьох випадках для невідомих параметрів потрібно знайти не точкову
оцінку, а інтервальну, тобто побудувати інтервал, який з наперед заданою
ймовірністю утримує невідоме значення параметра.
Нехай f1(х1,х2,...,хп) і f2(х1,х2,...,хп) - деякі функції від вибіркових значень для яких
завжди f1 ≤ f2; β — деяке дійсне число з інтервалу (0;1) (його називають надійним
рівнем).
Якщо для параметра α теоретичного закону розподілу виконується
співвідношення

Р{f1≤ α ≤ f2}≥ β, (1)

f1 і f2 називають надійними межами для цього параметра, а інтервал (f1 ; f2)


надійним (довірчим) інтервалом, що відповідають надійному рівню β.
Зауваження. Замість співвідношення (1) інколи пишуть

Р{f1<α < f2}= β або Р{f1≤ α ≤ f2}= β.

Надійні межі для математичного сподівання при довільному законі


розподілу генеральної сукупності. Нехай х1, х2, ..., хп — вибірка з генеральної
сукупності, розподіле­ної за довільним законом з параметрами а і σ2. Тоді величини
хi (і =1, n) є однаково розподіленими незалежними випадковими величинами, що
2
ма­ють математичне сподівання а і дисперсію σ . Згідно з теоремою
Ліндеберга-Леві, при п → ∞

Звідси випливає, що

де Ф(t) - функція Лапласа.

Отже, при великих значеннях об'єму вибірки справедлива наближена рівність

(2 9)

Таким чином, якщо задано надійний рівень β то надійним інтервалом для


невідомого математичного сподівання а буде проміжок

(3)

де - корінь рівняння

Ф( ) = 0,5β (4)
При відомій дисперсії σ2 задача побудови довірчого інтервалу для
математичного сподівання повністю розв'язана.

Розв'яжемо задачу, припустивши додатково, що генеральна сукупність


розподілена за нормальним законом.

Приклад. Знайти надійний інтервал для оцінки математичного сподівання, якщо


надійний рівень β = 0,99; генеральне середнє квадратичне відхилення σ = 10;
вибіркове середнє значення х = 12; об'єм вибірки п = 100.
Розв'язання. Дисперсія σ2 відома, тому надійний інтервал матиме структуру
(3). З рівняння (4), яке для даного випадку приймає вигляд
Ф()=0,495,
за таблицею значень функції Лапласа Ф() знаходимо =2,57.
Отже, надійний інтервал
Надійний рівень 0,99 вказує на те, що якщо проведено досить велику кількість
вибі­рок, то приблизно в 99 % випадків одержані інтервали будуть накривати
не­відомий параметр а, і лише в 1 % випадків значення а може лежати за межами
такого інтервалу.
Відповідь. Надійний інтервал для невідомого математичного сподівання а є

Завдання 3. Лінійна кореляція.


В практиці статистичних досліджень замість умовних математичних сподівань
використовують умовні середні значення.
Умовним середнім значенням ух називають середнє арифметичне значень
випадкової величини Y, які відповідають значенню випадкової величини Y,, що
дорівнює х .
Умовним середнім значенням ху називають середнє арифметичне значень
випадкової величини Х, які відповідають значенню випадкової величини Y, що
дорівнює у
Кореляційною залежністю Y від X називають функціональну залежність
умовного середнього від х :

(1)

Рівняння (1) називається рівнянням регресії Y на X ; функцію f (х) називають


регресією Y на X, а її графік — кривою (лінією) регресії Y на X.
Кореляційною залежністю X від Y називають функціональну залежність
умовного середнього від у :

(2)

Рівняння (2) називають рівнянням регресії X на Y; функцію g(у) називають


регресією X на Y, а її графік — кривою (лінією) регресії X на Y.

На практиці часто зустрічається випадок лінійних функцій регресії.

Якщо обидві функції регресії f(х) і g(у) лінійні, то кореляцію називають


лінійною.

Для лінійного кореляційного зв'язку функції регресії мають вигляд:

f(х) = ах + b, (3)

g(у) = су + d. (4)

Обидві лінії регресії в цьому випадку є прямими лініями. Задача полягає в тому,
щоб за результатами вибірки відшукати значення невідомих коефіцієнтів a, b; с, d.
Припустимо, що проведено п незалежних дослідів, внаслідок чого отримано п
пар чисел (x1,у1), (х2;у2), …, (хп; yп). Ці пари чисел можна розглядати як випадкову
вибірку з генеральної сукупності всіх можливих значень випадкового вектора (X,
Y). Величини і рівняння, знайдені за результатами вибірки, називатимемо
вибірковими. Розглянемо спочатку найпростіший випадок, коли різні значення
величини X і відповідні їм значення величини Y спостерігались по одному разу.
Тоді немає необхідності користуватись поняттям умовного середнього значення і
рівняння регресій (1), (2) можна записати у вигляді

у = ах + b , (5)

х = су + d . (6)

На початку XIX ст. Лежандр і Гаус (незалежно один від одного) запропонували
метод, який широко використовується для побудови емпіричних формул. Суть
методу полягає в тому, що коефіцієнти формул вибираються так, щоб сума
квадратів відхилень значень, які спостерігались, від їх істинного значення була
мінімальною. Сам метод називають методом найменших квадратів або методом
Гауса.
Знайдемо, наприклад, вибіркове рівняння регресії (5) за допомогою методу
Гауса. Істинним будемо вважати значення Y, яке обчислюється для відповідного
значення х, за формулою

Утворимо суму квадратів відхилень

і підберемо коефіцієнти a і b так, щоб

Q (a; b) = Qmin

Для відшукання мінімуму прирівнюємо до 0 відповідні частинні похідні

Після елементарних перетворень отримаємо систему рівнянь

(7)

Розв'язавши систему (7) за правилом Крамера, дістанемо:

(8)

(9)

Підставивши отримані значення а і b в рівняння (5) будемо мати вибіркове


рівняння регресії Y на X. Аналогічно можна знайти вибіркове рівняння регресії X
на Y .

Приклад 1. Знайти вибіркове рівняння прямої лінії регресії Y на X за


результатами вибірки

xi 2 4 6 8 10

yi 4,5 7,0 8,0 7,5 9,0

Розв'язання. Коефіцієнти а і b рівняння (5) обчислимо за формулами (8), (9). Для


цього утворимо розрахункову таблицю
xi yi xi 2 xi yi

2 4,5 4 9,0

4 7,0 16 28,0

6 8,0 36 48,0

8 7,5 64 60,0

10 9 100 90

Підставивши обчислені в розрахунковій таблиці суми у формули (8), (9),


дістанемо значення шуканих параметрів:

Отже, шукане рівняння регресії у = 0,475x + 4,35.

Примітка. Результати вибірки можна зобразити точками на площині відносно


прямокутної системи координат (на осі абсцис відкладено значення величини X, а
на осі ординат - значення величини Y),

Сукупність точок (xi; уi) називається полем кореляції. З'єднавши точки (xi; уi)
відрізками, отримаємо ламану лінію, яку називають емпіричною лінією регресії.
За виглядом ламаної можна зробити висновок про форму кореляційного зв'язку.

Вище ми отримали систему рівнянь (7) для визначення параметрів а і b в


припущенні, що значення X, і відповідні їм значення Y спостерігались по одному
разу. При великому числі спостережень одне і те ж значення х може зустрітись пx
разів, одне і те ж значення у може зустрітись nу разів, одна і та ж пара (х; у) може
зустрітися пxy, разів. Тому результати спостережень і групують, тобто підраховують
частоти пх, пy, пxy. Всі згруповані дані записують у вигляді таблиці
x1 x2 xk ny

y1 n11 n21 nk1 ny1

y2 n12 n22 nk2 ny2

ym n1m n2m nkm nym

nx nx1 nx2 nxk n

яку називають кореляційною. Зрозуміло, що деякі з частот пxy можуть


дорівнювати нулю. В першому рядку таблиці вказано спостережувані
значення X, а в першому стовпчику — відповідні значення Y. На перетині рядків і
стовпчиків записано частоти пxy пар значень, що спостерігались. В останньому
стовпчику записано суми частот рядків, а в останньому рядку - суми частот
стовпчиків. В клітці, розміщеній в нижньому правому куті таблиці, записано число
всіх спостережень п. Очевидно, що

Припустимо, що результати спостережень задано з допомогою кореляційної


таблиці. Систему рівнянь (7) перепишемо так, щоб вона відображала дані цієї
таблиці. Для цього скористаємося очевидними тотожностями:
,

Підставивши праві частини тотожностей в систему (7), дістанемо систему рівнянь


для визначення невідомих параметрів а і b:

(10)
Відповідно до формул (8), (9) розв'язок системи (10) запишемо у вигляді

(11)

(12)

Отже, рівняння регресії Y на X, можна записати у вигляді

. (13)

З рівняння (13) випливає, що

(14)

Число , яке обчислюється за формулою

(15)

називають вибірковим коефіцієнтом регресії Y на X.

Якщо врахувати, що то формулу (15) можна переписати у вигляді

(16)

Помноживши ліву і праву частини рівності (16) на число Sх/Sу дістанемо рівність

(17)

Число rb, яке обчислюється за формулою

(18)

називають вибірковим коефіцієнтом кореляції.


Таким чином,
(19)

рівняння (14) набуває вигляду

(20)

Цілком аналогічно можна отримати рівняння регресії X на Y у вигляді


(21)

В рівняннях (20), (21) беруть участь вибіркові середні квадратичні

відхилення: .

Приклад. Знайти вибірковий коефіцієнт кореляції і рівняння прямої лiнії регресії


Yна X за даними кореляційної таблиці

X
0,5 0,6 0,7 0,8 0,9 ny
Y

0,5 0 0 2 21 1 24

0,6 2 4 12 14 0 32

0,7 0 2 3 0 0 5

0,8 8 9 1 0 0 18

nx 10 15 18 35 1 79

Розв'язання. Вибірковий коефіцієнт кореляції обчислюємо за формулою (18),


тобто

а рівняння регресії має вигляд (20), тобто


Отже, потрібно обчислити

Маємо:
Отже,
Рівняння регресії: або остаточно

= - 0,35x + 0,87.

Відповідь. Вибірковий коефіцієнт кореляції дорівнює -0,41, а рівняння регресії


має вигляд прямої = - 0,35x + 0,87.

¨ Список літератури

1. Гмурман В. Е. Руководство к решению задач по теории вероятностей и


математической статистике. — М.: Высш. шк., 1999.

2. Конет І.М. Теорія ймовірностей та математична статистика в прикладах


та задачах. – Кам’янець –Подільський: Абетка, 2001. – 217 с.

3. Боровков А.А. Математическая статистика: Оценка параметров. Проверка


гипотез. – М.: Наука, 1984. – 472 с.

4. Жлуктенко В. І., Наконечний С. І. Практикум з математичної статистики.


— К.: Вид-во КІНГ, 1991.

You might also like