You are on page 1of 8

§11. Елементи математичної статистики. Основні поняття.

Статистичні
оцінки параметрів розподілу. Точкові оцінки характеристик.
Математичною статистикою називається наука, яка займається розробкою методів відбору,
опису і аналізу дослідних даних з метою вивчення закономірностей випадкових масових явищ. В
свою чергу, встановлення цих закономірностей базується на вивченні методами теорії
ймовірностей статистичних даних – результатів досліду або спостережень.
Найбільш важливі задачі математичної статистики можна умовно розділити на дві групи:
перша група – вказати способи відбору і групування статистичних даних,
друга група – розробити методи аналізу статистичних даних в залежності від мети дослідження.
До другої групи відносяться такі задачі:
а) Оцінка невідомої функції розподілу: - в результаті незалежних спроб (вимірів) над
випадковою величиною X одержані її значення x1 , x 2 ,..., x n . Потрібно наближено оцінити
невідому функцію розподілу F (x) випадкової величини X .
б) Оцінка невідомих параметрів розподілу: - випадкова величина X має функцію розподілу
певного типу, яка залежить від k параметрів, значення яких невідомі. Потрібно на основі дослідних
даних оцінити значення цих параметрів.
в) Статистична перевірка гіпотез: - на основі певних міркувань можна вважати, що F (x) є
функцією розподілу досліджуваної випадкової величини X . Потрібно встановити, чи сумісні ці
спостережувані значення з гіпотезою, що випадкова величина X дійсно має розподіл F (x) .
11.1. Основні поняття.
Нехай потрібно дослідити яку-небудь ознаку, характерну великій групі однотипних елементів
(наприклад, міцність зразків сплаву, відхилення розмірів виготовлених деталей від номінального
розміру, тощо).
Сукупність значень ознаки всіх N елементів даного типу називається генеральною сукупністю.
Число N може бути скінченим або нескінченним.
Звичайно, на практиці неможливо, або й економічно невигідно обстежити всю генеральну
сукупність. Тоді із всієї сукупності елементів випадковим чином вибирають обмежену кількість
елементів, які і вивчають.
Вибірковою сукупністю або вибіркою називається сукупність випадково відібраних елементів.
Вибірковий метод полягає в тому, що з генеральної сукупності обсягу N береться вибірка обсягу
n , де n  N і визначаються характеристики вибірки, які приймаються за наближене значення
відповідних характеристик генеральної сукупності.
1.1. Статистичний розподіл вибірки.
Нехай в результаті проведення досліду з генеральної сукупності зроблена вибірка обсягу n .
Вважаємо, що ознака X - дискретна випадкова величина, причому значення x i спостерігалось n i
k
разів, тобто x1 спостерігалось n1 разів, x 2 - n 2 разів, …, x k - n k разів, і  ni  n (обсягу
i 1
вибірки).
Значення x i називають варіантами, а послідовність варіант, розташованих в порядку зростання
– варіаційним рядом. Числа спостережень n i називають частотами, а відношення цих чисел до
ni
обсягу вибірки - відносними частотами. Результати досліду зручно представити у вигляді
n
таблиці частот

1
x1 x2 … xi … xk
n1 n2 … ni … nk
або таблиці відносних частот
x1 x2 … xi … xk
n1 / n n2 / n … ni / n … nk / n
Якщо ознака X - неперервна випадкова величина, то користуються інтервальними таблицями
частот
(a0 , a1 ) (a1 , a2 ) … (ai 1 , ai ) … (an1 , an )
n1 n2 … ni … nk
При цьому весь діапазон зміни варіант від xmin = a 0 до xmax = a n розбивають на 10-20 частинних
інтервалів з межами a1 , a 2 ,…, a n1 і підраховують частоту ni попадання в i -й частинний інтервал.
Аналогічно будується інтервальна таблиця відносних частот.
Сукупність значень варіант і відповідних їм частот (або відносних частот) називають
статистичним розподілом вибірки.
Приклад 1. Задано розподіл вибірки
xi 0,2 0,4 0,8 1,0 1,2 1,6
ni 5 8 12 13 10 2
Записати розподіл відносних частот.
Розв’язання. Обсяг вибірки n  50 . Шуканий розподіл відносних частот має вигляд
xi 0,2 0,4 0,8 1,0 1,2 1,6
ni 5 8 12 13 10 2
n 50 50 50 50 50 50
або остаточно
xi 0,2 0,4 0,8 1,0 1,2 1,6
ni 0,1 0,16 0,24 0,26 0,2 0,04
n
Варто зауважити, що в теорії ймовірностей під розподілом розуміємо відповідність між
можливими значеннями випадкової величини і їх ймовірностями, а в математичній статистиці під
розподілом розуміємо відповідність між спостережуваними значеннями (варіантами) і їх частотами
(або відносними частотами).
1.2. Полігон і гістограма.
Часто для наочності будують різні графіки статистичного розподілу.
Полігон частот – це ламана лінія, відрізки якої з’єднують точки ( x1 , n1 ), ( x 2 , n2 ), .... ( x k , nk ) .
Полігон відносних частот – це теж ламана лінія, відрізки якої з’єднують точки
n n n
( x1 , 1 ), ( x 2 , 2 ), .... ( x k , k ) , де n - обсяг вибірки.
n n n
Якщо ознака X неперервна, то будують гістограму. При цьому інтервал, в якому лежать всі
спостережувані значення ознаки, розбивають на декілька частинних інтервалів однакової довжини
h кожен і знаходять для кожного частинного інтервалу n i - суму частот варіант, що попали в i -ий
інтервал.

2
Гістограма частот – це ступінчата фігура, складена із прямокутників, основами яких є
n
частинні інтервали довжини h , а висоти дорівнюють i - щільність частоти. Тоді площа i -го
h
k
n
прямокутника дорівнює i h  ni , а площа всієї гістограми частот дорівнює  ni  n - обсягу
h i 1
вибірки.
Іноді будують гістограму відносних частот, в цьому випадку висота i -го прямокутника
n
дорівнює i , площа гістограми відносних частот дорівнює одиниці.
nh
Приклад 2. Задано розподіл вибірки обсягу n  100 .

Частинні інтервали Сума частот варіант Щільність частоти


довжини h  2 частинного інтервалу ni / h
ni
1-3 2 1
3-5 3 1,5
5-7 20 10
7-9 40 20
9-11 28 14
11-13 4 2
13-15 3 1,5
7
 ni  100
i 1
Побудувати гістограму частот.
1.3. Емпірична функція розподілу.
Нехай маємо статистичний розподіл вибірки обсягу n . Позначимо n x - кількість спостережень,
при яких спостерігали значення ознаки X менше числа x . Відносна частота події ( X  x) буде
nx n
. Із зміною x змінюється і відносна частота, тобто відносна частота x є функцією від x .
n n
Функцією розподілу вибірки називають функцію F * ( x) , яка визначає для кожного значення x
відносну частоту події ( X  x) :
n
F * ( x) = x , (1)
n
де n x - число варіант, менших x .
Її ще називають емпіричною функцією розподілу, оскільки вона шукається емпіричним (дослідним)
шляхом.
Функцію розподілу F (x) генеральної сукупності називають теоретичною функцією розподілу.
Теоретична функція розподілу визначає ймовірність події ( X  x) , а емпірична функція F * ( x) -
відносну частоту цієї події.
Із закону великих чисел, зокрема з теореми Бернуллі, випливає, що відносна частота події
( X  x) збігається за ймовірністю до ймовірності цієї події, тобто

3
lim P F * ( x)  F ( x)     1.
n
Іншими словами, для великих значень n емпірична функція розподілу наближено представляє
теоретичну функцію розподілу генеральної сукупності.
Із означення емпіричної функції розподілу F * ( x) маємо такі її властивості:
10 . 0  F * ( x)  1 .
20 . F * ( x) - неспадна функція.
3 0 . F * ( x) =0 при x  x min , F * ( x) =1 при x  xmax ,де x min , x max - найменша і найбільша
варіанти.
Приклад 3. Побудувати емпіричну функцію розподілу за розподілом вибірки прикладу 1.
Розв’язання.
 0 x  0,2
 0,1 0,2  x  0,4

 5  8
 0,26 0,4  x  0,8
 50
 5  8  12
  0,5 0,8  x  1,0
F * x    50
 5  8  12  13
  0,76 1,0  x  1,2
 50
 5  8  12  13  10  0,96 1,2  x  1,6
 50
 1 x  1,6.
11.2. Статистичні оцінки параметрів розподілу.
Нехай нам потрібно вивчити кількісну ознаку генеральної сукупності. Припустимо, що з
теоретичних міркувань ми допускаємо певний вид розподілу ознаки, наприклад розподіл Пуассона.
Цей розподіл визначається параметром  , який треба оцінити, виходячи з даних вибірки
x1 , x 2 ,..., x n .
Розглядаючи значення x1 , x 2 ,..., x n як незалежні випадкові величини X 1 , X 2 ,..., X n , приходимо
до висновку, що знайти статистичну оцінку невідомого параметра розподілу означає знайти
функцію від випадкових величин, яка й буде наближеним значенням параметра.
Нехай θ - невідомий параметр теоретичного розподілу. Задача оцінювання параметра полягає в
побудові наближеної формули
θ  θ*  X 1 , X 2 ,... X n  , (2)
де функція θ*  X 1 , X 2 ,... X n  - статистика - теж є випадковою величиною, закон розподілу якої
залежить як від закону розподілу випадкових величин X 1 , X 2 ,..., X n , так і від кількості дослідів.
Значення функції θ*  X 1 , X 2 ,... X n  в наближеній рівності (2) називається оцінкою параметра θ.
Для того, щоб оцінка θ* мала практичну цінність, вона повинна мати такі властивості:
0
1 . незміщеність:
Незміщеною називається оцінка, математичне сподівання якої дорівнює оцінюваному параметру
M  *   . (3)
2 0 . спроможність (обґрунтованість):
Оцінка θ* називається спроможною, якщо вона збігається за ймовірністю до оцінюваного
параметра θ, тобто

4
lim P *      1 ,   0 . (4)
n
Для виконання цієї умови достатньо, щоб дисперсія оцінки  0 при n   , тобто lim D *  0.
n
(це випливає із нерівності Чебишова).
3 0 . Ефективність:
Оцінки, що мають властивості незміщеності і спроможності, при обмеженій кількості дослідів
можуть відрізнятися дисперсіями. Очевидно, що чим менша дисперсія оцінки, тим менша
ймовірність грубої похибки при визначенні наближеного значення параметра. Тому необхідно, щоб
дисперсія оцінки була мінімальною
D *  Dmin . (5)
Остання умова і визначає ефективність оцінки.
11.3. Точкові оцінки числових характеристик.
Нехай з генеральної сукупності відносно кількісної ознаки X зроблена вибірка обсягу n із
значеннями ознаки x1 , x 2 ,..., x n . Позначимо через M [ X ] і D[ X ] математичне сподівання і
дисперсію ознаки X генеральної сукупності.
За оцінку математичного сподівання ознаки X приймають вибіркове середнє
1 n
xb   xi . (6)
n i 1
Покажемо, що ця оцінка є спроможною і незміщеною. Будемо розглядати x1 , x 2 ,..., x n як незалежні,
однаково розподілені випадкові величини X 1 , X 2 ,..., X n , математичне сподівання яких m x .
Оскільки
1 n  M [ X 1 ]  M [ X 2 ]  ...  M [ X n ] n  m x
M   Xi     mx ,
 n i 1  n n
то робимо висновок, що оцінка (6) є незміщеною.
Покажемо, що оцінка (6) є спроможною. Дійсно, на основі закону великих чисел (теорема
Чебишова)
1 n 
lim P  X i  m x     1 . (7)
n  n 
 i 1 
Для характеристики розсіювання спостережуваних значень кількісної ознаки вибірки відносно
значення x b вводять вибіркову дисперсію Db
1 n

n i 1
( xi  xb ) 2 .
Db  (8)

Покажемо, що ця оцінка є спроможною оцінкою дисперсії D[X ] . Для цього перетворимо вираз (8)

Db 
1 n
 i b n i b i b
n i 1
( x  x ) 2

1 n 2

x  2 x x  ( x ) 2
 
1 n 2
 i
n i 1
x  2 x
1 n
b  i
n i 1
x 
n ( xb ) 2
n

i 1
1 n 2 1 n
= 
n i 1
xi  2( xb ) 2  ( xb ) 2   xi 2  ( xb ) 2 .
n i 1
(9)

1 n 2
Член 
n i 1
xi - це середнє арифметичне n спостережуваних значень випадкової величини X 2 ,

отже він збігається за ймовірністю до M [ X 2 ] . Другий доданок ( x b ) 2 збігається за ймовірністю до

5
M [X ]2 . Це означає, що права частина виразу (9) збігається за ймовірністю до величини
M [ X 2 ]  M [ X ]2 , тобто до дисперсії D[X ] .
Отже, вибіркова дисперсія Db є спроможною оцінкою дисперсії D[X ] .
Перевіримо незміщеність оцінки (8) , тобто перевіримо, чи M [ Db ]  D[ X ] Для цього в (9) замість
x b підставимо вираз (6):
2
1 n 1 n  1 n 1 n 2 n n 1 n 2
Db   xi 2    xi    xi 2  2  xi 2   xi x j . (10)
 xi x j   xi 2 
n i 1  n i 1  n i 1 n n 2 i j n 2 i 1
i 1 n 2 i j
Оскільки дисперсія не залежить від того, в якій точці вибрати початок координат, то виберемо
n
його в точці M [X ] , (тоді M [ X i 2 ]  M [ X i  M [ X i ] ]2  D[ X ],  M [ X i2 ]  n  D[ X ], ) і
i 1
n 1 n
n 1 n
 M[ X i 2 ]  n2  M[ X i X j ]   D[ X ]  n  k x x
2 2
M [ Db ]  .
n2 i 1 i j n2 i 1 i j
i j

Оскільки X i незалежні, то K xi x j  0 . Тому


n 1
M [ Db ] 
D[ X ] . (11)
n
Це означає, що оцінка (8) є зміщеною оцінкою для дисперсії D[X ] . Проте якщо помножити
n
величину Db на , то одержимо незміщену оцінку
n 1
 n  n
M Db   M [ Db ]  D[ X ] .
n 1  n 1
n
Оскільки множник  1 при n   , то оцінка
n 1
n 1 n
s2 
n 1
Db   ( xi  xb )2
n  1 i 1
(12)

буде і спроможною.
Величину s 2 називають виправленою вибірковою дисперсією. На практиці користуються
виправленою дисперсією для n  30 .
Величина
n
s Db (13)
n 1
називається виправленим середнім квадратичним відхиленням.
Запишемо формули для обчислення вибіркового середнього і вибіркової дисперсії для випадку,
якщо варіанти x1 ,..., x k мають частоти n1 , n 2 ,..., n k , причому n1  n2  ...  nk  n :
1 k 1 k
 xb 
n i 1
n x
i i , Db  
n i 1
ni ( xi  xb ) 2 . (14)

На практиці для обчислення вибіркової дисперсії використовують робочу формулу


Db  xb 2  ( xb ) 2 , (15)
де

6
1 k 1 n 2
xb 2  i i
n i 1
n x 2
, або x b
2
  xi (якщо різні варіанти).
n i 1
(16)

11.4. Метод моментів обчислення точкової оцінки параметрів розподілу.


Метод моментів точкової оцінки невідомих параметрів розподілу полягає в прирівнюванні
теоретичних моментів розглядуваного розподілу відповідним емпіричним моментам цього ж
самого порядку. Цей метод запропонований К.Пірсоном.
4.1. Оцінка одного параметра.
Припустимо, що нам відомий вигляд щільності розподілу f ( x, ) ознаки X , який визначається
одним параметром  . Розглянемо, як знайти точкову оцінку цього параметра. Для оцінки одного
параметра достатньо мати одне рівняння відносно цього параметра. Прирівняємо, наприклад,
початковий теоретичний момент першого порядку  1 до початкового емпіричного моменту того ж
порядку  1* :
 1 = 1* .
Враховуючи, що  1 = M [X ] , а  1* = xb , отримаємо
M [X ] = xb . (17)

Математичне сподівання M [X ] =  x  f ( x, )dx є функцією від  , тому співвідношення (17) можна

розглядати як рівняння з одним невідомим.
Приклад 4. Випадкова величина X - час роботи елемента – має показниковий розподіл з
параметром  . Отримано статистичний розподіл середнього часу роботи 200 елементів

xi 2,5 7,5 12,5 17,5 22,5 27,5


ni 133 45 15 4 2 1
де xi - середній час роботи елемента в год, частота ni - кількість елементів, які пропрацювали в
середньому xi год. Знайти методом моментів точкову оцінку параметра  .
Розв’язання. Прирівнявши теоретичний і емпіричний моменти першого порядку і враховуючи,
1 1
що для показникового закону M [ X ]  , отримаємо   . Отже, точковою оцінкою параметра
 xb
1 6

1 1
 є * = . Обчисливши xb = ni xi =5, одержимо * =  0,2.
xb 200 i 1 5
4.2. Оцінка двох параметрів.
Припустимо, що щільність розподілу має вигляд f ( x,1 , 2 ) , де 1 , 2 невідомі параметри. Для
їх знаходження потрібно мати два рівняння. Прирівняємо теоретичний і емпіричний початкові
моменти першого порядку  1 = 1* і теоретичний і емпіричний центральні моменти другого порядку
 2 =  2* . Враховуючи, що  1 = M [X ] ,  1* = x b ,  2 = D[X ] ,  2* = Db , отримаємо систему двох
рівнянь
M [ X ]  xb  1 (1 , 2 )
 (18)
 D[ X ]  Db   2 (1 , 2 )
для знаходження невідомих параметрів 1 , 2 .

7
Приклад 5. Випадкова величина X - відхилення контрольованого розміру виробу від номіналу
– підлягає нормальному закону розподілу з параметрами a і  . Отримано статистичний розподіл
відхилення від номіналу 200 виробів

xi 0,3 0,5 0,7 0,9 1,1 1,3 1,5 1,7 1,9 2,2 2,3
ni 6 9 26 25 30 26 21 24 20 8 5
Знайти методом моментів точкові оцінки параметрів a і  .
Розв’язання. Враховуючи, що для нормального розподілу  1 = M [X ] = a ,  2 = D[X ] =  2 , і
прирівнюючи відповідні теоретичні і емпіричні моменти  1 = 1* ,  2 =  2* , отримаємо вирази для
2
1 11 1 11 2  1 11 
точкових оцінок a  x b =
*
 ni xi =1,266. ( ) =
2 *
 n x
i i  
 200  ni xi  =0,25.

200 i 1 200 i 1  i 1 
Звідки  *  0,5.

You might also like