You are on page 1of 5

§13. Поняття про статистичну перевірку гіпотез і критерії згоди.

13.1. Статистична перевірка гіпотез.


Статистичною називають гіпотезу про вигляд невідомого закону розподілу або про
параметри відомих розподілів. Наприклад, статистичними є гіпотези:
- генеральна сукупність розподілена за біномним законом,
- дисперсії двох нормальних сукупностей рівні між собою.
Гіпотезу, яку висуваємо, назвемо нульовою, або основною. Позначимо H o . Конкуруюча, або
альтернативна - це гіпотеза, яка суперечить висунутій. Позначимо H 1 .
Наприклад, якщо нульова гіпотеза H 0 - генеральна сукупність розподілена за нормальним
законом, то - альтернативна їй гіпотеза H 1 - ця сукупність не розподілена нормально.
Гіпотези поділяють на прості і складні.
Проста гіпотеза містить тільки одне припущення.
Складна гіпотеза складається із скінченого або нескінченного числа простих гіпотез.
Наприклад, якщо  – параметр розподілу Пуассона, то гіпотеза H 0 -  =3 є простою
гіпотезою, а гіпотеза H 1 -   3 - це складна гіпотеза.
Нехай маємо дві прості гіпотези H 0 і H 1 . Ці гіпотези конкурують одна з одною і потрібно, на
основі певних спостережень, визначити, якій з них ми надаємо перевагу. При цьому ми можемо
зробити помилки першого або другого роду.
Помилка першого роду - висунута гіпотеза в дійсності є вірною, а ми її відхиляємо, помилка
другого роду - висунута гіпотеза хибна, а ми її приймаємо.
Ймовірність зробити помилку першого роду позначають  і називають рівнем значущості.
Значення  приймають рівним 0,05, 0,01, 0,001. Наприклад, якщо прийнято  =0,05, то це
означає, що в 5% випадків є ризик припуститися помилки першого роду, тобто відхилити
правильну гіпотезу.
Для перевірки основної гіпотези використовують спеціально підібрану випадкову величину,
точне або наближене значення якої відоме. Назвемо її статистичним критерієм і позначимо K .
Спостережуваним значенням K c називають значення критерія, яке обчислюють за даними
вибірки.
Після вибору певного критерію множину  всіх його можливих значень розбивають на дві
підмножини  0 і 1 , які не перетинаються. Підмножина  0 - область прийняття основної
гіпотези, або область допустимих значень , містить ті значення критерію, при яких основна
гіпотеза приймається, а підмножина 1 - критична область стосовно основної гіпотези , містить
ті значення критерію, при яких основна гіпотеза відхиляється, тобто приймається конкуруюча
гіпотеза.
Основний принцип перевірки статистичних гіпотез можна сформулювати таким чином: якщо
спостережуване значення критерію K c належить критичній області, то основну гіпотезу
відхиляють; якщо K c належить області допустимих значень, то гіпотезу приймають.
Процес перевірки, який веде до підтвердження чи заперечення висунутої гіпотези, є деяким
правилом, і вибір цього правила еквівалентний вибору критичної області.
Критичними точками k кр називають точки, які відділяють критичну область від області
прийняття гіпотези.
Критична область буває однобічна:
правобічна, яка визначається нерівністю
K  k кр , (k кр  0) , (1)
і лівобічна, яка визначається нерівністю
K  k кр , ( k кр  0) , (2)
або двобічна, яка визначається нерівностями
K  k1 , K  k 2 , ( k 2  k1 ). (3)
Якщо критичні точки симетричні відносно нуля, то двобічна критична область визначається
нерівностями
K  k кр , K  k кр , ( k кр  0) . (4)
Розглянемо питання про знаходження правобічної критичної області K  k кр , k кр  0 .
Задаємо достатньо малу ймовірність  - рівень значущості. Критичну точку k кр знаходимо з
умови
 
P K  k кр   , (5)
тобто, якщо справедлива основна гіпотеза, то ймовірність того, що критерій K прийме значення,
більше k кр , дорівнюватиме заданому рівню значущості.
Для кожного критерію є відповідні таблиці, і за ними знаходять критичну точку, яка
задовольняє умову (5).
Коли k кр знайдена, то за даними вибірки обчислюють спостережуване значення критерію K c .
Якщо K c  k кр , то основну гіпотезу приймають; якщо ж K c  k кр , то основну гіпотезу
відхиляють.
Аналогічно знаходять лівобічну критичну область з умови
 
P K  k кр   . (6)
Критичні точки k1 i k 2 двобічної критичної області знаходять з умови
PK  k1  PK  k 2    . (7)
  
Якщо розподіл критерію симетричний відносно нуля, то P K  k кр = P K  k кр  і критичну
точку k кр знаходимо з умови

 2

P K  k кр =
. (8)
Задача про порівняння двох дисперсій нормальних генеральних сукупностей.
На практиці ця задача виникає при порівнянні точності приладів, самих методів вимірювань,
тощо. Звичайно, є кращим метод, при користуванні яким розсіювання (дисперсія) результатів є
меншою.
Отже, нехай генеральні сукупності ознак X і Y розподілені нормально. З двох незалежних
вибірок обсягами n1 і n 2 обчислені “виправлені” вибіркові дисперсії s x 2 , s y 2 . Потрібно при
даному значенні  перевірити основну гіпотезу H 0 про рівність генеральних дисперсій
D[ X ]  D[Y ] . (9)
Або враховуючи, що “виправлені” вибіркові дисперсії є незміщеними оцінками генеральних
дисперсій
M [s x2 ]  D[ X ], M [s 2y ]  D[Y ] .
основну гіпотезу H 0 можна записати так
M [ s x2 ]  M [ s 2y ] . (10)
Виникає питання: суттєво чи несуттєво відрізняються “виправлені” дисперсії?
Якщо виявиться, що гіпотеза H 0 справедлива, тобто генеральні дисперсії однакові, то різниця
“виправлених” дисперсій несуттєва і пояснюється випадковими причинами.
За критерій K перевірки нульової гіпотези приймаємо відношення більшої “виправленої”
дисперсії s12 до меншої s 22 , тобто випадкову величину
s12
KF . (11)
s 22
Величина F має розподіл Фішера-Снедекора із степенями вільності k1  n1  1 і k 2  n2  1 , де n1
- обсяг вибірки, за якою обчислена більша “виправлена” дисперсія, n 2 - обсяг вибірки, за якою
обчислена менша “виправлена” дисперсія. Розподіл Фішера-Снедекора визначається тільки двома
параметрами – степенями вільності k1 і k 2 . Значення величини F табульовані.
Критична область будується в залежності від виду конкуруючої гіпотези.
Випадок І. Нульова гіпотеза H 0 : D[ X ]  D[Y ] . Конкуруюча гіпотеза H1
D[ X ]  D[Y ] . (12)
В цьому випадку будуємо правобічну критичну область K  k кр , яка задовольняє умову
 
P F  Fкр ( , k1 , k 2 )   . (13)
Критичну точку Fkp ( , k1 , k 2 ) знаходимо за таблицею критичних точок розподілу Фішера-
Снедекора. Значення Fc обчислюємо за формулою (11).
Якщо Fc  Fкр , то немає підстав відхиляти нульову (основну) гіпотезу, якщо Fc  Fкр то нульову
гіпотезу відхиляємо.
Приклад 1. За даними двох незалежних вибірок обсягів n1  12, n2  15 знайдено
s x2  11,41, s 2y  6,52. За даним рівнем значущості   0,05 перевірити нульову гіпотезу H 0 при
конкуруючій гіпотезі (12).
11,41
Розв’язання. Обчислимо Fc   1,75 . За таблицею при   0,05 ,
6,52
n1  1  12  1  11, n2  1  15  1  14 знаходимо критичну точку Fкр  2,56 .
Оскільки Fc  Fкр , тобто 1,75<2,56, то гіпотеза про рівність генеральних дисперсій приймається.
Випадок ІІ. Нульова гіпотеза H 0 : D[ X ]  D[Y ] . Конкуруюча H1
D[ X ]  D[Y ] . (14)
В цьому випадку будуємо двобічну критичну область виду (3) і знаходимо критичну точку

Fkp ( , k1 , k 2 ) . Якщо Fc  Fкр , то приймаємо основну гіпотезу, якщо Fc  Fкр , то нульову
2
гіпотезу відхиляємо.
Приклад 2. Нехай за даними двох незалежних вибірок обсягів n1  10, n2  18 знайдено
s x2  1,23, s 2y  0,41 . Потрібно при   0,1 перевірити нульову гіпотезу H0 відносно
конкуруючої гіпотези H 1 (14).
1,23 
Розв’язання. Обчислюємо Fc   3 . За таблицею, при  0,05 , n1  1  9, n2  1  17
0,41 2
знаходимо критичну точку Fкр  2,50 .
Оскільки Fc  Fкр (3>2,5), то нульову гіпотезу відхиляємо, тобто генеральні дисперсії не рівні
між собою.
13.2. Поняття про критерії згоди.
На основі статистичних даних при розв’язуванні практичних задач необхідно зробити
припущення про вигляд закону розподілу випадкової величини X . При цьому для остаточного
вирішення питання про вигляд закону розподілу доцільно перевірити, наскільки зроблене
припущення узгоджується з дослідними даними. Із-за обмеженого числа спостережень
емпіричний закон розподілу звичайно в деякій мірі відрізняється від передбачуваного, навіть
якщо припущення про вигляд закону розподілу виявилося вірним. В зв’язку з цим виникає
наступна задача: чи розбіжність між емпіричним і передбачуваним (теоретичним) законом
розподілу є наслідком обмеженості числа спостережень, а чи вона є істотною і пов’язана з тим,
що істинний закон розподілу випадкової величини суттєво відрізняється від передбачуваного. Для
розв’язування цієї задачі служать так звані “критерії згоди”.
“Критерієм згоди” називають критерій перевірки гіпотези про передбачуваний вигляд закону
розподілу.
Є декілька критеріїв згоди: Колмогорова, Пірсона (критерій  2 ) та інші.
Перевірка гіпотези про нормальний розподіл генеральної сукупності.
Розглянемо застосування критерію згоди Пірсона (або критерію  2 ) до перевірки гіпотези про
нормальний розподіл генеральної сукупності. З цією метою обчислюємо теоретичні частоти n  за
i
припущення що розподіл нормальний. Порівнюємо ці теоретичні частоти з емпіричними
частотами ni . Як правило, теоретичні і емпіричні частоти різні.
Критерій Пірсона встановлює при заданому рівні значущості  випадкове чи невипадкове
(значуще) розходження між теоретичними і емпіричними частотами.
Схема застосування критерію Пірсона
Нехай за вибіркою обсягу n отримано емпіричний розподіл
xi x1 x2 … xs
ni n1 n2 … ns
Припустимо, що обчислені теоретичні частоти n  (ми висуваємо нульову гіпотезу H : при
i 0
рівні значущості  генеральна сукупність розподілена нормально).
За критерій перевірки гіпотези H 0 приймаємо випадкову величину
(ni  ni  ) 2
 
2
. (15)
ni 
Чим менше відрізняються емпіричні n i і теоретичні n i  частоти, тим меншою є величина
критерію (15), тобто він характеризує близькість емпіричного і теоретичного розподілів.
Число степенів вільності величини (15) знаходимо із співвідношення
k  s 1 r , (16)
де s - число груп (або частинних інтервалів) вибірки, r - число параметрів передбачуваного
розподілу, які оцінюються за даними вибірки (для нормального розподілу r  2 (a i  ) ) і
k  s  3. (17)
Позначимо значення критерію (15), обчислене за результатами вибірки, через  cп і за таблицею
2

критичних точок розподілу  2 знаходимо критичну точку  кр


2
( ; k ) .
Якщо  cп
2
  кр
2
- то приймаємо нульову гіпотезу H 0 .
Якщо  cп
2
  кр
2
- то нульову гіпотезу відхиляємо.
Для контролю обчислень використовують формулу
ni 2
 cп
2
 n. (18)
n i
Приклад 3. При рівні значущості   0,05 перевірити гіпотезу про нормальний розподіл
генеральної сукупності, якщо відомі емпіричні n і теоретичні n  частоти:
i i
ni 6 13 38 74 106 85 30 14
n
i
3 14 42 82 99 76 37 13

Для обчислення  cп
2
за формулою (15) складемо розрахункову таблицю:
(ni  ni  ) 2 ni 2
і ni ni  ni  ni  n  n  
i i
2
n i
ni 2
ni
1 6 3 3 9 3 36 12
2 13 14 -1 1 0,07 169 12,07
3 38 42 -4 16 0,38 1444 34,38
4 74 82 -8 64 0,78 5476 66,78
5 106 99 7 49 0,49 11236 113,49
6 85 76 9 81 1,07 7225 95,07
7 30 37 -7 49 1,32 900 24,32
8 14 13 1 1 0,08 196 15,08
 366 366  cп
2
 7,19 373,19

Контроль  cп
2
 373,19  366  7,19 .
Якщо   0,05 і число частинних інтервалів вибірки s  8 , то k  8  3  5 і за таблицею
критичних точок розподілу  2 знаходимо
 кр
2
(0,05; 5)  11,1 .
Отже,  cп
2
 7,19   кр
2
 11,1 і гіпотезу про нормальний розподіл приймаємо.

You might also like