You are on page 1of 35

Тема 9.

Елементи
математичної статистики
План
1.Предмет і завдання математичної
статистики.

2. Основні положення вибіркового методу.

3.Статистичний розподіл. Первинна


обробка та графічне подання вибіркових
даних.
Математична
статистика – розділ
математики, що
вивчає закономірності,
які мають місце в
масових явищах і
статистичних
сукупностях.
Завдання математичної
статистики:

1. Створення методів збирання та


обробки експериментальних значень
випадкової величини.
2. Визначення невідомих параметрів
розподілу випадкової величини і законів
розподілу за статистичними даними.
3. Перевірка правдоподібності прийнятої
гіпотези про закон розподілу.
Історична довідка

Математична статистика виникла і


розвивалась паралельно з теорією
ймовірностей

Вчені П.Л. Чебишев, О.О. Марков, О.М. Ляпунов, К.


Гаус, М. Кетлін, Ф. Гальтон, К. Пірсон, (друга
половина ХІХ – початок ХХ ст.), В.І. Романовський,
С.С. Слуцький, О.М. Колмогоров, М.Р. Смірнов,
Стьюдент (Уільям Госсет), Р. Фішер, К. Пірсон, Дж.
Нейман, А. Вальд
Генеральна та вибіркова
сукупності
Генеральна сукупність - уся сукупність об’єктів дослідження

Вибіркова сукупність - певним чином відібрані об’єкти


для дослідження
Об’єм або обсяг сукупності - кількість об’єктів у
сукупностях
Об’єм генеральної сукупності позначають великими
латинськими літерами, наприклад N, а об’єм вибіркової
сукупності (вибірки) маленькими латинськими літерами,
наприклад n.
Генеральна сукупність – це сукупність, з якої
зроблено вибірку
Якщо об’єм вибірки дуже великий, то допускають, що n  
Відношення об'єму
вибірки до об'єму
генеральної
сукупності
називається
відносним
показником вибірки.
Види
вибірок:
випадкові і невипадкові; повторні і без повторні;
репрезентативні і нерепрезантативні

Повторна вибірка - об’єкти повертаються назад після їх


дослідження до сукупності, з якої роблять вибірку, тобто
вони знову можуть попасти до вибірки

Безповторна вибірка - після дослідження об’єкт більше


не повертається до генеральної сукупності

Якщо об’єм вибірки великий, то різниця між повторною і


без повторною вибірками стирається

За великого об’єму вибірки різниця між повторною і без


повторною вибірками стирається
Способи
відбору:
Не вимагає розчленування Генеральна сукупність
генеральної сукупності на розбивається на частини
частини

Простий без Простий


повторний Механічний Серійний
випадковий Типовий
випадковий відбір відбір
повторний відбір
відбір відбір

На практиці, зазвичай, використовується


комбінований відбір
Статистичний розподіл. Первинна обробка і графічне
подання вибіркових даних

Дослідження вибірки починають зі


складання статистичного розподілу.

У математичній статистиці замість слова


«дані» вживають термін «варіанти».

Нехай з генеральної сукупності зроблено


вибірку об'єму n. Значення хі вибірки -
варіанти. Числову характеристику варіанти
називають ознакою.
Варіанти, розташовані в ряд у
порядку зростання, називаються
варіаційним або статистичним
рядом.

Якщо при цьому хі повторюється ni


раз (i=1,2,…k), aто величина ni
називається частотою варіанти хі,
а величина ni /n — відносною
частотою варіанти хі.
Варіанта, що ділить варіаційний ряд на дві
рівні частини, називається медіаною. Це
варіанта середини ряду.

Варіанта, що має найбільшу відносну


частоту появи, називається модою.

Різниця між найменшим та найбільшим


значеннями варіанти називається розмахом
вибірки.

Відношення кількості значень варіант до


загального об'єму вибірки називається
відносною частотою появи варіанти.
Статистичний розподіл
Нехай з генеральної вибірки
сукупності зроблена вибірка
об’єму n, причому об’єкт (ознака) х1
зустрічається у вибірці n1 раз, х2 - n2 раз, і т.д. хі
k

– nі раз, так, що маємо рівність n


i 1
i n.

Запишемо варіаційний ряд


частот:
хі х1 х2 … xk
nі n1 n2 … nk
де значення елементів хі записані у порядку
зростання
Елементи хі - варіанти, елементи nі –
частоти
Такий ряд і буде статистичним розподілом вибірки,
записаним у вигляді варіаційного ряду частот
Статистичний розподіл вибірки може бути наданий
також у вигляді варіаційного ряду відносних частот:
хі х1 х2 … xk
wі w1 w2 … wk

ni k

Де wi – відносна частота wi  n і 
i 1
wi  1

Приклад таких рядів:


хі 2 4 5 7 хі 2 4 5 7
nі 3 8 6 4 w 3/2 8/2 6/2 4/2
і 1 1 1 1

Статистичним розподілом вибірки будемо називати


перелік варіант і відповідних їм частот або відносних
частот
Для побудови гістограми
потрібно

визначити кількість інтервалів


розподілу

крок розподілу.
 Тобто відомі: обсяг вибірки - n, максимальне –
xmах та мінімальне значення – xmіn.
 Тоді крок визначається (формула Стерджеса):

Якщо це число не ціле, то береться ціле значення та додається


одиниця.
Початок першого інтервалу
визначається:

Кількість інтервалів m визначається з


умови, що xmах попадає в останній
інтервал.
Якщо пj кількість влучень в j
інтервал (частота) то виконується
умова:
Статистичні
характеристики по
згрупованій вибірці:
m
X в  w
j 1
j a j

w
2 2
 2
в  j a j  X в
j 1
m
   w j  (a j  X
j 1
в ) 3 /  в3

  w j  (a j  Xв) 4
/ 4
в 3
За тиждень продано 50 пар взуття, що мають
наступні розміри (табл.). Побудувати ряд розподілу
та емпіричну функцію розподілу.

Розмір 37 38 40 42 43
взуття

Частота 10 12 15 10 3
Розмір взуття 37 38 40 42 43

Частота 10 12 15 10 3

Відносна 0,2 0,24 0,3 0,2 0,06


частота

Кумулята 0,2 0,44 0,74 0,94 1,0


Приклад . (інтервальний розподіл).
Отримано наступний варіаційний ряд довжин колосків
обсягом 30 спостережень (см) :
8;8;9;9;9;9;10;10;10;10;10;11;11;11;11;11;11;12;12;12;12;1
3;13;13;14;14;15;15;16;16.
Побудувати таблицю інтервального розподілу та
зробити оцінки математичного сподівання, дисперсії,
коефіцієнтів асиметрії та ексцесу.
Розв’язання.
За формулою Стерджеса знайдемо крок гістограми
( x min  8см; x мах  16см; n  30)
h  (16  8) /(1  3,322 lg 30)  1,35

Ціла частина від цього числа дорівнює 1. Тобто крок


дорівнює 2см. Початкова точка розбивки дорівнює 7см.
Знайдемо інтервали та відповідні частоти
(табл.)

Номер інтервалу 1 2 3 4 5
Межі інтервалу (7;9] (9;11] (11;13] (13;15] (15:17]

Середина 8 10 12 14 16
інтервалу
Частота 6 11 7 4 2
Відносна частота 0,2 0,37 0,23 0,13 0,07
Кумулята 0,2 0,57 0,8 0,93 1,0
За згрупованими даними зробимо
оцінку статистичних характеристик:

X в  0,2  8  0,37  10  0,23  12  0,13  14  0,07  16  11 см

 в2  0,2  82  0,37  102  0,23  122  0,13  142  0,07  162  11 2  5,32;   в  2,31
  (0,2(8  11 )3  0,37(10  11 )3  0,23(12  11 )3  0,13(14  11 )3  0,07(16  11 )3 ) / 2,313  0,55
  (0,2(8  11 )4  0,37(10  11 )4  0,23(12  11 )4  0,13(14  11 )4  0,07(16  11 )4 ) / 2,314  3  0,50
Графічне зображення статистичного
розподілу
Дискретна ознака
полігон частот та полігон відносних частот
Графіком є ламана лінія,
що сполучає точки xi ; ni  у полігоні частот;
 n 
точки  xi ; i  у полігоні відносних частот
 n 
ni wi
8/21
8

6/21
6

4 4/21
3 3/21

хі
хі 0 1 2 3 4 5 6 7 8
0 1 2 3 4 5 6 7 8

Рис. 1. Полігон частот Рис. 2. Полігон відносних частот


Графічне зображення статистичного
розподілу
Неперервна ознака
гістограма
Проводять групування даних:

розбивка ознаки на інтервали середини інтервалів

підрахунок кількості елементів кожному інтервалі


(частоти)
Підраховують в разі необхідності відносні частоти
побудова стовпчикового (частості)
графіку (гістограми)

Основи прямокутників - довжини інтервалів групування; висоти -


відображають частоти або відносні частоти, поділені на довжини
відповідних інтервалів.
Інтервали групування усі однакової або різної довжини (за
рішенням дослідника). Середини основ стовпчиків є серединами
інтервалів.
Неперервна ознака
Гістограма

Площі окремих прямокутників дорівнюють частотам або


відносним частотам у відповідних інтервалах. Уся площа
гістограми частот дорівнює об’єму вибірки, гістограми
відносних частот – одиниці.
Через точки на
вершинах
прямокутників на
серединах інтервалів,
проводять ламану
лінію, яка
представляє собою
відповідно полігон
частот чи відносних
частот.

Рис. 3. Гістограма частот


Емпірична та теоретична функції
розподілу
Випадкова величина Х. Статистичний розподіл
відомий. Позначимо nx число накопичених частот,
тобто число спостережень, за яких спостерігалось
значення ознаки, менше х. Відносна частота події
nx
X x буде . Вона і є емпіричною функцією
n
розподілу випадкової величини х. ЇЇ знаходять
nx
дослідницьким шляхом і позначають F * x   .
n

Функцію розподілу випадкової величини генеральної


сукупності називають теоретичною функцією розподілу і
позначають F x  .

За великого об’єму вибірки F * x  F x 


Емпірична та теоретична функції
розподілу
Властивості емпіричної функції розподілу F x  :
*

1) приймає значення на відрізку 0; 1;

2) неспадна функція;

3) якщо х1 найменша варіанта, то F * x   0 для усіх x  x1 ;

якщо хk – найбільша варіанта, то F * x  1 для усіх x  xk .


Графічне зображення емпіричної функції
розподілу
Кумулята - графік емпіричної функції
розподілу. Будується для частот та
відносних частот
Ламана лінія, кінцями відрізків якої є точки, абсцисами яких є
варіанти у випадку дискретної ознаки або кінці інтервалів
групування у випадку неперервної ознаки (інтервальних рядів), а
ординатами частоти або відносні частоти.

Огіва будується аналогічно кумулята з тією лише


різницею, що накопичені частоти розміщують на осі
абсцис, а значення ознаки – на осі ординат.
Графічне зображення емпіричної функції
розподілу

Рис. 4. Графік кумуляти


Різновид кумуляти - крива концентрації або графік Лоренца
На осі координат наноситься масштабна шкала у відсотках від 0 до
100. На осі абсцис вказують накопичені частоти, а на осі ординат –
накопичені значення долі (у відсотках) обсягу ознаки. Рівномірному
розподілу ознаки відповідає діагональ квадрату, нерівномірному -
увігнута крива.

Рис. 5. Лінія концентрації (Крива Лоренца)


Дякую за увагу!

You might also like