You are on page 1of 14

МІНІСТЕРСТВО ОХОРОНИ ЗДОРОВ'Я УКРАЇНИ

ЛЬВІВСЬКИЙ НАЦІОНАЛЬНИЙ МЕДИЧНИЙ УНІВЕРСИТЕТ


ІМЕНІ ДАНИЛА ГАЛИЦЬКОГО

« Затверджено »
на методичній нараді
кафедри медичної інформатики
Завідувач кафедри
________________________
«___»_____________ 2019 р.

МЕТОДИЧНІ РЕКОМЕНДАЦІЇ
ДЛЯ САМОСТІЙНОЇ РОБОТИ СТУДЕНТІВ
ПРИ ПІДГОТОВЦІ ДО ПРАКТИЧНОГО ЗАНЯТТЯ

Навчальна дисципліна Медична інформатика


Змістовий модуль №1 Основи інформаційних технологій в системі охорони
здоров’я. Обробка та аналіз медико-біологічних
даних
Тема заняття 7: Перевірка статистичних гіпотез. Кореляційний
аналіз
Курс: ІІ
Факультет: Медичний

ЛЬВІВ - 2019

1
Актуальність теми. В охороні здоров'я і клінічній медицині використовуються різні
статистичні концепції для прийняття рішень у питаннях встановлення клінічного діагнозу,
прогнозування можливих результатів здійснення тих або інших заходів у конкретній групі
населення, прогнозування перебігу захворювання у окремого хворого, вибір індивідуального
лікування хворого і т.д. Статистика знаходить повсякденне застосування в лабораторній
практиці. Знання статистики стало важливим для розуміння і критичної оцінки повідомлень
у медичних журналах. Отож, знання принципів статистики необхідне для планування,
проведення і аналізу досліджень, які присвячені оцінці різних ситуацій і тенденцій в охороні
здоров'я, а також для виконання наукових досліджень у всіх напрямках медично-біологічних
наук.
Статистика - розділ математики, присвячений математичним методам систематизації,
обробки й використання статистичних даних для наукових і практичних висновків.
Застосування статистики у медицині необхідне як на рівні співтовариств медиків, так і
на рівні окремих пацієнтів. У медицині діагностують і лікують безліч пацієнтів, які
відрізняються один від одного за своїми характеристиками, такими як маса тіла, вік, зріст,
артеріальний тиск, рівень холестерину, імуноглобулінів і т.д. Значення показників, на
підставі яких людину можна вважати здоровою, змінюються від одної особи до іншої. Немає
двох абсолютно однакових пацієнтів, або двох груп осіб, проте рішення, які стосуються
окремих хворих або груп населення, потрібно приймати, виходячи із досвіду, отриманого
відносно інших хворих або груп популяцій з подібними біологічними і соціальними
характеристиками. Зважаючи на існуючі відмінності ці рішення не можуть бути абсолютно
точними - вони завжди зв'язані із деякою невизначеністю. У цьому і полягає ймовірнісна
природа медицини.
Складнощі виникають при спробах узагальнити характеристики в групі хворих або
популяційній групі; вирішити яке значення тієї або іншої характеристики буде ідеальним,
нормальним, середнім і т.п.; зіставити дві групи хворих або дві групи популяцій по
конкретній характеристиці. Для вирішення цих питань застосовують статистичні методи
обробки даних.

Конкретні цілі заняття:


інтерпретувати:
– типи даних і шкали вимірювання;
– етапи статистичного аналізу даних;
– види розподілів;
– етапи перевірки гіпотез;
застосовувати:
– критерії перевірки гіпотез;
– основи теорії кореляційного та регресійного аналізу;
демонструвати:
– навички використання статистичних методів обробки медико-біологічних
даних.

Базовий рівень підготовки

Назви попередніх дисциплін Отримані навики


Елективний курс «Європейський Володіти навичками роботи з програмним
стандарт комп'ютерної забезпеченням комп'ютера: вміти
грамотності» завантажувати електронні таблиці, вводити
дані та формули, виконувати елементарні
операції над табличними даними.

2
Перелік основних термінів, які повинен засвоїти студент при підготовці до заняття.

Термін Визначення
Статистичні гіпотези Це припущення, котрі відносяться до виду розподілу
випадкової величини або окремих його параметрів.
Рівень значущості Ймовірність з якою може бути відхилена нульова
гіпотеза, коли вона є вірною.
Довірча ймовірність Ймовірність прийняття правильності рішення.
Критична область Сукупність значень, при яких основна гіпотеза не
приймається
Ранг Порядковий номер значень ознаки, розташованих у
порядку зростання або зменшення їх величин

Теоретичні питання до заняття.


- Статистичні гіпотези.
- Перевірка статистичних гіпотез про закон розподілу.
- Кореляційний аналіз
- Ранг

ТЕОРЕТИЧНИЙ МАТЕРІАЛ

Перевірка статистичних гіпотез

Незалежно від проблем, що вивчаються , кожне наукове дослідження ставить перед


собою задачу підтвердити чи відкинути якусь гіпотезу.
Статистичні гіпотези - це припущення, котрі відносяться до виду розподілу
випадкової величини або окремих його параметрів.
Задача випробування статистичних гіпотез виникає тоді, коли обставини вимушують
нас робити вибір між двома способами дії.
Гіпотеза, прийнята дослідником, називається нульовою гіпотезою (Н0). Протилежна
гіпотеза називається альтернативною (Н1).
Наприклад, якщо вивчаються властивості профілактичної сироватки, може бути
прийняте припущення, що ця сироватка таких властивостей не має або вони не відрізняються
від аналогів. Це нульова гіпотеза. Альтернативною гіпотезою у цьому випадку буде
твердження, що сироватка має профілактичні властивості кращі ніж в аналогів. Можна
поміняти гіпотези місцями і це не змінить постановку експерименту, метою якого є перевірка
властивостей сироватки.

Серед розмаїття задач, які розв'язуються за допомогою методів математичної


статистики, в медицині найчастіше трапляються задачі пов’язані з характеристикою окремої
сукупності або пов’язані з порівнянням двох сукупностей між собою.
Якщо розглядається окрема сукупність, то нульова гіпотеза Н0 формулюється у вигляді
– досліджувана сукупність підлягає певному відомому розподілу, напр. нормальному.
Якщо порівнюються дві сукупності, то нульова гіпотеза переважно має вигляд: не існує
достовірних відмінностей між двома групами показників, тобто дві групи належать до однієї
сукупності.

3
Для перевірки гіпотез використовують статистичний критерій K – це вирішуюче
правило, яке забезпечує прийняття вірної гіпотези і відхилення хибної з великою
ймовірністю. Математичною основою будь-якого критерію є статистична характеристика,
закон розподілу якої відомий, наприклад, характеристика t – розподілу Стьюдента.
Ймовірність з якою може бути відхилена нульова гіпотеза, коли вона є вірною,
називається рівнем значущості. Рівень значущості дослідник вибирає в залежності від
особливостей об'єкта дослідження. Для більшості медичних статистичних розрахунків
приймається, що максимальний рівень значущості, при якому нульову гіпотезу відхиляють,
має дорівнювати 0,05. Але в особливо важливих випадках, наприклад, якщо дослідження
пов'язані з використанням токсичних засобів чи інших факторів високого ризику, рівень
значущості приймається рівним 0,01.
Сукупність значень, при яких основна гіпотеза не приймається називається критичною
областю. Точки, що відділяють критичну область від області прийняття рішень називаються
критичними. Для визначення критичної області задається рівень значущості α. Для кожного
з критеріїв є таблиці, за якими знаходять значення критичних точок.
Задача найкращого вибору критичної області розв’язується звичайно так, щоб критерій
перевірки мав найбільшу чутливість, тобто щоб ми мали найбільшу ймовірність попадання
нашого критерію в критичну область, коли вірна альтернативна гіпотеза. Ця ймовірність
носить назву міцності критерію.
При аналізі гіпотез можливі помилки двох видів:
 Н0 відкидається, коли вона правильна – помилка I-го роду
 Н0 приймається, коли правильна Н1 – помилка II-го роду
Знижуючи рівень значущості ми зменшуємо ймовірність помилки першого роду, але
при цьому зростає ймовірність помилки другого роду.
Критерії бувають однобічні і двосторонні
У випадку, коли H1 сформульована у виді θ ≠ θ0, використовується двосторонній
критерій (рис. 7).

Рис.7. Приклад критичної області для двостороннього і однобічного критерію

Якщо ж ми формулюємо Н1, у виді θ < θ0 (чи θ > θ0), то в цьому випадку
використовується однобічний критерій (рис. 7).

Перевірка гіпотез звичайно проходить наступні етапи.


1. Визначення статистичної моделі. Тут висувають деякий набір передумов щодо закону
розподілу випадкової величини і його параметрів. Наприклад, закон розподілу нормальний,
величини незалежні й ін.
2. Формулюють Н0 і Н1.
3. Вибирають критерій (критеріальну статистику), що підходить до висунутої
статистичної моделі.
4. Вибирають рівень значущості  залежно від необхідної надійності висновків.

4
5. Визначають критичну область для перевірки Н0.
6. Розраховують значення обраного статистичного критерію для наявних даних.
7. Розраховане значення критерію порівнюють із критичним. і потім вирішують
прийняти чи відхилити Н0.
Перевірка статистичних гіпотез здійснюється з допомогою різних статистичних
критеріїв: параметричних або непараметричних. При виборі критерію, крім інших умов,
необхідно враховувати чи вибіркові сукупності є зв’язаними чи незалежними. Прикладами
перших сукупностей є вибірки з попарно зв’язаними варіантами (кількість гемоглобіну в
крові пацієнтів до і після лікування, різні фізіологічні показники спортсменів до і після
старту). Сукупності другого роду не зв’язані між собою і можуть мати різні обсяги
(результати дослідження крові в декількох груп хворих з різними стадіями захворювання,
результати дослідження піддослідної та контрольної груп тварин)
При виборі критерію необхідно завжди виходити з прикладної постановки задачі і
природи даних.

Кореляційний аналіз

У різних областях медицини, біології, організації охорони здоров'я, соціально-


гігієнічних та клінічних дослідженнях проводяться статистичний аналіз зв'язків, вивчення
закономірностей і факторів, що впливають.
Альтернативний зв’язок характеризує наявність або відсутність якісної ознаки
(наприклад, пацієнт захворів - не захворів).
Існують два види прояву кількісних взаємозв'язків між ознаками (явищами, факторами)
– функціональні і кореляційні.
При функціональних залежностях кожному значенню однієї змінної величини
відповідає одне цілком визначене значення іншої змінної. Такі залежності спостерігаються в
математиці й фізиці. Різні вимірювальні прилади засновані на функціональній залежності
(висота ртутного стовпчика дає однозначну відповідь про температуру).
Однак у випадках, коли дві і більше величини залежать не тільки одна від одної, але і
від низки інших умов, що не піддаються точному обліку, функціональні залежності
принципово не застосовуються для опису взаємозв’язку цих величин. У таких випадках
описати взаємозв’язок можна лише за допомогою статистичних або ймовірнісних
закономірностей.
Кореляція - один із видів статистичних або ймовірнісних закономірностей, що описує
взаємозв’язок між двома величинами X і У, із яких одна (X) залежить не тільки від іншої (У),
але і від сукупності інших факторів, у результаті чого кожному значенню Х відповідає не
одне значення У, а ряд цих значень. Наприклад, якщо Х - кількість препарату, що вводиться,
то його концентрація в крові У у довільний момент часу статистично залежить від величини
Х, тому що визначається не тільки кількістю введеного препарату, але й багатьма іншими
факторами (вага хворого, швидкість виведення препарату з організму, кількість інших
речовин у крові і т.п.). Між зростом і вагою дітей існує безперечна залежність, але це не
означає, що певному зросту строго відповідає певна вага. У формуванні ваги є багато інших
факторів, кожному значенню зросту відповідає кілька значень ваги, які можуть бути
виражені у вигляді розподілу.
Функціональний зв'язок має місце по відношенню до кожного конкретного
спостереження. Кореляція проявляється в середньому для всієї сукупності спостережень:
виявлення взаємодії факторів, визначення сили і спрямованості. Практичне використання
кореляційного аналізу: виявлення взаємодії факторів, визначення сили та напрямку впливу
одних факторів на інші.
Слід підкреслити, що визначення наявності зв'язку між явищами і факторами - справа
фахівців. Статистика лише вимірює цей зв'язок.

5
Кореляційна залежність відрізняється за формою зв'язку, її напрямку і сили. Орієнтовна
уява про характер залежності між двома вивченими факторами дає графічний аналіз (так
звана «скеттер-діаграма»), який дозволяє розглянути концентрацію і розсіювання точок на
перетині координат досліджуваних ознак у певному напрямку навколо лінії регресії.
Форма зв'язку може бути прямолінійною і криволінійною. Прямолінійний зв'язок –
рівномірні зміни однієї ознаки відповідають рівномірним змінам другої ознаки при
незначних відхиленнях. Криволінійний зв'язок - рівномірні зміни однієї ознаки відповідають
нерівномірним змінам другої ознаки.
Напрямок зв'язку може бути прямий (позитивний) або зворотний (негативний). Якщо
при збільшенні однієї ознаки друга також збільшується або при зменшенні одної інша теж
зменшується, залежність пряма, позитивна. А якщо при збільшенні однієї ознаки інша
зменшується чи із зменшенням першої ознаки друга збільшується, залежність зворотна,
негативна.
За силою зв'язку залежність може бути сильна (сильно виражена), середня (помірно
виражена), слабка (слабо виражена).
Кількісна характеристика взаємозв'язку досліджуваних ознак може бути дана на
підставі обчислення показників сили зв'язку між ними (коефіцієнти кореляції) і визначення
залежності однієї ознаки від зміни іншого (коефіцієнт регресії).
Величина кореляційного взаємозв’язку визначається коефіцієнтом кореляції r. Він
може приймати значення від -1 до +1, тобто мати від’ємне і позитивне значення. У цих
випадках говорять про від’ємний чи позитивний кореляційний взаємозв’язок. Величина
коефіцієнта характеризує силу кореляційного взаємного зв’язку. Чим ближче модуль r до
одиниці, тим сильніший, глибший кореляційний взаємний зв’язок між двома варіаційними
рядами.

Оцінка сили зв'язку за величиною коефіцієнта кореляції

Розмір зв'язку Характер зв'язку


Прямий (+) Зворотній (-)
Відсутній 0 0
Слабкий Від 0 до +0,29 Від 0 до -0,29
Середній Від +0,3 до +0,69 Від -0,3 до -0,69
Сильний Від +0,7 до +0,99 Від -0,7 до -0,99
Повний (функціональний) +1,0 -1,0

Позитивний кореляційний взаємний зв’язок (r >0) між двома варіаційними рядами X і У


свідчить про те, що величина X прямо залежить від величини У. Необхідно пам’ятати, що в
цьому разі мова принципово не йде про функціональний взаємний зв’язок. Наприклад, між
двома варіаційними рядами, в яких представлені концентрація цукру в крові і тривалість
захворювання на цукровий діабет, у деяких хворих виявлений коефіцієнт кореляції r = 0,9.
Величина виявленого коефіцієнта позитивна, тобто ці параметри прямо взаємно пов’язані
між собою. Отже, чим вища концентрація цукру, тим більшу тривалість хвороби необхідно
припускати в цього пацієнта. Зазначимо, що у цього правила можуть бути винятки. Справді,
за концентрацією цукру в крові принципово не можна з точністю до місяця або дня
обчислити тривалість хвороби. Однак коефіцієнт кореляції дає більш важливі знання:
існують механізми, що пов’язують досліджувані параметри цілком визначеним,
передбачуваним способом.
Наведемо інший приклад: два варіаційні ряди, що описують загальну тривалість днів, у
які людина хворіла на ГРВІ протягом року, і загальну тривалість часу, що була витрачена на
процедури для загартування організму. Коефіцієнт кореляції в цьому разі складає r = - 0,6,
тобто має від’ємнe значення. Така величина свідчить про наявність механізмів
зворотного зв’язку між явищами, що спостерігаються: менша тривалість процедур для

6
загартування організму зазвичай супроводжується збільшенням тривалості періодів хвороби
і навпаки.
Коефіцієнти кореляції мають велике значення в медицині. Вони застосовуються для
виявлення різноманітних зв’язків між явищами і процесами, необхідними для оцінки
фізичного стану індивідуума і колективу, для визначення дії на окремі групи населення як
сприятливих, так і несприятливих факторів навколишнього середовища.

Коефіцієнт парної кореляції

Коефіцієнт парної кореляції обчислюється за формулою:

або

 x  
n

i  x yi  y
rxy  i 1

 x   y  y 
n n
2 2
i x i
i 1 i 1
Алгоритм розрахунку коефіцієнта парної кореляції:
1) записують вихідні дані в два варіаційні ряди - x і y;
2) обчислюють середні вибіркові значення рядів x і y;
1 n 1 n
x   xi y   y i
n i 1 n i 1
3) визначають різницю (відхилення) між варіантами рядів і їх середніми величинами;
xi  xi  x yi  yi  y
4) перемножують різниці рядів x і y між собою;
xi  yi
5) знаходять суму перемножуваних різниць (з урахуванням арифметичного знаку);
  
n n

 xi yi =  xi  x yi  y
i 1 i 1
6) кожну різницю (відхилення) підносять до квадрату (окремо для рядів х і у);
xi 2 , yi 2
7) визначають суму квадратів відхилень;

 xi    xi  x   yi    yi  y 


n n n n
2 2 2 2

i 1 i 1 i 1 i 1
8) підставляють отримані дані у вихідну формулу і обчислюють коефіцієнт парної
кореляції.

Можна визначити достовірність коефіцієнта кореляції, обчисливши його середню


помилку для великого числа спостережень (n> 50) за формулою:

, Або при меншій кількості спостережень:


З достатньо великою надійністю можна стверджувати, що залежність невипадкова,
якщо чисельне значення rxy перевищує свою середню помилку не менш ніж в 3 рази.

7
Тобто зв'язок між ознаками вважається статистично значущим, якщо коефіцієнт
кореляції перевищує свою помилку в 3 і більше разів.
У тому випадку, коли відношення коефіцієнта кореляції до його середньої помилки
менше 3, існування зв'язку між досліджуваними явищами не можна визнати доведеним.
Для малої кількості спостережень (n £ 30) ступінь надійності коефіцієнта кореляції
може визначатися за спеціальною таблицею. При цьому число спостережень таблиці К
(число ступенів свободи n ) дорівнює кількості спостережень у дослідженні без двох, тобто К
= n-2. Як правило, коефіцієнт кореляції розраховується при числі кореляційних пар не менше
5.
У медичних і біологічних дослідженнях зв'язок між ознаками вважається статистично
значущим, якщо величина коефіцієнта кореляції більше або дорівнює табличній при Р = 0,05
Показники оцінки коефіцієнта кореляції при малому числі спостережень
P
K
0,1 0,05 0,02 0,01
1 0,988 0,997 0,9995 0,99988
2 900 950 980 990
3 800 878 934 959
4 729 811 882 917
5 669 754 883 874
6 662 707 789 834
7 582 666 750 798
8 549 632 716 765
9 521 602 685 735
10 497 576 658 708
11 476 532 634 684
12 458 532 612 661
13 441 514 592 641
14 426 497 574 623
15 412 482 558 606
16 400 468 542 590
17 389 456 528 575
18 378 444 516 561
19 369 433 503 549
20 360 423 492 537
25 323 381 445 487
30 296 349 409 449
35 275 325 381 418
40 257 304 358 393
45 243 288 338 354
50 231 273 322 354
60 211 250 295 325
70 195 232 274 302
80 183 217 256 283
90 173 205 242 267
100 164 195 230 254

8
Приклад. У районах вивчалася залежність між щепленнями населення і рівнем
захворюваності. Отриманий коефіцієнт кореляції за цими двома ознаками дорівнював 0,81.
Число спостережень - 8 районів (пар), отже, К дорівнює 6 (8-2). По таблиці знаходимо рядок
6 і порівнюємо отриманий коефіцієнт. При даному числі ступенів свободи (К) коефіцієнт
кореляції перевищує табличний для ймовірності Р = 0,05 (графа 3). Звідси з ймовірністю,
більшою, ніж 95%, можна стверджувати, що залежність між щепленнями населення і
захворюваністю не випадкова, і цей зв'язок сильна, тобто чим більше відсоток щеплених, тим
менше рівень захворюваності.

Ранговий коефіцієнт (Спірмена)

В деяких випадках ми можемо зіткнутися з такими якостями, які не піддаються


вираженню числом одиниць.
Ці обставини заставляють застосовувати “не параметричні методи”, які дають змогу
вимірювати інтенсивність зв’язків між кількісними ознаками, форма розподілу яких
відрізняється від нормального і між якісними ознаками. В основу не параметричних методів
покладено принцип нумерації варіант ряду. Взаємозв’язок між ознаками, які можна
зранжувати, передусім на основі бальних оцінок, вимірюється методами рангової кореляції.
Кожній одиниці сукупності присвоюється порядковий номер в ряді, який буде впорядковано
за рівнем ознаки. Таким чином, ряд значень ознаки впорядковується, а номер кожного
окремого значення називатиметься її рангом.
Ранжування проводиться за кожною ознакою окремо: перший ранг надається
найменшому значенню ознаки, останній — найбільшому або навпаки. Кількість рангів
дорівнює обсягу сукупності. Очевидно, зі збільшенням обсягу сукупності ступінь
„розпізнаваності” елементів зменшується. З огляду на те, що рангова кореляція не потребує
додержання будь-яких математичних передумов щодо розподілу ознак, зокрема вимоги
нормальності розподілу, рангові оцінки щільності зв’язку доцільно використовувати для
сукупностей невеликого обсягу.
Рангова кореляція Спірмена — найпростіший спосіб визначення міри зв'язку між
факторами. Назва методу свідчить про те, що зв'язок визначають між рангами, тобто рядами
одержаних кількісних значень, ранжованих у порядку зниження або зростання. Треба мати
на увазі, що, по-перше, рангову кореляцію не рекомендовано проводити, якщо зв'язок пар
менший чотирьох і більший двадцяти; по-друге, рангова кореляція дає змогу визначати
зв'язок і в іншому випадку, якщо значення мають напівкількісний характер, тобто не мають
числового виразу, відображають чіткий порядок прямування цих величин; по-третє, рангову
кореляцію доцільно застосовувати в тих випадках, коли достатньо одержати приблизні дані
Обчислення коефіцієнта проводиться за формулою:

Алгоритм розрахунку коефіцієнта кореляції рангів:


1) замінюють кількісні (або напівкількісні, або якісні) ознаки ряду х і у на ранги,
ранжуючи при цьому строго від меншої величини до більшої (або суворо від більшої до
меншої на розсуд дослідника);
2) визначають умовні відхилення (а), тобто різницю рангів по кожному рядку;
3) зводять умовні відхилення в квадрат;
4) визначають суму квадратів умовних відхилень;
5) підставляють отримані дані у відому формулу і обчислюють коефіцієнт кореляції.
Приклад. Виміряти кореляцію між смертністю від раку молочної залози і раку матки
(матеріали смертності 5 позаєвропейських країн за 1950 - 1952 рр..),

9
Смертність Смертність Порядкові номери
від раку від раку (ранги) за розмірами
Квадрат
молочної матки на смертності від раку Різниця
різниці
Країна залози на 100000 рангів
рангів
100000 жінок молочної а
матки а2
жінок у залози
х
Нова
Зеландія 28,6 14,9 1 4 3 9
Австралія 23,5 13,4 2 5 3 9
ПАР 21,1 16,3 3 2 1 1
Чилі 5,8 15,3 4 3 1 1
Японія 3,3 19,1 5 1 4 16
Sа 2 = 36

Оскільки обчислення коефіцієнта кореляції рангів зазвичай проводиться на малій


кількості числі спостережень (кількість пар в лавах х, у), особливого значення набуває оцінка
статистичної значущості (достовірності) цього коефіцієнта. Ранговий коефіцієнт завжди
менш точний, ніж парний коефіцієнт кореляції.
Оцінка достовірності коефіцієнта кореляції рангів проводиться різними методами в
залежності від числа спостережень. При числі парних спостережень, меншому за число 9 (n
£ 9), оцінка значимості проводиться за спеціальною таблицею. При числі спостережень від
10 і більше оцінка значимості може здійснюватися за допомогою критерію t за формулою:

.
Використовуючи таблицю значень t Стьюдента, при числі ступенів свободи без двох
(n2= n-2), порівнюють обчислене значення з табличним. Коефіцієнт визнається значущим за
умови, якщо розрахункове t> t0,05 табличного.

Критичне значення коефіцієнтів кореляції Спірмена - r

Рівні значущості Рівні значущості


n n
5% 1% 5% 1%
4 1,000 16 0,425 0,601
5 0,900 1,000 18 0,399 0,564
6 0,829 0,843 20 0,377 0,534
7 0,714 0,893 22 0,359 0,508
8 0,643 0,833 24 0,343 0,485
9 0,600 0,783 26 0,329 0,465
10 0,564 0,746 28 0,317 0,448
12 0,506 0,712 30 0,306 0,435
14 0,456 0,645

Коефіцієнт кореляції визнається значущим (достовірним), якщо обчислене r £ r 0,05.


У розглянутому прикладі число спостережень менше 9 (n = 5), внаслідок чого оцінка
коефіцієнта проведена за таблицею. При числі спостережень, що дорівнює 5, розраховане
значення r =- 0,80 менше критичного і тому не можна з достатньою вірогідністю
стверджувати, що між смертністю від раку молочної залози і раку матки існує якась
залежність.

10
Визначення тісноти зв'язку між якісними ознаками
При вивченні залежності якісних ознак використовується коефіцієнт спряженості. Для
визначення тісноти зв'язку в разі альтернативної залежності двох ознак , які співставляються
(дані, як правило, представлені в таблицях з чотирма полями) коефіцієнти спряженості
розраховуються за формулами:

коефіцієнт контингенції Шарльє:

коефіцієнт асоціації Юла (Q):

Алгоритм розрахунку:

1) шифрують через a, b, c, d чотири поля, в яких розташовані вихідні дані: ;


2) обчислюють послідовно добутки a * d і b * c;
3) розраховують чисельник формули;
4) визначають знаменник формули;
5) обчислюють коефіцієнт Шарльє або Юла.

Приклад. Визначити залежність між методами лікування (хірургічний і


рентгенотерапія, тільки хірургічний) і результатами (одужання чи неодужання).

Метод Одужання Неодужання Усього хворих


I 14 (a) 8 (b) 22 (a + b)
II 7 (c) 9 (d) 16 (c + d)
Усього: 21 (a + c) 17 (b + d) 38 (a + b + c + d) = N

.
Примітка. Коефіцієнт асоціації дає швидку, але орієнтовну оцінку зв'язку. Досить точну
величину коефіцієнт Q визначає для значень r між 1,5 і 0,5.
У тих випадках, коли якісні фактори мають не альтернативне варіювання (чотири поля), а
більше число угруповань, коефіцієнт спряженості обчислюється за формулою:

,
2
де j (фі-квадрат) - коефіцієнт контингенції Пірсона.
Алгоритм розрахунку:
1) встановлюють кореляційну таблицю;
2) частоти (числа спостережень) вписують зверху кожної клітини таблиці;
3) частоти зводять у квадрат і результат записують під ними;
4) квадрат частот ділять на суму числа спостережень (частот) кожної графи таблиці (див.
приклад розрахунку: 625:49 = 12,7; 225:75 = 3 і т.д.);
5) результат від ділення проставляють внизу кожної клітини таблиці;
6) визначають суму результату від ділення по кожному рядку і записують у нижній частині
підсумкової клітини таблиці (12,7 +3,0 +2,0 = 17,7 і т.д.);
7) зазначені суми ділять на відповідні підсумки рядків (сума від числа спостережень за
рядком): 17,7:50 = 0,35; 24,5:60 = 0,4 і т.д.;

11
8) обчислюють значення j 2, який є сумою отриманих вище результатів від ділення без
одиниці (j 2 = 1,28-1 = 0,28);
9) отримане значення j 2 підставляють у формулу і обчислюють коефіцієнт спряженості С.
Приклад. Обчислити коефіцієнт спряженості при вимірюванні тісноти зв'язку між
житловими умовами і захворюваністю обстежуваних.

Розподіл обстежуваних за частотою


захворювань
Житлові умови Разом
Частота Епізодично Чи не
хворіють хворіють хворіють
25 15 10 50
2
Незадовільні 25 = 625 225 100
12,7 3 2 17,7 0,35
18 36 6 60
Задовільні 324 1296 36
6,6 17,3 0,6 24,5 0,4
6 24 40 70
Хороші 36 576 1600
0,8 7,7 28,6 37,1 0,53
25 +18 +6 = 75 56 180 0,35 +0,4 +0,53 =
49 1,28

, Звідси .
Величина С дозволяє судити про наявність середнього кореляційного зв'язку між
розглянутими факторами.

Комп’ютерне розв’язування задач

У програмному забезпеченні "Star Office Spreadsheets" передбачена можливість


вирішення багатьох важливих задач медичної біостатистики. При цьому забезпечується
висока точність обчислень, можливість роботи з великими обсягами статистичних даних.

Основна статистична функція електронних таблиць Star Office Spreadsheet для перевірки
статистичних гіпотез
ТТЕSТ(массив1;массив2;значення;тип) - повертає вірогідність, відповідну критерію
Стьюдента, використовується, щоб визначити, наскільки вірогідно, що дві вибірки
узяті з генеральних сукупностей, мають одне і те ж середнє вибіркове значення, при
цьому
массив1 — перша вибірка.
массив2 — друга вибірка.
значення — число розподілу, яке дорівнює 1, коли функція ТТЕСТ використовує
односторонній розподіл, і дорівнює 2, коли функція ТТЕСТ використовує
двосторонній розподіл.
Тип — вид виконуваного t-тесту.
1 - парний двовибірковий t-тест для середніх значень (розраховує t-критерій
Стьюдента для середніх значень двох вибірок без припущення про дисперсії.
Використовується, коли є природна парність спостережень у вибірках,
наприклад, генеральна сукупність тестується двічі)
2 - двовибірковий t-тест для рівних дисперсій. (розраховує t-критерій Стьюдента для
середніх значень двох вибірок при рівних дисперсіях)

12
3 - Двовибірковий t-тест для нерівних дисперсій (розраховує t-критерій Стьюдента
для середніх значень двох вибірок при нерівних дисперсіях).

Завдання:

1. У таблиці наведено дані двох незалежних вибірок розміру пухлини карциноми Герена
на четвертий день захворювання і отриманих внаслідок дослідження впливу
магнітними полями низької частоти на новоутворення

Номер
1 2 3 4 5 6 7 8
досліду

Номер 1 0,027 0,036 0,1 0,12 0,32 0,45 0,049 0,105


вибірки 2 0,075 0,4 0,08 0,105 0,075 0,12 0,06 0,075

Визначте, наскільки ймовірно, що дві вибірки взяті з генеральних сукупностей, мають


одне і те ж середнє вибіркове значення, використовуючи функцію ТТEST.

2. Визначити кореляційний зв'язок між рядками введення протидифтерійної сироватки та


летальністю цього захворювання.

День
введення Леталь-
сироватки ність (у)
xi  xi  x yi  yi  y xi  yi xi 2 yi 2
(х)
1 2,0
2 3,0
3 7,0
4 9,0
5 14,0
n n n n n

 xi =  yi =  xi yi =  xi  =  y 


2 2
x = y = i =
i 1 i 1 i 1 i 1 i 1

Обчислити коефіцієнт кореляції і зробити висновок

Рекомендована література
1. В.Ю. Урбах. Статистический анализ в биологических и медицинских исследованиях. -
М.: Высшая школа, 1975.
2. В.Е. Гмурман. Теория вероятностей и математическая статистика. - М.: Высшая школа,
1980.
3. Г.Ф. Лакин. Биометрия.-М.: Высшая школа, 1990.
4. А. Гончаров. Microsoft Excel 97 в примерах. - С.-Пб.: Питер, 1997.

13
5. О.І. Конділенко, М.І. Міщенко. Похибки вимірювань фізичних величин: Методичні
рекомендації до лабораторного практикуму з курсу загальної фізики. - Житомир: ЖІТІ,
2000.-46 с.
6. Гихман Й.И., Скороход А.В., Ядренко М.Й. Курс теории вероятностей и
математической статистики. – К.: Вища школа, 1979. – 407с.
7. Нейман Ю. Вводный курс теории вероятностей и математической статистики. – М.:
Наука, 1980. – 448 с.

14

You might also like