Professional Documents
Culture Documents
Tema7 - Med 2
Tema7 - Med 2
« Затверджено »
на методичній нараді
кафедри медичної інформатики
Завідувач кафедри
________________________
«___»_____________ 2019 р.
МЕТОДИЧНІ РЕКОМЕНДАЦІЇ
ДЛЯ САМОСТІЙНОЇ РОБОТИ СТУДЕНТІВ
ПРИ ПІДГОТОВЦІ ДО ПРАКТИЧНОГО ЗАНЯТТЯ
ЛЬВІВ - 2019
1
Актуальність теми. В охороні здоров'я і клінічній медицині використовуються різні
статистичні концепції для прийняття рішень у питаннях встановлення клінічного діагнозу,
прогнозування можливих результатів здійснення тих або інших заходів у конкретній групі
населення, прогнозування перебігу захворювання у окремого хворого, вибір індивідуального
лікування хворого і т.д. Статистика знаходить повсякденне застосування в лабораторній
практиці. Знання статистики стало важливим для розуміння і критичної оцінки повідомлень
у медичних журналах. Отож, знання принципів статистики необхідне для планування,
проведення і аналізу досліджень, які присвячені оцінці різних ситуацій і тенденцій в охороні
здоров'я, а також для виконання наукових досліджень у всіх напрямках медично-біологічних
наук.
Статистика - розділ математики, присвячений математичним методам систематизації,
обробки й використання статистичних даних для наукових і практичних висновків.
Застосування статистики у медицині необхідне як на рівні співтовариств медиків, так і
на рівні окремих пацієнтів. У медицині діагностують і лікують безліч пацієнтів, які
відрізняються один від одного за своїми характеристиками, такими як маса тіла, вік, зріст,
артеріальний тиск, рівень холестерину, імуноглобулінів і т.д. Значення показників, на
підставі яких людину можна вважати здоровою, змінюються від одної особи до іншої. Немає
двох абсолютно однакових пацієнтів, або двох груп осіб, проте рішення, які стосуються
окремих хворих або груп населення, потрібно приймати, виходячи із досвіду, отриманого
відносно інших хворих або груп популяцій з подібними біологічними і соціальними
характеристиками. Зважаючи на існуючі відмінності ці рішення не можуть бути абсолютно
точними - вони завжди зв'язані із деякою невизначеністю. У цьому і полягає ймовірнісна
природа медицини.
Складнощі виникають при спробах узагальнити характеристики в групі хворих або
популяційній групі; вирішити яке значення тієї або іншої характеристики буде ідеальним,
нормальним, середнім і т.п.; зіставити дві групи хворих або дві групи популяцій по
конкретній характеристиці. Для вирішення цих питань застосовують статистичні методи
обробки даних.
2
Перелік основних термінів, які повинен засвоїти студент при підготовці до заняття.
Термін Визначення
Статистичні гіпотези Це припущення, котрі відносяться до виду розподілу
випадкової величини або окремих його параметрів.
Рівень значущості Ймовірність з якою може бути відхилена нульова
гіпотеза, коли вона є вірною.
Довірча ймовірність Ймовірність прийняття правильності рішення.
Критична область Сукупність значень, при яких основна гіпотеза не
приймається
Ранг Порядковий номер значень ознаки, розташованих у
порядку зростання або зменшення їх величин
ТЕОРЕТИЧНИЙ МАТЕРІАЛ
3
Для перевірки гіпотез використовують статистичний критерій K – це вирішуюче
правило, яке забезпечує прийняття вірної гіпотези і відхилення хибної з великою
ймовірністю. Математичною основою будь-якого критерію є статистична характеристика,
закон розподілу якої відомий, наприклад, характеристика t – розподілу Стьюдента.
Ймовірність з якою може бути відхилена нульова гіпотеза, коли вона є вірною,
називається рівнем значущості. Рівень значущості дослідник вибирає в залежності від
особливостей об'єкта дослідження. Для більшості медичних статистичних розрахунків
приймається, що максимальний рівень значущості, при якому нульову гіпотезу відхиляють,
має дорівнювати 0,05. Але в особливо важливих випадках, наприклад, якщо дослідження
пов'язані з використанням токсичних засобів чи інших факторів високого ризику, рівень
значущості приймається рівним 0,01.
Сукупність значень, при яких основна гіпотеза не приймається називається критичною
областю. Точки, що відділяють критичну область від області прийняття рішень називаються
критичними. Для визначення критичної області задається рівень значущості α. Для кожного
з критеріїв є таблиці, за якими знаходять значення критичних точок.
Задача найкращого вибору критичної області розв’язується звичайно так, щоб критерій
перевірки мав найбільшу чутливість, тобто щоб ми мали найбільшу ймовірність попадання
нашого критерію в критичну область, коли вірна альтернативна гіпотеза. Ця ймовірність
носить назву міцності критерію.
При аналізі гіпотез можливі помилки двох видів:
Н0 відкидається, коли вона правильна – помилка I-го роду
Н0 приймається, коли правильна Н1 – помилка II-го роду
Знижуючи рівень значущості ми зменшуємо ймовірність помилки першого роду, але
при цьому зростає ймовірність помилки другого роду.
Критерії бувають однобічні і двосторонні
У випадку, коли H1 сформульована у виді θ ≠ θ0, використовується двосторонній
критерій (рис. 7).
Якщо ж ми формулюємо Н1, у виді θ < θ0 (чи θ > θ0), то в цьому випадку
використовується однобічний критерій (рис. 7).
4
5. Визначають критичну область для перевірки Н0.
6. Розраховують значення обраного статистичного критерію для наявних даних.
7. Розраховане значення критерію порівнюють із критичним. і потім вирішують
прийняти чи відхилити Н0.
Перевірка статистичних гіпотез здійснюється з допомогою різних статистичних
критеріїв: параметричних або непараметричних. При виборі критерію, крім інших умов,
необхідно враховувати чи вибіркові сукупності є зв’язаними чи незалежними. Прикладами
перших сукупностей є вибірки з попарно зв’язаними варіантами (кількість гемоглобіну в
крові пацієнтів до і після лікування, різні фізіологічні показники спортсменів до і після
старту). Сукупності другого роду не зв’язані між собою і можуть мати різні обсяги
(результати дослідження крові в декількох груп хворих з різними стадіями захворювання,
результати дослідження піддослідної та контрольної груп тварин)
При виборі критерію необхідно завжди виходити з прикладної постановки задачі і
природи даних.
Кореляційний аналіз
5
Кореляційна залежність відрізняється за формою зв'язку, її напрямку і сили. Орієнтовна
уява про характер залежності між двома вивченими факторами дає графічний аналіз (так
звана «скеттер-діаграма»), який дозволяє розглянути концентрацію і розсіювання точок на
перетині координат досліджуваних ознак у певному напрямку навколо лінії регресії.
Форма зв'язку може бути прямолінійною і криволінійною. Прямолінійний зв'язок –
рівномірні зміни однієї ознаки відповідають рівномірним змінам другої ознаки при
незначних відхиленнях. Криволінійний зв'язок - рівномірні зміни однієї ознаки відповідають
нерівномірним змінам другої ознаки.
Напрямок зв'язку може бути прямий (позитивний) або зворотний (негативний). Якщо
при збільшенні однієї ознаки друга також збільшується або при зменшенні одної інша теж
зменшується, залежність пряма, позитивна. А якщо при збільшенні однієї ознаки інша
зменшується чи із зменшенням першої ознаки друга збільшується, залежність зворотна,
негативна.
За силою зв'язку залежність може бути сильна (сильно виражена), середня (помірно
виражена), слабка (слабо виражена).
Кількісна характеристика взаємозв'язку досліджуваних ознак може бути дана на
підставі обчислення показників сили зв'язку між ними (коефіцієнти кореляції) і визначення
залежності однієї ознаки від зміни іншого (коефіцієнт регресії).
Величина кореляційного взаємозв’язку визначається коефіцієнтом кореляції r. Він
може приймати значення від -1 до +1, тобто мати від’ємне і позитивне значення. У цих
випадках говорять про від’ємний чи позитивний кореляційний взаємозв’язок. Величина
коефіцієнта характеризує силу кореляційного взаємного зв’язку. Чим ближче модуль r до
одиниці, тим сильніший, глибший кореляційний взаємний зв’язок між двома варіаційними
рядами.
6
загартування організму зазвичай супроводжується збільшенням тривалості періодів хвороби
і навпаки.
Коефіцієнти кореляції мають велике значення в медицині. Вони застосовуються для
виявлення різноманітних зв’язків між явищами і процесами, необхідними для оцінки
фізичного стану індивідуума і колективу, для визначення дії на окремі групи населення як
сприятливих, так і несприятливих факторів навколишнього середовища.
або
x
n
i x yi y
rxy i 1
x y y
n n
2 2
i x i
i 1 i 1
Алгоритм розрахунку коефіцієнта парної кореляції:
1) записують вихідні дані в два варіаційні ряди - x і y;
2) обчислюють середні вибіркові значення рядів x і y;
1 n 1 n
x xi y y i
n i 1 n i 1
3) визначають різницю (відхилення) між варіантами рядів і їх середніми величинами;
xi xi x yi yi y
4) перемножують різниці рядів x і y між собою;
xi yi
5) знаходять суму перемножуваних різниць (з урахуванням арифметичного знаку);
n n
xi yi = xi x yi y
i 1 i 1
6) кожну різницю (відхилення) підносять до квадрату (окремо для рядів х і у);
xi 2 , yi 2
7) визначають суму квадратів відхилень;
i 1 i 1 i 1 i 1
8) підставляють отримані дані у вихідну формулу і обчислюють коефіцієнт парної
кореляції.
7
Тобто зв'язок між ознаками вважається статистично значущим, якщо коефіцієнт
кореляції перевищує свою помилку в 3 і більше разів.
У тому випадку, коли відношення коефіцієнта кореляції до його середньої помилки
менше 3, існування зв'язку між досліджуваними явищами не можна визнати доведеним.
Для малої кількості спостережень (n £ 30) ступінь надійності коефіцієнта кореляції
може визначатися за спеціальною таблицею. При цьому число спостережень таблиці К
(число ступенів свободи n ) дорівнює кількості спостережень у дослідженні без двох, тобто К
= n-2. Як правило, коефіцієнт кореляції розраховується при числі кореляційних пар не менше
5.
У медичних і біологічних дослідженнях зв'язок між ознаками вважається статистично
значущим, якщо величина коефіцієнта кореляції більше або дорівнює табличній при Р = 0,05
Показники оцінки коефіцієнта кореляції при малому числі спостережень
P
K
0,1 0,05 0,02 0,01
1 0,988 0,997 0,9995 0,99988
2 900 950 980 990
3 800 878 934 959
4 729 811 882 917
5 669 754 883 874
6 662 707 789 834
7 582 666 750 798
8 549 632 716 765
9 521 602 685 735
10 497 576 658 708
11 476 532 634 684
12 458 532 612 661
13 441 514 592 641
14 426 497 574 623
15 412 482 558 606
16 400 468 542 590
17 389 456 528 575
18 378 444 516 561
19 369 433 503 549
20 360 423 492 537
25 323 381 445 487
30 296 349 409 449
35 275 325 381 418
40 257 304 358 393
45 243 288 338 354
50 231 273 322 354
60 211 250 295 325
70 195 232 274 302
80 183 217 256 283
90 173 205 242 267
100 164 195 230 254
8
Приклад. У районах вивчалася залежність між щепленнями населення і рівнем
захворюваності. Отриманий коефіцієнт кореляції за цими двома ознаками дорівнював 0,81.
Число спостережень - 8 районів (пар), отже, К дорівнює 6 (8-2). По таблиці знаходимо рядок
6 і порівнюємо отриманий коефіцієнт. При даному числі ступенів свободи (К) коефіцієнт
кореляції перевищує табличний для ймовірності Р = 0,05 (графа 3). Звідси з ймовірністю,
більшою, ніж 95%, можна стверджувати, що залежність між щепленнями населення і
захворюваністю не випадкова, і цей зв'язок сильна, тобто чим більше відсоток щеплених, тим
менше рівень захворюваності.
9
Смертність Смертність Порядкові номери
від раку від раку (ранги) за розмірами
Квадрат
молочної матки на смертності від раку Різниця
різниці
Країна залози на 100000 рангів
рангів
100000 жінок молочної а
матки а2
жінок у залози
х
Нова
Зеландія 28,6 14,9 1 4 3 9
Австралія 23,5 13,4 2 5 3 9
ПАР 21,1 16,3 3 2 1 1
Чилі 5,8 15,3 4 3 1 1
Японія 3,3 19,1 5 1 4 16
Sа 2 = 36
.
Використовуючи таблицю значень t Стьюдента, при числі ступенів свободи без двох
(n2= n-2), порівнюють обчислене значення з табличним. Коефіцієнт визнається значущим за
умови, якщо розрахункове t> t0,05 табличного.
10
Визначення тісноти зв'язку між якісними ознаками
При вивченні залежності якісних ознак використовується коефіцієнт спряженості. Для
визначення тісноти зв'язку в разі альтернативної залежності двох ознак , які співставляються
(дані, як правило, представлені в таблицях з чотирма полями) коефіцієнти спряженості
розраховуються за формулами:
Алгоритм розрахунку:
.
Примітка. Коефіцієнт асоціації дає швидку, але орієнтовну оцінку зв'язку. Досить точну
величину коефіцієнт Q визначає для значень r між 1,5 і 0,5.
У тих випадках, коли якісні фактори мають не альтернативне варіювання (чотири поля), а
більше число угруповань, коефіцієнт спряженості обчислюється за формулою:
,
2
де j (фі-квадрат) - коефіцієнт контингенції Пірсона.
Алгоритм розрахунку:
1) встановлюють кореляційну таблицю;
2) частоти (числа спостережень) вписують зверху кожної клітини таблиці;
3) частоти зводять у квадрат і результат записують під ними;
4) квадрат частот ділять на суму числа спостережень (частот) кожної графи таблиці (див.
приклад розрахунку: 625:49 = 12,7; 225:75 = 3 і т.д.);
5) результат від ділення проставляють внизу кожної клітини таблиці;
6) визначають суму результату від ділення по кожному рядку і записують у нижній частині
підсумкової клітини таблиці (12,7 +3,0 +2,0 = 17,7 і т.д.);
7) зазначені суми ділять на відповідні підсумки рядків (сума від числа спостережень за
рядком): 17,7:50 = 0,35; 24,5:60 = 0,4 і т.д.;
11
8) обчислюють значення j 2, який є сумою отриманих вище результатів від ділення без
одиниці (j 2 = 1,28-1 = 0,28);
9) отримане значення j 2 підставляють у формулу і обчислюють коефіцієнт спряженості С.
Приклад. Обчислити коефіцієнт спряженості при вимірюванні тісноти зв'язку між
житловими умовами і захворюваністю обстежуваних.
, Звідси .
Величина С дозволяє судити про наявність середнього кореляційного зв'язку між
розглянутими факторами.
Основна статистична функція електронних таблиць Star Office Spreadsheet для перевірки
статистичних гіпотез
ТТЕSТ(массив1;массив2;значення;тип) - повертає вірогідність, відповідну критерію
Стьюдента, використовується, щоб визначити, наскільки вірогідно, що дві вибірки
узяті з генеральних сукупностей, мають одне і те ж середнє вибіркове значення, при
цьому
массив1 — перша вибірка.
массив2 — друга вибірка.
значення — число розподілу, яке дорівнює 1, коли функція ТТЕСТ використовує
односторонній розподіл, і дорівнює 2, коли функція ТТЕСТ використовує
двосторонній розподіл.
Тип — вид виконуваного t-тесту.
1 - парний двовибірковий t-тест для середніх значень (розраховує t-критерій
Стьюдента для середніх значень двох вибірок без припущення про дисперсії.
Використовується, коли є природна парність спостережень у вибірках,
наприклад, генеральна сукупність тестується двічі)
2 - двовибірковий t-тест для рівних дисперсій. (розраховує t-критерій Стьюдента для
середніх значень двох вибірок при рівних дисперсіях)
12
3 - Двовибірковий t-тест для нерівних дисперсій (розраховує t-критерій Стьюдента
для середніх значень двох вибірок при нерівних дисперсіях).
Завдання:
1. У таблиці наведено дані двох незалежних вибірок розміру пухлини карциноми Герена
на четвертий день захворювання і отриманих внаслідок дослідження впливу
магнітними полями низької частоти на новоутворення
Номер
1 2 3 4 5 6 7 8
досліду
День
введення Леталь-
сироватки ність (у)
xi xi x yi yi y xi yi xi 2 yi 2
(х)
1 2,0
2 3,0
3 7,0
4 9,0
5 14,0
n n n n n
Рекомендована література
1. В.Ю. Урбах. Статистический анализ в биологических и медицинских исследованиях. -
М.: Высшая школа, 1975.
2. В.Е. Гмурман. Теория вероятностей и математическая статистика. - М.: Высшая школа,
1980.
3. Г.Ф. Лакин. Биометрия.-М.: Высшая школа, 1990.
4. А. Гончаров. Microsoft Excel 97 в примерах. - С.-Пб.: Питер, 1997.
13
5. О.І. Конділенко, М.І. Міщенко. Похибки вимірювань фізичних величин: Методичні
рекомендації до лабораторного практикуму з курсу загальної фізики. - Житомир: ЖІТІ,
2000.-46 с.
6. Гихман Й.И., Скороход А.В., Ядренко М.Й. Курс теории вероятностей и
математической статистики. – К.: Вища школа, 1979. – 407с.
7. Нейман Ю. Вводный курс теории вероятностей и математической статистики. – М.:
Наука, 1980. – 448 с.
14