You are on page 1of 23

Биостатистика

БИОСТАТИСТИКА

Вовед

Скоро и да нема истражувачка дејност во која барем во некоја фаза не се


појави потреба за собирање и анализирање на одредени податоци за
одредена појава. Во природните и техничките науки истражувањата се
редовно врзани со одредени мерења на некои физички величини, така да
резултатите на мерењата можат да се изразат со броеви и тогаш зборуваме
за нумерички или бројни податоци. Во некои мерења податоците се
искажани со одредени атрибути (боја, облик, раса, крвна група и сл. )

Ако на резултатите на мерењата, односно набљудувањата, влијаат случајни


фактори, тогаш се зборува за статистички податоци. Тоа значи дека
природата на набљудуваната појава е таква да не може да се контролираат
сите можни влијанија на одреден процес кој доведува до краен резултат.
Затоа се претпоставува дека измерените статистички податоци содржат и
одредена случајна компонента.

Значи суштината на секое истражување е собирање на информации.


Статистиката стапува на сцена секогаш кога информацијата е квантитативна
и се однесува на колекција од индивидуи. Во овој контекст индивидуа може
да биде некој субјект или објект (студенти на даден универзитет, куќи во
некоја населба, производи во некоја фабрика..), додека најчест тип на
информации се или мерења или броења на одредени карактеристики на
секоја индивидуа ( висина на студенти, број на соби во секоја куќа,
исправност на производ од некоја фабрика и сл). Заедничко име што ќе го
користиме за индивидуите е единки додека мерените карактеристики ги
нарекуваме обележја или променливи. Понекогаш променливите од интерес
можат да бидат квалитативни со некој број различни можни состојби ( боја
на очи, крвна група,..)

Множеството објекти или индивидуи се нарекува популација или можеме да


речеме дека Популација претставува основно (генераторно) множество од

Жанета Попеска 1
Биостатистика

еднородни објекти или резултати на некоја операција. Може да биде конечно


или бесконечно.

Популацијата може да биде конечна или бесконечна. И доколку популацијата


е конечна истата може да биде многу голема. Затоа во процесот на собирање
на податоци за одредени карактеристики на единките од некоја популација
често пати е невозможно да се испита целата група и затоа испитуваме еден
мал дел од популацијата наречен примерок.

Примерок претставува конечно подмножество од популацијата. Големината


на примерокот се нарекува и обем на примерокот.

Примерокот ќе го означуваме со (x1,x2,…,xn). Притоа е вредноста на


обележјето набљудувана на i-тата избрана единка во примерокот.

Примерокот кој се користи во статистичките испитувања треба да е


репрезентативен односно да претставува популација “во мало”. Ако
примерокот е репрезентативен за популацијата, важни заклучоци за
популацијата можат да се извлечат од анализа на примерокот.

Затоа целта при избирање на примерок од популацијата е добивање слика на


популацијата, која што е можно помалку ќе се наруши при процесот на
собирање на информации.

Обележје (променлива) претставува некоја карактеристика на една


индивидуа или објект и истата може да има различни вредности за различни
индивидуи или пак различни вредности при различни мерења на иста
индивидуа или објект.

Како да се дојде до податоци. Можеме да зборуваме за два основни типа на


студии обсервациони студии и експерименти.

При опсервациони студии или наблудувања се набљудуваат индивидуите и


се мерат соответните карактеристики без да се влијае на одговорите.
Примери се спроведување на разни анкети или попис на население.

Жанета Попеска 2
Биостатистика

Експериментите претставуваат свесно поставување на некој третман на


индивидуите со цел да се набљудува нивната реакција. Мерење на притисок
на гас при различни температури.

Набљудувачките студии се основен извор на податоци на пример при


прибирање на мислења на гласачите или однесувањето на одредени
животни во дивина.

Кога сакаме пак да видиме ефекти на одредени промени ние фактички


мораме да ја направинме промената. Кога целта е да се разберат причините и
ефектите експериментите се единствен извор на убедливи податоци. На
пример дали студентите повеќе сака кока-кола или пепси кога ќе ги пробаат
без да знаат кој е кој пијалок.

Рековме дека информациите се однесуваат на одредени карактеристики


обележја кои можеме да ги групираме во два вида.

Категориски (квалиатативни ) обележја

Некои обележја ги рапспоредуваат единките во една од неколку можни


групи или категории. На пример пол, националност, боја на очи, место на
живеење, број на деца во семејството и други. Овие обележја се нарекуваат
категориски обележја или соодветните податоци, категориски податоци.

Квантитативни обележја

Овие обележја примаат нумерички вредности за кои имаат смисла


аритметичките операции.

Ако множеството вредности што може да ги прими обележјето е конечно или


изброиво велиме дека е од дискретен тип, на пример број на деца во
семејството, број на испушени цигари во текот на еден ден или број на
автомобили на некоја раскрсница од 12 до 13 часот во денот.

Ако обележјето може да прими било која вредност од некој броен интервал
тогаш зборуваме за обележја од интервален тип. На пример висина, тежина

Жанета Попеска 3
Биостатистика

на средношколци, потрошувачка на гориво на 100 км, концентрација на


тешки метали во вода, водостој на река и други.

Распределба на обележјето зборува за тоа кои вредности ги прима


обележјето и со која честота.

1.1 ОБРАБОТКА НА ПОДАТОЦИ

Дескриптивни статистики

Статистичките алатки и идеи помагаат да се испитаат податоците со цел да


се опишат нивните главни карактеристики. Вакво испитување на
податоците се нарекува истражувачка анализа на податоци. Како некој
истражувач кој минува низ непознати краишта, прво сакаме просто да
опишеме што гледаме. Две основни стратегии можат да ни помогнат во
истражувањето на нашите податоци:

- Да се започне со истражување на секоја променлива (обележје)


посебно. Потоа да се премине на истражување на врските помеѓу обележјата.

- Да се започне со графичко прикажување или графици. Потоа да се


додадат бројни резултати за специфичните аспекти на податоците.

Категориски податоци: столбести графици и пити

Вредностите на категориските обележја се ознаки за категориите како што


се “машко”, и “женско”. Распределбата на категориското обележје ги
прикажува категориите и ја дава нивната честота, односно бројот или
процентот на индивидуи кои се во секоја категорија.

Прво се прави табела на честоти во која се внесуваат потребните


информации

Жанета Попеска 4
Биостатистика

Категорија Честота Релативна честота Проценти


K1 f1 f1/n f1/n *100

K2 f2 f2/n f2/n *100

... ... ... ...

Kr fr fr/n fr/n *100

Вкупно n 1 100

Ако на пример за 354 увезени пакети семиња обележјето е земја на потело ќе


ја добиеме следната табела

Категорија Честота Релативна Проценти


честота
Американско 253 0,625 62,5 %
Европско 73 0,18 18 %
Јапонско 79 0,195 19,5 %
Вкупно 345 1 100

Потоа се црта столбест график на честотите или релативните честоти. На


столбестиот график се нанесуваат категориите на обележјето и се цртаат
столбови чија висина одговара на соодветната честота.

Жанета Попеска 5
Биостатистика

grafi~ki prikaz na zemjata na poteklo


300

200

100
Count

0
Missing American European Japanese

Country of Origin

Столбестиот график ги споредува брзо честотите на различните категории


на пример големините за бројот на пакти со семиња од сите три земји на
потекло.

Ако бројот на категории е релативно мал (до 8) може да се направи и


дијаграм во вид на пита.

Графиците во вид на пита ни овозможуваат полесно да согледаме колкав дел


од целото формира секоја група или категорија.

Japanese

European

American

Столбестите графици и питите навистина ни овозможуваат брзо


согледување на распределбата. Но сепак тие се со ограничена употреба во

Жанета Попеска 6
Биостатистика

анализата на податоците бидејќи лесно би можеле да ги согледаме


распределбите и од обични табели на честота без да ги цртаме графиците.

Затоа сега ќе се задржиме на квантитативни податоци каде графиците се


суштински алатки за разбирање на распределбата на истите.

Квантитативни податоци: Хистограми

Квантитативните обележја често можат да примат голем број различни


вредности. Графичкото прикажување на распределбата ќе биде појасно ако
блиските вредности се групираат заедно. Најчесто користени графици на
распределби на квалитативни променливи се хистограмите.

70

60

50

40

30

20

10 Std. Dev = 2.82


Mean = 15.5

0 N = 406.00
8.0 10.0 12.0 14.0 16.0 18.0 20.0 22.0 24.0
9.0 11.0 13.0 15.0 17.0 19.0 21.0 23.0 25.0

Time to Accelerate from 0 to 60 mph (sec)


Слика 3

Столбовите на хистограмот треба да ги покриваат сите можни вредности на


променливата. Нашите очи реагираат на површината на правоаголниците во
хистограмот. Бидејќи сите класи (интервали) вообичаено е да се со иста
големина , површината е определена со висината и сите класи се соодветно
преставени. Притоа не постои единствен правилен избор на класите во
хистограмот.

За да се нацрта хистограмот треба да се направи табела на распределба на


честотите. За податоци од интервални променливи не можеме да користиме
обични табели на честота.

Жанета Попеска 7
Биостатистика

Потребно е податоците да се поделат во групи или интервали или класи

Затоа е потребно да определиме:

1- Бројот на интервали(k).
Премалку интервали можат да доведат до губење на информација.
Премногу интервали не се корисни за сумирање на податоците
Вообичаено е да се користат 6 ≤ k ≤ 15,
Или да се користи следната формула,
k = 1 + 3.322 (log n), или приближно квадратен корен од бројот на
податоците, 𝑛 , но бројот на интервали да не неадминува 20. Честопати при
изборот на интервалите се водиме и од некаква природна ширина на
интервалите, соодветна со направените мерења или природата на
променливата.

2- Распонот или Рангот (R).

Разликата меѓу најголемата и најмалата вредност во примерокот.

3- Ширината на интервалот (w).

Вообичаено е интервалите на класите да бидат со иста ширина. Значи


ако сакаме k интервали ширината w треба да биде

w ≥ R / k.

Секоја класа има иста ширина

Ширината на интервалот се определува со

најголемиот број − најмалиот број


w = ширина на интервал =
бројт на интервалите

Притоа бираме најмалку 5 но не повеќе од 15-20 интервали. Интервалите не


треба да се преклопуваат, што значи дека еден податок се наоѓа само во еден
од интервалите.

Примери:

Жанета Попеска 8
Биостатистика

1. Во следната листа е дадена највисоката дневна температура мерена во


48 последователни денови.

5 10 3 4 9 11 4 14 4 10 5

8 5 11 5 6 11 6 4 10 9 6

7 10 8 11 8 18 9 8 1 8 9

11 9 4 9 12 9 10 9 3 7 10

5 12 5 20

Честотата на појавување на секоја од вредностите во примерокот е дадена во


следната табела

xi 1 3 4 5 6 7 8 9 10 11 12 14 18 20

fi 1 2 5 6 3 2 5 8 6 5 2 1 1 1

Релативните честоти се дадени во следната табела


xi fri fri (%)
1 0,0208 2,08
3 0,0417 4,17
4 0,1042 10,42
5 0,125 12,50
6 0,0625 6,25
7 0,0417 4,17
8 0,1042 10,42
9 0,1667 16,67
10 0,125 12,50
11 0,1042 10,42
12 0,0417 4,17
14 0,0208 2,08
18 0,0208 2,08
20 0,0208 2,08

Жанета Попеска 9
Биостатистика

Столбестиот дијаграм за дадените честоти е

5
f(x)

0
2 4 6 8 10 12 14 16 18 20
x

Слика 4

Ако извршиме групирање на податоците во одредени интервали , според


формулата добиваме k = 1 + 3.322 (log 48)+ 6.58. Можеме да избериме k=7 или
6 или 5 . Со k=5 ќе ја добиваме следната табела

температура Честота
0.5-4.5 9
4.5-8.5 16
8.5-12.5 21
12.5-16.5 1
16.5-20.5 2

И соодветниот хистограм

Распределба на
температурите
30

20

10

0
0.5-4.5 4.5-8.5 8..5-12.5 12.5-16.5 16.6-20.5
Слика 5

Жанета Попеска 10
Биостатистика

Ако пак земеме 4 интервали ја добиваме следната табела


xi fi fri fri (%)
1-5 14 0,29 29
6-10 24 0,5 50
11-15 8 0,17 17
16-20 2 0,04 4

Додека хистограмот е

Распределва на
температурите
30
20
10
0
0.5-5.5 5.5-10.5 10.5-15.5 15.5-20.5
Слика 6

Пример 2: Потрошувачка на бензин во литри на 100 км.

6,25 5,93 7,8 4,95 9,2 8,57


6,82 7,43 5,78 5,46 6,54 7,02
6,78 4,75 5,32 7,11 5,66 5,99
6,87 8,35 7,66 7,23 6,58 6,92
6,32 7,08 5,98 6,25 5,45 6,72
6,38 6,9 9,87 6,23 6,52 6,43
6,12 5,81 6,37 7,23 7,46 8,06
6,09 5,82 4,99 6,32 6,51 6,49
9,49 6,39

Жанета Попеска 11
Биостатистика

Хистограмот за овие податоци е

20

10

Std . Dev = 1,09


^estota

Mea n = 6 , 69

0 N = 5 0,00
5,00 6,00 7,00 8,00 9,00 10 ,0 0

potro{u va~ka na benzin na 100 km


Слика 7

Интерпретација на хистограми

Цртањето на статистички график не е цел за себе. Целта на графикот е да ни


помогне да ги разбереме податоците. Затоа после цртањето на графикот
секогаш запрашајте се “што гледам?”. Штом еднаш ќе ја опишите
распределбата можете да ги видите нејзините главни елементи.

Ипитување на распределбата

Во секој график на податоци побарајте општ модел (изглед) или однесување


и барајте очигледни отстапувања од овој облик.

Општиот модел на хистограмот може да се опише со неговиот облик, центар


и простирање.

Важен вид на отстапување е појава на таканаречен аутлаер, или


индивидуална вредност која е надвор од општиот модел.

При описот на распределбите концентрирајте се на главните елементи.


Барајте најголеми врвови, а не мали повисоки или пониски столбови во
хистограмот. Барајте чисти аутлаери, не само најмалото и најголемото
набљудување. Барајте некоја општа симетричност или искривеност.

Жанета Попеска 12
Биостатистика

Симетрични и искривени распределби

За распределбата велиме дека е симетрична ако десната и левата страна на


хистограмот се скоро своја слика во огледало.

Распределбата е искривена на десно ако десната страна на хистограмот (која


содржи половина од набљудувањата со поголеми вредности) се проширува
многу подалеку од десната страна. Истата е искривена на лево ако левата
страна на се шири многу подалеку од десната страна.

Податоците скоро никогаш не се симетрични но хистограми како на слика 3


ќе ги сметаме за симетрични или скоро симетрични , додека хистограмите на
слика 5, 6, 7 и 8 се искривен на десно.

70

60

50

40

30

20

10 Std. Dev = 38.52


Mean = 104.8
0 N = 400.00
50
60
70
80
90
10
11 .0
12 .0
13 .0
14 .0
15 .0
16 .0
17 .0
18 .0
19 .0
20 .0
21 .0
22 .0
23 .0
.0
.0
.0
.0
.0
0
0
0
0
0
0
0
0
0
0
0
0
0
0.
0

Horsepower
Слика 8

Општиот облик или модел на распределбата содржи важна информација за


променливата. Некои типови податоци скоро секогш даваат податоци кои де
симетрични или пак искривени. На пример, големината на живите суштества
( на пример должината на одреден тип бубачки) тежи кон симетрична
распределба, додека податоците за примањата се обично искривени на
десно. Меѓутоа многу распределби имаат облик кој не е ни симетричне нити
пак искривен. Некои податоци пак имаат сосема други модели. На пример
две различни доста всоки вредности.

Жанета Попеска 13
Биостатистика

Временски графици

Многу променливи се мерат во одредени временски интервали. Временските


прикази на променливите го прикажуваат секое набљудуваље наспроти
времето во кое е направено. Секогаш времето се става на хоризонталната
оска. Поврзувањето на точките на опсервациите со линии помага да се
истакнат било какви промени во време.

2,2

2,1

2,0

1,9

1,8

1,7
COLGATPR

1,6

1,5
1 29 57 85 113 141 169 197 225 253
15 43 71 99 127 155 183 211 239 267

WEEK, not periodic

Жанета Попеска 14
Биостатистика

Бројни карактеристики на распределбите на податоците

Емпириска распределба на примерокот

Нека (x1, x2,…, xn} е низа податоци за дадено обележје X дефинирано на


дадена популација Ω. Нека x е реален број и нека k(x) е бројот на елементите
од примерокот кои се помали од x. Функцијата Fn(x)= k(x)/n се нарекува
емпириска распределба на X или кумулативна респределба на честотите на X
на примерокот.

Мерки на централна тенденција на податоци

Опис на распределба на квантитативни податоци скоро секогаш вклучува


мерка на нејзиниот центар или средина. Најпозната мерка на централна
тенденција или центрираност на податоците е обичната аритметичка
средина или просекот.

Ако е дадено низа од n податоци x1, x2, . . . ,xn нивни просек или аритметичка
средина се нарекува бројот.

!
𝑥! + 𝑥! + ⋯ + 𝑥! !!! 𝑥!
𝑥= =
𝑛 𝑛

Важен факт за просекот како мерка на централната тенденција на


податоците е дека е осетлив на влијанието на неколку екстремни вредности
во податоците. Екстремните вредности можат да бидат некои отстапувања,
но кај искривените распределби кои немаат отсутапувања просекот ќе биде
повлечен кон подолгата опашка. Бидејќи просекот не може да го издржи
влијанието на екстремните вредности, велиме дека не претставува
резистентна мерка на центарот.

Затоа се разгледува и друга мерка на центар или на центрираност. Тоа е


таканаречена медијана или средина на примерокот, m.

Жанета Попеска 15
Биостатистика

Медијаната, m, претставува средина на низата податоци од примерокот


подредени по големина, односно број таков што половина од податоците се
помали , а другата половина поголеми од него. Односно вредност која го
дели хистограмот на распределбата на две еднакви површини.

Како да се најде медијаната:

1. Се подредуваат сите податоци по големина од најмал до најголем.


2. Медијаната се наоѓа на (n+1)/2 позиција во листата.
3. Ако бројот на елементите во примерокот н е непарен, медијаната m
е податокот кој се наоѓа на таа позиција
4. Ако бројот на набљудувањата е парен, тогаш медијаната е
просечната вредност од двата централни податоци во подредената
листа. Позицијата повторно и е (n+1)/2.

Според тоа медијаната многу лесно се наоѓа дури и рачно кога станува за
релативно мал број на податоци.

За податоците од Пример 1, ја добиваме следната подредена низа


1 3 3 4 4 4 4 4 5 5 5 5 5 5 6 6 6 7 7 8 8 8 8 8
9 9 9 9 9 9 9 10 10 10 10 10 10 11 11 11 11 11 12 12 14 18 20

Бидејќи имаме 48 податоци, медијаната е на позиција 24,5 . Вредноста


намедијаната е аритметичка средина на податоците на позиција 24 и 25,
односно, m=(8+9)/2=8.5.

Мода, на низа податоци е податокот со најголема честота. Модата може и да


не постои, па дури и да постои не мора да биде единствена. Модата одговара
на податокот каде што се наоѓа врвот на хистограмот.

За податоците од Пример 1 модата е вредноста 9, затоа што тој податок


најчесто се појавува

Жанета Попеска 16
Биостатистика

Споредување на просекот, медијаната и модата

Просекот и медијаната кај симетрични распределби се блиску еден до друг.


Ако е точно симетрична тогаш тие се поклопуваат. Во искривените
распределби просекот е подалеку во подолгата опашка отколку медијатата.
За разлика од просекот медијаната претставува резистентна мерка на
центрираност, односно не е подлежна на влијание на екстремни вредности.

Кај распределби кои се унимодални и благо искривени важи следната


емпириска релација

Просек - Мода = 3 ( Просек - Медијана).

Мерки на простирање или расејување на податоци

Просекот и медијаната даваат две различни мерки на централна тенденција


на податоците, но овие мерки сами за себе можат да доведат и до различни
заклучоци.

На пример ако се добие пресметка дека просечните примања минатата


година биле 18 000 денари дури и ако медијаната била околу 18 000 денари
овие два податока не ја кажуваат целата приказна. Но акви вредности можат
да се должат на малку екстремно високи вредности и многу екстремно ниски
вредности или пак на порамномерна распределба без изразити екстреми.

Затоа од интерес ќе биде простирањето или варијабилноста или


расејувањето на податоците.

Според тоа и наједноставен корисен нумерички оприс на податоците треба


да се состои и од мерки на центар и од мерки на расејувањето.

Распон на податоците

Еден начин да се измери простирањето на податоците е да се дадат


најмалата и најголемата вредност. Преку нив се дефинира и рангот на
податоците.

Жанета Попеска 17
Биостатистика

Распон (или ранг или опсег) на податоците претставува разлика помеѓу


максималната и минималната вредност на податоците,

Распон = xmax-xmin

Квартали

Минимумот, максимумот и распонот кажуваат од каде до каде се протегаат


податоците но ако има изразити екстреми сеуште нема да се има добра
слика. Сликата можеме да ја подобриме ако ги знаеме таканаречените
квартали. Така првиот квартал се наоѓа на четвртина пат од листата од
подредените податоци, вториот кватрал на половината, а третиот кваратал
на три-четвртини пат од листатата.

Или 25% од сите податоци се помали од првиот квартал Q1, 50 % се помали


од вториот квартал Q2 , а 75% се помали од третиот квартал Q3 . Според тоа
вториот квартал всушност одговара на медијаната на податоците. Првиот
квартал, е податокот кој е на позиција (n+1)/4, a третиот квартал е на
позиција 3(n+1)/4 во подредената по големина низа податоци. Ако на овие
позиции не се наоѓа податок се зема аритметичката средина на податоците
кои се пред и после оваа позиција.

Процентили

Податокот од кој се помали k% од податоците се нарекува k – ти процентил.


Во оваа смисла 10 – ти процентил е податокот од кој се помали 10% од сите
податоци, а 90-ти процентил е податокот од кој се помали 90% од сите
податоци. Вообичаено е првиот квартал Q1 да се нарекува и 25ти
процентил, вториот Q2=m, педесетти, а третиот, Q3 седумдесет и петти
процентил.

Жанета Попеска 18
Биостатистика

Петте карактеристични броеви на распределбата

Најмалиот и најголемиот податок малу кажуваат за распределбата во


целина, но даваат информација за опашките на распределбата која би ја
пропуштиле ако ги знаеме само Q1, M и Q3. За да добиеме брз преглед и на
центарот и на протегањето ги комбинираме овие пет броеви.

Според тоа прегледот на 5-тте броја за множество податоци се состои од


најмалото набљудување, првиот квартал, медијаната, третиот квартал, и
најголемото набљудување, односно

Минимум Q1 M Q3 Максимум

Правоаголен дијаграм (Boxplot) претставува графички приказ на овие пет


броеви.

Затоа што правоаголните прикази покажуваат помалку детали од


хистограмиоте истите најчесто се користат за едно до друго споредување на
повеќе групи податоци.

6000

5000

4000
Vehicle Weight (lbs.)

3000

2000

1000
N= 253 73 79

American European Japanese

Country of Origin

Правоаголните дијаграми исто така даваат индикација за симетријата на


податоците. Имено кај симетричните распределби првиот и третиот квартал

Жанета Попеска 19
Биостатистика

ќе бидат на исто растојание од медијаната. Ако распределбата е искривена


на десно третиот квартал многу подалеку од медијаната отколку првиот
квартал. Слично и со екстремните вредности.

Лево искосена Симетрична Десно искосена

Стандардна девијација

Многу почесто сретнуван опис на расејувањето на податоците е


таканаречената стандардна девијација на податоците. Стандардната
девијација го мери расејувањето преку мерење на оддалеченоста на
податоците од нивниот просек.

Прво ќе дефинираме дисперзија или варијанса на податоците. Притоа


дисперзија, s2 , на множество податоци претставува просечна вредност на
квадратите на отстапувањата на податоците од нивниот просек. Или
користејќи соответни симболи можеме да запишеме:

∑ (x i − x) 2
1 ⎛ n 2 ⎞
s2 = i =1
= ⎜ ∑ xi − nx 2 ⎟
n -1 n − 1 ⎝ i =1 ⎠

каде 𝑥 = аритметичка средина,

n = големина на примерок

xi = iта вредност на променливата X

Жанета Попеска 20
Биостатистика

Стандардна девијација s, претставува квадратен корен од дисперзијата или

n
2
∑ (x − x)
i
S= i=1
n -1

Својства на стандардната девијација

- s го мери расејувањето на податоците околу просекот и треба да се


користи кога просекот е земен за мерка на централна тенденција.

- s = 0 само гога нема никакво расејување односно кога сите податоци


имаат иста вредност. Инаку колку поголемо с толку повеќе се расеани податоците
околу просекот.

- s се мери во исти единици мерки како и самите податоци

- и на крајот како и просекот и стандардната девијација не е резистентна.


Имено силна искривеност или неколку екстремни вредности значително го
зголемуваат s.

Кои мерки на центрираност и расејување да се изберат

Прегледот на 5-те броеви обично е подобар отколку просекот и стандардната


девијација за опишување на искривени распределби или распределби со силни
отстапувања.

Просекот и стандардната девијација треба да се користат за скоро симетрични или


симетрични распределби кај кои нема отастапувања.

Меѓутоа иако стандардната девијација е изразена во иста мерна единица како и


самите податоци, при споредување на податоци од два примероци може да доведе
до одредени нејасности. Така на пример стандардна девијација од 10 сантиметри
при мерење на растојанија до 100 метри има друго значење од стандардана
девијација од 10 сантиметри при мерење на растојанија до 1 метар. Како мерка на
овој ефект се дефинира коефициент на варијанса или коефициент на дисперзија
даден со

Жанета Попеска 21
Биостатистика

s
Коефициент на варијанса = CV = 100
x

каде с е стандардната девијација а просекот на примерокот и обично се изразува


во проценти. Да забележиме дека коефициентот на варијанса не зависи од
мерните единици на податоците и затоа може да се користи при споредување на
различни видови нумерички податоци.

Така ако го споредиме варирањето на податоците за возраст и потрошувачка на


бензин од пример 1 ипример 2 добиваме

3,68 1,09
CVтемпература = = 45% CVпотрошувачка = = 16%
8,17 6,68

Видовме дека еден од проблемите во статистичкото истражување е што


податоците од разните статистички мерења, кои се во различни мерни единици во
"оригинална" форма не можат да се споредуваат. Еден начин на решавање на
проблемот дадовме со пресметување на коефициентот на варијанса. Друг начин за
да може таквите податоци меѓусебно да се споредуваат, е претходно да се изврши
стандардизирање, односно, податоците да се сведат на заедничка мерка.

Суштината на стандардизирањето се состои во одредување на мерка за тоа колку


е еден податок е над или под просекот (аритметичката средина), со тоа што како
единица за одредување на тоа отстапување се зема стандардната девијација.

Значи, со трансформација на оригиналниот податок се добива стандардизиран


податок. Ако се нанесат на бројна оска оригиналните податоци ( ) и нивната
аритметичка средина ( ), тогаш стан¬дар¬дизираниот податок ( з ) претставува
растојание меѓу оригиналниот податокот и аритметичката средина, изразено во
единици на стандардната девијација(с), односно:

xi − x
z=
s

Жанета Попеска 22
Биостатистика

Стандардизираните ( z ) податоци, чија вредност е поголема од вредноста на


аритнетичката средина, имаат позитивен (+) предзнак. Податоците пак, кои се
помали по вредност од аритметичката средина имаат негативен (-) предзнак.

Рековме дека основните проблеми на кои се однесува проучувањата во


статистиката се оние во кои е присутна случајноста. Статистичката методолигија
за справување со несигурноста се базира на проучување на веројатносни модели
со цел да се сумираат соодветните достапни информации.

Жанета Попеска 23

You might also like