You are on page 1of 34

Поглавје

Приказ на иодашоци: нумеринки ириказ

Преглед на главата
3.1 Мерки на централна тенденција
Средина, медијана и мода
Облик на распоред
3.2 Мерки на варијабилност
Интервал на варијации и интерквартилна разлика
Варијанса и стандардна девијација
Чебишева теорема и емпириско правило
Коефициент на варијација
3.3 Пондерирана средина и мерки на групирани податоци
3.4 Мерења на зависности помеѓу променливите
3.5 Добивање на линеарни зависности

Вовед
Во втората глава ги прикажавме податоците графички. Во оваа глава ќе ги прикажеме
податоците нумерички со мерки на централна тенденција, мерки на варијабилност,
мерки за групирани податоци и мерки за насоката и силата на зависностите помеѓу
променливите.

3 .1 М ерк и н а ц е н тра л н а т ен д е н ц и ја

Честопати можеме да одредиме дали податоците се стремат да се центрираат или да се


насобираат околу некоја вредност со конструирањ е на хистограм. М ерките на
централната тенденција обезбедуваат нумерички инф ормации за „типичната“
опсервација во податоците. Во ова поглавје ќе зборуваме за средина, медијана, мода и
симетрија на податоци (за геометриската средина, види го Додатокот на оваа глава).

Средина, медијана, мода


Во глава 1 се запознавме со поимите параметар и статистика. П арам етарот се
однесува на специфична карактеристика на популацијата; а статистиката се однесува
на специфична карактеристика на статистичкиот примерок. Мерките на централната
тенденција обично се пресметуваат од податоците на статистичкиот примерок, а не од
податоците на популацијата. Една мерка на централна тенденција која веднаш ни паѓа
на памет е средината.
Аритметичка средина
Аритметичката средина (или едноставно средина) на група податоци е збир од
вредности на податоците поделен со бројот на опсервации. Ако множеството
податоци го сочинуваат сите податоци за популацијата, тогаш средината на
популацијата, ц е параметар даден со
N
2>
_ 1=1 _ Х \ + Х 2 -I (3.1)
N N
каде N = големина на популација, а X значи „збир од

Доколку множеството податоци е од статистички примерок, тогаш средината на


примерокот, х , е статистика дадена со
п

X х.
,•_! _ х ,+ х 2ч-----1-Хд, (3.2)
X=
п п
каде п = големина на примерок, а X значи „збир од“.

За да се лоцира медијанаша, податоците мора да се подредат по растечки или опаѓачки


ред.

Медијаиа
Медијаната е средина на групата опсервации подредени по опаѓачки или растечки
ред. Доколку големината на статистичкиот примерок, п, е непарен број, медија-
ната ја претставува средната опсервација. Доколку големината на статистичкиот
примерокот, п, е парен број, медијаната ќе претставува просек од двете опсерва-
ции во средина. Медијаната ќе биде лоцирана во

0,50 (п + 1)-та подредена позиција (оп!егес1 роѕШоп) (З.З)

Мода
Модата, доколку постои, ја претставува вредноста која се јавува најчесто.

Пример 3.1 Време потребно да се изоди 5К трката


(мерки на централна тенденција)
Коменската трка за Кјурсериес (Сиге®Ѕепеѕ) е најголемата 5К трка во брзо одење во
светот. Фондацијата за борба против ракот на дојката на Сузан Г. Комен собира средства
за борба против ракот на дојката, поддржува проекти за едукација, заштита и нега во
заедниците низ целиот свет, ги поддржува лицата кои ја преживеале болеста и им оддава
почит на оние кои ја изгубиле својата битка со болеста (референција 3). Најдете ги
мерките на централна тенденција на примерок од пет времиња (во минути) што им биле
потребни на учесниците за да ја изодат трката за Кјур(Сиге®):

52 Поглавје 3 Приказ на податоци: нумерички приказ


Решение: Средината на примерокот е:
п

4 5 + 53 + 4 5 + 5 0 + 4 8
----------------------------------- = 4 8 .2
п 5
Ако ги подредиме податоците по растечки ред, ќе добиеме:

45 45 48 50 53

медијаната е 48; два броја се помали од 45 минути, а два броја се поголеми од 48


минути. Бидејќи средината и медијаната се блиску една до друга, не прави голема
разлика која вредност ќе се користи за да се прикаже средината на податоците.
Модата е 45 минути, бидејќи се појавува два пати, а сите други времиња само по
еднаш. Но, модата во овој случај е најмалата вредност и не е најдобар индикатор за
централната тенденција. Доколку примерокот го содржи и времето на шести
учесник во трката од 53 минути:

45 45 48 50 53 53

медијаната би била лоцирана во 0,5(и + 1)-тата позиција, или 3,5-тата подредена


опсервација, која би била 49 минути. Гледаме дека податоците се бимодални, со
модални вредности 45 и 53.

Одлуката дали аритметичката средина, медијаната или модата се правилниот начин


за прикажување на централната тенденција на податоците е сложена. Еден фактор кој
влијае на нашиот избор е видот на податоците, категориски или нумерички, како што
е изнесено во главата 2. Средината е, главно, најчесто посакуваната м ерка за
прикажување на нумеричките податоци, но не и за категориските податоци. Доколку
едно лице силно се согласува (код 5) со одредена изјава, а друго лице силно не се
согласува (код 1), дали средината би била „без став“? Или да претпоставиме дека некој
одбор се состои од двајца мажи (секој кодиран со 1) и три жени (секоја кодирана со 2).
Аритметичката средина [(1 + 1 + 2 + 2 + 2)/5 = 1,6] е безначајна. Но, модата од 2 укажува
дека има повеќе жени од мажи во одборот. Јасно е дека категориските податоци
најдобро се прикажани со мода или медијана. Можеби најочигледната примена на
модата или медијаната може да се најде кај производителите на стоки, како што е
облека, во најразлични големини. Големината на стоките кои најчесто се продаваат,
модата, е таа со најсилна побарувачка. Да се знае дека средната големина на кошули
на европските мажи е 41,13 или дека просечната големина на чевли на американските
жени е 8,24 е бескорисно, но да се знае дека модалната големина на кошули е 40 или
модалната големина на чевли е 7, е значајно при донесување на одлуки за залихите.
Меѓутоа, модата не мора да го претставува вистинскиот центар на нумеричките
податоци. Од таа причина, во деловната практика модата помалку се употребува од
средината или медијаната.

Мерки на централна тенденција 53


Пример 3.2 Процентуална промена на заработувачката
по акција (мерки на централна тенденција)
Случаен примерок од осум американски корпорации ги покажал следниве нроценти
на промена во заработувачката по акција во тековната година споредено со
претходната година:

0% 0% 8,1% 13,6% 19,4% 20,07% 10,0% 14,2%

Решение: Средината на процентуалната промена на заработувачката по акција за


овој примерок е
и

= 10.75 или 10.75%


п 8

а медијалната процентуална промена на заработувачките по акција е 11,8%. Модата


е 0%, бидејќи се појавува два пати, а другите проценти само по еднаш. Но, овој
модален процент не го претставува центарот на податоците од примерокот.

Друг ф актор кој треба да се земе предвид е присуството на вредности што


отстапуваат. Секогаш кога во податоците има вредности што отстапуваат, мора да ги
бараме можните причини. Прво, проверете дали е направена грешка при внесот на
податоците. Средината ќе биде поголема доколку се присутни големи вредности што
отстапуваат и ќе биде помала доколку податоците содржат мали вредности што
отстапуваат. Медијаната е посакувана мерка за прикажување на распоредот на доходи
во еден град, држава или земја. Бидејќи доходите содржат мал удел на многу големи
вредности, средниот доход ќе биде повисок. Меѓутоа, медијалниот доход е нивото на
доход или богатство што го надминуваат половина домаќинства во популацијата. И
покрај тоа што вредностите што отстапуваат влијаат на средината, во глава 8 ќе видиме
дека одредени карактеристики на средината ја прават попривлечна од медијаната во
многу ситуации.
И покрај предноста во дисконтирањето на екстремните опсервации, медијаната е
помалку користена од средината. Причина за тоа е што развојот на теоријата за
постапките на статистичко заклучување базирани на средината, и мерките поврзани
со неа, е значително поточен од развојот на постапките базирани на медијаната.

Облик на распоред

На сликата 2.10 во главата 2 ги прикажавме хистограмите кои се симетрични, позитивно


нскрнвени и негативно искривени. Средината и медијаната на симетричните распореди
се еднакви, бидејќи опсервациите се балансирани, или правилно распоредени околу
центарот. Средината на позитивно искривениот распоред ќе биде поголема од неговата
медијана. Средината на негативно искривениот распоред ќе биде помала од неговата
медијана.
Распоредите на доходите или богатствата на домаќинствата во еден град, држава
или земја се стремат да содржат релативно мал удел на големи вредности. Голем удел

54 Поглавје 3 Приказ на податоци: нумерички приказ


средината на овие распореди е типично многу повисока од медијаната. Средината која
е зголемена од многу богатите, дава премногу оптимистичка слика за економската
благосостојба на заедницата. Во тој случај медијаната е попосакувана од средината.
Една од можните причини за искривеноста е присуството на вредности што
отстапуваат. Невообичаено големите опсервации имаат тенденција да ја зголемат
средината, што резултира со позитивна искривеност. Слично, ако постојат некои
невообичаени мали опсервации во податоците, вредноста на средината се намалува,
што резултира со можна негативна искривеност. Понекогаш искривеноста е својствена
за распоредот. Доколку искривеноста е нула или приближно еднаква на нула,
распоредот е симетричен или приближно симетричен. Н егативната вредност на
искривеноста ни кажува дека распоредот е искривен на лево. Слично, позитивната
вредност на искривеноста ни кажува дека распоредот е искривен на десно.
Рачната пресметка на искривеноста опфаќа описни мерки со кои ќе се запознаеме
подоцна во оваа глава. Во примерот 3.3 ќе ја користиме технологијата, оставајќи ги
понатамошните разгледувања на искривеноста за додатокот на оваа глава.

Пример 3.3 Годишна плата (искривеност)


Годишните плати на примерок од пет вработени се:

$39.000 $37.500 $35.200 $40.400 $100.000

Прикажете ја централната тенденција и симетријата на податоците.

Решение: Прво ја проверуваме точноста на податоците. Бидејќи не е најдена грешка


(вредноста што отстапува од $100.000 е точна плата), ја пресметуваме средната
годишна плата од $50.420, вредност којашто не изгледа дека претставува „типична“
плата. Медијалната плата од $39.000 е посакувана мерка на централна тенденција.
Овие податоци немаат мода. Бидејќи средината е многу поголема од медијаната,
очекуваме податоците да бидат позитивно искривени, што е потврдено со сликата
3.1, со искривеност приближно еднаква на 2,21.

Слика 3.1 Годишни плати


Искривеност на Средина 50420
годишните плати Стандардна грешка 12424.91
(Резултат од Ехсе!) Медијана 39000
Мода Нема подат.
Стандардна девијација 27782.94
Варијанса на примерок 7.72Е+0.8
Сплоснатост 4.905059
Искривеност 2.209069

Уште еднаш ќе кажеме дека изборот на мерка на централна тенденција е специфичен


во зависност од контекстот или проблемот. Не сакаме да имплицираме дека медијаната
е секоГаш попосакувана од аритметичката средина кога популацијата или примерокот
се искривени. Постојат случаи кога средината е попосакувана мерка и покрај тоа што
распоредот е искривен. Зем ете како пример една осигурителна компанија која

Мерки на централна тенденција 55


најверојатно се соочува со распоред на барања за надомест на штета искривенна десно.
Доколку на компанијата и се потребни податоци за најтипичната големина на барањата,
попосакувана е медијаната. Но, да претпоставиме дека компанијата сака да знае колку
пари треба да планира за да се покријат барањата. Тогаш е попосакувана средината.

В ежби

Основни вежби б. Пресметајте ја медијаната.


3.1 Случаен прим ерок од 5 недели покаж ал дека в. Коментирајте ја симетријата.
агенцијата за крстосувања го примила следниот 3.5 П римерок од 12 повисоки раководители го дал
број на неделни нарачки за Карибите: следниов процент на вкупни надоместоци кои
произлегуваат од бонуси:
20 73 75 80 82
15,8 17,3 28,4 18,2 15,0 24,7
а. Пресметајте ги средината, медијаната и модата. 13,1 10,2 29,3 34,7 16,9 25,3
б. Која мерка на централна тенденција најдобро
ги прикажува податоците? а. Пресметајте ја средината на примерокот.
3.2 М енаџерот на стоковна куќа е заинтересиран за б. Пресметајте ја медијаната на примерокот.
бројот на рекламации примени од службата за 3.6 Побарувачката за вода во шишиња се зголемила
рекламации на клиентите во врска со квалитетот по ураганот на Флорида. Случаен примерок од 7
на електричните апарати што ги продава сто- часа ги покажал следниве бројки на шишиња од 1
ковната куќа. Евиденцијата за период од пет недели галон продадени во една продавница:
ги покажува следниот број на рекламации за секоја
недела: 40 55 62 43 50 60 65

13 15 8 16 8 а. П р и к а ж ет е ја ц е н тр а л н а т а тен ден ц и ја на
податоците.
а. Пресметајте ја средината на неделните рекла- б. Коментирајтеја симетријата или искривеноста.
мации. 3 .7 П рои звод и тел на п о р т аб л ради оуреди добил
б. Пресметајте ја медијаната на неделните рекла- примерок од 50 радиоуреди. Радиоуредите биле
мации. темелно проверени, а бројот на дефекти е следен:
в. Пронајдете ја модата.
3.3 Од десет економисти е побарано да го предвидат Број на дефекти 0 1 2 3
процентот на пораст на индексот на цените на Број на радиоуреди 12 15 17 6
мало. Нивните прогнози биле
Пресметајте ги мерките на централна тенденција.
3.6 3,1 3,9 3,7 3,5 3.8 Староста на примерок од 12 студенти запишани на
3.7 3,4 3,0 3,7 3,4 курс за електронска макроекономија е:

а. Пресметајте ја средината на примерокот. 21 22 27 36 18 19


б. Пресметајте ја медијаната на примерокот. 22 23 22 28 36 33
в. Која е модата?
3.4 Еден синџир стоковни куќи извлекол по принцип а. Која е средната старост на овој примерок?
на случаен избор примерок од 10 стоковни куќи во б. Пресметајте ја медијаната на староста.
држ авата. По ревизија на податоците за про- в. Која е модалната старост?
дажбата, било утврдено дека, споредено со истиот
период п р етх о дн ата година, биле остварен и Практични вежби
следните процентуални порасти на продажбите во 3.9 0$ Стапките на проценка (во проценти) за случаен
долари за време на божиќните празници: примерок од 40 комерцијализирани зонски парцели
во 2005 година се содржани во документот Стапки
10,2 3,1 5,9 7,0 3,7 (Ка1еѕ).
2,9 6,8 7,3 8,2 4,3 а. Пресметајте ги средината, медијаната и модата
на процентуалните стапки на проценка.
а. Пресметајте го средниот процентуален пораст б. Прикажете ја симетричноста или искривеноста
на продажбите во долари. на податоците.
било побарано да го евидентираат б р о јо т на часови волуменот на случаен примерок од 100 шишиња
што ги поминале во учење на материјалот за (237 мл) на новиот лосион за сончање.
предметот во текот на една недела пред крајниот а. Најдете го и интерпретирајте го средниот
испит. Податоците се содржани во документот волумен.
Студија (ЅПкЈу). б. Одредете го медијалниот волумен.
а. Пресметајте ја средината на примерокот. в. Дали податоците се симетрични или искривени?
б. Пресметајте ја медијаната на примерокот. Објаснете.
в. Коментирајте ги симетријата или искривеноста.

3 .2 М е р к и и а в а ри ја б и л н о с т

Средината сама по себе не обезбедува целосен или доволен приказ на податоците. Во


ова поглавје ги презентираме описните броеви кои ја мерат варијабилноста или
распрсканоста на опсервациите околу средината. Посебно ги опфаќаме интервалот на
варијации, интерквартилната разлика, варијансата, стандардната девијација и
коефициентот на варијација. Податоците, исто така, ќе ги прикажеме и нумерички со
статистика од пет броја, со накратко разгледување на основните правила што ни
помагаат да го одредиме процентот на опсервации во рам ките на различните
оддалечености од средината.
Не постојат две еднакви работи. Ова е еден од основните принципи на статистичката
контрола на квалитет. Варијацијата постои во сите области. Во спортот, некоја
кошаркарска ѕвезда може да погоди пет тројки во еден натпревар и ниту една во
следниот, или може да игра 40 минути во еден натпревар и само 24 минути на следниот
натпревар. Варијацијата е очигледна и во музичката индустрија; времето значајно се
менува од еден во друг ден, дури од еден во друг час; оценките од тестови се разликуваат
кај студентите кои го слушаат истиот предмет кај истиот наставник; крвниот притисок,
пулсот, нивото на холестерол и внесот на калории на едно лице се разликува од ден на
ден.
Иако две множества податоци би можеле да имаат иста средина, индивидуалните
опсервации во едното множество би можеле да отстапуваат повеќе од средината за
разлика од опсервациите во второто множество. Разгледајте ги следните множества
на податоци на примерок:
Примерок А 1 2 1 36
Примерок Б 8 9 10 13
И покрај тоа што средината на двата примерока е 10, јасно е дека податоците од
примерокот А се подалеку од 10 за разлика од податоците во примерокот Б. З а да се
измери оваа распрсканост, потребни ни се описни броеви.

Интервал на варијацни и интерквартилна разлика

Интервал на варијации
Интервалот на варијации е разликата помеѓу најголемата и најмалата
опсервација.

К о лк у ш то е поГолема распрсканост а на подат оцит е о к о лу цент арот на


распоредот, т олку поголем ќе биде интервалот на варијациите. Бидејќи интервалот
на варијации ги зема предвид само најголемите и најмалите опсервации, тој е подложен

Мерки на варијабилност 57
на значајно искривување доколку иостои невообичаено екстремна опсервација. И покрај
тоа што интервалот на варијации ја мери вкупната распрсканост на податоците,
интервалот може да биде незадоволителна мерка на распрсканост бидејќи вредностите
што отстапуваат, без оглед на тоа дали се работи за многу високи или многу ниски
опсервации, влијаат на него. Еден начин да се елиминираат овие проблеми е да се
подредат податоците по растечки или опаѓачки ред, да се отфрлат некои од највисоките
и некои од најниските броеви и да се одреди интервалот на варијации на оние кои останува.
Интерквартилната разлика ја мери распрсканоста на средните 50% од податоците.

Интерквартилна разлика
Интерквартилната разлика ја мери распрсканоста на средните 50% од
податоците; таа е разлика помеѓу опсервацијата во 0,, третиот квартил (или 75-
тиот перцентил) и опсервацијата во 0 , првиот квартил(или 25-тиот перцентил).
Според тоа,

(3.4)

каде (Ј, е лоциран во 0,75(и+1)-тата позиција, кога податоците се во растечки ред


и 2, е лоциран во 0,25(л + 1)-тата позиција, кога податоците се во растечки ред.

Од равенката 3.3 веќе утврдивме дека медијана е 50-тиот перцентил, или вториот
квартил (0 2) и е лоциран во 0,50(и + 1)-тата подредена позиција.

Статистика од пет броја


Статистиката од пет броја се однесува на пет описни мерки: минимум, прв
квартил, медијана, трет квартил и максимум. Јасно е дека

Минимум < в , < Медијана <0,г < Максимум

Пример 3.4 Време на чекање во бакалницата на Гилоти


(Статистика од пет броја)
Бакалницата на Гилоти се рекламира дека времето на чекање за плаќање е пократко
од 1 минута доколку се користи касата за брзи трансакции. Сликата 3.2 е дијаграм
во форма на стебло и лист за примерок од 25 времиња на чекање (во секунди).
Пресметајте ја статистиката од пет броја.

Слика 3.2 Стебло и лист


Време на чекање во Минути N = 25
бакалницата на Гилоти Единици на лист = 1.0

9 1 1 2 4 9 9
(9) 2 1 2 2 6 8
7 3 0 1 2
2 4 0 2

58 Поглавје 3 Приказ на податоци: нумерички приказ


време е 11 секунди, а максималното време е 42 секунди. Првиот квартил, 0,, е лоциран
во 0,25(25 + 1)-тата подредена позиција = 6,5-тата подредена позиција. Вредноста е 18
секунди. Третиот квартил, (Ј,, е лоциран во 0,75(25+1 )-тата подредена позиција = 19,5-
тата подредена позиција. Вредноста е 30,5 секунди. Медијалното време е 22 секунди.
Интервалот на варијации е пресметан како 42 - 11 = 31 секунди; интерквартилната
разлика = 30,5 - 18 = 12,5 секунди; што значи дека средните 50% од податоците
имаат распрсканост од само 12,5 секунди.

Варијанса и стандардна девијација

Иако интервалот на варијации и интерквартилната разлика ја мерат распрсканоста на


податоците, и двете мерки земаат предвид само две вредности на податоците. Потребна
ни е мерка која ќе ги има предвид сите вредности на податоците. Таква мерка ќе го
одреди просекот на вкупното растојание (X) помеѓу секоја опсервација и средината.
Ова растојание ќе биде негативно за вредности помали од средината (а растојанието
не е негативно). Доколку секоја од овие разлики е ставена на квадрат (х - х ) 2 тогаш
секоја опсервација (над и под средината) дава свој придонес кон збирот на квадратните
членови. Просекот од збирот на квадратните членови е наречен варијанса.

Варијанса
Во однос на варијансата, варијансата на популацијата, а2, е збир од разлики на
квадрат помеѓу секоја опсервација и средината на популацијата поделена со
големината на популацијата, /V:

(3.5)
О' = —-----------
N

Варијансата на примерокот, ѕ2, е збир од разликите на квадрат помеѓу секоја


опсервација и средината на примерокот поделена со големината на примерокот,
п, минус 1.

х.'^хј2
■2 .. (3-6)
п —1

Имајте предвид дека, за податоците на примерокот, варијансата во равенката 3.6 е


пресметана со делење на броителот со (п - 10), а не со п. Бидејќи наша цел е утврдување
на просекот на отстапувањата од средината на квадрат, би се очекувало делење со п.
Тогаш зошто варијансата на примерокот е добиена со делење со (и - 10)? Доколку би
земале голем број примероци од популацијата, секој со големина п и би ја пресметале
варијансата на примерокот, како што е дадено во равенката 3.6 за секој од тие
примероци, тогаш просекот од сите овие варијанси на примерок ќе ја претставува
варијансата на популацијата, ст2. Во глава 8 ќе видиме дека ова својство покажува дека
варијансата на примерокот е „непристрасна оценка“ на варијансата на популацијата,

Мерки на варијабилност 59
а2. За сега, се потпираме на математичките статистичари кои покажалс д ^ ч , «... .
варијансата на популацијата е непозната, варијансата на примерокот е подобра оценка
на варијансата на популацијата ако именителот во варијансата на примерокот е (п 1), I
а не само п.
З а да се пресмета варијансата, потребно е растојанијата да се квадрираат, со што се I
менува мерната единица во единица на квадрат. Стандардната девијација, која
претставува квадратен корен од варијансата, ги враќа податоците во нивната појдовна I
мерна единица. Доколку појдовните мерења биле во стапки, варијансата ќе биде I
изразена во стапки на квадрат, но стандардната девијација ќе биде изразена во стапки. I
Стандардната девијација ја мери просечната распрсканост околу средината.

Стандардна девијација
Во однос на стандардната девијација, стандардната девијација на популацијата,
а, е (позитивен) квадратен корен од варијансата на популацијата и е дефинирана
како

1N
к ^ -и )2 (3.7)
1= 1
О — лV ^
ѓт — — 11
N
Стандардната девијација на примерокс т, 5, е

(3.8)
ОС — л/
V ЈС ~ — "\1
/= 1

п —1

Пример 3.5 Оценки на тестот по предметот


Вовед во маркетииг (мерки на варијабилност)
Еден професор кој предавал две големи поглавја од Вовед во маркетинг случајно
избира примерок од освоени поени на тестовите за двете поглавја. Најдете го
интервалот на варијациите и стандардната девијација за секој примерок:

Поглавје 1 50 60 70 80 90
Поглавје 2 72 68 70 74 66

Решение: И покрај тоа што просечната оценка за двете поглавја е 70, забележуваме
дека оценките од поглавјето 2 се поблиску до средината, 70, за разлика од оценките
за поглавјето 1. И како што очекувавме, интервалот на варијации за поглавјето 1,
40, е поголем од интервалот на варијации за поглавјето 2, кој изнесува 8.
Слично, би очекувале и стандардната девијација за поглавјето 1 да биде поголема
од стандардната девијација за поглавјето 2.

5|=Л/-Г = ( 5 0 - 70)2 + ( 6 0 - 7 0 ) 4 ( 7 0 - 7 0 ) 4 ( 8 0 - 7 0 ) 4 ( 9 0 -7 0 )2 _ ^ ]5

60 Поглавје 3 Приказ на податоци: нумерички приказ


Примерот 3.6 прикажува една примена на стандардната девијација во областа на
финансиите.

Пример 3.6 Ризик на одделно капитално средство


(Стандардна девијација)
Вес и Цени Мур, сопственици на фотостудијата Мур во западна Пенсилванија,
разгледувале две можности за инвестирање, капитално средство А и средство Б.
Тие не биле сигурни кое од овие поединечни средства е подобро, и затоа побарале
помош од Шила Њутон, финансиски планер.

Решение: Шила знаела дека стандардната девијација, 5, е најчесто употребуван


единствен показател на ризикот или варијабилноста на поединечните средства. Во
финансиски услови, флуктуацијата околу реалната стапка на поврат на акцијата и
нејзината очекувана стапка на поврат е наречена ризик на акција. Стандардната
девијација ја мери варијабилноста на повратот околу аритметичката средина на
капиталното средство. Шила ги добила стапките на поврат на секое капитално
средство за последните пет години и ја пресметала аритметичката средина и стан-
дардната девијација за секое средство. Резултатите се прикажани во табела 3.1.
Имајте предвид дека секое средство има иста просечна стапка на поврат од 12.2%.
Но, со добивањето на стандардната девијација станува јасно дека средството Б е
многу поризична инвестиција.

Табела 3.1 Стапки на поврат: Средства А и Б


СТАПКИ НА ПОВРАТ
Година С редство А С редство Б
Пред 5 години 11.3% 9.4%
Пред 4 години 12.5 17.1
Пред 3 години 13.0 13.3
Пред 2 години 12.0 10.0
Пред 1 година 12.2 11.2
Вкупно 61.0 61.0
Просечна стапка на поврат 12.2% 12.2%
Стандардна девијација 0.63 3.12

Чебишева теорема и емпириски правила

Рускиот математичар Пафнути Лвович Чебишев (1824-1894) утврдил интервали на


податоци за секоја група податоци, без оглед на формата на распоредот.

У1^'пки на и а ™ '" " —----


Чебишева теорема
За секоја популација со аритметичка средина, ц, стандардна девијација ст, и к> 1,
процентот на опсервации кој лежи во рамки на интервалот [ц ± ка] е

најмалку 100[1~ (1/А:2)] % (3.9)

каде к е бројот на стандардни девијации.

За да видиме како Чебишевата теорема се применува во практиката, ја конструираме


табелата 3.2 за избрани вредности на к. Да претпоставиме дека просечната оценка на
испитот е 72, со стандардна девијација 4. Според Чебишевата теорема, најмалку 75%
од резултатите се во интервалот помеѓу 64 и 80, и најмалку 88,9% од резултатите се во
интервал помеѓу 60 и 84. Или да претпоставиме дека просечната плата во примерок од
работници е 33.500 долари, а стандардната девијација е 1.554 долари. Според
Чебишевата теорема, најмалку 55,6% од платите мора да се најдат во рамки на (1.5)
(1.554 долари) = 2.331 долари околу аритметичката средина - односно, во рамки на
интервалот од 31.169 до 35.831 долари. Слично на тоа, најмалку 75% од платите на
оваа популација мора да се најдат во рамки на 3.108 долари околу аритметичката средина
- односно во интервалот од 30.392 до 36.608 долари.
Предноста на Чебишевата теорема е нејзината применливост за секоја популација.
Меѓутоа, со сигурност тука лежи нејзиниот најголем недостаток. З а многу популации
процентот на вредности кој се наоѓа во некој одреден интервал е многу повисок од
минимумот загарантиран со Чебиш евата теорема. Во реалниот свет, големите
популации даваат мноштво податоци кои барем приближно се симетрични, со многу
точки на податоци распрскани околу аритметичката средина. Во глава 6 ќе дискутираме
повеќе за некои попрецизни формули, но сега само ќе се запознаеме со правилото кое
се применува кај многу натрупаните распореди.

Емпириско правило (68%, 95% или речиси се)


За многу големи популации, емпириското правило обезбедува оценка на прибли-
жниот процент на опсервации кои се содржани во рамки на една, две или три
стандардни девијации од аритметичката средина:

• Приближно 68% од опсервациите се во интервал |л±1ст


• Приближно 95% од опсервациите се во интервал ц±2ст
• Речиси сите опсервации се во интервал ц ± Зст

Да претпоставиме дека имаме голема популација на плати со аритметичка средина


од 33 500 долари и стандардна девијација од 1.554 долари. Тогаш со користење на
емпириското правило грубо пресметавме дека 68% од платите се во интервал помеѓу
31 946 и 35 054 долари и дека приближно 95% спаѓаат во интервал на вредности од 30 392
до 36 608 долари. Постои само релативно мала шанса дека опсервацијата ќе се разликува
од аритметичката средина за повеќе од ± 2ст; секоја опсервација која се разликува од
аритметичката средина за повеќе од ± Зст ќе се третира како вредност што отстапува.

62 Поглавје 3 Приказ на податоци: нумерички приказ


Табела 3.2 Чебишева теорема за избрани вредности за к

Избрани вредности за к 1.5 2 2.5 3


[1 -(Ш 2)]% 55.6% 75% 84% 88.9%

Пример 3.7 Време на транспорт (Чебишева


теорема и емпириското правило)
Група од 13 студенти студирале во Истанбул, Турција, за време од пет недели. Како
дел од нивните студии на локалната економија. секој од нив купил ориентален килим
и го спремил за транспорт назад до Соединетите Американски Држави. Времето
на транспортот, во денови, за секој килим било

31 31 42 39 42 43 34
30 28 36 37 35 40

Пресметајте го процентот на денови кои се во рамки на две стандардни девијации


од аритметичката средина. Дали е веројатно дека испораката ќе биде 2 месеци?

Решение: Аритметичката средина е 36 дена, а стандардната девијација е приближно


5 дена. Според Чебишевата теорема најмалку 75% од времињата на испорака ќе
бидат помеѓу 26 и 46 дена. Исто така најдовме дека медијаната е 36 дена. Се
преферира емпириското правило, кое дава резултат според кој, приближно 95% од
времињата, се во интервал од 26 до 46 дена за испорака. Не е можно да бидат
потребни два месеца за испорака, 60 дена би биле екстремно отстапувачка вредност.

Коефициент на варијација

Коефициентот на варијација ја изразува стандардната девијација како процент од


аритметичката средина.

Коефициент на варијација
Коефициентот на варијација, СУ, е мерка на релативна дисперзија која ја изразу-
ва стандардната девијација како процент од аритметичката средина (под услов
аритметичката средина да е позитивна).

Коефициеншош на варијација на иоиулацијаша е

СУ = - х 100% ако ц > 0 (3.10)


М
Коефициентот на варијација на примерокот е

СУ = —х 100% ако х > 0 (3.11)


X

Мерки на варијабилност 63
Доколку се спореди стандардната девијација на продажбата за големи и мали
продавници кои продаваат слични стоки, стандардната девијација за големите продавцици
скоро секогаш ќе биде поголема. Едноставно објаснување за тоа е дека големата
продавница може да се моделира како поголем број на мали продавници. Споредувањето
на варијацијата со користењ е на стандардната девијација ќе биде погрешно.
Коефициентот на варијација го надминува овој проблем преку приспособување кон
скалата на единици во популацијата.

Пример 3.8 Споредба на купувањето акции


(Коефициент на варијација)
Во примерот 3.6 земени се предвид две различни инвестиции со иста просечна стапка
на поврат. Сега, сопствениците ја разгледуваат можноста за купување на удели на
акции А или удели на акции В, двете регистрирани на Њујоршката берза за хартии
од вредност. Од крајната цена на двете акции во изминатите неколку месеци најдено
е дека стандардните девијации значително се различни, со 2.00 долари и ѕд= 8.00
долари. Дали треба да се купи акцијата А, бидејќи стандардната девијација на
акцијата В е поголема?

Решение: Може да помислиме дека акцијата В е попроменлива од акцијата А.


Аритметичките средини на крајната цена за двете акции се х А = 4.00
долари и хв = 80.00 долари. Понатаму, се пресметани коефициентите на
варијација со цел да го измерат и споредат ризикот на овие две конкурентни
можности за инвестирање:
= Ѕ8.00 х ј 0()0/о = ј 0%
100% = 50% и
$4.00 $80.00
Имајте предвид дека пазарната вредност на акцијата А се менува од период во период
повеќе од вредноста на акцијата В.

За поголеми групи на податоци препорачуваме употреба на компјутер за добиваве


на нумеричките мерки за кои зборуваме во оваа глава. Ова поглавје го затвораме со
повторно разгледување на употребата на мобилни телефони (види пример 2.6) и “™
податоците содржани во документот Користење на мобилни телефони (МокПе РНопе 0<
1Јѕа§е). 3.1;

Пример 3.9 Користење на мобилни телефони


(Компјутерски резултат) -3-1
П одатоците за искористени минути од прим ерок од 110 претплатници на
компанијата за мобилни телефони на најевтината тарифа на компанијата (250
максимум потрошени минути месечно) се содржани во документот Користење на
мобилни телефони (Мо&Пе РНопе 1Јѕа§е) (види пример 2.6). П рикаж ете ги 3 [4
Мо1>Пе 1Јѕаце податоците нумерички.

Решение: За да ги прикажеме податоците нумерички, ја пресметуваме аритме-


тичката средина, медијаната, модата, интервалот на варијација, стандардната
девијација, асиметријата, коефициентот на варијација и статистиката со пет броја. 315
Аритметичката средина од 261 минути е малку помала од меридијаната од 263 ми-

64 Поглавје 3 Приказ на податоци: нумерички приказ


Слика 3.3 Искористени минути
Користење на Средина 261.0636
мобилни телефони Стандардна грешка 1.669741
Медијана 263
(Компјутерски
Модалитет 252
резултат во Ехсе!) 17.5124
Стандардна девијација
Варијација на примерок 306.684
Сплоснатост -0.33805
Искривеност 0.001613
Интервал на варијација 77
Минимум 222
Максимум 299
Збир 28717
Износ 110

нути, а од сликата 3.3 се гледа дека асиметријата е близу 0. Модалното време е 252
минути, а податоците варираат во интервал со горна граница 299 и долна граница
222 минути. Стандардната девијација е 17,5 минути. Сликата 3.4 го вклучува и кое-
фициентот на варијација, статистиката со пет броја и интерквартилната разлика.

Слика 3.4 Користење на мобилни телефони


(Компјутерски резултат во М ткав)

Описни статистики: Минути/Април


\/апа61е N М* Меап ЅЕМеап Ѕ10еу Х/апапсе Соеѓ\/аг МЈпЈтит
МЈпиЈеѕ 110 0 261.06 1.67 17.51 306.68 6.71 222.00

\/апа61е 01 МесМап 03 М ахЈтит Капде 10Р? Ѕке\л/пеѕѕ


МтиЈеѕ 251.75 263.00 271.25 299.00 77.00 19.50 0.00

В ежби

О сновни веж би 23 35 14 37 28 45
3.12 Пресметајте ја варијансата и стандардната девија- 12 40 27 13 26 25
ција на следниот примерок на податоци: 37 20 29 49 40 13
27 16 40 20 13 66
6 8 7 10 3 5 9 8
а. Најдете го просечното време.
3.13 Пресметајте ја варијансата и стандардната девија- б. Најдете ја стандардната девијација.
ција на следниот примерок на податоци: в. Најдете ја статистиката со пет броја.
г. Најдете го коефициентот на варијација.
3 0 -2 -1 5 10 3.16 Следниот дијаграм во форма на стебло и лист со-
држи податоци од примерок:
3.14 П ресм етајте го коефициентот на варијација на
следниот примерок на податоци: Стебло:
3 01
10 8 11 7 9 4 588
5 0345789
3.15 Времето (во секунди) кое им беше потребно на 6 1479
случаен примерок на вработени да ја завршат за- 7 36 9
дачата е 8 03 7

Мерки на варијабилност 65
а. Пресметајтеја интерквартилната разлика (ИР). 13,6% 2 5 ,5 % 4 3 ,6 % - 1 9 ,8 %
б. Пронајдете го осмиот децил. 1 2 ,0 % 3 6 ,3 % 1 4 .3 % - 1 3 ,8 %
в. Пронајдете го 92-иот перцентил.
3.17 Случаен примерок на податоци има аритметичка Пронајдете ја аритметичката средина на приме-
средина 75 и варијанса 25. рокот.
а. Со примена на Чебишевата теорема одреди го
процентот на опсервации помеѓу 65 и 85. 3.22 0$ О перативни от м енаџер на една компанија
б. Доколку податоците се натрупани, искористете којаполни природна изворска вода во шишиња од
го емпириското правило за да го утврдите еден галон сакал да провери дали процесот на
приближниот процент на опсервации помеѓу 65 флаширање тече правилно. Избран е случаен при-
и 85. мерок од 75 шишиња и измерени се нивните со-
3.18 Искористетеја Чебишевата теорема за приближно држини. Волуменот на секое шише е содржан во
да ја одредите секоја од следните опсервации до- документот Вода (\\'а(ег).
колку аритметичката средина е 250 и стандардната а. Најдете го интервалот на варијација, варијан-
девијација е 20. Приближно колкаво е учеството сата и стандардната девијација на овие волу-
на опсервации мени.
а. Помеѓу 190 и 310? б. Најдете ја статистиката со пет броја.
б. Помеѓу 210 и 290? в. Н ајдете ја и објаснете ја интерквартилната
в. Помеѓу 230 и 270? разлика за податоците.
3.19 Н атрупан е збир на податоци, со аритметичка г. Н ајдете ја вредн оста на к о е ф и ц и е н т о т на
средина од 450 и варијанса од 625. Приближно варијација.
колкаво е учеството на опсервации 3 .23 и Резултатите од тестот на 4 0 студенти се содр-
а. Поголеми од 425? жани во документот Резултати (Ѕсогеѕ).
б. Помали од 500? а. Н ајдете ја аритм етичката средина на резул-
в. Поголеми од 525? татите.
б. Најдете ја стандардната девијација.
Практични вежби в. Најдете го коефициентот на варијација.
3.20 Годишните стапки на поврат на обичните акции за г. Н ајдете ја и објаснете ја интерквартилната
разлика.
период од седум години се следните:
3 .24 и Стапките на проценка (во проценти) пресмета-
4,0% 14,3% 19,0% -14,7% -26,5% 37,2% 23,8% ни на случаен примерок од 4 0 парцели земја во
комерцијални зони во 2 005 година се содржани во
За истиот период годишните стапки на поврат на документот Стапки (Ка1еѕ).
државните обврзници во Америка се следните: а. Која е стандардната девијација на стапките на
проценка на имотот?
6,5% 4,4% 3,8% 6,9% 8,0% 5,8% 5,8% 5,1% б. Приближно кое е учеството на стапките во
рамки на ± 2 стандардни девијации од аритме-
а. Споредете ги аритметичките средини на овие тичка средина?
3.25 и Пресметајте ја аритметичката средина на из-
два распореда на популации.
б. Споредете ја стандардната девијација на овие носот во долари и стандардната девијација за износ
два распореда на популации. во долари наплатен од картичка Виза во цвеќар-
3.21 П римерок од осум американски корпорации го ни цата Ф лорин. П о д ато ц и те се содрж ани во
покажа следниот процент на промена во зарабо- документот Флорин (Р1опп).
тувачката по акција во тековната година споредено
со претходната година:

3 .3 ПОНДЕРИРАНА АРИТМЕТИЧКА СРЕДИНА И


МЕРКИ ЗА ГРУПИРАНИ ПОДАТОЦИ

Некои ситуации бараат посебен вид на аритметичка средина наречена иондерирана


аритметичка средина.
Пондерирана аритметичка средина
Пондерираната аритметичка средина на група на податоци е

Ж Х +М ',Х , Н-----+ М> X (3.12)

каде ж = пондер на /'-тата опсервација.

Една значајна ситуација која бара употреба на пондерирана аритметичка средина е


пресметката на просечната оценка (СРА).

Пример 3.10 Просечна оценка


(пондерирана аритметичка средина)
Да претпоставиме дека студент кој ислушал 15 часа за време на првиот семестар на
колеџ добил една оценка А, една оценка Б, една оценка Ц и една оценка Д. Да
претпоставиме дека вредност 4 се користи за А, 3 за Б, 2 за Ц, 1 за Д и 0 за Ф.
Пресметајте ја просечната оценка на студентот за семестарот.

Решение: Просечната оценка пресметана со проста аритметичка средина е

I* . х. + х, + •••+ х 4 + 3 + 2 +1
х =- = 2.5
п п 4
Табела 3.3 Семестрално академско уверение
К урс ОЦЕНКА ВРЕДНОСГ К ре д и т и (ВРЕДНОСТ) х К редити

Англиски јазик А 4 3 12
Математика Б 3 3 9
Биологија Ц 2 4 8
Шпански д 1 5 5
Вкупно 15 34

Но ова не е точната просечна оценка. При пресметката на простата аритметичка


средина претпоставуваме дека секој предмет е од еднакво значење или „тежина“,
но оваа претпоставка го занемарува фактот дека бројот на кредити не е ист за сите
предмети. Односно, оценката А беше заработена на часови по Англиски јазик кој
носи три кредити и оценката Б беш е заработен а на часови по предм етот
Математика кој носи три кредити, но оценката Ц беше добиена од лабораториски
вежби по предметот Биологија кој носи четири кредити и оценката Д беше
заработена, за жал, од часови по предметот Шпански јазик кој носи пет кредити.
Овие информации се прикажани во табелата 3.3.

Употребувајќи ги кредитите како пондер - што значи уџ = број на кредити, и, Х/ил


= 15, точната просечна оценка е 2,267 а не 2,5.

Пондерирана аритметичка средина и мерки за групирани податоци 67


2 > л •+ _ 3(4) + 3(3) + 4(2) + 5(1) _ 34 ^ 2 ^
/=1___________ _

& 15 15

Личните доходи по глава на жител претставуваат вкупен износ на доходи поделен


со бројот на средовечни жители. Економ истите ја користат пондерираната
аритметичка средина за да го пресметаат просечниот личен доход по глава на жител
за дадена година. Податоците кои се однесуваат на личните доходи, доходите и
вработеноста, и профилот на државната економија се достапни преку Бирото за
економски анализи на економски регионални информатички системи (Вигеаи ос!
Есопотѓс Апа1уѕѓѕ ќе%1опа1 Есопотѓс 1п/огтаНоп Ѕуѕ1ет) ('ллуу/.кеа.с1ос.§оу). Оценката
за средовечните жители е базирана на податоци добиени од пописот на населението.

Пример 3.11 Личен доход ио глава на жител 2002


(Пондерирана аритметичка средина)
Г олемината на населението и личните доходи по глава на жител за случаен примерок
од пет држави се дадени во табела 3.4. Пресметајте ја аритметичката средина на
личните доходи по глава на жител за 2002 (референции 1, 2).

Решение: Бидејќи големината на населението варира во секоја држава, средниот


личен доход по глава на жител за 2002 година е пресметан со пондерирана
аритметичка средина, користејќи ја големината на населението во државата како
пондер.
п

35,001,986($32,989) + --- + 616,408($29,764)


Пондер. аритмет. сред.: -^=---- = —----- ----- ----- ----- ------------- ----- ----- ----- -
2>, 57,968,797
= $31,986,12

Табела 3.4 Население и личен доход по глава на жител, 2002


ДРЖАВА Н аселение Ј1ИЧЕН ДОХОД ПО ГЛАВА НА ЖИТЕЛ
Калифорнија 3 5 ,0 0 1 ,9 8 6 $ 3 2 ,9 8 9
Флорида 1 6 ,6 9 1 ,7 0 1 2 9 ,7 5 8
Минесота 5 ,0 2 4 ,7 9 1 3 3 ,3 2 2
Северна Дакота 6 3 3 ,9 1 1 2 6 ,8 5 2
Вермонт 6 1 6 ,4 0 8 2 9 ,7 6 4
Вкупно 5 7 ,9 6 8 ,7 9 7 $ 1 5 2 ,6 8 5

Според ова, аритметичката средина на личните доходи по глава на жител за 2002


година е 31.986,12 долари, а не 30.537 долари, како што беше пресметано со простата
аритметичка средина.

Во една анкета може да се побара од испитаниците да изберат категорија на возраст


како, на пример, „од 18 до 25“, наместо да ја даваат точната возраст. Во вакви

68 ПоГ-ГТлт“ 3-
ситуации не можат да ^ ___ ;
варијансата. Меѓутоа, можеме приближно да ја одредиме аритметичката срсдппа „
варијансата.

Приближна аритметичка средина и варијанса за групирани податоци


Да претпоставиме дека податоците се групирани во К класи, со фреквенции
/ г / 2, . .. ,/к. Доколку средните точки на овие класи се тх, т„ ..., тк, тогаш
аритметичката средина на популацијата и варијансата на популацијата за групи-
раните податоци се пресметува на следниот начин:

(а) З а иоиулација од N опсервации, така што

аритметичката средина е

Х ./> , (3.13)
Ц = — ---------
N
а варијансата е

Х /Ц - ц Ј 1
, с г = '=■ (3.14)
N
(б) За примерок од п опсервации, така што


II
ѕ

М
аритметичката средина е

X = н (3.15)
п
а варијансата е
Х/(т,-хУ
ѕ2= (3.16)
п-1

Пример 3.12 Тестирање на концентрацијата


на нечистотии во некоја хемикалија
(Средина и варијанса за групирани податоци)
Примерок од 20 пакети со хемикалии бил тестиран за да се утврди концентрација
на нечистотии. Добиените резултати се
Процент на нечистотии 0<2 2<4 4<6 6<8 8 < 10
Пакети 2 3 6 5 4
Најдете ја аритметичката средина на примерокот и стандардната девијација за овие
нивоа на проценти на нечистотија.

Решение: Пресметките се презентирани во табела 3.5.

Пондерирана аритметичка средина и мерки за групирани податоци 69


Држа
Табела 3.5 Пакети со хемикалии (Пресметки за групирани податоци)
т: (да. - х) Алаб;
КЛАСИ /, тЈ , (т: - х)2 /.(т, - х ) 2 Цорџ
0<2 1 2 2 -4 .6 21.16 42.32 Илин
2<4 3 3 9 -2 .6 6.76 20.28 Инди
4<6 5 6 30 -0 .6 0.36 2.16 Њујо]
6< 8 7 5 35 1.4 1.96 9.8 Пенс!
8 < 10 9 4 36 3.4 11.56 46.24 Тенес
Суми 20 112 120.8
3.29 Еден]
Од Табелата 3.5, прим*
извод
= 20 рени ]
/=1 /=1

б р °ј
Средината на примерокот е пресметана врз основа на
б р°ј
Пресг
112 3.30 Случг
■5.6 личш
и 20
за на;
Бидејќи станува збор за податоци од примерок, варијансата е пресметана како
Б221
б Р°Ј'
120.8
= 6.3579
и -1 19 а. Н
Заради тоа, стандардната девијација на примерокот е пресметана како б. Н
да
3.31 ТабеЈ
5= = л/б3579 = 2.52 трош
меро!
Според тоа, за овој примерок просечната концентрација на нечистотии е
пресметана дека е 5,6%, а стандардната девијација на примерокот е пресметана Часо
учењ
дека е 2,52%.
Број
студе

В еж би
3 .4 Ме
Основни вежби Класа Фреквенција
3.26 Разгледајте го следниот примерок од пет вредности 0-4 5
5-9 8
и соодветните пондери:
10-14 11
Хј 15-19 9
4.6 20-24 7
3.2
5.4
а. Пресметајте ја аритметичката средина на при-
2.6
мерокот.
5.2
б. Пресметајте ја варијансата на примерокот и
а. П ресметајте ја аритм етичката средина на х. стандардната девијација на примерокот.
вредностите без пондерите.
б. П ресм етајте ја пондерираната аритметичка Практични вежби
средина на х вредностите. 3.28 Пресметајте ја пондерираната аритметичка сре-
3.27 Разгледајте ги следните распореди на фреквенции дина на личните доходи по глава на жител за
за примерок од 40 опсервации: следниов случаен примерок од седум држави во
2003 година (референции 1, 2).

70 Поглавје 3 Приказ на податоци: нумерички приказ


Држава Населенис
глава на жител времети 1Ш1јл^ч/А1% /_ ј

Алабама 4 500 752 26,388 б. П ресм етајте ја стандардната девијација на


Џорџија 8 684 715 29,442 примерокот.
Илиноис 12 653 544 33,690 3.32 Од примерок од 20 финансиски аналитичари било
Индијана 6 195 643 28,783 побарано да дадат прогнози за заработувачката по
Њујорк 19 190 115 36,574 акција на к о рп орац и јата во следната година.
Пенсилванија 12 365 455 31,998 Резултатите се сумирани во следнава табела:
Тенеси 5 841 748 28,455
Прогноза
9.95 10.45 10.95 11.45 11.95
(долари по
3.29 Еден производител на портабл радиоапарати добил < 10.45 < 10.95 <11.45 <11.95 < 12.45
акција)
примерок од 50 радиоапарати од неделното про- Број на
изводство. Радиоапаратите темелно биле прове- аналити- 2 8 6 3 1
рени и бил евидентиран следниов број на дефекти: чари
Број на дефекти 0 1 2 3 а. П ресметајте ја средината на примерокот на
Број на радиоапарати 12 15 17 6 прогнозата.
Пресметајте ја стандардната девијација. б. П ресм етајте ја стандардната девијација на
3.30 Случаен примерок од 50 полиси за осигурување на примерокот.
личниот имот го покажал следниот број на барања 3.33 Еден издавач добил од некоја печатница копија на
за надомест на штета во последните две години: учебник од 500 страници. С траниците се вни-
мателно проверени и евидентиран е бројот на
Број на дефекти 0 1 2 3 грешки на секоја страница, што резултирало со
Број на радиоапарати 12 15 17 6 податоците содржани во следнава табела:
Број на грешки 0 1 2 3 4 5
а. Најдете го просечниот број на бар^ња дневно.
Број на страници 102 138 140 79 33 8
б. Најдете ја варијансата на примерокот и стан-
дардната девијација на примерокот. Одредете ја аритметичката средина и стандардната
3.31 Табелата подолу го покажува бројот на часови по- девијација на бројот на грешките по страница.
трошени за спремање на испит од случаен при- 3.34 Средината и стандардната девијација на потрошени
мерок од 25 студенти од голем клас. минути од случаен примерок на корисници на
мобилни телефони се пресметани во примерот 3.9.
Часови на Сега пресметајте ја и споредете ја средината и стан-
учење 0<4 4 < 8 8< 12 12 < 16 16 <20 дардната девијација само врз основа на распоредот
Број на на фреквенции даден во табелата 2.6.
студенти 3 7 8 5 2

3 .4 М ерк и н а за ви с н о с т по м еѓу п ро м еи ли ви те

Во глава 2 ги воведовме граф иконите на растурањ е како граф ички начин за


прикажување на зависноста помеѓу две променливи. Во ова поглавје, ги воведуваме
коваријансата и корелацијата, нумерички начини за прикажување на линеарната
зависност, посветувајќи им поголемо внимание на овие концепти од глава 12 до глава
14. Коваријансата е мерка за насоката на линеарната зависност помеѓу две променливи.

Коваријанса
Коваријанса (Соу) е мерка на линеарната зависност помеѓу две променливи.
Позитивната вредност укажува на директна или растечка линеарна зависност, а
негативната вредност укажува на опаѓачка линеарна зависност.
Коваријанса на популација е

(3.17)
Соу(х,у) = ст =
N

Мерки на зависност помеѓу променливите 71


каде Јс.ИЈ/.се набљудуваните вредности, цг и ц. се средини на популацијата, а А' е
големина на популацијата.
Коваријанса на примерок е

2 > ,- з Ф . - у )
Соу(х,у) = = (3.18)
п -1
каде х и у. се набљудуваните вредности, х и у се средини на примерок, а п е
големина на примерок.

Коефициентот на корелација на примерокот ќе ни даде стандардизирана мерка на


линеарна зависност помеѓу две променливи. Главно, тој е многу покорисна мерка,
бидејќи обезбедува податоци за насоката и за јачината на зависност. Коваријансатаи
соодветниот коефициент на корелација имаат ист знак (двете се или позитивни или
негативни).

Коефициент на корелација
Коефициентот на корелација се пресметува со делење на коваријансата со
производот од стандардните девијации на двете променливи.
Коефициентот на корелација на популацијата, р, е
Соу(х,у)
(3.19)
о о,
каде о и а се стандардните девијации на популација на двете променливи.
Коефициентот на корелација на примерокот, г, е
Соу(х,у)
(3.20)

каде .ѕ и с е стандардните девијации на примерокотна двете променливи. Корис-


но е емпириското правилото дека постои зависност ако

(3.2,

Коефициентот на корелација се протега во интервал од -1 до +1. Колку што г е


поблиску до +1, точките на податоците се поблиску до растечката права линија која
укажува на позитивна линеарна зависност. Колку што г е поблиску до -1, точките на
податоците се поблиску до опаѓачката права линија која укажува шнеѓат ивна линеарна
зависност. Кога г = 0, не постои линеарна зависност помеѓу х и у, но не значи и дека
отсуствува зависност. Во глава 2 ги презентиравме дијаграмите на растурање како
графички мерки за одредување на зависност. На сликата 3.5 се претставени некои
примери на дијаграми на растурање и нивните соодветни коефициенти на корелација.
Сликата 3.6 е дијаграм на квартилни продажби на една голема трговска компанија.
Имајте предвид дека продажбите квартилно варираат во текот на годината, одразувајќи
ги потрошувачките навики. Коефициентот на корелација помеѓу променливата време и
квартилните продажби е нула. Може да видиме дека постои јасно одредена сезонска
зависност, но зависноста не е линеарна.

ТТП Г ТТа Р 1 ^ Г Т гЛТТТЛОО т т п ТТ П п п т А т т т г .


Слика 3.5 Дијаграми на растурање и корелација
т • У,- Уг

• •
• •
• • •
• •
• • •
• •
. • • ** •* • •
• • • • •
• •• •
• • • .

• •
• •
• .
-------- ------- 71
(в) г = 0 х.

&
00
1
II

II
1
У,+

(г) г = - .4 (Ц)г = (ѓ)г = - 1.0

Слика 3.6 25 г
Квартилни
продажби ; ; А Л А / \ М А /

90 91 92 93 94 95 96 97 98 99
Г одина и квартал

Пример 3.13 Производствен погон


(Коваријанса и коефициент на корелација)
Компанијата Рајзинг Хилс Мењуфекчуринг Инц. сака да ја проучи зависноста
помеѓу бројот на вработени, X, и бројот на маси, V, произведени во нивниот погон
во Редвуд Фолс. За таа цел обезбедила случаен примерок од 10 часа на производство.
Биле добиени следниве (х, у) комбинации на точки

(12,20) (30,60) (15,27) (24,50) (14,24)


(18,30) (28,61) (26,54) (19,32) (27,57)

Мерки на зависност помеѓу променливите 73


Пресметајте ја коваријансата и коефициеитот на корелација. Кратко објаснете ја
зависноста помеѓу бројот на вработени и бројот на маси произведени во еден час.
Податоците се содржани во документот Рајзинг Хилс (Ш ѕт§ НШѕ).

и
Ш ѕт § НЈНѕ
Решение: Пресметките се дадени во табелата 3.6

Табела 3.6 Пресметки за коваријансата и корелацијата

X У ( х , - х ) (х, - х ) 1 (у-у) ( у , - у )2 ( х , - * ) 0 , - у)
12 20 -9.3 86.49 -21.2 449.44 197.16
30 60 8.7 75.69 18.8 353.44 163.56
15 27 -6.3 39.69 -14.2 201.64 89.46

ОО
оо
24 50 2.7 7.29 77.44 23.76
14 21 -7.3 53.29 -20.2 408.04 147.46
18 30 -3.3 10.89 -11.2 125.44 36.96
28 61 6.7 44.89 19.8 392.04 132.66
26 54 4.7 22.09 12.8 163.84 60.16
19 32 -2.3 5.29 -9.2 84.64 21.16
27 57 5.7 32.49 15.8 149.64 90.06
1 = 213 Ѕ = 412 1 = 378.1 2 = 2505.6 Е = 962.4

Од Равенката 3.18,

ТХХ ~Х\ У- У) 969 4


Соу(х, у ) = ѕ^ = --------------------- = ^ ± 2 = 106.93
п -1 9
Од равенката 3.20,

_ Соу(х,у) _ 106.93
= 0.989
ѕхѕу л/42.01л/278.4

Од равенката 3.21,

|0.989| > ~ = 0.64


1 ' л/10
Заклучуваме дека постои силна позитивна зависност помеѓу бројот на вработени
и бројот на маси произведени во еден час.

Пример 3.14 Аиализа на портфолијата на акции


(Анализа на коефициентот на корелација)
Алис Вонг. финансиски аналитичар на Интергрејтид секјуритис, разгледува неколку
различни акции за новиот инвестициски фонд кој го воведува. Едно од прашањата
кои се поставуваат се однесува на коефициентите на корелацијата помеѓу цените
на различните акции. За да ги одреди моделите на цените на акциите, таа изработила
низа на графикони на растурање и го пресметала коефициентот на корелација на
примерок за секој графикон. Какви информации добила Алис од сликата 3.7?

Поглавје-3 Приказ на полатшти^шгмаацц^


Решение: Алис увидела дека е можно да се контролира варијациЈТ7^и«к^осе,таата
цена на инвестицискиот ф онд, со ком бинирањ е на различните !,к ции во
портфолиото. Варијацијата на портфолиото се зголемува ако се вклучат акциите
со позитивен коефициент на корелација, затоа што цените се стремат да пораснат
заедно. Од друга страна, варијацијата на портфолиото се намалува ако се вклучат
и акциите со негативен коефициент на корелација. Кога цената на една акција се
зголемува, цената на друга се намалува, а комбинираната цена е постабилна.
Искусните набљудувачи на цените на акциите можат да ја оспорат можноста од
многу големи негативни коефициенти на корелација. Нашата цел е графички да го
прикажеме коефициентот на корелација за одредени модели на набљудуваните
податоци, а не прецизно да прикажеме одреден пазар. По испитувањето на
коефициентите на корелација, Алис била подготвена да почне со конструирање на
нејзиното портфолио. Во глава 6 ќе покажеме како точно коеф ициентот на
корелација помеѓу цените на акциите влијае на варијацијата на целото портфолио.

Слика 3.7 Зависности помеѓу различни цени на акции


$150

$70 $90 $110 $130 $150 $70 $90 $110 $130 $150
Цена на акција X Цена на акција А

$70 $90 $110 $130 $150 $70 $90 $110 $130 $150
Цена на акција 2 Цена на акција В

О $150 О $150
# $130 # $130
* $ 1 10

$70 $90 $110 $130 $150 $70 $90 $110 $130 $150
Цена на акција Е Цена на акција 2

МтПав, Ехсе1, ЅРЅЅ, ЅАЅ и многу други статистички пакети можат да се користат за
пресметка на описните мерки, како што се коваријансата на примерок и коефициентот
на корелација на примерок. Сликата 3.8 е компјутерскиот резултат во М ткаб за
коваријансата и корелацијата.
Посебно внимание треба да се обрати ако го употребуваме Ехсе1 за да ја пресметаме
коваријансата. Имајте предвид дека вредноста во компјутерскиот резултат во Ехсе1
прикажан на сликата 3.9 ни дава коваријанса = 96,24; сепак, знаеме дека за овие податоци

Мерки на зависност помеѓу променливите 75


коваријансата на примерок = 106,93. Ехсе1 (ХР или 2000) автоматски ја пресметува
коваријансата на популацијата, како што е наведено во равенката 3.17. Коваријансата
на примерокот ја добиваме со множење на коваријансата на популацијата 96,24 со
факторот п / (п - 1):

(96.24)—^—= (96.24)— = 106.93


п- 1 9
Слика 3.8 Коваријанса и корелација: Слика 3.9 Коваријанса и
Работници, маси корелација: Работници, маси
(Компјутерски резултат во М ткав) (Компјутерски резултат во Ехсе!)

Коваријанси: Работници, маси


Коваријанси: Работници, маси Работници Маси
Работници Број на маси Работници 37.81
X, работници 42.0111 Маси 96.24 250.56
V, маси 106.9333 278.4000

Корелации: Работници,табели
Корелација: Работници, маси
Пирсонова корелација помеѓу х и у = 0,989
Работници Маси
Р-вредност = 0,000
Работници 1
Маси 0.988773 1

В ежби

Основни вежби Практични вежби


3.35 Подолу е даден случаен примерок од седум (х, у ) 3.38 Болницата Ривер хилс е заинтересирана за одреду-
парови на точки на податоци: вање на ефективноста на нов лек за намалување
на времето потребно за целосно опоравување од
( 1 ,5 ) ( 3 ,7 ) ( 4 ,6 ) ( 5 ,8 ) ( 7 ,9 ) ( 3 ,6 ) ( 5 ,7 ) операција на колено. Целосното опоравување е
мерено со серија на тестови на јачи на кои го
а. Пресметајте ја коваријансата. споредуваат третираното колено со она што не е
б. Пресметајте го коефициентот на корелација. третирано. Лекот им е даван во различни количини
3.36 Подолу е даден случаен примерок од пет (х, у) на 18 пациенти во текот на период од 6 месеци. За
парови на точки на податоци: секој пациент, б ројот на единиците лек, X, и
деновите за целосно опоравување, У, се дадени со
( 1 2 ,2 0 0 ) ( 3 0 ,6 0 0 ) ( 1 5 ,2 7 0 ) ( 2 4 ,5 0 0 ) (1 4 ,2 1 0 ) следниве (х, у) податоци:

а. Пресметајте ја коваријансата. (5.53) (21,65) (14, 48) ( 11, 66) (9,46) (4,56)
б. Пресметајте го коефициентот на корелација. (7.53) (21,57) (17, 49) (14, 66) (9,54) (7,56)
3.37 Подолу е даден случаен примерок од цена за парче (9.53) (21,52) (13, 49) (14, 56) (9,59) (4,56)
од шперплоча, X, и продадената количина, У (во
илјади): а. Пресметајте ја коваријансата.
б. Пресметајте го коефициентот на корелација.
в. Н акратко разгледајте ја зависноста помеѓу
$6 80 бројот на единици лек и времето за опораву-
7 60 вање. Која доза треба да ја препорачаме врз
8 70 основа на оваа првична анализа?
9 40 3.39 Компанијата А кме диливери нуди три различни
10 0 начини на испорака за пакети полесни од 5 фунти,
а. Пресметајте ја коваријансата. испорачани од Мејн до Западниот Брег: редовна,
б. Пресметајте го коефициентот на корелација. $3; брза, $5; супер брза, $10. З а да го тестира
квалитетот на овие услуги, некој трговец на мало

76 Поглавје З Приказ на податоци: лпжказ_


кој прави големи порачки ш т л . , , и, ______
пакети во случајно избрани времиња од Мејн до (3, 10) (5, 7) (1 0 ,4 ) (3 , 5) (5 , 6) (10,4)
Такома, Вашингтон. Пакетите биле испорачани во
групи од три пакети со три услуги во исто време за а. Прикажете ги податоците нумерички (ковари-
да се намали отстапувањето што резултира од јанса и корелација).
денот на испорака. Следниве податоци ја покажу- б. Разгледајте ја вредноста на поскапите услуги
ваат цената на испораката, X и бројот на деновите, од аспект на побрза испорака.
У, во (х, у) парови:

3.5 ДОБИВАЊЕ НА ЛИНЕАРНИ ЗАВИСНОСТИ

Досега видовме како може да се прикаже зависноста помеѓу две променливи со


користење на податоци од примерок. Графиконите на растурање ни обезбедуваат
слика на зависноста, а коефициентот на корелација ни обезбедува нумеричка мерка.
Во многу економски и деловни проблеми се бара специфична ф ункционална
зависност.

• Кое ниво на просечна продажба може да се очекува ако се одреди цена од $10 по
единица?
• Ако се вработат 250 работници, колку произведени единици треба да се очекуваат?
• Ако земја во развој го зголеми производството на вештачки ѓубрива за 1 000 000
тони, колкав пораст на производството на жито треба да се очекува.

Економските модели користат специфични функционални зависности за да го


покажат ефектот на зависна променлива, У, што резултира од различните промени
во независната или влезната променлива, X. Во многу случаи можеме соодветно да ја
оцениме функционалната зависност со линеарна равенка:
Г = р„ +(3,ЈГ
каде У е зависната променлива, а X е независната променлива, Р0 е коефициент на
отсечок на У, а е коефициент на наклон на линијата, или промената на У за секоја
единица промена на X. Првичната претпоставка направена во нашата практична
примена е дека можат да се зададат различни вредности за X и дека ќе се добие
соодветна средна вредност на У, со оглед на линеарната зависност на процесот кој се
проучува. Моделот на линеарна равенка ја пресметува средината на У за секоја
вредност на X. Оваа идеја е основата за добивање на многу економски и деловни
зависности, вклучувајќи ги функциите на побарувачка, функциите на производство,
функциите на потрошувачка и предвидување на продажбите.

Слика 3.10
Линеарна
функција
и точки на
податоци

Добивање на линеарни зависности 77


одредена примена. Ова бара од нас да ги најдеме најдобрите вредности за коефициспши
Р0 и Рг Генерално користиме податоци, достапни од процесот за пресметување на
„оценки“ или нумерички вредности за коефициентите Р(( и Р;. Овие оценки дефинирани
како к0и /? обично се пресметани со примена на реѓресијата на најмали квадратш,
техника која многу се користи во статистичките пакети како што е Мтка1з и во табелите
во Ехсе1. Методот на најмали квадрати е постапка со која се избира типот на линија која
најдобро одговара на даденото множество емпириски точки. Да разгледаме типичен
дијаграм на точки од процесот кој има линеарна зависност, како што е прикажано на
графиконот 3.10.
Линеарната равенка, претставена со линијата, е линеарна равенка која најдобро
одговара на дадените податоци. Гледаме дека одделните емпириски точки се над и под
линијата, и дека линијата има точки и со позитивни и со негативни отстапувања.
Растојанието на секоја точка (х ,у.) од линеарната равенка е дефинирано како резидуал,
е . Би сакале да избереме равенка, така што некоја функција на позитивните и
негативните резидуали да биде колку што е можно помала. Ова подразбира да се најдат
резидуалите на коефициентите Р(1и Рг
Математичарите од минатото се занимавале со проблемот на развивање постапка
за оценување на коефициентите на линеарните равенки. Самото минимизирање на
отстапувањата не било корисно, затоа што отстапувањата имаат и позитивни и
негативни знаци. Исто така, биле развиени најразлични постапки со користење на
апсолутни вредности, но ниту една од нив не се покажала толку корисна или толку
популарна како р егреси јата на најм али квадрати. П одоцна ќе научиме дека
коефициентите добиени со оваа постапка имаат многу корисни статистички белези.
Едно многу важно предупредување за регресијата на најмали квадрати е дека
емпириските точки што отстапуваат можат да имаат многу силно влијание врз линијата
на регресија, така што целата линија се насочува кон оваа точка. Според тоа, секогаш
треба да ги прегледаме дијаграмите на растурањ е, за да бидеме сигурни дека
регресиската зависност не се заснова само на неколку екстремни точки.
Равенките за пресметување на овие оценки се добиени со примена на регресиската
постапка на најмали квадрати, која ќе биде подетално разработена во главата 12.
Регресијата на најмали квадрати ги избира к0 и 6 , така што ќе се минимизира збирот
на квадратните резидуали.

Регресија на најмали квадрати


Линијата на регресија на најмали квадрати врз основа на примерок на податоци е

у = ко+б.дс (3.22)

6,, е наклонот на линијата, или промената нау за секоја единица промена на х и се


пресметува како
ќ| = Сох>(х,у) = ^ ѕу
(3.23)
ѕ~ ѕх
каде д0 е отсечокот на у и се пресметува како
4:1

ѕч|
1
Ј>
II

(3.24)
о

78 Поглавје 3 Приказ на податоци: нумерички приказ


Промер 3.15 Производствен погон
(линија на регресија)
Бројот на работници, X, и бројот на произведени маси по час, У, за примерок од 10
работници, се прикажани во примерот 3.13. Ако менаџментот одлучи да вработи
25 работници, пресметајте го очекуваниот број на маси кои ќе бидат произведени.
Податоците се содржани во документот Рајзинг хилс (Шѕш§ НШѕ).
4
КЈѕт§ НШѕ Решение: Ги пресметавме коваријансата и корелацијата за овој примерок на
податоци во примерот 3.13:
Соу(х,_у) = 106.93
г = 0.989
Од коваријансата гледаме дека насоката на зависност е позитивна, високата
корелација од 0,989 исто така кажува дека примерокот од емпириски точки е многу
блиску до некоја растечка права линија, како што може да се види од сликата 3.11.
Од податоците во табелата 3.6, ги пресметуваме коефициентите на регресија на
примерок:
^ _ Соу(х,у) __ 106.93 515
^ 42.01
60 ='Ј-6,Зс = 41.21-2.545(21.3) = -13.02
Од ова, линијата на регресија на примерокот е:
ј> = 60 +6]Х = -13.02 + 2.545х
За 25 вработени би очекувале да произведат:

у = -13.02 + 2.545(25) = 50.62


или приближно 51 маса.

Слика 3.11 Линија на регресија: Работници, маси (Компјутерски резултат во МтПак)


Д ијаграм на линија која најдобро
одоговара на податоните
у = -13.02 + 2.545х

ѕ 2.6 445 0
В-Ѕд 97.8%
К-Ѕр(ас1ј) 97.5%
Исто така, можсме да користимс ------ --------- _
табели во Ехсе1, за да ги добиеме истите коефициенти на регресија и линија на
регресија. Компјутерски добиениот резултат во МтПав за податоците е даден на
сликата 3.12.

Слика 3.12 Анализа на регресија: Број на маси во однос на број на работници


(Компјутерски резултат во МтПав)

Равенката на регресија е

Број на маси = -13..0 + 2.55 (број на работници)


Предиктор Коефициент Коефнцнент на Т Р
стандардна грашка
Константа - 13.016 3.015 -4.32 0.003
Број на работници 2.5454 0.1360 18.72 0.000

Ѕ = 2.64450 К-Ѕ^ = 97.8% К-Ѕц(приспособ.) = 97.5%

Немаме намера да сугерираме дека секогаш можеме да ја замениме која било


вредност зах во линијата на најмали квадрати и да донесеме разумна одлука. Понекогаш
зависноста е едноставно лаж на, или вредноста на х м ож е да биде надвор од
прифатливиот интервал на вредности. На пример, со оглед на тоа што бројот на
работници во фабриката Рајзинг хилс се движел од 12 до 30, не можеме да го предвидиме
бројот на маси произведени на час, ако биле вработени 100 работници.
Н аш ата цел во оваа глава е да научиме како нумерички да ги прикажуваме
податоците, а не како да изведуваме некоја софистицирана статистичка анализа на
модели на линеарна регресија. Последново ќе дојде на ред во главата 12 и понатаму.
Ќе користиме компјутер за да добиеме коефициенти на регресија за најреалистичните
податоци, со оглед на тоа што големината на примерокот вообичаено ја отежнува
пресметката.

В е ж би

Основни вежби а. Пресметајте ја коваријансата.


3.40 За овие (х, у) парови од емпириски точки: б. Какви информации ни дава коефициентот на
корелација?
(1,5) (3,7) (4,6) (5,8) (7,9) в. Пресметајте го и интерпретирајте го к .
г. Пресметајте го д0.
а. Пресметајте го Ву д. К о л к ав а ко л и ч и н а м ож е да очекувам е да
б. Пресметајте го 60. продадеме, ако цената на парче е $7?
в. Која е равенката на линијата на регресија? 3.42 Случаен примерок за 7 дена работење ги дал след-
3.41 Следниве податоци се однесуваат на X, цената ниве вредности на податоци (цена, количина):
наплатена по парче шперплоча, и У, продадената
количина (во илјади): Цена за галон боја (X) Продадена количина (У)
10 100
Ц енанапарче (X) Илјади продадени парчиња (У) 8 120
$6 80 5 200
7 60 4 200
8 70 10 90
9 40 7 110
10 0 6 150

80 Поглавје 3 Приказ на податоци: нумерички приказ


а. П рикаж ете тл шЈда ±\_»јј,*хх^ ј ».*_^—
сметајте ги коваријансата и корелацијата).
б. Пресметајте го и интерпретирајте го /)г Првиот број е годините на работен стаж, а вториот
в. Пресметајте го и интерпретирајте го Вп. е неделната продажба.
г. Колку галони може да очекуваме да продадеме а. Пресметајте ги коваријацијата и корелацијата.
ако цената е $7 за галон? б. Пресметајте ги коефициентите на регресија, 60
и
Практични вежби в. Н акратко објаснете ја равенката на регресија
3.43 Ком панија за потрош ни добра го проучувала која покажува како може да се примени ра-
ефектот од рекламирање врз вкупната добивка. венката за да се предвиди продажбата. Кажете
Како дел од ова проучување, биле собрани след- го и интервалот во кој би можела да се примени
ниве податоци за трошоците за рекламирање (во равенката.
илјади) и вкупната продаж ба (во илјади) и за 3.45 Случаен примерок од 12 бејзбол играчи од еден
период од 5 месеци: ф акултет учествува во една специјална тренинг
програма за кревање тежина, со цел да се подобри
(10,100) (15,200) (7,80) (12,120) (14,150) нивниот просек на удирање со палката. Програ-
мата траела 20 недели, точно пред почетокот на
Првиот број е трошокот за рекламирање, а вториот сезоната. Просечниот број на часови во неделата
е вкупната продажба. и промената на нивниот просек на удирање во
а. Графички прикажете ги податоците и пресме- однос на претходната сезона се следниве:
тајте го коефициентот на корелација.
б. Дали овие резултати се доказ дека реклами- (8.0, 10) (20.0,100) (5.4, -10) (12.4, 79) (9.2, 50)
рањето влијае на продажбата? (15.0,89) (6.0,34) (8.0,30) (18.0,68) (25.0,110)
в. Пресметајте ги коефициентите на регресија 60 (10.0, 34) (5.0, 10)
и
3.44 Претседателот на Флор каверингс анлимитед сака а. П р и к аж ете ги п о д ато ц и те. Д али тренин г
информација за зависноста помеѓу работниот стаж п р о гр ам ата на к р евањ е теж и н а покаж ува
на продавачот на мало (во години) и неделната резултати?
продаж ба (во стотини долари ). Тој го добил б. Пресметајте ја равенката на регресија.
следниов случаен примерок од работен стаж и
неделни продажби:

Р езим е

Фокусот на вниманието во оваа глава беше насочен одреден интервал на средината. Беа разгледани и
кон нумеричките мерки кои се користат за прикажу- апроксимациите на средината и варијансата за
вање на податоците. Централната тенденција беше групирани податоци. На крајот, накратко претставив-
прикажана со аритметичката средина, медијаната и ме два броја, коефициентот на на коваријација и
модата; варијабилноста беше прикажана со интерва- корелација, како нумерички мерки на зависноста
лот на варијации, интерквартилната разлика, помеѓу променливите. Исто така, го разгледавме
варијансата, стандардната девијација и коефициентот методот на регресија на најмали квадрати. Во главата
на варијација. Беа воведени и Чебишевата теорема и 2 беа претставени графичките начини за прикажување
емпириското правило, како методи за одредување на на податоци, а во главата 3 беа претставени нумерич-
приближната пропорција на податоци во рамките на ките начини за прикажување на податоци.

К лучни ЗБОРОВИ

аритметичка средина • статистика од пет броја


коефициент на варијација • геометриска средина
коефициент на корелација • интерквартилна разлика
коваријанса • медијана
емпириско правило • модалитет
прв квартил • интервал

Клучни зборови 81
• искривен • трет квартил
• стандардна девијација • варијанса
• симетрија

В еж би и п рак ти ч н и при м ери од гл авата

3.46 Огромен аеродром неодамна го најмил консул- од приемниот испит по математика и соодветните
тантот Џон Кадариу да го проучи проблемот на просеци на дипломирање на факултет за случаен
доцнење во авиосообраќајот. Тој го евидентирал примерок од 11 студенти. Овие податоци се во
бројот на минути на доцнење на авионите, од слу- следнава табела:
чајно избран примерок на летови, во следнава Резултати
табела: од приемен Просек на оцени
Доцнење 450 3.25
во минути 0 < 10 10 < 20 20 < 30 30 < 40 40 < 50 50 < 60 480 2.60
Број на 500 2.88
летови 30 25 13 6 5 4 520 2.85
560 3.30
а. Пресметајте го просечниот број на минутите
580 3.10
на доцнење.
590 3.35
б. Пресметајте ги варијансата на примерокот и
600 3.20
стандардната девијација.
620 3.50
650 3.59
3.47 9 $ Снепи лоун инк. води евиденција за наплатите
700 3.95
на својот професионален сервис за одржување на
тревници. Случаен примерок од наплати е зачуван а. Прикажете ја насоката и јачината на зависност
во докум ентот Снепи (Ѕпарру). П рикаж ете ги помеѓу овие две променливи.
податоците нумерички. б. Пресметајте го и интерпретирајте го />г
3.48 1 $ Документот Памук (СоНоп) содржи информа- в. Пресметајте го /)().
ции за производството на памучно влакно. г. Ако резултатот на приемниот испит по матема-
а. Графички прикаж ете го производството на тика на еден студент е 530, предвидете му го
памук во однос на големопродаж ната цена. просекот на оценки на факултет на овој студент
Скицирајте ја приближната линеарна завис- во време на дипломирањето.
ност. д. Врз база на овие податоци, дали можеме да го
б. Одредете ги константата и наклонот за равен- предвидиме просекот за дипломирањето на
ката на регресија.*Кој е маргиналниот ефект студент кој имал 375 поени на приемниот по
од произведената количина за секоја единица математика?
промена во цената?
в. П ресм етајте го односот помеѓу извезените 3.51 Нумерички прикажете ги следниве податоци:
памучни влакна и производството на памучни
влакна. (5.53) (21,65) (14,48) (11,66) (9,46) (4,56)
(7.53) (21,57) (17,49) (14,66) (9,54) (7,56)
3.49 §ф Од податоците во документот Памук (СоНоп) (9.53) (21,52) (13,49) (14,56) (9,59) (4,56)
а. Графички прикаж ете го производството на
памук во однос на извезената количина памук. 3.52 Просечната оценка на дипломирање во однос
Скицирајте ја приближната линеарна завис- на влезните резултати од усниот приемен испит по
ност. математика за случаен примерок од 67 студенти се
б. П ресм етајте ја кон стан тата и наклонот за содрж ани во докум ентот П росечна оценка на
равенката на регресија. Кој е маргиналниот студентот (Ѕ1ис1еп1 СРА).
еф ект од произведената количина за секоја
единица промена во извезениот материјал? а. Прикажете ги податоците графички.
б. Прикажете ги податоците нумерички.
3.50 Дали резултатите од приемниот испит по матема- в. Пресметајте го просекот на дипломирање на
тика се добар индикатор за успехот на факултет? студент со резултат на усниот приемен испит
Во примерот 2.8 графички (со дијаграм на расту- од 520 поени.
рање) ги прикажавме променливите - резултати

82 Поглавје 3 Приказ на податоци: нумерички приказ


3.53 Зем ете ги предвид м »
вачките на наЈголемите јшј кириирацш. ....
• 1,2, 3,4, 5, 6, 7, 8 достигна просек од 9,2%; стандардната девијација
• 1, 1, 1, 1, 8 , 8 , 8 , 8 била 3,5%.
• 1,1, 4, 4, 5, 5, 8, 8 а. О дредете го интервалот во кој може да се
• -6, -3, 0, 3, 6, 9,12, 15 гарантира дека се наоѓаат 84% од овие цифри
на пораст на заработувачките.
Сите овие популации имаат иста аритм етичка б. Со примена на емпириското правило, одредете
средина. Без правење пресметки, сортирајте ги го интервалот во кој може да се оцени дека се
популациите според големината на нивните ва- наоѓаат приближ но 68% од овие цифри на
ријанси, од најмала кон најголема. Потоа, рачно пораст на заработувачките.
пресметајте ја секоја варијација одделно.
3.56 Одредена трговска марка на гуми има просечен рок
3.54 Ревизор утврдил дека вредноста на побарувањата на траење од 29 000 милји и стандардна девијација
на една компанија има средин& од $295 и стандардна од 3 000 милји.
девијација од $63. а. Одредете го интервалот во кој може да се га-
а. О дредете го интервалот во кој може да се рантира дека се наоѓаат 75% од роковите на
гарантира дека се наоѓаат 60% од овие вред- траење на гуми од оваа трговска марка.
ности. б. Со примена на емпириското правило, одредете
б. О дреди го и н тер в ал о т во кој м ож е да се го интервалот во кој може да се оцени дека се
гарантира дека се наоѓаат 84% од овие вред- наоѓаат приближно 95% од роковите на траење
ности. на гуми од оваа трговска марка.

Додашок
1. Г ео м етри ска с реди на

Друга мерка на централна тенденција која е важна за бизнисот и за економијата,


но која често се превидува, е Геометриската средина. Деловните аиалитичари и
економистите кои се заинтересирани за пораст во одреден број на временски
периоди, ја применуваат геометриската средина. Примената на геометриската
средина во финансиите се однесува на сложена каматна сметка за период од неколку
години, вкупниот пораст на продажбата и порастот на населението. Една важна
примена се однесува на просечниот пораст годишно, кој ќе резултира со одреден
вкупен пораст за неколку години.

Геометриска средина
Геометриската средина, ху , е /?-тиот корен на производот од п броеви:

= л/(х>• ••■••*») = (*1 • •••• • х»У" (3.25)

Геометриската средина се користи за добивање на средниот пораст во текот на


неколку периоди, за даден верижен пораст на секој период.
На пример, геометриската средина од
1.05 1.02 1.10 1.06

=[(1,05)(1,02)(1.10)(1,06)]|/4 =1.0571

Д одаток 83
Пример 3.16 Годишиа стапка на пораст
(Геометриска средина)
Утврдете ја годишната стапка на пораст доколку продажбата се зголемила за 25%
во период од 5 години.

Решение: Би постапиле интуитивно, но наивно ако само го поделиме вкупниот


пораст, 25%, со бројот на периоди, 5, и да се заклучи дека просечната стапка на
пораст е 5 проценти. Ова е неточен резултат бидејќи не го зема предвид верижниот
ефект на порастот.
Да претпоставиме дека годишната стапка на пораст е 5%, и тогаш вкупниот
пораст за џериод од 5 години би бил

(1.05) (1.05) (1.05) (1.05) (1.05) = 1.2763

или 27,63%. Меѓутоа, годишната стапка на пораст, г, која би достигнала 25% за


период од пет години, мора да ја исполни следнава равенка:
(1 + г)5 =1.25
Најпрвин, решете ја геометриската средина:
хѕ =1 + г = (1.25)'/5 =1.046
Стапката на пораст е г = 0.046 или 4,6%.

2. И скри вен о ст

Искривеност
Искривеноста е
Ј
Искривеност = — ---- ------- (3.26)
п ѕ

Важен дел во овој израз е броителот, а именителот служи за стандардизација, правејќи


ги мерните единици ирелевантни. Позитивната искривеност ќе се појави ако распоредот
е искривен на десно, бидејќи просечните отстапувања од средината дигнати на трет
степен се позитивни. Искривеноста ќе биде негативна за распореди искривени на лево
и нула за распореди, кои се симетрични околу средината, како што е нормалниот
распоред.

Р еф ерен ц ии :

1. Вигеаи оѓЕсопогтс Апа1уѕ1ѕ, М1р://\ууууу.веа.(1ос.§оуЉеа/ге2Шпа1/ѕр1/с1еѓаи11:.сѓт, ТаМе ЅА1-3—Рег


Сарка Регѕопа11псоте, Мау 28, 2004.
2. Вигеаи оГ Есопогтс Апа1уѕ1ѕ, Ннр://\уш^6еа.с1ос.§оуЉеа/ге§1опа1/ѕрј/с1еѓаи11.с1т, ТаМе ЅА1-3—
Рори1аПоп, Мау 28, 2004.
3. Ѕиѕап О. Котеп Вгеаѕ1 Сапсег Роипс1а1Јоп, А6ои1 Котеп, НИр://\уш\у.котеп.ог§, Мау 19, 2004.

84 Поглавје 3 Приказ на податоци: нумерички приказ

You might also like