Professional Documents
Culture Documents
UVOD U STATISTIČKE
METODE ISTRAŽIVANJA
SNEŽANA KIRIN
Sistematično
sređivanje dobijenih
vrednosti iz uzorka
Obrada podataka
Tumačenje rezultata
PODELA STATISTIKE: DESKRIPTIVNA I
INFERENCIJALNA STATISTIKA
DESKRIPTIVNA STATISTIKA:
• Bavi se opisivanjem prikupljenih podataka dobijenih prilikom ispitivanja
ili merenja.
• Sređivanje i sažimanje podataka kako bi bili što pregledniji.
(npr. Grafički prikaz, aritmetička sredina, standardna devijacija)
INFERENCIJALNA STATISTIKA:
• Služi analizi uzoraka i pronalaženju pravilnosti ili razlika unutar ili među
uzorcima.
• Omogućuje stvaranje zaključaka (npr. da li se smeju generalizovati
zaključci iz konkretnog uzorka na celu populaciju).
(npr. hipoteza, otkrivanje veza među promenljivim, modeliranje odnosa ili
sličnih postupaka poput analize varijanse, faktorske analize... )
PODELA STATISTIKE
VRSTE STATISTIKE
DESKRIPTIVNA INFERENCIJALNA
grafički prikazi
analiza relativnim brojevima
srednje vrednosti
procena karakteristika
mere disperzije
testiranje hipoteza
mere asimetrije i zaobljenosti
međuzavisnost pojava
analiza vremenskih serija
UZORKOVANJE
Teme
• Promenlјive (kvalitativne;
kvantitativne:diskretne,
kontinualne)
• Skale za merenje
(nominalne, ordinalne,
intervalne i „ratio“) Različite populacije iz grupe ljudi
• „Jačina“ istraživanja
• Proces uzorkovanja
• Tipovi uzorkovanja
• Greške uzorkovanja
Odnos populacije i uzorka
POPULACIJA-STATISTIČKI SKUP
Populaciju (statistički skup) čine jedinice (stvari, osobe, poduzeća,
proizvodi i sl.) čija su svojstva predmet istraživanja statističkom
metodom
STATISTIČKI
SKUP
PREBROJIV NEPREBROJIV
Definisanje statističkog skupa
MERNE
SKALE
kontinuirane
Variable možemo klasifikovati:
Varijable
Kvalitativne
• kvalitativne (kategorijske) ili
• kvantitativne (numeričke).
12
ORDINALNA (REDNA) SKALA
MERENJA
13
INTERVALNA SKALA MERENJA
• Intervalna skala merenja ima svojstva: identitet, veličina i jednaki
intervali.
• Primer intervalne skale je Celzijusova skala za merenje temperature.
Skala se sastoji od jednakih temperaturnih jedinica, tako da je razlika
između 40 i 50 stepeni Celzijusa jednaka razlici između 50 i 60
stepeni Celzijusa.
• Sa intervalnom skalom se ne zna samo da li su različite vrednosti veće
ili manje, već se i takođe zna i koliko su one veće ili manje. Na
primer, pretpostavimo da je u ponedeljak bilo 15 stepeni Celzijusa, a u
utorak 25 stepeni. Zna se, ne samo da je u utorak bilo toplije, zna se da
je bilo 10 stepeni toplije.
• Pored toga, nula ne predstavlјa apsolutnu najnižu vrednost. Umesto
toga, to je tačka na skali sa brojevima iznad i ispod nje (na primer, -10
stepeni Celzijusa).
14
„RATIO“ SKALA
(SKALA MERENJE RAZMERE)
• „Ratio“ skala nosi ime po činjenici da je merenje procena odnosa
između veličine kontinuirane količine i jedinične veličine iste vrste
(Michell, 1997, 1999). Skala odnosa poseduje smislenu
(jedinstvenu i ne-proizvolјnu) nultu vrednost.
• „Ratio“ skala zadovolјava sve četiri svojstva merenja: identitet,
veličinu, jednake intervale i apsolutna nula.
• Primer „Ratio“ skale je težina objekta. Svaka vrednost na skali
težine ima jedinstveno značenje, težine se mogu redno prikazati,
jedinične težine na skali su jednake, a tu je apsolutna nula.
• Apsolutna nula je svojstvo skale težine jer predmeti u mirovanju
mogu biti u bestežinskom stanju, ali oni ne mogu imati negativan
težinu.
15
SKALE MERENJA
Nominalna
Identitet (deskriptivna
kategorija)
Ordinalna
Identitet i jačina
Intervalna
Identitet, jačina i jednaki
intervali
„Ratio“ skala
Identitet, jačina, jednaki intervali
i apsolutna nula
16
JEDNODIMENZIONI I
DVODIMENZIONI PODACI
• Jednodimenzioni podaci. Kada se sprovede studija koja posmatra
samo jednu promenlјivu, kaže se da se radi sa univariatnim
podacima.
• Primer: sprovodi se anketa za procenu prosečne potrošnje goriva
različitih automobila. Pošto se radi samo o jednoj promenlјivoj
(zapremini), smatra se da se radi sa univariatnim podacima.
• Dvodimenzioni podaci. Kada se sprovodi studija koja istražuje
odnos između dve varijable, radi se sa bivariatnim podacima.
• Na primer, pretpostavimo da se sprovodi studija sa ciljem da se
odredi odnos između težine vozila i potrošnje goriva. Pošto se radi
sa dve promenlјive ( težina i zapremina), kaže se da se radi sa
bivarijatnim podacima.
17
Populacija
18
DEFINICIJA PROBLEMA
• Uspešna statistička praksa se zasniva na fokusiranoj
definiciji problema. U uzorkovanju, to podrazumeva
definisanje populacije iz koje se uzorak uzima.
• Populacija se može definisati kao skup svih lјudi ili
artikala sa karakteristikom koja se želi razumeti. Zato
što u praksi veoma retko ima dovolјno vremena ili
novca da se prikupe informacije iz svih ili svega u
populaciji, cilј postaje pronalaženje reprezentativnog
uzorka (ili podskup) od te populacije.
• Uzorkovanje se, kao deo statističke prakse, bavi
izborom podskupa pojedinaca iz populacije da se dobije
neko znanje o celoj populaciji, a posebno za potrebe
izrade prognoze na osnovu statističkog zaklјučivanja.
19
OKVIR UZORKA
20
POPULACIJA I UZORAK
21
TIPOVI UZORKOVANJA
• Probabilističko uzorkovanje
• Uzorkovanje metodom slučajnog izbora
• Sistematično uzorkovanje
• Stratificirano uzorkovanje
• Probabilističko uzorkovanje proporcionalno veličini
• Uzorkovanje klastera
22
PROBABILISTIČKO UZORKOVANJE
• Probabilističko uzorkovanje je takvo uzimanje uzorka pri
kome svaka jedinica u populaciji ima šansu (veću od nule) da
bude uzeta u uzorak i ta verovatnoća može da se tačno odredi.
• Ovaj način uzorkovanja je bilo koji metod koji koristi neki oblik
slučajnog izbora.
• Da bi imali slučajadn metod selekcije, potrebno je da se podesi
proces ili postupak tsko da se osigura da različite jedinice
populacije imaju jednake verovatnoće da budu izabrane.
• Ljudi su dugo pokušavali da generišu razne oblike slučajnog
izbora, kao što su branje imena iz šešira, ili birajući najkraću
slamku. Ovih dana se koriste kompjuteri kao mehanizam za
generisanje slučajnih brojeva i kao osnov za metodu slučajnog
izbora.
23
PROBABILITISTIČKO
UZORKOVANJE
• Kada svaki element u populaciji ima istu verovatnoću
selekcije, kaže se da je u pitanju "dizajn sa jednakom
verovatnoćom selekcije“ (sve izabrane jedinice imaju istu težinu).
• Verovatnoća uzorkovanja obuhvata: princip slučajnog uzorka,
sistematično uzorkovanja, stratifikovano uzorkovanje,
uzorkovanje sa verovatnoćom proporcionalnoj veličini
uzimanja uzorka, i klaster uzorkovanje.
• Ovi različiti načini primene verovatnoće uzorkovanja imaju dve
zajedničke stvari:
• Svaki element ima poznatu verovatnoću (veću od 0) i
• Uklјučuje slučajni izbor u nekom trenutku.
24
UZORKOVANJE METODOM
SLUČAJNOG IZBORA
• Uzorkovanje metodom slučajnog izbora je metod
uzorkovanja koji ima sledeća svojstva:
• Populacija se sastoji od N objekata.
• Uzorak se sastoji od n objekata.
• Svi mogući uzorci od n objekata su jednako verovatni.
Glavna prednost prostog uzorkovanja na slučajan način je da
garantuje da je izabran uzorak reprezentativan za populaciju. To
obezbeđuje validnost statističkog zaključivanja.
25
UZORKOVANJE METODOM SLUČAJNOG
IZBORA - NEDOSTACI
• Princip slučajnog uzorka može biti ranjiv na greške uzorkovanja,
jer slučajnost selekcije može dovesti do toga da neki uzorak ne
odražava sastav populacije.
• Na primer, jednostavan slučajni uzorak od deset lјudi iz neke
zemlјe će u proseku imati pet muškaraca i pet žena, ali je
verovatno da dosta pojedinačnih uzoraka imaju veći/manji broj
muškaraca/žena od 5. U cilju prevazilaženja ovog problema
koriste se sistematsko uzorkovanje i stratifikacija.
• Princip slučajnog uzorka takođe može biti glomazan i naporan
kada se radi uzorkovanje od neobično velike populacije.
• U nekim slučajevima, istraživači su zainteresovani za
istraživačkih pitanja specifična za podgrupe populacije.
26
SISTEMATIČNO UZORKOVANJE
27
UZORKOVANJE STRATIFIKACIJOM
• Kada stanovništva obuhvata različite kategorije, one
se mogu organizovati po tim kategorijama u odvojene
"slojeve".
• Svaki sloj je tada odabran kao samostalna sub-
populacija, od kojih pojedini elementi mogu biti
nasumično odabrani. Postoji nekoliko potencijalnih
prednosti slojevitog uzorkovanja.
Uzorkovanje proporcionalno veličini
• Uzorkovanje čija je verovatnoća proporcionalna
veličini se izvodi tako da je verovatnoća izbora svakog
elementa proporcionalna njegovoj veličini.
28
KLASTER UZORKOVANJE
Ponekad je po ceni efektivnije grupisati elemente u groupe
(’klastere') po geografskom principu ili periodu vremena.
(Skoro svi uzorci su u nekom smislu ’klasterisani' u vremenu –
mada se to retko uzima u obzir u toku analize)
Populacija
Grad
Nivo klastera
Zgrada 1 Zgrada 2
Elementarni nivo
29
DESKRIPTIVNA
STATISTIKA
Pojam deskriptivne statistike
31
MERA CENTRALNE
TENDENCIJE
Fundamentalni zadatak u velikom broju statističkih analiza je
određivanje lokacije i varijabilnosti skupa podataka.
SREDNJA VREDNOST
•Glavna deskriptivna (opisna) kvantitativna vrednost izvedena iz
podataka uzorka je sredina, koja predstavlja aritmetički prosek
podataka uzorka. Ona se koristi kao najpouzdanija pojedinačna
mera vrednosti tipičnog člana uzorka.
𝑿
• Sredina populacije, 𝝁 =
𝑵
𝒙
• Sredina uzorka 𝑿= =
𝒏
gde
o ΣX je suma svih obeležja populacije.
o N je broj obeležja populacije.
o Σx je suma obeležja uzorka i n je broj obeležja u
uzorku.
Kada statističari govore o sredini populacije koriste grčko
slovo μ . Kada govore o sredini uzorka koriste oznaku 𝑋 .
MEDIJANA
2
gde je Σ variansa populacije, μ je srednja vrednost populacije, X i je
i-ti element populacije i N je broj elemenata populacije.
•Varijansa uzorka se definiše nešto drugačijom formulom:
s2 = Σ ( xi - 𝒙 )2 / ( n - 1 )
k
E ( X ) 2 2 ( xi ) 2 p ( xi )
i 1
k
x p ( xi )
2 2
i
2
i 1
KONTINUALNE PROMENLJIVE
• Ovde graf prikazuje
kumulativni graf kontinualne
promenljive na X osi
Odredjivanje mediane:
• Posmatra se linija koja ide od
Y ose za 50%. Ta linija seče
krivu nad X osom (vrednost
zbira testa) za vrednost 73. To
znači da je polovina studenata
dobila rezultat testa do 73
poena i polovina najmanje 73
poena.
• Prema tome, mediana je 73.
DESCRIPTIVNE STATISTIČKE ANALIZE
•Descriptivne statističke analize predstavljaju skup metoda koji se
koriste za prikaz i opis osnovnih karakteristika statističkog skupa.
20
15
Number of students
10
0
0 2 4 6 8 10 12
Number of exams
Bar dijagram
Broj studenata (fi)
25
20
15
10
0
0-2 3-5 6-8 9-11
U Excelu
Broj ispita Broj studenata Number of exam Number of students
1 10
4 20 Mean 5,5 Mean 14,25
7 15 Standard Error 1,936491673 Standard Error 2,174664725
10 12 Median 5,5 Median 13,5
Mode #N/A Mode #N/A
Standard Deviation
3,872983346 Standard Deviation 4,34932945
Sample Variance 15 Sample Variance 18,91666667
Kurtosis -1,2 Kurtosis -0,036561936
Skewness 0 Skewness 0,829536957
Range 9 Range 10
Minimum 1 Minimum 10
Maximum 10 Maximum 20
Sum 22 Sum 57
Count 4 Count 4
59
PRIMER5
Maj 40 June
July
Jun 95 August
September
Jul 75 October
Avgust 78 November
December
Septembar 41
Octobar 45
Novembar 34
Decembar 18
LINIJSKI DIJAGRAM
90
80
70
60
50
30
20
10
0
POLARNI DIJAGRAM (TIP LINIJSKOG
DIJAGRAMA)
January
100
December 90 February
80
70
60
November 50 March
40
30
20
10
October 0 April Series1
September May
August June
July
„PITA“ GRAF
PRIMER: SREDNJA VREDNOST (EXCEL)
Broj turista
Mesec (u hiljadama) • Srednja vrednost= (∑xi)/n
Januar 20
Februar 18 =520/12= 43.3
Mart 21
April 35 Srednja vrednost =
Maj 40
Jun 95 Average(b2:b12)=43.3
Jul 75
Avgust 78 Minimum=min(b2:b12)=18
Septembar 41
Oktobar 45 Maximum=max(b2:b12)=92
Novembar 34
Decembar 18 Range=Maximum-minimum
Sum 520
The mean 43,33333333 =77
The mean 43,33333333
Histogram in Excel:
65
Output
66
PRIMER: MEDIANA
Number of tourists
Months (in thousands)
December 18 Sortira vrednosti
February 18 prema veličini
January 20
March 21
November 34 Mediana=
April 35
May 40 (f6+f7)/2=(35*40)/2
September 41 =37.5
October 45
July 75
August 78
June 95
VARIANSA I STANDARDNA DEVIJACIJA
Broj turista Variance=
(Xi-Xaverage)**2
Mesec (u hiljadama) Sum(Xi-Xsr)**2/(n-1)
Januar 20 544,4444444
Februar 18 641,7777778
Or
Mart 21 498,7777778 Excel function
April 35 69,44444444 Var(x1:x12)=
Maj 40 11,11111111
670.606
Jun 95 2669,444444
Jul 75 1002,777778 StDev=SQRT(Varian
Avgust 78 1201,777778 ce)
Septembar 41 5,444444444 or
Oktobar 45 2,777777778
Novembar 34 87,11111111
Excel function:
Decembar 18 641,7777778 STDEV(x1:x12)=
Sum 520 7376,666667 25.89606265
The mean 43,33333333
The mean 43,33333333
Variance 670,6060606
StDev 25,89606265
EXCEL REZULTATI ZA PRIMER 5:
DATA ANALYSIS. DESCRIPTIVE STATISTIC
Number of tourists Number of tourists (in thousands)
Months (in thousands)
Mean 43.33333333
January 20
Standard Error 7.47554937
February 18 Median 37.5
March 21 Mode 18
April 35 Standard Deviation 25.89606265
May 40 Sample Variance 670.6060606
June 95 Kurtosis -0.193982443
July 75 Skewness 0.964520362
August 78 Range 77
September 41 Minimum 18
October 45 Maximum 95
Sum 520
November 34
Count 12
December 18
Confidence Level(95,0%) 16.45357323
SKEWNESS AND KURTOSIS (IN EXCEL)
= 7.4755493700355
Raspodele verovatnoće
Raspodele
verovatnoće
Binomna Normalna
Poisson-ova Uniformna
Hipergeometrijska Eksponencijalna
71
DISKRETNE SLUČAJNE PROMENLJIVE
Slučajne promenljive (promenljiva koja poprima numeričke vrednosti
određene ishodima slučajnog eksperimenta)
Teme:
• Očekivana vrednost diskretne slučajne promenljive
• Varijansa
• Binomna distribucija
• Poasonova distribucija
• Kovarijansa i korelacija
NORMALNA RASPODELA
Normalna gustina raspodele verovatnoće:
1 1 x 2
f ( x)
( )
e 2
2
Normalna raspodela je
potpuno određena sa:
Način zadavanja: μ -srednja vrednost
σ -standardna devijacija
N(μ, σ2)
OSOBINE NORMALNE RASPODELE
• zvonastog” oblika
• simetrična
• unimodalna
• asimptotska
93 77 16
z 2
8 8
Osoba koja unosi 93 g/dan ima vrednost koja je za 2 Sd veća od
prosečnog unosa proteina
= 0 standardizovana
normalna kriva
=1 ≠0
≠ 1
x 6,2 5
z 0,6
2
x 6,2 5
z 0,6
2
Normalna raspodela
Standardizovana
normalna raspodela
σ=2 σz = 1
6,2 x 0,6 z
μ=5 μz = 0
PRIMER
x 2,5 5 x 7,5 5
z 1,25 z 1,25
2 2
Standardizovana
Normalna raspodela
normalna raspodela
σ=2 σz = 1
Verovatnoća je P c X d ?
površina ispod krive!
f(x)
c d x
VEROVATNOĆA KAO
POVRŠINA ISPOD KRIVE
Ukupna površina ispod krive je 1,0
Raspodela je simetrična
0,5 0,5
μ x
P( x ) 1,0
TABELA STANDARDIZOVANE NORMALNE RASPODELE
primer:
P(z < 2,00) = 0,9772 0.9772
0 2,00 z
TABELA STANDARDNE NORMALNE
RASPODELE
U kolonama su vrednosti z na
drugom decimalnom mestu
2.0
P(z < 2,00) = 0,9772
VAŽNE POVRŠINE ISPOD KRIVE
f(x)
σ σ
x
μ-1σ μ μ+1σ
68,26%
VAŽNE POVRŠINE ISPOD KRIVE
2σ 2σ 3σ 3σ
x x
μ-2σ μ μ+2σ μ-3σ μ μ+3σ
95.44% 99.73%
DISTRIBUCIJE UZORAKA
Za odnos standardne devijacije osnovnog skupa i standardne
devijacije distribucije uzoraka važi izraz:
x
n
Navedena relacija o odnosu standardne devijacije distribucije
uzoraka i standardne devijacije osnovnog skupa važi za
beskonačne osnovne skupove i za konačne skupove s
ponavljanjem.
Izraz za standardnu grešku procene aritmetičke sredine za
konačne skupove je:
N n
x
n N 1
TEORIJA MALIH UZORAKA
n
ix x 2
S2 i 1
n 1
PROCENA PARAMETARA OSNOVNOG SKUPA
Procenjena vrednost standardne greške je
x
Sx S n t
Sx
• Standardizovana vrednost t ima oblik tzv. Studentove ili T-
distribucije sa (n-1) stepena slobode.
Za velike uzorke sampling distribucija se može aproksimirati
normalnom distribucijom
P( x z1 2 S x x z1 2 S x ) (1 )
Primer:
Ako naprimer bacamo kocku 1000 puta i ako se 6 pojavi 185 puta ,
parametarska hipoteza bi bila da je
1
p
6
neparametarska hipoteza bi bila da se verovatnoće pojave određenog broja
raspoređuju po binomnoj raspodeli
1
p , n 1000, k 185,
6
n
Pn ,k , p p k 1 p
nk
k
PARAMETARSKE I NEPARAMETARSKE
HIPOTEZE
Primer parametarske hipoteze:
• H0: očekivana vrednost visine deset godina starih dečaka u srpskoj
populaciji nije drugačija od očekivane vrednosti visine deset godina
starih devojčica.
• H1: postoji razlika u očekivanoj vrednosti visine deset godina starih
dečaka i devojčica u srpskoj populaciji.
Primer neparametarske hipoteze:
• H0: Visina deset godina starih dečaka je normalno distribuirana u
srpskoj populacijii.
• H1:Visina deset godina starih dečaka nije normalno distribuirana u
srpskoj populacijii.
ISHOD TESTIRANJA HIPOTEZA
Ho, polazna-nulta i H1, suprotna- alternativna.
• Hipoteza može da bude pogrešna i tačna.
• Zato se postavljene hipoteze podvrgavaju se statističkom proveravanju , testiranju,
verifikaciji, pomoću koga se donose odluke, da li sa određenom verovatnoćom,
hipoteze se prihvataju ili odbacuju.
• Savremenu teoriju verifikacije dali su Nejman i Pirson (1928,1933 )
Ishod testiranja hipoteza može biti:
1. "Odbaci H0 u korist H1(kao posledicu eksperimenta na uzorku i prihvatamo
H1) ili
2. „ Ne odbaci H0“ (jer nema dokaza protiv nje).
Primer:
• Ako je proizvodjač lansirao na tržište nov proizvod, on mora da dokaže da je
njegov proizvod bolji od postojećih.
• Polazna hipoteza Ho je da je novi proizvod najbolji, i da bi dokazao tu hipotezu, on
mora da obori suprotnu, alternativnu H1, da su stari proizvodi bolji od novog.
POSTUPAK TESTIRANJA HIPOTEZA
• Postupak testiranja hipoteza o vrednosti nekog parametra
osnovnog skupa sprovodi se prema precizno definisanoj
proceduri. Koraci u tom postupku su:
1. formulacija statističke hipoteze;
2. izbor statistike testa i određivanje njenog oblika
distribucije;
3. određivanje nivoa značajnosti testa;
4. definisanje pravila na osnovu kog se odlučuje o
prihvaćanju ili odbacivanju hipoteze;
5. izbor slučajnog uzorka određene veličine i izračunavanje
statistike testa;
6. donošenje odluke o prihvaćanju ili odbacivanju
hipoteze.
POSTUPAK TESTIRANJA HIPOTEZA
• Nulta i alternativna hipoteza predstavljaju dve precizne,
međusobno isključive tvrdnje o vrednosti nekog parametra
osnovnog skupa.
dvosmerni test H 0 : 0 H1 : 0
,
0
2
x
Z ~ N (0,1)
(1 - α )
α/2 α/2
-z 0 +z
Područje odbacivanja Područje prihvaćanja Područje odbacivanja
TESTIRANJE HIPOTEZA
Jednosmerni test na donju granicu Jednosmerni test na gornju granicu
Z ~ N (0 , 1) Z ~ N (0 , 1)
1-α
1-α
α α
-z 0
0 z
Područje odbacivanja Područje prihvaćanja Područje prihvaćanja Područje odbacivanja
TESTIRANJE HIPOTEZA
• Sledeći korak kod testiranja hipoteze je izbor slučajnog
uzorka odgovarajuće veličine.
• Za uzorak se vrše potrebni obračuni i izračunava
vrednost statistike testa.
• Koristeći uzorak, izračunava se standardna greška, broj
stepeni slobode, test statistika, i P-vrednost povezana sa
test statistikom.
• Donošenje odluke :
• Ako je statistika testa iz područja prihvaćanja nulte
hipoteze, nulta hipoteza se prihvata kao moguća, a
alternativna hipoteza se odbacuje.
• U protivnom, kada je vrednost statistike testa iz područja
odbacivanja hipoteze, prihvatiće se alternativna hipoteza.
P-VREDNOST
• Pretpostavimo da sprovedemo eksperiment u kojem su izmerene
srednje vrednosti u dva uzorka koje su različite. Kako se može biti
siguran o pretpostavljenoj srednjoj vrednosti populacije?
• Postoje dve mogućnosti:
• Populacija ima različitu srednju vrednost.
• Populacije ima isti srednju vrijednost, a dobijena razlika je poslediva
slučajnog uzorkovanja.
• P vrednost je verovatnoća u rasponu od nula do 1
• U praksi se dobijena P-vrednost iz uzorka poredi sa stvarnim
nivoom značajnosti našeg testa (0,05, 0,01…) i, ako je manja,
dobijena razlika je značajna. (ako je naša p-vrednost "p <0.05“ to
znači da će nulta hipoteza biti odbijena na nivou značajnosti od
5%).
• Praktično: upoređuje se P-vrednost na nivou značajnosti, i odbacuje
nultu hipotezu kada je P-vrednost manja u odnosu na nivo
značajnosti.
TESTIRANJE HIPOTEZA O ARITMETIČKOJ
SREDINI OSNOVNOG SKUPA
• Testiranje hipoteze o pretpostavljenoj vrednosti aritmetičke sredine
osnovnog skupa sprovodi se na osnovu slučajnog uzorka veličine n
jedinica.
• Statistika testa je aritmetička sredina uzoraka koja predstavlja slučajnu
varijablu.
• Varijabla aritmetičkih sredina uzoraka, odnosno njena
standardizovana vrednost, može imati oblik normalne distribucije ili
T-distribucije.
• U zavisnosti od oblika distribucije, testiranje hipoteza o aritmetičkoj
sredini osnovnog skupa sprovodi se pomoću z-testa ili t-testa.
Postupak testiranja hipoteze počinje postavljanjem nulte i alternativne
hipoteze.
TESTIRANJE HIPOTEZA O ARITMETIČKOJ
SREDINI OSNOVNOG SKUPA
Postavka hipoteze za dvosmerni test
H 0 : 0 H1 : 0
H 0 : 0 H1 : 0
H 0 : 0 H1 : 0
TESTIRANJE HIPOTEZA O ARITMETIČKOJ
SREDINI OSNOVNOG SKUPA
• Test statistika je varijabla aritmetičkih sredina uzoraka koja ima
normalnu distribuciju~ 𝑵(𝝁𝟎, 𝝈𝑿 𝟐 ), ili standardizovana varijabla
sredina uzoraka, 𝑋
𝑿−𝝁𝟎
koja ima jedinični normalni oblik distribucije, 𝒁 =
𝝈𝑿
Z ~ N(0.1).
Pravilo odlučivanja o prihvaćanju ili odbacivanju nulte hipoteze se
postavlja u zavisnosti od oblika hipoteze i nivoa značajnosti testa 𝛼 .
TESTIRANJE HIPOTEZA O ARITMETIČKOJ
SREDINI OSNOVNOG SKUPA
BITNO:
Treba odrediti kritičnu vrednost k.
(Kako odrediti k? Gde povući granicu između slučajnih i značajnih odstupanja??)
TESTIRANJE CENTRALNE TENDENCIJE-
DVOSTRANI TEST
H 0 : 0 H1 : 0
P X k
Ukoliko je k , k dobijamo oblast prihvatanja nulte hipoteze, interval
H0
2 1 2
kriticna k k kriticna oblast
oblast oblast prihva tan ja H o oblast odbacivanja H o
TESTIRANJE CENTRALNE
TENDENCIJE- JEDNOSTRANI TEST
Jednostrani i test:
P X k
1
k kriticna oblast
oblast prihva tan ja Ho oblast odbacivanja H o
P X k
1
k
kriticna oblast
oblast prihva tan ja H o
oblast odbacivanja H o
GREŠKE TESTIRANJA HIPOTEZA
Odluka
Odbaciti H0 Ne odbaciti H0
k X 0 k 0
P 0
Oblast prihvatanja n n n
[-z, z] P z Z z
a oblast odbacivanja ,
, z z,
PRAG ZNAČAJNOSTI-
DVOSTRANI TEST
H0
2 1 2
kriticna z z kriticna oblast za H 0
oblast oblast odbacivanja
PRAG ZNAČAJNOSTI-
JEDNOSTRANI TEST
X 0
Z
1
n
z kriticna oblast za H 0
oblast neprihva tan ja
PZ z
z
kriticna oblast za H 0
oblast neprihva ta anja
PZ z
PRIMER:
Oblast prihvatanja:
H0 0, 05
0,95 0,316
z 1, 64 kriticna oblast za H 0
3,16 𝑃 𝑍 <𝑧 =1−𝛼
z=z0.95=1,64
𝑋 − 𝜇 24,3 − 24
𝜎 = 3
= 0,316
𝑛 10
0,316<1,64
Zaključak: Ne odbacujemo H0
PRIMER
Iz populacije sa obeležjem X za koje se zna da je odstupanje 300, ne zna se
raspodela, uzet je uzorak oblika 99856 i na osnovu njega je dobijena srednja
vrednost 24,3. Sa nivoom značajnosti od 5% testirati hipotezu
H0(μ=24)
prema alternativnim hipotezama
1. H1(μ>24)
2. H1(μ<24)
3. H1(μ≠24)
REŠENJE ZA 1: preko odredjivanja oblasti prihvatanja
H 0 24 H1 24
X : N ,300 , X 24,3 𝑋 − 𝜇0
𝑍= 𝜎
9; n 99856; 0, 05
𝑛
H 0 24 ; H1 24
Oblast prihvatanja:
𝑃 𝑍 <𝑧 =1−𝛼
z=z0.95=1,64
H0 0, 05
0,95 Kritična vrednost k:
𝑘 − 24
X 24,3 z 1, 64 kriticna oblast za H 0
= z0.95 = 1,64 ⇒ 𝑘 = 25,26
300
99856
Zaključak: Ne odbacujemo H0
Rešenje za 1- preko kritične vrednosti, Z:
H 0 24 H1 24
X 0 24,3 24
X : N ,300 , X 24,3 1,56
300
9; n 99856; 0, 05
n 99856
H 0 24 ; H1 24 z z0,95 1, 64
1,56 1, 64
H0 0, 05
0,95
Z 1,56 z 1, 64 kriticna oblast za H 0
Zaključak: Ne odbacujemo H0
Rešenje za 2:
H 0 24 H1 24
Zaključak: Ne odbacujemo H0
Rešenje za 3:
H 0 24 H1 24
X 0
X : N ,300 , X 24,3 Z
9; n 99856; 0, 05
n
H 0 24 ; H1 24
oblast prihva ta anja
P Z z 0,95
z z0,95 1,96
24,5 24
0,52 1,96;1,96
H0 300
2 1 2
99856
kriticna z z kriticna oblast za H 0
oblast oblast odbacivanja
hipotezu Ho ne odbacujemo.
TESTIRANJE HIPOTEZE H0(μ= μ0) AKO SLUČAJNA PROMENLJIVA
IMA NORMALNU RASPODELU, A DISPERZIJA JE NEPOZNATA
X : t n 1 t0,95 9 2, 26
s 0, 03, n 10, X 0,53
H 0 0,5 ; H1 0,53 H1 0,5
REŠENJE preko
odredjivanja kritične oblasti:
k=0,52,
prihvatljiv interval je
(-0,52<T<+0,52)
Zaključak:
Kako je 0,53 >0,52 odbacujemo nultu hipotezu.
REŠENJE preko
odredjivanja t- vrednosti:
Oblast prihvatanja hipoteze Ho
X k 0, 5
P k T k 1 P 0
1
s 0, 03
10
n
k 0, 5
P T 0, 95, t0,95 9 2, 26
0, 03
10
2, 26; 2, 26
0, 53 0, 5
∉ 2, 26; 2, 26
3,16
0, 03
10
Nultu hipotezu odbacujemo.
REŠENJE preko
odredjivanja t -vrednosti:
H 0 0,5 ; H1 0,5
X k 0, 5
P T k P 0
1
s 0, 03
n 10
t0,95 9 1,833
t 1,833
X 0
3,16
s
n
hipotezu odbacujemo.
PRIMER
• Prosečan broj grešaka u radu jedne mašine je 8. Posle intervencije na mašini moguće
je da dođe do povećanja broja grešaka.
• Zadatak: Utvrditi da li je došlo do povećanja broja grešaka.
REŠENJE:
Da bi se to utvrdilo izvršeno je 100 merenja i dobijeni su sledeći rezultati:
Broj 60 20 10 5 5
merenja
REŠENJE:
Hipoteza Ho se odbacuje
PRIMER:
148
REGRESIJA NA INTUITIVNOM NIVOU
• Ljudi koriste regresiju na intuitivnom nivou svaki dan:
• U poslu,dobro obučen čovek se smatra finansijski
uspešnijim.
• Majka zna da više šećera u hrani njenog deteta rezultira
većim nivoom energije.
• Lakoća buđenja ujutru zavisi od toga koliko kasno smo
sinoć legli da spavamo.
• Kvantitativna regresija dodaje preciznost razvojem
matematičke formule koja može biti korištena za
predviđanje.
149
PRIMER
• Istraživač u medicini može koristiti težinu
(nezavisna promenljiva) da predvidi najbolju dozu
za nov lek (zavisna promenljiva).
• Korisnost regresione analize je određivanje formule
koja najbolje odražava vezu između dve
promenljive.
• Onda se može koristiti tako dobijena formula da se
predvide vrednosti zavisne promenljive kada je
jedino nezavisna promenljiva poznata.
• Doktor može prepisati odgovarajuću dozu baziranu
na težini pacijenta.
150
REGRESIONA LINIJA
Regresiona linija (poznata kao linija najmanjih kvadrata) je
crtež očekivane vrednosti zavisne variable za sve vrednosti
nezavisne variable.
Tehnički, to je linija koja "minimizira kvadratna odstupanja".
Regresiona linija je ona koja najbolje uklapa (fituje) podatke
na „scaterplotu“.
151
LINEARNA REGRESIJA- MODEL
VEZE
• Linearna regresija pokušava da modelira vezu između dve variable
provlačenjem linearne jednačine kroz posmatranepodatke. Jedna
variabla se smatra nezavisnom, a druga zavisnom.
• Na primer, modelar može želeti da uspostavi vezu težina i visina učenika
koristeći linearni regresioni model. Pre pokušaja da „provuče“ linearnu
funkciju (model) kroz posmatrane podatke prvo mora utvrditi da li
uopšte postoji uzajamna povezanost posmatranih variabli.
152
VEZA IZMEĐU DVE VARIABLE
153
VEZA IZMEĐU DVE VARIABLE-PRIMER
„Scatterplot“
Visina Težina
175 70
190 87
189 95
179 80
172 69
186 84
168 65
177 75
180 80
LINEARNA REGRESIJA
• Koristeći regresionu jednačinu, zavisna variabla može biti predviđena preko
nezavisne variable.
• Nagib regresione linije (b) je definisan kao porast zavisne promenjive
podeljen sa porastom nezavisne promenljive x.
• (a) je tačka gde regresiona linija seče y osu.
• Nagib u odnosu na x osu i presek sa y osom su inkorporirani u regresionu
jednačinu.
• Presek sa y osom se obično naziva konstanta, a nagib koeficijent. Pošto
regresioni model obično nije perfektan prediktor, moramo odrediti i izraz za
grešku jednačine.
155
REGRESIONA JEDNAČINA
Regresiona analiza neke populacije je korisna za teorijska razmatranja, ali u praksi
postoji model za procenu koji se dobija iz raspoloživih podataka. Pretpostavimo da
imamo n parova pomatranja (x1, y1) (x2, y2), ... (xn, yn). Želimo odrediti pravu liniju
𝒀 = 𝒂 + 𝒃𝒙
koja će se najbolje uklopiti u date vrednosti.
Da bismo to uradili moramo odrediti koeficijente a i b tako da suma kvadrata razlika
stvarnih i procenjenih vrednosti bude minomalna:
𝑆𝑆𝐸 = 𝑒𝑖 2 = (𝑦𝑖 − 𝑦𝑖 )2
156
REGRESIONA JEDNAČINA
Regresiona jednačina je y = a + bx +ε
𝑵 𝑿𝒀 − ( 𝑿)( 𝒀)
y a bx
𝒃= 𝟐
(𝑵 𝑿𝟐 − ( 𝑿) )
𝑌−𝑏 𝑥
Intercept 𝑎=
𝑁
where xy N x y
x i y su variable.
b
x N x
b = nagib regresione linije
a = presek regresione linije i y ose. 2 2
N,N = broj elemenata
a y bx
157
ODSTUPANJA
158
KOEFICIJENT UKLAPANJA REGRESIONE
LINIJE
Totalne razlike
0<=r2<=1
159
PRIMERI ZA R2
160
PRIMER 1
Odrediti linearnu regresiju
X Y
60 3.1
61 3.6
62 3.8
63 4
65 4.1
Da bismo odredili regresionu jednačinu, moramo naći nagib, intercept i uvrstiti ih u regresionu
jednačinu..
161
𝑵 𝑿𝒀 − ( 𝑿)( 𝒀)
𝒃= 𝟐
(𝑵 𝑿𝟐 − ( 𝑿) )
REŠENJE
2
Korak 1: Izračunati broj podataka.Korak 3: Naći ΣX, ΣY, ΣXY, ΣX .
ΣX = 311
N=5 ΣY = 18.6
ΣXY = 1159.7 Intercept(a) = (ΣY - b(ΣX)) / N
Korak 2: Naći XY, X2 ΣX2 = 19359
Pogledaj tabelu Korak 4: Zameniti vrednosti u datu formulu za nagib.
Nagib(b) = (NΣXY - (ΣX)(ΣY)) / (NΣX2 - (ΣX)2)
= ((5)*(1159.7)-(311)*(18.6))/((5)*(19359)-(311)2)
X Value Y Value X*X X*Y = (5798.5 - 5784.6)/(96795 - 96721)
60 3,1 3600 186 = 13.9/74
61 3,6 3721 219,6 = 0.19
62 3,8 3844 235,6
63 4 3969 252
Korak 5: Sada zameniti vrednosti u formulu za
65 4,1 4225 266,5 intercept a.
311 18,6 19359 1159,7 Intercept(a) = (ΣY - b(ΣX)) / N
= (18.6 - 0.19(311))/5
= (18.6 - 59.09)/5
b=0,19 = -40.49/5
a=-8,098 = -8.098
Korak 6: Na kraju zameniti dobijene vrednosti u formulu regresione linije:
Y=-8,098+0,19X
Regression Equation (y) = a + bx = -8.098 + 0.19x.
162
163
164
165
HVALA NA PAŽNJI!