Professional Documents
Culture Documents
Predmet: STATISTIKA
1
4. TEORIJSKE RASPODELE
4.1. Binomni zakon raspodele
(Bernulijeva raspodela) Jakob Bernoulli (1654-1705)
U eksperimentu, koji se ponavlja n puta, posmatra se realizacija događaja A ili njemu suprotnog
događaja A .
P( A) = p ; P( A) = 1 − p = q
Tako se dobija složeni eksperiment koji se može prikazati tzv. Bernulijevom šemom. Nad ishodima
ovog složenog eksperimenta uvodi se slučajna promenljiva S n .
0 1 2 3 ... n n
Sn : ; ∑p i =1
p0 p1 p2 p3 ... pn i =0
a p ∈ (0,1) verovatća realizacije eksperimenta koji se ponavlja. Zbog toga se binomna raspodela
obeležava sa B ( n, p ) .
Matematičko očekivanje E ( Sn ) = np
Disperzija ( varijansa) σ 2 ( S n ) = np (1 − p )
Standardno odstupanje σ ( Sn ) = σ 2 ( Sn ) = np (1 − p )
1− 2 p
α 3 ( Sn ) =
np (1 − p )
Koeficijent simetrije
6 1
α 4 ( Sn ) = 3 − +
n np (1 − p )
Koeficijent spljoštenosti
Primer 4.1 1.
Kockica se baca 7 puta. Odrediti raspodelu slučajne promenljive a zatim izračunati verovatnoće
događaja :
a) B- Broj manji od 3 je pao tačno 4 puta.
b) C- Broj manji od 3 je pao bar 5 puta.
2
Događaj A čiju realizaciju u svakom od n = 7 bacanju kockice posmatramo je
A- pao je broj manji od 3
Verovatnoća da će prilikom jednog bacanja pasti broj manji od 3 iznosi:
P ( A) = p =
2 1
=
6 3
Verovatnoća da će prilikom jednog bacanja neće pasti broj manji od 3 iznosi:
()
P A = q = 1−
1 2 1
= . U pitanju je binomna raspodela B 7, .
3 3 3
0 1 2 3 4 5 6 7
S7 :
p0 p1 p2 p3 p4 p5 p6 p7
gde je
7− k 7 −k
7 1 2
k k
7! 1 2
pk = P {S7 = k } = P7 (k ) = p =
k 3 3 k !( 7 − k ) ! 3 3
7 1 2
4 3 4 3
7! 1 2 23
P( B) = p4 = = = 35 = 0,128029
4 3 3 4!3! 3 3 37
3
Binomna raspodela B(7;1/3)
0,3500000
0,3000000
0,2500000
0,2000000
0,1500000
0,1000000
0,0500000
0,0000000
0 1 2 3 4 5 6 7 8
Primer 4.1 2.
1
Za slučajnu promenljivu S7 iz primera 4.1 1. , kojoj odgovara binomna raspodela B 7, odrediti
3
matematičko očekivanje, disperziju ( varijansu), standardno odstupanje, koeficijent simetrije i
koeficijent spljoštenosti.
1
Matematičko očekivanje E ( S7 ) = 7 ⋅
3
7 2 14
Disperzija ( varijansa) σ 2 ( S7 ) = ⋅ =
3 3 9
14 14
σ ( S7 ) = =
Standardno odstupanje 9 3
2
1−
α 3 ( S7 ) = 3 = 1
Koeficijent simetrije
14 14
3
6 9 39
Koeficijent spljoštenosti α 4 ( S7 ) = 3 − + = = 2.79
7 14 14
∆
4
4.2. Puasonova raspodela
Ako se u binomnoj raspodeli uzme veliki broj ponavljana, izračunavanje je relativno komplikovano
pa ima potrebe aproksimirati izraze za izračunavanje verovatnoća. Aproksimacije se uvode u
slučajevima kada je n > 50 .
Najviše su u upotrebi dve vrste aproksimacija. Jedna je Puasonova (Poisson) a druga je Normalna
aproksimacija .
Puasonova se uzima kada je np ≤ 10 .
n λk
pk = p k q n − k e −λ
Puasonova aproksimacija
k k!
Primer 4.2 1.
Verovatnoća da će košarkaš promašiti koš prilikom izvođenja slobodnog bacanja je je
p = 0,05 .Gađanje se izvodi 100 puta.
Izračunati verovatnoće događaja :
a) A- Koš je promašen tačno 6 puta
b) B- Koš je promašen manje od 10 puta
n = 100 ; p = 0,05 ; np = 5
Ovde se može primeniti Puasonova aproksimacija jer je ( np ≤ 10 ).
λ = np = 100 ⋅ 0.05 = 5 ;
100 56
a) k=6 ; P ( A ) = p6 = P ( S100 = 6 ) = 0.05 ⋅ 0.95
6 94
e −5 = 0,146222808
6 6!
Postoje tablice sa izračunatim vrednostima za različite vrednosti λ i k .
U EXCELU postoji funkcija POISSON pomoću koje je izračunata tražena verovatnoća.
Puasonova raspodela se primenjuje na veliki broj praktičnih problema koji vezani za pojavu
određenog događaja u vremenskom intervalu [ 0,t ) . Takvi su na primer događaji: registrovanje broja
telefonskih poziva, protok automobila ,emisija radioaktivnih čestica ...Ovakvi događaji imaju osobinu
da su nezavisni jedan od drugog i da su im verovatnoće proporcionalne dužini vremenskog intervala.
5
Primer 4.2 2.
U telefonskoj centrali u toku jednog sata bilo je 360 poziva. Na osnovu Poasonovog zakona
izračunati verovatnoću :
a) A- da u toku jednog minuta neće biti poziva
b) B- da će u toku jednog minuta biti 3 poziva
c) C- da će u toku jednog minuta biti 10 poziva.
d) D- da će u toku jednog minuta biti manje od 10 poziva.
n = 360
Vremenski interval od jednog sata se deli na 60 jer se računa realizacija događaja u toku jednog
1
minuta. p=
60
1
λ = np = 360 ⋅ =6
60
60
a) P ( A ) = po = P ( S360 = 0 ) e −6 = 0,002478752
0!
63
b) P ( B ) = p3 = P ( S360 = 3) e −6 = 0,089235078
3!
610
c) P ( C ) = p10 = P ( S360 = 10 ) e −6 = 0,041303093
10!
d) P ( D ) = p0 + p1 + L + p9 = P ( S360 < 10 ) = 0,916075983 ∆
6
4.3. Normalna raspodela
Muavr (A.Moivrei ) i Laplas (P.S. Laplace) su aproksimirali binomnu raspodelu sledećom
formulom:
( k −np )2
n 1 −
pk = p k q n −k e 2 npq
k 2π npq
Normalna aproksimacija binomne raspodele se uzima kada je np > 10 .
−
( x−µ )2
1
f ( x) = e 2σ 2
σ 2π
gde je µ = np - matematičko očekivanje a σ 2 = npq - disperzija.
Grafici gustina raspodele su sličnog zvonastog oblika , simetrični u odnosu na pravu x = µ . To znači
da je medijana M e = µ .
Promena parametra µ dovodi do translacije krive duž x-ose. Parametar σ utiče na raširenost
1
krive, odnosno, ako je σ veće vrh krive je manji jer je tačka maksimuma µ , .
σ 2π
µ = Me = Mo
7
b
−
( x − µ )2
1
Verovatnoća P ( a < X < b ) = ∫e 2σ 2
dx
σ 2π a
se može se interpretirati kao površina ograničena x-osom , krivom gustine raspodele i pravim x = a i
x=b,
P (a < X < b)
a b
( )
Verovatnoća da slučajna promenljiva X = N µ , σ 2 uzme vrednosti iz intervala
- ( −σ , σ ) iznosi 68.3%
8
σ
Pravilo tri σ
2σ 3σ
68.3%
95.5%
99.7%
( )
Postoje tablice koje se odnose na N µ , σ 2 za vrednosti N ( 0,1) .
promenljivom.
(
Ako je X = N µ , σ
2
) ona se može standardizovati. To se postiže uvođenjem smene
X −µ
Z= .
σ
b
−
( x − µ )2
1
P (a < X < b) = ∫e 2σ 2
dx =
σ 2π a
z2
.
a−µ X −µ b−µ
z2
1 −
= P < < = ∫e 2
dz = F ( z 2 ) − F ( z1 )
σ σ3 {σ 2π
{ 12 z1
1
z Z z2
Funkcija koja se javlja posle izračunavanja integrala, F ( z ) je Laplasova funkcija čije vrednosti se
9
U EXCELU postoje funkcije NORMSDIST i NORMDIST koje daju vrednosti integrala
x
∫ f ( z )dz = F ( x ) .
−∞
Primer 4.3. 1.
µ = 20 - matematičko očekivanje
X − 20
σ 2 = 22 - disperzija ;σ = 2 ; Z=
2
18 − 20 24 − 20
P (18 < X < 24 ) = P <Z< = P ( −1 < Z < 2 ) =
2 2
= F ( 2 ) − F ( −1) = 0.97725 − 0.15866 = 0.81859
b)
−3 X − 20 3
P ( X − 20 < 3) = P ( −3 < ( X − 20 ) < 3) = P < < =
2 2 2
X − 20
= P −1.5 < < 1.5 = F (1.5 ) − F ( −1.5 ) =
2
= 0.9333193 − 0.066807 = 0.8665123
X − 20 25 − 20
c) P ( X < 25) = P < = F ( 2.5) = 0.99379 ∆
2 2
10
Primer 4.3.2. (Pravilo tri σ )
(
Ako je slučajna promenljiva X podleže zakonu raspodele N 6,32 izračunati: )
(
a) P X − 6 < 3 ; ) (
b) P X − 6 < 6 ; ) (
c) P X − 6 < 9 )
µ = 6 - matematičko očekivanje
X −6
σ 2 = 32 - disperzija ;σ = 3 ; Z=
3
(
a) P X − 6 < 3 ; ) σ =3
−3 X − 6 3
P ( X − 6 < 3 ) = P ( −3 < ( X − 6 ) < 3 ) = P < < =
3 3 3
X −6
= P −1 < < 1 = F (1) − F ( −1) = 0.84134 − 0.15866 =
3
= 0.68268 ≈ 68.268 %
b) ; 2σ = 6
−6 X − 6 6
P ( X − 6 < 6 ) = P ( −6 < ( X − 6 ) < 6 ) = P < < =
3 3 3
X −6
= P −2 < < 2 = F ( 2 ) − F ( −2 ) = 0.97725 − 0.02275 = ;
3
= 0.95450 ≈ 95.5 %
c) 3σ = 9
−9 X − 6 9
P ( X − 6 < 9 ) = P ( −9 < ( X − 6 ) < 9 ) = P < < =
3 3 3
X −6
= P −3 < < 3 = F ( 3) − F ( −3) = 0.99865 − 0.00135 =
3
= 0.99730 ≈ 99.7 %
Primer 4.3. 3.
Ako slučajna promenljiva X aproksimira binomnu raspodelu B (100, 0.1) naći približno verovatnoću
P ( 7 < X < 16 ) .
(
Binomna raspodela se može aproksimirati normalnom raspodelom sa parametrima N 10,32 . )
11
7 − 10 16 − 10
P ( 7 < X < 16 ) = P <Z< = F ( 2 ) − F ( −1) =
3 3
= 0.97725 − 0,15866 = 0.81859
Primer 4.3.4.
Anketirana je grupa motorista o broju kilometara koji pređu mesečmo. Prosečni broj kilometara
iznosi 1200km sa srandardnom devijacijom 150km. Broj pređenih kilometara se može predstaviti
(
slučajnom promenljivom koja ima normalnu raspodelu N 1200,1502 ) . .
b)
Primer 4.3.5.
Ako je slučajna promenljiva X B ( 50, 0.2 ) naći verovatnoću događaja A da je P ( 5 ≤ X ≤ 15 ) .
0 1 2 . .. 49 50
S50 :
p0 p1 p2 . . . p49 p50
P( A) = p5 + p6 + L + p14 + p15 Pomoću funkcije BINOMDIST izračunava se:
5 6 7 8 9 10 11 12 13 14 15
0,0295310,0553710,087012 0,1169220,1364090,139819 0,1271080,1032750,07547 0,0498640,029919
12
b) Binomna raspodela se može aproksimirati Poasonovom raspodelom sa parametrom
λ = np = 50 ⋅ 0.2 = 10 ;
P ( A ) = p5 + p6 + L + p15 = P ( S50 = 5 ) + P ( S50 = 6 ) + ... + P ( S50 = 15 ) =
105 106 1015
= e −10 + e −10 + L + e −10 = 0,92201
5! 6! 15!
5 6 7 8 9 10 11 12 13 14 15
0,03783 0,063060,09008 0,112600,12511 0,125110,11374 0,094780,07291 0,052080,03472
0,16000
0,14000
0,12000
0,10000
0,08000
0,06000
0,04000
0,02000
0,00000
0 10 20 30 40 50
-0,02000
5 − 10 15 − 10 5 −5
P ( 5 ≤ X ≤ 15 ) = P <Z< =F −F =
8 8 8 8
= F (1.76776 ) − F ( −1.76776 ) = 0,96145-0,03855= 0,92290
13
Vežbanje 4. 4:
(
1. Ako je slučajna promenljiva X podleže zakonu raspodele N 20,10
2
) izračunati verovatnoću
P ( 5 < X < 28 ) .
2. Ako je slučajna promenljiva X B (100, 0.1) , koja aproksimira binomnu raspodelu normalnom,
( )
4. Ako je slučajna promenljiva X podleže zakonu raspodele N 20, 2 2 izračunati:
P ( X − 20 < 4 ) .
14
Rešenja 4.4
µ = 20 - matematičko očekivanje
σ = 10 - disperzija
X −µ
Z=
σ
5 − 20 28 − 20
P ( 5 < X < 28 ) = P <Z< = P ( −1.5 < Z < 0.8) =
10 10
= F ( 0.8 ) − F ( −1.5) − = 0,78814 − 0,06681 = 0.72133
2. Ako je slučajna promenljiva X B (100, 0.1) , koja aproksimira binomnu raspodelu normalnom,
P ( A ) = p4 + p5 + p6 = P ( S20 = 4 ) + P ( S 20 = 5 ) + P ( S20 = 6 ) =
64 65 66
e −6 + e −6 + e −6 = 0,133853 + 0,160623 + 0,160623 = 0, 455099
4! 5! 6!
15
3−6 7−6 1 −3
P (3 < X < 7) = P <Z< =F − F =
4.2 4.2 4.2 4.2
F ( 0.488 ) − F ( −1.464 ) = 0.68723 − 0.07160 = 0.61563
Napomena: U primeru je velika razlika u verovatnoćama koje su dobijene primenom navedenih
aproksimacija.
Primenom funkcije BINOMDIST dobila bi se vrednost 0.500923 koja je najtačnija.
4 5 6 zbir
0,133853 0,160623 0,160623 0,455099 POISSON
0,130421 0,178863 0,191639 0,500923 BINOMDIST
( )
4. Ako je slučajna promenljiva X podleže zakonu raspodele N 20, 2 2 izračunati:
P ( X − 20 < 4 )
−4 X − 20 4
P ( X − 20 < 4 ) = P ( −4 < ( X − 20 ) < 4 ) = P < < =
2 2 2
X − 20
= P −2 < < 2 = F ( 2 ) − F ( −2 ) =
2
= 0.97725 − 0.02275 = 0.95450 ≈ 95.5 %
16
II STATISTIKA
5. STATISTIČKI SKUP
5.1. Osnovni pojmovi
Statistika je deo matematike koji se bavi sistematizacijom, predstavljanjem i obradom podataka
koji karakterišu elemente pojedinih skupova a izražavaju se pomoću brojeva. Takvi podaci se nazivaju
statističkim podacima. Statistika razvija postupke na osnovu kojih se donose odgovarajući tačni
zaključci koji su od značaja u skoro svim naukama kako u teorijskom tako i u praktičnom smislu.
Statistički skup (populacija) je skup svih elemenata na kojima se neka pojava statistički
obrađuje.Populacija može biti konačna ili beskonačna ali će se ovde razmatratni samo konačne
Ω = {ω1 , ω2 ,L , ωn } .
Obeležje je osobina po kojoj se elementi statističkog skupa razlikuju i koja je u osnovi statističke
obrade.
Isti statistički skup može imati više obeležja. Obeležja mogu biti numerička i atributivna.
Numerička obeležja pomoću brojeva izražavaju kvantitativne razlike među elementima statističkog
skupa. Prema vrsti brojeva pomoću kojih se izražavaju razlikuju se neprekidna i prekidna obeležja.
Neprekidna obeležja se izražavaju realnim vrednostima unutar nekog intervala dok se prekidna
obeležja izražavaju celim brojevima jer se dobijaju prebrojavanjem.
Atributovna obeležja izražavaju kvalitativne razlike pomoću modaliteta.
Primer 5.1.1.
Statistički skup (populacija) je skup svih studenata Visoke ICT upisanih 2008. godine.
Za svakog studenta se mogu posmatrati razna obeležja.
-Jedno neprekidno numeričko obeležje je : visina studenta (teorijski bilo koji broj iz intervala
-Primer za prekidno numeričko obeležje: broj tačno urađenik zadataka na prijemnom ispitu ( ceo
broj od 0 do 10).
-Primer za atributivno obeležje je : pol studenta (koji se ižražava preko dva modaliteta ženski i
muški).
17
5.2. Prikazivanje podataka ; Raspodela obeležja
Najjednostavniji način prikazivanja podataka je njihovo nabrajanje.To je često nepregledno pa se
pribegava različitim postupcima njihove sistematizacije.
Statistika se bavi i grafičkom interpretacijom podataka. Taj deo se naziva deskriptivnom
statistikom. Podaci se, zbog jasnosti i preglednosti mogu predstaviti pomoću tabela, grafikona,
dijagrama i tako dalje.
Neka je Ω = {ω1 , ω2 ,L , ωn } populacija, X : Ω → R obeležje i x1 , x2 ,K , xm vrednosti koje
može uzeti obeležje. Označimo sa f ( xi ) broj elemenata populacije Ω na kojima obeležje X uzima
fi
DEF Relativna frekvencija je broj pojavljivanja nekog podatka podeljen brojem elemenata
n
skupa.
∇ Anketirano je 30 studenata. Jedno pitanje se odnosilo na broj položenih ispita u toku jedne
1 , 2,
{ 14 2,24
2, 2,32, 3,3,3,3,3,3,3,
14442444 3,3,3,
3 4, 4,4
14 4, 4, 4,34,5,
4,244 14 5,5,5,5,5,
243 { 6
1 5 10 7 6 1
Na primer, f3 = 10 a f5 = 6 .
Da bi se pratile pozicije elemenata poređanih po veličini u okviru skupa, može se dati i kumulativna
frekvencija.
Kumulativna frekvencija nekog elementa se dobija sabiranjem frekvencija svih elemenata koji mu
prethode. Na primer: 3 i manje položenih ispita ima 16 sudenata a 4 i manje ima 23 studenta.
Kolika je zastupljenost pojedinih elemenata unutar posmatranog skupa podataka pokazuje relativna
fi 5
frekvencija . Ona može biti iskazana i procentualno.Na primer : 2 položena ispita ima = 16, 67%
n 30
studenata.
18
Navedene veličine se pregledno mogu prikazati pomoću tabele.
5
2 5 6 = 16, 67%
30
10
3 10 16 = 33,33%
30
7
4 7 23 = 23, 33%
30
6
5 6 29 = 20%
30
1
6 1 30 = 3,33%
30
6
n = ∑ fi =30
i =1
Osnovni podaci (iz osenčenog dela tabele) mogu se predstaviti pomoću histograma. Histogram se
sastoji od niza pravougaonika kojima je jedna dimenzija vrednost klase (1,2,3,4,5,6) a druga,
odgovarajuće vrednosti frekvencija.
f
12
10
8
6
1 2 3 4 5 6
19
Zastupljenost pojedinih elemenata se može predstaviti pomoću poligona frekvencije . Poligon
frekvencije se dobija spajanjem tačaka (i, f i ) . U navedenom primeru spajanjem tačaka:
12
10
frekvencija
6
4
2
0
1 2 3 4 5 6
vrednost
f
12
10
8
6
1 2 3 4 5 6
12
10
frekvencija
8
6
4
2
0
1 2 3 4 5 6
vre d n o s t
20
Frekvencija i relativna frekvencija
3; 10
10
8 4; 7
5; 6
6 2; 5
2 1; 1 6; 1
0
1 2 3 4 5 6
Brojni podaci iz navedene tabele mogu se predstavljati i na druge načine pomoću različitih oblika
dijagrama. Najčešće se koriste dijagrami u obliku stubova (bar chart) ili krugova- pita ( pie chart).
Možda bi za ove druge, umesto pite, bolja asocijacija u duhu našeg jezika, bio burek ili torta. Za oba
tipa postoje dvodimenzione i trodimenzione varijante.
6; 1; 3% 1; 1; 3%
5; 6; 20% 2; 5; 17%
4; 7; 23%
3; 10; 34%
6, 1, 3%
1, 1, 3%
5, 6, 20% 2, 5, 17%
21
U prethodnom primeru je na različite načine prikazana raspodela za jedno prekidno numeričko
obeležje.
Kod neprekidnih obeležja vrednosti se grupišu u intervale i tako se dobijaju intervalne serije
distribucije frekvencije. Intervali odgovaraju klasama u koje je podeljen statistički skup kod prekidnih
obeležja.
Intervali se koriste i kada je preveliki broj klasa kod prekidnih obeležja.
Intervali imaju donju i gornju granicu. Radi lakšeg predstavljanja i matematičke obrade intervalnih
dgi + ggi
serija uvodi se razredna sredina. Ona je aritmetička sredina krajeva intrvala ( dgi -donja
2
granica intervala ; ggi -donja granica intervala ) Geometrijski, to je srednja tačka nekog intervala.
Određivanje broja intervala ( k ) i širine intervala ( i ) nije sasvim proizvoljno . U statističkoj
literaturi često se koristi Stuges-ova formula:
xmax − xmin
k = 1 + 3,3log n ; i=
k
Ponekada, se vrednost kojom počinje donja granica prvog grupnog intervala ( x0 ) dobija po formuli :
i
x0 = xmin −
2
*Napomena:
Broj intervala treba da bude, zbog preglednosti , između 5 i 12.
Često je i sam skup snabdeven nekom unutrašnjom, logičnom, podelom na disjunktne klase, pa se
toga treba pridržavati.
30 0 2 10 48 14 14 54 6 28
30 40 18 30 44 38 10 4 10 34
14 6 48 0 0 8 26 60 54 52
22
xmax − xmin 60 − 0
Određivanje širine intervala ( i ). ; i= = = 10
k 6
Vrednost kojom počinje donja granica prvog grupnog intervala ( x0 ) dobija se :
i 10
x0 = xmin − = 0 − = −5 . Zbog prirode podataka, koji ne mogu biti negativni, u ovom slučaju će
2 2
ona biti 0.
fi
Broj bodova xi Broj studenata fi Relativna frekvencija
n
11
0-10 11 = 36, 67%
30
4
11-20 4 = 13,33%
30
5
21-30 5 = 16, 67%
30
3
31-40 3 = 10%
30
3
41-50 3 = 10%
30
4
51-60 4 = 13, 33%
30
∗
Ako se prethodna napomena uzme u obzir, i bez ikakve (komplikovane) računice, došlo bi se do
Prijemni ispit
Broj studenata
15
10
Broj studenata
5
0
0-10 11- 21- 31- 41- 51-
20 30 40 50 60
Osvojeni bodovi
Histogram bi izgledao slično, samo bi pravougaonici bili spojeni. Imali bi širinu 10 a visina bi im bila
ista.
23
c) Poligon frekvencije
Prijemni ispit
Broj studenata
12
10
8
6 Broj studenata
4
2
0
0-10 11- 21- 31- 41- 51-
20 30 40 50 60
Osvojeni bodovi
Oznake na x- osi su mogle biti 5,15,25, 35, 45, 55 odnosno, umesto intervala mogle su biti navedene
razredne sredine (srednje vrednosti intervala).
24
5.3. Prikaz rezultata ”Stablo-list” metodom
Prilikom sređivanja podataka i njihove klasifikacije u odr eđene klase neka da je korisno poslužiti se
metodom ”Stablo-list”( ”Stea m-and-Leaf”).
Prikazaćemo ovu metodu na primeru dvoocifrenih podataka
Prikaz podataka ovom metodom se izvodi na sledeći način:
- Formira se tabela sa dve kolone i sa onoliko vrsta koliko ima klasa u koje će biti raspoređeni podaci.
- U prvoj koloni su prve cifre brojnih podataka ( 0-9 )
- U drugoj koloni su druge cifre brojnih podataka ( 0-9 ) navedene onoliko puta u koliko podataka su
zastupljene. Ukupan broj „listova je jednak broju podataka koji se predstavljaju.
Primer 5.3.1.
Anketirano je 40 potrošača. Pitanje se odnosilo na broj artikala koji su kupili u toku jedne nedelje.
Dobijeni su sledeći podaci:
23 20 32 10 41 14 14 54 61 28
30 40 18 30 44 68 10 42 10 34
12 43 70 24 56 33 72 54 71 79
14 26 48 20 30 28 26 60 54 52
Stablo List
1 04480024
2 308460862
3 200430
4 104238
5 4644
6 180
7 0219
Iz ovog prikaza se vidi da se podaci mogu podeliti u seda m klasa. 10,19] ; 20, 29] ;K 70, 79] .
Na taj način se daju detaljnije infor macije o podacima unutar svake klase.
1 04480024
25
6 180
Na sličan način se mogu prikazati i brojni podaci drogačijeg tipa. Listovi mogu biti dvocifr eni brojevi.
Na primer :
1,2 01 15 32 10
5.4 Vežbanje:
1.Anketirano je 40 potrošača. Pitanje se odnosilo na broj artikala koji su kupili u toku jedne
nedelje. Dobijeni su sledeći podaci:
23 20 2 10 41 14 14 54 6 28
30 40 18 30 44 68 10 4 10 34
12 43 7 24 56 33 7 54 71 79
14 6 48 0 0 8 26 60 54 52
Stablo List
1 204480024
2 308460862
3 200430
4 104238
5 5604644
6 180
26
ANALIZA PODATAKA
Da bi se izvršila analiza statističkog skupa ili nekog obeležja izračunavaju se nove veličine,
pokazatelji određenih osobina. Pokazatelji (parametri) koji se najčešće koriste su:
POKAZATELJI
osobina skupa
MERE MERE
SREDNJE VARIJABILITETA ASIMETRIJE I
VREDNOSTI (POKAZATELJI SPLJOŠTENOSTI
DISPERZIJE)
6. SREDNJE VREDNOSTI
Srednje vrednosti su važni pokazatelji osobina statističkog skupa. To su prosečne vrednosti na
osnovu kojih se dobijaju važne informacije o celoj populaciji. Srednje vrednosti reprezentuju čitav
skup pa su značajne prilikom upoređivanja različitih skupova.
Postoje dve osnovne grupe srednjih vrednosti :
IZRAČUNATE ( aritmetička sredina, geometrijska sredina, harmonijska sredina,...)
POZICIONE (mod, medijana, kvartil...)
Postoje i drugi, slični, parametri ali su ovi najviše korišćeni.
SREDNJE
VREDNOSTI
IZRAČUNATE POZICIONE
Aritmetička Mod
sredina
Geometrijska Medijana
sredina
Harmonijska Kvartili
sredina
27
6.1. Aritmetička sredina ( X )
DEF Za x1 , x2 ,K , xn aritmetička sredina je
x1 + x2 + L + xn 1 n
X= = ∑ xi
n n i =1
Prosta aritmetička sredina se dobija u onim serijama gde se svaki od n podataka x1 , x2 ,K , xn ,
Primer 6.1 1.
1 + 3 + 7 + 11 + 15 + 20 57
X= = = 9, 5 ∇
6 6
Primer 6.1 2.
∇ Izračunati prosečni promet (u hiljadama dinara) u toku nedelje, na jednom šalteru pošte :
xi
1. Ponedeljak 98
2. Utorak 76
3. Sreda 79
4. Četvrtak 56
5. Petak 81
6. Subota 51
Prosečni promet 73,5
Prosečni promet:
1 6 1
X = ∑
6 i =1
xi = ( x1 + x2 + x3 + x4 + x5 + x6 ) = 73,5
6
∆
x ⋅ f + x ⋅ f + L + xn ⋅ f ∑x ⋅ f i i
X= 1 1 2 2 = i =1
f1 + f 2 + L + f n n
∑f i =1
i
28
Primer 6.1 3.
Prosečna ocena je :
x1 ⋅ f1 + x2 ⋅ f 2 + L + xn ⋅ f 5 ⋅ 7 + 6 ⋅14 + 7 ⋅11 + 8 ⋅ 8 + 9 ⋅ 6 + 10 ⋅ 4
X= = =
f1 + f 2 + L + f n 7 + 14 + 11 + 8 + 6 + 4
∆
354
= = 7, 08
50
Primer 6.1 4.
∇ Izračunati prosečan broj bodova na prijemnom ispitu ako su postignuti rezultati dati tabelom:
0-10 11 5 55,00
11-20 4 15,5 62,00
21-30 5 25,5 127,50
31-40 3 35,5 106,50
41-50 3 45,5 136,50
51-60 4 55,5 222,00
30 709,50
29
6.2. Geometrijska sredina (G)
Logaritmovanjem leve i desne strane ( može za proizvoljnu osnovu ali uzećemo osnovu 10) dobija
se:
G = n x1 x2 L xn log
1
log G = log ( x1 x2 L xn ) n
1
log G = log ( x1 x2 L xn ) ili
n
log x1 + log x2 + L + log xn
log G =
n
Antilogaritmovanjem se dobija geometrijska sredina.
log ( x1x2 L xn ) log x1 + log x2 +L+ log xn
G = 10 n
ili G = 10 n
Primer 6.2 1.
G = n x1 f1 x2 f2 L xk fk ; n = f1 + f 2 + L + f k
30
6.3. Harmonijska sredina (H)
DEF Za x1 , x2 ,K , xn harmonijska sredina je :
n n
H= = n
1 1 1 1
+ +L +
x1 x2 xn ∑x
i =1 i
Primer 6.3 1.
6 6
H= = =
1 1 1 1 1 1 4620 1540 660 420 308 331
+ + + + + + + + + +
1 3 7 11 15 20 4620 4620 4620 4620 4620 4620
6 ⋅ 4620 27720
= = = 3,52
7879 7879
Da bi se pravila manja računska greška razlomci u imeniocu su dovedeni na
NZS (1,3, 7,11,15, 20) = 3 ⋅ 4 ⋅ 5 ⋅ 7 ⋅ 11 = 4620 .
Moglo se raditi i ovako:
6 6 6
H= = = =
1 1 1 1 1 1 1 + 0,33 + 0,14 + 0, 09 + 0, 07 + 0, 05 1, 68
+ + + + +
1 3 7 11 15 20
= 3,57
∇ Šest mašina, različite starosti, proizvodi isti artikal i potrebno im je vreme navedeno u tabeli:
1. 1
2. 3
3. 7
4. 11
5. 15
6. 20
31
Ponderisana harmonijska sredina se koristi ukoliko postoje vrednosti koje se ponavljaju. Za slučaj
grupisanih podataka x1 , x2 ,K , xk koji imaju frekvencije f1 , f 2 ,K , f k formula za harmonijsku
sredinu glasi:
n n
H= = n
gde je n = f1 + f 2 + L + f n .
f1 f 2 f 1
+ +L + n
x1 x2 xn ∑
i =1 xi
1
3
7
11
15
20
Aritmetička sredina (AVERAGE) 9,5
32
6.4. Pozicione srednje vrednosti; Mod ( Mo) ; Medijana ( Me) ; Kvartili ( Qi )
Prilikom posmatranja statističkog skupa ili nekog obeležja podaci se daju u sređenom nizu, to jest
poređani po veličini. Moguće je posmatrati srednje vrednosti koje su definisane svojim mestom,
odnosno pozicijom, u navedenoj seriji.
DEF Mod ( Mo) je vrednost obeležja koja u navedenom nizu podataka ima najveću frekvenciju.
To je vrednost koja se najčešće javlja. U upotrebi su i termini modus ili modalna vrednost.
Primer 6.4.1
Među podacima: 1,1, 3, 5,5,5,5,5,5,5, 7, 9,9, 11,11,11, 13,13, 15,15,15 postoji mod i on iznosi 5.
Mo = 5
Primer 6.4.2
U nizu podataka ne mora da postojati mod.
To je slučaj u nizu: 2,4,6,8,10,12,14,16
Primer 6.4.3
Može se desiti da postoji više modova.
Među podacima: 1,1,1, 3,3, 5,5, 7, 9,9, 11,11,11, 13,13, 15,15,15, 17, 19, 21,21 postoje tri moda i to
su 1, 11 i 15.
Za neprekidne vrednosti obeležja, one koje su grupisane po intervalima, mod se ne vidi direktno
nego se izračunava. Uočavaju se intervali sa najvećim frekvencijama (modalni intervali) i koristi se
formula:
f 2 − f1
Mo = a1 + d
( f 2 − f1 ) + ( f 2 − f 3 )
a1 - donja granica modalnog intervala
d - veličina grupnog intervala
f1 , f 2 , f3 - frekvencije premodalnog, modalnog i poslemodalnog intervala
Primer 6.4.4
Za 40 telefonskih razgovora merena je dužina trajanja.Izračunati mod za podatke date tabelom.
33
a1 = 4 - donja granica modalnog intervala
Pri određivanju medijane treba imati u vidu da li je broj elemenata skupa koji čine obeležje, neparan ili
paran.
U slučaju neparnog broja elemenata, medijana je srednji član.
Primer 6.4.5
U nizu podataka 1,1, 3, 5,5,5,5,5,5,5, 7, 9,9, 11,11,11, 13,13, 15,15,15 kojih ima 21, srednji je
jedanaesti po redu a to je 7. Me = 7
U slučaju parnog broja elemenata, postoje dva srednja člana i medijana se dobija kao aritmetička
sredina srednjih članova..
Primer 6.4.6
U nizu: 2,4,6,8,10,12,14,16 kojih ima 8, postoje dva srednja člana a to su 8 i 10.
8 + 10
Me = = 9
2
Za neprekidne vrednosti obeležja, one koje su grupisane po intervalima, određuje se medijalni
interval u kome se nalazi središnji član . Za nalaženje pozicije medijane koriste se obrasci:
n n
∑i =1
fi ∑f
i =1
i +1
sa neparanim ili sa paranim brojem podataka u seriji.
2 2
Za izračunavanje medijane se koristi formula :
d N k −1
Me = a1 + − ∑ f i ako je neparan broj podataka u seriji ili
f k 2 i =1
d N + 1 k −1
Me = a1 + − ∑ fi ako je paran broj podataka u seriji
f k 2 i =1
a1 - donja granica medijalnog intervala
d - veličina grupnog intervala
N - broj članova skupa
34
k −1
∑f
i =1
i -zbir svih frekvencija predmedijalnih intervala
tabelom.
Dužina razgovora 0-2 2-4 4-6 6-8 8-10 10-12 12-14
u minutama
Broj razgovora 16 13 10 5 4 3 4
∑f i
55
Pozicija srednjeg člana, i =1
= = 27,5
2 2
Medijalni interval je [ 2, 4 )
d N k −1 2 55 2 23
Me = a1 + − ∑ fi = 2 + − 16 = 2 + = 3, 769
f k 2 i =1 13 2 13 2
Primer 6.4.8.
tabelom.
Dužina razgovora 0-2 2-4 4-6 6-8 8-10 10-12 12-14
u minutama
Broj razgovora 7 6 14 8 2 2 1
∑f i +1
40 + 1
Pozicija srednjeg člana, i =1
= = 20,5
2 2
Medijalni interval je [ 4, 6 )
35
N = 40 - broj članova skupa
3
∑f
i =1
i = 7 + 6 = 13 -zbir svih frekvencija predmedijalnih intervala
d N + 1 k −1 2 41 1 15
Me = a1 + − ∑ f i = 4 + − 13 = 4 + = 5, 07 ∆
fk 2 i =1 14 2 7 2
DEF Kvartili ( Qi ; i = 1, 2,3 ) su vrednosti koje dele obeležje (navedeni niz podataka,
uređen po veličini) na četiri jednaka dela.
Q1 Q2 Q3 Q4
Prvi kvartil ( Q1 ) je vrednost obeležja od koje 25% elemenata skupa, uređenih po veličini, ima manju
Treći kvartil ( Q3 ) je vrednost obeležja od koje 75% elemenata skupa, uređenih po veličini, ima
d N k −1 d 3N k −1
Q1 = a1 + − ∑ fi Q3 = a1 + − ∑ fi
fQ1 4 i =1 fQ3 4
;
i =1
a1 - donja granica kvartilnog intervala
d - veličina grupnog intervala
N - broj članova skupa
k −1
∑f
i =1
i -zbir svih frekvencija predkvartilnih intervala
Primer 6.4.9.
Dati su podatci: 1,1,1,1, 2,2,2,2,2,2,3,3,3,4,4,4,4,4,5,6,6,7,7
Odrediti prvi kvartil ( Q1 ), drugi kvartil ( Q2 ) i treći kvartil ( Q3 ).
36
Kvartili se najbolje vide iz tabele u kojoj se kumulativna frekvencija izrazi u procentima. Tada je jasno
koje su to vrednosti od kojih 25% (50%,75%) elemenata skupa, uređenih po veličini, ima manju ili
jednaku vrednost.
1 4 4 16, 67%
6 2 22 91, 67%
7 2 24 100%
7
n = ∑ fi = 24
i =1
Prvi kvartil ( Q1 ): Q1 = 2
Treći kvartil ( Q3 ): Q3 = 4 ∆
37
6.5. Vežbanje
1) U trci na 2400m mereno je vreme i dobijeni su rezultati koji su prikazani tabelom:
a) Formirati tabelu u kojoj će biti (ti ) -vreme u i- tom krugu i (vi ) brzine ostvarene u svakom krugu.
s 400
a) (v= ) (ti ) -vreme u i- tom krugu u s ; vi = (vi ) - brzina u m
t ti s
Krug
(ti ) Vreme u
(vi )
i- tom krugu
1 115 1' 55" 3,478261
2 107 1' 47" 3,738318
3 115 1' 55" 3,478261
4 116 1' 56" 3,448276
5 117 1' 57" 3,418803
6 115 1' 55" 3,478261
t t v
Prosek:
114,16667 1' 54" 3,506697
c)
Trka na 2400m
120
Vreme u s
115
110 Series1
105
100
1 2 3 4 5 6
KRUG
38
2) Izračunati aritmetičku, geometrijsku i harmonijsku sredinu za brojeve : 1,3,4,5,6,7,10,11.
Odgovor:
Aritmetička sredina (AVERAGE) 5.875
xi 1 2 3 4 5 6 7
fi 4 6 3 5 2 2 3
Odgovor:
Mo = 2 ; Me = Q2 = 3 ; Q1 = 2 ; Q3 = 5
39
7. MERE VARIJABILITETA (POKAZATELJI DISPERZIJE)
Mere varijabiliteta za obeležje X jednog statističkog skupa vezane su za unutrašnji raspored
podataka u odnosu na reprezentativne podatke serije a to su razne sredine. Najčešće se analiziraju
odstupanja u odnosu na aritmetičku sredinu.
Postoje različiti parametri koji mere odstupanja i rasipanje elemenata neke statističke serije.
Najznačajniji su:
- Raspon varijacije ( R )
- Koeficijent varijacije ( KV )
MERE
VARIJABILITETA
Disperzija i Koeficijent
Raspon varijacije Srednja devijacija stand. devijacija varijacije
DEF Raspon varijacije ( R ) je razlika između najveće i najmanje vrednosti obeležja nekog
statističkog skupa.
R = xmax − xmin
Ovaj najjednostavniji parametar pokazuje razmak između maksimalne i minimalne vrednosti i
često se koristi jer daje korisne informacije o podacima koji se obrađuju. Na primer, raspon plata,
raspon temperatura u toku dana ,...
Primer 7.1.1.
∇ U toku jedne sedmice izmerene su dnevne prosečne temperature u Celzijusovim stepenima. Koliki
Nedelja 18,3 °C
Ponedeljak 19,8 °C
Utorak 17,6 °C
Sreda 17,9 °C
Četvrtak 15,6 °C
Petak 18,1 °C
Subota 15,1 °C
40
xmax = 19.8 ; xmin = 15.1
atitmetičke sredine.
DEF Srednja devijacija (SD) je aritmetička sredina apsolutnih vrednosti odstupanja vrednosti
obeležja od njihove aritmetičke sredine..
Ako je srednje apsolutno odstupanje manje to znači da aritmatička sredina X bolje reprezentuje
podatke iz posmatranog niza.
Za prostu seriju podataka izračunava se po formuli:
n
x1 − X + x2 − X + L + xn − X ∑ x −X i
SD = = i =1
n n
Primer 7.2.1.
∇ U toku jednog dana izmerene su podnevne temperature koje su date tabelom. Koliko je srednje
Beograd 10 °C
Kragujevac 11 °C
Valjevo 9 °C
Loznica 12 °C
Kopaonik -1 °C
Novi Sad 13 °C
10 + 11 + 9 + 12 − 1 + 13
X= =9
6
10 − 9 + 11 − 9 + 9 − 9 + 12 − 9 + −1 − 9 + 13 − 9 1 + 2 + 0 + 3 + 10 + 4 20
SD = = = = 3.33
6 6 6
41
Za grupisane podatke srednja devijacija se izračunava slično:
n
f1 x1 − X + f 2 x2 − X + L + f n xn − X ∑f i xi − X
SD = = i =1
f1 + f 2 + L + f n n
∑f
i =1
i
Primer 7.2.2.
Navedena tabela je iz primera 6.1.3. u kom je izračunata prosečna ocena, odnosno aritmetička sredina
x1 ⋅ f1 + x2 ⋅ f 2 + L + xn ⋅ f 5 ⋅ 7 + 6 ⋅14 + 7 ⋅11 + 8 ⋅ 8 + 9 ⋅ 6 + 10 ⋅ 4
X= = =
f1 + f 2 + L + f n 7 + 14 + 11 + 8 + 6 + 4
:
354
= = 7, 08
50
Da bi izračunavanje bilo preglednije i da bi se smanjila mogućnost pravljenja računskih grešaka,
korisno je sve međurezultate prikazati u pomoćnoj tabeli.
n=6
∑
i =1
fi = 50 ∑f
i =1
i xi − X = 61.12
∑f i xi − X
61.12
SD == i =1
6
= = 1.22 ∆
∑f
50
i
i =1
42
7.3. Disperzija, standardna devijacija
Najviše je u upotrebi parametar koji predstavlja srednje kvadratno odstupanje svakog podatka iz
serije od aritmetičke sredine.
DEF Disperzija (varijansa) (σ 2 ) je aritmetička sredina kvadrata odstupanja vrednosti obeležja od
njihove aritmetičke sredine.
(x − X )
2
+ L + ( xn − X )
2
∑ (x − X )
i
2
σ2 = = i =1
1
(1)
n n
∑ (x − X )
i
2
1 n 2 1 n X2
σ2 = i =1
n
= ∑i
n i =1
x − 2 X
n
∑
i =1
xi +
n
n=
1424 3
X
1 n 1 n
= ∑
n i =1
f i xi 2 − 2 XX + X 2 = ∑ xi 2 − X 2
n i =1
1 n 2
(2) σ2 = ∑ xi − X 2
n i =1
Prilikom korišćenja formule (2) nije potrebno izračunavanje odstupanja pojedinih vrednosti od
aritmetičke sredine već se disperzija računa iz vrednosti obeležja.
Primer 7.3.1.
∇ U toku jednog dana izmerene su podnevne temperature koje su date tabelom. Koliko je disperzija,
Beograd 10 °C
Kragujevac 11 °C
Valjevo 9 °C
Loznica 12 °C
Kopaonik -1 °C
Novi Sad 13 °C
U primeru 7.2.1. gde je izračunata je srednja devijacija, prvo je izračunata aritmetička sredina
10 + 11 + 9 + 12 − 1 + 13
X= =9.
6
43
Za izračunavanje disperzije biće korišćena pomoćna tabela i formula (1):
xi − X (x − X )
2
xi i
Beograd 10 1 1
Kragujevac 11 2 4
Valjevo 9 0 0
Loznica 12 3 9
Kopaonik -1 -10 100
Novi Sad 13 4 16
6
n=6 ∑ (x − X )
i =1
i
2
= 130
6
∑(x − X ) i
2
130
σ2 = i =1
= = 21.67
6 6
xi xi 2
Beograd 10 100
Kragujevac 11 121
Valjevo 9 81
Loznica 12 144
Kopaonik -1 1
Novi Sad 13 169
6
n=6 ∑xi =1
i
2
= 616
1 n 2 1
σ2 = ∑
n i =1
xi − X 2 = 616 − 81 = 102.67 − 81 = 21.67
6
∆
n n
f1 ( x1 − X ) + L + f n ( xn − X )
2 2
∑ fi ( xi − X ) 2 ∑ f (x − X ) i i
2
(1′ ) σ 2 = = i =1
= i =1
f1 + f 2 + L + f n n
∑f
N
i
i =1
n
gde je ∑f
i =1
i =N
∑ f (x − X ) i i
2
1 n
1 n X2 n
σ2 = i =1
N
=
N
∑fx
i =1
i i
2
− 2X
N
∑
i =1
fi xi +
N
∑i =1
fi =
14243 {
X N
n n
1 1
=
N
∑fxi =1
i i
2
− 2 XX + X 2 =
N
∑fx
i =1
i i
2
− X2
44
n
1
( 2′) σ2 =
N
∑fx
i =1
i i
2
−X2
Primer 7.3.2.
Navedena tabela je iz primera 6.1.3. u kome je izračunata prosečna ocena, odnosno aritmetička
sredina : X = 7, 08
Za određivanje disperzije ako se koristi formula (1′ ) međurezultati se mogu prikazati u pomoćnoj
tabeli.
xi − X (x − X ) fi ( xi − X )
2 2
Ocena ( xi ) Broj studenata ( f i ) i
∑ f (x − X )
i i
2
109, 68
σ2 = i =1
= = 2,1936
N 50
45
Broj xi
2
fi xi 2
Ocena ( xi ) studenata ( f i )
5 7 25 175
6 14 36 504
7 11 49 539
8 8 64 512
9 6 81 486
10 4 100 400
6 6
n=6 N = ∑ fi = 50 ∑fx i i
2
= 2616
i =1 i =1
n
1 2616
( 2′) σ2 =
N
∑fx
i =1
i i
2
−X2 =
50
− 7, 082 = 52, 32 − 50,1264 = 2,1936 ∆
σ 2 odnosno σ = σ 2 .
U EXCEL-u postoji funkcija STVEDEVP koja izračunava standardnu devijaciju. Pomoću nje je
kvadriranjem moguće izračunati disperziju.
DEF Koeficijent varijacije ( KV ) je količnik između standardne devijacije i aritmetičke sredine nekog
obeležja.
σ
KV =
X
Ovaj koeficijent je relativna mera koja pokazuje odstupanje obeležja u odnosu na aritmetičku sredinu.
46
7.5. Vežbanje
Beograd 21 °C
Kragujevac 20 °C
Valjevo 19 °C
Loznica 22 °C
Kopaonik 8 °C
Novi Sad 18 °C
Kraljevo 23 °C
Odrediti
- Raspon varijacije ( R )
- Koeficijent varijacije ( KV )
160-169 5
170-179 8
180-189 14
190-199 7
200-209 4
210-219 2
Odrediti
- Raspon varijacije ( R )
- Koeficijent varijacije ( KV )
47
8. MOMENTI I POKAZATELJI VIŠEG REDA
Vrednosti iz nekog obeležja mogu na različite načine biti grupisane oko srednjih vrednosti. Za
određivanje načina njihovog rasporeda koriste se tzv. centralni momenti.
DEF Centralni moment reda r je aritmetička sredina devijacija na r-ti stepen.
∑ (x − X ) i
r
Za negrupisane podatke to je : Mr = i =1
n
n
∑ f (x − X )i i
r
Za grupisane podatke to je : Mr = i =1
n
∑f i =1
i
devijacije.
M3
α3 =
σ3
Ovaj parameter pokazuje asimetriju nekog obeležja. Pomoću njega se mogu upoređivati asimetrije
različitih distribucija. Ako je:
α3 = 0 serija je simetrična
M o je ona vrednost koja ima najveću učestanost o na krivoj raspodele predstavlja apscisu vrha
krive.
M e je ona vrednost obeležja koja deli skup na dva jednaka dela.
48
Interpretacijom na krivoj raspodele dobijaju se slučajevi:
a) Kod simetričnog rasporeda je X = Me = Mo .
b) Kod pozitivne asimetrije Mo < Me < X .
c) Kod negativne asimetrije X < Me < Mo .
α3 = 0 α3 > 0
X = Me = Mo Mo < Me < X
α3 < 0
X < Me < Mo
α3 = 0
α3 > 0 α3 < 0
Objedinjeno:
DEF Koeficijent spljoštenosti (α 4 ) je količnik centralnog momenta reda četiri i četvrtog stepena
standardne devijacije.
M4
α4 =
σ4
Ovaj parametar je uvek pozitivan. On pokazuje homogenost vrednosti u odnosu na aritmetičku
sredinu.
α4 > 3
α4 = 3
α4 < 3
∇ Na zimskim olimpijskim igrama 2002. godine šest zemalja koje su osvojile najviše medalja su bile:
Broj medalja xi − X (x − X ) (x − X ) (x − X )
2 3 4
Država i i i
xi
Nemačka 35 11 121 1331 14641
USA 34 10 100 1000 10000
Norveška 24 0 0 0 0
Kanada 19 -5 25 -125 625
Rusija 18 -6 36 -216 1296
Austrija 14 -10 100 -1000 10000
n=6 144 382 990 36562
144
X= = 24
6
50
n
∑ (x − X )
i
2
382
Disperzija : σ 2 = i =1
= = 63, 67
n 6
Standardna devijacija; σ = σ 2 = 63, 67 = 7,98
990
M 6 = 165 = 0.325
Koeficijent asimetrije: α 3 = 33 =
σ 507,98 507,98
36562
M4 6
Koeficijent spljoštrnosti: α 4 = 4 = = 1, 503
σ 4053, 44
0-10 11
11-20 4
21-30 5
31-40 3
41-50 3
51-60 4
51
Raz. sr.
(x − X )
Broj
fi ⋅ xi xi − X (x − X ) (x − X )
2 3 4
fi i i i
bodova xi
Korišćenjem dobijenih međurezultata formira se niva tabela iz koje se dobijaju vrednosti za nalaženje
traženih parametara.
(2):
fi ( xi − X )
Broj
f i ( xi − X ) fi ( xi − X )
2 3 4
fi
bodova
0-10 11 3826,05 -71355,79 1330785,41
11-20 4 265,69 -2165,37 17647,79
21-30 5 17,11 31,66 58,57
31-40 3 421,27 4992,02 59155,44
41-50 3 1432,27 31295,04 683796,73
51-60 4 4057,69 129237,43 4116212,03
30 10020,08 92034,99 6207655,97
∑ f (x − X )i i
2
10020
Disperzija : σ 2 = i =1
n
= = 334
∑f
30
i
i =1
52
8.3. Vežbanje
1. Tabelom je prikazan broj nagrada koje su na nekom takmičenju osvojili predstavnici gradova :
160-169 5
170-179 8
180-189 14
190-199 7
200-209 4
210-219 2
53
9. STATISTIČKO OCENJIVANJE NA OSNOVU UZORKA
Statistički skup
Uzorak
Ukratko, ako je statistički skup veliki onda se pribegava ispitivanju uzoraka. Jedan od najvažnijih
zadataka statistike je da se na osnovu uzorka utvrde zakonitosti i izvuku zaključci koje važe u celoj
populaciji.
Postavlja se pitanje reprezentativnosti posmatranog uzorka. Sam postupak izbora slučajnog uzorka
u statistici je detaljno razrađen .U nekim se koriste tablica slučajnih brojeva ali se time nećemo baviti.
Jasno je, takođe i da veličina uzorka utiče na verodostojnost naših zaključaka o celoj populaciji.
Ako statistički skup ima N elemenata, onda se pod prostim slučajnim uzorkom veličine n
(n < N ) podrazumeva svaki od uzoraka od n elemenata čije su verovatnoće izbora međusobno
jednake. Ukupan broj uzoraka veličine n koji se mogu formirati na skupu od N elemenata iznosi:
N VnN N ( N − 1)L ( N − n + 1)
C = =
N
n =
n n! n!
Statistički skup ima različite parametre koji ga karakterišu a jedan od najvažnijih je aritmetička
sredina.Postupak ocenjivanja nekog parametra osnovnog skupa na osnovu uzorka biće prikazan na
njoj.
54
9.2.Ocena aritmetičke sredine osnovnog skupa
Ako bi se na nekom statističkom skupu koji ima N elemenata formirali svi mogući uzorci ( njih
N
( )
) i izračunale njihove aritmetičke sredine xi one bi predstavljale jedan raspored aritmetičkih
n
sredina uzoraka. Za dovoljno veliko n ( n > 30 ) taj raspored ima približno oblik normalne raspodele.
Raspored sredina
σx uzoraka
µ 1.96σ x 2.58σ x
68.3%
95%
99%
svih uzoraka. To znači da je verovatnoća da se aritmetička sredina uzorka nađe u ovom intervalu 0,68.
Slično, verovatnoća da će se naći u intervalu µ ± 1,96σ x iznosi 0,95 a u intervalu µ ± 2,58σ x iznosi
0,99. Nivoi značajnosti u tim slučajevima izmose 0,32 , 0,05 i 0,01. Najčešće se ocene parametara
računaju sa nivoom značajnosti 0,05 i 0,01.
()
-Odabere se dovoljno veliki uzorak ( n > 30 ) i izračuna se njegova aritmetička sredina x koja će
σ
σx =
n
()
Standardna greška ocene pokazuje prosečno odstupanje aritmetičke sredine uzorka x od
55
Standardna devijacija skupa (σ ) se izračunava iz uzorka. Dokazano je da je standardna devijacija
izračunata na celom skupu uvek nešto veća od standardne devijacije izračunate na uzorku. Zbog toga
se vrši ispravka pa se za izračunavanje koristi formula:
∑ ( ) ()
n n
∑fx
2 2
f i xi − x 2
i i −n x
σ= i =1
= i =1
(1)
n −1 n −1
Ona je poznata pod nazivom Popravljena formula za standardnu devijaciju skupa na osnovu
podataka iz uzorka. Formula za za izračunavanje standardne greške uz korišćenje formule (1) glasi:
∑ ( )
n 2
fi xi − x
∑ f ( x − x) ()
n n
∑fx
2 2
i =1 2
−n x
σ n −1
i i i i
σx = = = i =1
= i =1
n n n ( n − 1) n ( n − 1)
(2)
Primer 9.1.1.
∇ Zadatak je da se odredi prosečan broj bodova na prijemnom ispitu koje su imali studenti ICT na
Vrednost prosečnog broja bodova treba odrediti sa nivoom značajnosti 0,05 i sa nivoom značajnosti
0.01.
56
1510
Prvo se izračunava aritmetička sredina uzorka x = = 30, 2 ; n = 50 .
50
Standardna greška ocene iznosi:
()
n
∑fx
2
2
−n x
σ i i
58250 − 45602
σx = = i =1
= = 5,162449 = 2,27
n n ( n − 1) 50 ⋅ 49
Napomena:
Primećuje se da veći koeficijent pouzdanosti, na istom uzorku, daje širi interval. Što je interval uži
ocena parametra je preciznija ali je manje pouzdana. U praksi se najčešće radi sa koeficijentom
Primer 9.1.2.
∇ Rezultati ispitivanja na uzorku od 500 turista o dnevnoj potrošnji za jednu vrstu turističke usluge
dati su tabelom:
Broj turista
Dnevna
potrošnja fi
35-45 8
45-55 100
55-65 302
65-75 85
75-85 5
zbir 500
Treba oceniti prosečnu dnevnu potrošnju celog skupa ( µ ) pomoću navedenog uzorka sa
57
Broj turista prosečna
Dnevna
fi potrošnja xi
fi ⋅ xi fi ⋅ xi 2
potrošnja
35-45 8 40 320 12800
45-55 100 50 5000 250000
55-65 302 60 18120 1087200
65-75 85 70 5950 416500
75-85 5 80 400 32000
zbir 500 29790 1798500
29790
Prvo se izračunava aritmetička sredina uzorka x = = 59,58 ; n = 500
500
Standardna greška ocene iznosi:
()
n
∑fx
2
2
−n x
σ i i
1798500 − 1774888
σx = = i =1
= = 0, 0946 = 0,31
n n ( n − 1) 500 ⋅ 499
Sa koeficijentom pouzdanosti 0,95 ili sa nivoom značajnosti 0,05 prosečan broj bodova je u intervalu
:
58
12. LINEARNA REGRESIJA I KORELACIJA
Važan deo stastistike je regresiona analiza koja se bavi zavisnošću pojedinih obeležja u nekom
statističkom skupu.Najjednostavnije je ispitivati zavisnost između dva obeležja. Time se bavi prosta
regresiona analiza. Osnovne ideje regresione analize mogu se prikazati pomoću linearne regresije i
korelacije.
( x1 , y1 ) , ( x2 , y2 ) ,K , ( xn , yn ) .
Predstavljanjem ovih tačaka u Dekartovom pravouglom koordinatnom sistemu xOy dobija se
dijagram raspršenosti (rasturanja). Pomoću dijagrama nekada je moguće uočiti oblik funkcionalne
zavisnosti između posmatranih obeležja.
Prema obliku krive kojom se funkcionalna zavisnost može aproksimirati postoje različiti oblici
zavisnosti (linearna, kvadratna, logaritamska...)
Ako se zavisnost među navedenim podacima iz posmatranog uzorka, sa odgovarajućom tačnošću,
izrazi linearnom funkcijom y = ax + b , koeficijenti a i b se dobijaju iz formula:
n n n n n
n∑ xi yi − ∑ xi ⋅ ∑ yi ∑ yi − a∑ xi
a= i =1 i =1 i =1
2
i b= i =1 i =1
(*)
n
n n
n∑ x − ∑ xi 2
i
i =1 i =1
Koeficijenti a i b se mogu odrediti ina drugi način, korišćenjem metode najmanjih kvadrata.
Vrednosti konstanti se u tom slučaju dobijaju preko formula:
k xy
a= ; b = Y − aX (**)
σ x2
x1 + L + xn y1 + L + yn
gde je X = ; Y =
n n
∑(x − X )
n 2
i
σ x2 = i =1
n
∑ ( x − X )( y − Y )
n
i i
k xy = i =1
uzorački koeficijent kovarijacije ili kovarijacija.
n
U EXCELU postoji funkcija COVAR za njegovo izračunavanje.
59
Primer 12.1.1.
Za deset ljudi je tablicom dat broj godina i prihod koji su ostvarili u određenom periodu. Potrebno
je nacrtati dijagram raspršenosti i odrediti regresionu pravu kojom se može aproksimirati linearna
zavisnost.
godine X prihod Y
A 19 2150
B 23 2550
C 27 3250
D 31 3150
E 36 4250
F 40 4200
G 44 4350
H 49 5000
I 52 4950
J 54 5650
Dijagram raspršenosti
6000
5000
4000
prihod
3000
2000
1000
0
0 10 20 30 40 50 60
godine
60
U ovom primeru je:
10 10 10
n = 10 ∑ xi yi = 1604800
i =1
; ∑ xi = 375 ;
i =1
∑y i =1
i = 39500
2
10
10
∑
i =1
x =
2
i 15433 ; ∑ xi = 375 = 140625
i =1
2
n n n
n∑ xi yi − ∑ xi ⋅ ∑ yi
10 ⋅1604800 − 375 ⋅ 39500
a= i =1 i =1 i =1
= = 90,15
n
n
2
10 ⋅15433 − 140625
n∑ xi2 − ∑ xi
i =1 i =1
n n
Dobijena prava nam omogućava da odredimo vrednosti i za one x -ove koji nisu sadržani u
uzorku.Na primer:
x = 20 ; y = 90 ⋅ 20 + 569 = 2369
x = 50 ; y = 90 ⋅ 50 + 569 = 5069 ...
Dijagram raspršenosti
y = 90 x + 569
6000
5000
4000
prihod
3000
2000
1000
0
0 10 20 30 40 50 60
godine
61
x1 + L + xn y + L + yn
gde je X = = 37.5 ; Y = 1 = 3950
n n
∑(x − X )
n 2
i
σ x2 = i =1
= 137.05
n
∑ ( x − X )( y − Y )
n
i i
k xy = i =1
= 12355
n
Na ovaj način je dobijena regresiona prava : y = 9015 x + 570
(x − X )
2
xi yi xi − X yi − Y i
k xy =12355
COVAR
62
12.2. Korelacija
Stepen povezanosti dva obeležja može se predstaviti brojnom vrednošću koja se naziva koeficijent
korelacije. Ovaj parametar pokazuje jačinu i smer povezanosti posmatranih obeležja.Izračunava se po
formuli:
n n n
n∑ xi yi − ∑ xi ⋅ ∑ yi
r= i =1 i =1 i =1
(*)
2 2
n
n
n n
n∑ xi2 − ∑ xi ⋅ n∑ yi2 − ∑ yi
i =1 i =1 i =1 i =1
Koeficijent korelacije se naziva i Pirsonov koeficijent.
Koeficijent korelacije može se izračunati i na drugi način:
∑ ( x − X )( y − Y )
n
i i
r=± i =1
(**)
∑(x − X ) ⋅∑( y −Y )
n 2 n 2
i i
i =1 i =1
63
Primer 12.2.1.
Za deset ljudi je tablicom dat prihod koji su ostvarili u određenom periodu i potrošnja mesa .
Potrebno je izračunati koeficijent korelacije.
prihod X meso Y
A 5 11
B 6 14
C 11 19
D 14 26
E 16 30
F 21 43
G 25 49
H 27 50
I 32 65
J 38 72
2
10
10
∑
i =1
x =
2
i 4897 ; ∑ xi = 195 = 38025
i =1
2
2
10
10
∑
i =1
y =
2
i 18413 ; ∑ yi = 379 = 143641
i =1
2
64
Korišćenjem funkcije CORREL iz Excela dobija se vrednost 0,995431.
Koeficijent korelacije može se izračunati i na drugi način:
∑ ( x − X )( y − Y )
n
i i
r=± i =1
(**)
∑(x − X ) ⋅∑( y −Y )
n 2 n 2
i i
i =1 i =1
12.3. Vežbanje
Godine Mleko 1) Za deset ljudi je tablicom dat broj godina i količina mleka koju su
A 4 96 konzumirali u određenom periodu. Potrebno je odrediti
B 8 93
a) dijagram raspršenosti
C 11 91
D 22 80 b) regresionu pravu kojom se može aproksimirati linearna zavisnost.
E 26 74
c) koeficijent korelacije
F 35 67
G 44 51
H 49 50
I 61 43
J 72 26
a) i b)
Godine Mleko xi yi xi2
A 4 96 384 16
B 8 93 744 64
C 11 91 1001 121
D 22 80 1760 484
E 26 74 1924 676
F 35 67 2345 1225
G 44 51 2244 1936
H 49 50 2450 2401
I 61 43 2623 3721
J 72 26 1872 5184
zbir 332 671 17347 15828
2
10
10
∑
i =1
x = 15828 ; ∑ xi = 3322 = 110224
2
i
i =1
65
n n n
n ∑ xi yi − ∑ xi ⋅ ∑ yi
10 ⋅17347 − 332 ⋅ 671 −49302
a= i =1 i =1 i =1
= = = −1, 03
n
n 2
10 ⋅15828 − 110224 48056
n∑ xi2 − ∑ xi
i =1 i =1
n n
∑y i − a ∑ xi
671 − ( −1, 03) ⋅ 332 671 + 341,96 1012,96
b= i =1 i =1
= = = = 101,3
n 10 10 10
Prema tome regresiona prava glasi: y = − x + 101
120
100
80
Potrošnja mleka
60
40
20
0
0 20 40 60 80
Godine
c)
2) U tabeli su date vrednosti za dva obeležja jednog uzorka. Odrediti jednačinu regresione prave.
xi yi
A 0.5 2.53
B 1 2.05
C 1.5 1.67
D 2 1.37
E 2.5 0.92
F 3 0.47
G 3.5 -0.11
H 4 -0.50
66
LITERATURA :
67