You are on page 1of 18

STATISTIKA

1. Statistike tabele (karakteristike empirijske raspodjele)



U statistici se istrauju masovne pojave na kvantitativan nain. To znai da emo svaku masovno pojavu obraditi i
opisati nekim numerikim karakteristikama.
Statistika analiza sadri sljedee faze:
1) Prikupljanje podataka posmatranjem, mjerenjem, anketiranjem ili nekom dugom metodom dobiemo masu
(brojanih) podataka za koje kaemo da predstavljaju jednu populaciju ili cjelokupnost. Svi elementi (tzv.
statistike jedinice) jedne populacije su istog tipa, kaemo da imaju osobinu homogenosti (istovrsnosti). Npr. ako
smo izmjerili visine i teine svim ljudima u nekoj grupi ljudi, jednu populaciju ine samo visine, a drugu ine
dobijene teine.
2) Grupisanje i sreivanje podataka dobijene podatke treba smjestiti u tabele.
3) Obrada i analiza matematiki emo obraditi dobijene podatke, raunanjem numerikih karakteristika
statistike cjelokupnosti.

to se tie druge i tree faze, moe se vriti ispitivanje cjelokupne populacije ili ispitivanje samo jednog dijela
cjelokupnosti, koga zovemo uzorak. U sluaju ako se cjelokupnost broji u hiljadama statistikih jednica, dakle zbog
prekomjerne brojnosti podataka, najee se koristi ispitivanje uzorka. Pri tome, uzorak mora biti reprezentativan,
to znai da on dobro predstavlja cjelokupnost. Da bi se to desilo, svaki element cjelokupnosti mora da ima
jednaku ansu da ue u uzorak i osim toga, uzorak mora da bude dovoljno brojan. Prvi uslov se ostvaruje ako
elemente uzorka izabiremo na sluajan nain.
Pretpostavimo da sluajna promjenljiva X ima k vrijednosti
1 2
, ,..., .
k
x x x Vrijednost
1
x smo zabiljeili
1
f puta,
vrijednost
2
x smo zabiljeili
2
f puta, ... vrijednost
k
x smo zabiljeili
k
f puta, tako da je
1 2
... .
k
f f f n + + + =
Brojeve
1 2
, ,...,
k
f f f zovemo frekvencijama, a veliine
1 2
, ,...,
k
x x x nam predstavljaju uzorak ili empirijsku
populaciju.
Ukoliko broj n nije velik ( 40 n < ) ove podatke smjetamo u sljedeu tabelu.

X
1
x
2
x ...
k
x
x
f
1
f
2
f ...
k
f

Tabela 1.

Geometrijska ilustracija ove tabele je tzv. poligon raspodjele na vodoravnoj osi koordinatnog sistema nanosimo
vrijednosti ,
i
x a na okomitoj frekvencije
i
f , unesemo odgovarjue take i spojimo ih. Tako dobijamo izlomljenu
liniju koju zovemo poligon raspodjele.

Ukoliko je 40, n > dobijene podatke grupiemo po klasama: ( ) ( ) ( )
0 1 1 2 1
, , , ,..., , ,
k k
u u u u u u

ije su sredine
1 2
, ,..., ,
k
x x x tj.
0 1 1 1 2
1 2
, ,..., .
2 2 2
k k
k
u u u u u u
x x x

+ + +
= = =
Frekvencija
1
f oznaava nam sada koliko podataka se nalazi u prvoj klasi,
2
f - koliko podataka je u drugoj klasi,
itd.

Klasa Frekvencija Sredina klase
( )
0 1
, u u
1
f
1
x
( )
1 2
, u u
2
f
2
x
... ... ...
( )
1
,
k k
u u


k
f
k
x

Tabela 2.

Geometrijska ilustracija tabele 2 je histogram raspodjele frekvencija. To je niz pravougaonika koji se jednom
stranom oslanjaju na x osu, tako da im je ta strana jednaka irini klase, a visine pravougaonika su jednake
frekvencijama.
Nakon smjetanja podataka u tabelu, potrebno je izraunati sljedee karakteristike.

1. Aritmetika sredina:
1
1
.
k
i i
i
x f x
n
=
=


2. Geometrijska sredina:
1 2
1 2
... .
k
f f f
n
k
G x x x =
3. Harmonijska sredina:
1
.
k
i
i i
n
H
f
x
=
=


4. Razmak varijacije:
max min
. W x x =
5. Disperzija:
( )
2
2
1
1
.
k
i i
i
s f x x
n
=
=


6. Standardno odstupanje:
2
. s s =
7. Koeficijent varijacije: .
v
s
K
x
=
8. Moment reda r: ( )
1
1
1, 2, 3,... .
n
r
r i i
i
m f x r
n
=
= =


Oito je
1
. m x =
9. Centralni moment :
( ) ( )
1
1
1, 2, 3,... .
n
r
r i i
i
f x x r
n

=
= =


Oito je
2
. s =
10. Koeficijent asimetrije:
3
3
.
A
K
s

=
11. Koeficijent ekscesa:
4
4
3.
E
K
s

=

Aritmetika sredina predstavlja prosjenu vrijednost zadanih podataka (za koje se ona rauna). Suma svih
odstupanja vrijednosti
1 2
, ,...,
k
x x x od sredine x bie nula:
( )
1
0,
n
i i
i
f x x
=
=

pri emu se svaka razlika rauna


onoliko puta kolika je odgovarajua frekvencija, jer je
( )
1 1 1 1 1
1
0.
n n n n n
i i i i i i i i
i i i i i
f x x f x f x n f x x f n x x n
n
= = = = =
= = = =


to se pak tie disperzije, ona opisuje rasprenost podataka, koliko oni odstupaju od aritmetike sredine. Dakle,
ako je vea disperzija, vea je razlika izmeu vrijednosti
1 2
, ,..., .
k
x x x Ako je disperzija manja, moemo
konstatovati da su podaci dosta ujednaeni.
Disperziju
2
s moemo raunati na jo jedan nain. Naime,
( )
( )
2
2
2
2 2
2 2
1 1 1 1 1
1 1 1 2
2
k k k k k
i i i i i i i i i i
i i i i i
x x
s f x x f x x x x f x f x f
n n n n n
= = = = =
= = + = + =


2
2
2 2
1 1
1 1
2 .
k k
i i i i
i i
x
f x x x n f x x
n n n
= =
= + =


Dakle,
2 2
2
1
1
,
k
i i
i
s f x x
n
=
=

tj.
2
2
1
1
.
k
i i
i
s f x x
n
=
=


Primjer: U donjoj tabeli prikazani su rauni kupaca u trgovini Kod Mehe u julu 2010. godine.
Izraunati standardno odstupanje.






Iznos rauna Broj kupaca Sredine klasa
0 5 KM 65 2,5
5 10 KM 79 7,5
10 15 KM 44 12,5
15 20 KM 21 17,5
20 25 KM 15 22,5
25 30 KM 12 27,5
30 35 KM 7 32,5
35 40 KM 2 37,5

Najprije raunamo 65 79 44 21 15 12 7 2 245. n = + + + + + + + =
65 2, 5 79 7, 5 44 12, 5 21 17, 5 15 22, 5 12 27, 5 7 32, 5 2 37, 5
10, 786.
245
x
+ + + + + + +
= =
( ) ( ) ( ) ( )
2 2 2 2
2 65 10, 786 2, 5 79 10, 786 7, 5 44 10, 786 12, 5 21 10, 786 17, 5
245
s
+ + + +
=
( ) ( ) ( ) ( )
2 2 2 2
15 10, 786 22, 5 12 10, 786 27, 5 7 10, 786 32, 5 2 10, 786 37, 5
67, 47.
245
+ + + +
=
2
67, 47 8, 21. s s = =
Primjer: Prema podacima u tabeli nai nai aritmetiku, geometrijsku i harmonijsku sredinu, disperziju, razmak
varijacije, koeficijent varijacije, koeficijent asimetrije i ekscesa, te konstruisati histogram i poligon raspodjele:
Klase Frekvencije
0,1 1,0 2
1,1 2,0 8
2,1 3,0 11
3,1 4,0 32
4,1 5,0 26
5,1 6,0 15
6,1 7,0 6
7,1 8,0 4

2. Takaste ocjene parametara

Vidjeli smo da normalna raspodjela zavisi od dva parametra m i . o Openito, u situaciji kad raspodjela sluajne
promjenljive X zavisi od parametra 0 , elimo dati procjenu tog parametra. Ukoliko se odredi tana ili priblina
vrijednost za 0 , rei emo da je to takasta ocjena, a ukoliko moemo odrediti neki interval ( ) , a b (to manji),
tako da ( ) , , a b 0e kaemo da smo nali intervalnu ocjenu tog parametra. U ovoj lekciji vidjeemo kako se moe
dobiti takasta ocjena parametra pomou metode maksimalne vjerodostojnosti.
Pretpostavimo da smo dobili uzorak sluajne promjenljive X: ( )
1 2
, ,...,
n
x x x pri izvoenju n eksperimenata.
1) Ako je X diskretna sluajna promjenljiva, ija raspodjela zavisi od parametra , 0 formiraemo funkciju
( ) ( ) ( ) ( )
1 2
... .
n
L P X x P X x P X x 0 = = = =
Ovu funkciju zovemo funkcijom vjerodostojnosti.

2) Ako je X neprekidna sluajna promjenljiva, ija raspodjela je data gustinom ( ) , , f x 0 funkciju vjerodostojnosti
definiemo ovako:
( ) ( ) ( ) ( )
1 2
, , ... , .
n
L f x f x f x 0 0 0 0 =
Nakon to smo definisali funkciju vjerodostojnosti, traimo za koje 0 ona dostie svoj maksimum. Moemo se
posluiti diferencijalnim raunom, jer znamo da e se taka maksimuma date funkcije nalaziti meu stacionarnim
takama, tj. za one 0 za koje je ( ) 0.
dL
L
d
0
0
' = = Poto je funkcija ( ) L 0 data u obliku proizvoda nekoliko
faktora, zgodno ju je najprije logaritmirati, tj. umjesto rjeavanja jednaine 0
dL
d0
= rjeavamo jednainu
( ) ln
0.
d L
d0
= naime, funkcija ( ) ln L 0 postie svoj maksimum (ako ga ima) za istu vrijednost parametra 0 za
koju se dobije maksimum funkcije ( ). L 0

Primjer 1: Data je raspodjela sluajne promjenljive X,
2 0 7
5
, 0 .
2
2 1
5 5 5
X 0
0 0 0
| |
|
= < <
|

|
\ .

a) Nai ocjenu parametra 0 na osnovu uzorka ( ) 0, 2, 7, 2 .
b) Nai ocjenu parametra 0 na osnovu uzorka obima n, u kome se broj ( ) 2 pojavljuje k puta u uzorku, a broj 0
se pojavljuje m puta, 0 , 0 . k n m n < s < s .

Rjeenje: a) ( ) ( ) ( ) ( ) ( )
3
2
0 2 7 2 1 .
5 5
L P X P X P X P X
0 0
0
| | | |
= = = = = =
| |
\ . \ .

Otuda je ( ) ( )
3
2
ln ln ln 1 3ln 3ln5 ln 5 2 ln5.
5 5
L
0 0
0 0 u
| | | |
= + = +
| |
\ . \ .

Slijedi:
( ) ( )
ln
3 2
.
5 2
d L
d
0
0 0 0
=


Dalje rjeavamo jednainu
( )
3 2 15
0 3 5 2 2 0 .
5 2 8
0 0 0
0 0
= = =



b) Poto je n obim uzorka, oito se broj 7 pojavljuje ( ) n k m + puta u uzorku. Tada je
( )
2
1 ,
5 5 5
k m n k m
L
0 0 0
0

| | | | | |
=
| | |
\ . \ . \ .
pa je ( )
2
ln ln ln 1
5 5
k m n k m
L
0 0
0
+
| | | |
= + =
| |
\ . \ .
( ) ( ) ( ) ( ) ( ) ln ln5 ln 5 2 ln5. k m k m n k m n k m 0 u + + +
Slijedi:
( ) ( ) ( )
( )( ) ( )
ln 2
0 5 2 2 0.
5 2
d L n k m k m
k m n k m
d
0
0 0
0 0 0
+
= = + =


Rjeavanjem ove jednaine dobijemo da je
( ) 5
.
2
k m
n
0
+
=

Primjer 2: Sluajna promjenljiva X date populacije ima raspodjelu


2 2 2 2
0 2 4 6
.
1 2 6 9
1
X
u u u u
| |
|
=
|

|
\ .


a) Odrediti u kojim granicama se kree parametar u ?
b) Na osnovu uzorka (0, 2, 2, 4, 4, 6) ocjeniti parametar u metodom
maksimalne vjerodostojnosti .

Primjer 3: Raspodjela sluajne promjenljive X data je gustinom
( )
2
2
2 2
, 0
.
0, 0
x
e x
f x
x
0
0t

>


Nai ocjenu parametra 0 metodom maksimalne vjerodostojnosti na osnovu uzorka ( )
1 2
, ,..., .
n
x x x

Rjeenje: ( )
2
2 2 2
1 2
1
2
2 2 2
2 2 2 2 2 2 2 2
...
n
i
n
i
n
x
x x x
L e e e e
0
0 0 0
0
0t 0t 0t 0t
=

| |
= =
|
|
\ .

( )
2 2
1 1
2 2 2 2
ln ln ln 2 2 ln ln ,
n n
i i
i i
L n x n n n x 0 0 t
0 0 0t = =
= =

pa je
( ) ( )
2
2 2 1
2 2
1 1
1
4
ln
2 2
2
0 .
2
n
i n n
i
i i
i i
x
d L
n
n x x
d n
0
0
0
0 0 0 0 0
=
= =

= + = = =



Primjer 4: Sluajna promjenljiva X ima normalnu raspodjelu sa funkcijom gustine vjerovatnoe
( )
( )
2
2
2
1
, .
2
x m
f x e x
o
o t

= e Na osnovu uzorka ( )
1 2
, ,...,
n
x x x ocjeniti parametar m metodom maksimalne
vjerodostojnosti.

3. Intervalne ocjene parametara

Neka je X sluajna promjenljiva ija raspodjela zavisi od parametra . 0 Kod intervalne ocjene tog parametra treba
nai dva broja,
1
u i
2
u tako da je
1 2
. u u 0 s s

Defincija: Kaemo da je ( )
1 2
, u u interval povjerenja (interval pouzdanosti) za parametar 0 ako je
( )
1 2
P u u 0 | s s = za unaprijed datu vjerovatnou . | Broj | zovemo koeficijent pouzdanosti ili nivo
povjerenja.

Ako je npr. ( )
1 2
0, 95, P u u 0 s s = tada moemo tvrditi da je ( )
1 2
, u u 0e tana tvrdnja sa vjerovatnoom 0,95.
Inae, najee se uzima da je 0, 95 | = ili 0, 99. | =
Pretpostavimo da je X sluajna promjenljiva koja ima normalnu raspodjelu,
( )
2
, . X N m o Izveemo obrazac
za matematiko oekivanje m sluajne promjenljive X u dva sluaja: kad se zna i kad se ne zna disperzija
raspodjele
2
. o

Pretpostavimo najprije da znamo vrijednost disperzije
2
o i da smo iz osnovne normalne populacije dobili uzorak
( )
1 2
, ,..., .
n
x x x Tada aritmetika sredina uzorka
1 2
...
n
x x x
x
n
+ + +
= ima takoe normalnu raspodjelu, ali tipa
2
, . N m
n
o | |
|
\ .
Tada vrlo lako dobijemo sluajnu promjenljivu tipa ( ) 0,1 , N naime ( ) 0,1 .
x m
Z N
n
o

=
Za dati nivo povjerenja | elimo nai broj z
|
takav da je
( )
. P Z z
|
| s = Poznato nam je iz osobina normalne
raspodjele da je
( ) ( ) ( ) ( ) ( ) ( )
2 . P z Z z z z z z z
| | | | | | |
s s = u u = u + u = u Otuda zakljuujemo da je
z
|
rjeenje jednaine
( )
.
2
z
|
|
u =
S druge strane, iz z Z z
| |
s s slijedi:
, , .
x m
z z x m z z m x z x z
n n n n
n
| | | | | |
o o o o
o
( (
s s e e +
( (


Dakle, , I x z x z
n n
| |
o o (
= +
(

je traeni interval povjerenja ako se zna vrijednost disperzije populacije
2
. o

Pretpostavimo sada da ne znamo vrijednost disperzije
2
o i da smo iz osnovne normalne populacije dobili uzorak
( )
1 2
, ,..., .
n
x x x Osim aritmetike sredine uzorka
1 2
...
,
n
x x x
x
n
+ + +
= izraunaemo i uzoraku disperziju
( )
2
2
1
.
n
i
i
x x
s
n
=


Sluajna promjenljiva
1
x m
T
s
n

ima Studentovu raspodjelu sa ( ) 1 n stepeni slobode. Za dati nivo povjerenja


| iz tablica Studentove raspodjele moe se oitati broj
1;1 n
t
|
takav da je
( )
1;1
.
n
P T t
|
|

s = No, s druge
strane:
1;1 1;1 1;1 1;1 1;1
1
n n n n n
x m
T t t T t t t
s
n
| | | | |

s s s s s


1;1 1;1
, .
1 1
n n
s s
x m t t
n n
| |
(
e
(



Odavdje se odmah dolazi do formule:
1;1 1;1
, .
1 1
n n
s s
m x t x t
n n
| |
(
e +
(




Primjer: U sljedeoj tabeli prikazan je radni sta (u godinama) 100 ofera autobusa gradskog saobraaja.

Radni sta Broj radnika
0 2 4
2 4 10
4 6 55
6 8 25
8 10 6

Nai interval povjerenja za srednji sta ofera ako je nivo povjerenja | = 0,90.

Rjeenje: Napravimo detaljniju tabelu:

Klase Sredine klasa Frekvencije
i i
x f
( )
2
i
x x
( )
2
i i
f x x
0 2 1 4 4 19,36 77,44
2 4 3 10 30 5,76 57,60
4 6 5 55 275 0,16 8,80
6 8 7 25 175 2,56 64,00
8 10 9 6 54 12,96 77,76
SUMA 100 n = 538 285,60

Iz ove tabele se dalje dobije:
538
5, 38,
100
x = =
2 285, 60
2,856 1, 69.
100
s s = = =
Iz tablica Studentove raspodjele oita se broj
1;1 99;0,1
1, 645
n
t t
|
= = . Traeni interval povjerenja glasi:
| |
1, 69 1, 69
5, 38 1, 645 ;5, 38 1, 645 5,1;5, 66 .
99 99
I
(
= + =
(


Zadatak: Iz normalno rasporeene populacije izvaen je uzorak
(1,45 ; 1,67; 1,22 ; 2,41 ; 2,26 ; 1,72 ; 2,02; 1,59; 1,94; 1,66).
Nai interval povjerenja za matematiko oekivanje m ako je nivo povjerenja | = 0,95.





4. Testiranje parametarskih hipoteza

Pod hipotezom u statistici podrazumijevamo tvrdnju koja se odnosi na raspodjelu vjerovatnoa neke sluajne
promjenljive. Ako se pri tome u raspodjeli pojavljuje neki parametar 0 i hipotezom se tvrdi neto za vrijednost
tog parametra, takvu hipotezu zovemo parametarskom.
Kad se tek postavi statistika hipoteza, ne znamo da li je ona tana, pa se mora vriti provjera tanosti, koju jo
zovemo verifikacija ili testiranje statistike hipoteze. Metode kojima se vri ta verifikacija zovu se testovi.
Njihovom primjenom moemo zakljuiti da je neka hipoteza tana ili pogrena sa odreenom vjerovatnoom, koja
je najee blizu broja 1.
U postupku verifikacije, statistiku hipotezu koju testiramo proglaavamo osnovnom, tzv. nultom hipotezom
0
. H
Hipotezu koja tvrdi suprotno od nulte zovemo alternativnom hipotezom i oznaavamo sa
1
. H Rezultat testiranja
e biti da se prihvati nulta ili alternativna hipoteza. Dobijeni zakljuak, naravno podloan je greki. Greka koju
inimo prihvatanjem jedne od dvije hipoteze izraena je brojem koga zovemo rizik ili prag znaajnosti i
oznaavamo ga slovom . o Broj o je zapravo vjerovatnoa da je zakljuak kojeg smo donijeli pogrean. Najee
se uzima da je 0, 05 o = ili 0, 01. o =
Jo ranije istaknuto je da se statistika ispitivanja, pa i testiranja hipoteza vrlo esto ne vre na cijeloj populaciji
(kad one imaju puno elemenata), nego se na sluajan nain odabire tzv. uzorak, koji treba da bude
reprezentativan, tj. da predstavlja cijelu populaciju. Zato se, u sluaju da je testiranjem potvrena ispravnost nulte
hipoteze, kae da uzorak ne protivrjei nultoj hipotezi.
Vidjeemo postupak testiranja parametra m (matematiko oekivanje, srednja vrijednost) u normalnoj raspodjeli
u dva sluaja: kad se zna i kad se ne zna disperzija te raspodjele.

Pretpostavimo da sluajna promjenljiva X ima normalnu raspodjelu sa poznatom disperzijom o i da smo dobili
uzorak ( )
1 2
, ,..., .
n
x x x elimo testirati hipotezu da je
0
m m = neka konkretna vrijednost parametra m. Otuda
postavljamo da je nulta hipoteza
0 0
: H m m = i alternativna hipoteza
1 0
: . H m m =
Aritmetika sredina uzorka
1 2
...
n
x x x
x
n
+ + +
= ima takoe normalnu raspodjelu, tipa
2
, . N m
n
o | |
|
\ .
Odatle
slijedi da je ( )
0
0,1 .
x m
Z N
n
o

=
Za dati rizik o postoji broj z
o
takav da je
( ) ( ) ( )
1
1 2 1 .
2
P Z z z z
o o o
o
o o

s = u = u =
Broj z
o
emo nai iz tablica Laplasove finkcije.
Ako je , Z z
o
> hipoteza
0
H se odbacuje, dakle prihvata se alternativna hipoteza. Ako je , Z z
o
< hipoteza
0
H
se prihvata kao tana.

Ukoliko u normalnoj raspodjeli disperzija o nije poznata, iz uzorka ( )
1 2
, ,...,
n
x x x emo izraunati uzoraku
sredinu
1 2
...
n
x x x
x
n
+ + +
= i uzoraku disperziju
( )
2
2
1
.
n
i
i
x x
s
n
=

Sluajna promjenljiva
0
1
x m
T
s
n

ima
Studentovu raspodjelu sa ( ) 1 n stepeni slobode. Za dati rizik o iz tablica Studentove raspodjele oita se broj
1; n
t
o
takav da je
( )
1;
1 .
n
P T t
o
o

s = Ako je za dati uzorak


1; n
T t
o
> hipoteza
0
H se odbacuje, a ako je
1;
,
n
T t
o
< dati uzorak ne protivrjei nultoj hipotezi, pa se ona prihvata u tom sluaju.

Primjer: Moe li se na osnovu uzorka od 50 kutija ibica smatrati da fabrika pakuje prosjeno po 50 drvaca u
kutiju, ako su brojanjem drvaca u uzorku od 50 kutija dobijeni sljedei rezultati:

Broj drvaca Broj kutija Sredine klasa
43 44 2 43,5
45 46 3 45,5
47 48 8 47,5
49 50 11 49,5
51 52 12 51,5
53 54 9 53,5
55 56 3 55,5
57 58 2 57,5

Dobije se:
50, 58 50
50, 58; 3, 26; 1, 23.
3, 26
49
x s T

= = = =
S druge strane je za rizik 0, 05, o =
49;0,05
1, 96 t = . Ako bismo uzeli 0, 01, o = dobili bismo
49;0,01
2, 576. t = Znai,
u svakom sluaju je
49;
, T t
o
< pa se prihvata nulta hipoteza.
Zadatak: Testirati hipotezu uz rizik 0, 05 o = da je srednja teina proizvedenih artikala 30 grama, ako se uzeo
uzorak od 10 proizvoda kod kojih su izmjerene teine: 30,36; 30,85; 29,91; 29,35; 29,99; 30,31; 30,64; 29,42;
30,51; 30,11.
Da li bismo dobili isti zakljuak sa istim uzorkom iz populacije sa normalnom raspodjelom kod koje je poznata
disperzija
2
2, 25? o =



5. Linearna regresija
Neka su X i Y diskretne sluajne promjenljive koje su date svojim uzorcima obima n: ( )
1 2
, ,...,
n
x x x i
( )
1 2
, ,..., .
n
y y y elimo ustanoviti da li postoji linearna veza izmeu X i Y, tj.
0 1 0 1
, , . Y a a X a a = + e To bi
znailo da je ( )
0 1
1, 2,..., .
k k
y a a x k n = + =
Ovaj problem se moe posmatrati i na sljedei nain. Pretpostavimo da nam je u koordinatnom xOy sistemu
zadano n taaka svojim koordinatama: ( ) ( ) ( )
1 1 2 2
, , , ,..., , .
n n
x y x y x y Moe li se kroz te take povui neka prava?
Problem se uoptava tako da se pokuava umjesto prave povui neka neprekidna kriva, npr. parabola
2
0 1 2
, y a a x a x = + + kubna parabola, eksponencijalna ili logaritamska kriva, itd.
Najee je nemogue nai pravu, odnosno neku neprekidnu krivu koja bi sadravala sve zadane take. Zato se
onda trai prava (odnosno kriva) koja bi prolazila to blie zadanim takama. Ovaj postupak se zove regresija.
Ukoliko se ona realizira preko linearne funkcije, tj. pomou prave, zovemo je linearna regresija, a dobijenu pravu
zovemo regresiona prava.
Postupak regresije najee provodimo pomou metode najmanjih kvadrata.
Neka je
0 1
y a a x = + regresiona prava, a
1 2
, ,...,
n
c c c redom odstojanja datih taaka od regresione prave. To su
zapravo greke koje inimo u postupku linearne regresije. elimo da su te greke to manje. U idealnom sluaju,
kad sve zadane take lee na regresionoj pravoj je
1 2
... 0.
n
c c c = = = = To je ekvivalentno sa
2 2 2
1 2
... 0.
n
c c c + + + = Znamo da je zbir kvadrata nekoliko realnih brojeva jednak nuli ako i samo ako su svi ti
brojevi nula. Otuda je ideja da se zahtjeva da suma
2 2 2
1 2
...
n
c c c + + + bude to manja. Imamo da je
1 0 1 1 1 2 0 1 2 2 0 1
, ,..., ,
n n n
a a x y a a x y a a x y c c c = + = + = + pa ako sumu
2 2 2
1 2
...
n
c c c + + + oznaimo kao
( )
0 1
, S a a jer je to oito funkcija promjenljivih
0
a i
1
, a onda je
( ) ( ) ( ) ( )
2 2 2
0 1 0 1 1 1 0 1 2 2 0 1
, ... .
n n
S a a a a x y a a x y a a x y = + + + + + +
Primjeniemo poznati postupak za nalaenje ekstrema funkcije dvije nezavisne promjenljive. Znamo da takva
funkcija dostie svoj minimum u takama u kojima su parcijalni izvod po obje nezavisne promjenljive jednaki nuli.
Dakle,
( ) ( )
0 1
1 0
2 0 ...... 1
n
i i
i
S
a a x y
a
=
c
= + =
c


( ) ( )
0 1
1 1
2 0.... 2
n
i i i
i
S
x a a x y
a
=
c
= + =
c


Obje jednaine moemo podijeliti sa 2. Iz (1) tada slijedi:
( )
0 1 0 1
1 1 1 1 1
0 .............. 3 .
n n n n n
i i i i
i i i i i
a a x y na a x y
= = = = =
+ = + =


Iz (2) slijedi:
( )
2 2
0 1 0 1
1 1 1 1 1 1
0 ... 4 .
n n n n n n
i i i i i i i i
i i i i i i
a x a x x y a x a x x y
= = = = = =
+ = + =



Rjeavanjem sistema linearnih jednaina koga ine jednaine (3) i (4) dobiemo parametre
0
a i
1
a u jednaini
regresione prave
0 1
. y a a x = + Dakle, rjeavaemo sistem jednaina:
0 1
1 1
n n
i i
i i
na a x y
= =
+ =


2
0 1
1 1 1
n n n
i i i i
i i i
a x a x x y
= = =
+ =


Jednaina regresione prave se moe traiti i u obliku
0 1
. x b b y = + Tada bismo koeficijente
0
b i
1
b traili
rjeavanjem sistema jednaina
0 1
1 1
n n
i i
i i
nb b y x
= =
+ =


2
0 1
1 1 1
n n n
i i i i
i i i
b y b y x y
= = =
+ =


Greka koju pravimo ovim raunom izraena je preko tzv. standardne greke regresije.
1) Ako je dobijena prava
0 1
, y a a x = + standardna greka regresije je
( )
( )
2
1 0
1
.
n
i i
i
y a x a
S Y
n
=

=



2) Ako je dobijena prava
0 1
, x b b y = + standardna greka regresije je
( )
( )
2
1 0
1
.
n
i i
i
x b y b
S X
n
=

=


Koeficijent korelacije mjeri koliko je linearna povezanost sluajnih promjenljivih X i Y. To je broj
( ) ( )
( ) ( )
1
2 2
1 1
.
n
i i
i
n n
i i
i i
x x y y
r
x x y y
=
= =

=



Pri tome je
1 1
, .
n n
i i
i i
x y
x y
n n
= =
= =


Imamo da je 1 1. r s s Sluajne promjenljive X i Y se nalaze u veoj linearnoj povezanosti ako je broj r to vei,
tj. ako je to blii broju 1 ili ( ) 1 .

Primjer: Za vrijednosti sluajnih promjenljivih X i Y datih u tabeli nai jednaine regresione prave
0 1
y a a x = + i
koeficijent korelacije:

X 8 8,3 9,1 10,1 10,2 10,5 10,4 9,7 8,5
Y 55,4 54,6 59,6 67,7 68,2 68,2 67,3 61,8 52,5

Dobiju se sljedei rezultati:
9
1
84, 8;
i
i
x
=
=


9
1
555, 3;
i
i
y
=
=

9, 422; x = 61, 7; y =
9
2
1
806, 5;
i
i
x
=
=


9
2
1
34593, 03;
i
i
y
=
=


9
1
5279,88;
i i
i
x y
=
=


0 1
1, 714; 6, 366. a a = =
Jednaina regresione prave glasi 1, 714 6, 366 . y x = +
Koeficijent korelacije je 0, 958. r =
Zadatak: Za vrijednosti sluajnih promjenljivih X i Y datih u tabeli nai jednaine regresione
prave
0 1
x b b y = + i koeficijent korelacije:
X 8 8,3 9,1 10,1 10,2 10,5 10,4 9,7 8,5
Y 55,4 54,6 59,6 67,7 68,2 68,2 67,3 61,8 52,5











6. Test kontigencije (testiranje neparametarskih hipoteza)
Pretpostavimo da sluajna promjenljiva X ima vrijednosti { }
1 2
, ,..., ,
k
A A A a sluajna promjenljiva Y ima
vrijednosti { }
1 2
, ,..., .
l
B B B elimo ustanoviti da li su sluajne promjenljive X i Y meusobno nezavisne. U
uzorku obima n konstatovano je
ij
n sluajeva kod kojih je
i
X A = i
j
Y B = ( ) 1, 2,..., ; 1, 2,..., . i k j l = =
Dobijene brojeve smjestiemo u tzv. tabeli kontigencije.

Y
B
1
B
2
... B
l 0 i
n
X
1
A
11
n
12
n ...
1l
n
10
n
2
A
21
n
22
n ...
2l
n
20
n
... ... ... ... ... ...
k
A
1 k
n
2 k
n ...
kl
n
0 k
n
0 j
n
01
n
02
n ...
0l
n n

Zadnja vrsta i zadnja kolona u ovoj tabeli slue za sumiranje kolona, odnosno vrsta. Naime,
01 11 21 1
... ,
k
n n n n = + + +
02 12 22 2
... ,
k
n n n n = + + + ...,
0 1 2
... ,
l l l kl
n n n n = + + +
10 11 12 1
... ,
l
n n n n = + + +
20 21 22 2
... ,
l
n n n n = + + + ...,
0 1 2
... ,
k k k kl
n n n n = + + +
01 02 0 10 20 0
... ... .
l k
n n n n n n n = + + + = + + +
Dakle, broj n (obim uzorka) predstavlja sumu svih brojeva u tabeli.
Primjer 1: 60 mukaraca i 40 ena je anketirano sa pitanjem koja im je omiljena boja izmeu tri
ponuene: ljubiaste, bijele i plave. Rezultati ankete su da je ljubiasta boja omiljena za 10 mukaraca i
20 ena, bijela za 20 mukih i 10 ena, a plavu voli 30 mukaraca i 10 ena. Prema tome moemo
napraviti sljedeu tabelu:



Spol
M
0 i
n
Boja
Ljubiasta 10 20 30
Bijela 20 10 30
Plava 30 10 40
0 j
n
60 40 100

Sada na osnovu ovih podataka moemo testirati da li postoji veza izmeu spola i odnosa prema bojama.
Za proizvoljno { } 1, 2,..., i k e i { } 1, 2,..., j l e neka je
( ) ( ) ( ) ( ) ( ) 0 0
, , .
i i j j ij i j
p P X A p P Y B p P X A Y B = = = = = = =
U skladu sa poznatom definicijom dva nezavisna dogaaja, moemo smatrati da su promjenljive X i Y
nezavisne ako je
0 0 ij i j
p p p = za sve { } { } 1, 2,..., , 1, 2,..., . i k j l e e Otuda emo, kao i kod testiranja
parametarskih hipoteza postaviti nultu hipotezu { } { } ( )
0 0 0
: 1, 2,..., , 1, 2,..., .
ij i j
H p p p i k j l = e e Njoj je
suprotstavljena alternativna hipoteza
1 0 0
:
ij i j
H p p p = za bar jedno { } 1, 2,..., i k e i bar jedno
{ } 1, 2,..., . j l e Poto su nam brojevi
0 0
, ,
ij i j
p p p nepoznati, moemo napraviti procjene:
{ } { }
0 0 0
0
0 0 2
1, 2,..., 1, 2,..., ,
j i j
i
i j ij
n n n
n
i k j l p p p
n n n

e . e ~ ~ ~ u sluaju nezavisnosti promjenljivih


X i Y.
Neka je

{ } { } ( )
1, 2,..., , 1, 2,..., .
ij ij
p np i k j l = e e Sluajna promjenljiva

( )

2
2
1 1
k l
ij i j
i j
i j
n p
p
_
= =

ima
2
_
raspodjelu sa ( )( ) 1 1 k l stepeni slobode. Za dati rizik (koji ima isto znaenje kao i kod
parametarskih hipoteza) u tablici
2
_ raspodjele oitamo broj
( )( )
2
; 1 1
.
k l o
_


Ako je
( )( )
2 2
; 1 1
,
k l o
_ _

< prihvata se nulta hipoteza o nezavisnosti promjenljivih X i Y, a ako je
( )( )
2 2
; 1 1
,
k l o
_ _

> hipoteza
0
H se odbija.
Primjer 2: Prema podacima iz primjera 1, imamo da je

11
30 60
18,
100
p

= =

12
30 40
12,...
100
p

= =

32
40 40
..., 16.
100
p

= =
( ) ( ) ( ) ( ) ( ) ( )
2 2 2 2 2 2
2
10 18 20 12 20 18 10 12 30 24 10 16
13,19.
18 12 18 12 24 16
_

= + + + + + =
S druge strane, poto je ( )( ) 3, 2 1 1 2 k l k l = = = imamo da je
( )( )
2 2
0,05;2 ; 1 1
5, 991.
k l o
_ _

= = Otuda sa
rizikom 0, 05 o = odbacujemo hipotezu o nezavisnosti pola i odnosa prema bojama.
Zadaci
1. Tri maine proizvode artikle koji mogu biti I i II klase. Uzet je sluajan uzorak od 200 artikala i
uoen je slijedei broj artikala I i II klase:

Klasa
Maina
A
Maina
B
Maina
C
I 20 52 51
II 31 20 26
Testirati hipotezu da kvalitet proizvoda ne zavisi od maine na kojoj je proizveden sa rizikom 0, 05 o = .
2. Testirati hipotezu o nezavisnosti obolijevanja ljudi od gripe i cijepljenja ljudi od gripe na osnovu
uzorka od 9300 ljudi sa rizikom 0, 05 o = i prema podacima u tabeli:

Oboljeli Nisu oboljeli
Necijepljeni 402 2497
Cijepljeni 11 mjeseci
prije epidemije
372 3789
Cijepljeni 1 mjesec
prije epidemije
131 2109

3. Na sluajan nain je izabrano 2000 porodica i dobijeni su sljedei rezultati o posjedovanju
satelitskog resivera.

Srednji mjeseni prihod
u porodici
PORODICE
Imaju sat. resiver Nemaju sat. resiver
do 1000 KM 404 231
1000 1200 486 300
1200 1400 242 137
1400 1600 57 44
1600 1800 29 28
Vie od 1800 24 18

Sa rizikom 0, 01 o = testirati hipotezu da posjedovanje satelitskog resivera ne zavisi od srednjeg
mjesenog prihoda u porodici.
4. Testirati hipotezu o nezavisnosti boje kose (veliina X) i boje oiju (veliina Y) kod ljudi na
osnovu uzorka uzetog kod 6800 osoba sa rizikom o = 0,01 :







Svjetla Smea Crna Crvena
Plave 1768 807 189 47
ute/Zelene 946 1387 746 53
Tamne 115 438 288 16