Sadržaj

1. Uvod u Excel ..............................................................................................................................2 1.1. Startovanje Excela...............................................................................................................3 1.2. Radno okruženje.................................................................................................................3 1.3. Radni papir i ćelija..............................................................................................................3 1.4. Upisivanje i kretanje po ćelijama .....................................................................................5 1.5. Formatiranje ćelija ..............................................................................................................6 1.6. Formatiranje decimalnih brojeva .....................................................................................6 1.7 Menjanje boje pozadine i teksta ćelije..............................................................................7 1.8 Podešavanje širine i visine ćelija. Ubacivanje i izbacivanje redova i kolona ..............7 1.9 Spajanje ćelija .......................................................................................................................8 1.10 Uokvirivanje ćelija.............................................................................................................8 1.11 Premeštanje i kopiranje ćelija ..........................................................................................9 1.12 Snimanje i zatvaranje dokumenta.................................................................................10 1.13 Otvaranje novog i postojećeg dokumenta ...................................................................10 1.14 Rad sa formulama ...........................................................................................................10 1.15 Fiksiranje ćelija u formulama.........................................................................................11 1.16 Grafikoni...........................................................................................................................12 2. Funkcije raspodele u Excelu ..................................................................................................15 2.1. Binomna raspodela...........................................................................................................16 2.2. Poasonova raspodela .......................................................................................................21 Srednja vrednost i disperzija .............................................................................................21 Aproksimacija binomne raspodele Poasonovom ...........................................................21 2.3. Normalna raspodela ........................................................................................................26 3. Empirijska raspodela u Excelu ..............................................................................................34 3.1. Osnovni pojmovi .........................................................................................................35 3.2 Empirijska raspodela ..................................................................................................37 Intervalno sređivanje podataka.........................................................................................41 4. Intervalne ocene parametara .................................................................................................47 raspodele.......................................................................................................................................47 4.1 Ocena srednje vrednosti normalne raspodele sa poznatom disperzijom ..............48 4.2 Ocena srednje vrednosti normalne raspodele nepoznate disperzije ........................53 5. Analiza korelacije ....................................................................................................................59 5.1 Uzorački koeficijent korelacije.........................................................................................62 5.2 Regresione prave ...............................................................................................................65 5.3 Provera značajnosti korelacije .........................................................................................68 5.4 Interpretacija koeficijenata korelacije .............................................................................70 6. Regresiona analiza...................................................................................................................72

6.1 Metod najmanjih kvadrata...............................................................................................75 6.2 Srednje kvadratno odstupanje empirijske formule ......................................................77 6.3 Koeficijent determinacije ..................................................................................................77 6.4 Određivanje pravolinijske zavisnosti .............................................................................78 6.5 Intervali poverenja odsečka i nagiba ..............................................................................86 6.6 Testiranje hipoteza u vezi sa odsečkom i nagibom .....................................................89 6.7 Linearizovane dvoparametarske empirijske formule.................................................90 Literatura ....................................................................................................................................100

1

1. Uvod u Excel

2

1.1. Startovanje Excela
Microsoft Excel je program za tabelarna proračunavanja. Osnovna osobina vršenja takvih proračuna na računaru je da se izmenama određenih podataka menjaju i vrednosti koje su zasnovane na njima. Startovanje Excel-a se vrši preko ikone na desktopu. Dupli klik mišem na ikonu Microsoft Excel i program je pokrenut. Ukoliko ikone programa nema na desktopu tada je Excel potrebno pokrenuti prko Start menija, menija Programs, a zatim kliknuti na Microsoft Excel.

1.2. Radno okruženje
Radno okruženje Excel-a čine : Naslovna linija (Title Bar) – se nalazi na samom vrhu ekrana i tu se nalazi ispisano ime dokumenta s kojim se trenutno radi i ime programa. Traka sa menijima (Menu Bar) – se nalazi odmah ipod naslovne linije i u njoj se nalaze meniji u kojima su grupisani razni alati. Paleta standard (Standard Toolbar) ili paleta sa standardnim alatkama se nalazi ispod trake sa menijima i sadrži najčešće korištene alate iz menija (novi dokument, otvaranje, snimanje dokumenta, štampanje dokumenta i slično). Paleta Format (Formatting Toolbar) ili paleta za formatiranje sadrži alate koji se koriste za formatiranje teksta, određivanje vrste, veličine i boje slova, poravnavanja teksta ... Traka za formulu (Formula Bar) je traka gde se unosi formula za ćeliju sa kojom radimo. Statusna linija (Status Bar) opisuje u svom levom uglu stanje u kom se nalazi programReady (spreman za rad), Enter (unos u ćeliju), itd. Pord toga u statusnoj liniji možemo videti da li je uključeno prekucavane, kucanje velikih slova itd. Klizači omogućavaju pomeranje papira kako bi se videle sve ćelije.

1.3. Radni papir i ćelija
Radni papir (eng. Worksheet) i ćelija (eng. Cell) su osnovni elementi rada u Excelu. Svaki dokument sa kojim se radiu Excelu naziva se naziva se sveska ili knjiga (eng. Book). Da bi se odvoile značajne celine u okviru jendog dokumenta koriste se radni papiri, koji čine knjigu. Dakle, jedan radni papir može da se koristi za proračun, jedan za grafike itd.

3

Slika 1.1. Sam radni papir sastavljen je od ćelija. Svaka ćelija može sadržati tekst ili brojeve, i za svaku od njih može se definisati tip (tekst, broj, valuta, procenti, datum). Ćelije se u Excel-u mogu povezivati tako da jedna zavise od druge i na taj način formirati formule po kojima se računaju vrednosti. Ubacivanje novog radnog papira- vrši se preko padajućeg menija Insert, opcije Worksheet. Ili, ako se pritisne desni taster miša na bilo koju od kartica postojećih radnih papira, koje se nalaze iznad statusne linije. Otvara se novi meni u kome se odabira opcija Insert, u novootvorenom prozoru dovoljno je kliknuti OK. Uklanjanje radnog papira – vrši se pritiskom desnog tastera miša na karticu radnog papira koji treba obrisati, i u novootvorenom meniju bira se opcija Delete. Otvara se novi prozor u kome se sa OK potvrđuje brisanje, dok se sa Cancel prekida.

4

Menjanje imena radnog papira – koristi se isti meni kao i prethodne dve operacije. Pritisne se desni taster miša na karticu radnog papira čije se ime menja, a zatim u novootvorenom meniju klikne na Rename. Nakon tog upisuje se novo ime i pritisne taster Enter. Premeštanje i kopiranje radnog papira- ponekad je potrebno promeniti redosled radnih papira. Za to se koristi opcija Move or Copy. Otvara se prozor kao sa slike. Otvara se prozor kao sa slike. Polje To Book govori u koju knjigu (dokument) se premešta radni papir. Polje Before Sheet ukazuje na to pre kog radnog papira želimo da postavimo odabrani radni papir. Opcije move to end papir šalje na kraj knjige (dokumenta). Ukoliko je otkačeno polje Create a copy biće napravljena kopija radnog papira. Na kraju se sa OK potvrđuju odabrane opcije. Sekektovanje radnih papira – kada je potrebno obrisati više radnih papira ili se nad njima vrše neke izmene, potrebno ih je prvo označiti – selektovati. Selektovanje se vrši pritiskom na levi taster miša na kartice radnih papira koje se nalaze iznad statusne linije, držeći taster Control – za pojedinačno selektovanje, ili taster Shift- za selektovanje susednih radnih papira.

1.4. Upisivanje i kretanje po ćelijama
Da bi se podatak u određenu ćeliju potrebno je da se levim tasterom miša klikne na nju. Ćelija postaje uokvirena crnim pravougaonikom, kao na slici gore. Pritiskom na bilo koji taster sa tastature počinje unos podataka u selektovanu ćeliju. Nakon ukucavanja teksta dovoljno je pritisnuti Enter ili strelicama pomeriti kursor na neku drugu ćeliju. Excel sam rapspoznaje određene tipove podataka. Brisanje teksta iz ćelije se vrši ozmačavanjem ćelije koja se briše a zatim se pritisne taster Delete. Moguće je obrisati i više ćelija odjednom tako što se prvo sve selektuju, a zatim se pritisne taster Delete. Pomeranje kurora na određenu ćeliju najlakše je izvršiti klikom levog miša na tu ćeliju. Međutim u kompleksnijim tabelama koje prelaze jednu stranu radnog papira lakše je nekad direktno otići na željenu ćeliju. Za to se koristi padjući meni Edit i opciju Go To. U novom prozoru u polju Go To dovoljno je ukucati poziciju ćelije, recimo A70 u pritisnuti OK i kursor će se naći na navedenom mestu.

5

1.5. Formatiranje ćelija
Formatiranje ćelija podrazumeva podešavanje tipa ćelije (broj, tekst, datum ili valuta), nameštanje poravnanja, vrste slova i veličine, kao i nekoliko drugih opcija. Podešavanje tipa ćelije- većina gore navedenih podešavanja vrši preko padajućeg menija Format opcije Cells. Nakon pokretanja ove opcije otvara se prozor kao sa slike. U polju Category pojavljuje se lista mogućih tipova podataka u ćeliji. U polju Sample vidi se kako će izgledati podatak nakon promene tipa. Nekoliko bitnih tipova su : Numberpredstavlja broj, i u ovoj opciji moguće je birati zapis broj kao i broj decimalnih mesta; Date – predstavlja datum, bira se zapis datuma, kod nas je na primer dd-mm-yyyy (danmesec-godina); Time predstavlja vreme i bira se načina zapisa vremena, kod nas hh:mm::ss (sati, minute, sekunde), koristi se i Custom koji predstavlja korisnički tip. Poravnjanje teksta u ćeliji – poravnanje teksta se vrši kako horizontalno tako i vertikalno. Horizontalno poravnanje moguće je izvršiti iz Palete Format koristeći koji redom centriraju tekst levo, u sredinu i desno, poslednje dugme služi za spajanje ćelija u jednu i centriranje teksta koji se nalazi u njima u sredinu. Vertikalno poravnanje kao i horizontalno vrši se preko opcije Format Cells iz padajućeg manija Format. Odabirom kartice Alignment pojavljuje se prozor kao na slici. Polje horizontal predstavlja horizontalno poravnanje, preko polja indent moguće je postaviti koliko će tekst biti omeren od leve ivice ćelije. Polje Orientation nudi mogućnost da se tekst okreće u ćeliji pod određenim uglom. Veoma bitne su stavke pod poljem Text Control. Ako je otkačeno Wrap Text tadaće tekst ukoliko ne može da stane u ćeliju biti prelomljen u dva ili više redova. Ukoliko je otkačeno polje Shrink to fit tada će veličina slova biti smanjena tako da tekst staje u ćeliju. Merge Cells služi za spajanje ćelija. Podešavanje slova u ćeliji – veličina i tip slova može se desiti preko Palete Format za promenu tipa slova i za promenu veličine slova. koristeći Tekst je moguće iskoristiti i za podebljanje, zakrivljenje ili podvlačenje teksta. Za to se koriste ikone .

1.6. Formatiranje decimalnih brojeva
Kod unosa brojeva može se unapred odrediti željeni broj decimala. To se radi na sledeći način: 1. Označi se ćelija ili ćelije kojima se određuje broj decimala. 2. U padajućem meniju Format odabere se opcija Format Cells.

6

3. U kartici Number u polju Category, odabere se Number, tada se pojavljuju opcije kao na slici. 4. U polju Decimal places bira se broj decimala, ako se otkaći polje Use 1000 separator koristiće se razdvajanje preko 1000 sa zarezom a u polju Negative number bira se izgled negativnog broja. Decimale se mogu nameštati i preko ikonica iz palete Format. Brojevima u označenim ćelijama pritiskom na prvu ikonicu povećava se broj decimala, a na drugu smanjuje.

1.7 Menjanje boje pozadine i teksta ćelije
Boja pozadine ćelija menja se na sledeći način: 1. Označi se ćelija čija se boja pozadine menja. 2. Levim tasterom miša pritisne se crna sterlica pored ikone kantice u Paleti Format, pojavljuje se prozor kao na slici. 3. Odabira se boja za popunjavanje pozadine selektovanih ćelija, i time je bojenje pozadine završeno. Boja teksta u ćelijama menja se na sledeći način: 1. Označi se ćlija čija se boja teksta menja. 2. Levim tasterom miša pritisne se na crnu strelicu pored ikone . 3. U prozoru kao na slici odabere se nova boja teksta u ćelijama

1.8 Podešavanje širine i visine ćelija. Ubacivanje i izbacivanje

redova i kolona
Širina kolone se podešava tako što : 1. Kursor miša postavlja se na ivicu polja sa imenom kolone označene slovom iznad ćelija. Kursor miša postaje crna uspravna linija sa strelicama u levo i desno. 2. Držeći pritisnut levi taster miša pomera se širina kolone B koliko je potrebno. 3. Na kraju se pusti levi taster miša. Visina reda menja se na sličan način: 1. Kursor miša postavlja se na ivicu polja sa brojem reda levo od ćelija. Kursor miša postaje vertikalna crna crtica sa strelicama na gore i dole.

7

2. Držeći pritisnut levi taster miša, miš se povlači na gore il na dole smanjujući ili povećavajući tako visinu reda. 3. Nakon nameštanja pušta se levi taser miša. Kolona se dodaje tako što: 1. Kursor se pozicionira u ćeliju koja pripada koloni ispred koje se ubacuje nova kolona. 2. U padajućem maniju Insert odabere se opcija Columns. Red se dodaje tako što: 1. Kursor se pozicionira u ćeliju koja pripada redu iznad kojeg se ubacuje novi red. 2. U padajućem meniju Insert odabere se opcija Rows. Brisanje kolone ili reda vrši se tako što: 1. Desnim tasterom miša klikne se na ime kolone ili broj reda. 2. U novotvorenom meniju odabere se opcija Delete. Nakon toga ako je obrisana kolona, sve kolone desno od nje premeštaju se ulevo za jedno mesto, a u slučaju brisanja reda za jedno mesto se premeštaju redovi ispod obrisanog reda.

1.9 Spajanje ćelija
Spajanje ćlija podrazumeva spajanje više ćelija u jednu ćeliju. Primer spojenih ćelija, u prikazanoj tabeli , bila bi polja jedan, dva i tri. Spajanje se vrši: 1. Selektuju se ćelije koje treba spojiti. 2. U padajućem meniju Format odabere se Format Cells, a zatim se u kartici alignment otkači polje Merge Cells. 3. Odabir se potvrđuje sa OK. Ponekad se pogrešno spoje ćelija pa je potrebno spojene ćelije vratiti u stanje gde je svaka za sebe, to se radi tako što se označi ćelija nastala spajanjem, a zatim u padajućem meniju Format, u Format Cells u kartici Alignment isključi se otkačeno polje Merge Cells.

1.10 Uokvirivanje ćelija
Iako je radni papir podeljen na ćelije i između njih postoje linije, te tanke linije pri štampanju neće biti vidljive. Da bi se linije tabele naglasiel potrebno je selektovati ćelije čiji okvir se menja i preko padajućeg menija Format Cells, bira se kartica Border, nakon

8

čega se otvara prozor kao na slici. U polju Line bira se vrsta linije kojom se iscrtavaju okviri, i boja linije. U polju Presets bira se None da bi ćelije bile bez okvira a Outline da bi se uokvirile spoljne ivice. Polje Border koristi se i kada nisu potrebne samo spoljne ivice uokvirene, već možda i iscrtane unutrašnje ili dijagonalne linije. Klikom na dugme koje prikazuje pravac linije uključuje ili isključuje iscrtavanje linija tog pravca.

1.11 Premeštanje i kopiranje ćelija
Premeštanje ćelija se vrši tako što se: 1. Selektuju ćelije koje treba premestiti. 2. Kursor miša se pomeri na ivicu selekcije, negde oko crne tamne linije, i tada bi kursor trebalo da se pretvori u belu strelicu. 3. Držeći pristisnut levi taster miša pomeraju se selektovane ćelije na mesto na koje se trebaju premestiti. 4. Pusti se levi taster miša Na ovaj način podaci se više ne nalaze u ćelijama u kojima su bili već samo u onima u koje su premešteni. Ako podaci treba da ostanu i da se pojave u novim ćelijama tada se koristi kopiranje ćelija. Ćelije se kopiraju na sledeći načn: 1. Selektuju se ćelije koje treba kopirati. 2. Pritisne se dugme Copy iz Palete Standard, čime su selektovane ćelije zapamćene u memoriji računara, a oko zapamćenih ćelija se pojavljuje trepćući okvir, nakon toga 3. Levim tasterom miša klikne se na ćeliju gde treba da se nađu kopirane ćelije. 4. Pritisne se dugme Paste iz Palete Standard, i ćelije se pojavljuju na papiru. Koristeći opciju Cut iz Palete Standard umesto Copy ćelije bi bile premeštene, ali bi mogle više puta sa opcijom Paste da se „ispuštaju“ u dokument. Ćelije je moguće iskopirati i koristeći mali crni kvadrat u donjem desnom uglu selekcije. Ako se kursor miša postavina taj mali crni kvadrat on se pretvara crnu strelicu. Pritiskom levog tastera miša, ne puštajući ga može se razvući selektovani deo. Nakon puštanja levog tastera ceo označeni deo biće popunjen prethodno selektovanim delom.

9

1.12 Snimanje i zatvaranje dokumenta
Ako dokument treba sačuvati da bi se kasnije koristio trebalo bi ga snimiti na hard disk. Snimanje dokumenta se vrši tako što se iz padajućeg menija File izabere Save. Ako je to prvi put da se snima taj dokument u kojem se traži da se unese ime tog dokumenta, odnosno pod kojim imenom da se snimi na hard disk (ili diksketu). U polju Save in može se izabrati folder u koji treba smestiti dokument, a može se napraviti i novi folder za ovaj dokument klikom na ikonu Create New Folder. U polju File name treba upisati ime dokumenta i potom kliknuti na dugme Save. Ovim je operacija snimanja dokumenta završena. Ako je dokument koji se snima već ranije snimljen pod tim imenom onda se snimanje obavlja automatski, samo odabirom opcije Save iz File menija. Zatvaranje dokumenta Dokument u Excelu se može zatvoriti na više načina, a najčešće se to vrši klikom na u gornjem desnom uglu prozora. Drugi način za zatvaranje aktivnog dokumenta je da se izabere operacija Close iz padajućeg menija File.

1.13 Otvaranje novog i postojećeg dokumenta
Prilikom svakog startovanja Excel-a otvara se i nova prazna sveska u kojoj se može započeti rad. Ako je potrebno otvoriti novi prazan dokument, koristi se ikona New Blank Document iz Palete Standard, ili opciju New iz padajućeg menija File. Ako treba otvoriti već postojeći dokument, koji se nalazi na disku računara koristi se ikona Open iz palete Standard, ili opcija Open iz padajućeg menija File.

1.14 Rad sa formulama
Najnznačajniji deo Excel-a, suština njegovog korišćenja jesu formule. Pomoću njih se povezuje više ćelija. Excel izračunava prosek, traži najveće vrednosti kao i mnogo toga drugog. U principu rad sa svim formulama je sličan. Aktiviranje formule se izvodi tako što se označi ćelija u koju treba ukucati formulu i pritisne znak = na tastaturi. Time je Excelu naznačeno da će ova ćelija biti upotrebljena za formulu. Menja se izgled trake za fomule (formula bar) koja se nalazi ispod Palete format. Sa leve strane pojavljuje se dugme sa funkcijama, crna strelica služi za odabir nekih funkcija 10

služi za poništavanje formule, a polje za potvrdu koje se često koriste. Polje ukucane formule (umesto čega se jednostavno može pritisnuti Enter na tastaturi). Ukoliko treba po nekoj formuli izračunati vrednosti za niz podataka to se radi na sledeći način: Ako na primer treba pomnožiti sve podatke iz kolone A sa 10, u ćeliji B1 napiše se formula. Zatim se obeleži ta ćelija, klikne se na ikonicu Copy iz palete Standard, nakon toga se obeleži ostatak kolone B koji treba popuniti, i na kraju se klikne na ikonicu Paste iz palete Standard.

Na taj način se naravno mogu kopirati i bilo koje druge formule.

1.15 Fiksiranje ćelija u formulama
Ponekad je potrebno pri kopiranju formula da neke ćelije ostaju fiksirane. Recimo da sve elemente kolone A treba sabrati sa nekom konstantom, npr. 273. Neka je konstanta upisana u ćeliju B1, onda se u koloni C prilikom sabiranja ćelija B1 mora "fiksirati" , tj. mora se staviti znak $ ispred oznake kolone i ispred oznake reda (kao na slici), a zatim se formula kopira na ostale ćelije.

11

1.16 Grafikoni
Za grafičko predstavljanje tabela urađenih u Excel-u koriste se grafikoni. Oni na jednostavan i jasan način prikazuju rast ili pad vrednosti i odnose među njima. Postupak predstavljanja grafikon na radu stranu Excel-a sastoji se iz više koraka. Podrazumeva se da je potrebna tabela na osnovu koje se crta grafik. Izrada grafika može se pokrenuti preko padajućeg menije Insert, opcije Chart ili preko dugmeta u paleti Standard. Otvara se prozor kao naslici. Ovo je prvi od četiri koraka koji se sprovode pri ubacivanju graika u radni list. U prvom koraku bira se vrsta grafika. Klikom na bilo koji član liste polja Chart Type u polju Chart sub-type prikazuju se podtipovi ovog tipa. Klikom na jedan od podtipova bira se izgled grafika. Za prelazaka na sledećei korak treba kliknuti na Next.

U novom prozoru pojavaljuju se dve kartice. Data range označava mesto na kome se podaci nalaze. Druga stavka je Series, pomoću koje se određuju serije na grafiku, tj. koliko će serija biti, kao i šta se nalazi na x, a šta na y osi. Klikom na Next prelazi se na sledeći prozor.

12

U novom prozoru prva kartica Title služi za podešavanje ili ubacivanje naziva grafika – polje Chart Title, naziva osa – polja Value(X) axes i Value(Y) axes. Kartica Axes omogućava da se uključi/isključi prikazivanje osa. Kartica Gridlines omogućava da se uključi/isključi mrežu ose, i ako je uključeno omogućava da se bira gustina, odnostno da li da se prikazuju i male (Minor gridlines) i veće (Major gridlines). Kartica Legend podešava legendu. Ukoliko je onačeno polje Show Legend tada se u poljima ispod bira pozicija legende (Bottom, Corner, Top, Left, Right). Kartica Data Labels omogućava da uključi prikazivanje vrednosti na samom grafiku. Kartica Data Table omogućava prikazivanje dodatne tabele sa poacima koji se nalaze na grafiku, ako je označeno polje Show Table. Nakon podešavanja svi ovih opcija da bi se prešlo na poslednji prozor za unos grafika treba kliknuti na Next.

Poslednji prozor nudi samo dve mogućnosti. Jedna je da se ovako napravljeni grafik ubaci kao objekat u određeni radni list ili da se grafikon ubaci u novi radni list. Na svaki od prethodnih prozora može se vraćati na klikom na dugme Back. Ako je sve podešeno treba kliknuti na Finish i grafikon je na radnom listu.

13

Grafik se može pomerati tako što se kursor dovede na deo ekrana koji on zauzima i pritisne se levi taster miša, ne puštajući ga vuče se miš i grafik do mesta na kome treba da stoji. Crni kvadrati na krajevima grafika služe za menjanje veličine grafika. Ako je u nekom od koraka za izradu grafika došlo do greške ili jednostavno treba promeniti neku stavku, tada se koristi padajući meni Chart. Opcija Chart Type vraća na izbor tipa grafika, Chart Options na prozor sa opcijama grafika itd.
284 283 282 281 280 279 Series1 278 277 276 275 274 273 0 2 4 6 8 10 12

14

2. Funkcije raspodele u Excelu

15

2.1. Binomna raspodela
Ova diskretna raspodela ima veliku primenu u kontroli kvaliteta proizvoda Posmatrajmo niz nezavisnih eksperimenata (u literaturi poznat kao Bernulijeva šema) tj. za svaki od njih važi da je njegov ishod nezavisan od ishoda ostalih opita. Neka je za svaki od eksperimenata vezan događaj A i neka je verovatnoća njegovog nastupanja jednaka p, P(A) = p. Binomni zakon daje verovatnoću da će se u n eksperimenata ili proba posmatrani događaj A dogoditi x puta. Dakle, broj nastupanja događaja A u n proba je slučajna veličina X, koja ima binomnu raspodelu verovatnoće. Možemo sada da izvedemo binomni zakon. Tražimo verovatnoću, b(x,n,p) da u n opita posmatrani događaj A nastupi x puta. Verovatnoća svakog od događaja u kome je A u n proba nastupio x puta je: p x qn - x a ukupan broj takvih, međusobno isključivih događaja jednak je broju kombinacija klase x od n elemenata. Tako je,

 n b( x, n, p) =   p x q n − x ,  x  

x = 0,1,2,..., n

(2.37) je

U Excel-u se za ovu vrstu raspodele koristi funkcija BINOMDIST. Rezultat funkcije verovatnoća binomne raspodele da će slučajna promenljiva X imati zadatu vrednost. Sintaksa BINOMDIST(number_s, trials, probability_s, cumulative)

Number_s – broj nastupanja nekog događaja u n proba (slučajna promenljiva X) Trial_s – broj nezavisnih proba, n Probability_s – verovatnoća nastupanja događaja u svakoj probi

16

Cumulative – logička vrednost koja određuje oblik funkcije, ako je Cumulative=TRUE, BINOMDIST daje kumulativnu raspodelu funkcije, ukoliko je Cumulative= FALSE, rezultat je verovatnoća da će događaj nastupiti X puta. Primer 2.1. Neka mašina proizvodi 1000 komponenata/h i svakih 30 minuta je uzimano po 10 uzoraka radi kontrole, tokom dužeg perioda. Tako je konstatovano da je procenat škarta 20%. Kolika je verovatnoća da u slučajnom uzorku od 6 komponenata a) bude 4 defektna b) ne bude više od 3 defektna c) ne bude nijedan defektan

Rešenje
Prepoznaje se binomni model. Događaj A je dobijanje defektne komponente, a njegova verovatnoća, dobijena empirijski, je

p=

20 4 = 1 / 5, q = 1 − p = 100 5

Broj opita, n = 6. Dati su tabela i poligon raspodele.

Tabela se dobija tako što se u red 1 unose podaci za xi, dok se pi izračunava pomoću funkcije BINOMDIST. Dakle, ukoliko je tabela napisana na isti način kao na slici, klikne se na ćeliju J2, a zatim se iz padajućeg menija Insert, odabere opcija Function, kada se otvori novi prozor funkcija BINOMDIST se traži u statističkim funkcijama (Statistical), odabere se BINOMDIST i otvara se novi prozor (kao na slici)

17

Unose se odgovarajući argumenti: Number_s - unosi se vrednost iz ćelije J1, odnosno samo se klikne na ćeliju J1. Trials - upisuje se 6, jer je to broj proizvoda u slučajnom uzorku. Probability_s - upisuje se 0.2, verovatnoća od 20%. Cumulative - upisuje se logička vrednost FALSE, jer je potrebna vrednost za samo jedan događaj, a ne zbir događaja. Potvrđuje se sa OK, i kao rezultat dobija se vrednost za binomnu raspodelu, da bi se popunio ostatak tabele, funkcija se kopira na prethodno objašnjen način. Zatim se na osnovu tabele nacrta grafik. a) Ovde treba izračunati verovatnoću da su u slučajnom uzorku od 6 proizvoda 4 budu defektna. Problem se rešava korišćenjem funkcije BINOMDIST, kao kod popunjavanja tabele.

b) U pitanju je zbir događaja, jer se traži da ne budu više od 3 defektna proizvoda, problem se takođe rešava korišćenjem funkcije BINOMDIST, ali sa nešto drugačijim argumentima.

18

Number_s - upisuje se 3 Trials - upise se 6 Probabilitiy_s – upisuje se 0.2 Cumulative – upisuje se TRUE jer se radi o zbiru događaja, a ne o pojedinačnom događaju. c) Ovde se traži da nijedan od proizvoda ne bude defektan, znači da je x = 0 pa imamo

Primer 2.2. Detaljnom proverom kvaliteta ampula punjenih tečnošću utvrđeno je da je na 100 ampula 75 ispravnih. a) Odrediti zakon raspodele verovatnoće slučajne promenljive: broj ispravnih ampula u slučajnom uzorku od 6 ampula b) Odrediti očekivanu vrednost i disperziju slučajne promenljive. c) Koji broj ispravnih ampula u uzorku od 6 komada je nejverovatniji?

19

Rešenje

3 a) U pitanju je binomni zakon: b(x,6, ) , 4 x 3  6  3  1 p ( x) = b( x,6, ) =    ⋅ 6 − x , x = 0,1,2,...,6 4  x  4  4  
Slede tabelarni i grafički prikaz zakona raspodele:

Tabela se formira na isti način kao i u 1. zadatku, a nakon toga se na poznati način crta grafik. b) µx = np = 4.5, D(X) = npq = 1.125 se izračunavaju upisivanjem formula.

c) Najverovatniji broj ampula u uzorku je 5.

20

2.2. Poasonova raspodela
Poasonov (Poisson) zakon raspodele se može dobiti kao granični slučaj binomnog modela, kada obim uzorka n teži beskonačnosti uz uslov da pri tom proizvod obima uzorka i verovatnoće posmatranog događaja, µ = np ostane ograničen. Tako se Poasonov model koristi za opisivanje verovatnoće retkih (p je malo), međusobno nezavisnih (uslov za binomni zakon) događaja kao što su: • radioaktivni raspad nekih izotopa, tj. emitovanje radioaktivnih čestica • incidenti u dobro regulisanom saobraćaju • smetnje u telefonskom saobraćaju i prenosu podataka • greške u računarskim sistemima Slučajna promenljiva je broj realizacija retkog događaja u vremenskom intervalu date dužine.Dakle, slučajna promenljiva X ima Poasonovu raspodelu ako je

µ x −µ p( x) = e , x = 0,1,2,... x!
gde je µ neki pozitivan broj.

Srednja vrednost i disperzija
Očekivana vrednost i disperzija za Poasonovu raspodelu mogu se dobiti kao granične vrednosti tih parametara za binomnu raspodelu, kada n → ∞, p → 0, (µ = const):

µ x = np = µ , σ 2 = lim np (1 − p ) = np = µ x
n →∞ p →0 np = const

Dakle, srednja vrednost i disperzija slučajne promenljive X raspodeljene po Poasonovom zakonu su:

µ x = σ2 = µ x

Aproksimacija binomne raspodele Poasonovom
Računanje verovatnoća je znatno obimnije kod binomne nego kod Poasonove raspodele. Za dovoljno veliko n i malo p binomna raspodela se može aproksimirati Poasonovom. Praktični kriterijum za primenljivost takve aproksimacije je [Chatfield C., 1983.]: n > 20, µ = np < 5

Poasonova raspodel u Excelu može se dobiti korišćenjem funkcija POISSON.

21

Sintaksa : POISSON (X, Mean, Cumulative) X – broj događaja Mean – očekivana vrednost Cumulative - logička vrednost koja definiše funkciju raspodele verovatnoće. Ako je taj argument TRUE, rezultat funkcije je kumulativna Poasonova funkcija raspodele verovatnoća da će broj slučajnih događaja biti između 0 i X (uključujući i te vrednosti); ako je FALSE, rezultat je Poasonova funkcija verovatnoće da će broj događaja biti tačno X. Zadatak 2.3. Procenat škarta pri proizvodnji komponenata u nekoj fabrici je 2%. Odrediti verovatnoću da je u uzorku od 60 komponenata defektno: a) 3 komada b) ne više od 3 c) bar dva Rešenje U pitanju je binomni zakon. Pošto je n = 60 > 20 i µ = np = 60⋅0.02 = 1.2 < 5 ispunjen je uslov n > 20, µ = np < 5 i rešavanje problema se može znatno uprostiti zamenjujući binomni zakon Poasonovim ( iako to u Excelu ne predstavlja problem). a) Dakle, pošto je ustanovljeno da ja aproskimacija Poasonovom raspodelom moguća, verovatnoća da je u uzorku od 60 komponenata defektno 3 komada, izračunava se na sledeći način.

22

P( X = 3) =

( 2.42 )

(µ)3 − µ (1.2)3 −1.2 e = e ≈ 0.0867 3! 3!

Ukoliko su podaci unešeni na isti način kao na slici, klikne se na ćeliju B11, zatim se iz padajućeg menija Insert odabere opcija Function, i nakon toga iz statističkih funkcija odabere POISSON,

kada se potvrdi sa OK otvara se sledeći prozor

23

Ovde se unose odgovarajući argumenti, za X se upisuje 3, za Mean se klikne na ćeliju B8 jer je u toj ćeliji izračunata očekivana vrednost, i u polje Cumulative se upisuje FALSE jer se traži vrednost verovatnoće Poasonove raspodele za X=3. b) Kako je ovde potrebno odrediti verovatnoću da su ne više od 3 komada defektna, problem se rešava slično kao pod a), osim što se u polje Cumulative upisuje TRUE, pa se kao rezultat dobija kumulativna Poasonova funkcija.

P( X ≤ 3) = p(0) + p(1) + p(2) + p (3) = (1 + µ +

µ 2 µ3 − µ + )e ≈ 0.9662 2 6

c) Kada je potrebno odrediti verovatnoću da su bar 2 komada defektna, što ustvari znači 2 i više, izračunava se Poasonova kumulativna funkcija za vrednost 1 (uključuje vrednosti verovatnoće za 0 i 1) i onda oduzme od 1.

P( X ≥ 2 ) = 1 − P( X < 2) = 1 − [ p(0) + p (1)] = 1 − e − µ + µe − µ ≈ 0.3374

[

]

24

Zadatak 2.4. Automat daje 4% defektnih proizvoda. Proizvodi se pakuju u kutije po 10 komada. U kom procentu kutija će se naći najviše jedan defektan proizvod.? Rešenje Traženu relativnu frekvencu ω se, u skladu sa statističkom definicijom verovatnoće (ω ≈ p), nalazi kao verovatnoća da se u slučajnom uzorku od 10 komada nađe najviše jedan defektan proizvod. U pitanju je slučajna promenljiva sa binomnom raspodelom b(x, 10, 0.04), pa je: ω = P(X ≤1) = p(0) + p(1) = b(0, n, p) + b(1, n, p)

ω = q10 + 10 ⋅ p ⋅ q 9 = 0.9610 + 10 ⋅ 0.04 ⋅ 0.969 = 0.9418 = 94.2%
Odnosno, u Excelu se ovaj problem rešava funkcijom BINOMDIST.

Problem se može približno rešiti aproksimacijom binomnog zakona Poasonovim, mada prvi od uslova n > 20, µ = np < 5 nije ispunjen:

ω = p(0) + p(1) = [1 + µ]e − µ = [1 + 0.4]e −0.4 = 0.9384 = 93.8%

Sada se koristi funkcija POISSON

Dobija se pak dobra procena, koja se od tačne vrednosti razlikuje manje od 1%.

25

2.3. Normalna raspodela
Ovo je najvažnija raspodela za primene u statističkoj obradi eksperimentalnih podataka u društvenim, prirodnim i tehničkim naukama. Za neprekidnu slučajnu promenljivu X kažemo da ima normalnu ili Gausovu raspodelu sa parametrima µ i σ, što se kratko označava sa X : N(µ,σ) ako je njena gustina:
−  1 f ( x) = e 2 σ 2π 1  x −µ   σ 
2

,

µ, σ > 0

U Excel-u se za normalnu raspodelu koristi funkcija NORMDIST.

Sintaksa: NORMDIST (x, mean, standard_dev, cumulative) x – vrednost za koju se izračunava funkcija Mean – aritmetička sredina raspodele Standard_dev – standardna devijacija raspodele Cumulative – logička vrednost koja definiše vrstu funkcije, TRUE – kumulativna vrednost raspodele, FALSE – funkcija gustine verovatnoće. Pored funkcije NORMDIST, postoji i inverzna funkcija NORMINV. Rezultat ove funkcije je vrednost promenljiveza koju normalna kumulativna funkcija raspodele ima datu verovatnoću.

26

Sintaksa : NORMINV (probability, mean, standard_dev) Probability – verovatnoća za koju se izračunava vrednost promenljive. Mean – aritmetička sredina raspodele Standard_dev – standardna devijacija raspodele

Standardizovana normalna raspodela
Ako je X slučajna promenljiva sa normalnom raspodelom N(µ,σ2), slučajna promenljiva, dobijena linearnom transformacijom,

Y = aX + b, a ≠ 0
ima takođe normalnu raspodelu. Dakle, standardizovana normalno raspodeljena slučajna promenljiva,

X0 =

X −µ σ

koja ima nultu srednju vrednost i jediničnu disperziju, µ x0 = 0, σ x0 = 1 , ima takođe normalnu raspodelu, koja se zove standardizovana normalna raspodela, N(0,1) sa gustinom:

1 −2 f 0 ( x) = e 2π
i funkcijom raspodele,

x2

1 F0 ( x) = P( X 0 < x) = 2π

−∞

∫e

x

t2 2

dt

27

Za određivanje standardne normalne kumulativne funkcije raspodele koristi se funkcija NORMSDIST.

Sintaksa: NORMSDIST(z) Z – vrednost za koju se izračunava funkcija. Takođe postoji i inverzna funkcija NORMSINV.

Sintaksa: NORMSINV(probability) Probability – verovatnoća za koju se izračunava vrednost promenljive Zadatak 2.5. Odstupanje, ∆ debljine proizvedene glazirane keramičke pločice, δ od nominalne vrednosti µ, ∆ = δ - µ se može aproksimirati slučajnom veličinom sa normalnom raspodelom, ∆ : N(0, 0.3). Odrediti:

28

a) Očekivani škart u 1000 proizvedenih komada, ako se kao ispravne prihvataju pločice čija debljina odstupa od nominalne najviše 0.5 mm. b) Očekivani broj pločica u 1000 komada čije su debljine: δ ≤ µ - 0.2 ili δ ≥ µ + 0.5 c) Očekivani broj pločica u 1000 komada čije su debljine u intervalu: µ - 0.3 ≤ δ ≤ µ + 0.4

a) Verovatnoća da odstupanje ∆ bude veće od 0.5 dobiće se preko verovatnoće suprotnog događaja. Tj. verovatnoće da odstupanje bude manje od 0.5, međutim, treba uzeti u obzir da je 0.5 apsolutna vrednost, i da se mora izračunati verovatnoća za x ≤0.5 i x ≤ - 0.5, a zatim oduzeti manju od veće verovatnoće.

Rešenje

Koristi se funkcija NORMDIST.

Do funkcije se dolazi na isti način kao i u prethodnim primerima . U polje x upisuje se -0.5, ili ukoliko su podaci uneseni na ista mesta kao na slici klikne se na ćeliju A12, u polje Mean upisuje

29

se 0, u polje Standard_dev 0.3, a u polje Cumulative upisuje se logička vrednost TRUE. Potvrđuje se sa OK. Dalje se klikne na ćeliju u koju se izračunava druga funkcija ( u konkretnom primeru to je ćelija B13) i postupak se ponavlja, samo što se umesto vrednosti -0.5 u polje x upisuje vrednost 0.5 (ili se klikne na ćeliju A13). Pošto su izračunate ove dve vrednosti, njihovu razliku izračunatu na već poznat način treba oduzeti od 1.

Ako postoji verovatnoća događaja - pojava defektne pločice, p = 0.096, onda je u skladu sa binomnim zakonom (ili u skladu sa statističkom definicijom verovatnoće) očekivani broj defektnih pločica m, u slučajnom uzorku od 1000 komada jednak: m = pn = 1000⋅0.096 = 96 b)

P (δ ≤ µ − 0.2 ∨ δ ≥ µ + 0.5) = P(δ ≤ µ − 0.2) + P (δ ≥ µ + 0.5)

Ovde se prvo izračunava kumultaivna funkcija normalne raspodele za vrednost -0.2, a zatim za 0.5,

pa se dobijena vrednost za 0.5 oduzima od 1.

30

Sabiranjem vrednosti u ćelijama B22 i C 23 dobija se tražena verovatnoća, koja se dalje množi sa 1000 i dobija se broj pločica čije su debljine δ ≤ µ - 0.2 ili δ ≥ µ + 0.5

c) P ( µ − 0.3 ≤ δ ≤ µ + 0.4) Slično se rešava i ovaj problem, računaju se kumulativne funkcije normalne raspodele za vrednosti -0.3 i 0.4

Verovatnoća za vrednost -0.3 se oduzima od one za 0.4, i dobijeni rezultat se množi sa 1000.

Zadatak 2.6. Vek trajanja elektronske lampe, h u časovima ima normalnu raspodelu N(100,5) a) Naći verovatnoću da nova elektronska lampa istog tipa traje najmanje 105 časova. b) Ako je jedna elektronska lampa već izdržala 90 časova, kolika je verovatnoća da će izdržati još 15? Rešenje a) Tražena verovatnoća se izračunava iz verovatnoće suprotnog događaja, koristi se funkcija NORMDIST, na već opisan način.

31

b) Traži se uslovna verovatnoća: verovatnoća da će nastupiti događaj, X > 105 pošto je nastupio događaj, X > 90 i računa se pomoću formule :

P ( X > 105 / X > 90) =

P[( X > 105)( X > 90)] P( X > 105) = P( X > 90) P ( X > 90)

Dakle, pomoću funkcije NORMDIST dobija se verovatnoća za 90h, a zatim se podeli sa verovatnoćom za 105h. Kao što se moglo očekivati, dobijena je nešto veća verovatnoća nego u a) Zadaci za vežbu 2.1.Događaj A nastupa u nekom eksperimentu sa verovatnoćom p = 0.3. Neka je X broj nastupanja događaja A u nizu od 5 opita. a) Kako glasi zakon verovatnoće za X, b) Izračunati P(X ≤ 3), c) izračunati srednju vrednost i disperziju. 2.2 Odrediti, a) Verovatnoću da se u 8 bacanja kocke šestica pojavi 3 puta b) Očekivani broj šestica u 180 bacanja kocke? 2.3 Verovatnoća pogotka cilja u jednom gađanju je p = 0.2. Koliko gađanja treba izvesti da bi sa verovatnoćom ne manjom od 0.9 cilj bio pogođen bar jednom? Događaj A nastupa u nekom eksperimentu sa verovatnoćom p = 0.3. Neka je X broj nastupanja događaja A u nizu od 5 opita. a) Kako glasi zakon verovatnoće za X, b) Izračunati P(X ≤ 3), c) izračunati srednju vrednost i disperziju.

32

2.4 Odrediti, a) Verovatnoću da se u 8 bacanja kocke šestica pojavi 3 puta b) Očekivani broj šestica u 180 bacanja kocke? 2.5 Verovatnoća pogotka cilja u jednom gađanju je p = 0.2. Koliko gađanja treba izvesti da bi sa verovatnoćom ne manjom od 0.9 cilj bio pogođen bar jednom? 2.6 Automat daje 4% defektnih proizvoda. Proizvodi se pakuju u kutije po 50 komada. a) U koliko će se posto kutija nalaziti najviše jedan defektan komad? b) Postiže li se Poasonovom raspodelom zadovoljavajuća aproksimacija, ako se dozvoljava maksimalna greška rezultata od 1.5%? 2.7. Jedna velika serija sadrži 4% defektnih proizvoda. Proizvodi se bez prethodne kontrole i izdvajanja loših pakuju u kutije od 50 komada. a) Koliko će defektnih proizvoda sadržavati najveći broj kutija? b) Koliki je procenat takvih kutija? 2.8 Slučajne greške merenja imaju normalnu raspodelu sa µ = 0, σ = 8mm. Naći verovatnoću da od tri greške međusobno nezavisnih merenja a) bar jedna ne bude veća od 4mm, b) bar jedna, po apsolutnoj vrednosti, ne bude veća od 4mm. 2.9 i P ( X > 9 / X > 5) Slučajna promenljiva ima normalnu raspodelu N(3,4). Izračunati

P( X > 9)

2.10 Neki proizvođač deterdženta ima mašinu za pakovanje po 500g deterdženta u jednu kutiju. Dužom kontrolom proizvoda utvrđeno je da je srednja masa deterženta u kutiji 506g, sa standardnim odstupanjem 12g. Uz pretpostavku da mase deterdženta u kutijama imaju normalnu raspodelu, a) izračunati procenat kutija koje sadrže više od propisane količine deterdženta., b) izračunati onu srednju vrednost i standardno odstupanje raspodele masa deterdženta, koji bi prepolovili procenat prepunjenih kutija i u isto vreme obezbedili da najviše 1% kutija sadrži manje od 497g. c) kolika bi se prosečna ušteda u deterdžentu (%) postigla? 2.11. Otpor električnih otpornika ima normalnu raspodelu N(5Ω, 0.2Ω). Slučajnim izborom uzmemo dva takva otpornika i vežemo ih na red. Kolika je verovatnoća da taj spoj ima otpor između 9.5 i 10.5Ω ?

33

3. Empirijska raspodela u Excelu

34

3.1. Osnovni pojmovi
Statistika, kao naučna disciplina, izučava masovne pojave u društvu, prirodi i tehnici. Za masovne pojave je karakteristično da pojedinačni slučajevi manje ili više odstupaju od onog što se može smatrati njenom karakteristikom. Na primer, prosečni životni vek stanovništva neke države predstavlja važnu karakteristiku od koje, manje ili više, odstupaju dužine života pojedinih građana. Drugi primer su rezultati merenja neke fizičke veličine, koja sama, za razliku od životnog veka, nije slučajna veličina (na primer gustina gasa na datoj temperaturi i pritisku). Rezultati ponovljenih merenja se međutim razlikuju među sobom, kao i od tražene tačne vrednosti merene veličine, zbog slučajne greške merenja. Statističko obeležje i populacija Ono što se u teoriji verovatnoće naziva slučajna promenljiva, statističari nazivaju statističko obeležje. Tako je životni vek građanina neke države primer statističkog obeležja. Statističko obeležje je vezano za jasno definisan elemenat (entitet) koga nazivamo statistička jedinica. U poslednjem primeru to je osoba - građanin neke države. Skup svih elemenata - statističkih jedinica naziva se populacija ili generalni skup ili osnovni skup. Osnovni skup po pravilu ima veliki broj elemenata - statističkih jedinica (masovnost) koji može biti i beskonačan. Na primer, u posmatranom primeru, populaciju čine svi stanovnici jedne države. U slučaju bacanja dve kocke za igru, statistička jedinica je definisana kao svaka od mogućih položaja dve bačene kocke, statističko obeležje je posmatrani rezultat (recimo suma dobijena dva broja), a osnovni skup je beskonačan jer se može zamisliti beskonačan broj bacanja kocke. Slično, pri kontroli neke procesne veličine (pritisak, temperatura, koncentracija, itd.) može se zamisliti beskonačan broj merenja. U slučaju kontrole kvaliteta proizvoda, svaki test je statistička jedinica. Ako kontrolišemo, recimo, debljine proizvedenih keramičkih pločica, onda je populacija ograničena - broj elemenata jednak je broju proizvedenih pločica u nekom periodu vremena. U slučaju pak praćenja sadržaja sumpora u proizvedenoj gumi, populacija se smatra beskonačnom, odnosno neophodna je izvesna apstrakcija koja kao rezultat ima hipotetičnu beskonačnu populaciju. Zamišljamo naime, beskonačno velik komad gume i beskonačan niz analiza pod istim uslovima. Statistički uzorak Osnovni zadatak statistike je definisanje raspodele frekvenci posmatranog obeležja, tj. raspodele verovatnoće. Pri tome je retko moguće izmeriti obeležja svih statističkih jedinica osnovnog skupa. To je svakako nemoguće u slučaju beskonačnog osnovnog skupa, ali i u slučaju konačnih populacija, to retko dolazi u obzir jer je ili neekonomično ili praktično neizvodljivo. Primeri su demografska ispitivanja i testova kvaliteta proizvoda, koji su destruktivni (proizvod u toku testa biva oštećen). Zato se iz populacije izdvaja jedan konačan podskup statističkih jedinica koji se naziva (statistički) uzorak. Uzorak se ispituje radi donošenja zaključaka o raspodeli slučajne promenljive - obeležja u osnovnom skupu, koja se naziva i teorijska raspodela. Umesto izraza: uzorak iz osnovnog skupa sa pretpostavljenom raspodelom (recimo normalnom) često se koristi kraći termin: uzorak iz pretpostavljene raspodele (npr. normalne).

35

Jasno je da se ne može očekivati potpuno tačno opisivanje ili reprezentacija populacije na osnovu analize uzorka. Jedno od najvećih ograničenja pri tome je svakako obim uzorka pod kojim se podrazumeva broj elemenata populacije izdvojenih u uzorak. Međutim, veličina uzorka nije jedini faktor koji ograničava tačnost zaključaka - čak i veliki uzorak može da dovede do pogrešnog modela. Teorija uzoraka kao deo statistike, bavi se problemom izbora takvog uzorka koji će obezbediti dovoljnu pouzdanost zaključaka o populaciji. Takav uzorak, čija se struktura u odnosu na posmatrano obeležje ne razlikuje značajno od strukture osnovnog skupa, naziva se reprezentativan uzorak. Da bi uzorak bio reprezentativan, mora biti tako formiran da svaki element populacije ima jednaku šansu da, nezavisno od ostalih, uđe u uzorak. Za takav uzorak kažemo da je slučajan uzorak. Formiranje slučajnog uzorka iz ograničene populacije (recimo stanovništvo), vrši se uz pomoć tablice slučajnih brojeva koji se mogu naći u priručnicima iz statistike, ili se mogu kompjuterski generisati pomoću odgovarajuće funkcije. Tablica slučajnih brojeva formira se iz dugačkog niza cifara, 0 - 9, koji se “iseče” na brojeve sa istim odabranim brojem cifara (tablice iz literature najčešće sadrže četvorocifrene brojeve). Svaka od cifara 0 - 9 se u polaznom nizu brojeva približno pojavljuje jednak broj puta (dakle, sa relativnom frekvencom 0.1). Najjednostavniji postupak za formiranje slučajnog uzorka je sledeći. Svi elementi populacije se numerišu. Ako recimo osnovni skup ima manje od 100 elemenata, potreban je niz slučajnih dvocifrenih brojeva (ili se svaki četvorocifren broj iz tablice interpretira kao dva dvocifrena). Počev od nasumce odabranog broja u tablici, uzimaju se redom slučajni dvocifreni brojevi i u uzorak uključuju elementi označeni tim brojevima. Ako takav element ne postoji, taj broj iz tablice jednostavno ispuštamo i nastavljamo postupak.

Statistička analiza Zadatak statističke analize je, kao što smo već naveli, da na osnovu informacija iz uzorka izvede neke zaključke o osnovnom skupu. U postupku statističke analize mogu se izdvojiti sledeće faze: • statističko posmatranje • sređivanje podataka • obrada i naučna analiza rezultata Statističko posmatranje se sastoji u planskom prikupljanju podataka o statističkim jedinicama putem anketa, posmatranja, merenja itd. Tako na primer, iz slučajnog uzorka obima n dobijamo niz od n vrednosti (xi, i = 1,...,n) Sređivanje podataka se sastoji u njihovom tabelarnom i grafičkom prikazivanju, da bi smo dobili neku predstavu o raspodeli posmatrane slučajne veličine. Prvi korak pri tom je uređivanje po veličini dobijenog niza od n brojeva, a rezultat je uređen niz koji se u statistici zove varijacioni niz:

x1 , x2 ,L, xn
Obrada i analiza rezultata obuhvata matematičku obradu sređenih podataka i njihovu interpretaciju.

36

3.2 Empirijska raspodela
Polazeći od varijacionog niza x1 , x2 ,L, xn za svaku od vrednosti u nizu može se odrediti (apsolutna) frekvenca pojavljivanja, mi. Dobijeni rezultat je empirijska raspodela frekvenci, koja predstavlja niz parova:

(x , m ), (x , m ),L, (x , m ),
* 1 1 * 2 2 * k
k

k≤n

za koji se takođe kaže da predstavlja grupisane podatke. Primetimo da je:
∗ ∗ x1 = x1 , xk = xn ,

∑m
i =1

k

i

=n

Ako se za grupisane podatke izračunaju relativne frekvence ωi = mi/n, dobija se empirijska raspodela relativnih frekvenci u obliku niza parova:
* * * ( x1 , ω1 ),( x2 , ω2 ),K, ( xk , ωk ), k ≤ n

Jasno je da pri tome važi,

∑ mi = n ,
i =1

k

∑ω
i =1

k

i

=1

Ako su u pitanju vrednosti neke diskretne slučajne promenljive X, tada empirijska raspodela relativnih frekvenci predstavlja aproksimaciju zakona raspodele verovatnoće slučajne promenljive X tj. teorijske raspodele i može se prikazati tabelarno, u vidu trakastog dijagrama ili poligona raspodele Što se tiče rešavanja problema vezanih za empirijsku raspodelu, oni će se u Excelu svesti na formiranje odgovarajućih tabela i crtanje dijagrama.. Primer 3.1. U grupi od 25 studenata II godine studija su anketiranjem dobijeni podaci o starosti u godinama: 22, 21, 20, 23, 22, 24, 25, 21, 22, 23, 21, 22, 21, 23, 22, 22, 21, 25, 21, 26, 23, 21, 22, 21, 21 Treba formirati empirijsku raspodelu starosti studenata u apsolutnim i relativnim iznosima. Rešenje Prvo treba formirati varijacioni niz na sledeći način: U kolonu C se upisuju se podaci o starosti u godinama, oni se mogu prepisati redom iz zadataka, nakon toga sortirati. Sortiranje podatak u tabeli se vrši tako što se obeleže podaci i klikne na ikonicu Sort Ascending

37

i kao rezultat dobija se kolona C koja izgleda kao na slici (desno). Nakon toga korišćenjem funkcije COUNT prebrojavaju se podaci. Funkcija se dobija iz padajućeg menija Insert, opcije Function, i iz statističkih funkcija odabere COUNT.

Argumente funkcije predstavljaju članovi varijacionog niza. U sledećem koraku formira se nova tabela, ona sadrži grupisane podatke o broju godina.

Vrednosti za m se dobijaju opet korišćenjem funkcije COUNT, i to prebrojavanjem podataka za određenu vrednost x*, na primer :

I na kraju se izračunavaju vrednosti ω, i to kao odnos m i n, za odgovarajuću grupu podataka. Ovde se pri kopiranju formula na ostatak reda mora voditi računa o tome da je n konstanta, i da njen položaj mora biti fiksiran, tj. da se ispred oznake reda i kolone mora staviti znak $.

Pošto je tabela konačno formirana crta se grafik. Iako je crtanje grafika već prethodno objašnjeno, ovde će još jednom biti prikazano na konkretnom primeru. Crtanje se započinje ili odabirom Chart iz padajućeg menija Insert, ili klikom na ikonicu Chart Wizard. Tada se otvara novi prozor, u kome se bira tip grafika (Chart type), i odabere se XY (Scatter).

38

Klikne se na Next, i u sledećem prozoru odabere kartica Series, gde će se obeležiti podaci na osnovu kojih se crta grafik. Na x osi treba da budu vrednosti za x*, a na y osi za m i ω. Serije podataka se dodaju klikom na „dugme“ Add, a zatim se u poljima X values i Y values upisuju odgovarajuće vrednosti.

Klikne se na Next, i u sledećem prozoru urade ostala podešavanja grafika, kao što su oznake za x i y osu, naziv grafika i slično. Nakon toga se ponovo klikne na Next i u sledećem prozoru na Finish, čime se crtanje grafika završava, a dodatna podešavanja se rade na grafiku, kada se desnim tasterom miša klikne na grafik i odabere opcija format.

39

Pošto bi ovde trebalo prikazati zavisnost ω od x* na sekundarnoj osi, desnim tasterom se klikne na seriju ω, Format Data Series, kada se otvori novi prozor klikne se na karticu Axis i odabere opcija Plot Series on – Secondary axis, potvrđuje se sa OK.

Kao rezultat dobija se grafik sa primarnom i sekundarnom osom, tj. poligon raspodele starosti studenata u apsolutnim i relativnim i znosima.

40

Intervalno sređivanje podataka

Ako je obim uzorka veliki i ako niz (4.1) sadrži veliki broj međusobno različitih vrednosti obeležja X, vrši se tzv. intervalno sređivanje podataka. Intervalno sređivanje se inače praktikuje kada su u pitanju podaci o neprekidnoj slučajnoj promenljivoj. Interval [a, b) kome pripadaju sve vrednosti X za uzorak, deli se na k podintervala: [a, u1), [ u 1, u 2), [ u 2, u 3), . . ., [ u k-1, b) koji se nazivaju klase. Obično se uzima da su klase jednake širine. Sredine klasa ćemo označiti sa xi* :

xi* =

ui −1 + ui 2

, i = 1,..., k

Frekvence mi, i = 1,...,k sada predstavljaju broj vrednosti obeležja X koje pripadaju prvoj, drugoj, …, k-toj klasi. Za broj klasa ne postoji striktno pravilo. Preporučuje se da ono bude od 5 – 21, zavisno od obima uzorka [Vukadinovic S., 1990.], a u literaturi se sreću i empirijske formule za izbor k, [Ahnazarova S., Kafarov V., 1985.]. Tabelarni prikaz intervalno sređenih podataka dat je u Tab. 4.1. Poslednje tri kolone daju empirijsku raspodelu apsolutnih i empirijsku raspodelu relativnih frekvenci. Tabela 4.1 Intervalno sređeni podaci klase 1 2 M k ∑ [a, u1) [ u 1, u 2) M [ u k-1, b) sredine klasa
* x1 * x2

frekvence m1 m2 M mk n

relativne frekvence ω1 ω2 M ωk 1

M
* xk

Pored poligona raspodele, kao grafički prikaz intervalno sređenih podataka koristi se histogram empirijske raspodele. To je niz pravougaonika čije su osnove intervali [ui-1, ui), a visine odabrane tako da su im površine jednake relativnim frekvencama. Primer 3.2. Mereno je vreme izvođenja neke radne operacije u sekundama: 24 28 22 26 24 27 26 25 26 23 30 26 29 25 27 24 26 25 24 27 Formirati tabelu intervalno sređenih podataka u 5 klasa i histogram.

41

Rešenje U pitanju je neprekidna slučajna promenljiva. Naravno, podaci iz uzorka su uvek diskretni, ali samo obeležje može biti diskretno ili kontinualno (kao što je ovde slučaj). Najmanji interval u kome leže svi podaci, a njegova širina je deljiva sa 5, je interval [22, 32), pa ćemo usvojiti klase širine, d = (32 - 22)/5 = 2.
Kao i u prethodnom primeru formira se varijacioni niz (kolona D na slici),

na osnovu koga se formira nova tabela. Prva kolona nove tabele sadrži nazive klasa, druga sredine klasa, treća frekvence, četvrta relativne frekvence, a peta visinu pravougaonika u histogramu, tj. odnos ω/d.

U prvu kolonu se samo upišu podaci. Da bi se izračunale sredine klasa koristi se funkcija AVERAGE. Ona se kao i ostale funkcija poziva iz menija Insert, opcije Function, a nalazi se u statističim funkcijama. Argument predstavlja skup vrednosti čija se srednja vrednost traži.

42

Treća kolona se popunjava kao i prethodnom primeru pomoću funkcije COUNT, četvrta kao odnos broja m i n, a peta kao odnos ω i d, u ova dva slučaja mora se voditi računa o tome kako se zapisuju n i d, jer se radi o konstantama. Dalje se pomoću Chart Wizard-a crta histogram. U prvom koraku (Chart Type) bira se Column. Dalje se na Series – Add ubacuju podaci na osnovu koji se crta histogram, u polju Values se označavaju vrednosti ω/d, u polju Category (X) axis labels klase, u konkretnom slučaju obeleži se ćelije od E2 do E6.

U trećem koraku izvrše se podešavanja oko naslova, osa i legende, u četvrtom se završava crtanje grafika.

Kao rezultat dobija se sledeći histogram.

43

Empirijska funkcija raspodele Pretpostavimo da smo grupisanjem podataka iz varijacionog niza xi, i =1,...,n (4.1), dobili empirijsku raspodelu frekvenci: ( xi* , mi ), i = 1,..., k pri čemu, u slučaju intervalno sređenih podataka, vrednosti xi* predstavljaju sredine klasa (vidi tabelu 4.2). Neka je x bilo koja vrednost na x-osi. Ukupan broj tačaka xi , koje leže levo od odabrane tačke x, zove se kumulativna frekvenca N(x) i dobija se kao suma:

N ( x) =

x i* < x

∑m

i

Deljenjem kumulativne frekvence za tačku x ukupnim brojem podataka n, dobijamo relativnu kumulativnu frekvencu, Fn* ( x) ,

Fn* ( x) =

N ( x) = ∑ ωi n x i* < x

(*)

Jednačina (*) predstavlja definiciju empirijske funkcije raspodele. Grafik empirijske funkcije raspodele Fn* ( x) , potpuno je analogan grafiku funkcije raspodele F(x) za diskretnu slučajnu promenljivu (Sl. 2.3). Empirijska funkcija raspodele predstavlja aproksimacije funkcije raspodele populacije (teorijska funkcija raspodele) i ukoliko je obim uzorka, n veći, aproksimacija će biti bolja (teorema Glivenka). Primer 3.3 Za uzorak iz primera 3.1 nacrtati grafik empirijske funkcije raspodele. Rešenje Prvo se formira varijacioni niz, kao i u primeru 3.1, odredi broj elemenata pomoću funkcije COUNT, i na osnovu toga formira tabela. Prve tri kolone (x*, m i ω ili w) dobijaju se na već poznat način. Četvrta kolona dobija se pomoću funkcije SUM i to za svaku ćeliju posebno.

44

Poslednja kolona F(x*+0) dobija se kao N(x*+0)/n, kao što se vidi na slici. Opet se mora uzeti u obzir da je n konstanta i na odgovarajući način je obeležiti u formuli. Formula za prvi red u koloni može se kopirati na preostale redove.

Pošto je formirana tabela crta se histogram za F(x*+0) pomoću Chart Wizard-a.
1 0.9 0.8 0.7 F(x*+0) 0.6 0.5 0.4 0.3 0.2 0.1 0 20 21 22 23 24 25 26

Primer 3.4 U tabeli je dat je uzorak sa grupisanim podacima. Proceniti a) srednju vrednost i disperziju osnovnog skupa. b) standardnu grešku srednje vrednosti uzorka Tabela uz Primer 3.4 Klase 1. 2. 3. 4. 5. 6. 7. 1.45 - 1.95 1.95 - 2.45 2.45 - 2.95 2.95 - 3.45 3.45 - 3.95 3.95 - 4.45 4.45 - 4.95 Sredina klasa x* 1.7 2.2 2.7 3.2 3.7 4.2 4.7 Frekvence m 2 1 4 15 10 5 3

45

Rešenje Prvo se formira nova tabela:

a) Na osnovu tabele pomoću formula prikazanih na slici izračanuavaju se srednja vrednost i disperzija.

b) Na sličan način se po odgovarajućim formulama se izračunava standardna greška

46

4. Intervalne ocene parametara raspodele

47

Interval poverenja Ocene parametra θ, u vidu intervala, zovu se intervalne ocene. Intervalna ocena se zove i * interval poverenja ili pouzdanosti. Interval θ1 , θ* je interval pouzdanosti ili interval poverenja 2 za parametar θ, sa nivoom pouzdanosti ili poverenja γ, ako sa unapred zadatom verovatnoćom, γ možemo da tvrdimo da sadrži tačnu vrednost parametra, odnosno ako važi:

(

)

* P (θ1 < θ < θ* ) = γ = 1 − α 2

Jasno je da je:
* P (θ ≤ θ1 ∨ θ ≥ θ* ) = α 2

pa se verovatnoća α = 1 - γ naziva i rizik, jer predstavlja verovatnoću da tačna vrednost * parametra bude izvan procenjenog intervala. Granice intervala pouzdanosti θ1 , θ* se nazivaju 2
* granice pouzdanosti ili poverenja, a širina intervala θ* − θ1 predstavlja meru preciznosti 2 intervalne ocene parametra (što je širina intervala manja, preciznost intervalne ocene je veća). Za interval poverenja kažemo da je simetričan, ako važi: * P (θ < θ1 ) = P (θ > θ* ) = α / 2 2

4.1 Ocena srednje vrednosti normalne raspodele sa poznatom disperzijom
Pretpostavimo da je slučajni uzorak obima n uzet iz populacije sa normalnom raspodelom N (µ,σ), čija je disperzija σ2 poznata. Uzoračka srednja vrednost X tada ima raspodelu ,

X : N (µ, σ x ),

σx =

σ n
n kao jedinicom

Odredimo sada, za zadatu verovatnoću, γ granicu apsolutnog odstupanja aritmetičke sredine X od njene srednje vrednosti µ, sa njenim standardnim odstupanjem σ x = σ da važi: mere (koliko standardnih odstupanja σ x , iznosi ta granica?). Odredimo dakle faktor zα, takav

P X − µ < zα σ x = γ = 1 − α
gde je γ zadato. Uzećemo jednačinu P ( ∆X < ε) = 2Φ Znači da treba u jednačini,

(

)

(4.1)

ε  i primeniti je na posmatrani problem. σ

48

• • •

apsolutno odstupanje ∆X zameniti sa X − µ , za granicu odstupanja ε uzeti zα σ x , σ zameniti sa σ x

Rezultat je:

P X − µ < zα σ x = 2Φ( zα ) = γ
Dakle, traženi faktor zα se dobija kao rešenje jednačine:

(

)

Φ ( zα ) =

1− α 2

raspodelom za koju Laplasova funkcija dobija vrednost (1 − α ) 2 . Relaciji ekvivalentne sledeće relacije

odnosno predstavlja onu vrednost standardizovane slučajne promenljive sa normalnom

X − µ < zα σ x su
(4.2a) (4.2b)

µ − zα σ x < X < µ + zα σ x

X − zα σ x < µ < X + zα σ x
pa se jedn. (4.1) može interpretirati na dva različita načina: •

Relacija (4.2a) predstavlja događaj da uzoračka srednja vrednost, kao slučajna promenljiva, upadne u interval sa fiksnim granicama (zα, σ x i µ su konstante), koga možemo zvati verovatan interval za uzoračku srednju vrednost, X . Jednačina (4.1), tako definiše granice verovatnog intervala za X , pod uslovom da je poznata srednja vrednost µ

* Događaj (4.2b) uz zadatu verovatniću γ, po definiciji P (θ1 < θ < θ* ) = γ = 1 − α 2 predstavlja interval poverenja za nepoznatu srednju vrednost µ, izračunat iz datog uzorka.

Zaključujemo da, pri poznatoj disperziji osnovnog skupa, interval pouzdanosti sa nivoom pouzdanosti γ = 1 - α, za srednju vrednost osnovnog skupa µ, glasi:

(x − z σ /
α

n , x + zα σ / n , ili µ = x ± zα σ / n

)

(4.3)

gde je zα definisano jednačinom Φ ( zα ) =

1− α i zvaćemo ga koeficijent pouzdanosti (J.O.Bird). 2
vrednost

Ekvivalentna definicija koeficijenta pouzdanosti je (vidi sliku 4.1): ona standardizovane slučajne promenljive sa normalnom raspodelom za koju važi,

P ( X 0 ≥ zα ) = α
Zaista,

(4.3a)

49

(6.5 )   X −µ α = P X − µ ≥ z α σ x = P ≥ zα  = P ( X 0 ≥ zα )   σ x  

(

)

f 0 (x ) =

1 − x2 e 2π

2

Slika 6.1. Ilustracija jednačine 4.3a U Tab. 4.1. date su vrednosti koeficijenta pouzdanosti za tri nivoa pouzdanosti γ, koje se najčešće koriste u praksi. Tabela 4.1 - koeficijenti pozdanosti, zα γ 0.90 0.95 0.99 α 0.10 0.05 0.01


1.64 1.96 2.58

Treba zapaziti da su granice intervala poverenja (4.3) slučajne vrednosti ( X je slučajna veličina). Dakle interval poverenja predstavlja jedan slučajan interval, koji sa zadatom verovatnoćom γ obuhvata nepoznatu ali fiksnu vrednost µ. Tako, ako bi postupak uzimanja uzorka i određivanja intervala poverenja ponavljali, svaki put bi dobili drugačiji interval poverenja, ali bi mogli očekivati da će u (γ⋅100) % (recimo 95%) svih slučajeva izračunati interval pouzdanosti obuhvatiti parametar µ. Jasno je sada zašto se za verovatnoću γ kaže da predstavlja nivo pouzdanosti intervalne ocene. Aritmetička sredina četiri izmerene temperature peći optičkim pirometrom je 22500C. Ako je greška merne metode, σ = 100C, a) Naći sa pouzdanošću od 95% interval u kome leži prava vrednost temperature. b) Koliko je ponovljenih merenja temperature neophodno, da bi preciznost procene odstupanja tačne temperature od izmerene (sa datim nivoom pouzdanosti) bila 50C?

Rešenje

a) Za γ = 0.95, iz tablice :

z1−α 2 = z0.975 = 1.96 , pa je, interval poverenja srednje

vrednosti merenih temperatura peći:

50

odnosno, sa pouzdanošću od 95%, prava temperatura peći, t leži u intervalu 2240.2 < t <2259.8 0C b) Preciznost procene predstavlja poluširinu intervala pouzdanosti, pa je uslov: σ 10 z1−α 2 ⋅ = 1.96 ≤ 5 ⇒ n ≥ 3.92 n n n ≥ 3.92 2 = 15.35
Odnosno u Excelu ovo izračunavanje izgleda ovako:

Usvaja se kao minimalan broj neophodnih merenja: n = 16
Aproksimacija za velike uzorke iz raspodele sa nepoznatom disperzijom

U skladu sa centralnom graničnom teoremom, za veće uzorke iz bilo koje raspodele sa parametrima µ i σ, primenljiva je aproksimacija da aritmetička sredina X ima normalnu raspodelu N ( µ, σ

n ). S druge strane, za velike uzorke (n ≥ 30) je primenljiva i aproksimacija:
s 2 = σ2 = σ2

( )

pa se za veće uzorke (n ≥ 30) iz raspodele sa nepoznatom disperzijom, interval aproksimira intervalom:

(4.3)

(x − z s /
α

n , x + zα s / n , ili

)

µ = x ± zα s / n

(4.4)

bez obzira na tip raspodele.

51

Primer 4.2

Obavljeno je 100 merenja mase čokolada, čija je deklarisana masa 100g (prva kolona tabele). a) Odrediti granice u kojima se nalazi srednja masa čokolada “od 100grama”, sa pouzdanošću od 90%, b) Ponoviti proračun za nivo pouzdanosti 99%. c) Da li se sa pouzdanošću od 90% može tvrditi da je srednja masa čokolade “od 100grama” manja od nominalne (100g), tako da ukazuje na poremećaj u procesu? Da li se ista tvrdnja može dati i sa sa pouzdanošću od 99% ? Rešenje Najpre izračunavamo uzoračku srednju vrednost i uzoračku disperziju iz formula za grupisane podatke

a) Za pouzdanost 90%, zα = 1.64 , pa je poluširina intervala pouzdanosti:

52

µ = 99.06 ± 0.46 g
b) Za pouzdanost 99%, zα = 2.58 ,

Prema očekivanju, sa povećanjem nivoa pozdanosti smanjena je preciznost intervalne ocene (širi interval) c) Sa pouzdanošću γ = 0.9, srednja masa proizvedenih čokolada “od 100grama” leži u intervalu:

(99.06 − 0.46, 99.06 + 0.46) ⇒ (98.60,

99.52 )

Pošto taj interval ne obuhvata nominalnu vrednost 100g i leži ispod te vrednosti, sa datom pouzdanošću možemo da tvrdimo da je srednja vrednost populacije, tj. srednja masa proizvedene čokolade manja od deklarisane.

4.2 Ocena srednje vrednosti normalne raspodele nepoznate disperzije
U slučajevima kada je disperzija σ2 nepoznata i uzorak nije veliki (n < 30) određivanje intervala pouzdanosti srednje vrednosti populacije sa normalnom raspodelom N (µ, σ), bazira se na Studentovoj ili t - raspodeli. Primer 4.3 Procenat bakra u nekoj supstanci meren je 6 puta i aritmetička sredina 6 merenja je x = 14.1 %. Odrediti interval u kome sa pouzdanošću γ = 95% leži pravi sadržaj bakra, a) Ako je poznata greška metode, σ = 2.5 b) Iz datog uzorka procenjena je greška metode, s = 2.1

53

Na osnovu ovih podataka prema formuli se na sledeći način izračunava interval:

Kada je poznata procenjena greška metode, izračunava se td,α pomoću funkcije TINV. Funkcija se poziva iz padajućeg menije Insert, opcije Function, i odabirom TINV iz statističkih funkcija.

Sintaksa: TINV(Probability, Deg_freedom) Probability – verovatnoća da vrednost x bude izvan intervala (–x,x). Deg_freedom – je broj koji označava broj stepeni slobode karakterističan za raspodelu. Rezultat funkcije je vrednost za koju Studentova raspodela „t“ ima zadatu verovatnoću. U konkretnom slučaju kako je pouzdanost 95%, verovtanoća je 1-0.95=0.05, što se i upisuje u polje Probability, a broj stepeni slobode je n-1=6-1=5, i upisuje se u polje Deg_freedom. Dobijeni rezultat je vrednost td,α, koja se dalje koristi za izračunavanje intervala po formuli:

54

Primer 4.4. Radi provere tačnosti metode, fotometrijskom titracijom je određivan berilijum u probi sa poznatom količinom berilijuma od 3.179mg. Rezultati ponovljenih analiza (mg) su: 3.167, 3.177, 3.177, 3.169, 3.173, 3.177, 3.177, 3.177, 3.171, 3.169 a) Proceniti interval pouzdanosti za sistematsku grešku (bias) metode, b:

b = µ − 3.179
sa 95% nivoom pouzdanosti, gde je µ srednja vrednost zamišljenog osnovnog skupa, koji sadrži beskonačan broj svih mogućih rezultata određivanja berilijuma u datoj probi. Rešenje Prvo sve podatke treba uneti u tabelu na sledeći način: a) Ocena sistematske greške iz datog uzorka od 10 merenja je:

b* = x − 3.179 .
Srednja vrednost x se izračunava pomoću funkcija AVERAGE.

interval pouzdanosti za njenu srednju vrednost b, dobija se kao

b = b* ± t9,0.05
Iz datog uzorka izračunava se:

s 10

x = 3.1733, b * = −0.0057

Zatim se pomoću funkcije TINV izračunava t:

55

s se izračunava pomoću funkcije STDEV

Funkcija STDEV procenjuje standardnu devijaciju na osnovu uzorka. Sintaksa: STDEV(number1, number2...)

Number1, number2.. je 1 do 30 brojeva koji se odnose na uzorak populacije. To može da bude i samo jedan niz ili referenca niza umesto argumenata rastavljenih zarezom. Funkcija STDEV poziva se iz menija Insert, izborom opcije Function , Statistical , STDEV. Interval je dalje :

Primer 4.5

Za uzorke u Primeru 3.2 izračunati intervalnu ocenu standardnog odstupanja sa pouzdanošću 90%.
Rešenje: Prvo treba formirati sledeću tabelu:

56

Zatim treba upisati sledeće podatke i izračunati disi2 i d

Dalje se izračunava s2 i s po formuli:

2 2 2 2 Pomoću funkcije CHIINV izračunava se : χ14,1− α 2 = χ14, 0.95 = 6.57, χ14,α 2 = χ14, 0.05 = 23.69

Funkcija CHIINV se takođe nalalazi u statističkim funkcijama. Rezultat funkcije je inverz funkcije raspodele hi- kvadrat. Funkcija CHIINV do rezultata dolazi iteracijama. Kada se zadda vrednost verovatnoće, funkcija CHIINv pravi iteracije dok se ne dobije rezultat tačan do ±3 10-7. Ako funkcija ne kovergira ni posle 100 iteracija, rezultat će biti vrednost greške #N/A. Sintaksa: CHIINV (Probability, Deg_freedom) Probability - verovatoća raspodele hi-kvadrat za koju se izračunava x. Deg_freedom – broj stepeni slobode. Pa je :

57

58

5. Analiza korelacije

59

Predmet ove glave je analiza međuzavisnosti (korelacije) dve neprekidne slučajne promenljive, na bazi paralelnog praćenja njihovih vrednosti. Najočigledniji primer međuzavisnosti dve slučajne veličine su visina i masa čoveka i u pitanju je ne funkcionalna, već stohastička veza između ta dva obeležja. Drugi primer je uticaj sadržaja neke komponente u složenom materijalu, recimo građevinskom, na neko svojstvo tog materijala, recimo čvrstinu. Želimo metodama statistike da, na osnovu merenja, dođemo do zaključka da li posmatrani sadržaj komponente utiče na čvrstinu građevinskog materijala i uz to, • koliko je ta korelacija izražena (jaka), • da li je ona pozitivna ili negativna, tj. da li sa porastom sadržaja posmatrane komponente čvrstina građevinskog materijala raste ili opada.

Dijagram rasipanja
Za statističku analizu korelisanosti dve slučajne promenljive (obeležja) X i Y, neophodno je raspolagati parovima (odgovarajućih) vrednosti promenljivih:

(xi , yi ),

i = 1,2,..., n

(5.1)

ili tzv. vezanim uzorkom (5.1), umesto sa dva nevezana ili nezavisna uzorka: (xi , i = 1,2,...n ) i ( yi , i = 1,2,...m ) gde su merenja xi i yi nepovezana. Prvi korak u analizi korelacije je ucrtavanje uređenih parova (xi, yi), kao tačaka, u xy koordinatni sistem. Dobijeni dijagram se naziva dijagram rasipanja (scatter diagram). Na osnovu rasporeda tačaka u dijagramu, može se grubo proceniti:

• da li postoji stohastička zavisnost promenljivih (korelacija), • ako postoji korelacija, da li je ona linearna ili nelinearna, • ako postoji korelacija, da li je ona slaba ili jaka,

Slika 5.1. Ilustracije linearne korelacije: a) jaka pozitivna, b) slaba pozitivna, c) negativna

60

y

y

a)

x

b)

x

Slika 5.2. (a) Nelinearna korelacija, (b) Nema korelacije Na slikama 5.1a - c, eksperimentalne tačke leže oko neke prave, što daje osnovu za pretpostavku da su X i Y približno ili tačno, linearno povezane. Ako tačke leže blizu prave (Sl 5.1a), u pitanju je jaka korelacija, a ako je rasipanje tačaka oko prave veliko, korelacija je slaba (Sl.5.1). Slike (5.1a,b), ukazuju na pozitivnu korelaciju ili pozitivan trend, jer su velike vrednosti za Y , uglavnom, u paru sa velikim vrednostima X, dok Sl.5.1c ilustruje negativnu korelaciju ili trend, gde su velike vrednosti za X praćene uglavnom malim vrednostima za Y. Slika 5.2a ilustruje slučaj nelinearne korelacije ili nelinearne stohastičke veze, jer se tačke rasipaju oko neke krive. Konačno, na Sl. 5.2b, ne uočava se povezanost između X i Y, tj. nema ni pozitivnog ni negativnog trenda, pa zaključujemo da su one nezavisne ili nekorelisane. Iz teorije verovatnoće znamo da dijagrami (5.1a-c, 5.2a), na kojima su eksperimentalne tačke raspoređene duž neke prave ili krive ukazuju na (funkcionalnu) zavisnost uslovne srednje vrednosti slučajne promenljive Y od druge promenljive X. Dalje, linija na dijagramu rasipanja, u blizini koje leže eksperimentalne tačke, predstavlja u stvari grubu ocenu iz datog uzorka (5.1), funkcije (linije) regresije:

µ y x = ϕ1 ( x)
Pri tom, ako je zavisnost pravolinijska, znači da dvodimenzionalna promenljiva (X,Y) ima normalnu raspodelu. U ovom materijalu, ograničićemo se na linearnu korelaciju, što znači,

• da će se statistička analiza bazirati na pretpostavci o normalnoj raspodeli dvodimenzionalne promenljive (X,Y), • da će predmet analize biti uzorački koeficijent korelacije, kao mera jačine i pokazatelj pozitivne ili negativne korelacije

61

5.1 Uzorački koeficijent korelacije
Ocenu koeficijenta korelacije slučajnih promenljivih X i Y :

ρ xy =

σ xy σ xσ y

iz uzorka (5.1) dobićemo iz ocena kovarijanse σ xy , i standardnih odstupanja σx, σy, iz istog uzorka:

rxy =

s xy sx s y

(5.2)

Nepristrasne ocene sx i sy standardnih odstupanja, dobijaju se iz vrednosti statistike S2,
sx =
1 n −1

∑ ( xi − x ) 2 ,
i =1

n

2 sy =

1 n −1

∑(y
i =1

n

i

− y)2

(5.3)

a sxy kao:

s xy =
tj. kao vrednost statistike:

1 n ∑ ( xi − x )( yi − y ) n − 1 i =1

(5.4)

S xy =

1 n ∑ ( X i − X )(Yi − Y ) n − 1 i =1

(5.5)

za koju se može pokazati da predstavlja nepristrasnu ocenu kovarijanse σ xy (3.16b). Smena izraza (5.3) i (5.4) u (5.2) i transformacije analogne onoj, koja je primenjena za izvođenje praktične formule za računanje uzoračke disperzije (4.14a), daju sledeću praktičnu formulu za izračunavanje uzoračkog koeficijenta korelacije:

, rxy ≤ 1 (5.6) 2 n     n∑ x 2 −  ∑ x   n∑ y 2 −  ∑ y        i =1 i  i =1 i   i =1 i  i =1 i      U matematičkoj statistici se dokazuje da je ocena koeficijenta korelacije ρxy dobijena formulom (5.6) konzistentna i asimptotski nepristrasna.
i =1 i =1 i =1 n n
2

rxy =

n∑ xi yi − (∑ xi )(∑ yi )
n

n

n

n

Iz izračunate vrednosti uzoračkog koeficijenta korelacije, može se dati ocena jačine linearne korelacije na osnovu empirijskog pravila [Vukadinović, 1990] datog u Tabeli 5.1.

62

Tabela 5.1 - Jačina linearne korelacije rxy r ≤ 0.3 0.5 < r < 0.7 0.7 ≤ r ≤ 0.9 r > 0.9 jačina linearne veze: neznačajna korelacija značajna korelacija jaka korelacija vrlo jaka korelacija

Primer 5.1 Primećeno je da je visok sadržaj supstance A u sirovini, obično praćen i visokim sadržajem supstance B. Radi utvrđivanja eventualne linearne korelacije između sadržaja dve komponente izvršeno je merenje sadržaja A i B u 10 slučajnih uzoraka sirovine. Rezultati su dati u prve dve kolone Tabele 5.1. Tabela uz Primer 5.1 x (% A) 67 54 72 64 39 22 58 43 46 34 y (% B) 24 15 23 19 16 11 20 16 17 13 174 x2 4489 2916 5184 4096 1521 484 3364 1849 2116 1156 27175 y2 576 225 529 361 256 121 400 256 289 169 3182 xy 1608 810 1656 1216 624 242 1160 688 782 442 9228

∑ 499
Rešenje

Tačke (xi, yi) treba ucrtati u dijagram rasipanja. Očigledan je pozitivan linearan trend: porast sadržaja jedne suspstance, praćen je porastom sadržaja druge. Kao meru jačine linearne veze između sadržaja supstanci A i B, mže se izračunati po jedn. (5.6) uzorački koeficijent korelacije. Pomoćni proračuni su dati u tabeli.

rxy =

10 ⋅ 9228 − 499 ⋅174 10 ⋅ 27115 − 499 2 10 ⋅ 3182 − 174 2

= 0.933

63

30 25 20 y(%B) 15 10 5 0 0 10 20 30 40 x(%A) 50 60 70 80

Dakle uzorački koeficijent se može izračunati po formuli, ali postoji i znatno jednostavniji način za njegovo izračunvanje, gde nisu potrebni pomoćni proračuni. Uzorački koeficijent korelacije može se izračunati i korišćenjem funkcije PEARSON. Funkcija PEARSON nalazi se u statističkim funkcijama, rezultat je Pearson-ov koeficijent korelacije r koji pokazuje linearnu korelaciju dva skupa podataka. Sintaksa: PEARSON(Array1, Array2) Array1 – je skup nezavisnih podataka. Array2 – je skup zavisnih podataka.

64

Prema empirijskom kriterijumu (Tab.5.1), u pitanju je vrlo jaka linearna veza.

5.2 Regresione prave
Ako smo na osnovu veličine uzoračkog koeficijenta korelacije rxy, zaključili da posmatrane slučajne promenljive nisu nezavisne, korisno je izračunati koeficijente u pravolinijskim zavisnostima jedne od druge promenljive, koje predstavljaju ocene iz datog uzoraka (5.1), linearnih regresionih funkcija:

µ y / x = µ y + ρ xy
µ x / y = µ x + ρ xy

σy σx

(x − µx )

(3.35b) (3.36b)

σx (y −µy) σy

Dobijene pravolinijske zavisnosti zvaćemo regresione prave (regression lines) i iz njih možemo da procenimo ili predvidimo (predict) vrednost jedne slučajne promenljive na osnovu vrednosti druge. Regresionu pravu y(x), kao ocenu regresione funkcije (3.35b) ćemo, logično, tražiti u obliku:

y = y + rxy

sy sx

( x − x ) = b0 + b1 x

odakle slede formule za izračunavanje nagiba b1 i odsečka b0:

65

b1 = rxy

sy sx

=

s xy s
2 x

=

n∑ xi yi − (∑ xi )(∑ yi )
i =1 i =1

n

n

n

  n∑ xi2 −  ∑ xi  i =1  i =1 
n n

i =1 2

(5.7a)

b0 = y − b1 x
sx ( y − y ) = c0 + c1 y sy

(5.7b)

Slično, regresionu pravu x(y), dobijamo kao ocenu regresione funkcije (3.36b):
x = x + rxy

i formule za nagib c1 i odsečak c0 su:
c1 = rxy s x s xy = 2 = sy sy n∑ xi yi − (∑ xi )(∑ yi )
i =1 i =1 n n n

  n∑ yi2 −  ∑ yi  i =1  i =1 
n n

i =1 2

(5.5a)

c0 = x − c1 y

(5.8b)

Primer 5.2 Iz podataka datih u prethodnom primeru, potrebno je a) proceniti sadržaj komponente B u sirovini, ako ona sadrži 55% supstance A b) proceniti sadržaj komponente A u sirovini, ako ona sadrži 20% supstance B Rešenje a) Traženu procena dobija se iz regresione prave y(x). Dakle prvo je potrebno izračunati parametre ove prave. Parameti se mogu izračunati korišćenjem statističkih funkcija SLOPE i INTERCEPT.

Za x = 55, računa se y iz regresione prave, odnosno procenu sadržaja supstance B:

66

Rezultat funkcije SLOPE je nagib linearne regresije. Sintaksa: SLOPE(Known_y's, Known_x's) Known_y's - je matrica ili skup ćelija zavisnih numeričkih pojedinačnih podatak. Known_x's – je skup nezavisnih pojedinačnih podataka.

Rezultat funkcije INTERCEPT je tačka preseka linearne regresije sa y osom. Sintaksa: INTERCEPT(Known_y's, Known_x's) Known_y's - je matrica ili skup ćelija zavisnih numeričkih pojedinačnih podatak. Known_x's – je skup nezavisnih pojedinačnih podataka.

b) Procena sadržaja x supstance A za dati sadržaj y supstance B, ne računa se iz prethodno dobijene prave (rešavajući njenu jednačinu po x), već iz prave, koja predstavlja ocenu regresije x po y i čiji su parametri:

67

Za sadržaj komponente B, y = 20, procenjeni sadržaj x druge komponente biće:

x = b0 + a1 y = −11.6 + 3.53 ⋅ 20 = 59% što se veoma dobro slaže sa eksperimentalnom vrednošću (58%). To se moglo očekivati, s obzirom na jaku korelaciju (rxy > 0.9), tj. približavanje linearne stohastičke zavisnosti, funkcionalnoj.

5.3 Provera značajnosti korelacije
Ako je dobijena vrednost uzoračkog koeficijenta korelacije (5.6) mala po apsolutnoj vrednosti, postavlja se pitanje da li ona ukazuje na postojanje linearne korelacije između slučajnih promenljivih X i Y , ili je samo rezultat slučajnih varijacija vrednosti statistike Rxy, definisane formulom (5.6), oko nule kao njene srednje vrednosti. Zato proveravamo statističku značajnost izračunatog uzoračkog koeficijenta korelacije ili, drugim rečima hipotezu:

H 0 : ρ xy = 0

(5.9)

Teorijska osnova za formulisanje testa je sledeći stav (teorema): Ako slučajna promenljiva (X,Y) ima dvodimenzionalnu normalnu raspodelu, sa nultom vrednošću koeficijenta korelacije ρxy (X i Y su nezavisne), tada slučajna promenljiva:
T= Rxy n − 2 1 − Rxy
2

(9.9)

gde su: n - obim uzorka (5.1)

68

Rxy - uzorački koeficijent korelacije (5.6) ima t - raspodelu sa d = n - 2 stepena slobode. Odatle slede kriterijumi značajnosti uzoračkog koeficijenta korelacije, odnosno odbacivanja hipoteze (5.9) i dati su u Tab.5.2 Tabela 5.2 - Testiranje hipoteze H0: ρ = 0

Alternativna hipoteza, H1
ρ≠0 ρ>0 ρ<0

Statistika:
Rxy n − 2 1 − Rxy
2

Kriterijum odbacivanja hipoteze:
t > t n − 2 ,α t > t n − 2, 2 α t > t n − 2, 2 α

T=

vrednost za Rxy se računa iz

Primer 5.3 Izmerene vrednosti sadržaja kalaja u leguri (x, %) i odgovarajuće izmerene tačke topljenja (y, 0C) date su u prve dve kolone tabele: x, % y, 0C x, % y, 0C 44.1 513 44.9 525 44.9 512 45.1 522 44.4 511 44.5 521 44.7 510 45.1 513 45.1 513 43.0 537 45.0 514 44.8 513 44.7 521 44.2 519 44.6 514 45.2 512 46.3 526 45.5 514

Proceniti koeficijent korelacije između sadržaja kalaja i tačke topljenja i testirati njegovu značajnost sa α=0.05. Rešenje Pomoću funkcije PEARSON izračunava se koeficijent korelacije r

Testira se hipoteza: H0: ρ = 0 Pošto je poznato da povećanje sadržaja kalaja u leguri po praviliu snižava temperaturu topljenja legure (negativna korelacija) to se, u cilju smanjenja rizika prihvatanja pogrešne nulte hipoteze, bira jednostrani test, tj. alternativna hipoteza: H1: ρ < 0

69

Vrednost T - statistike izračunava se pomoću funkcije TINV, a zatim se po formuli računa kritična vrednost:

t=

r n−2
1− r 2

=

− 0.302 16

1 − 0.302 2

= −1.27, t16, 0.1 = 1.75

Pošto je 1.27 < 1.75, izvodimo zaključak da rezultati merenja ne ukazuju na značajnu korelaciju između sadržaja kalaja i tačke topljenja legure.

5.4 Interpretacija koeficijenata korelacije
S obzirom na smisao teoretskog koeficijenta korelacije ρxy, njegovu procenu rxy, ima smisla računati samo kada ima indikacija (teoretska znanja, dijagram rasipanja) da je veza između posmatranih promenljivih linearna ili približno linearna. Ako je veza nelinearna, uzorački koeficijent korelacije r xy nije merilo jačine korelacije i može biti i blizak nuli, uprkos jakoj vezi. Takođe je važno imati u vidu da statistički značajna vrednost koeficijenta korelacije nije dokaz da između posmatranih promenljivih postoji kauzalna (suštinska) veza. Tako, visoka vrednost rxy može biti rezultat delovanja treće promenljive, koja se menja u toku eksperimenata, a koja je prouzrokovala istovremene promene posmatranih promenljivih i privid njihove međuzavisnosti. Instruktivan i duhovit primer daju Boks i sar. [Box G., Hunter W i Hunter S, 1978]. U periodu od 7 godina, na kraju svake godine, je određivan broj stanovnika Oldenburga i broj roda i zapažena je jaka linearna korelacija između te dve veličine. Da li iz toga treba zaključiti da je porast nataliteta prouzrokovan porastom broja roda (rode donose decu?)? U ovom primeru, treća promenljiva, sa kojom su rasle posmatrane dve jeste vreme. U laboratorijskim i pogonskim merenjima, primer "treće" ili "nekontrolisane" promenljive je temperatura, koja deluje na veliki broj fizičko-hemijskih parametara i ako se ne kontroliše (drži konstantnom) u toku praćenja neke dve veličine, može stvoriti privid kauzalne veze izmedju njih. Tako, da bi se utvrdila suštinska povezanost između dve promenljive, neophodno je dobro poznavati njihovu fizičko-hemijsku prirodu s jedne strane, i vrlo pažljivo kontrolisati eksperimente, s druge strane.

70

ZADACI
5.1 Radi provere Njutnovog zakona hlađenja, prema kome temperatura hlađenog medijuma, y približno linearno opada sa vremenom, x izvršena su merenja i dobijeni rezultati: Vreme, min Temper. 0C 4 46 8 34 10 30 12 26 16 24 22 20

Izračunati na tri decimale koeficijent korelacije i na osnovu njegove vrednosti oceniti jačinu korelacije i njen znak. 5.2 Radi provere Hukovog zakona (linearna veza između jačine sile i deformacije) dobijeni su sledeći rezultati merenja: Sila, N Istezanje, mm 2 2 5 23 8 62 11 119 15 223

Izračunati na tri decimale koeficijent korelacije i na osnovu njegove vrednosti oceniti jačinu korelacije i njen znak. 5.3 Dati su eksperimentalni podaci: x: y: a) b) c) d) e) 6 8 5 7 8 7 8 10 7 5 6 8 10 10 4 6 9 8 7 6

Nacrtati dijagram rasipanja i na osnovu njega proceniti jačinu i znak korelacije Izračunati koeficijent korelacije na tri decimale Izračunati koeficijente regresionih pravih y(x) i x(y), sa tačnošću od 3 decimale Izračunati, sa jednom decimalom, y za x = 6 i x za y = 9 Testirati značajnost koeficijenta korelacije sa nivoom značajnosti α = 0.05

5.4 Praćen je prinos (y, %) neke supstance u procesu, na različitim temperaturama (x, 0C): x, 0C y, % x, 0C y, % 1100 8.5 11.6 1175 37.5 40 42.3 1125 19.0 28.2 21.8 1200 50.5 50.0 1150 29.5 30.6 1225 57.2 60.3 62.7 a) Nacrtati dijagram rasipanja i na osnovu njega proceniti jačinu i znak korelacije b) Izračunati koeficijent korelacije (sa tri decimale) i proveriti njegovu značajnost sa nivoom α = 0.01 c) Izračunati odsečak regresione prave y(x) sa jednom decimalom i nagib sa 4 decimale. d) Izračunati prinos na temperaturi 1160 0C

71

6. Regresiona analiza

72

Često, od dve slučajne promenljive, jednu promenljivu (X) smatramo nezavisno-, a drugu (Y) zavisno-promenljivom. Tako je u Primeru 8.3, logično sadržaj kalaja u leguri smatrati nezavisno-, a temperaturu topljenja legure zavisno-promenljivom. Budući da daje srednju vrednost promenljive Y za zadatu vrednost X, najbolja funkcija za predskazivanje vrednosti Y za dato X je regresiona funkcija:

µ y x = ϕ1 ( x)
Tako je u mnogim praktičnim problemima u nauci i tehnici od interesa naći približnu regresionu funkciju i predmet regresione analize je formulisanje približnih regresionih funkcija, koje se nazivaju regresione jednačine ili empirijske formule (jednačine), na osnovu uzorka (8.1). Zadatak regresione analize obuhvata: • Izbor oblika regresione funkcije,

µ y x = ϕ( x, β0 , β1 ,..., β k )

(6.1)

gde su βj, j = 0,1,...,k parametri ili koeficijenti, koji figurišu u funkciji (6.1) i zovu se pravi ili teorijski regresioni koeficijenti. • Ocenjivanje regresionih koeficijenata βj, j = 0,1,...,k, tj. određivanje njihovih približnih vrednosti: b j, j = 0,1,...,k, tako da regresiona jednačina,

y ( x) = ϕ( x, b0 , b1 ,..., bk )

(6.2) zovu

predstavlja što bolju aproksimaciju regresione funkcije (6.1). Koeficijenti bj se empirijski regresioni koeficijenti ili parametri u empirijskoj formuli. •

Statističku analizu dobijene jednačine: preciznost predskazivanja, intervali poverenja teorijskih regresionih koeficijenata itd.

Izbor oblika regresione jednačine (empirijske formule)

Iz definicije regresione funkcije, sledi da izbor oblika regresione jednačine (6.1) zahteva poznavanje raspodele verovatnoće dvodimenzionalne slučajne promenljive (X,Y). Tako, ako je ona normalna, izveli smo (Pogl. 3.6) pravolinijsku zavisnost:

µy/x = µy + ρ
sa teorijskim koeficijentima regresije:

σy σx

( x − µ x ) = µ y − β1µ x + β1 x 1 24 4 3
β0

β1 = ρ

σy σx

, β0 = µ y − β1µ x

Regresiona jednačina ili empirijska formula tada glasi:

y ( x) = b0 + b1 x

73

čiji parametri b0 i b1 predstavljaju ocene teorijskih koeficijenata β0 , β1 i intuitivno smo ih izveli u Pogl. 8.2 (Jedn. 8.7a,b). Može se pokazati da te formule daju najverodostojnije ocene teorijskih regresionih koeficijenata, dakle one koje bi dobili primenom metode maksimalne verodostojnosti (Pogl. 4.4). Kako u opštem slučaju, dvodimenzionalna raspodela nije poznata, problem izbora oblika regresione jednačine ili empirijske formule se rešava približno na osnovu: • teoretskih znanja i iskustva u vezi sa uticajem neke fizičke veličine X na drugu fizičku veličinu Y • dijagrama rasipanja eksperimentalnih tačaka ( xi , yi ), i = 1,2,..., n Na primer, poznato je da temperatura ima jak uticaj na brzinu hemijske reakcije. U hemijskoj kinetici se izraz za brzinu r nepovratne hemijske reakcije, najčešće traži u obliku:

 mol  r (c1 , c2 ,..., T ) = k (T ) f (c1 , c2 ,...)  3   s⋅m 
gde su c1,c2,..., molske koncentracije reaktanata, a k(T) se zove konstanta brzine hemijske reakcije, mada zavisi od temperature. Tako se pri ispitivanju uticaja temperature na brzinu neke reakcije, meri temperatura T(K) i eksperimentalno određuju odgovarajuće vrednosti konstante brzine hemijske reakcije k. Na osnovu poznavanja osnovnih zakonitosti u hemijskoj kinetici, empirijsku jednačinu k(T) tražimo u obliku poznate Arenijusove (Arrenius) formule:

k (T ) = k0 e − E / RT = b0 e − b1 / T
Zbog svoje jednostavnosti i osobine da mogu dobro da aproksimiraju različite funkcije, kao empirijske formule se često koriste polinomi drugog i višeg stepena:

y ( x) = b0 + b1 x + b2 x 2 + Lbk x k (k ≥ 2)
Ako odabrana empirijska formula,

(6.3)

y ( x) = f ( x, b0 , b1 ,..., bk )

(6.4)

nema kao osnovu regresionu funkciju (3.31a), već ima čisto empirijski karakter, tada se naravno ne može govoriti o parametrima bj, j = 0,1,...,k kao ocenama teorijskih regresionih koeficijenata.

Statistička analiza regresione jednačine

Ovo je veoma složen problem, jer zahteva poznavanje raspodela empirijskih regresionih koeficijenata, bj, j = 0,1,...,k , kao funkcija uzorka. Tako je on, u opštem slučaju rešiv samo uz pretpostavku da nezavisna promenljiva nije slučajna, već determinisana (kontrolisana) promenljiva. Drugim rečima, eksperimentalne vrednosti xi, i = 1,2,..,n u uzorku (8.1) su unapred odabrane ili fiksirane. Praktično, ovaj uslov će biti zadovoljen ako su slučajne varijacije (greške merenja) u vrednostima slučajne promenljive Y mnogo veće od onih u vrednostima X ( σ 2 >> σ 2 ). Na primer, pri određivanju koeficijenata u Arenijusovoj zavisnosti konstante brzine y x

74

hem. reakcije od temperature, slučajne greške merenja temperature su daleko manje od slučajnih grešaka pri određivanju konstanti brzine reakcije (posredna merenja).

6.1 Metod najmanjih kvadrata
Princip najmanjih kvadrata je formulisao Ležandr (Legendre): najverovatnija vrednost bilo koje veličine, koju određujemo na bazi ponovljenih merenja, je ona za koju je suma kvadrata odstupanja merenja od te vrednosti najmanja. Uzmimo na primer da je radi procenjivanja tačne vrednosti r neke fizičke veličine, izvedeno n ponovljenih merenja, sa rezultatima: xi, i = 1,2,...,n i pretpostavimo da merenja imaju normalnu raspodelu i da ne sadrže sistematske i grube greške. Prema principu najmanjih kvadrata, kao najverovatniju vrednost za r uzimamo onu za koju suma kvadrata odstupanja:

S (r ) = ∑ (xi − r )
i =1

n

2

ima minimum. Dobijamo je iz uslova minimuma funkcije S(r):
n dS = −2∑ ( xi − r ) = 0 dr i =1

kao:

r=

1 n ∑ xi = x n i =1

Prepoznajemo aritmetičku sredinu, za koju smo u Pogl. 4.5 pokazali, da predstavlja najverodostojniju ocenu srednje vrednosti rezultata merenja kao slučajne veličine, koja je, pod uslovom da merenje ne sadrže sistematske i grube greške, upravo jednaka tačnoj vrednosti merene veličine (Pogl.2.3). Određivanje parametara u empirijskoj formuli Neka raspolažemo eksperimentalnim tačkama (xi,yi), i = 1,2,...,n. Pretpostavimo, za početak, da su svih n vrednosti nezavisno promenljive u uzorku različite tj. da nema ponovljenih merenja zavisno promenljive za jednu vrednost nezavisne. Neka smo odabrali oblik empirijske formule (6.4), pri čemu je neophodno da broj parametara (k+1) u formuli, bude manji od broja eksperimentalnih tačaka: k+1<n Traže se vrednosti parametara bj, j = 0,1,...,k u odabranoj empirijskoj formuli, takve da se računske vrednosti zavisno promenljive dobijene iz nje:

yirac = f ( xi , b0 , b1 ,..., bk ), i = 1,2,..., n

(6.5)

75

najmanje razlikuju od eksperimentalnih (iz uzorka): yi, i = 1,2,...,n u smislu principa najmanjih kvadrata, a to znači da suma kvadrata odstupanja ei, i = 1,2,...,n eksperimentalnih od računskih vrednosti zavisno promenljive:

S = S (b0 , b1 ,..., bk ) = ∑ ei2 = ∑ ( yi − yirac ) 2
i =1 i =1

n

n

(n > k + 1)

(6.6)

bude najmanja. Geometrijski interpretirano, biraju se tako vrednosti parametara, da se kriva (6.4) "provlači" što bliže eksperimentalnim tačkama (Sl.6.1), pri čemu je mera odstupanja krive od eksperimentalnih tačaka, suma kvadrata odstupanja (6.6).

Slika 6.1 - Provlačenje krive između eksperimentalnih tačkaka Primetimo da je suma kvadrata odstupanja S, funkcija samo nepoznatih parametara, jer su vrednosti (xi , yi ), i = 1,2,..., n poznate, a računske vrednosti yirac , i = 1,2,..., n su, prema (6.5), funkcije parametara. Problem izračunavanja parametara bj, j = 0,1,...,k se tako svodi na problem određivanja minimuma funkcije više promenljivih (6.6). Oni se dobijaju rešavanjem sistema jednačina, koji predstavljaju potreban uslov minimuma funkcije (6.6) i kojih ima tačno onoliko koliki je broj traženih parametara:

∂S (b0 , b1 ,..., bk ) = 0, j = 0,1,..., k ∂b j
Jednačine (6.7) su u literaturi poznate pod nazivom normalne jednačine.

(6.7)

Neka u uzorku, (xi , yi ), i = 1,2,..., n ima ponovljenih merenja zavisno promenljive Y pri jednoj vrednosti za x, što znači da među vrednostima xi, i = 1,2,...,n ima jednakih. Tada, uz uslov da je broj različitih vrednosti nezavisno promenljive m (tj. broj njenih vrednosti u grupisanom uzorku) veći od broja parametara (k+1) u empirijskoj formuli: m > k+1 važe sva prethodna razmatranja.

76

6.2 Srednje kvadratno odstupanje empirijske formule
Neka smo metodom najmanjih kvadrata odredili parametre bj, j = 0,1,...,k u odabranoj empirijskoj formuli (6.4):

y ( x) = f ( x, b0 , b1 ,..., bk )
Nekada smo međutim suočeni sa problemom da od više empirijskih jednačina, koje mogu da sadrže različit broj paramatara, odaberemo najbolju, tj. onu koja najbolje opisuje ili "fituje" (od glagola to fit) date eksperimentalne podatke, odnosno najmanje u određenom smislu odstupa od njih. Za rešavanje tog problema, potrebna nam je neka mera odstupanja empirijske formule, čiji su parametri izračunati metodom najmanjih kvadrata, od eksperimentalnih podataka. U skladu sa principom najmanjih kvadrata, kao tražena mera, koristi se srednje kvadratno odstupanje empirijske formule ili regresione jednačine (6.4), definisano kao:

s2 =

∑ ( yi − yirac ) 2
i =1

n

n − (k + 1)

=

∑(y
i =1

n

i

− f ( xi , b0 , b1 ,..., bk )) 2 n − (k + 1)
(6.8)

Kao što vidimo, suma kvadrata odstupanja eksperimentalnih od računskih vrednosti iz dobijene empirijske formule, deli se razlikom ukupnog broja eksperimentalnih tačaka i ukupnog broja parametara u formuli. Tako se mogu porediti regresione jednačine sa različitim brojem parametara, pri čemu je pri jednakim sumama kvadrata odstupanja za dve formule, bolja ona koja sadrži manji broj parametara. Srednje kvadratno odstupanje (6.8) se u regresionoj analizi koristi za: • poređenje kvaliteta više regresionih jednačina, • analizu adekvatnosti neke regresione jednačine Ako se neka regresiona jednačina oceni kao adekvatna (adekvatno opisuje zavisnost srednje vrednosti slučajne promenljive Y od kontrolisane promenljive x), onda njeno srednje kvadratno odstupanje s2: • daje nepristrasnu ocenu disperzije slučajne promenljive Y • predstavlja meru jačine stohastičke zavisnosti Y od x (ukoliko je s2 veće, veza je slabija)

6.3 Koeficijent determinacije
Kao mera jačine linearne stohastičke veze između promenljivih služi koeficijent korelacije (Glava 5). Da bi smo definisali opštu meru jačine veze (linearne ili nelinearne) između slučajne promenljive Y i kontrolisane promenljive x, razmotrićemo značenje dve sume kvadrata odstupanja izračunate iz uzorka (xi, yi) i = 1,2,...,n. Suma:

SST = ∑ ( yi − y ) 2
i =1

n

predstavlja meru ukupne varijacije u eksperimentalnim vrednostima, yi. Suma,

77

SSF = ∑ ( yirac − y ) 2 = ∑ ( f ( x, b0 , b1 ,..., bk ) − y ) 2
i =1 i =1

n

n

meri varijacije računskih vrednosti koje daje regresiona jednačina, oko aritmetičke sredine y kao odabrane referentne vrednosti. Može se reći da SSF predstavlja objašnjenu (empirijskom formulom) varijaciju oko y . U slučaju da Y ne zavisi od x, odnosno da je:

µy/x = µy
empirijska jednačina, koja daje ocene srednje vrednosti za Y, će kao procene dati

yirac ≈ y , i = 1,2,..., n
što kao rezultat ima vrednost SSF blisku nuli, odnosno količnik dve sume blizak nuli:

SSF ≈0 SST
Drugi granični slučaj je funkcionalna veza između dve promenjive što znači da ni Y nije slučajna promenljiva. Tada će, pod pretpostavkom da je forma regresione jednačine tačna, ona tačno reprodukovati eksperimentalne tačke :

yirac = yi , i = 1,2,..., n
pa će količnik dve sume biti jednak jedinici:

SSF =1 SST
Dakle, kao pogodna mera jačine veze između x i Y nameće se količnik dve sume:

R2 =

∑(y
i =1 n i =1

n

rac i

− y)2

∑(y

,
i

0 ≤ R2 ≤ 1

(6.6)

− y)

2

koji se zove koeficijent determinacije. Za koeficijent determinacije važi: 0 ≤ R2 ≤ 1 pa se on može interpretirati kao deo ukupne varijacije koji je objašnjen empirijskom formulom. S obzirom na ovu osobinu, koeficijent determinacije je pogodnija mera jačine veze između Y i x nego srednje kvadratno odstupanje s2 (6.8).

6.4 Određivanje pravolinijske zavisnosti
Pretpostavimo da srednja vrednost slučajne promenljive Y linearno zavisi od kontrolisane promenljive x:

µ y x = β0 + β1 x

(6.10)

78

Drugim rečima, zavisno promenljivu Y možemo da prikažemo u obliku zbira njene srednje vrednosti (6.10) i slučajnog odstupanja (greške) E :

Y = βo + β1 x + E,

M (E ) = 0

(6.11)

Iz uzorka (xi , yi ), i = 1,2,..., n procenjujemo vrednosti teorijskih regresionih koeficijenata β0 , β1 , ili drugim rečima, izračunavamo parametre b0, b1 (odsečak prave i njen nagib) u empirijskoj formuli:

y = b0 + b1 x

(6.12)

Metodom najmanjih kvadrata, uzoračke regresione koeficijente b0, b1 dobijamo iz uslova minimuma sume kvadrata odstupanja eksperimentalnih od računskih vrednosti (6.6), koja u slučaju formule (6.12) izgleda:

S (b0 , b1 ) = ∑ ( yi − yirac ) 2 =
i =1

n

∑[ y
i =1

n

i

− (b0 + b1 xi )]2

Primenjujući pravilo da je prvi izvod sume jednak sumi prvih izvoda, za uslove minimuma dobijamo:

∂S = ∂b0 ∂S = ∂b1

∑ 2[ y
i =1

n

i

− (b0 + b1 xi )](−1) = 0 − (b0 + b1 xi )](− xi ) = 0

∑ 2[ y
i =1 n

n

i

odnosno, nakon deljenja jednačina sa (-2) i sređivanja:

∑ yi − nb0 − b1 ∑ xi = 0
i =1 i =1

n

∑ xi yi − b0 ∑ xi − b1 ∑ xi2 = 0
i =1 i =1 i =1

n

n

n

Konačno, nakon prebacivanja poznatih vrednosti na drugu stranu jednačina, dobijamo sistem od dve linearne jednačine po traženim parametrima:
n  n  nb0 +  ∑ xi b1 = ∑ yi i =1  i =1  n  n   n   ∑ xi b0 +  ∑ xi2 b1 = ∑ xi yi i =1  i =1   i =1 

(6.13a)

(6.13b)

koje predstavljaju normalne jednačine (6.7) za slučaj pravolinijske regresije. Rešenja dobijenog sistema jednačina se mogu prikazati u obliku identičnom formulama (5.7a,b):

79

b1 =

n∑ xi yi − (∑ xi )(∑ yi )
i =1 i =1

n

n

n

  n∑ xi2 −  ∑ xi  i =1  i =1 
n n

i =1 2

(6.14a)

b0 = y − b1 x
Tako, pri sledećim pretpostavkama: • • važi linearan model (6.11) za merenja Yi, i = 1,2,...,n disperzija slučajnih varijacija zavisno promenljive Y je konstantna:

(6.14b)

D(E ) = σ 2 = const. y
• merenja Yi, i = 1,2,...,n su nezavisna i imaju normalnu raspodelu metod najmanjih kvadrata daje saglasne i nepristrasne ocene regresionih koeficijenata:

M (B j ) = β j , j = 0,1

(6.15)

identične onima koje daje metod maksimalne verodostojnosti. U Jedn. 6.12, Bj su statistike čije se vrednosti računaju formulama (6.11a,b). Uz to, pokazuje se da srednjekvadratno odstupanje računskih vrednosti (6.8),

s2 =
kao vrednost statistike:

1 n 2 ∑ ( yi − b0 − b1 xi ) n − 2 i =1 1 n 2 ∑ (Yi − b0 − b1 xi ) n − 2 i =1
M S 2 = σ2 y

(6.16)

S2 =

(6.17)

predstavlja nepristrasnu ocenu disperzije zavisno promenljive:

( )

Formuli (6.16) ekvivalentna je sledeća:

s2 =

n −1 2 2 ( s y − b12 s x ) n−2

(6.18)

2 2 gde su s x i s y srednji kvadrati odstupanja:

s

2 x

∑x =

2 i

− (∑ xi ) 2 / n

n −1

,

s

2 y

∑y =

2 i

− ( ∑ yi ) 2 / n

n −1

(6.19)

Primer 6.1 Zbog zajedničkog jona Cl rastvorljivost BaCl2, y(%) u vodi, pri konstantnoj temperaturi približno linearno opada sa porastom koncentracije CaCl2, x(%) u vodi. a) Formulisati empirijsku jednačinu za procenjivanje rastvorljivosti BaCl2 pri različitim sadržajima CaCl2 u vodi, na bazi podataka datih u prve tri kolone tabele

80

b) Proceniti rastvorljivost BaCl2 pri koncentraciji CaCl2 od 13%. Tabela uz Primer 6.1 N0 1 2 3 4 5 6 ∑= Rešenje a) Nagib i odsečak u traženoj empirijskoj pravolinijskoj zavisnosti mogu se dobiti pomoću funkcija SLOPE i INTERCEPT. Iako funkcije SLOPE i INTERCEPT ne izračunavaju nagib i odsečak po metodi najmanjeg kvadrata, nego se traže parametri koji daju najbolje slaganje sa eksperimentalnim podacima, rezultat će svakako biti dobar pa njihovo korišćenje ne predstavlja grešku. x 0 5 8 10 15 20 58 y 32 25 20 17 11 5 110 x2 0 25 64 100 225 400 814 xy 1024 625 400 289 121 25 720

pa je empirijska prava:

y = 31.43 − 1.355 x
U dijagram su ucrtane eksperimentalne tačke i dobijena prava.

81

35 30 25 20 y 15 10 5 0 0 5 10 x 15 20 25 y = -1.3553x + 31.434 Series1 Linear (Series1)

Slika uz Primer 6.1 Prvo se nacrta dijagram na osnovu eksperimentalnih podataka, a zatim se dodaje prava (trendline). To se radi na sledeći način: Pošto je nacrtan dijagram desnim tasterom klikne se na neku od tačaka i odabere opcija Add Trendline.

Nakon toga otvara se novi prozor u kome se bira tip linije, (odabere se Linear), zatim se klikne na karticu Options

82

Gde se vrše ostala podešavanja vezana za pravu, između ostalog može se na dijagramu prikazati i jednačina ove prave, ukoliko se označi polje Display equation on chart. Potvrđuje se sa OK, i linija je na dijagramu. b) Smenom zadate rastvorljivosti CaCl2, x = 13 u dobijenu empirijsku jednačinu, dobijamo procenu odgovarajuće rastvorljivosti BaCl2:

y = 31.43 − 1.355 ⋅13 = 13.8%
Primer 6.2 Merene su električne otpornosti R metalnog provodnika na različitim temperaturama t: t, 0C R, Ω 30 86.67 35 92.01 40 93.92 45 96.60 50 97.77 55 99.77 60 101.82

Potrebno je iz podataka, a) izračunati temperaturni koeficijent otpornosti metala α, koji je definisan jednačinom temperaturne zavisnosti otpora:

R (t ) = R0 (1 + αt )
b) proceniti standardnu grešku primenjene metode merenja otpornosti. Rešenje a) Pošto su u datoj pravolinijskoj zavisnosti otpora od temperature:

R(t ) = R0 (1 + αt ) = R0 + R0 αt = b0 + b1t
odsečak i nagib jednaki: b0 = R0 b1 = R0α traženi temperaturni koeficijent α se dobija iz njih kao:

α=

b1 b1 = R0 b0

Uz x = t, y = R, računa se nagib i odsečak pomoću funkcija INTERCEPT i SLOPE:

83

i iz njih koeficijent α:

α=

b1 = 0.0062 b0

Dijagram rasipanja eksperimentalnih tačaka i regresiona prava su dati na slici uz primer.
104 102 100 98 96 94 92 90 88 86 84 30 40 50 60 70 Series1 Linear (Series1) y = 0.463x + 74.674

Slika uz Primer 6.2 b) Kao ocenu standardne greške merne metode σR, može se uz pretpostavke navedene u prethodnom tekstu, da uzmemo srednje kvadratno odstupanje (6.16):

sR =

1 n 7.125 2 ∑ ( yi − b0 − b1 xi ) = 5 = 1.43Ω n − 2 i =1

Koje se takođe može izračunati kvadriranjem rezultata dobijenog korišćenjem funkcije STEYX. Funkcija se nalazi u statističkim funkcijama, a njen rezultat je standardna greška predviđene vrednosti y za svako x u regresiji. Sintaksa: STEYX(Known_y's, Known_x's) Known_y's – niz ili skup zavisnih pojedinačnih podataka. Known_x's - niz ili skup nezvavisnih pojedinačnih podataka

84

Koeficijent determinacije i koeficijent korelacije

Koeficijent determinacije, kao opšta mera jačine veze između Y i x, u slučaju pravolinijske zavisnosti dobija oblik:

R =
2

∑(y
i =1 n i =1

n

rac i

− y)2 =
2

∑ (b
i =1 n

n

0

+ b1 xi − y ) 2
i

( 9.14 b )

∑(y

i

− y)

∑(y
i =1

=

∑b
i =1 n i =1

n

2 1

( xi − x ) 2
i

− y)

2

∑(y

− y)

2

2 sx =b 2 sy 2 1

(6.20)

2 2 gde su s x , s y srednji kvadrati odstupanja (6.19). Ako parametar b1 izrazimo preko koeficijenta

korelacije rxy, pomoću Jedn. (8.7a):

b1 = rxy

sy sx

dobijamo da je koeficijent determinacije jednak kvadratu koeficijenta korelacije:
2 R 2 = rxy

ili R = R 2 = rxy

što smo, s obzirom na značenje tih koeficijenata mogli da očekujemo. U slučaju linearne zavisnosti Y od x, R 2 dakle daje jačinu linearne veze, ali pošto je uvek pozitivan, ne daje (za razliku od rxy) informaciju o tome da li Y opada ili raste sa x.

85

6.5 Intervali poverenja odsečka i nagiba
Određivanje intervala poverenja odsečka β0 i nagiba β1 u pravolinijskoj regresionoj funkciji (6.10), zahteva poznavanje raspodela njihovih ocena, tj. statistika Bj, j = 0,1. Sa pretpostavkama navedenim u prethodnom poglavlju, može se pokazati da uzorački regresioni koeficijenti imaju normalne raspodele: Bj: N (β j , σb j ), j = 0,1 sa disperzijama:
2 σb1 =

(6.21)

σ2 y
(n − 1) s
2 x
n

= c1σ 2 y

(6.21a)

2 σb0 =

∑x
i =1

2 i 2 x

n(n − 1) s

σ 2 = c0 σ 2 y y

(6.21b)

2 gde je s x srednji kvadrat odstupanja (6.16), a c0 i c1 koeficijenti, definisani samim jednačinama

(6.21a-b). Formule (6.14a,b) pokazuju da su statistike Bj, j = 0,1 linearne kombinacije slučajnih promenljivih Yi, i =1,2,..,n, koje prema pretpostavkama imaju raspodele: Yi: N (β0 + β1 xi , σ y ), i = 1,2,..., n i tako relacije (6.21, 6.21a-b) slede iz osobine linearnosti normalne raspodele, tj. iz jednačina (2.57) i (2.58).
2 Ocene disperzija uzoračkih regresionih koeficijenata sb j , j = 0,1 dobijamo kada u Jedn.

(6.21a-b) umesto disperzije σ 2 zavisno promenljive, zamenimo njenu ocenu s2: y
2 sb j = c j s 2 , j = 0,1

(6.22)

koja se računa formulom (6.16) ili (6.18): Iz izloženog sledi, da standardizovana slučajna veličina:

Z=

B j − M (B j )

σb j

=

Bj − β j cj σy

, j = 0,1

(6.23)

gde su koeficijenti cj, j = 0,1 definisani jednačinama (6.21a,b) ima raspodelu N (0,1). Kao što smo se u Pogl. 6.2 upoznali, to dalje znači da bezdimenziona statistika:

T=

B j − M (B j ) Sb j

=

Bj − β j cj S

, j = 0,1

(6.24)

gde je statistika S definisana jednačinom (6.17), ima t - raspodelu sa d=n-2

86

stepeni slobode. Sada imamo sve što je neophodno, da bi mogli da definišemo intervale poverenja teorijskih regresionih koeficijenata, sa nivoom poverenja γ = 1-α:

− t n − 2,α s c j + b j < β j < b j + t n − 2,α s c j , j = 0,1

(6.25)

Primer 6.3 Za uzorak od 12 studenata dati su u tabeli brojevi poena osvojeni u testu inteligencije (x) i brojevi poena osvojeni na ispitu iz hemije (y): x: y: 50 74 50 76 55 76 55 85 55 81 55 74 65 85 65 90 65 94 70 87 70 98 70 91

a) Izračunati nagib i odsečak u empirijskoj pravolinijskoj zavisnosti

y = b0 + b1 x

b) Proceniti jačinu linearne veze c) Dati intervalne ocene za prave regresione koeficijente β0 i β1 sa nivoom pouzdanosti Rešenje a) Nagi i odsečak se izračunaju pomoću funkcija SLOPE i INTERCEPT.

95%.

100 95 90 85 80 75 70 45 50 55 60 x 65 70 75 y

87

b) Izračunaju se srednji kvadrati odstupanja pomoću funkcije STDEV :

a onda pomoću funkcije RSQ se izračunava koeficijent determinacije:

Rezultat funkcije RSQ je kvadrat Pirsonovog koeficijenta korelacije, odnosno koeficijent determinacije Sintaksa: RSQ(Known_y's, Known_x's) Known_y's – niz ili skup zavisnih pojedinačnih podataka. Known_x's - niz ili skup nezvavisnih pojedinačnih podataka

Koeficijent korelacije, kao mera jačine linearne veze može se izračunati kao koren koeficijenta determinacije ili pomoću funkcije PEARSON:

(jaka linearna veza, prema Tab.8.1) Na osnovu vrednosti koeficijenta determinacije, možemo da konstatujemo da je 74.4% ukupne varijacije u bodovima ostvarenim na ispitu iz hemije objašnjeno varijacijama u broju bodova osvojenih u testu inteligencije (varijacija objašnjena regresionom jednačinom). Ostatak od 25.6% ukupne varijacije u bodovima ostvarenim na ispitu je neobjašnjen.

88

c) Za izračunavanje itervala poverenja (6.25), potrebna je ocena standardnog odstupanja vrednosti Y, koja se dobija kao koren srednjeg kvadrata odstupanja dobijene empirijske jednačine od eksperimentalnih tačaka (6.18), odnosno pomoću funkcije STEYX

Dalje, treba izračunati koeficijenti c0 i c1,

c0 =

∑x
i =1

n

2 i 2 x

n(n − 1) s

=

44470 = 5.508, 12 ⋅11⋅ 61.174

c1 =

1 = 1.486 ⋅10 −3 2 (n − 1) s x

Za date podatke pomoću funkcije TINV izračunava se t vrednost:

i poluširine intervala poverenja regresionih koeficijenata su:

t10,0.05 s c0 = 2.228 ⋅ 4.319 ⋅ 5.508 = 22.605
t10,0.05 s c1 = 2.228 ⋅ 4.319 ⋅ 1.486 ⋅10 −3 = 0.371

Konačno, traženi intervali poverenja su:

7.44 < β0 < 52.65,

0.526 < β1 < 1.268

6.6 Testiranje hipoteza u vezi sa odsečkom i nagibom
Proveravamo hipoteze:

H 0 : β j = β0j ,
nasuprot hipoteza:

j = 0,1 j = 0,1

(6.26) (6.27)

H1 : β j ≠ β0j ,

Imajući u vidu (Pogl. 7.5) da interval poverenja regresionog koeficijenta (6.25) sa nivoom poverenja γ = 1 - α, uključujući i njegove granice,

89

b j − β j ≤ t n −2,α s c j , j = 0,1
predstavlja oblast prihvatanja nulte hipoteze (6.26), oblast odbacivanja te hipoteze uz rizik prve vrste α, biće,

b j − β j > t n − 2,α s c j , j = 0,1
ili, što je ekvivalentno:

tj =

bj − β j s cj

> t n − 2,α , j = 0,1

(6.28)

Relacija (6.28) daje kriterijume odbacivanja hipoteza (6.26)

6.7 Linearizovane dvoparametarske empirijske formule
Može se pokazati da su normalne jednačine (6.7) za izračunavanje parametara u nekoj dvoparametarskoj empirijskoj formuli, linearne, samo ako je formula linearna po parametrima, a to znači da ima oblik:

y = b0 ϕ0 ( x) + b1ϕ1 ( x)

(6.29)

gde su ϕ0(x) i ϕ1(x) bilo kakve funkcije, u kojima ne figurišu nepoznati parametri. Na primer kod pravolinijske regresije, funkcije ϕ0(x) i ϕ1(x) su:

ϕ0 ( x) = 1, ϕ1 ( x) = x
Ako dvoparametarska empirijska formula:

y = f ( x, b0 , b1 )

(6.30)

nema oblik (6.29), normalne jednačine su nelinearne i njihovo rešavanje nije jednostavno. Da bi se računski problemi olakšali pristupa se, kad god je to moguće, “ispravljanju” ili linearizaciji jednačine, pogodnom smenom promenjivih. Na primer, formula:

y = ax b
gde su a i b parametri, se može linearizovati logaritmovanjem:

(6.31)

log y = log a + b log x
i smenom promenljivih: z = log y, v = log x, što kao rezultat daje linearnu formulu po novim promenljivima v i z:

z = A + Bv,

A = log a,

B=b

(6.33)

Pošto izračunamo odsečak A i nagib B iz vrednosti novih promenljivih, zi = log yi, vi = log xi, i = 1,2,...,n

90

originalne parametre a i b, prema (6.33), dobijamo kao: b = B, a = 10A U Tab.6.1 date su smene promenljivih za linearizaciju nekih dvoparametarskih neliearnih formula, a na Sl.6.2 grafici datih nelinearnih funkcija. Na žalost, rigorozna statistička analiza linearizovane formule je nemoguća ili vrlo otežana, jer neophodne pretpostavke, koje važe za originalnu zavisno promenljivu (Pogl.6.4) zbog izvedene transformacije, ne važe za novu zavisnu promenljivu.. Tabela 6.1 - Linearizacija dvoparametarskih formula formula 1. y = smena promenljivih linearizovana formula z = a + bx

1 a + bx
b x

z= v= z=

1 y 1 x
x y

2. y = a + 3. y =

y = a + bv

x a + bx

z = a + bx z = A + bv gde je A = lna z = A + Bx gde je A = lna, B = lnb

4. y = a ⋅ x b 5. y = a ⋅ b x

v = ln x, z = ln y z = ln y

Primer 6.5 Odabrati formu dvoparametarske empirijske jednačine koja opisuje zavisnost y od x, prema eksperimentalnim vrednostima datim u tabeli (prve od dve kolone). Izračunati parametre u odabranoj zavisnosti i koeficijent determinacije. x 1 2 3 4 5 6 7 y 62.1 87.2 109.5 127.3 134.7 136.2 134.9 x/y 0.01610 0.02294 0.02740 0.03142 0.03712 0.04405 0.05189

Rešenje Na slici 1. uz primer, ucrtane su eksperimentalne tačke (xi, yi), i = 1,2,...,7. Zamišljena linija, koja bi približno povezivala tačke, liči na sledeće krive na Sl.6.2:

91

• •

linije 2 i 4 familije krivih sa jednačinom: liniju 2 familije krivih sa jednačinom:

y=

x a + bx y = ax b

Zato u uži izbor formula ulaze navedene dve.

a) jednačina y =

x a + bx

Smena koja linearizuje jednačinu je: v = x, z = x/y U 3. koloni tabele uz primer, upisane su izračunate vrednosti za z = x/y, a na slici 2 uz primer ucrtane su tačke (xi, zi), i = 1,2,...,7.
12

10 5 0 -5 -10

2 1 3

1: a = -0.1 2: a = 0.1 3: a = -0.5 4: a = 0.5
y

10 8 6 4 2 0 4 3 2 1 0 2 4 6

1: a = -0.1 2: a = 2 3: a = 4 4: a = 6

4 3

y

0

2

4

6 x

8

10

12

8

10

12

1 y= , b = 0 .3 a + bx
12 10 8

x

y = a + b/x, b = 0.3

1: a = -0.1 2: a = 2 3: a = -0.4 4: a = 4
3 1 2 4 0 2 4 6 x 8 10 12

3.0 2.5 2.0 1.5 1.0 0.5 0.0 0

b = 1.3

b = 1.04 b = 1.2 b = 0.95

y

4 2 0

y

6

b = 0.2 b = 0.3 2 4 6

b = 0.8 8 10 12

x

x , y= a + bx

b = 0 .3

y = ab , a = 2

x

92

14 12 10 8 6 4 2 0 0

1: b = 0.5 2: b = 0.3 3: b = -0.3 4: b = -0.5

1

2

y

3 4 2 4 6 x
b

8

10

12

y = ax , a = 4
Slika 6.2 - Grafici nelinearnih funkcija iz Tab. 6.1
160 140 120 100 80 60 40 20 0 0 1 2 3 4 x 5 6 7 8 y

Slika 1 uz Primer 6.5 - Eksperimentalne tačke
0.06000 0.05000 0.04000 x/y 0.03000 0.02000 0.01000 0.00000 0 2 4 x 6 8

Slika 2 uz Primer 6.5 - Tačke u koordinatama x - z

93

U dijagramu sa transformisanim koordinatama tačke približno leže na pravoj liniji. b) jednačina y = ax b Nove promenljive su: v = lnx; z = lny. Tačke, ucrtane u korrdinatama v - z, ne leže duž neke prave i ova jednačina se odbacuje

5 4.9 4.8 4.7 4.6 4.5 4.4 4.3 4.2 4.1 4 0 0.5 1 v=lnx 1.5 2 2.5 Series1

z=lny

Slika 3 uz Primer 6.5 - Eksperimentalne tačke u koordinatama lnx-lny Parmetri u prihvaćenoj formuli se dobijaju iz parametara linearizovane jednačine:

z = b0 + b1v,

z = x / y, v = x

kao: a = b0 , b = b1 Pomoću funkcija SLOPE i INTERCEPT dobija se

a = 0.010229, b = 0.0056899 i eksperimentalni podaci su približno opisani jednačinom:

y=

x 0.010229 + 0.0056899 x

94

U tabeli su data odstupanja eksperimentalnih od računskih vrednosti, ei:

160 140 120 100 80 60 40 20 0 0 1 2 3 4 x 5 6 7 8 y

Slika 4 uz Primer 6.5 - Eksperimentalne tačke i dobijena kriva Koeficijent determinacije (6.9) računa se pomoću funkcije RSQ

Dakle, dobijena empirijska formula objašnjava 90% od ukupnih promena u vrednostima zavisno promenljive. Primer 6.6 Date su eksperimentalne vrednosti specifične električne provodljivosti stakla (y) u funkciji od temperature, (x, 0C). Odabrati empirijsku formulu i odrediti parametre u njoj. x y lny 14.5 0 30.0 0.004 -5.52 64.5 0.018 -4.02 74.5 0.029 -3.54 86.7 0.051 -2.98 94.5 0.073 -2.62 98.9 0.090 -2.41

95

Rešenje Poređenjem izgleda zamišljene linije koja bi spajala eksperimentalne tačke na Sl. 1 uz primer, sa graficima dvoparametarskih emirijskih formula zapaža se da bi moguć adekvatan oblik formule bio:

y = ab x
Smenom z = lny dobija se linearna jednačina: z = lna + lnbx Smena nije primenljiva na prvu eksperimentalnu tačku jer je: ln(0) = ∞. Pošto eksperimentalne tačke u transformisanim koordinatama (Sl.2 uz primer) približno leže duž neke prave, formula se prihvata.

0.1 0.09 0.08 0.07 0.06 0.05 0.04 0.03 0.02 0.01 0 0 20 40 60 x 80 100 120 y

Slika 1. uz Primer 6.6 - Eksperimentalne tačke

96

0.00 0 -1.00 -2.00 -3.00 -4.00 -5.00 -6.00 x Series1 y 20 40 60 80 100 120

Slika 2. uz Primer 6.6 - Eksperimentalne tačke u transformisanim koordinatama

A = -6.897,

B = 0.4518

i parametre u polaznoj, nelinearnoj formuli:

a = eA = 0.001011,

b = eB = 1.046

Dobija se empirijska jednačina:

y = 1.011⋅10 −3 ⋅1.046 x

97

ZADACI

6.1 Meren je stepen konverzije reaktanta u reaktoru (y, %) na raznim temperaturama (x, 0C): x, 0C y, % 207.1 92.30 210.3 92.58 200.4 91.56 201.1 91.63 203.4 91.83

a) Uveriti se na osnovu dijagrama rasipanja da se može pretpostaviti linearna zavisnost stepena konverzije od temperature b) Izračunati sa 4 decimale odsečak i sa 3 decimale nagib regresione prave y(x) c) Izračunati srednji kvadrat odstupanja regresione prave od eksp. podataka d) Izračunati koeficijente determinacije i korelacije i dati interpretaciju e) Izračunati intervalne ocene odsečka i nagiba, sa nivoom poverenja 0.95. 6.2 Proveriti statističku značajnost nagiba regresione prave y(x) (da li je izračunati nagib značajno različit od nule), sa α = 0.05: a) u problemu 8.3, b) u problemu 9.1 Povezati rezultate sa značajnošću izračunatih koeficijenata korelacije. 6.3 Merene su gustine ρ (g/ l) neke supstance na različitim temperaturama t: a) 20 30 40 50 60 t, 0C 640 652 668 680 684 ρ, (kg/ l)

70 692

Odrediti odsečak sa jednom i nagib sa tri decimale u pravolinijskoj zavisnosti gustine od temperature. b) Proceniti gustinu na temperaturi 74 0C c) Dati intervalnu ocenu, sa nivoom poverenja 0.95, temperaturnog koeficijenta gustine (promena gustine, pri povećanju temperature za 1 0C). 6.4 Koje smene promenljivih "ispravljaju" sledeće krivolinijske dvoparametarske zavisnosti:

a 1 a) y = ax + b , b) y = + b , c) = a ( x + 3) + b x y
2
2

d) y = e

a x +b

b  e) y =  ax +  x 

−1

6.5 a) Ucrtavajući eksperimentalne tačke u odgovarajući koordinatni sistem, uveriti se da podaci o temperaturama (t, 0C) i odgovarajućim masenim protocima (m, g/s) navode na zaključak da maseni protok varira linearno sa korenom temperature:

m = a t +b
t, 0C m, g/s 10 14.76 20 20.14 40 27.73 80 38.47 100 42.82

b) Dati intervalne ocene odsečka i nagiba sa nivoom pouzdanosti 0.95. 6.6 Date su eksperimentalne vrednosti: x y 1.0 0.279 2.0 0.194 3.0 0.168 5.0 0.120 10.0 0.083

98

. Izračunati, sa tri decimale, parametre a i b u empirijskoj jednačini:

y=

1 a x +b
pv m = c

6.7 Pretpostavlja se da za neki gas približno važi sledeća jednačina stanja:

gde su: p - pritisak, v -molska zapremina, m i c -parametri. Za date podatke: v, cm3/mol p, bar 50.5 64.7 61.0 51.3 71.5 40.5 81.2 25.9 105 7.8

a) Proveriti pretpostavku, pomoću dijagrama rasipanja b) Izračunati parametre m i c i srednje kvadratno odstupanje empirijske formule. 6.8 Radi kalibracije higrometra, variran je sadržaj vode u gasu (x, %) i očitavana vrednost na skali higrometra (y). Rezultati su dati u tabeli: x y 5 0.011 20 0.044 40 0.083 60 0.126 80 0.170

a)

Na

osnovu

dijagrama

rasipanja odabrati dvoparametarsku empirijsku zavisnosti y(x) b) Izračunati parametre u odabranoj formuli. 6.9 Dati su viskoziteti vode, η na različitim temperaturama T (K): a) Izračunati parametre u formuli: T 283 293 303 313 323 1.308 1.005 0.801 0.656 0.549 η

333 0.469

343 0.406

η = ae

b T

b) Proceniti viskozitet vode na 300K

99

Literatura
Paunović R.; Omorjan R.; Osnovi inženjerske statistike, autorska skripta Božić D.; Kompjuter za početnike; Primatron; Novi Sad; 2003. maranGraphics Inc.; Excel 2000 Simplified; IDG Books Worldwide, Inc., Foster City, CA; 1999.

100

Sign up to vote on this title
UsefulNot useful