Professional Documents
Culture Documents
6401/12
Rezime:
Mjerni postupci uvode određenu količinu varijabilnosti ili slučajnosti u rezultate. Ova
slučajnost može uticati na zaključke koji se izvlače iz eksperimenata. Statistika nudi alate koji
omogućavaju identificiranje i generaliziranje karakteristika analize podataka ili određivanje
granica nesigurnih podataka. U ovom seminarskom radu detaljnije je predstavljena
statistička analiza eksperimentalnih podataka i statističkih metoda koje se mogu koristiti za
planiranje eksperimenata i interpretiranje eksperimentalnih podataka.
Ključne riječi:
- statistička analiza
- eksperiment
- podatak
- histogram
- slučajna promjenljiva
- uzorak
- centralna tendencija
- aritmetička sredina
- disperzija
Uvod
Slučajne karakteristike posmatraju se u gotovo svim mjerenjima. Čak iako se koristi isti
mjerni sistem za mjerenje fiksne veličine u više navrata, rezultati neće imati istu vrijednost.
Ova slučajnost može biti uzrokovana nekontrolisanim promjenljivima koje utiču na mjerenu
veličinu, ili nedostatakom preciznosti u mjernom postupku. U nekim slučajevima, slučajnost
podataka dominira podacima tako da je teško razlikovati traženo trend kretanje. Ovo je
zajedničko eksperimentima u društvenim naukama i ponekad se javlja u inženjerstvu. U
takvim slučajevima statistika može ponuditi alate koji mogu identificirati trendove onoga što
je predstavljeno skupom zbrkanih podataka. U inženjerstvu, opći trendovi podataka su obično
očigledni, međutim statistički alati su često potrebni za identificiranje i generaliziranje
karakteristika analize podataka ili određivanje granica nesigurnih podataka.
Da bi lakše predstavili podatke, korisno ih je grafički prikazati u obliku kolona grafikona kao
što je to prikazano na slici 1. Kolona grafikon koji se korisiti za statističke analize, naziva se
histogram. Da bismo kreirali ovaj grafikon prvo moramo grupisati podatke u grupe, nazvane
intervalima, kao što je prikazano u tabeli 2. Svaki interval ima istu širinu (raspon
temperaturnih vrijednosti). Na slici 1 je to prikazano tako da je visina svake kolone
proporcionalna broju očitavanja koja se javljaju u svakom intervalu (učestalost pojavljivanja).
Trebalo bi navesti neka zapažanja u vezi slike 1. Prvo, maksimum se nalazi na broju očitanja
koji je blizu centra temperaturnog opsega. Drugo, broj očitanja temperature manje ili veće od
srednje vrijednosti brzo opada. Konačno, kriva je zvonastog oblika, ne paraboličnog – broj
očitanja intervala udaljenih od centra, i dalje mali, nije jednak nuli. Ove karakteristike
podataka u tabeli 1 su zajedničke, iako ne nužno, osobine eksperimentalnih rezultata. Slika 2
pokazuje neke druge oblike raspodjele na koje možemo naići u inženjerskim primjenama.
Slika 1. Histogram podataka temperature [1]
Definicije
Populcija. Populacija uključuje sve objekte, mjerenja, zapažanja i sve one krakteristike koje
su uzete u razmatranje i koje su uključene u donošenje zaključaka. Primjeri populacije su
cjelokupan skup 60W električnih sijalica koje se proizvode u proizvodnoj seriji i vrijednosti
brzine vjetra u određnoj tački u definisanom vremenskom periodu.
Raspon uzorka. Skup svih mogućih ishoda jednog eksperimenta naziva se rasponom uzorka.
Na primjer, postoji šest mogućih ishoda kod bacanja kockice. Ako se raspon uzorka sastoji od
diskretnih vrijednosti (kao što su ishodi bacanja kockice ili novčića, prihvatljivi i
neprihvatljivi proizvodi), radi se o diskretnom rasponu uzorka. Slučajna promjenljiva
diskretnog raspona uzorka je diskretna. Ako je raspon uzorka neprekidan, imamo neprekidan
raspon uzorka i naravno neprekidnu slučajnu promjenljivu. Raspon uzorka mjerenja
temperature gasa koji izlazi iz peći je neprekidan.
Slučajna promjenljiva. Inženjerski eksperimenti kao i sva povezana mjerenja su pod utjecajem
mnogih faktora koji se ne mogu biti u potpunosti kontrolisani, pa kao rezultat ishod mjerenja i
eksperimenta nije jedinstven. Dva primjera takvih eksperimenta su mjerenje temperature
vrućeg gasa koji protiče kroz cijev i vrijeme trajanja elekrtričnih sijalica. Vrijednost
temperature je funkcija više faktora, uključujući rad izvora grijanja, cijevi izolacije i okoline, i
najvažnijeg, prirode toka i uređaja za mjerenje, u slučaju električnih sijalica, promjena u
karakteristikama materijala, proces proizvodnje i mjerni proces mogu uticati na mjerenje
vremena trajanja električnih sijalica. U svakom od spomenutih eksperimenata, bez obzira
kako dobro mi kontrolisali uticajne parametre, bez obzira na dovoljno utrošenog vremena,
ukoliko ponavljamo eksperiment, imat ćemo različite vrijednosti mjerenih promjenljivih.
Promjenljive koje se mjere (temperatura i vrijeme trajanja u ovim slučajevima) nazivaju se
slučajnim promjenljivima. S matematskog aspekta, slučajna promjenljiva je numerička
vrijednost funkcije kojom je definisana populacija. To znači da za svaki mogući ishod
eksperimenta postoji odgovarajuća numerička vrijednost.
Funkcija raspodjele. Funkcija raspodjele je grafička ili matematička veza koja se koristi za
predstavljanje vrijednosti slučajne promjenljive.
Mjere centralne tendencije predstavljaju vrijednosti koje najbolje reprezentiraju određeni skup
podataka. Zajedničko obilježje mjera centralne tendencije ili središnjih mjera jest da svaka od
njih predstavlja jednu vrijednost koja bi trebala biti dobra zamjena za skup svih pojedinačnih
vrijednosti, odnosno njihov najbolji reprezentant. Dakle, težnja mjera centralne tendencije je
da ukažu na vrijednost oko koje postoji tendencija grupisanja rezultata, odnosno ukazuju na
rezultat koji ima najveću vjerojatnost pojavljivanja. Postoji nekoliko mjera centralne
tendencije koje se razlikuju prema načinu utvrđivanja i mogućnosti primjene. Tako se
najčešće razlikuju potpune i položajne mjere centralne tendencije. Potpune mjere centralne
tendencije izračunavaju se na temelju svih podataka. To su: aritmetička sredina, geometrijska
sredina i harmonijska sredina. Nasuprot njima, mod i medijan su određeni položajem u
uređenom nizu podataka. S obzirom na prirodu varijabli, najčešće u upotrebi su: aritmetička
sredina, mod i medijan.
- Aritmetička sredina
Aritmetička sredina je vrijednost na koju se obično misli kada se koriste termini srednja
vrijednost ili prosjek. Proračunava se sabiranjem vrijednosti svih podataka skupa te potom
dijeli sa ukupnim brojem članova skupa. Parametarski statistički testovi, kao što je t-test
nezavisnih uzoraka, koji su dizajnirani tako da otkriju razliku između mjera centralne
tendencije, mogu izvršiti upoređivanje aritmetičkih sredina različitih skupova podataka.
Matematski, aritmetičku sredinu definišemo kao:
Medijan je središnja tačka ili vrijednost koja se nalazi tačno na sredini skupa rezultata,
ukoliko su oni poredani po veličini u rastućem ili opadajućem redoslijedu. Također možemo
reći da je medijan vrijednost koja uređeni niz rezultata dijeli na dva jednakobrojna dijela.
Ukoliko skup sadrži paran broj elemenata, onda je medijan aritmetička sredina dvije centralne
vrijednosti.
Uobičajeno za aritmetičku sredinu, medijan i mod je da imaju približno iste vrijednosti (iako
one općenito neće imati tačno istu vrijednost), međutim kod nekih skupova podataka njihove
vrijednosti se značajno razlikuju. Na slici 3. dati su rasporedi osnovnih mjera centralne
tendencije u zavisnosti od oblika raspodjele.
Mjere disperzije
Varijancija uzorka je vrijednost sume kvadrata odstupanja svih podataka od njihove srednje
vrijednosti podijeljene sa n-1 i definiše putem izraza:
gdje n predstavlja ukupan broj podataka u uzorku. Standardno odstupanje uzorka koristi se
onda kada se uzorak podataka koristi za procjenu standardnog odstupanja populacije.
Poznata je priča da istraživači koji rješavaju isti problem koristeći pritom dva različita
softverska paketa dobijaju različite rezultate. Naravno, istraživač ne može znati koji je od ta
dva rezultata tačan. Dalje, ne može znati ni koji softverski paket daje pouzdanije rezultate.
Drugi istraživač koji rješava problem koristeći samo jedan od ova dva paketa neće imati
dilemu o preciznosti rezultata. Međutim, oslanjanje na proizvođačevu preciznost i
recezentovu temeljitost vodi do namjernog odsustva nevjerice.
Tokom godina razvili su se mnogi benchmark-ovi i većina njih bila je za linearne procedure.
Međutim, Nacionalni institut za standarde i tehnologiju (National Institues of Standards and
Technology - NIST) otklonio je ovaj nedostatak sastavljanjem benchmark-ova za preko 20
nelinearnih problema najmanjih kvadrata. Dodavanjem postojećih benchmark-ova ovim NIST
je kreirao web stranicu Statistička preporuka skupova podataka (Statistical Reference
Datasets - StRD). Ova web stranica ima četiri područja benchmark-ova: univarijantna sažeta
statistika, analiza varijanse, linearna regresija i nelinearna regresija, sa test podacima u ASCII
formatu i „cetificiranim vrijednostima“ sa parametrima tačnosti do nekoliko decimala.
Procjena je samo jedan aspekt satističkih softvera sklonih numeričkim greškama. I generator
slučajnih brojeva (RNG) i razne statističke raspodjele (na primjer: izračunavanje Pi
vrijednosti) se predstavljaju kao crne kutije (black boxes): RNG će osigurati što veći broj
zaista slučajnih brojeva kako korisnik i želi, dok je izlaz statističke raspodjele tačan za sve
prikazane decimale, bez obzira na ulazne parametre. Naravno, posljednje dvije tvrdnje nisu
tačne. Proizvođači rijetko osiguravaju algoritme koji su osnova ovih procedura, a kamoli
granice u okviru kojih se možemo sigurno osloniti na njih ili bilo koji dokaz njihove tačnosti.
Zbog toga, moramo ocjenjivati pouzdanost, ili nedostatak iste, i za RNG i za statističke
raspodjele.
Zaključak
Literatura
[1] Wheleer A. J. & Ganji R. A. (2010). Introduction to Engineering Experimentation. P
[2] https://www.pmf.unizg.hr/_download/repository/PREDAVANJE7.pdf
(dostupno 12.01.2017)
[3] http://www.sportexpertsystem.com/?p=303 (dostupno 11.01.2017)
[4] Clark-Carter D. (2010). Measures of Central Tendency. Staffordshire University,
Stoke-on-Trent, UK
[5] McCullough B.D. (2012). Assessing the Reliability of Statistical Software: Part I. The
American Statistican. 52:4, 358-366