You are on page 1of 62

Statistike metode u

lingvistici

dr. sc. Boo Bekavac

Osnovne obavijesti

dr. sc. Boo Bekavac


Statistike metode u lingvistici - termin:
uto, 15.30-17.45, A-113
nakon kolokvija: raunalna uionica
Konzultacije: et, 14-15 h, B-024
Omega lozinka kolegija: SMLBB
5 ECTS bodova

Uvjeti za ocjenu
1. kolokvij > pismeni
2. rijeiti zadatak > rad na raunalima
> ispravno rjeenje
3. dolasci na nastavu
4. ispit ?

Literatura
1. Manning, Christopher D.; Shtze, Hinrich (1999),
Foundations of Statistical Natural Language
Processing, MIT Press, Cambridge, MA, dio I i II
http://www.hnk.ffzg.hr/a/FSNL.pdf
2. oi, I., Serdar, V. (1992), Uvod u statistiku,
kolska knjiga, Zagreb

Literatura - dodatna

3. Petz, Boris (2004), Osnovne statistike metode


za nematematiare, Naklada Slap, Jastrebarsko
4. Boo Bekavac, Marko Tadi (2008), A Generic
Method for Multi Word Extraction from
Wikipedia , Proceedings of the 30th International
Conference on INFORMATION TECHNOLOGY
INTERFACES ITI 2008, Cavtat, Croatia, str. 663669
http://www.hnk.ffzg.hr/bibl/iti2008/PDF/(110)/1
10-02-214.pdf

Statistika

postoje brojne definicije statistike


openito: statistika je znanost koja se
bavi prikupljanjem, obradom i
interpretacijom numerikih podataka
razvoj statistike metodologije u
poetku je motiviran prouavanjem
hazardnih igara

Statistika i lingvistika

suvremena statistika na osnovi vienih


podataka uporabom statistikog modela
predvia jo neviene pojavnosti
statistiki algoritmi ue jezik iz primjera
(koje pripremaju jezini strunjaci) i
interpretiraju jo nevieni jezik
ali postoje i brojne druge povezanosti
statistike i lingvistike!!!

Vjerojatnost

Pogled u vjerojatnost

pitanja vjerojatnosti uestala su u


svakodnevnom ivotu
procjena sluajnosti nekog dogaaja jedan
je od klasinih primjera
tipian problem: kolika je vjerojatnost da
e zbroj brojeva na dvjema baenim
kockama biti 5?
teorija vjerojatnosti: opisuje pravilnosti
vezane uz sluajne dogaaje

Pogled u vjerojatnost

sluajni dogaaji: dogaaji koji se mogu, ali


ne moraju dogoditi

je li mogue jezine jedinice promatrati kao sluajne


dogaaje i zatim pokuati opisati opaene pravilnosti?
to je upravo ono to teorija vjerojatnosti radi
uzimajui u obzir frekvencije pojavljivanja dogaaja!

moe li nam vjerojatnost rei neto vie o


odnosima rijei koje su susljedne?

Vjerojatnost

vjerojatnost je mjera neizvjesnosti


ansa da se odreeni dogaaj dogodi
promatrajmo kocku koja je potpuno
pravilna i ima jednaku ansu pasti na
bilo koji broj!
kolika je vjerojatnost (probability, P) da
kocka padne na broj 3?
1
P 0,167
6

Vjerojatnost

vjerojatnost da kocka padne na bilo koji broj je


16,7 %
podrazumijevat emo da postoji skup
elementarnih dogaaja: skup svih moguih ishoda
(npr. pad kocke na 1,2,3,4,5, ili 6)
pod elementarnim (sluajnim) dogaajem
podrazumijevamo takav dogaaj koji se pod
odreenim okolnostima moe, ali i ne mora
ostvariti

npr. bacanje kocke ili novia

Vjerojatnost

Kolika je vjerojatnost da novi padne na


glavu?
1
P 0,5 50%
2
vjerojatnost promatranog ishoda obrnuto je
proporcionalna broju moguih dogaaja (N)

1
P
N

Vjerojatnost

ako je neki dogaaj potpuno izvjestan,


npr. da e ovo predavanje zavriti ,
njegova je vjerojatnost 1
ako je za neki dogaaj potpuno izvjesno
da se nee dogoditi, npr. da ovo
predavanje nikad nee zavriti, njegova
je vjerojatnost 0

0 P 1

Vjerojatnost

vrijednost vjerojatnosti P
1 potpuna sigurnost (predavanje e zavriti)

0,5 polovina vjerojatnost (novi)

0,17 bacanje kocke (1/6)

0 nemogu dogaaj (predavanje nee zavriti)

Vjerojatnost: zadatak

Kolika je vjerojatnost dobitka na ruletu


ako igramo na broj 7?
P=1/37=0,027=2,7%
Kolika je vjerojatnost dobitka na ruletu
ako igramo na crveno?
P=18/37=0,486=48,6%
to se dogaa ako u sluaju gubitka
udvostruujemo ulog?

Vjerojatnost: zadatak

Kolika je vjerojatnost da nakon


pojavnice na u tekstu:

Idemo na ...

slijedi imenica?

Iskljuivi dogaaji

Ako se dva dogaaja ne mogu


istovremeno ostvariti, za njih kaemo
da su meusobno iskljuivi
npr. vjerojatnost da kocka padne na
parni broj ili vjerojatnost da kocka
padne na broj 1 ili 3
takvi se dogaaji ne mogu istovremeno
dogoditi (iskljuuju se!)

Iskljuivi dogaaji

Kolika je vjerojatnost da pri bacanju kocke


ishod budu brojevi 1 ili 3?

1 1
P( w1, w2) P( w1) P ( w2) 0,33
6 6

vjerojatnost dvaju dogaaja koji se meusobno


iskljuuju je zbroj vjerojatnosti pojedinih
dogaaja
uoimo da nije mogue istovremeno imati brojeve
1 i 3, oni se iskljuuju

Iskljuivi dogaaji - zadatak

Kolika je vjerojatnost da pri bacanju


kocke ishod bude parni broj (2, 4 ili 6)?

Iskljuivi dogaaji
rjeenje zadatka

Kolika je vjerojatnost da pri bacanju


kocke ishod bude parni broj (2, 4 ili 6)?
1 1 1
P 0,5
6 6 6

Neovisni dogaaji

Pretpostavimo da se dva dogaaja


meusobno ne iskljuuju, tj. da se
mogu istovremeno ostvariti
pretpostavimo jo da su oba dogaaja
meusobno neovisna (ostvarenje ili
neostvarenje jednog dogaaja ne
utjee na ostvarenje drugog
dogaaja)

Neovisni dogaaji

Kolika je vjerojatnost da pri bacanju dva


novia oba padnu na glavu?

1 1
P ( w1, w2) P ( w1) P ( w2) 0,25
2 2

vjerojatnost ishoda dvaju ili vie neovisnih


dogaaja je umnoak njihovih meusobnih
vjerojatnosti
moemo promatrati ovako: dogodio se prvi
dogaaj, pa neovisno o njemu i drugi

Neovisni dogaaji zadatak

Kolika je vjerojatnost da pri bacanju


kocke i novia ishod bude broj 3 na
kocki i pismo na noviu?

Neovisni dogaaji rjeenje


zadatka

Kolika je vjerojatnost da pri bacanju


kocke i novia ishod bude broj 3 na
kocki i pismo na noviu?

1 1
P ( w1, w2) P ( w1) P ( w2) 0,083
6 2

Vjerojatnost- sluajna
varijabla

sluajna varijabla - varijabla koja


poprima pojedinane vrijednosti s
odreenom vjerojatnou
kod bacanja kocke brojevi (oznaeni s
X) imaju istu vjerojatnost:
X: 1
1
P( X ) :
6

2
1
6

3
1
6

4
1
6

5
1
6

6
1
6

Vjerojatnost- sluajna
varijabla

s obzirom da je vjerojatnost realizacije


svakog dogaaja jednaka, prethodnu
raspodjelu nazivamo uniformnom
raspodjelom > graf na ploi
suma svih moguih vjerojatnosti
sluajne varijable je 1

skraeno zapisano u obliku formule:

P( x ) 1
i

Vjerojatnost- sluajna
varijabla

Dva osnovna tipa sluajne varijable

1. diskretna sluajna varijabla: numerike


vrijednosti su cijeli brojevi (primjer: broj
imenica u nekom tekstu moe biti 0, 1, 2,
3, ... n)
2. kontinuirana sluajna varijabla:
numerike vrijednosti su realni brojevi
(primjer: tjelesna teina 72,35 kg,
glukoza u krvi 7,2 mmol/l )

Prostor elementarnih
dogaaja

je skup svih moguih ishoda nekog


pokusa (oznaka )
kad bacamo novi mogua su dva
ishoda (dogaaja):

pismo
glava

={pismo, glava}

Prostor elementarnih
dogaaja

pri bacanju dviju kocaka je skup:

Prostor elementarnih
dogaaja

to znai da emo u 36 bacanja po dvije


kocke u prosjeku:

jedanput dobiti dvije jedinice


dvaput dobiti ishode kocaka iji je zbroj 3
...
est puta dobiti ishode kocaka iji je
zbroj 7

Raspodjela sluajne varijable

x je zbroj brojeva na dvije kocke

Raspodjela sluajne varijable

je li nam ovakva raspodjela od nekud


poznata?
brojne pojavnosti u svijetu koji nas
okruuje imaju normalnu raspodjelu:

inteligencija kod ljudi, zrna u pjeanom satu,


zbroj brojeva na dvije kocke, visina kod
odraslih ljudi...

Gaussova raspodjela bit e nam iznimno


vana neto kasnije

Vrste vjerojatnosti
postoje 3 vrste/definicije/koncepta
vjerojatnosti:

1.
2.
3.

Klasina (a priori) vjerojatnost


Statistika (a posteriori) vjerojatnost
Subjektivna vjerojatnost

Klasina vjerojatnost

Klasina vjerojatnost - zasniva na


pretpostavci da su svi elementarni
dogaaji jednakovjerojatni
Zamislimo da imamo kutiju s crnim i bijelim
kuglicama i pitanje je vjerojatnosti da
emo izvui crnu. U kutiji se nalazi 40
bijelih i 10 crnih kuglica.

ako znamo sadraj kutije, vjerojatnost


izvlaenja crne kuglice je 10 1 0,2
50

Statistika vjerojatnost

Vjerojatnost dogaaja statistiki se


definira na osnovi empirijskih
(statistikih) podataka o uestalosti
(frekvenciji) pojavljivanja dogaaja
Ako ne znamo sadraj kutije, izvrit emo vei
broj izvlaenja i dobiti relativnu frekvenciju
promatranog dogaaja. Napravit emo npr.
5000 izvlaenja i ako smo pri tom 1065 puta
izvukli crnu kuglicu, a posteriori vjerojatnost
izvlaenja crne kuglice je 1065 0,213
5000

Statistika vjerojatnost
zakon velikih brojeva

kako broj eksperimenata raste, razlika


izmeu relativne frekvencije i vjerojatnosti
(izraunate statistiki) se smanjuje
prema tome moemo pretpostaviti nakon
bacanja novia sljedee rezultate:

nakon 10 bacanja 4 puta glava (40 %)


nakon 50 bacanja 23 puta glava (46 %)
nakon 100 bacanja 48 puta glava (48 %)
...

Subjektivna vjerojatnost

vjerojatnost dogaaja odreuje se


prema subjektivnoj procjeni pojedinca
Prijatelj: odgovor je C
Ja: koliko si siguran?
Prijatelj: oko 75
posto

Psiholoka sklonost ovjeka


statistikim pogrekama

esto i visokoobrazovani ljudi imaju sklonost


pogrenom prosuivanju vjerojatnosti
npr. ako je novi 4 puta zaredom pao na
pismo ljudi vjeruju da se dugo
nepojavljivanje glave u petom bacanju mora
nadoknaditi (daju veu ansu glavi)
ali, istina je da je za pojavljivanje glave i u
petom bacanju vjerojatnost 0,5!!!

Psiholoka sklonost ovjeka


statistikim pogrekama

takoer moemo postaviti sljedee pitanje: ako


bacamo kocku 6 puta, koja je kombinacija
brojeva izglednija:
a) 1 2 3 4 5 6
ili
b) 3 4 1 2 2 6?
veina ljudi se odlui za odgovor b)
ispravan odgovor: obje su kombinacije jednako
vjerojatne i mogue !

Srednje vrijednosti

esto u svakodnevnom ivotu


spominjemo izraze prosjek,
prosjean itd.
pod tim izrazom obino mislimo na
srednju vrijednost nekog niza brojeva
meu poznatijima su aritmetika
sredina, harmonijska sredina, medijan,
mod, itd.

Srednje vrijednosti aritmetika sredina

Kako raunamo prosjek ocjena?


Npr. netko je dobio sljedee ocjene:
4 3 5 3 4 2 3
prosjenu ocjenu dobijemo omjerom:
4 3 5 3 4 2 3 24

3,43 x
7
7

kaemo da je prosjena ocjena 3,43

Srednje vrijednosti aritmetika sredina

Aritmetika sredina rauna se prema formuli:


n

x1 x 2 ... xn i 1
x

n
n
n

gdje je xi skraeni zapis sume brojeva od xi do xn


i 1

Srednje vrijednosti aritmetika sredina

Aritmetiku sredinu ima smisla raunati


samo na raspodjelama frekvencija koje
se barem priblino ponaaju gaussovski
u suprotnom aritmetika sredina nije
dovoljno dobar reprezentant podataka
mjerenja
ponekad se oznaava s (gr. mi), vidjet
emo kasnije u kojem sluaju

Aritmetika sredina medijan

pogledajmo rezultate dvaju razliitih


mjerenja:
a) 6 5 5 5 3 4 5 7 5 5;
x =50/10=5
b) 6 5 5 5 3 4 5 7 5 15;
x =60/10=6
zadnji rezultat 15 je jedina razlika, a
razlika aritmetikih sredina je velika
razlog je to na aritmetiku sredinu
djeluje vrijednost rezultata mjerenja

Srednje vrijednosti medijan

medijan je vrijednost koja se u nizu rezultata,


poredanih po veliini, nalazi tono u sredini
sjetimo se naeg studenta s ocjenama:
4 3 5 3 4 2 3
poredajmo vrijednosti po veliini:
2 3 3 3 4 4 5
medijan je 3 jer u nizu postoje 3 rezultata
ispred i 3 rezultata iza poloaja medijana

Srednje vrijednosti medijan

ako je broj rezultata neparan, poloaj


medijana se rauna prema pravilu:
n 1
poloaj medijana
2

ako je broj rezultata paran, zbrojimo dva


srednja rezultata i podijelimo ih s 2
npr. u nizu: 4 5 5 6 8 9
56
medijan
5,5
2

Srednje vrijednosti medijan

ako 5 namjetenika ima ove bodove na


platnoj listi:
750 800 850 900 5000
onda bi prosjeni bodovi prema
aritmetikoj sredini iznosili 1660
ta je vrijednost daleko od realnog
stanja kojemu znatno vie odgovara
vrijednost medijana 850

Srednje vrijednosti - mod

mod je najea vrijednost rezultata u


nizu, ili drugim rijeima,
mod je vrijednost rezultata koji
pripada najveoj frekvenciji
sjetimo se naeg studenta s ocjenama:
4 3 5 3 4 2 3
mod je 3 jer je to najea vrijednost

Mjere disperzije

u brojnim mjerenjima mogue je uoiti


da se rezultati grupiraju oko neke
srednje vrijednosti

ako su vrijednosti nekog mjerenja gusto


rasporeene oko srednje vrijednosti, ona
dobro reprezentira te rezultate
ako su minimalno grupirane oko srednje
vrijednosti, ona loe reprezentira te
rezultate

Mjere disperzije

ove mjere govore o udaljenosti


(rasprenosti) rezultata nekog uzorka
od njegove aritmetike sredine
zovu se jo i mjere rasprenosti ili
varijabilnosti
promislimo malo o formulaciji DZS-a:

Prosjena neto plaa u Hrvatskoj za


svibanj ove godine iznosila je 5.326 kuna.

Varijanca

je mjera disperzije podatka koja govori


koliko su ocjene udaljene od prosjene
ocjene, odnosno
def. prosjeno kvadratno odstupanje od
prosjeka (tj. aritmetike sredine):
2
2
2
(
x
1

x
)

(
x
2

x
)

...

(
x
n

x
)
s2
n
N

to je ekvivalentno:

( x x)
i

s2

i 1

Varijanca

promotrimo studenta Mirka s ocjenama:


4 3 5 3 4 2
na promatranom uzorku ocjena varijanca
iznosi (aritmetika sredina=3,5):

(4 3,5) 2 (3 3,5) 2 (5 3,5) 2 (3 3,5) 2 (4 3,5) 2 ( 2 3,5) 2


s

6
2

0,25 0,25 2,25 0,25 0,25 2,25

0,91
6

Varijanca: zadatak

Student Ivan ima ocjene:


4 5 5 3 2 2
kolika je varijanca Ivanovih ocjena?
tko je vei kampanjac*, Ivan ili Mirko
(iz prethodnog slajda)?
*smatrajmo da vei kampanjac ima veu varijancu ocjena

Varijanca: rjeenje zadatka

varijanca Ivanovih ocjena je:

(4 3,5) 2 (5 3,5) 2 (5 3,5) 2 (3 3,5) 2 (2 3,5) 2 (2 3,5) 2


s

6
2

0,25 2,25 2,25 0,25 2,25 2,25


1,58
6

Ivan je vei kampanjac od Mirka jer:


0,91<1,58

Standardna devijacija

prosjeno odstupanje originalnih


vrijednosti od aritmetike sredine, tj.
pozitivni drugi korijen iz varijance:
s s2

na primjeru Mirkovih ocjena:


s 0,91 0,96

Standardna devijacija

zove se standardna jer se ta mjera


uzima kao standard za ocjenu
rasprenosti podataka
uz aritmetiku sredinu, sd je iznimno
vaan parametar kod raspodjela
standardna devijacija se ponekad
oznaava jo s oznakom (gr. sigma)

Standardna devijacija:
zadatak

Kolika je standardna devijacija


Ivanovih ocjena?

varijanca(Ivan) = 1,58

Standardna devijacija:
rjeenje zadatka

Kolika je standardna devijacija


Ivanovih ocjena?

varijanca(Ivan) = 1,58

s 1,58 1,26

Kombinatorika

esto se uz vjerojatnost obrauje i


kombinatorika (kombinacije,
permutacije i varijacije)
neemo se baviti kombinatorikom
samo jedan ogledni primjer:

koliki je broj reenica koje sadre sve


tri leksike jedinice {divove, obuze,
strah} bez njihova ponavljanja?

Kombinatorika - primjer
Broj ovakvih reenica je n! (n
faktorijela), gdje je n broj jedinica
(rijei) npr.
broj reenica = n!=3!=321=
= 6 reenica od 3 rijei
broj reenica = n!= 5!=54321=
= 120 reenica od 5 rijei
(n! = permutacije bez ponavljanja)

Kombinatorika - primjer
1.
2.
3.
4.
5.
6.

Divove obuze strah.


Divove strah obuze.
Strah obuze divove.
Strah divove obuze.
Obuze strah divove.
Obuze divove strah.

You might also like