Professional Documents
Culture Documents
Uopj - p02 Osnove Obrade Teksta PDF
Uopj - p02 Osnove Obrade Teksta PDF
Branko Žitko
• Raspon [A-Z]
Uzorak Objašnjenje
[A-Z] Veliko slovo Poslovne strategije
[a-z] Malo slovo suma svih unesenih brojeva je 7
[0-9] Jedna znamenka Poglavlje 1: Funkcionalni model
sustava
Regularni izrazi: Negacija u disjunkciji
• Negacija [^Ss]
– ^ Znak za umetanje označava negaciju samo kada je na prvom mjestu u
uglatim zagradama
Uzorak Objašnjenje
[^A-Z] Ne veliko slovo Programeri
[^Ss] Ne veliko S ni malo s Ja nisam SIGURAN
[^e^] Ne e ni ^
a^b Uzorak a^b Pogledaj a^b sada…
Regularni izrazi: Ekskluzivna disjunkcija
• Sustav je drugi naziv za Sistem!
– Simbol koji koristimo za disjunkciju je |
Uzorak Objašnjenje
sistem|sustav
tvoje|moje tvoje moje
a|b|c [abc]
[sS]istem|[Ss]ustav
Regularni izrazi: Zamjenski znakovi ? * + .
? 0 ili 1 prethodnih znakova
* 0 ili više prethodnih znakova
+ 1 ili više prethodnih znakova
. 1 bilo koji znak
Uzorak Objašnjenje
pa?sa Dodan prethodni psa pasa
znak
oo*h! 0 ili više prethodnih oh! ooh! oooh! ooooh!
znakova
o+h! 1 ili više prethodnih oh! ooh! oooh! ooooh!
znakova
baa+ baa baaa baaaa baaaaa
ta.a tada tama tata ta3a
Regularni izrazi: Sidra ^ $
^ početak linije
$ kraj linije
Uzorak Objašnjenje
^[A-Z] Nikola
^[^A-Za-z] 1
“Pozdrav”
\.$ Kraj.
.$ Kraj?
Kraj!
Primjeri
• Pronađite u tekstu sve instance riječi "on".
on
On je onda u ponoć otišao kući. Sutradan je on ponudio bonus.
[oO]n
On je onda u ponoć otišao kući. Sutradan je on ponudio bonus.
[^a-zA-Z]?[oO]n[^a-zA-Z]
On je onda u ponoć otišao kući. Sutradan je on ponudio bonus.
Regularni izrazi: Pogreške
• Proces koji smo upravo prošli temelji se na
utvrđivanju dvije vrste pogrešaka
Branko Žitko
フォーチュン500社は情報不足のため時間あた$500K(約6,000万円)
Branko Žitko
Branko Žitko
Da Ne
KrajRečenice
Konačna interpunkcija je ?, ! ili :?
Da Ne
KrajRečenice
Konačna interpunkcija je točka?
Da Ne
Da Ne
NijeKrajRečenice KrajRečenice
Profinjenje stabla odluke
• riječi s točkom:
– mala slova, velika slova, prvo veliko slovo, broj
• riječi nakon točke:
– mala slova, velika slova, prvo veliko slovo, broj
• Numeričke osobine:
– duljina riječi s točkom
– vjerojatnost (riječ s točkom se pojavljuje na kraju rečenice)
– vjerojatnost (riječ nakon točke se pojavljuje na početku rečenice)
Implementacija stabla odluke
• Stablo odluke je niz ako-onda-inače izjava
• Zanimljivo istraživanje bio bi izbor uvjeta
• Postavljanje strukture stabla često je teško raditi ručnim
putem
– Ručna izrada moguća je samo za jako jednostavna obilježja i
područja
• Za stabla odluke s brojčanim obilježjima teško je odabrati prag.
– Struktura se najčešće nauči korištenjem strojnog učenja nad
nekim tekstualnim korpusom
Stabla odluke i drugi klasifikatori
• Pitanja iz stabla odluke su osobine koje mogu iskoristiti druge vrste
klasifikatora, kao što su:
– logistička regresija
– metoda potpornih vektora (Support vector machine)
– neuronska mreža
–…