• • • •

Prepoznavanje znakova iz dokumenata Povijesni razvoj OCR-a. Trenutna OCR tehnologija. Primjer korištenja OCR-a.

2. veljača 2011

Optical Character Recognition

Sažetak
Software za optičko prepoznavanje znakova (Optical Character Recognition, OCR) skenira i prepoznaje tekst te ga zatim zapisuje u formatu pogodnom za za obradu dokumenata ili teksta (word procesora) u kojem se dalje može obrađivati. Prikazan je povijesni razvoj OCR tehnologije te stavljen naglasak na prve komercijalne primjene. Također je dan uvid na trenutno stanje OCR tehnologije s nekim najnovijim postignućima, poglavito Intelligent Character Recognition tehnologije. OCR software postupak prepoznavanja radi na 3 glavna načina: prepoznavanje uzoraka (Pattern Matching), prepoznavanje posebnosti (Feature Extraction) i provjera pravopisa (Spell Checking).

Sadržaj
1. UVOD................................................................................................................3 2. POVIJEST..........................................................................................................4 2.1. Prvi komercijalni sustavi ...............................................................................5 2.2. OCR-A, OCR-B.............................................................................................6 3. TRENUTNO STANJE OCR TEHNOLOGIJE.................................................................7 3.1. Intelligent Character Recognition (ICR)...........................................................8 4. OCR U DRUGIM NAMJENAMA................................................................................9 4.1. Music OCR...................................................................................................9 4.2. Magnetic Ink Character Recognition (MICR)...................................................14 4.3. Bar Code Reader.........................................................................................16 4.4. Optical Mark Reader....................................................................................17 5. OCR SOFTWARE...............................................................................................18 6. NAČIN RADA....................................................................................................22 6.1. Prepoznavanje uzoraka (Pattern Matching) ..................................................22 6.2. Prepoznavanje posebnosti (Feature Extraction)..............................................22 6.3. Provjera pravopisa (Spelling Check)..............................................................23 6.4. Posebni simboli...........................................................................................23 6.5. Funkcionalni prikaz.....................................................................................24 7. ZAKLJUČAK......................................................................................................30 8. LITERATURA.....................................................................................................31
Ovaj seminarski rad je izrađen u okviru predmeta „Podatkovni višemedijski prijenos i računalne mreže“ na Zavodu za elektroničke sustave i obradbu informacija, Fakulteta elektrotehnike i računarstva, Sveučilišta u Zagrebu. Sadržaj ovog rada može se slobodno koristiti, umnožavati i distribuirati djelomično ili u cijelosti, uz uvjet da je uvijek naveden izvor dokumenta i autor, te da se time ne ostvaruje materijalna korist, a rezultirajuće djelo daje na korištenje pod istim ili sličnim ovakvim uvjetima.

2

Optical Character Recognition

1. Uvod
Optičko prepoznavanje teksta (eng. OCR = Optical Character Recognition), je postupak mehaničkog ili elektroničkog prebacivanja rukom pisanog, strojno ispisanog ili tiskanog teksta koristeći skener u oblik koji računalo prepoznaje i može ga mijenjati. OCR spada pod grupu istraživanja kao što je prepoznavanje uzoraka, umjetna inteligencija i strojni vid. Iako se OCR još uvijek razvija i pronalaze se novi smjerovi fokus se usmjerio na primjenu dokazanih tehnika. Optičko prepoznavanje znakova (koje koristi optičke metode poput ogledala i leća) i digitalno prepoznavanje znakova (koje koristi skenere i računalne algoritme) su u početku smatrani različitim poljima istraživanja. Zbog činjenice da je jako malo aplikacija koje su koristile istinske optičke tehnike preživjelo, termin OCR danas obuhvaća i tehnike digitalnog obrade slika. Rane sustave je bilo potrebno naučiti (dati im poznati primjerak svakog od znakova) kako čitati pojedini font. Trenutno su dostupni "inteligentni" sustavi sa velikim stupnjem točnosti za veliku većinu fontova. Neki sustavi su sposobni reproducirati i aproksimirati format ulaznog skeniranog dokumenta koji se može sastojati od slika, stupaca i drugih netekstualnih dijelova. [2]

3

je zamolio kripto analitičara Davida H. 1950.663. za razliku od uspoređivanja znakova. 1953. dok su kasniji komercijalni modeli IMR skenera analizirali znakove bilo gdje u skeniranom polju što je zapravo nužnost za stvarne dokumente. 4. SAD) da u suradnji s dr. Fotodetektor je bio postavljen tako da kad su predložak i znak koji se trebalo prepoznati bili u točno određenom položaju te ih svjetlost obasjavala ništa svijetla ne bi dolazilo do fotodetektora. 12. Tauschekov uređaj je bio mehanički stroj koji je koristio predloške.758.Optical Character Recognition 2. Frank Rowlett. Louis Tordella da svoje prijedloge za automatiziranu obradu podataka. te su tolerirali varijaciju fontova. Gustav Tauschek je patentirao OCR u Njemačkoj.S. koja je zaslužna za razvoj prvih nekoliko komercijalnih OCR sustava općenito u svijetu. 1935. nakon što im je odobren patent U. Sheparda (člana Armed Forces Security Agency. 4 . Gismo je bio ograničen na usko vertikalno prepoznavanje. Povijest 1929. To su objavile novine Washington Daily News 27. Patent Number 2. Tauscheku je odobren patent za njegovu metodu i u SAD-u. a nakon njega je to isto napravio Handel u SAD-u 1933. koji je dešifrirao japanski PURPLE diplomatski kod. To je uključivalo i problem pretvorbe isprintanih poruka u strojni jezik za računalnu obradu. i New York Times 26. Shepard je zaključio da mora biti moguće napraviti takav stroj i uz pomoć prijatelja Harveya Cooka tijekom večeri i vikenda na svom tavanu napravio “Gismo”. Iako su i Gismo i prvi IMR sustavi koristili analizu slike. Shepard tada osniva Intelligent Machines Research Corporation (IMR) kompaniju. 1951.

5 . i vodi razvoj prvog omni-font OCR sustava. Drugi sustav su prodali Standard Oil Company iz Kalifornije koji se koristio za čitanje oznaka na kreditnim karticama.1. 1974. 13. U Europi prvi OCR sustav je koristila Britanska pošta (British General Post Office. Zatim se samo pisma sortiraju prema tom barkodu koji kako bi se izbjegle pogreške se ispisuje tintom koja je vidljiva pod ultraljubičastom svjetlošću. Specijalizirani čitač dokumenata je zatim postavljen na TWA gdje je obrađivao zrakoplovne karte. Isti taj sustav je kasnije doniran Smithsonianu gdje je postavljen kao izložak. tj. Čitač je bio izravno spojen na RCA 301 računalo. Font koji se koristio na tim dokumentima je bio OCR-A font i printao ga je RCA Drum printer. OCR sustavi korišteni u pošti čitaju ime i adresu i zatim isprintaju određeni barkod ovisan o poštanskom kodu na kuvertu. Namijenio je ovaj uređaj slijepima koji bi im omogućio čitanje dokumenata pomoću računala. Oba ova čitača su mogla obraditi i provjeriti 1500 dokumenata u minuti. se u istoj zemlji počeo koristiti i u bankovnom sustavu. GPO).Optical Character Recognition 2. a 1965. Ray Kurzweil osniva kompaniju Kurzweil Computer Products. Zrakoplovstvo SAD-a te IBM. Ovaj tip čitača je dalje nastavio prodavati RCA u namjeni čitanja raznih računa Od 1965. Inc. računalnog programa sposobnog prepoznati tekst isprintan u bilo kojem normalnom fontu. 1. te su izbacili iz daljnje obrade. Readers Digest i RCA su zajednički proizveli OCR čitač dokumenata koji je čitao serijske brojeve reklamnih kupona. Velik broj sustava je naknadno prodan drugim naftnim kompanijama. Tokom 1965. je predstavljen gotov proizvod koji je u potpunosti funkcionirao kako je i zamišljen. Neki od ostalih korisnika IMR sustava kasnih 1950. poštanska služba SAD-a koristi OCR uređaje temeljene na tehnologiji izumitelja Jacoba Rabinowa za sortiranje pošte. su i Ohio Bell Telephone Company. Ovo je zahtijevalo izum još dvije tehnologije CCD skenera i text-to-speech (tekst-govor) sintetizatora. 1976. Prvi komercijalni sustavi Prvi komercijalni sustav je instaliran u Readers Digest 1955. U slučaju da neki nisu mogli obraditi.

jedan od prvih oblika znakova prilagođen za optičko prepoznavanje koji je zadovoljavao kriterije ureda za standarde SAD-a (eng. American Type Founders proizvodi OCR-A. OCR-B font je lakši ljudima za čitanje od OCR-A fonta. ali je nešto nezgodniji za čitanje ljudima. Kao rezultat tog kompromisa se pojavio OCR-A font koji se sastojao od jednostavnih. Napravio ga je Adrian Frutiger iste godine. Kurzweil Computer Products su počeli sa prodajom komercijalne verzije OCR računalnog programa. OCR-A. debelih poteza koji su tvorili prepoznatljive znakove. OCR-B U početcima računalnog OCR-a razvila se potreba za fontom koji će moći prepoznati tada spora računala. LexisNexis je bio jedan od prvih kupaca koji je tu tehnologiju koristio za prijenos svojih pravnih i ostalih dokumenata u online bazu podataka. Bureau of Standards). Dizajn je tako jednostavan da ga je računalo moglo vrlo lako pročitati. Iako je OCR tehnologija napredovala toliko da više nema potrebe za ovim specijaliziranim fontovima oni i dalje ostaju u upotrebi. ali i komercijalne[13] inačice ovih fontova koje prodaju različite kompanije. OCR-B je europski pandan tom fontu.2. U.Izgled OCR-A i OCR-B fontova. ali koji će biti čitljiv i ljudima.S. prepoznati. Dvije godine kasnije Kurzweil prodaje svoju kompaniju Xerox-u koji je izrazio interes za daljnji razvoj ove tehnologije te je tako Kurzweil Computer Products postao podružnica Xerox-a pod novim imenom Scansoft (danas Nuance). Slika 1 . tj. 2. 6 .[14] [15] Postoje besplatne[12]. 1968.Optical Character Recognition 1978.

OCR se ponekad krivo poistovjećuje sa on-line character recognition. poput prepoznavanja rukopisa.Optical Character Recognition 3. Slika 2 . Tipičan postotak točnosti prepoznavanja prekoračuje 99% iako za određene aplikacije koje zahtijevaju još veću točnost je potrebna ljudska intervencija i pregled grešaka. dok on-line prepoznavanje znakova prepoznaje dinamičke pokrete tokom pisanja rukom. prepoznavanje znakova u realnom vremenu (real-time character recognition) i inteligentno prepoznavanje znakova (Intelligent Character Recognition. ICR). Točnost ili preciznost može biti mjerena na nekoliko načina o kojima jako ovisi krajnji rezultat i postotak točnosti. bez korištenja rječnika za ispravljanje pogrešaka pri čitanju 1% pogreška (99% točnost) se moze pretvoriti u 5% pogrešku (95% točnost). 7 . gdje sustav prepoznaje fiksne i statičke oblike znakova.. Ostala područja. OCR je tip off-line prepoznavanja znakova. Trenutno stanje OCR tehnologije Točno prepoznavanje isprintane latinice se smatra uglavnom riješenim problemom. kurziva i načina pisanja različitog od latinice (posebno onih sa vrlo velikim brojem znakova) su i dalje predmet aktivnog istraživanja. Npr. On-line prepoznavanje znakova se ponekad naziva i dinamičko prepoznavanje znakova (dynamic character recognition).Umjetnička vizualizacija OCR softwarea.

prepoznavanje cijele riječi iz rječnika je lakše nego obraditi individualne znakove iz teksta.Optical Character Recognition 3. pojedino napredno tehnološko rješenje može biti temeljeno na osnovnoj OCR tehnologiji. Dakle. čisto rukom ispisane znakove. ali takva točnost svejedno znači desetke grešaka po stranici što je veliko ograničenje za ovu tehnologiju i ograničava njenu primjenu. Primjeri takvih proizvoda su uređaji poput digitalnih osobnih asistenata koji koriste Palm OS. Potrebno je shvatiti da je OCR osnovna tehnologija koja se koristi u naprednim aplikacijama za skeniranje. Oblici individualnih znakova kurziva ne sadržavaju dovoljno informacija da bi se točno (više od 98%) prepoznao cijeli rukom pisani tekst u kurzivu. 8 . Također korisnika se može naučiti da koristi samo određene oblike slova. Ove metode se ne mogu koristiti u software-u koji skenira papirnate dokumente tako da je točno prepoznavanje rukom pisanih dokumenata još uvijek otvoreni problem. Točnost je između 80% i 90% za uredne. Prepoznavanje kurziva je aktivno područje istraživanja s postotkom točnosti prepoznavanje još manjom od onog prepoznavanja rukom pisanog teksta.1. Algoritmi koji se koriste u ovakvim uređajima iskorištavaju činjenicu da su poredak. Apple Newton je bio pionir ovakvih uređaja. zbog svojih posebnosti ga je moguće patentirati i time onemogućiti neovlašteno kopiranje. brzina i smjer pojedinih linija i segmenata poznati. Poznavanje gramatike jezika u kojem je pisan tekst koji se skenira također može pomoći pri određivanju je li riječ u pitanju imenica ili glagol što omogućava veću točnost. No. ICR) su sve češći komercijalni proizvodi posljednjih godina. Za kompleksnije probleme pri prepoznavanju koriste se inteligentni sustavi za prepoznavanje znakova poput neuronskih mreža. Na primjer. Intelligent Character Recognition (ICR) On-line sustavi za prepoznavanje rukom ispisanog teksta u realnom vremenu (DCR. Viši postotak točnosti prepoznavanja kurziva vjerojatno neće biti moguć bez kontekstualnih ili gramatičkih informacija.

Ovdje bitnu ulogu igra razmak između nota. 4. gdje se riječi obrađuju jedna za drugom. artifakti kod skeniranja mogu dovesti do problema pri prepoznavanju. Music OCR Za razliku od prepoznavanja teksta. glazbene oznake je potrebno obrađivati paralelno. je izdan 1991. 1950. Bank of America je bila prva banka koja je koristila OCR kako bi automatizirala obradu čekova koji su u sebi sadržavali takav tip znakova. zbog prisutnosti višestrukih glasova i drugih glazbenih oznaka. Suvremeni glazbeni OCR softwareski paketi imaju preciznost koja prelazi 99% u slučaju čistog skena i ako su korištene standardne notacije. 9 . [4] Jedino područje u kojem točnost i brzina računalnog ulaza znakovnih informacija nadilazi sposobnosti ljudi je u području prepoznavanja znakova ispisanih magnetskom tintom gdje je jedna pogreška na svakih 20 do 30 tisuća provjera. Ulagan je trud u uklanjanje glazbenih linija kako bi ostali samo simboli za prepoznavanje i obradu. Trenutno postoji nekoliko proizvoda tog tipa. OCR u drugim namjenama Na MIT-u su se sredinom 1970. oznake za tempo i dinamiku te glazbene oznake.1.Optical Character Recognition 4. Prvi komercijalni program za skeniranje glazbenih nota. radila prva istraživanja prepoznavanja glazbenih oblika na papiru. Pošto glazbene notacije koriste točke za staccato oznake ili da bi se produljilo trajanje note. MIDISCAN. PhotoScore Ultimate 5 je prvi programski paket koji je u mogućnosti prepoznavati rukom pisane note i druge glazbene oznake korištenjem 2 različita enginea za prepoznavanje. Oni koreliraju vlastite rezultate i tako postižu značajno poboljšanje preciznosti.

10 . Mac OS X Komentari Evolucija MIDISCAN programa. Dolazi s alatom za provjeru ritma.1. Besplatan program pisan u JAVA-i.Optical Character Recognition Popis Optical Music Recognition Software-a[3]: Ime Musitek SmartScore Pro Licenca Komercijalna 399$ / 299$ (akademska licenca) Komercijalna 249$ Komercijalna 152$ GNU besplatan[5] Operacijski sustavi Windows. 99% preciznost. Mac OS. brz. OMR se može ugrubo prikazati u tri koraka. Solaris Capella-Scan Komercijalna 199. koristeći Vivaldi Scan[6] program: Slika 3 . ali ograničen na prepoznavanje tiskanih notnih zapisa. Lagan za korištenje. Mac OS Audiveris Windows.95$ Windows Lista Music OCR software-a. Mac OS X Windows. Npr. Potpuno funkcionalan. Lagan za korištenje. PhotoScore Ultimate 5 Vivaldi Scan Windows. korak skeniranje tiskanog notnog zapisa. Vrlo brz program. sa jeftinom inačicom za nezahtjevne. Linux.

11 . Slika 5 . korak exportanje prepoznatog zapisa u neki od formata koji se mogu reproducirati ili obrađivati.2. korak otvoriti snimljenu sliku u Vivaldi Scan programu koji će zatim prepoznati notne zapise.Optical Character Recognition Slika 4 .3.

Slika 7 . 12 .Prepoznavanje i uklanjanje teksta. Slika 8 .Skeniranje tiskanog notnog zapisa.Optical Character Recognition Sam algoritam se sastoji od sljedećih koraka[7]: Slika 6 .Prepoznavanje i uklanjanje notnih linija.

Kompletno prepoznavanje simbola koristeći bazu otprije poznatih znakova.Semantičko prepoznavanje odnosa među simbolima i ispravljanje metrike. Slika 11 .Identifikacija uobičajenih simbola korištenjem heuristike.Optical Character Recognition Slika 9 . Slika 10 . 13 .

Proces je prvi put 1956.CMC-7 font. MICR je standardiziran kao ISO 1004. on-us. U donjem redu se nalazi otisak. transit. Kanadi i Velikoj Britaniji na sebi sadrže MICR znakove pisane E-13B fontom. Glavni MICR fontovi korišteni širom svijeta su E-13B i CMC-7. CMC-7 MICR font se uglavnom koristi u Europi. amount. a već je 1963. SAD-u. Magnetic Ink Character Recognition (MICR) Prepoznavanje znakova pisanih magnetskom tintom (eng.Primjer u MICR E13 fontu. [8] 14 . terminator.2. [9] Slika 12 . Specijalni znakovi su redom: dash. routing i neiskorišteni znak. Slika 13 . amount. MICR=Magnetic Ink Character Recognition) je tehnologija prepoznavanja znakova koju uglavnom koristi bankovna industrija pri obradi čekova. u SAD-u bio u masovnoj upotrebi. prikazan organizaciji American Bankers Association. Specijalni znakovi su redom: internal.Optical Character Recognition 4. poglavito Francuskoj. Gotovo svi čekovi koji se koriste u Indiji.

a sjevernim magnetski pol se nalazi s desne strane svakog MICR znaka. Za dobro isprintane MICR znakove pogreške zbog neiščitavanja su manje od 1%. Znakovi su najprije magnetizirani u ravnini s papirom. a pogreška zbog krivo iščitanog znaka je 1 za svakih 100 000 znakova. [10] 15 .Primjer čeka sa vidljivim MICR znakovima na dnu. [9] Slika 14 . Advantage Laser Products su postali prva kompanija tonera koja je počela nuditi MICR toner za desktop laserske printere.Optical Character Recognition MICR fontovi su jedinstvenog izgleda i printaju se magnetskom tintom ili tonerom koji obično sadržava željezni oksid. Magnetsko printanje se koristi kako bi se znakovi mogli pouzdano iščitati čak ako se preko njih nešto ispiše. Obično se čitaju pomoću MICR glave za čitanje koja je po svojoj prirodi vrlo slična glavi za čitanje klasičnih audio kazeta. Pošto tinta kojom su znakovi isprintani u sebi sadrži čestice željeza ona se može magnetizirati te odatle naziv magnetska tinta. Pogreške kod magnetskog skeniranja brojeva na dnu tipičnog čeka su manje nego kod sustava za optičko prepoznavanje. Specifični oblik znakova osigurava da će svaki znak proizvesti jedinstveni zvučni oblik čime sustav za prepoznavanje znakova ima pouzdan rezultat pri prepoznavanju znakova. 1991. Ovo je donijelo svojevrsnu revoluciju jer su se čekovi mogli printati na gotovo svakom laserskom printeru.

Slika 15 . 16 . [11] Slika 16 . Niz linija i razmaka različitih širina predstavlja niz brojeva. imenu proizvođača i samom proizvodu. Barkodovi su brza i pouzdana metoda unošenja podataka. Čitač barkoda koristi lasersku zraku da bi pročitao kod.Pisma na kuverti također imaju barkod radi lakše obrade. Laserska zraka se pomiče preko barkoda gdje ju svijetlije linije reflektiraju. Mogu se čitati čak i sa oblih površina ili ako su naopako. Sadrže i nadzor pogrešaka u obliku kontrolnog znaka.3. Barkod daje informacije o zemlji proizvodnje.Prikaz barkoda i načina rada čitača barkoda.Optical Character Recognition 4. Barkodovi se obično nalaze na pakiranjima. a tamnije upijaju. Bar Code Reader Barkod (eng. Bar Code) je sačinjen od vertikalnih linija i razmaka između njih. Čitač zatim pretvara uzorak odbijenog i upijenog laserskog svijetla u digitalni kod koji je jedinstven za taj proizvod.

[11] Slika 17 .4. 17 . Infracrveno svjetlo se ne odbija kad pređe preko oznake čija se pozicija zatim daje računalu. Optical Mark Reader Čitač optičkih oznaka je sličan čitaču barkoda. ali koristi infracrveno svjetlo da bi skenirao oznake na otprije pripremljenim formularima kao što su testovi sa višestrukim izborom ili listićima lutrije.Jedna od namjena Optical Mark Recognitiona je prepoznavanje označenih brojeva na listićima lutrije. Software zatim povezuje položaj oznake sa pripadajućim informacijama ili podatcima na formularu Ovo je vrlo brza i precizna metoda za unos velikih količina podataka uz pretpostavku da su oznake točno i čisto označene.Optical Character Recognition 4.

Projekt koji razvija Google.Optical Character Recognition 5. Web OCR usluga. Provjera pravopisa.Linux. OS/2 Windows HOCR InstantOCR OCRopus ReadSoft Scantron Cognition Pro SimpleOCR OCR Terminal Tesseract MoreData Linux Online Linux Windows Windows Windows Windows. NewSoft Presto! OCR FreeOCR Komercijalna 100$ FreeWare Windows Windows Popis OCR software-a.Unix. Mac OC Windows Unix.Mac OS X. Linux Windows. Sustav za upravljanje dokumentima. 18 . Brz. Za rad sa lokaliziranim verzijama potreban je addon s pripadajućim jezikom. precizan. Proizvod Nuance Communications. Nudi besplatan program. Profesionalni sustav za tvrtke. podržava više jezika. OCR Software Ime ExperVision TypeReader ABBYY FineReader OCR Licenca Komercijalna 395$ Komercijalna 400$ Komercijalna 500$ Komercijalna 520$ Komercijalna 500$ Komercijalna (N/A) Komercijalna 8000$ BSD 129$ Operacijski sustavi Windows. velikih kapaciteta. jednostavnost. Linux. podrška za 52 jezika. ali naplaćuje source code. Mac OS. U ranoj fazi razvoja. Postoje edicije za Aziju i Srednji Istok. Mogućnost skeniranja jedne ili više slika te pretrage za riječima.OS/2 Windows Komentari Prema nekim testovima najbrži OCR software. OS/2 Windows Obrada poslovnih i profesionalnih dokumenata Hebrejski OCR Višejezični online sustav za prepoznavanje. Specijaliziran za poslovne dokumente. OmniPage Readiris Cvision Technologies PDF compressor and Maestro Recognition Server Top Image Systems CompuThink ViewWise CuneiForm Pro Windows. Specijaliziraju za pravne dokumente. Mac OS Windows Windows Windows Windows GOCR Microsoft Office Document Imaging Microsoft Office One Note 2007 Ocrad Brainware GPL Komercijalna (N/A) Komercijalna (N/A) GPL Komercijalna (N/A) GPL FreeWare Apache Komercijalni (N/A) Komercijalni 8550$ FreeWare/Komercijalna 300$-2500$ FreeWare Apache FreeWare Mnogi (OpenSource) Windows. može prepoznati složene tekstualne i oblike tablica. Mac OS. Za rad s lokaliziranim sučeljima potreban je odgovarajući addon. Mac OS Windows. Besplatan i jednostavan.

Također ne pruža besplatnu tehničku podršku nakon prvog poziva. Podržava skeniranje crno-bijelih i slika u boji. ExperVision TypeReader – Ovaj ExperVisionov software postoji u raznim inačicama predviđenim za osnovnu i profesionalnu upotrebu. Kao takve ove aplikacije nisu zanimljive uobičajenom korisniku. Čita i prepoznaje 52 jezika. CompuThink ViewWise. najpreciznija i najsadržajnija OCR aplikacija. IRIS ReadIRIS Pro 11 – Pristupačno rješenje za poslovne ali i kućne korisnike. Sve ovo ipak nude konkurentska rješenja kompanija ABBYY i IRIS. Njegova glavna značajka je očuvanje izgleda izvornog dokumenta što značajno ubrzava pretvorbu i oblikovanje. No bez obzira na nisku cijenu. OmniPage nema dostupnu demo verziju svoje aplikacije za download. prepoznavanje barkoda i naredbeno linijsku integraciju. Nuance OmniPage Pro 16 . Osim ovih aplikacija postoje još neke poput Top Image Systems.Presto! OCR ne samo da precizno prepoznaje dokumente on i očuva njihov izgled i izvorni oblik. Presto! OCR Pro 4. ReadIRIS Pro nudi vrlo precizno OCR prepoznavanje za nisku cijenu. podržava višestruku obradu dokumenata te profesionalne alate za analizu složenih izgleda dokumenata. Dakle sačuva izgled i pozicije kolumni. tablica i slika. sadrži podršku za više jezika te podršku za PDF. OmniPage 16 Professional sadrži jedinstvenu mogućnosti pretvaranja bilo kojeg tipa dokumenta u pretraživi PDF ili Word Doc format.OmniPage je prema mnogima najbrža. Moćna. oblikuje novi dokument prema izgledu starog. svejedno nudi pregršt naprednih mogućnosti inače rezerviranih za mnogo skuplja profesionalna rješenja. ali iznenađujuće cjenovno pristupačna alternativa nekim poznatijim i skupljim OCR rješenjima. 19 . poboljšavanje kvalitete slike. inteligentno prepoznavanje izgleda dokumenata. može skenirati i iz obojanih i tamnih podloga. ReadSoft i drugih koji su specijalizirani za brzu obradu poslovnih dokumenata u vrlo velikim količinama te svoju namjenu i nalazt u profesionalnim okruženjima poput banaka ili srednjih i velikih tvrtki.0 .FineReader Professional je vrlo precizan i lagan za korištenje OCR program koji u sebi sadržava dodatne mogućnosti poput OCR-a za digitalne kamere. Brainware.Optical Character Recognition ABBYY FineReader 9 Professional .No.

nekoliko rječnika. SimpleOCR može biti jednako dobar kao i OmniPage Professional 16 ako si student ili netko kome jako rijetko zatreba pretvoriti tiskani dokument u digitalni oblik. izlazne datoteke u obliku običnog teksta ili RTF (MS Word) formatu. SimpleOCR nudi sve obično korištene OCR mogućnosti i usporedivu sposobnost prepoznavanja s komercijalnim alatima.Optical Character Recognition SimpleOCR – SimpleOCR je besplatna OCR aplikacija koja nudi prihvatljivu preciznost za one koji žele pretvoriti samo par stranica i ne mogu si priuštiti neki od komercijalnih softwarea. ručnog određivanja zona sa slikama ili tekstom. interaktivno ispravljanje pogrešaka sa prijedlozima iz rječnika.Izgled sučelja i prikaz rada SimpleOCR programa. Omogućava pretvorbu skeniranih slika u tekstualne datoteke ili Word dokumente. Slika 18 . 20 . SimpleOCR nudi mogućnosti TWAIN skeniranja.

Izgled sučelja i prikaz rada FreeOCR programa. open source) te time freeware. Jedini nedostatak ovog programa je njegova nemogućnost čitanja PDF dokumenata. [16] 21 . FreeOCR se može slobodno koristiti i u komercijalne svrhe. odnosno besplatna aplikacija. Free OCR je software otvorenog koda (eng. fax dokumente i razne druge oblike kompresiranih slika.0 licencom što znači da će stalno imati potporu open source razvojne zajednice. Za razliku od nekih OCR aplikacija koje su besplatne samo za privatnu upotrebu. Pošto neki PDF dokumenti imaju zaključanu mogućnost copy-paste teksta tada je od koristi OCR program. Ovo je vrlo jednostavan i lak za korištenje program s jednostavnom instalacijskom procedurom. Besplatni OCR engine je distribuiran pod Apache v2. Slika 19 . Ima podršku za višestrane tiff slike.Optical Character Recognition Softi FreeOCR – FreeOCR je besplatni OCR program za Windows platformu.

Prepoznavanje posebnosti (Feature Extraction) Umjesto da uspoređuje otprije snimljene slike znakova s onima skeniranima ova metoda pokušava prepoznati slova tako što ih pokušava rastaviti na osnovne posebnosti ili sastavne dijelove koji se zatim uspoređuju s listom posebnosti ili sastavnih dijelova koji se nalaze u programskom kodu.1. Courier ili Helvetica tipu fonta. OCR programi koji koriste prepoznavanje uzoraka (Pattern Matching) imaju slike za svaki znak u svakom fontu i veličini. prepoznavanje posebnosti (Feature Extraction) i provjera pravopisa (Spell Checking). Kombinirajući različite metode točnosti i preciznost drastično poraste. Uspoređujući snimljene slike koje dolaze sa OCR programom s onima skeniranih znakova program pokušava prepoznati slova. veličine između 10 i 14 točaka.2. Taj luk nije obavezan sastavni dio slova. 6. 22 . OCR) skenira i prepoznaje tekst te ga zatim pretvara u datoteku word procesora za daljnju obradu. Očiti nedostatak ove metode je što je korisna samo za otprije poznate tipove i veličine fontova.Optical Character Recognition 6. Prepoznavanje uzoraka (Pattern Matching) Većina tekstova je u Times. Na primjer slovo "a" je sačinjeno od kruga. [1] Najbolji programi za optičko prepoznavanje znakova koriste više od jedne ovdje navedenih metoda kako bi odredili o kojem se skeniranom znaku radi. Način rada Software za optičko prepoznavanje znakova (Optical Character Recognition. 6. Dakle. OCR software taj postupak čini na 3 glavna načina: prepoznavanje uzoraka (Pattern Matching). linije na desnoj strani i luka na sredini. ako skenirano slovo ima te "posebnosti" OCR program bi ga točno prepoznao kao slovo "a".

Slika 23 . svaki od sljedećih simbola nakon prepoznavanja nosi točno određeno značenje važno za posebne primjene. Na primjer.Optical Character Recognition 6. Ime OCR Hook OCR Chair OCR Fork OCR Inverted Fork OCR Belt Buckle OCR Bow Tie OCR Branch Bank Identification OCR Amount of Check OCR Customer Account Number OCR Dash OCR Double Backslash Tablica sa posebnim OCR simbolima. ako OCR program nije mogao prepoznati slovo “i” u riječi “nj~hovo” provjerom pravopisa program može utvrditi da je slovo koje nedostaje slovo “i”. Posebni simboli U upotrebi uglavnom u bankarstvu. Provjera pravopisa (Spelling Check) Ni jedan OCR software ne može prepoznati 100% skeniranih znakova. neprepoznati znakovi često mogu biti određeni gledajući susjedne znakove.3. Za prepoznavanje ovakvih znakova je potrebno koristiti neke od navedenih profesionalnih ili specijaliziranih programa za poslovne dokumente. Nakon što je obavljeno početno prepoznavanje.4. 6. Neki OCR programi koriste usporedbu uzoraka (Pattern Matching) i/ili prepoznavanje posebnosti (Feature Extraction) kako bi prepoznali što je više moguće znakova.

Aplikacija za obradu dokumenata (poput Microsoft Word-a) pozove TWAIN kompatibilnu aplikaciju kao što je npr. Funkcionalni prikaz Slika 20 . skener počme slati sliku TWAIN modulu.5. 24 .Optical Character Recognition 6. Nakon što je pokrenuto skeniranje. OCR program zatim koristi jednu ili više gore opisanih metoda kako bi pretvorio snimljenu sliku u znakove. Tome je gotovo uvijek uzrok loša kvaliteta izvornih dokumenata. TWAIN modul zatim šalje sliku OCR programu koji ga je u početku i pozvao. 6. 4. tehnologija bez zanimljivog imena. Ako OCR program nije mogao prepoznati neki znak.[17] 2. 5. on postavlja simbol ~ na mjesto neprepoznatog znaka. 3. Ponekad OCR programi krivo prepoznaju znakove.Procedura kod skeniranja dokumenta. TextBridge. TWAIN modul preuzima nadzor nad skenerom i omogučava korisniku odabir kvalitete i raznih načina skeniranja. Applications Programming Interface=API) koje nadzire komunikaciju između aplikacija i grafičkih uređaja poput skenera i digitalnih kamera. Prihvaćena je definicija akronima TWAIN kao "Technology Without An Interesting Name. TWAIN je standardni softwareski protokol i sučelje za programiranje aplikacija (eng. tj.". OCR program šalje prepoznate znakove programu za obradu dokumenta. 1. Po potrebi se namještaju razne mogućnosti i postavke u OCR aplikaciji te se zatim poziva TWAIN modul.

U ovom slučaju bi se koristio deskew filtar koji bi zarotirao loše postavljen dokument u dobru poziciju.Optical Character Recognition Slika 21 .Previše zatamnjen dokument (lijevo) i posvjetljen (desno). 25 . Slika 22 . Jedan od čestih problema je previše zatamnjena podloga dokumenta zbog čega dolazi do loših rezultata prepoznavanja. Većina navedenih programa ima razne filtre i mogućnosti za ispravljanje ukoso postavljenog dokumenta te time popravlja rezultate i kvalitetu OCR rezultata. Za ispravljanje ovog problema također postoji prikladan filtar koji osvjetljuje pozadinu i tako poboljšava rezultate.Loše postavljen dokument (lijevo) i ispravljeni (desno). Samim time bi se dobila i loša kvaliteta OCR rezultata. Ovdje je primjer loše postavljenog izvornog dokumenta za skeniranje.

Optical Character Recognition Slika 23 . Još jedan od tipičnih problema do kojeg dolazi kod nekih skeniranih dokumenata je pojava sjene na rubovima dokumenata. 26 . Treba biti oprezan sa postavljanjem postavki ovog filtra jer prejako postavljen filtar može izbrisati. zamutiti i učiniti neprepoznatljivim dijelove slova jer ih ne može kvalitetno razlikovati od crnih točkica. Relativno lako se rješavaja primjenom prikladnog filtra (Edge Shadow Removal Filter) koji pronalazi zatamnjena mjesta i posvjetljuje ih. Despeckle filtar uklanja tamne točkice i ostale nasumične artefakte sa pozadine koji se mogu pojaviti tokom skeniranja ako je dokument loše osvijetljen ili staklo skenera prljavo.Ispravljanje artefakata i problemi koji se mogu pojaviti.Problem sjene na rubovima skeniranog dokumenta. Slika 24 .

27 . Krivo prepoznavanje točke i zareza. rimskih brojeva.Optical Character Recognition Slika 25 . Slika 26 .Nakon skeniranja su vidljive tipične pogreške. super i subscripta. jedinica i malih slova l itd.Originalna stranica iz rječnika koju će se skenirati.

Slika 29 . Slika 27 . Bitno je da je tekst što tamniji i uočljiviji. Slika 28 . odnosno 300 točaka po inču. Treba učiniti sken dokumenta najboljim što je to moguće. Treba provjeriti je li papir zgužvan ili na neki drugi način oštećen.Primjer Helvetica fonta koji OCR sustav lako prepoznaje. Prilagodbom postavki za boje. Dokument treba biti ravno i precizno postavljen kako ne bi došlo do zakrivljene slike. Ovdje je od ključne važnosti provjeriti je li staklo skenera i ostali dijelovi čisti i bez mrlja. Preporuča se skeniranje rezolucijom od najmanje 300dpi. odnosno crnih točkica na dokumentu. kontrast i svjetlinu se može postići svijetla.Primjer Courier fonta koji OCR sustav lako prepoznaje. 28 . odnosno ukloniti mrlje s dokumenta. Kvaliteta skena ovisi i o rezoluciji pri kojoj se skenira.Primjer Times New Roman fonta koji OCR sustav lako prepoznaje. Ako je zgužvan. Bitno je i izbrisati.Optical Character Recognition Većina ovih problema se može ispraviti ili smanjiti ako se pobrine da je kvaliteta izvornog dokumenta dobra. može pomoći ako ga se ispegla ili pritisne teškim predmetima. odnosno bijela pozadina čime se rješava problem artefakata.

Umjesto da slova grupira ovaj sustav ih namjerno "oštećuje" linijom preko slova.Pristup koji koristi grupiranje slova kako ih računalo ne bi moglo razlikovati. 29 . No bez obzira na sve značajniji napredak. Completely Automated Public Turing test to tell Computers and Humans Apart). Računalu je ovako oštećena slova vrlo teško prepoznati.Primjer distorzije slova i pozadine što onemogućuje automatsko prepoznavanje slova. Ponekad je teško točno odrediti koje su postavke najbolje za neki problem te je tada najbolje eksperimentirati sa raznim mogućnostima dok se ne dobije najbolji rezultat. kolumne teksta i ostalo formatiranje može predstavljati problem. ali se dobiju precizniji rezultati. Taj sustav se naziva CAPTCHA (eng. Bez obzira na preciznost pojedinog OCR programa svi su oni podložni pogreškama koje treba ispraviti ručno. Ponekad je korisno problematične dijelove snimiti kao odvojenu sliku za daljnju obradu.Optical Character Recognition Nekada je od pomoći podijeliti veliki dokument u više manjih dijelova te tako skenirati. Vrlo je bitno nakon skeniranja i prepoznavanja teksta još pročitati tekst. Time se gubi toćan oblik dokumenta.[19] Slika 30 . Noviji OCR programi sve bolje prepoznaju ovakve problematične dijelove poput tablica ili kolumni teksta te sve bolje očuvaju izgled dokumenta. razne linije. Tada može pomoći podjela dokumenta na manje dijelove gdje se problematični dijelovi odvojeno skeniraju i prepoznaju. Slika 32 . odnosno potpuno automatizirani test za razlikovanje računala i ljudi. Slika 31 . Nekim starijim OCR programima slike. i dalje postoje fontovi i sustavi posebno prilagođeni da ih OCR sustav ne može prepoznati koji služe za razlikovanje automatiziranog unosa od onog čovjeka.

ali i moćnija rješenja poput ABBYY FineReader ili OmniPage. Već sada OCR tehnologija nalazi svoju krucijalnu primjenu u raznim velikim korporacijama gdje štedi novac i vrijeme pri obradi velikih količina specijaliziranih dokumenata. i kvalitetno automatski rješavati klasične probleme kod skeniranja i prepoznavanja o kojima je bilo govora. kućnog korisnika koji se povremeno koristi OCR tehnologijom pri sporadičnom skeniranju dokumenata postoje razna rješenja. te integracije raznih dodatnih mogućnosti još više rasti. Zaključak Točno prepoznavanje isprintane latinice se smatra uglavnom riješenim problemom. Za očekivati je da će se uskoro i pojaviti vrlo kvalitetni sustavi koji će moći prepoznati rukopis. pravnih ili vezanih za bankarske poslove. kvalitete. od besplatnih pa do onih koji koštaju par stotina dolara. Tipičan postotak točnosti. S vremenom i kvalitetnim ulaganjem u razvoj će se vjerojatno i ti problemi savladati. 30 . Većina ovih komercijalnih rješenja nudi i podršku za prepoznavanje barkodova ili optičkih oznaka što ih čini sveobuhvatnim programima i proširuje raspon njihove moguće primjene. preciznosti prepoznavanja prekoračuje 99%. Za male i srednje kompanije koje moraju obrađivati nešto veće količine dokumenata se preporučaju nešto skuplja. Takva rješenja su vrlo skupa i pristupačna samo financijski likvidnim korporacijama kojima se takav ulog može isplatiti. Ako se potreba za OCR-om ne pokazuje vrlo često ili rijetko nema potrebe za ulaganjem i plaćanjem relativno skupih rješenja kada tu mogu dovoljno dobro zadovoljiti ona besplatna poput FreeOCR ili SimpleOCR programa.Optical Character Recognition 7. Postoje još problemi pri prepoznavanju rukom pisanog teksta u realnom vremenu te pogotovo onog pisanog kurzivom. što samih programa što prepoznavanja. Za običnog. tj. U budućnosti će trend poboljšanja preciznosti.

html Wikipedia. URL: http://www.org/wiki/CAPTCHA 31 .org/wiki/Magnetic_Ink_Character_Recognition [10] PAYstation MICR 5000.wikipedia.php [13] Morovia Fontware.about.org/wiki/TWAIN [18] OCR Tips for Better Results.evron. URL: http://en.uk/ict/gcse/theory/5_3/5_3_1_input.html Wikipedia. URL: http://www2. URL: http://ansuz. URL: http://en. Understanding OCR.java. URL: http://www. Literatura [1] [2] [3] [4] [5] [6] [7] [8] [9] Mustek.mustek.wikipedia.Optical Character Recognition 8. URL: http://www. URL: https://audiveris.htm [12] Free OCR-A Font.info/en/compmus/omr.geckoandfly.wikipedia. URL: http://myfonts.com/tag/ocr-sdk/ [17] Wikipedia. URL: http://desktoppub. URL: http://www.org/wiki/Music_OCR Audiveris.music-notation. URL: http://en.wikipedia. URL: http://en.net/ Vivaldi Studio.edu/gamera/demo/ MICR Encoding Fonts.jhu.com/Eng/VivaldiScan.org/wiki/OCR-A_font [15] Typographic Abbreviations.morovia.micrencodingfonts.wordpress.com/font/ocr.asp [14] Wikipedia. Inc.asp [11] Input Devices.wikipedia.asp OMR using GAMERA.org.klbschool.bc.com/ Wikipedia. URL: http://en.wikipedia.com/cs/ocr/a/ocr.com/2006/09/18/typographic-abbreviations-series-1-ocr/ [16] GeckoAndFly.htm [19] Wikipedia. URL: http://www.com/Class/ocrinfo. URL: http://dkc.ca/software/ocra. URL: http://www.dev.vivaldistudio. URL: http://www.sooke. URL: http://en.com/Accounting/PayStationMICR5000.org/wiki/Optical_character_recognition Music-Notation.

Sign up to vote on this title
UsefulNot useful