Professional Documents
Culture Documents
Upravljanje dokumentima
Odjel za matematiku
Uredsko poslovanje
Odjel za matematiku
Uredsko poslovanje
Svrha dokumenta
Documents convert information into action. Dokumenti pretvaraju informaciju u akciju.
Kevin Craine Informacijska tehnologija prikuplja, pretvara i prikazuje informacije. Postoji jaz izmeu informacije i akcije. Dokumenti ispunjavaju taj jaz. Dokumenti komuniciraju informaciju. communicate dolazi od latinskih rijei commun i ie, to znai uiniti neto Osnovna funkcija dokumenta informaciju koju smo prikupili od informacijskog sustava iskomunicirati ljudima koji e zatim uiniti neku akciju
Odjel za matematiku Uredsko poslovanje 3
Na koji nain treba iskomunicirati informacije tako da one pokrenu odgovarajuu i eljenu akciju? Upravo se tim nainom bavi upravljanje dokumentima, a ono polazi od injenice da su dokumenti strateki znaajan resurs, ali i taktiki troak, budui da izrada dokumenata zahtijeva vrijeme i novac. Primjer: -dokumenti kojima se oglaava na proizvod utjeu na kupce da kupe taj proizvod -dokumenti kojima se daje opomena kupcu koji nije platio svoje obveze utjee na njegovu akciju plaanja, itd. Izrada dokumenata oduzima 60% radnog vremena uredskih uposlenika, i oko 45% troka ukupne radne snage. 85% dokumenata se nikad ponovo ne proita, 50% su duplikati, a 60% su nepotrebni. For every dollar that a company spends for a final document, 10 dollars are spent to manage the process. (Craine, 2000)
Odjel za matematiku
Uredsko poslovanje
Jedna od znaajki suvremenog poslovanja je sve bre gomilanje podataka i potreba da ih se razmjenjuje s poslovnim partnerima, korisnicima i drugim sudionicima. Veina poduzea eli organizirati i automatizirati rad sa strukturiranim podacima. Napor da se nestrukturirani podaci (pisma, broure, katalozi, tablice itd.) organiziraju doveo je do razvoja sustava za upravljanje s dokumentima. Istraivanje koje je za Xerox provela tvrtka IDC, u koje je ukljueno 550 direktora, pokazalo je da dvije treine ispitanika provodi inicijative za smanjenje ukupnih trokova upravljanja dokumentima. Anketirani u prosjeku oekuju da e trokove smanjiti za oko 20 posto. Iako informatiki radnici, koji se ubrajaju u najbolje plaene zaposlenike, oko 20 posto radnog vremena potroe na traenje informacija u dokumentima, u priblino ih 50 posto sluajeva ne pronalaze. Jedan od razloga zasigurno je i injenica da se jo uvijek vie od polovice informacija koje tvrtke razmjenjuju sa strankama nalazi na papiru. Vie od 60 posto tvrtki jo uvijek nije uspjelo integrirati papirnate dokumente u digitalne radne tijekove. (izvor: Xerox, Document Management Study Uncovers Strategy for Profitability Growth, ROCHESTER, N.Y., Feb. 16, 2005 http://www.xerox.com/go/xrx/template/inv_rel_newsroom.jsp?app=Newsroom&ed _name=NR_2005Feb16_DocumentManagementStudy&format=article&view=new srelease&Xcntry=USA&Xlang=en_US, 10.03.2005.)
Odjel za matematiku
Uredsko poslovanje
Dokumenti su nositelji nestruktuiranih podataka, namijenjeni su uvanju i prijenosu informacija koje imaju proizvoljni oblik i sadraj. Pomou njih organizacija komunicira sa svojom okolinom, i dokazuje usklaenost svog poslovanja sa standardima, preporukama, propisima i zakonima. Dokumenti su u organizacijama najee trajni zapisi nekog poslovnog dogaaja ili opis stanja procesa u datom trenutku. Dokumenti koji opisuju procese su: (1) propisi i uputstva, (2) ulazni dokumenti, (3) izlazni dokumenti. Na primjer, Statut Fakulteta je dokument koji opisuje propise. Poslovna ponuda koju dobivamo od dobavljaa je uzlazni dokument, dok je ponuda koju mi aljemo naim potencijalnim kupcima izlazni dokument. Izlazni dokument je i npr. Opomena kupcu zbog neplaanja rauna, ili Obavijest o promociji proizvoda, i sl. Dokument moe biti i direktan rezultat procesa: na primjer, potpisani ugovor, tako da je sustav za upravljanje dokumentima u stvari i sustav za upravljanje procesima u koje ulaze i izlaze razliiti dokumenti koji te procese opisuju, ili nastaju kao sastavni dio procesa.
U tvrtkama je oita potreba za odgovarajuim sustavom kreiranja, upravljanja i nadzora nad ivotnim ciklusom dokumentacije, tj. putem koji dokument proe tokom svog ivotnog vijeka. Osnovni problem koji se pojavljuje upravo je skretanje s putanje, zadravanje ili ak zaustavljanje protoka informacija, tj. dokumenata. EDMS nastoji pratiti dokumente u cijelom njihovom ivotnom ciklusu, te omoguiti njihovo pohranjivanje i arhiviranje, praenje, pretraivanje, dohvaanje i obradu informacija u njima, te dijeljenje informacija u organizaciji i onih javnih izvan nje.
automatizacija svih procesa koji se temelje na upravljanju dokumentima u elektronskom obliku (npr. upravljanje dokumentacijom sustava kvalitete, financijskom dokumentacijom, izrada i promjene tehnike dokumentacije, itd.) trajno arhiviranje i uvanje zbirke zapisa pomou sustava za arhiviranje.
Uredsko poslovanje 7
2.
Odjel za matematiku
Sustav upravljanja dokumentima razlikuje se od sustava za arhiviranje dokumenata u tome to omoguava i aktivnu podrku procesu upravljanja dokumentima od njihovog nastanka, preko pregleda, odobrenja, distribucije i na kraju do njihovog arhiviranja. Arhiviranje je samo jedno od moguih stanja dokumenta u njegovom ivotnom ciklusu.
Odjel za matematiku
Uredsko poslovanje
Primjer upravljanja dokumentima: elektroniko potvrivanje primljenih rauna. - Uvoenjem sustava za upravljanje dokumentima mogue je pratiti tok potpisivanja svakog rauna, poevi od njegovog skeniranja i prijema, zatim praenja tko je potpisao raun ili kod koga je zastao i zbog ega kasni, itd. Time je ovako upravljan proces transparentan i uinkovit. Aplikacija za upravljanje dokumentima treba biti pisana na provjerenoj, pouzdanoj i sigurnoj softverskoj platformi, koja je usklaena sa svim propisima. Primjer je softverska platforma documentum, koja je dobila sigurnosni atest od Ministarstva Obrane SAD za upravljanje povjerljivim podacima.
Odjel za matematiku
Uredsko poslovanje
Metapodaci u dokumentu
Metapodaci se kod dokumenata sastoje od dijelova: metapodaci o formi (obliku) dokumenta metapodaci o strukturi dokumenta metapodaci o sadraju dokumenta Najei metapodaci u dokumentima su: autor, naslov, ifra (broj) projekta, ifra (broj) datoteke, tip dokumenta, verzija, datum/vrijeme izmjene, i dr.
Odjel za matematiku
Uredsko poslovanje
10
Podaci i metapodaci (podaci o podacima) Kod baza podataka koje su strogo strukturirane, korisnik unosi samo podatke, dok se metapodaci koji opisuju znaenje tih podataka nalaze pohranjeni u samoj strukturi baze (npr. ako se u bazu pohranjuju podaci o proizvodima, tada su atributi npr. Naziv proizvoda, ifra proizvoda, Koliina pohranjeni u strukturu baze, dok korisnik u bazu unosi samo vrijednosti tih atributa za konkretne proizvode, npr. Leaj KX, 11000, 218. Kod dokumenata je drugaija situacija. Podaci i metapodaci su esto pohranjeni zajedno na dokumentu, pa ih je teko razdvojiti. Metapodaci o formi (obliku) dokumenta sadre podatke o nainu formatiranja dokumenta, kao npr. koji se font koristi (vrsta slova, veliina, nain prikaza bold, italic, i sl), poravnavanja teksta i dr. Metapodaci o strukturi dokumenta sadre informaciju o tome gdje se nalaze naslovi u dokumentu, koje su razine naslova (naslovi poglavlja, odjeljaka, podnaslovi i sl.), zatim da li ima lista s nabrajanjima (numerikih ili simboliih), tablica, i sl. Metapodaci o sadraju dokumenta razliiti su s obzirom na podruje kojim se dokument bavi, i trae razumijevanje tog podruja.
10
API (Application Interface) veza izmeu prezentacije dokumenata na webu i same aplikacije
Odjel za matematiku
Uredsko poslovanje
11
Prvi jezici za oznaavanje (Tex/Latex) sadravali su oznake za metapodatke koje su se odnosile iskljuivo na formatiranje (izgled) dokumenta, npr. oznake za vrstu slova, bold, italic, i sl, zatim za poravnavanja, formule, tablice i dr,te na strukturu dokumenta. Zbog svoje javne raspoloivosti i velikih mogunosti za prikaz formula, Tex/Latex je doivio veliku upotrebu u istraivakoj zajednici, no zbog komplicirane upotrebe nije doivio iru upotrebu u poslovanju. SGML (Standard Generalized Markup Language) jezik za oznaavanje uvodi i metaoznake za sam sadraj dokumenta, sa svrhom da se podaci koji se jednom unose u dokument, mogu pohraniti i vie puta obraivati na razliim medijima i platformama. Prvi korisnici SGML jezika bili su Ministarstvo obrane SAD (za tehnika uputstva o oruju), porezne slube i velike izdavake kue. Iz standarda SGML jezika proizile su razliite verzije HTML-a, SHTML-a, XHTML-a, te XML jezik oznaavanja. TO je dovelo do razvoja tri vrste tehnologija: tehnologija za podrku prikaza dinamikih dokumenata na serveru (server-side data delivery) tehnologija za komunikaciju s bazama podataka u pozadini (interface with back-end databases) tehnologija za komunikaciju web servera s aplikacijama koje koriste baze podataka. Kao rezultat su nastale SSI (Server-side-includes), ODBC/JDBC (Object/Java database connectivity) i CGI (common gateway interface) kao prvi tehnoloki odgovori, koji su se dalje razvijali u novije, kao npr. ADO tehnologija za povezivanje baza podataka, zatim sriptni jezici php, asp, tehnologije za povezivanje s aplikacijama kao to je .net i dr. API integrira XML dokumente u e-business sustav. Postoje zasebne API komponente za razliite programe, npr. Netscape API (NSAPI), Microsoft API (ISAPI) i Java Servlet API. Razvijeni su i posebni XML jezici za e-business sustave kao npr. XFRML (eXtensible Financial Reporting Markup Language), XFDML, cXML (MS Ariba Commerce XML), IFX (Interactive Financial eXchange), i dr.
11
Odjel za matematiku
Uredsko poslovanje
12
XML kao standard za transakcije u velikim poslovnim sustavima poinje se masovno koristiti otkako je njegova upotreba znaajno pojednostavljena razvojem programa koji automatski kreiraju XML dokumente. Time tvrtke i korisnici ne trebaju troiti vrijeme na unos XML oznaka. Primjer takvog alata je MS Office Professional Edition 2003, koji putem svojih programa MS Word 2003, MS Excel 2003 i MS Access 2003 podrava XML. Alat omoguuje: spremanje i organiziranje novih podataka kao XML tako da ih ostali mogu koristiti, prebacivanje XML podataka iz niza izvora u dokumente, baze podataka, prezentacije i proraunske tablice stvaranje "inteligentnih programa" (tj. programa koji vraaju korisne informacije na temelju podataka unesenih od strane korisnika) Dokumenti Worda 2003 i tablice iz Excela 2003 mogu se spremiti u izvornom obliku zapisa XML datoteke te se njime moe rukovati i pretraivati ga pomou bilo kojeg programa koji moe obraivati XML kao industrijski standard. Pomou programskog paketa Office Professional Edition 2003 tvrtke mogu koristiti i prilagoene XML oblike zapisaili shemada bi omoguile lake i naprednije stvaranje, dohvaanje, razmjenu i ponovno koritenje informacija. Prilikom stvaranja XML sheme, tvrtka sama odluuje kakve informacije elite u datoteci. Takve informacije bit e lake pronai, nego da se nalaze nestrukturiranoj tekstualnoj datoteci te e moi postati dragocjena imovina tvrtke. Informacije datoteke, koje ste stvorili ili dohvatili pomou XML-a mogue je stalno ponovno koristiti. Datoteke i poslovno znanje koje sadre moete prikupljati, pretraivati, organizirati i ponovno koristiti, ba kao i brojke u bazi podataka. Stvaranje dokumenta ne traje dulje, ali njegova vrijednost postaje puno vea. Pomou XML-a lake ete pristupati potrebnim informacijama i na kraju krajeva utedjeti vrijeme, smanjiti pogreke i poveati znanje u svojoj tvrtki. (http://www.microsoft.com/croatia/office/editions/prodinfo/techologies/xml.mspx, 01.04.2005)
12
Primjeri problema u kojima se moe koristiti XML su: primanje narudbi, razmjena poslovnih podataka s partnerima, medicinskih podataka, bibliotenih podataka i sl.
13
<?xml version="1.0"?> <!DOCTYPE advert SYSTEM http://www.foo.org/ad.dtd"> <advert> <headline>...<pic/>...</headline> <text>...</text> </advert>
Primjer 2. dio dokumenta za opis proizvoda <part num="DA42" models="LS AR DF HG KJ" update="2001-11-22"> <name>Camshaft end bearing retention circlip</name> <image drawing="RR98-dh37" type="SVG" x="476" y="226"/> <maker id="RQ778">Ringtown Fasteners Ltd</maker> <notes>Angle-nosed insertion tool <tool id="GH25"/> is required for the removal and replacement of this item.</notes> </part>
Odjel za matematiku Uredsko poslovanje 14
Kako se XML koristi na Web-u? putem standardnih industrijskih protokola, kao npr. SOAP; XML; i Universal Description, Discovery, and Integration (UDDI). Definiraju ih javne organizacije za standarde, kao to je World Wide Web Consortium (W3C). SOAP (Simple Object Access Protocol) specificira pravila potrebna za lociranje XML Web usluga, njihovo integriranje u aplikacije i komunikaciju. web adresa: http://www.ucc.ie/xml/#def
14
15
Najzastupljenija i najrazvijenija primjena tehnologije optikog prepoznavanja izvorno upisanih znakova koritenjem skenerskih ureaja. Primjena optike tehnologije (scanneri i ureaji za prepoznavanje znakova) omoguuju pristup, preuzimanje i spremanje (kasnije i pretraivanje) vee skupine tekstualnih sadraja. Scanneri omoguuju brzo preslikavanje fotografija, karti, crtea i teksta u digitalni oblik. Kod preslikavanje teksta izvodi se automatizirani proces digitalizacije izvornog teksta u strojni zapis, odnosno tekst se prevodi u ASCII zapis. Za to postoji poseban programski sklop za optiko prepoznavanje znakova (OCR - Optical Caracter Recognition). OCR programski alat analizira skeniranu sliku izvornika i prenosi tekst koji se pojavljuje u preslikanom prikazu u obrazac pogodan za uporabu bilo kojeg programskog alata za obradu teksta. Kvaliteta OCR alata ogleda se u tonosti izvoenja pretvorbe i moe se usporediti s kvalietom rada osobe koja ita i prepisuje tekst u raunalo. OCR programski sklop preuzima sliku izvornika, izvodi usporedbu s ugraenim vrstama, oblicima i skupovima znakova, odabire odgovarajue kombinacije i izrauje digitalni zapis. Prepoznavanje znakova je izuzetno sloen proces, tako da su OCR programski alati praktiki najrazvijeniji programi u podruju raunala ope namjene. Primjeri alata za OCR: Abbyy FinerReader, Recognita i dr. Osim prepoznavanja teksta, dananji OCR alati nude i prepoznavanje bar-koda, image splitting alat, podrku za hyperthreading procesorsku tehnologiju, eksportiranje dokumenata u PowerPoint i Word XML.
16
namjena CMS-a: olakati izradu i objavu web dokumenata korisnicima koji se mogu fokusirati na sadraj brojna komercijalna i opensource rjeenja na tritu
Odjel za matematiku Uredsko poslovanje 17
Iako je prema svojoj definiciji CMS sustav za openito upravljanje sadrajem, uglavnom se koristi za sadraje na webu, pa se stoga esto za CMS koriste i druge kratice: WCM (Web Content Management), ili WCMS. Kako CMS pomae korisniku i objavi i organiziranju web dokumenata: omoguava stavljanje dokumenata na web bez poznavanja HTML jezika, ili skriptnih jezika kao npr. php ili asp. dokumenti se unose putem web suelja, i to bez ikakvog suvinog formatiranja, na koje se primjenjuju ugraeni predloci i tako dokument oblikuje dokumenti se organiziraju u bazi dokumenata, te se tako lako omoguuje njihovo pretraivanje, praenje promjena i obrada. omoguuje se definiranje pravila pomou kojih se kreirani sadraj moe usmjeravati od korisnika do korisnika sustava prije same objave sadraja, odnosno zakljuivanja dokumenta. omoguuje administraciju korisnika i definiranje grupa korisnika: npr. grupu administratora, grupu urednika sadraja, te grupu posjetitelja web stranica. Pri ostvarivanju gore navedenih odlika CMS sustavi esto s oslanjaju na dobro prihvaene standarde i protokole: npr. ICE (Information Content Exchange ),W bDAV,RSS,XML, LDAP, Kerberos i dr. CMS sustavi obino ukljuuju i dodatne elemente vane za komunikaciju i atraktivnost web portala, kao npr. forumi, e-duani, pretraivai stranica, ankete, pitanja i odgovori (FAQ), fotogalerije, itd. koji se danas smatraju gotovo obveznim dijelom CMS okruenja, iako nemaju direktnu vezu s upravljanjem sadraja. Primjer: U novinskoj kui novinari unutar CM sustava unose novinske lanke (uz sam lanak mogu unositi i razna svojstva, kao to su kljune rijei, datum i vrijeme unosa lanka, ime novinara, itd). Na temelju zadanih pravila koja odreuju tijek obrade i izvravanja poslova (workflow) te svojstava unesenog lanka, u CMS-u se lanak npr.moe delegirati lektoru koji e nakon lektoriranja teksta lanak proslijediti uredniku. Urednik tada moe odrediti to e uiniti s tim lankom da li e ga upotrijebiti u papirnatom izdanju novina, da li e lanak biti objavljen i u online primjerku novina, itd.
Proitati dodatni materijal za itanje: Vjeran Vlahovi: Sustavi za upravljanje sadrajem, Sveuilite u Zagrebu, Fakultet elektrotehnike i raunarstva, 2004. http://ergonomija.zpm.fer.hr/2004/vlahovic/Content_management.pdf, 01.04.2005.
17
Odjel za matematiku
Uredsko poslovanje
18
Postoji studija austrijskog Ministarstva obrazovanja, znanosti i kulture o kriterijima za izbor odgovarajueg CMS sustava za neku instituciju ili tvrtku: http://virtual-learning.qualifizierung.com/cms/ergebnisse.htm Prema (Vlahovi, 2000), svaki dobar CMS sustav trebao bi imati sljedee karakteristike i to ovim redom: 1.Fleksibilnost. 2.Skalabilnost. 3.Cjenovna prihvatljivost. 4.Brza implementacija. 5.Administracija putem web preglednika. 6.Viekorisnika funkcionalnost. 7.Jednostavnost koritenja. EZ Publish - objektno orjentirani sustav, implementiran u Communitel-u (panjolska), Agricola Italiana Online, Austrian National Turist Office, i dr., web adresa: http://www.ez.no Plone/Zope - page-based sustav implementiran u NASA, Lufthansa, asutrijska vlada, CBS i dr., web adresa: http://www.plone.org, http://www.zope.org PHPNuke - modularni sustav, razvijen za unix (linux) platformu, web adresa: http://www.phpnuke.org
18
Skladite dokumenata
EDMS vs. Document Warehouse standardni sustav za upravljanje dokumentima (EDMS) tretira dokumente kao samostalne jedinice, podrava dohvaanje informacija, ali ne i text mining, ima limitiranu semantiku metapodataka, i nije uvijek povijesno kompletan Skladite dokumenata (Document Warehouse) ima veu mogunost koritenja metapodataka o dokumentima, omoguava text mining, vezu s data mining-om, fleksibilniju klasifikaciju dokumenata Integracija EDMS-a u skladite dokumenata mogua.
Odjel za matematiku Uredsko poslovanje 19
Za integraciju EDMS-a u DW podrazumijeva procese: indentificiranja unutarnjih izvora dokumenata, ekstrahiranje dokumenata iz njihovih izvornih sustava, transformaciju i reformatiranje dokumenata ako je potrebno. Unutarnji izvori dokumenata su najee EDMS sustav ili sustav datoteka, ili web CMS ukoliko postoji u tvrtki. Prenoenjem dokumenata u skladite omoguuje se naprednija obrada dokumenata, te uinkovitije rudarenje dokumenata.
19
Sumacija
U skladitu dokumenata provode se ove analize teksta: dohvaanje dokumenata reformatiranje, konvertiranje znakova, prijevod jezika sumacija informacija iz dokumenata indeksiranje prema kljunim rijeima i temama klasteriranje (svrstavanje dokumenata i dijelova teksta u skupine) ekstrahirane dokumenata (izluivanje vanih karakteristika)
20
predstavlja traenje neotkrivenih informacija iz mase dokumenata (traenje poslovne inteligencije iz teksta) dio je Data mining-a (rudarenja podataka), koje trai skrivene uzorke u podacima TM obuhvaa ove discipline, koje su ujedno i faze TM procesa: Dohvaanje informacija (eng. Information retrieval - IR) Raunalnu lingvistiku (eng. Computational linguistics - CL) Prepoznavanje uzoraka (eng. Pattern recognition)
pretraivanje i dohvaanje (IR)
Odjel za matematiku
evaluacija i selekcija
Uredsko poslovanje
TM je relativno nova disciplina, pa tako postoje razliita gledita oko toga to se sve smatra rudarenjem teksta. Najira definicija kae da to podrazumijeva: bilo koju operaciju koja je u vezi s prikupljanjem i analiziranjem teksta iz vanjskih izvora u svrhu dobivanja poslovne inteligencije (Sullivan, 2001). Drugi pristup kae da je TM otkrivanje prethodno nepoznatog znanja iz teksta (Sullivan, 2001). Ovaj pristup nastoji pronai isjeke informacija (eng. nuggets of information) koji se logiki mogu grupirati kako bi korisnik mogao izvui neke zakljuke koje prije toga nije bilo mogue donijeti. TM proces provodi se kroz faze: 1) pretraivanje i dohvaanje informacija (IR) ovo je prvi korak u TM procesu, a cilj mu je pronai dokumente koji mogu biti od koristi za rjeavanje problema. Zato ova faza slui kao poetno filtriranje dokumenata. Trae se ciljani dokumenti, ali se sam obim teksta dokumenata jo uvijek ne analizira. Ovdje je dohvaanje dokumenata olakano ako postoji organizirano skladite dokumenata. Kao to je dobra (ali ne i obavezna) podloga za rudarenje podataka imati organizirano skladite podataka, tako je dobra podloga za rudarenje teksta imati organizirano skladite dokumenata. 2) raunalna lingvistika i obrada prirodnog jezika u ovoj fazi se iz skupa izabranih dokumenata (koji je proiziao iz prve faze) analizira tekst kako bi se dobile jo ciljanije informacije. Koriste se tehnike kao npr. razliite morfoloke analize, oznaavanje govora (umetanje oznaka za rijei i termine u tekstu prema njihovoj funkciji u reenicu, npr. umetanje oznaka za imenice, za glagole, za veznike i sl), detektiranje uzoraka (pronalaenje rijei i termina koje imaju povezano znaenje, oznake vanosti za tekst) Npr. rijei nafta i loivo ulje povezani su (imaju visoku korelaciju) s ovim terminima: -po barelu -OPEC -prirodni plin, itd. TM ovdje moe pronai veze izmeu rijei i termina kad sam koncept u okviru kojeg su spomenuti omoguava jake veze.
21
TM
Jedan od najpoznatijih primjera uspjeha TM tehnika je ovaj: -Provedeno je pretraivanje znanstvenih radova kako bi se pronale veze izmeu istraivanja. Rezultati pretraivanja medicinske literature i literature iz nutricionizma pokazali su da manjak magnezija moe biti povezan s migrenama. Neki izlueni isjeci informacija su: -Stres je povezan s migrenama. -Stres moe voditi ka gubitku magnezija. -Blokatori kanala kalcija spreavaju neke migrene. -Magnezij je prirodan blokator kanala kalcija. -Kod nekih migrena pojavljuje se irenje kortikalne depresije (SCD). -Visoke razine magnezija spreavaju SCD. Iz gornjih isjeaka logikim uzrono-posljedinim zakljucima dolo se do toga da magnezij pomae u spreavanju migrena, to su medicinska istraivanja naknadno i dokazala, no sam zakljuak najprije je proistekao iz rudarenja teksta. Nemogue je poznavati sve informacije iz svih podruja istraivanja, a takoer je teko povezati informacije iz razliita podruja. Istraivaima se stoga moe dogoditi da im promaknu vane informacije iz podruja kojima se oni ne bave. TM omoguava upravo takvo povezivanje znanja i dobivanje novih zakonitosti. Primjer 2: ele se pronai naini na koji korisnici kreditnih kartica mogu postati rtve kriminala. Bankovni analitiari imaju dva koncepta koja moda mogu biti povezana, ali je ta veza nepoznata. Prvi koncept je kada kriminalci otvaraju lane bankovne raune i kartice u neije tue ime i prodaju informacije drugima koji e poiniti prijevare, a drugi je kada kriminalci putem ukradenih kreditnih kartica troe novac rtve. TM pretrauje i nastoji povezati informacije koje se pojavljuju u dokumentima koje se odnose na ova dva koncepta. Mnoge zemlje ulau dosta napora u razvijanje text mininig-a, npr. Velika Britanija ima Nacionalni centar za text mining iji je cilj razviti metode za pretraivanje, pristup, ekstrahiranje, integriranje i upravljanje tekstualnim informacijama iz irokog spektra izvora.
22
TM metodologija u poslovanju
upotreba Cross-Industry Process (CRISP) modela za data mining, koji je razvijen od strane konzorcija tvrtki: NCR, Integrated Solutions Limited, Daimler Chrysler, OHRA i BV, s ciljem razvijanja modela za otkrivanje znanja koji e biti nezavisan od alata za data mining.
Razumijevanje poslovanja 1 Razumijevanje podataka 2 3 Priprema podataka 4
Razvoj
7 Evaluacija
Modeliranje
CRISP model podrazumijeva faze, koje se na TM mogu primijeniti na sljedei nain: 1. Razumijevanje poslovanja odgovoriti na pitanja o stanju novog projekta, koje pravne procese ukljuuje, koje dozvole su potrebne, koja je dokumentacija primljena u vezi financiranja projekta, koje su druge opcije financiranja, i dr. 2. Razumijevanje podataka odgovoriti na pitanje koji su tipovi teksta i dokumenata potrebni za rjeavanje tog problema (koji interni i eksterni dokumenti, koji su izvori, kakva je frekvencija dokumenata (dnevno, tjedno ili dr.), javna raspoloivost dokumenata, jezik dokumenata i potrebno prevoenje. 3. Priprema podataka konverzija skupa znakova, konverzija formata datoteka, strojno ili ljudsko prevoenje, izluivanje metapodataka, klasteriranje, klasifikacija, sumiranje i izluivanje karakteristika. 4. Modeliranje kod text mining-a ova se faza zapravo zove mining (rudarenje) umjesto modeliranja, jer nema modeliranja u numerikom smislu kao kod podataka, ve se ovdje odvija traenje pojedinih dijelova informacija koju su povezani s nekom temom, s ciljem pronalaenja skupa tih dijelova, koji zajedno daju spoznaju ili novo znanje korisniku. Proizvod ove faze kod TM su diskretni dijelovi tekstualnih informacija koji su povezani s promatranim poslovnim problemom. 5. Evaluacija u ovoj fazi se daju odgovori na kljuna pitanja kao npr. da li su dobivene injenice relevantne za poslovni cilj, da li su injenice stvarno istinite, koji dijelovi informacija nedostaju i time poveavaju rizik djelovanja na temelju tih injenica? Ovisno o odgovorima na ova pitanja, korisnik odluuje da li nastaviti rudariti da bi se pronali drugi dijelovi informacija. 6. Razvoj (eng. deployment) ova faza se takoer u TM razlikuje od iste faze u DM, jer nema neke aplikacije koja se uvodi u sustav, niti matematikog modela koji opisuje proces, nego se radi na dijeljenju novodobivene informacije ili znanja s drugima, te djelovanju na temelju tog znanja. CRISP model je cikliki proces gdje se faze mogu ponavljati ovisno o tome to je u kojem koraku postignuto i naueno. Iako je ovaj model razvijen prvenstveno za rudarenje podataka, moe se primijeniti i na rudarenje teksta. U TM-u je jedino manje zahtjevna faza pripreme podatka, jer se uglavnom radi s dokumentima, ali je takoer nuna i prisutna.
23
TM aplikacije
Aplikacije razvijene za TM orjentirane su na rjeavanje problema iz tri podruja: poznavanje vlastitog posla poznavanje klijenata poznavanje konkurencije Koraci ka uinkovitom TM: 1. definirati tip informacije koja nam treba 2. specificirati proces za ekstrahiranje te informacije.
Odjel za matematiku
Uredsko poslovanje
24
U podruju poznavanja vlastitog posla, mogue TM aplikacije su npr.: -praenje upravljanja projektima, -upravljanje osobljem praenje vjetina, sposobnosti, nagraivanja, ugovora o radu i sl., -razvoj marketing plana na temelju detalja iz prolih planova, opcija oglaavanja i istraivanja trita, -praenje izvjetavanja prema dravnim institucijama i dr. U podruju poznavanja klijenata, TM moe dati doprinos u spoznavanju nenumerikih osobina klijenata, npr. -koje su skrivene osobine web stranica na koje neki konkretni klijent potroi veinu vremena na webu? -kako se albe i pritube klijenata mogu automatski klasificirati i usmjeriti pravoj osobi, kako bi smanjilo vrijeme potrebno za odgovor na pritubu? -to se dogaa na tritu s klijentima? Kakvom su pritisku izloeni? U podruju poznavanja konkurencije, web i slobodni izvori informiranja mogu posluiti kao bogat izvor informacija za TM aplikacije, koje mogu dati sljedee spoznaje: -koja su najvea irenja konkurenata? -koje su promjene u regulatornoj okolini? -koja su nova udruivanja i partnerstva na pomolu? -koji novi proizvodi se uvode? -nadgledanje patenata, i sl. Javno dostupne baze podataka financijskih pokazatelja (kao npr. EDGAR za US kompanije), izvjetaji na webu temeljeni na XML jeziku, omoguuju jednostavniju i dostupniju obradu informacija o konkurentima.
24
Dok je za veinu aktivnosti vezanih uz skladite podataka izbor alata vezan uz proizvoae najrairenijih baza podataka kao to su IBM DB2, Oracle, MS SQL server, kod dokumenata je situacija drugaija, jer postoje drugi proizvoai koji su se specijalizirali za dokumente, kao npr. Thunderstone Texis baza koja je namijenjena pohranjivanju i obradi dokumenata u skladitu dokumenata. No, i veliki proizvoai imaju razvijene alate i posebne jezike za pretraivanje i obradu teksta, kao npr. Oracle Text.
25
Odjel za matematiku
Uredsko poslovanje
26
26
Microsoft Share Point Services i SharePoint Portal Server 2003 su zapravo platforme na temelju kojih se mogu izgraivati aplikacije za poslovnu primjenu. Web adresa: http://www.microsoft.com
27
Odjel za matematiku
Uredsko poslovanje
28
28
Primjeri implementacije Combis sustava: 1) Zagrebaka banka d.d. Zagreb Sustav je implementiran u Sektoru informatike, Sektoru tehnikih i komercijalnih poslova i Sektoru upravljanja ljudskim resursima Zagrebake banke. Slui kao programska potpora djelatnicima Zagrebake banke za proces obrade dokumenata (zahtjeva) i pratee dokumentacije koja nastaje tijekom te obrade (radnih naloga, ugovora, uputa, biljeki, radnih zadataka,...). 2) Dravni zavod za normizaciju i mjeriteljstvo Sustav je implementiran u Dravnom zavodu za normizaciju i mjeriteljstvo i slui kao programska potpora djelatnicima Zavoda i vanjskim suradnicima (lanovima tehnikih odbora) u procesu prihvaanja stranih normi (CEN, CENELEC, ISO, DIN, ....) u hrvatski normizacijski sustav. Uz podrku samim procesima, sustav je ujedno i elektronika biblioteka svih normi (hrvatskih i stranih), stranih i internih dokumenata, kontakata i ugovora. Ujedno, to je i podrka prodaji prihvaenih normi. 3) KB Dubrava Sustav je implementiran u Tehnikoj slubi i slui kao programska potpora djelatnicima u procesu obrade korisnikih prijava (zahtjeva) i pratee dokumentacije. web adresa: http://www.combis.hr/index.php?lang=0&page=article&id=58
29
eBoard je prilagoen za vladine organizacije i druga upravna tijela razliitih organizacija koja su zasnovana na principu vertikalne kolaboracije, upravljaju brojnim dokumentima za pripremu i voenje sjednica Uprave (Board Session), potrebno im je uinkovito indeksiranje i pretraivanje dokumenata, kategoriziranje dokumenata, te Best Bet klasifikacija (Best Bet je smjernica korisnicima, koja ih upuuje na dokumente koje SharePoint Portal Sever smatra posebno vanima za zadano pretraivanje. Best Bet dokument je oznaen kao najbolja preporuka za kategoriju ili pretragu za specifinom kljunom rijei). . eBoard aplikacija bazirana je na Microsoft SharePoint Portal Server-u kao platformi, te je bogata nadopuna u zajednikom radu timova, grupa i cijele organizacije u pogledu laganog pronalaenja, dijeljenja i objavljivanja informacija. Posebnost koju nosi eBoard rjeenje oituje se u vlastitom algoritmu koji omoguuje kontrolu i upravljanje protokom dokumenata meu entitetima ukljuenim u vertikalnu kolaboraciju. Drugim rijeima, eBoard rjeenje, svima koji su ukljueni u pripremu i samo odvijanje "bespapirnih" e-sjednica, tj. u proces donoenja odluka na temelju dokumenata, prua moan alat za ubrzanje, upravljanje, unapreenje i - to je najvanije - pojeftinjenje cjelokupnog procesa.
Web adresa: http://www.ecs.hr/ecs/rjesenja/eboard
30
Odjel za matematiku
Uredsko poslovanje
31
Tvrtka Invaris razvila je sustav koji proizvodi elektronske, interaktivne obrazce bazirane na pravim dokumentima. To znai da sustav omoguava oblikovanje dokumenata u elektronskom obliku sa WYSIWYG (to vidite to dobijete) dizajn alatom. Dokument moete pohraniti na serveru i omoguiti pristup svima, ovisno o korisnikoj autorizaciji. ak i vrlo kompleksnu dokumentaciju moete kreirati bez programiranja. Spremljenu dokumentaciju moete proslijediti workflow sistemu ili u sustav za arhiviranje podataka.
31
Meridio - BCC
sustav je integriran u okruenja Microsoft Windowsa, Office i SharePoint Portala. Prua i uslugu integriranja sustava za upravljanje dokumentima u poslovne aplikacije korisnika. moe pohraniti sve vrste elektronikih dokumenata koje posjeduje neka organizacija, ali i informacije o onim dokumentima koji se ne uvaju u elektronikom obliku. I dokumenti i podaci o dokumentima pohranjuju se na strukturiran i sistematiziran nain, koji omoguuje sigurno pospremanje, potpunu kontrolu pristupa, te brz i jednostavan dohvat ovlatenim korisnicima.
Odjel za matematiku
Uredsko poslovanje
32
Meridio sustav ima nekoliko tipova servera, ovisno o okruenju u kojem se koristi, npr. o proizvodima u koje e se Meridio integrirati, o tomu da li e se koristiti jedno ili vie procesorski posluitelji, o tomu da li e se sve obraivati na jednom posluitelju ili e se rasprostirati na njih nekoliko. Glavni dio sustava Meridio su podaci pohranjeni u dvije usko povezane baze podataka jednu za stvarni sadraj (npr. same dokumente) i razliite indekse za brzi dohvat a drugi za metapodatke, t.j. podatke o pohranjenim dokumentima. Sustav Meridio ima nekoliko tipova klijenata; ovisno o nainu na koji e se pristupati podacima pohranjenim u sustavu. Npr.: Meridio desktop klijent, posebna aplikacija koja se pokree na PC-u. Meridio Outlook klijent, koji omoguuje usku integraciju s Microsoft Outlook-om Meridio Web klijent ovo je zapravo suelje na serveru, koje omoguuje klijentima da dokumentima u sustavu Meridio pristupe preko Web pretraitelja, poput Microsoft Internet Explorer-a. Prilagoeni klijenti posebni klijenti razvijeni za odreenu aplikaciju, obino omoguuju integraciju s ostalim aplikacijama.
Web adresa: http://www.services.bcc.hr/Offerings/Doc&Proc-Management/ComponentsMeridio.htm
32
Literatura
eri, V., Varga, M., ur., Informacijska tehnologija u poslovanju, Sveuilite u Zagrebu, Element, Zagreb, 2004. Sullivan D., Document Warehousing and Text Mining, Wiley Computer Publishing, John Wiley & Sons, Inc., New York, 2001. Goyal Chin A. (Editor), Text Databases and Document Management: Theory and Practice, Wiley, 1996 Sellen, A.J., Harper, R.H.R, The Myth of the Paperless Office, The MIT Press; Reprint edition, 2003. Sutton, M.J.D, Document Management for the Enterprise : Principles, Techniques, and Applications, Wiley, 1996. Craine, K., Designing a Document Strategy, MC2 Books, 2000. Panian, ., Izazovi elektronikog poslovanja, Narodne novine, Zagreb, 2002. Gligori, Z., Kako spreiti zaguenje, Security, br. 10, 2004, http://www.security.org.yu/Reviews%20and%20Previews/DispForm.as px?ID=197, 10.03.2005.
Odjel za matematiku
Uredsko poslovanje
33
33
Softverski alati
Upravljanje informacijama pomou XML-a u programskom paketu Office Professional Edition 2003, http://www.microsoft.com/croatia/office/editions/prodinfo/techologies/ xml.mspx, 01.04.2005. Combis Document Life Cycle http://www.combis.hr/index.php?lang=0&page=article&id=58, 01.04.2005. IBM Lotus Domino Document Manager, http://www.lotus.com/lotus/offering4.nsf/wdocs/domdochome, 11.03.2005. Business.com directory of Document management software, http://www.business.com/directory/computers_and_software/software/ content_and_document_management/, 11.03.2005. Eurocomputer Systems, e-Board rjeenje za pripremu i upravljanje sjednicama, http://www.ecs.hr/ecs/rjesenja/eboard/, 10.03.2005. Meridio BCC, Upravljanje dokumentima i poslovnim procesima, http://www.services.bcc.hr/Offerings/Doc&ProcManagement/Components-Meridio.htm, 10.03.2005.
Odjel za matematiku Uredsko poslovanje 34
34