You are on page 1of 5

VEB MAJNING I JEZICI ZASNOVANI NA XML-u WEB MINING AND LANGUAGES BASED ON XML

Marija Blagojevi1 Milena Stankovi2 1 Tehniki fakultet aak 2 Elektronski fakultet Ni Sadraj-U radu su prikazani jezici zasnovani na XML-u koji se koriste u okviru veb majninga. Kroz osnovne karakteristike svakog od jezika utvruje se prednost jezika zasnovanih na XML-u. Budui rad odnosi se na uporednu analizu pomenutih jezika. Abstract- The paper presents the languages based on XML used in web mining. Through the basic characteristics of each language is determined the advantage of languages based on XML. Future work relates to the comparative analysis of these languages. 1. UVOD XML [1] predstavlja standard za predstavljanje i razmenu informacija na Internetu. XML standard je iroko rasprostranjen i prihvaen u veini razliitih industrija. Veb majning predstavlja koricenje data majning tehnika za ekstrakciju korisnih informacija iz veb podataka. [2] Veb podaci se odnose na: upotrebu veba-http logovi, server logovi,... strukturu veba-linkovi, tagovi,... sadraj veba-tekst, slike,... U radu je dat pregled jezika zasnovanih na XML-u koji se koriste u veb majningu. Cilj je da se kroz pregled jezika zasnovanih na XML-u uvidi njihov znaaj i prednost korienja takvih jezika u veb majningu. 2. LOGML (Log Markup Language) Log Markup Language (LOGML) je aplikacija XML 1.0 dizajnirana da opie log izvetaje sa veb servera. [3] Jedna od najaktuelnijih oblasti veb majninga trenutno podrazumeva majning log fajlova. Majning podataka koji su prikupljeni sa veb servera korisno je za prouavanje izbora potroaa, al ii za nain organizacije veb strana. Analizom log fajlova lako se dolazi do informacija koje strane su najee poseene. Struktura veb sajta se predstavlja preko grafova. Analizom log fajlova mogu se dobiti brojne informacije, predstavljene u obliku izvetaja o browseru koji korisnik koristi, statistici pristupa i aktivnosti. U LOGML-u kreira se novi XML renik koji se koristi za strukturno prikazivanje sadraja, odnosno informacija koje daju log fajlovi. Poto je LOGML XML aplikacija, i LOGML dokumenti moraju biti dobro oblikovani i validni. LOGML dobro oblikova dokument je XML dobro oblikovan dokument koji opisuje log izvetaje sa veb servera. Element logml moe biti koreni element dobro oblikovanog dokumenta. Postoje dva sluaja dobro oblikovanih dokumenata. Prvi sluaj su LOGML dokumenti sa dodatnim prateim elementima koji potiu od subjekta. Drugi sluaj su LOGML dokumenti koji su sadrani u drugim XML dokumentima. Validni LOGML dokumenti su oni koji su u skladu sa LOGML DTD ili LOGML emom. 2.1 STRUKTURA LOGML DOKUMENATA Tipian LOGML dokument ima tri sekcije. Koreni element je logml. Prva sekcija predstavlja graf koji opisuje graf logova pristupa korisnika veb stranama i hiperlinkove. Ova sekcija koristi XGMML da opie graf i ovde je koreni element graph. Druga sekcija daje dodatne informacije vezano za log izvetaje, kao to su najposeeniji hostovi, najee korieni pretraivai, najee koriene kljune rei... Podgrafovi se daju kao lista vorova. Osim vorova, date su i grane koje poseduju tzv. timestamp koji pomae pri izraunavanju ukupne sesije korisnika. Najee korieni atributi u LOGML-u su: id-jedinstveni broj koji slui za identifikaciju elemeneta u LOGML dokumentu name-string koji slui za identifikaciju elemenata u LOGML dokumentu label-tekst reprezentacija LOGML elementa access_count-broj koliko puta je pristupano veb serveru. total_count-ukupan broj koliko se puta odreeni element nalazi u logfajlu bytes-broj download-ovanih fajlova html_pages broj html strana koji je zahtevan od veb servera.

Elementi druge sekcije su: hosts, host domains, domain directories, directory userAgents, userAgent referers, referer hostReferers, hostReferer

keywords, keyword summary httpCode httpMethod httpVersion dateStat, monthStat, dayStat and hourStat

Trea sekcija LOGML dokumenta moe sadrati neki od sledeih elemenata: userSessions, userSession path uedge

Slika 1: Web Usage Mining Architecture [4] su dobar uzbor jer moe sadrati strukturne informacije o veb sajtu. Ovaj jezik je zasnovan na XML-u i moe biti korien u kombinaciji sa drugim markup jezicima za opisivanje grafova. 3.1 STRUKTURA XGMML DOKUMENATA XGMML document opisuje strukturu grafa. Koreni element je graf i moe sadrati vor, grane ili att elemente. Dodatne informacije za graf, vorove i grane moe biti dodat korienjem att elementa. Element graphics moe biti ukljuen u element vora ili grane i taj element opisuje grafiku reprezentaciju vorova ili grana. Dobro oblikovani XGMML dokumenti su XML dobro oblikovani dokumenti koji opisuju graf, vorove i grane. Element graph moe biti koreni element XGMML dobro oblikovanog dokumenta. Postoje dva sluaja dobro oblikovanih dokumenata. Prvi sluaj su XGMML dokumenti sa dodatnim prateim elementima koji potiu od subjekta. Drugi sluaj su XGMML dokumenti koji su sadrani u drugim XML dokumentima. Validni XGMML dokumenti su oni koji su u skladu sa XGMML DTD ili XGMML emom. Sledi primer grafa sa jednim vorom: <?xml version="1.0"?> <!DOCTYPE graph PUBLIC "-//John Punin//DTD graph description//EN"

Slika 2: Prikaz elementa att u XML Spy 3. XGMML (Extensible Graph Markup and Modeling Language) Neka je dat graf G = (V, E), gde je V skup vorova, i E skup grana. Jedan od najboljih naina za opis strkture veba je graf, gde su veb strane vorovi, a linkovi su grane. [5] Jedan od najboljih naina da se opie struktura veba je da se koristi struktura grafa, a samim tim i XGMML dokumenti

"http://www.cs.rpi.edu/~puninj/XGMML/xgm ml.dtd"> <graph directed="1" id="2"> <node id="1" label="Node 1"/> </graph> Sledei XGMML dokument opisuje graf sa dva vora i jednom granom. <?xml version="1.0"?> <!DOCTYPE graph PUBLIC "-//John Punin//DTD graph description//EN" "http://www.cs.rpi.edu/~puninj/XGMML/xgm ml.dtd"> <graph directed="1" id="5"> <node id="1" label="Node 1"/> <node id="2" label="Node 2"/> <edge source="1" target="2" label="Edge 1"/> </graph> Sledei primer je graf unutar XHTML dokumenta: <?xml version="1.0" encoding="UTF-8"?> <html xmlns="http://www.w3.org/1999/xhtml" xmlns:xsi="http://www.w3.org/1999/XMLSch ema/instance" xmlns:xgmml="http://www.cs.rpi.edu/XGMML " xsi:schemaLocation="http://www.w3.org/19 99/Style/Transform http://www.w3.org/1999/Style/Transform/x slt.xsd http://www.w3.org/1999/xhtml http://www.w3.org/1999/xhtml/xhtml.xsd http://www.cs.rpi.edu/XGMML http://www.cs.rpi.edu/~puninj/XGMML/xgmm l.xsd" xml:lang="en"> <head> <title>Graph Information</title> </head> <body> <!-- XHTML Document here --> <xgmml:graph directed="1" graphic="1" Layout="points">

<xgmml:node id="1" label="1" weight="0"> <xgmml:graphics type="circle" x="250" y="90" /> </xgmml:node> <xgmml:node id="2" label="2"weight="0"> <xgmml:graphics type="circle" x="190" y="150" /> </xgmml:node> <xgmml:edge source="1" target="2" weight="0" /> </xgmml:graph> <!-- XHTML Document here --> </body> </html>

3.2 XGMML i GML XGMML je zasnovan na GML-u (Geography markup language). GML je moan jezik korien u mnogim softverskim aplikacijama da opie strukturu grafova. XGMML koristi sve tagove GML-a i jo nekoliko dodatnih. Konverzija GML deskripcije u XGMML je jednostavna. GML deskripcija je kolekcija parova klju-vrednost. Klju se odnosi na identifikatore kao to su graph, node, edge a vrednosti mogu biti brojevi, stringovi ili lista parova kljuvrednosti. GML podrazumeva da su kljuna imena sigurna ili nesigurna. Nesigurna kljuna imena su ona koja programi odbacuju kada se pojavi promena u grafu. Ona mogu biti prepoznata po tome to poinju velikim slovom. Pravilo je ugraeno u XGMML. XGMML atributi su klasifikovani kao sigurni i nesigurni atributi. 3.3. XGMML I LOGML XGMML je XML aplikacija koja opisuje grafove. Veb sajt se moe opisati kao graf gde su veb strane vorovi i hiperlinkovi grane. Korisnike posete web stranama i/ili korisnika korienja hiperlinkova mogu biti predstavljena veb grafom gde vorovi i grane sadre broj poseta. Korisnike posete su podgrafovi veb grafa gde je sauvano i vreme posete. LOGML dokument sadri veb graf iji su vorovi veb strane koje su poseene najmanje jednom i ije su grane hiperlinkovi preko kojih su korisnici proli bar jednom. Ovakav graf se zove log graf. Ostatak LOGML fajla je uzvetaj o dodatnim informacijama, kao to je najvie korien browser, najee koriene kljune rei LOGML koristi XGMML za opis log grafova i dodaje attribute vorovima i granama da se sauvaju informacije kao to je broj pogodaka.

4. PMML PMML (Predictive Model Markup Language) [6] pisuje data majning modele preko XML-a koji je univerzalan format za struktuirane dokumente. PMML definie razliite modele majninga kao to su klasifikacija, vetake neuronske mree, regresija,... Struktura modela opisuje se XML emom. U jednom PMML dokumentu moe biti sadrano jedan ili vie modela za majning. PMML dokument je XML dokument gde je koreni element tipa PMML. Sledi prikaz generalne strukture PMML dokumenta. <?xml version="1.0"?> <PMML version="4.0" xmlns="http://www.dmg.org/PMML-4_0" xmlns:xsi="http://www.w3.org/2001/XMLSchemainstance" > <Header copyright="Example.com"/> <DataDictionary> ... </DataDictionary> ... model ... PMML prati intuitivnu strukturu kako bi opisao data majning model, bez obzira da li se radi o vetakim neuronskim mreama ili regresionom modelu.

Renik podataka-sadri definicije za sva mogua polja koja model koristi. Transformacija podataka-omoguava mapiranje korisnikih podataka u poeljnije forme koje koristi majning model. PMML definie vie vrsta transformacija podataka (normalizacija, mapiranje vrednosti, funkcije, agregacija...) PMML format ima brojne prednosti, kako za istraivae, tako i za komercijalne korisnike: omoguava reavanje razliitih zadataka data majninga sa razliitim alatima. Osim toga, modele je jednostavno editovati i u najjednostavnijim tekst editorima. Najvea prednost PMML-a je sposobnost reprezentovanja transformacije podataka u konjukciji sa samim modelom. PMML ema sadri mehanizam za proirivanje sadraja modela. Element extension treba da se predstavi kao prvi element u svim elementima i grupama definisanim u PMML-u. Na ovaj nain je mogue smestiti informacije u exstension element koji utie na ulaze koji su tretirani. Glavni element svakog modela ima exstension element. <xs:element name="Extension"> <xs:complexType> <xs:complexContent mixed="true"> <xs:restriction base="xs:anyType"> <xs:sequence> <xs:any processContents="skip" minOccurs="0" maxOccurs="unbounded"/> </xs:sequence> <xs:attribute name="extender" type="xs:string" use="optional"/> <xs:attribute name="name" type="xs:string" use="optional"/> <xs:attribute name="value" type="xs:string" use="optional"/> </xs:restriction> </xs:complexContent> </xs:complexType> </xs:element> Tip elementa mora poeti sa X. Ovakva konvencija pomae da se izbegnu konflikti sa moguim buduim proirenjima standarda MML. Proirenje takoe karakteriu atributi name i value da se specifikuju jedinstvena proirenja atributa, gde e ime specifikovati ime proirenja i value odgovarajuu vrednost. Jedan od glavnih ciljeva za Predictive Model Markup Language (PMML) je olakavanje razmene modela iz jednog okruenja u drugo. Na primer, model razvijen jednim alatom moe biti transformisan preko PMML-a u drugi alat. Ili, model moe biti dokumentovan u PMML-u id at drugima na pregled, arhiviranje,

Slika 3: PMML komponente [7] Komponente PMML-a su: Zaglavlje-sadri generalne informacije o PMML dokumentu, njegov opis i informacije o aplikaciji koja je koriena da se generie model. Osim toga, sadri i atribut koji moe da specifikuje vreme kreiranja modela.

Razmena prediktivnih modela izmeu razliitih proizvoda ili okruenja zahteva razumevanje PMML specifikacije. Razumevanje specifikacije mora biti najmanje savreno, naroito zbog toga to PMML sadri preko 700 jezikih elemenata. Rezultat su, ak iako je PMML specifikacija detaljna, modeli definisani u PMML-u koji su veoma razumljivi od korisnika do korisnika. Svrha PMML interoperatibilnosti je jednostavna: Kreatori PMML modela su eleli da budu sigurni da e njihovi modeli modeli biti adekvatno razvijani. Slino, korisnici PMML modela ele da budu sigurni da e se PMML interpretirati kao dobro oblikovan. Da bi PMML funkcionisao, obe strane (i kreatori i korisnici) treba da se pridraavaju svog dela ugovora: Kreatori treba da generiu validan PMML Prema datom validnom modelu korisnici treba da razvijaju precizan model

LITERATURA [1] Extensible Markup Language (XML), http://www.w3.org/XML/, poslednji pristup 19.1.2010. [2] Srivastava J., Web Mining: Accomplishments & Future Directions http://www.ieee.org.ar/downloads/Srivastava-tut-pres.pdf, poslednji pristup 19.1.2010. [3] LOGML (Log Markup Language) http://www.cs.rpi.edu/~puninj/LOGML/, poslednji pristup, 19.1.2010. [4] Punin J., Krishnamoorthy M., Zaki M, Web Usage Mining - Languages and Algorithms http://www.cs.rpi.edu/~puninj/LOGML/TR01-3.pdf, poslednji pristup, 19.1.2010. [5] Punin J., Krishnamoorthy M., Zaki M., LOGML and XGMML - XML Languages for Web Characterization and Web Data Mining http://www.cs.rpi.edu/~puninj/WWW10/logml_paper.html, poslednji pristup, 19.1.2010. [6] PMML 4.0 - General Structure of a PMML Document http://www.dmg.org/v4-0/GeneralStructure.html, poslednji pristup, 19.1.2010. [7] http://knol.google.com/k/-//3pz0mz6zvkz16/74ajfe/rpmmlfig1.png, poslednji pristup, 19.1.2010

5. ZAKLJUAK Veb majning je nova tehnologija koja se brzo razvija. Imajui u vidu raznovrsnost zadataka veb majninga teko je doi do generalizacije primenljivih standarda u ovoj oblasti. U radu su izloeni jezici zasnovani na XML-u koji se primenjuju u okviru veb majninga. Kroz karakteristike pomenutih jezika uoavaju se i njihove prednosti: univerzalnost i fleksibilnost. Dalji rad odnosi se na uporednu analizu jezika zasnovanih na XML-u koji se koriste u veb majningu.

You might also like