You are on page 1of 5

ALATI ZA Mining - WEB Data Mining TOOLS

TA JE WEB Data Mining?

Web data mining, takoer poznat kao ekran struganje, web struganje i vaenje podataka koristi
softver i alate za izdvajanje podataka iz izvora koji nisu formatirane da se koristi kao automatizirani
izvora podataka. Veina web informacija dolazi iz web stranice, esto u obliku HTML koji je oblikovan
za ljudsko bie za itanje, a ne kompjuter. Ovo predstavlja prepreke za automatizirani sistem, kao to
su ugraeni slike, multimediju, ili formatiranje elemente koji nisu dio eljeni tekst (koji e biti
analizirani).

Odakle WEB Data Mining doao?

Web data mining je izrastao iz velike koliine podataka slobodno dostupan na web. Prije data mining
postaje samostalni zadatak, poslovni analitiari i statistiari izvaeni i analizirani skupova podataka.
Meutim, veliki obim i tehnike prirode podataka iziskivao stvaranje data mining alata posebno
dizajniran za web data mining.

KAKO E WEB Data Mining KORISTI moj posao?

Ako elite saznati vie o svojim kupcima i kada i kako napraviti kupovinu, web data mining moe
pomoi. Ono to razlikuje poslovne stranice posjetitelji koji itaju lanke i prei na sledeu lokaciji, od
stranice posjetitelji koji kupe svoje robe i usluge? Moete pretraivati podatke prometa na web
stranici Drutva, ili sastavljen u bazi podataka da biste saznali kada osoba ini kupovinu. Odakle
dolaze i koje stranice Vae web lokacije su od interesa za njih? Ovo su neke od stvari koje moete
kopa od vaih podataka.

Web data mining se moe koristiti za izdvajanje podataka iz drugih u industriji, kao to su cjenici i
korisnike podatke.

Kada web informacije se prikupljaju se moe koristiti za poboljanje vae marketinke rezultate. Vaa
kompanija moe napraviti obrazovani odluke o tome kakav kontakt da se sa kupcem, kada i na koji
formatu. Pravila se mogu kreirati koju vrstu podataka da se okupe, kako je organizovana, i kako se
procjenjuje. Moete odluiti da li je vjerojatno da e kupac napraviti kupovinu nakon to je
kontaktirao putem e-maila, ili pu mail ili telefon na osnovu informacija koje ste minirana.

Gdje mogu pronai ove alate za MINING?

Web data mining alati su u izobilju. A veina proizvoaa nudi demo, freeware ili oboje e vam
pomoi da se utvrdi koji alat za rudarstvo su najbolje za vae poslovanje.
Za popis web data mining alata proizvoaa, pokuajte DMOZ. Kdnuggets takoer ima listu, koji se
nalazi u kategoriji komercijalne ili besplatno.

Dva proizvoaa vrlo dobro poznat industriji su SAS i Cognos. I nikada ne propustiti na vrue trite,
Microsoft ima analyticaproduct kao dobro. Iskoristite besplatno suenja za data mining alata
pokuavajui vie od jednog prije nego to odlui.

2.

koritenje Web mining [uredi]

Web upotrebe Mining je primjena data mining tehnike otkriti zanimljiv nain koritenja iz web
podataka, kako bi se shvatiti i bolje sluiti potrebe aplikacija na Webu. podatke o upotrebi snima
identitet ili porijekla web korisnika, zajedno sa svojim ponaanjem pretraivanja na web lokaciji.

koritenje web rudarstva sama se dalje mogu klasifikovati u zavisnosti od vrste podatke o upotrebi
smatraju:

Web Server podataka: korisnik prijavi se prikupljaju od strane web servera. Tipini podaci ukljuuju IP
adresu, stranica referentne i pristup vremena.

Application Server Data: Poslovni aplikacijski posluitelji imaju znaajne funkcije koje omoguuju
aplikacijama e-trgovine da se gradi na vrhu njih uz malo truda. Kljuna karakteristika je mogunost
praenja razliitih vrsta poslovnih dogaaja i da ih se prijavite u aplikaciju posluitelja za rezanje.

Application Data Level: Nova vrsta dogaaja moe se definirati u aplikaciji, a sjee mogu biti
ukljuena za njih na taj nain stvaranje povijesti ovih posebno definirane dogaaja. Treba
napomenuti, meutim, da mnogi kraj aplikacije zahtijevaju kombinaciju jednog ili vie od tehnika koje
se primjenjuju u kategorijama gore.

Studije koje se odnose na rad [. Weichbroth et al] su zabrinuti sa dva podruja: ogranienje-based
data mining primjenjuje u Web Upotreba rudarstva algoritama i razvila softverski alati (sistemi).
Costa i Seco pokazala da web log rudarstvo moe se koristiti za izdvajanje semantikih informacija
(hyponymy odnosi posebno) o korisniku i datoj zajednici.

Prednosti [uredi]

Web upotreba rudarstvo u sutini ima mnogo prednosti to ini ovu tehnologiju privlanom za
korporacije, ukljuujui i vladine agencije. Ova tehnologija je omoguila e-commerce uiniti
personalizirane marketing, to je na kraju rezultira volumena vei trgovini. Vladine agencije koriste
ovu tehnologiju za klasifikaciju prijetnji i borbu protiv terorizma. U predvianje sposobnost rudarstva
aplikacije mogu imati koristi drutvu identifikaciju kriminalnih aktivnosti. Kompanije mogu uspostaviti
bolji odnos kupaca dajui im ono to im je potrebno. Kompanije mogu razumjeti potrebe kupaca
bolje i oni mogu reagirati na potrebe kupaca bre. Kompanije moete pronai, privui i zadrati
kupce; oni mogu utedjeti na trokovima proizvodnje koritenjem steenih uvida zahtjeva kupaca.
Oni mogu poveati profitabilnost ciljane cijene na osnovu profila stvorio. Oni mogu ak i pronai
kupca koji bi default na konkurenta kompanija e pokuati zadrati kupca pruajui promotivne
ponude na specifine kupca, ime se smanjuje rizik od gubitka kupaca ili klijenata.

Cons [uredi]

Web koritenje rudarstva samo po sebi ne stvara probleme, ali ova tehnologija kada se koriste na
podacima line prirode moe izazvati zabrinutost. Najvie je kritikovao etiko pitanje koje ukljuuju
koritenje web rudarstvo je zadiranje u privatnost. Privatnost se smatra izgubljen kada se dobiva
informacije koje se tiu pojedinca, koristi, ili distribuirati, pogotovo ako se to dogodi bez njihovog
znanja ili pristanka. [1] Dobiveni podaci e biti analizirani, a klaster da formiraju profilima; podaci e
biti anoniman prije grupisanje, tako da nema lini profile. [1] Tako ovih aplikacija de-individualizuju
korisnicima ih sudei po njihovim klikova miem. De-individualizacije, moe se definirati kao sklonost
prosuivanja i lijeenje ljudi na osnovu grupe karakteristika umjesto na svoje individualne
karakteristike i meritumu. [1]

Jo jedna vana stvar je da kompanija prikupljanje podataka za odreenu svrhu mogu koristiti
podatke za potpuno drugaiju svrhu, a to u osnovi kri interese korisnika.

Rastui trend prodaje osobnih podataka kao roba ohrabruje vlasnike web stranica za trgovinu linim
podacima iz njihovih stranica. Ovaj trend je poveala koliinu podataka koji se zarobljen i trguje
poveanje verovatnou neije privatnosti napadaju. Kompanije koje kupuju podaci su duni da to
anonimno i ove kompanije smatraju autori bilo koje specifine oslobaanje rudarstva obrazaca. Oni
su zakonski odgovorni za sadraj oslobaanja; bilo kakve netonosti u saoptenju e dovesti do
ozbiljnih tubi, ali ne postoji zakon koji ih spreava trgovanje podataka.

Neki rudarstva algoritmi mogu koristiti kontroverzni atribute kao to su spol, rasa, religija, ili
seksualnoj orijentaciji za kategorizaciju pojedinaca. Ove prakse mogu biti protiv zakona o zabrani
diskriminacije. [2] Prijave ine ga teko identificirati koritenje takvih kontroverznih atributa, a ne
postoji jaka pravilo protiv upotrebe takvih algoritama s takvim atributima. Ovaj proces moe dovesti
do uskraivanja usluga ili privilegija pojedinca na osnovu svoje rase, vjere ili seksualne orijentacije.
Sada se ova situacija moe se izbjei na visoke etike standarde odrava podacima rudarske
kompanije. Prikupljeni podaci se anonimni, tako da, dobijeni podaci i dobijeni obrasci ne moe pratiti
unazad do pojedinca. To moe izgledati kao da ovo ne predstavlja opasnost za neije privatnosti,
meutim, dodatne informacije mogu se izvesti primjenom kombinovanjem dva odvojena
beskrupulozni podataka od korisnika.

Web struktura rudarstvu [uredi]

[Ikona] Ovo poglavlje treba proirenje. Moete pomoi tako to ete ga. (Lipanj 2015.)

Web struktura mining je proces pomou teorije grafova za analizu strukture vora i povezivanje web
stranice. Prema vrsti web strukturnih podataka, web struktura rudarstvo moe se podijeliti u dvije
vrste:

Izdvajanje obrazaca iz hiperveze u web: hipervezu je strukturna komponenta koja povezuje web
stranice na drugu lokaciju.

Rudarstvo strukture dokumenta: analiza strukture stabla nalik stranice struktura za opisivanje HTML
ili koritenje XML oznaka.

Web struktura rudarstvo terminologije:

web grafikonu: usmjereni graf predstavlja web.

vor: web stranice u grafikonu.

ivica: hiperveze.

u stupanj: broj linkova koji upuuju na odreene vor.

out stepen: Broj linkova generira iz odreenih vora.

Tehnike web strukture rudarskih:

PageRank: ovaj algoritam se koristi Google za rangiranje rezultata pretrage. Ime ovog algoritma daje
Google-osnivaa Larry Page. Na rang stranice je odluio po broju linkova koji upuuju na cilj vor.

Web sadraja rudarstvu [uredi]

Web sadraja rudarstvo je rudarstvo, vaenje i integracija korisnih podataka, informacija i znanja iz
sadraja web stranice. Heterogenosti i nedostatak strukture koja omoguava mnogo stalno iri izvora
informacija o World Wide Web, kao to su hipertekst dokumenata, ini Automated otkrie,
organizacija, i traenje i indeksiranje alata Interneta i World Wide Web, kao to su Lycos , Alta Vista,
Webcrawler, to je ALIWEB, MetaCrawler, a drugi daju neke udobnost korisnicima, ali oni obino ne
pruaju strukturne informacije niti kategorizirati, filter, ili tumae dokumenata. U posljednjih nekoliko
godina ovi faktori su upitani istraivaima da razviju inteligentne alate za pronalaenje informacija,
kao to su inteligentni web agenti, kao i da se proiri tehnike baze podataka i data mining da prui vii
nivo organizacije za polu-strukturiranih podataka dostupni na webu. Pristup agent-based web
rudarstvu ukljuuje razvoj sofisticiranih AI sistema koji mogu djelovati samostalno ili polu-samostalno
u ime odreenog korisnika, da otkriju i organizirati informacije web-based.

Web sadraja mining se razlikuje od dva razliita gledita:. [3] Information Retrieval pregled i baza
View [4] saeti istraivakih radova uinio za nestrukturiranih podataka i polu-strukturiranih
podataka iz pronalaenje informacija na more. To pokazuje da je veina istraivanja koriste torba
rijei, koji se zasniva na statistici o jednoj rijei u izolaciji, da predstavlja nestrukturiranih tekst i uzeti
jednu rije nai u korpusu obuku funkcije. Za polu-strukturiranih podataka, sve radove koriste HTML
strukture unutar dokumenata i neke koristi struktura hiperveza izmeu dokumenata za zastupanje
dokument. to se tie prikaz baze podataka, kako bi se bolje upravljanje informacijama i upite na
web, rudarski uvijek pokuava zakljuiti strukturu web stranice za pretvaranje web stranice da
postane baza podataka.

Postoji nekoliko naina za predstavljanje dokumenata; vektorski model prostor se obino koristi.
Dokumenti predstavljaju cijeli vektorski prostor. Ova reprezentacija ne shvate vanost rijei u
dokumentu. Da biste rijeili ovaj, uvodi TF-IDF (pojam frekvencije Times Inverse Dokument
frekvencija).

Multi-skeniranje dokumenata, moemo implementirati odabir funkcija. Pod uvjetom da je rezultat


kategoriju rijetko pogoena, potrebno je vaenje funkcije podskup. Opti algoritam je izgradnja
funkcije vrednovanja za procjenu funkcije. Kao skup funkcija, Informacije Gain, Cross Entropija,
Mutual informacije, i odds ratio se obino koriste. Metode klasifikatora i analiza obrasca teksta data
mining su vrlo slina tradicionalnim tehnikama data mining. Uobiajeni evaluativna zasluge su
klasifikacija tanost, preciznost, povrat i informacije Score.

Web mining je vana komponenta sadraja cjevovoda za web portala. Koristi se u potvrdu podataka i
provjeru valjanosti, integritet podataka i izgradnja taksonomije, upravljanje sadrajem, generacija
sadraja i miljenje rudarstvo. [5]

Web mining na stranim jezicima [uredi]

Treba napomenuti da je jezik kod kineskih injenica je veoma komplikovano u odnosu na taj
engleskog jezika. GB kod, BIG5 kod i HZ kod su uobiajene kineske rijei kodova u web dokumentima.
Prije tekst rudarstvo, potrebno je identificirati kod standard HTML dokumenata i pretvoriti ga u
unutarnji kod, a zatim koristiti druge tehnike data mining pronai korisne znanja i korisne obrasce.

http://www.octoparse.com/blog/7-web-mining-tools-around-the-web/

You might also like