Professional Documents
Culture Documents
Descrierea problemei
Notiuni fundamentale
Discutii
Bibliografie
1/ 24
Notiuni recapitulative
Descrierea problemei
Notiuni fundamentale
Discutii
Bibliografie
Cuprins
1
Notiuni recapitulative
Descrierea problemei
Notiuni fundamentale
Definitii
Discutii
2/ 24
Notiuni recapitulative
Descrierea problemei
Notiuni fundamentale
Discutii
Bibliografie
Recapitulare grafuri
Completati definitiile
1
Un graf reprezinta ... . Pentru un graf, se defineste gradul unui nod ca fiind
... .
3/ 24
Notiuni recapitulative
Descrierea problemei
Notiuni fundamentale
Discutii
Bibliografie
4/ 24
Notiuni recapitulative
Descrierea problemei
Notiuni fundamentale
Discutii
Bibliografie
Definitii
Definitii
Graph Mining
Analiza structural
a (sau analiza datelor de structur
a eng: structure mining
sau structured data mining ) reprezinta acea metoda de analiza a datelor ce se
axeaza pe modul de organizare a seturilor de date. Graph Mining (analiza
grafurilor ) reprezinta un caz particular de analiza structurala.
Tipuri de analiz
a a grafurilor [6]
axate pe obiecte (v
arfuri)
axate pe leg
aturi (muchii)
ierarhizarea obiectelor
predictia existentei unor link-uri
clasificarea obiectelor
predictia tipului de link
clusterizarea obiectelor
predictia numarului de link-uri
identificarea unui anumit obiect
axate pe grafuri n ansamblu
identificarea subgrafurilor frecvente
clasificarea grafurilor
RIWeb 2014 2015/C11: Web Mining: Tehnici Graph Mining
5/ 24
Notiuni recapitulative
Descrierea problemei
Notiuni fundamentale
Discutii
Bibliografie
Definitii
Data fiind o retea sociala, care este cel mai popular membru al retelei?
6/ 24
Notiuni recapitulative
Descrierea problemei
Notiuni fundamentale
Discutii
Bibliografie
Definitii
Definitii (2)
Site director
Site-ul director (hub) reprezinta acel tip de site/pagina web ce furnizeaza un
numar foarte mare de legaturi catre pagini considerate relevante din punct de
vedere al informatiei.
Site autoritate
Site-ul autoritate reprezinta acel tip de site/pagina web ce contine informatii
relevante pentru domeniul pentru care a fost dezvoltat.
7/ 24
Notiuni recapitulative
Descrierea problemei
Notiuni fundamentale
Discutii
Bibliografie
8/ 24
Notiuni recapitulative
Descrierea problemei
Notiuni fundamentale
Discutii
Bibliografie
9/ 24
Notiuni recapitulative
Descrierea problemei
Notiuni fundamentale
Discutii
Bibliografie
Algoritmul PageRank
Algoritmul PageRank
Generalitati
Familie de algoritmi orientati pe asignarea de valori numerice ponderate
pentru paginile WEB n vederea obtinerii unor informatii de tip relevanta.
Algoritmii au fost dezvoltati de Larry Page si Sergey Brin 1998.
Corelati cu alte metrici, sunt la baza motorului de cautare Google n
determinarea relevantei/importantei unei pagini.
PageRank marca nregistrata a Google.
Procesul PageRank patent atribuit Universitatii Stanford
10/ 24
Notiuni recapitulative
Descrierea problemei
Notiuni fundamentale
Discutii
Bibliografie
Algoritmul PageRank
11/ 24
Notiuni recapitulative
Descrierea problemei
Notiuni fundamentale
Discutii
Bibliografie
Algoritmul PageRank
Scenariu 1
Avem o subpartitie din WEB formata din
4 documente WEB primul document
este referit de toate celelalte.
Formula de calcul
PR(A) = PR(B) + PR(C ) + PR(D) (1)
12/ 24
Notiuni recapitulative
Descrierea problemei
Notiuni fundamentale
Discutii
Bibliografie
Algoritmul PageRank
Scenariu 2
Avem o subpartitie din WEB formata din
4 documente WEB legaturile dintre
pagini sunt date de Figura 2.
Formula de calcul
Ecuatia (1) devine:
PR(A) =
PR(B)
PR(D)
+PR(C )+
(2)
2
3
13/ 24
Notiuni recapitulative
Descrierea problemei
Notiuni fundamentale
Discutii
Bibliografie
Algoritmul PageRank
X PR(P)
,
LC (P)
(3)
PA
unde: LC (P) indica numarul de legaturi ce pleaca din pagina P (gradul exterior al
nodului P).
Considerente suplimentare
Un vot indirect are un coeficient de ncredere mai sc
azut decat un vot
direct, deci voturile sunt transferate dupa un anumit coeficient d numit
factor de amortizare.
Nivelul initial de ncredere este acelasi pentru toate paginile: 1d.
RIWeb 2014 2015/C11: Web Mining: Tehnici Graph Mining
14/ 24
Notiuni recapitulative
Descrierea problemei
Notiuni fundamentale
Discutii
Bibliografie
Algoritmul PageRank
X PR(P)
LC (P)
(4)
PA
Observatii:
Parametrul PageRank (PR) este un parametru dinamic.
In conditiile n care toate paginile analizate primesc initial o aceeasi valoare a
PR, daca PR se recalculeaza permanent pentru toate paginile indexate,
atunci valorile PR vor tinde spre stabilizare.
15/ 24
Notiuni recapitulative
Descrierea problemei
Notiuni fundamentale
Discutii
Bibliografie
Algoritmul PageRank
16/ 24
Notiuni recapitulative
Descrierea problemei
Notiuni fundamentale
Discutii
Bibliografie
Algoritmul PageRank
X PR(P)
q
+ (1 q)
,
N
LC (P)
(5)
PA
unde
N reprezinta numarul total de pagini din multimea de lucru.
17/ 24
Notiuni recapitulative
Descrierea problemei
Notiuni fundamentale
Discutii
Bibliografie
Algoritmul PageRank
...
...
...
q
N
18/ 24
Notiuni recapitulative
Descrierea problemei
Notiuni fundamentale
Discutii
Bibliografie
Algoritmul PageRank
PR(p1 )
PR(p2 )
R=
...
PR(pN )
l(pi , pj ) reprezinta functia de adiacenta:
(
0, daca pagina pj nu indica pagina pi
l(pi , pj ) = PN
i=1 l(pi , pj ) = 1
19/ 24
Notiuni recapitulative
Descrierea problemei
Notiuni fundamentale
Discutii
Bibliografie
Algoritmul HITS
Algoritmul HITS
Generalitati
Algoritmul a fost dezvoltat de Kleinberg, n 1998.
Denumirea completa: Hypertext Induced Topic Search
SCOP: determinarea site-urilor autoritate si a celor de tip director pe un
anumit subdomeniu, prin analiza unei subpartitii a WEB-ului.
Principiul algoritmului
Site-urile director (hub-uri) indica mai multe autoritati.
Autoritatile sunt referite de mai multe site-uri director.
20/ 24
Notiuni recapitulative
Descrierea problemei
Notiuni fundamentale
Discutii
Bibliografie
Algoritmul HITS
Scopul algoritmului
Algoritmul analizeaza structura subgrafului S determinat de o anumita
interogare pentru a identifica site-urile director si pe cele autoritate incluse
n S.
Subgraful S se construieste astfel:
fie R multimea de pagini rezultat pentru o anumit
a interogare;
initial: S R;
se adaug
a la S toate paginile indicate de pagini incluse n R;
se adaug
a la S toate paginile care indic
a pagini incluse n R.
21/ 24
Notiuni recapitulative
Descrierea problemei
Notiuni fundamentale
Discutii
Bibliografie
Algoritmul HITS
Initial: ap = hp = 1
Actualizarea vectorilor a si h se realizeaza conform ecuatiilor de mai jos:
ap =
hq
(7)
aq
(8)
q:qp
hp =
X
q:pq
22/ 24
Notiuni recapitulative
Descrierea problemei
Notiuni fundamentale
Discutii
Bibliografie
Discutii
Problema
Fara a calcula efectiv, care sunt, conform ecuatiei (4), valorile PageRank pentru 2
pagini ce se indica una pe alta?
23/ 24
Notiuni recapitulative
Descrierea problemei
Notiuni fundamentale
Discutii
Bibliografie
Bibliografie
1
Robert Sanderson, Data Mining [note de curs Graph Mining, Web Mining],
Dept. of Computer Science, University of Liverpool, 2008
24/ 24