PageRank : un aperçu

Fabien Mathieu

Séminaire UCL - 22 février 2005

1/31

Plan
     Introduction : graphes du Web Principes de PageRank Variations PageRank amorti Convergences quantitatives

Séminaire UCL - 22 février 2005

2/31

Les sites : une réalité structurelle
 Graphe du Web = pages + hyperliens  Matrice d’adjacence d’un graphe du Web :
(

M   mi;j  i;j 

mi;j  

i 

j

 Visuellement, c’est joli…  …et les sites apparaissent clairement
Séminaire UCL - 22 février 2005 3/31

Exemple

Séminaire UCL - 22 février 2005

4/31

PageRank
Théorie & pratique

Séminaire UCL - 22 février 2005

5/31

S’orienter dans le Web
 Web : masse « infinie » d’information  Besoin d’outils de recherche
– Manuels : annuaires ! capacité de traitement limité – Automatiques : moteurs ! nécessité de trier les données

Séminaire UCL - 22 février 2005

6/31

Méthodes de tri
 Importance sémantique : pertinence
– – – Indexation Basée sur une requête (mots-clés) Manipulable (spamming : abus de mots-clés)

 Importance structurelle : PR, HITS…
– Basée sur les hyperliens – Indépendante du contenu

 

Méthodes hybrides : TSPR , OPIC… Autres ? Problème du secret industriel
Séminaire UCL - 22 février 2005 7/31

PageRank
 Introduit en 1998 avec Google  L’importance P d’une page vient de l’importance des pages qui la réfèrent  Chaque page doit avoir une importance  Si G=(V,E) est un graphe du Web (V : pages Web ; E : hyperliens)
P  w 8v 2 V  P  v   w w! v
Séminaire UCL - 22 février 2005

X

8/31

Une double interprétation
 Distribution d’importance (flot)
– Chaque page possède une certaine importance P(v) – L’importance est diffusée par les hyperliens

 Modèle du surfeur aléatoire –PageRank des parcourt sans cesse le Web PageRank Le surfeur aléatoire en cliquant au hasard d’une page v pages qui – En choisissant kP k   , P est la probabilité de pointentasymptotique (si elle existe) sur v présence

A P

t

P

Séminaire UCL - 22 février 2005

9/31

Cas de convergence : théorème de Perron-Frobenius (1912)
 On suppose G fortement connexe apériodique  Soit A la matrice stochastique associée 8  > < i ! j A   ai;j  i;j 2V  ai;j   i > :    Alors 1 est valeur propre maximale simple et unique  P est solution de P  A tP  Convergence vers le point fixe P par itérations successives : P n   A tP n  Interprétation : chaîne de Markov
Séminaire UCL - 22 février 2005 10/31

Modèle idéal et graphe réel
 Il existe plusieurs composantes fortement connexes (cfc) dont des pages sans lien

Séminaire UCL - 22 février 2005

11/31

Réduction de A
   On regroupe les sommets par cfc On respecte l’ordre partiel sur les cfc A est alors triangulaire par bloc
0 B B B A B B  B @

T R    

E ¢¢¢                ¢¢¢  Rd

1 C C C C C C A

Séminaire UCL - 22 février 2005

12/31

Convergence du processus itératif
 Les cfc récurrentes (hors feuilles) sont :
– Stables – Stochastiques – Irréductibles

 Les feuilles sont nulles  Les cfc transitoires sont strictement sousstochastiques  On va donc observer une projection sur les cfc récurrentes
Séminaire UCL - 22 février 2005 13/31

Trouver un PageRank unique et strictement positif
Rendre la matrice A irréductible

Séminaire UCL - 22 février 2005

14/31

Renormalisation (méthode de la puissance)
A tP n  Qu’apporte P n   ? tP nk kA 

 Rien s’il existe des cfc récurrentes  Le filtre des cfc transitoires maximales sinon  Pas intéressant
Séminaire UCL - 22 février 2005 15/31

Complétion stochastique
 À cause des feuilles, il existe un défaut stochastique s   n ¡ A : n  Ce défaut peut être redirigé A  A  s:Z t  Z : distribution recouvrante  Si pas de cfc récurrente, c’est gagné  Sinon, c’est perdu !!!

Séminaire UCL - 22 février 2005

16/31

Choix de Z
   Interprétation : comportement par défaut Importance du caractère recouvrant Nombreuses possibilités :
– Distribution uniforme (standard) – Distribution sur les pages d’accueil – Personnalisation sémantique – Personnalisation commerciale

Séminaire UCL - 22 février 2005

17/31

Facteur d’amortissement

Séminaire UCL - 22 février 2005

18/31

Principe
 Introduire de l’amortissement dans les transitions  Ainsi, même les cfc récurrentes possèdent un défaut stochastique  On peut donc réaliser une complétion stochastique qui marche

Séminaire UCL - 22 février 2005

19/31

PR µ-compensé (Perron-Frobenius)
 P n 
¹n   dA tP n 
° ° ° t °  ¡ ° dA P n°

¹ nZ 

 On est dans le cas idéal, avec A  dA  s dA  :Z t  Interprétation stochastique :
– Suivre un lien avec prob. d (s’il en existe) – Sinon, zapper selon Z
Séminaire UCL - 22 février 2005 20/31

Choix de d
 Compromis convergence/dénaturation :
– d amortit les valeurs propres secondaires – Atténuation des cfc récurrentes – Classement selon A ou selon Z ?

 Modèle du surfeur aléatoire :
– Le zap suit une loi géométrique – Distance moyenne entre 2 zaps :

 Empiriquement : d=0,85
Séminaire UCL - 22 février 2005

d  ¡ d
21/31

PR non-compensé (point fixe)
P n   f d;Z  P n  f d;Z  X ! dA tX    ¡ d Z  f d;Z est d-lipschitzienne :

– Convergence – Unicité

 Plus besoin de Perron-Frobenius  Interprétation : flot
Séminaire UCL - 22 février 2005 22/31

Équivalence des PR
 Perron-Frobenius : P 1  ¹ 1  Point fixe : P 1    ¡ d
f d;Z  X ! dA tX  Z
1 X k  1 X k 

 dA  Z

t k

 dA t kZ

 On pourrait aussi bien prendre (Bianchini)

Séminaire UCL - 22 février 2005

23/31

Convergences

Séminaire UCL - 22 février 2005

24/31

Mieux que d ?
   L’amortissement garantit d. Après, cela dépend du spectre de A. En pratique, A est « saturé » de valeurs propres proches ou égales de 1 :
– Cfc récurrentes – Cfc transitoires quasi-récurrentes

 Conclusion : guère mieux que d
Séminaire UCL - 22 février 2005 25/31

Les pages sans lien : problème du « remplumage »
    Les feuilles ne servent à rien On les enlève donc pour le calcul… … et on les remet après convergence Problème : PageRank sur le graphe effeuillé ≠ PageRank sur le graphe entier
Séminaire UCL - 22 février 2005 26/31

Vitesse de convergence

Séminaire UCL - 22 février 2005

27/31

Nombre d’itérations
 Dépend de ce que l’on veut :
– Donner une note de 1 à 10 – Avoir pour chaque page une importance précise – Avoir un classement stable

 Il est possible d’avoir des profils statistiques de densités et de vitesses empiriques  On a ainsi des « formules » empiriques

Séminaire UCL - 22 février 2005

28/31

Exemples de profils de densité

Séminaire UCL - 22 février 2005

29/31

Exemple de profil de vitesses

Séminaire UCL - 22 février 2005

30/31

Convergence du classement

Séminaire UCL - 22 février 2005

31/31