You are on page 1of 44

Analyse des rseaux sociaux et web smantique: un tat de l'art

Emetteur Contributeurs Relecteurs Date de livraison prvue Date de livraison Workpackage Delivrable Rfrence Version Destinataires

Guillaume Erto (guillaume.ereteo@orange-ftgroup.com) Guillaume Erto, Fabien Gandon, Michel Buffa, Patrick Grohan Talel Abdessalem T0+6: 2009/08/01 2009/07/20 T3. Social management of shared knowledge representations T3.2 Analyse des rseaux sociaux et web smantique: un tat de l'art ISICIL-DOC-EA1-SNAetWS-20090720 0.2 Membres ISICIL

Projet ISICIL : Intgration Smantique de l'Information par des Communauts d'Intelligence en Ligne Appel ANR CONTINT 2008 ANR-08-CORD-011-05

ISICIL : Intgration Smantique de l'Information par des Communauts d'Intelligence en Ligne ANR-08-CORD-011-05

Document mis le : 20/07/2009 Rf : ISICIL-DOC-EA1-SNAetWS-20090720

Sommaire
1. 2. a) b) c) 3. d) e) 4. 5. Reprsentation d'un rseau social : .......................................................................................4 Indicateurs et Algorithmes .....................................................................................................9 Indicateurs ..............................................................................................................................9 Algorithmes ..........................................................................................................................15 Conclusion partielle ..............................................................................................................25 Les rseaux sociaux en ligne.................................................................................................25 Web 1 et web 2.....................................................................................................................26 Web smantique ..................................................................................................................30 Analyse smantique des rseaux sociaux ............................................................................36 Conclusion et discussion.......................................................................................................37

Analyse des rseaux sociaux et web smantique: un tat de l'art

Page 2 sur 44

ISICIL : Intgration Smantique de l'Information par des Communauts d'Intelligence en Ligne ANR-08-CORD-011-05

Document mis le : 20/07/2009 Rf : ISICIL-DOC-EA1-SNAetWS-20090720

A. Objet du document
Ce document constitue le premier rsultat d'une thse ralise conjointement au sein du laboratoire BIZZ/MUSE et rattache l'objet de recherche Health Care and Vertical Application et au sein de lquipe Edelweiss de lINRIA de Sophia Antipolis. Cette thse constitue aussi une contribution au projet ANR ISICIL qui a pour thme l'Intgration Smantique de l'Information par des Communauts d'Intelligence en Ligne dont l'un des objectifs est de montrer que non seulement les approches WEB2.0 peuvent bnficier des apports des plateformes du WEB smantique mais qu'elles peuvent rellement tre amliores grce l'introduction, dans les interactions avec un utilisateur, d'un comportement intelligent produit par des infrences additionnelles. Grce aux rsultats attendus par le projet, on se propose de jeter un pont entre le WEB 2.0 et le WEB smantique, d'adopter la modlisation ontologique pour reprsenter des rseaux sociaux, et de fournir une meilleure utilisabilit du WEB 2.0 par des entreprises. Dans ce cadre d'tude, notre travail de recherche se focalise sur l'utilisation de modles ontologiques pour reprsenter et analyser les rseaux sociaux. Un des objectifs scientifiques est d'amliorer l'analyse des rseaux sociaux en ralisant des infrences sur des graphes reprsentatifs de ces rseaux grce l'utilisation d'ontologies ddies. Cette nouvelle fonctionnalit va permettre dans un premier temps de dtecter plus facilement des communauts d'intrts et dans un second temps, grce la conception d'algorithmes adapts permettant de suivre l'activit de ces communauts, de concevoir des services valeur ajoute grce aux connaissances acquises dans l'tape d'analyse. L'tat de l'art prsent concerne les techniques classiques d'analyse des rseaux sociaux et l'utilisation des technologies du web smantique pour modliser les interactions en ligne. La premire partie prsente la dmarche qui consiste utiliser le modle de graphe pour reprsenter un rseau social. On rappelle un certain nombre de dfinitions qui formalisent les notions manipules par la thorie des graphes. Dans la seconde partie on prsente, d'une part, un certain nombre d'indicateurs (densit, centralit, cycle) destins caractriser la structure d'un rseau social et d'autre part un ensemble d'algorithmes qui peuvent tre hirarchiques (agglomratifs ou sparatifs) ou non hirarchiques ( base d'heuristiques) et qui vont permettre de dcouper le graphe en un certain nombre de clusters. Dans la troisime partie, on s'attache fournir une manire de reprsenter smantiquement un rseau social au travers d'un ensemble d'ontologies telles que SIOC,1 FOAF2 , SKOS3 et SKOT4. La dernire partie prsente une architecture permettant

1 2

SIOC FOAF 3 SKOS 4 SKOT

Semantically-Interlinked Online Communities Friend of a Friend Simple Knowledge Organisation System Social Semantic Cloud of Tags

Analyse des rseaux sociaux et web smantique: un tat de l'art

Page 3 sur 44

ISICIL : Intgration Smantique de l'Information par des Communauts d'Intelligence en Ligne ANR-08-CORD-011-05

Document mis le : 20/07/2009 Rf : ISICIL-DOC-EA1-SNAetWS-20090720

d'exploiter le meilleur de ces deux approches en s'orientant vers une analyse smantique des rseaux sociaux.

B. Analyses des rseaux sociaux et web smantique : un tat de l'art


Les interactions des utilisateurs au travers des usages du web 2.0 amnent la communaut scientifique rflchir sur les moyens de capter ces usages pour y appliquer les techniques d'analyse des rseaux sociaux. Les applications bien connues l'origine de l'mergence du web 2.0 sont les blogs, les wikis (ex : wikipedia), les services de social bookmarking (ex : del.ico.us), les sites de partages de mdias (ex : youtube, flickr) et bien sr les sites de rseaux sociaux (ex : facebook, LinkedIn). Ces applications ont considrablement accru la participation, les interactions et le partage entre les utilisateurs du web. L'analyse et la comprhension de tels rseaux sociaux suscitent de vifs intrts au sein de plusieurs communauts scientifiques. Le web smantique fournit des formalismes pour la reprsentation smantique des personnes et de leurs usages sur le web. L'ontologie FOAF dcrit "les personnes, les liens entre elles, ce qu'elles crent et ce quelles font". L'ontologie SIOC dcrit "l'information contenue explicitement et implicitement dans les moyens de communication d'internet" comme, par exemple, les blogs. Gruber propose une ontologie des folksonomies [Gruber 2005] et l'ontologie SCOT est un moyen de "reprsenter la structure et la smantique des donnes du social tagging afin de les partager et de les rutiliser". Les ontologies SKOS (reprsentation de thsaurus et autres ressources linguistiques) et MOAT [Passant et al 2008] (dsambigisation des tags) sont quant elles souvent utilises pour modliser la signification des tags. En regard de ces moyens de reprsentation il existe un certain nombre de propositions dutilisation des mthodes d'analyse des rseaux sociaux pour extraire des informations, comme la construction de rseaux d'accointances ou la dtection de communauts d'intrt. La plupart de ces mthodes d'analyses sont bases sur la thorie des graphes. Par exemple, [Mika 2005] exploite les folksonomies en utilisant la thorie des graphes afin d'identifier des champs smantiques et des communauts d'intrt. L'approche de [Paolillo et al 2006] utilise une base d'annotations FOAF pour identifier des communauts d'intrt. D'autres chercheurs [Anyanwu et al 2007] [Kochut et al 2007] [Alkhateeb et al 2007] [Corby 2008] ont tendu des outils SPARQLafin d'extraire des chemins entre des ressources smantiquement lies dans les graphes RDF, fournissant ainsi une base pour une reprsentation et une analyse smantique d'un rseau social.

1. Reprsentation d'un rseau social


La premire personne avoir reprsent un rseau social est Jacob Levy Moreno au dbut des annes 1930 [Moreno, 1933]. Son objectif tant de visualiser graphiquement un rseau social, il a reprsent les personnes par des points et une relation entre deux personnes Analyse des rseaux sociaux et web smantique: un tat de l'art Page 4 sur 44

ISICIL : Intgration Smantique de l'Information par des Communauts d'Intelligence en Ligne ANR-08-CORD-011-05

Document mis le : 20/07/2009 Rf : ISICIL-DOC-EA1-SNAetWS-20090720

par des flches. Cette reprsentation est depuis dsigne par le terme sociogramme, mais on parlait galement de toiles en raison de leur aspect en toile d'araigne. Cette forme de visualisation, aussi peu innovante qu'elle puisse paratre de nos jours, fut un premier outil d'identification rapide des caractristiques d'un rseau social. Moreno a ainsi introduit le concept d'toile pour dsigner les personnes ayant le plus de relations dans un rseau social, en rfrence l'toile forme par un point et ses connections. Les mathmaticiens ont rapidement fait le rapprochement entre les reprsentations sociogrammes et la thorie des graphes au sens mathmatique. [Scott 2000] passe en revue l'volution de la reprsentation des rseaux sociaux . Au milieu du vingtime sicle, Cartwright et Harary sont les premiers avoir appliqu la thorie des graphes l'analyse des rseaux sociaux. Le graphe est devenu par la suite la reprsentation adopte par toutes les sciences manipulant l'analyse des rseaux sociaux, dont la sociologie, les mathmatiques et l'informatique. Les dfinitions suivantes listes quelques notions manipules par la thorie des graphes pour les rseaux sociaux: Un sommet est l'unit de base d'un rseau, il en reprsente une ressource. Dans un rseau social on parle d'acteur. Le terme nud est galement utilis pour dsigner un sommet. Une arte est une connexion entre deux sommets. On parle galement d'arc ou de lien. Une hyperarte (hyperedge) est une arte qui connecte 2 ou plusieurs sommets. Une arte est oriente si elle ne s'utilise que dans une seule direction. Inversement, on parle d'arte non oriente pour une arte qui s'utilise dans les deux directions. Une arte est pondre lorsqu'on lui attribue un poids. Une arte est tiquete lorsqu'on lui attribue un label. Un graphe est dfini par un ensemble de sommets et un ensemble d'artes. Un hypergraphe est dfine par un ensemble de sommets et un ensemble d'hyperarte. [Berge 1985] Un graphe orient dsigne un graphe avec des artes orientes. Un graphe pondr dsigne un graphe avec des artes pondres. Un graphe tiquett dsigne un graphe avec des artes tiqute. Un graphe multipartite dsigne un graphe avec des sommets de types diffrents. Le degr d'un sommet est le nombre de ses artes adjacentes. Un chemin est une squence d'artes qui relie deux sommets. Un chemin orient est une squence d'artes qui relie deux sommets en respectant lorientation du parcours chaque arrte. Une godsique est l'un des plus courts chemins entre deux sommets donns. Le diamtre d'un graphe est le plus long chemin godsique de ce graphe. Un graphe est complet lorsqu'il existe une arte entre toute paire de sommets. Un graphe est dit connexe lorsqu'il existe un chemin entre toute paire de sommets.

Nous utiliserons la notation suivante pour la suite de ce document : Nous notons un graphe G = (V, E) avec V l'ensemble des sommets, E l'ensemble des artes, n=|V| et le nombre de sommets et m=|E| et le nombre darrtes. Un sous graphe de G est not G' = (V', E') avec V' V, E' E et restreint des arrtes reliant des sommets de V, n'=|V'| et m'=|E'|. Page 5 sur 44

Analyse des rseaux sociaux et web smantique: un tat de l'art

ISICIL : Intgration Smantique de l'Information par des Communauts d'Intelligence en Ligne ANR-08-CORD-011-05

Document mis le : 20/07/2009 Rf : ISICIL-DOC-EA1-SNAetWS-20090720

vi dsigne le ime sommet. (vi,vj) dsigne une arte entre les sommets vi et vj. Le degr d'un sommet vi est not ki. dij reprsente la longueur d'une godsique entre les sommets vi et vj. La moyenne des godsiques est note l.

Les graphes non orients sont adapts pour les rseaux sociaux avec des relations non orients. Les graphes orients sont adapts pour reprsenter des relations non symtriques comme les rseaux de confiance par exemple. Les graphes pondrs sont adapts aux rseaux sociaux qui contiennent diffrents niveau d'intensits dans les relations. Les graphes tiquets permettent de reprsenter diffrents types de relations.Les graphes multipartites sont adapts pour des rseaux sociaux incluant diffrent types de ressources manipules par les acteurs et qui sont le support d'intractions. Nous prendrons comme exemple, le clbre rseau d'amis du club de karat de Zachary en 1977, reprsent par un graphe non orient, non pondr et non tiquet(Figure 1). Ce club a t scind en deux clubs, les membres du premier sont reprsents par des sommets ronds et blancs, les membres du deuxime sont reprsents par des sommets carrs et griss.

Figure 1 : Le club de karat de Zachary s'est divis en deux clubs, les membres du premier club sont reprsents par des ronds blancs et les membres du second par des carrs griss.

La matrice est l'objet mathmatique le plus utilis pour manipuler ces concepts, mais des approches ensemblistes ont aussi tait proposes [Scott 2000]. On distingue deux types de matrices dans un rseau social, les matrices d'incidence (figure 2) et les matrices d'adjacence. On parle de matrice d'adjacence lorsqu'on a les mmes ressources en ligne et en colonne, on obtient ainsi une matrice carre avec la ligne i et la colonne i reprsentant la mme Analyse des rseaux sociaux et web smantique: un tat de l'art Page 6 sur 44

ISICIL : Intgration Smantique de l'Information par des Communauts d'Intelligence en Ligne ANR-08-CORD-011-05

Document mis le : 20/07/2009 Rf : ISICIL-DOC-EA1-SNAetWS-20090720

ressource. Un graphe peut ainsi tre reprsent sous la forme d'une matrice M n lignes et n colonnes reprsentant un tableau. Chaque case de ce tableau est note aij avec i et j les numros respectifs de ligne et de colonne de la case. La valeur contenue dans la case aij est le poids de la relation entre les ressources vi et vj (gal 1 dans le cas d'un graphe non pondr), 0 correspond une absence de relation. Les matrices d'incidence contiennent deux types de ressources, les lignes reprsentent un type et les colonnes un autre type. Une matrice d'incidence est convertible en deux matrices d'adjacence reprsentant chacune les ressources des lignes et des colonnes (figures 3 et 4), les valeurs des cases contiennent les points communs entre les ressources correspondantes dans la matrice d'incidence, aii n'ayant pas de valeur.

Projet1 Employ1 1 Employe2 1 Employe3 1 Employe4 0

Projet2 1 0 1 0

Projet3 1 0 1 1

Projet4 0 0 1 1

Figure 2: Exemple de matrice d'incidence indiquant sur quel projet travaille chaque employ

Employe1 Employe2 Employe3 Employe4 Employe1 Employe2 1 Employe3 3 Employe4 1 1 1 0 3 1 2 1 0 2 -

Figure 3: Matrice d'adjacence des employs dduite de la figure 2, chaque case reprsente le nombre de projets partags entre les employs correspondants

Projet 1 Projet 1 -

Projet 2 2

Projet 3 2

Projet 4 1

Analyse des rseaux sociaux et web smantique: un tat de l'art

Page 7 sur 44

ISICIL : Intgration Smantique de l'Information par des Communauts d'Intelligence en Ligne ANR-08-CORD-011-05

Document mis le : 20/07/2009 Rf : ISICIL-DOC-EA1-SNAetWS-20090720

Projet 2 Projet 3 Projet 4

2 2 1

2 1

2 2

1 2 -

Figure 4: Matrice d'adjacence des projets dduite de la figure 2, chaque case reprsente le nombre demploys partags entre les projets correspondants

V1 V1 V2 V3 V4 V5 V6 V7 1 1 1 1 1 1

V2 1 1 1 0 0 0

V3 1 1 1 0 0 0

V4 1 1 1 0 0 0

V5 1 0 0 0 0 1

V6 1 0 0 0 0 1

V7 1 0 0 0 1 1

Figure 5 : Extrait de la matrice d'adjacence du rseau social du club de karat de Zachary, chaque case prcise s'il existe une arte entre les deux sommets (valeur 1) ou pas (valeur 0) La figure 5 permet de visualiser la matrice d'adjacence du club de karat de ZAKARY (figure 1) Un graphe peut tre galement reprsent par une matrice de Laplace qui se diffrencie par la valeur contenue dans ses cases (ki dsigne le degr du nud vi) :
k i si i = j a ij = 1 si i j et ( v i ,v j ) E 0 autrement

Analyse des rseaux sociaux et web smantique: un tat de l'art

Page 8 sur 44

ISICIL : Intgration Smantique de l'Information par des Communauts d'Intelligence en Ligne ANR-08-CORD-011-05

Document mis le : 20/07/2009 Rf : ISICIL-DOC-EA1-SNAetWS-20090720

2. Indicateurs et Algorithmes a) Indicateurs


La Densit indique la quantit de liens au sein d'un rseau et permet de dfinir la
cohsion d'un rseau social. Selon [Scott 2000] cette mesure peut-tre utilise dans l'optique d'une analyse socio-centre ou gocentre Une analyse centre sur l'individu consiste mesurer la densit des liens autour d'un nud donn. Une telle analyse montre notamment l'influence du nud analys sur la densit du sous graphe auquel il appartient avec ses voisins. Une analyse sociocentre considre la densit sur l'ensemble du graphe et mesure la contrainte du rseau sur ses membres. Le calcul de la densit est relatif au nombre maximal de lignes que peut contenir un graphe. Or, ce nombre maximal est lui-mme fonction de la taille du graphe, ainsi toute comparaison de densit entre graphes ne fournit aucun rsultat significatif. [Scott 2000] proposent une approche intressante dans le calcul du nombre maximal de connexions dans un rseau social. En effet, la gestion de relations sociales est consommatrice en temps, ainsi le temps limite le nombre de contacts qu'une personne peut conserver et plus un rseau social est grand, moins la densit est leve. [Dunbar 1998] argumente le cot cognitif inhrent l'entretien de relations sociales. La densit varie galement en fonction du type de relations considres dans un rseau social, un rseau bas sur des relations amoureuses est beaucoup moins dense qu'un rseau de relations professionnelles notamment en raison des caractristiques des liens (ex : nature exclusive, diffrence de temps ou de ressources requis pour l'entretien, etc.). Ainsi le typage des relations dans un rseau social permettrait de paramtrer la densit, par exemple une densit est maximale pour un sommet ayant une relation, ds lors qu'on considre le sous graphe d'une relation exclusive.

La centralit d'un rseau social a t largement discute. La problmatique est de dfinir ce qui
rend un nud plus central qu'un autre, on parle alors de centralit locale. Plusieurs approches ont t considres. [Freeman, 1979] reprend l'ensemble de ces approches et en extrait trois principales. La premire approche appele centralit de degr [Nieminem 1974], considre comme centraux les nuds qui possdent les degrs les plus levs du graphe. En effet, ces nuds suscitent un grand intrt, sont trs visibles, et ont un potentiel lev faire circuler l'information, par leur forte connectivit aux autres lments du rseau. [Scott J. 2000] propose d'tendre la notion de degr des distances variables, en considrant par exemple tous les voisins une distance infrieure ou gale deux. La centralit d'intermdiarit [Freeman, 1979] se concentre sur la capacit d'un nud servir d'intermdiaire dans un graphe. Un nud situ sur un chemin godsique possde une position stratgique dans la cohsion d'un rseau et dans la circulation de l'information, d'autant plus si ce chemin est unique. Par exemple, un nud situ sur l'unique chemin reliant deux ensembles Analyse des rseaux sociaux et web smantique: un tat de l'art Page 9 sur 44

ISICIL : Intgration Smantique de l'Information par des Communauts d'Intelligence en Ligne ANR-08-CORD-011-05

Document mis le : 20/07/2009 Rf : ISICIL-DOC-EA1-SNAetWS-20090720

connects de nuds possde un fort contrle sur la communication de ces deux groupes. Plus un nud est intermdiaire, plus le rseau est dpendant de lui et plus il a de pouvoir. Enfin, la centralit de proximit [Freeman, 1979] mesure la centralit d'un nud en se basant sur la taille des chemins qui le lient aux autres nuds. Cette mesure reprsente la capacit d'un nud se connecter rapidement avec les autres nuds du rseau. Dans le rseau social du club de karat de Zachary (figure 1), les sommets 1, 33 et 34 possdent des degrs bien suprieurs au reste du rseau et sont les plus centraux en termes de centralit de degr et de proximit. Toutefois on constate que les sommets 3, 9, 14, 20, 31 et 32 sont les plus centraux en termes d'intermdiarit, leur absence ou la rupture de leurs liens avec un des deux clubs couperait le rseau en deux groupes [Freeman, 1979] explicite comment valuer le caractre centralis de la structure d'un rseau social. Cette mesure est base sur les 3 approches explicites prcdemment. La centralit globale, ou centralisation, d'un rseau social est calcule partir des centralits locales des sommets. L'indice de centralit locale choisi dtermine le sens de la centralit globale. Le calcul de la centralisation dpend de la dfinition de centralit locale que l'on considre, savoir si on considre la centralit comme le contrle, l'indpendance ou l'activit. En considrant une centralit locale de degr, le calcul de la centralit globale permet d'tablir les points dominants, les centres d'intrts, dans un rseau social, savoir une activit concentre autour de certaines ressources. Une mesure de la centralisation d'un rseau social, partir des centralits locales d'intermdiarit, fournit un indice de la dpendance de l'efficacit de ce rseau par rapport certains nuds. Enfin une mesure de la centralit globale d'un rseau, base sur une centralit locale de proximit, permet de mesurer la performance de la communication dans ce rseau, notamment pour la circulation d'informations. Pour chacun de ces indices de calcul de centralit locale et globale, Freeman propose une mthode de calcul dpendante de la taille du rseau social et une mesure indpendante permettant de comparer des rseaux sociaux. Toutefois, [Freeman, 1979] ne considre que les graphes non orients. Or dans un rseau social, l'orientation des relations contient elle seule beaucoup de smantique. Par exemple, pour analyser la propagation d'informations dans un rseau, l'orientation des arcs est primordiale, pour acheminer une information d'un point A un point B, les chemins allant uniquement de B A ne sont pas prendre en compte. La prise en compte de la direction des relations nous amne la notion de prestige, qui partir de l'orientation des arcs d'un sommet montre son positionnement par rapport ses voisins. On dtermine deux types de prestiges suivant que l'on considre les arcs entrants ou sortants. Un arc entrant est considr comme support pour le nud cible alors qu'un arc sortant reprsente une

Analyse des rseaux sociaux et web smantique: un tat de l'art

Page 10 sur 44

ISICIL : Intgration Smantique de l'Information par des Communauts d'Intelligence en Ligne ANR-08-CORD-011-05

Document mis le : 20/07/2009 Rf : ISICIL-DOC-EA1-SNAetWS-20090720

influence de la part de ce nud. Les trois mesures de centralit voques prcdemment sont donc nuances si l'on prend en compte l'orientation des arcs. La centralit de degr mesurera le support ou l'influence de l'activit des nuds. La notion de centralit d'intermdiarit reste la mme, mais son calcul est lgrement modifi car l'orientation des arcs doit tre considre pour prendre en compte le sens de circulation de l'information. La centralit de proximit value la capacit d'un nud atteindre un autre nud ou tre atteint par un autre nud. [Scott 2000] aborde une approche intressante en argumentant qu'un calcul de centralit d'un sommet doit prendre en compte la centralit des sommets adjacents. En effet, un point proche d'un point ayant une centralit leve profite d'une partie de l'avantage offert par cette position. La centralit d'un sommet est ainsi gale la somme de ses connections, pondre par la centralit de chacun des sommets correspondants. D'autres approches se sont concentres sur la centralit gocentre, qui dtermine l'influence d'un nud par rapport son voisinage. Cette approche est considre plus en profondeur par [Everett et Borgatti 2005] qui dmontre une corrlation entre la centralit et l'go-centralit d'un sommet. En relation avec la centralit locale d'intermdiarit, [Burt 1992] introduit la notion de trou structural qu'il dfinit comme une sparation entre deux contacts non-redondants. Des contacts sont redondants lorsqu'ils sont en contact direct ou qu'ils appartiennent un mme sous-groupe de contacts. Il argumente qu'un trou structural possde un bnfice informationnel. Les trous structuraux offrent deux atouts majeurs aux personnes contrlant ces trous. Tout d'abord, ils offrent un bnfice informationnel, en permettant un accs rapide des informations non redondantes. L'information entre contacts redondants est gnralement partage, l'apport de nouvelles informations dans un groupe cohrent provient donc de l'extrieur et les trous structuraux sont les canaux de circulation de cette information. Ainsi, les contacts les plus proches des trous structuraux sont mieux informs et plus rapidement. Ensuite les personnes qui contrlent les trous structuraux possdent un avantage sur le contrle de cette information et peuvent en tirer le meilleur profit par leur pouvoir d'intermdiarit. Dans [Burt 2004], Burt dmontre que les personnes proches des trous structuraux sont les plus susceptibles d'avoir des "bonnes ides", grce au bnfice informationnel apports par les trous structuraux. L'ensemble de ces notions nous amne la rsistance d'un rseau social au retrait de sommets ou d'artes (dpart dune ressource, suppression d'une relation). [Newman 2003] nous offre un aperu des travaux concernant cette notion. Nous avons vu prcdemment que la mesure de la centralisation d'un rseau montre la dpendance d'un rseau par rapport ses sommets. Cette dpendance peut galement tre mesure par l'impact du retrait d'un sommet ou d'une arte sur la connectivit du rseau. En effet, le retrait d'un nud ou d'une arte stratgique, par exemple un nud ayant une forte centralit d'intermdiarit ou de proximit, peut augmenter la longueur du Analyse des rseaux sociaux et web smantique: un tat de l'art Page 11 sur 44

ISICIL : Intgration Smantique de l'Information par des Communauts d'Intelligence en Ligne ANR-08-CORD-011-05

Document mis le : 20/07/2009 Rf : ISICIL-DOC-EA1-SNAetWS-20090720

plus court chemin entre de nombreux autres nuds voir scinder un rseau en deux ou plusieurs rseaux non relis. Cette mesure s'effectue sur deux types de retraits possibles, des retraits alatoires et des retraits cibls. En gnral, les structures des rseaux sociaux sont assez rsistantes des retraits alatoires de sommets ou d'artes alors qu'un retrait cibl peut affecter srieusement ces structures. Par exemple, le retrait d'un pont entre deux groupes de sommets fortement connects rduit considrablement voire coupe la communication entre ces deux groupes. [Holme et al 2002] rappellent l'ensemble des stratgies possibles d'attaque de rseaux cibles sur les sommets stratgiques et tend ces stratgies des attaques bases sur les artes. L'extension de ces stratgies aux artes a amen [Holme et al 2002] tendre les notions de degr et d'intermdiarit des artes. Le degr d'une arte est relatif au degr des sommets (min, max, somme ou produit) qu'elle relie alors que l'intermdiarit d'une arte est tout comme l'intermdiarit d'un sommet relative aux chemins godsiques sur lesquels elle se trouve. L'adaptation de la dfinition de degr et de l'intermdiarit des sommets aux artes est alors utilise pour appliquer la centralit aux artes. Ainsi, les stratgies d'attaques numres dans cet article consistent retirer itrativement les nuds (resp. artes) les plus centraux en termes de degr ou d'intermdiarit, en recalculant ou non les centralits chaque itration.

Dtection de communauts
Nous avons parl de groupes, de rseaux de contacts redondants, il est maintenant ncessaire de dfinir la notion de cohsion dans un groupe qui a aussi t largement discute et qui est fortement lie aux notions prcdentes. Par exemple, la dtection de communauts permet, entre autres, de dtecter les communauts non connectes et donc les trous structuraux. En connaissant les groupes fortement connects, on peut aussi facilement dduire les sommets les plus intermdiaires. En plus de son lien troit avec les notions prcdemment mentionnes et tout particulirement la centralit d'intermdiarit, la dtection de communaut suscite d'autres intrts. Dans un rseau social, la dtection des communauts permet de dterminer la rpartition des acteurs et des activits. Dans l'laboration de sa thorie sur les trous structuraux, Burt dfinie la contrainte de rseau qui est une mesure de la redondance des contacts d'une personne. Plus les contacts d'une personne sont relis entre eux, plus le comportement de cette personne est contraint par le rseau. Cette notion se rapproche de la notion de fermeture de rseau, argumente par [Coleman 1988], qu'il dfinit comme un rseau dense o tous les nuds sont connects de manire connatre l'information dtenue par chacun. [Burt 2001] explique comment la redondance des contacts facilite la fois la sanction et la confiance. En effet, au sein d'un tel rseau, ou sous-rseau, les erreurs d'une personne se propagent rapidement jusqu' ses contacts directs, augmentant ainsi la probabilit de sanction envers cette personne. Une sanction possible est notamment l'isolement dans le rseau, par la perte de confiance. La facilitation de la sanction tend viter la diffusion de mauvaises informations et les mauvais comportements, diminuant ainsi le risque d'accorder sa Analyse des rseaux sociaux et web smantique: un tat de l'art Page 12 sur 44

ISICIL : Intgration Smantique de l'Information par des Communauts d'Intelligence en Ligne ANR-08-CORD-011-05

Document mis le : 20/07/2009 Rf : ISICIL-DOC-EA1-SNAetWS-20090720

confiance tort. De plus les chemins entre les personnes tant rduits, la perte de qualit dans la transmission de l'information est minimise. Dans un but ducatif ou en entreprise, l'analyse du rseau social form par un ensemble de personnes permet de former des groupes de travail productifs et d'amliorer la communication. [Scott 2000] identifie trois structures principales de groupes fortement connects: les composants, les cliques et les cycles. La premire structure aborde par Scott est le composant. Un composant est un ensemble de nuds connects entre eux par un ou plusieurs chemins avec aucun lien vers d'autres nuds l'extrieur du composant. Un composant fort est un composant dont les chemins ne contiennent pas de changement de direction. Un composant faible ne tient pas compte des directions des connexions, seule la prsence de liens est prise en compte. Ensuite, [Scott 2000] traite les cliques et les diffrentes variantes proposes. Une clique est un sousgraphe complet d'un rseau, savoir un ensemble de nuds deux deux connects. Cette dfinition manque de souplesse et quelques dfinitions en proposent des variantes. Une n-clique est un ensemble de nuds relis entre eux par des chemins de longueur maximale n. Toutefois les chemins reliant les sommets d'une n-clique peuvent contenir des sommets exclus de cette clique. Un n-clan est une restriction de la dfinition de n-clique, c'est un ensemble de nuds tous relis entre eux par des chemins de longueur maximale n et formant un sous graphe d'un diamtre infrieur ou gal n. La figure 6 illustre la diffrence entre une n-clique et un n-clan. Un k-plex est un graphe dont tous les sommets sont relis tous les autres sommets sauf k.

Figure 6 : Pierre, Paul, Jacques, Carmen et Yvonne forment une 2-clique et un 3-clan. L'unique godsique entre Yvonne et Jacques est de longueur 2 et passe par Grard. Enfin la dernire structure que mentionne [Scott 2000] est le cycle. Un cycle est un chemin qui revient son point d'origine. Encore une fois, un cycle fort est un chemin qui ne contient pas de changements de direction alors que la dfinition d'un cycle faible le permet. Les cycles de longueur Analyse des rseaux sociaux et web smantique: un tat de l'art Page 13 sur 44

ISICIL : Intgration Smantique de l'Information par des Communauts d'Intelligence en Ligne ANR-08-CORD-011-05

Document mis le : 20/07/2009 Rf : ISICIL-DOC-EA1-SNAetWS-20090720

trois sont appels triades. Les rseaux sociaux ont une forte tendance au clustering, savoir que deux sommets relis un mme nud ont une forte probabilit d'tre lis entre eux. Cette tendance au clustering est value par un coefficient de clustering qui est pour un rseau donn le rapport du nombre de triades sur le nombre maximum de triades possibles pour ce rseau soit :

3 TRIADES TRIPLETS
avec |TRIADES| et |TRIPLETS| les nombres de triades et de triplets de sommets connects du rseau. Les triplets connects du rseau sont les nuds contenus sur les chemins de longueur deux. Le coefficient de clustering d'un sommet est de la mme manire dfini par :

Ci =

TRIADESi TRIPLETSi

avec |TRIADESi| et |TRIPLETSi| le nombre de triades et de tripls connects contenant le sommet i. On peut ainsi calculer alternativement le coefficient de clustering du rseau partir des valeurs locales: 1 Ci . n i Toujours en relation avec la notion de cycle, Scott introduit les composants cycliques. Un composant cyclique est constitu de cycles qui ne se chevauchent pas et qui sont relis entre eux par des ponts. Nous noterons galement les LS-SET qui sont des sous-ensembles de sommets S tels que tout sousensemble propre de S (sous ensemble de S diffrent de S) a plus de liens vers son complment dans S que vers l'extrieur de S. Ces dfinitions sont toutefois trop thoriques et ne correspondent pas la structure des communauts contenues dans les rseaux sociaux rels. Par exemples, dans le rseau social du club de karat de Zachary, on distingue clairement de manire visuelle deux groupes, et aucun ne possde strictement les proprits mentionnes prcdemment. De ce fait des notions plus larges ont t prises en compte pour la dtection de communauts dans les rseaux sociaux. Ces notions sont abordes dans la partie algorithmique.

Structure d'un rseau social


[Newman 2003] et [Mika 2007] rappellent les caractristiques relatives la structure des rseaux sociaux. La principale caractristique est l'effet de petit monde issu de la clbre exprience de [Milgram 1967]. Ainsi toute personne dans un rseau social est connecte toute autre personne par un chemin de courte distance. Le plus court chemin entre deux sommets dans un rseau social de taille n est de l'ordre de log(n). Ainsi lorsque la taille du rseau augmente, la longueur des plus courts chemins n'augmente que trs peu. De plus les membres de ce rseau possdent la facult de Analyse des rseaux sociaux et web smantique: un tat de l'art Page 14 sur 44

ISICIL : Intgration Smantique de l'Information par des Communauts d'Intelligence en Ligne ANR-08-CORD-011-05

Document mis le : 20/07/2009 Rf : ISICIL-DOC-EA1-SNAetWS-20090720

trouver facilement ces plus courts chemins [Newman 2003]. Une autre caractristique est issue de la tendance de l'homme se socialiser en groupe ce qui donne aux rseaux sociaux une forte tendance au clustering et une structure en communauts. Si un sommet A est connect un sommet B et que ce sommet B est connect un sommet C, alors A et C ont une forte probabilit d'tre galement connects, on parle aussi de transitivit. On arrive ainsi une structure en communaut, savoir des groupes de sommets avec une forte densit d'artes et relis entre eux par des ponts. Cette socialisation s'effectue avec une tendance l'affiliation entre des nuds ayant des proprits quasi-quivalentes. On constate galement que la distribution des degrs suit une loi de puissance, savoir que plus on considre un degr lev, plus le nombre de sommets qui ont ce degr dans un mme rseau est faible. La figure 7 montre la rpartition des degrs dans le rseau social du club de karat du club de Zachari (figure 1).

12 nombre d'acteurs 10 8 6 4 2 0 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 degr

Figure 7: rpartition des degrs du club de karat de Zachary

b) Algorithmes
Nous avons vu prcdemment que les principaux indices fournissant des informations importantes sur la structure et l'aspect fonctionnel d'un rseau social sont la centralit, la rpartition des degrs, la circulation/qualit de l'information, la rsistance du rseau et la dtection des communauts. L'valuation de ces indices passe tout d'abord par le calcul des paramtres de base que sont: le degr d'un nud, les godsiques, la densit, la dtection des clusters. En effet, les calculs qui permettent d'valuer la centralit sont lis au degr et aux godsiques. La rpartition des degrs est par dfinition dpendante du calcul du degr des nuds, l'instar du calcul du diamtre et des godsiques.

Les Algorithmes de clustering


Les algorithmes de clustering sont utiliss afin de dtecter ces communauts afin d'obtenir une vue globale d'un rseau social. Algorithmes hirarchiques

Analyse des rseaux sociaux et web smantique: un tat de l'art

Page 15 sur 44

ISICIL : Intgration Smantique de l'Information par des Communauts d'Intelligence en Ligne ANR-08-CORD-011-05

Document mis le : 20/07/2009 Rf : ISICIL-DOC-EA1-SNAetWS-20090720

Un premier ensemble d'algorithmes regroupe les algorithmes hirarchiques. Tout d'abord ils attribuent un poids chaque paire de sommets ou aux artes. Ce poids reprsente la connectivit de cette paire dans la structure du rseau. Ensuite ils construisent un arbre dont les nuds sont des groupes de sommets plus ou moins proches. Les nuds les plus profonds de l'arbre reprsentent les groupes de sommets les plus proches. Ainsi, plus on remonte dans l'arbre plus on considre de grandes communauts, la racine reprsentant le rseau complet. Il existe deux catgories, les algorithmes agglomratifs et les algorithmes sparatifs. Ils se distinguent dans la construction de l'arbre et dans la logique d'attribution des poids aux artes. Algorithmes agglomratifs Dans ces algorithmes, on retrouve trois principaux critres d'attribution des poids aux paires de sommets. Le premier critre d'attribution de poids, est le nombre de chemins qui passent par ces nuds. Les deux autres critres sont des variantes, les chemins considrs n'ont pas de nud en commun pour un et pas d'artes en commun pour l'autre. Une fois ces poids attribus, ils regroupent itrativement les sommets en considrant les poids par ordre dcroissant, jusqu' avoir considr tous les poids. Le principal dfaut de ces algorithmes est qu'ils excluent dans la plupart des cas les membres priphriques, plus isols de leur communaut. [Donetti et Munoz 2004] utilisent les vecteurs propres de la matrice de Laplace du graphe pour mesurer les similarits entre les sommets, cet algorithme fonctionne en temps O(n3). L'algorithme netwalk [Zhou et Lipowsky 2004] est lui "bas sur le temps moyen d'atteinte d'un sommet par des marches alatoires" pour mesurer la similarit entre les sommets. Sa complexit en temps est de O(n3). Algorithmes sparatifs Ces algorithmes construisent l'arbre de manire inverse. Le poids attribu chaque arte reprsente son caractre sparatif entre ses extrmits. L'arbre est construit partir du graphe entier, en retirant itrativement les artes par poids dcroissant. L'algorithme le plus connu est celui de [Girvan and Newman 2002] qui tablit les poids des artes en fonction de leur intermdiarit, ainsi les nuds "les plus intermdiaires" sont retirs en premier. Cette technique fournit de trs bonnes coupes d'un rseau et est adapte la structure d'un rseau social. Toutefois, cet algorithme ncessite le calcul des centralits d'intermdiarit couteux en temps, et possde une complexit en O(m.n) avec m le nombre d'artes et n le nombre de sommets. Il n'est donc exploitable que sur des petits rseaux. [Bothorel et Bouklit 2008] adapte cet algorithme pour les hypergraphes. [Fortunato et al 2004] utilisent eux une notion plus stricte de la centralit, offrant un meilleur dcoupage mais de faibles performances en temps, O(m3.n).

Analyse des rseaux sociaux et web smantique: un tat de l'art

Page 16 sur 44

ISICIL : Intgration Smantique de l'Information par des Communauts d'Intelligence en Ligne ANR-08-CORD-011-05

Document mis le : 20/07/2009 Rf : ISICIL-DOC-EA1-SNAetWS-20090720

[Radicchi et al 2004] tendent la notion de coefficient de clustering des sommets aux artes et propose un algorithme qui retire les artes ayant les coefficients les plus faibles. Le coefficient de clustering d'une arte correspond au nombre de cycles, d'une longueur donne, auxquels appartient cette arte sur le nombre de cycle possibles en fonction des degrs des extrmits. Algorithmes base d'heuristiques Un certain nombre d'algorithmes non hirarchiques ont t proposs, ils sont bass sur des heuristiques lies la structure en communaut des rseaux. Newman propose un algorithme efficace [Newman 2004] pour des rseaux de grande taille avec une complexit en O(n.log(n)). Cet algorithme fournit une coupe du graphe optimisant une fonction de modularit :

Q = ( eij ai )
j

avec eij la part d'artes du rseau qui relie des sommets des groupes i et j et ai = eij . En d'autres
j

termes, la modularit est, pour un dcoupage en communauts donn, la diffrence entre la part d'artes intra-communautaires du rseau analys et la mme valeur avec une rpartition alatoire des artes. Les valeurs ngatives sont ramenes 0 et la valeur maximale est 1. Cette fonction de modularit est la diffrence entre le nombre d'artes dans un groupe et le nombre d'artes attendues en se basant sur la probabilit d'avoir une arte entre chaque sommet. Dans [Newman 2008], il gnralise la notion de modularit aux graphes orients et propose une approche alternative de cet algorithme. [Djidev 2007] rduit le problme du calcul de modularit celui de coupe minimale pondre et propose un algorithme en O(n.log(n)+m). [Barber 2007] propose une dfinition de la modularit pour les graphes bipartites. Enfin [Chen et al 2009] propose une variante qui optimise le degr moyen entrant l'intrieur de la communaut et minimise le degr sortant des nuds frontires. [Wu 2004] fait l'analogie entre un graphe et un rseau lectrique et fournit ainsi un algorithme bas sur la simulation de rpartition d'un courant lectrique. Cette mthode fournie un rsultat en temps linaire en pratique mais impose une contrainte forte qui est de connatre le nombre de clusters l'avance. Plusieurs algorithmes s'appuient sur les parcours alatoires dans un graphe. Dans cette catgorie, l'algorithme de [Pons et al 2005] est le plus performant en temps (O (n.log(n)) en pratique) mais plus couteux en espace O(n), il est bas sur l'hypothse qu'un parcours alatoire dans un graphe tend se retrouver "pig" dans les parties du graphe fortement connectes correspondant des communauts. Nous noterons galement le plus connu, Markov Cluster Algorithme, qui fonctionne quand lui en temps O(n3). [Pons et al 2005] propose un aperu plus large sur cette approche.

Analyse des rseaux sociaux et web smantique: un tat de l'art

Page 17 sur 44

ISICIL : Intgration Smantique de l'Information par des Communauts d'Intelligence en Ligne ANR-08-CORD-011-05

Document mis le : 20/07/2009 Rf : ISICIL-DOC-EA1-SNAetWS-20090720

L'algorithme de [Capocci et al 2004] bas sur une analyse spectrale de la matrice d'adjacence, qui prend en considration l'orientation et la pondration des arcs. Cette solution a une complexit de O (n) en temps. L'algortihme par propagation de label de [Raghavan et al 2007] est l'algorithme le plus performant en pratique, mais avec une terminaison non dterministe. Tous les nuds se voient attribuer un label initial reprsentant la communaut auquel ils appartiennent. A chaque tape chaque nud change son label en prenant le plus rparti dans son voisinage. Ce processus itratif amne en pratique un consensus avec un label unique pour chaque communaut. Les algorithmes mentionns prcdemment sont les plus utiliss. Toutefois, d'autres algorithmes sont galement dcrits dans [Danon 2005] [Newman 2004 bis] [Girvan et Newman 2004]. La plupart des algorithmes de clustering, ne considrent que des graphes non-tiquets, non orients et ils fournissent tous des clusters non-recouvrants. En ignorant l'orientation des artes nous en perdons toute la signification, alors que la notion de prestige, prcdemment aborde, nous en montre la richesse. Le typage des liens dans un rseau social apporte lui aussi beaucoup de smantique, tout comme le typage des sommets qui permet de dcrire un rseau social multipartite. De plus une personne est susceptible d'appartenir plusieurs communauts, avec des degrs d'implication diffrents. Ces algorithmes ne lui attribueront qu'une appartenance la communaut dont elle est le plus proche. Partant de cette dernire hypothse, [Pissard 2008] propose l'algorithme FOCAL (Fast Overlapping Clustering ALgorithm) qui restitue des communauts recouvrantes. Son approche est intressante car elle tient compte des caractristiques structurelles des rseaux sociaux (petits mondes, transitivit) et des communauts. Toutefois il pose une hypothse forte lie son cadre d'application qui considre des communauts de tailles homognes. L'algorithme SCAN [Xu et al 2007] permet aussi de dtecter des communauts recouvrantes. En se basant sur l'ide de base que la structure communautaire d'un nud est dfinie par ses voisins, cet algorithme forme des communauts en dterminant un score minimum de similarit structurel entre un nud et ses voisins. Le tableau 1 synthtise les catgories et performances des algorithmes prcdemment mentionns.

Type d'algorithme

Refrence

Complexit en Taille temps graphes

des Caractristiques de graphe pris en compte Non-typs Non-orients

Hirarchiques agglomratifs

[Donetti et O(n3) Munoz 2004]

103 sommets

Analyse des rseaux sociaux et web smantique: un tat de l'art

Page 18 sur 44

ISICIL : Intgration Smantique de l'Information par des Communauts d'Intelligence en Ligne ANR-08-CORD-011-05

Document mis le : 20/07/2009 Rf : ISICIL-DOC-EA1-SNAetWS-20090720

Non-pondr [Zhou et O(n3) Lipowsky 2004] 104 sommets Non-typs Non-orients Non-pondr Hirarchiques Spartifs [Girvan et O(m.n) pour 104 sommets Newman un graphe non2002] pondr O(m.n.log(n)) pour un graphe pondr. [Radicchi et O(n) al 2004] 104 sommets Non-typs Non-orients Non-pondrs [Newman 2004] O(n.log(n)) 105 sommets Non-typs Non-pondr, Non-orients Non-typs Non-orients Pondrs

A base d'heuristique

[Newman 2008]

O(n.log(n))

105 sommets

Non-typs Non-pondrs, orients

[Djidev 2007]

O(n.log(n)+m)

105 sommets

Non-typs Non-pondr, Non-orients

[Wu 2004]

O(n+m)

105 sommets

Non-typs Non-orients

[Pons et al O(m.n) dans le 104 sommets 2005] pire des cas et Analyse des rseaux sociaux et web smantique: un tat de l'art

Non-typs Non-orients Page 19 sur 44

ISICIL : Intgration Smantique de l'Information par des Communauts d'Intelligence en Ligne ANR-08-CORD-011-05

Document mis le : 20/07/2009 Rf : ISICIL-DOC-EA1-SNAetWS-20090720

O(n.log(n)) en moyenne [Capocci et O(n) al 2004] 104 sommets

Non-pondrs

Non-typs, Orients, pondrs

[Raghavan et al 2007]

Terminaison non dterministe

106 sommets

Non-typs, Non Orients, Non pondrs

Tableau 1 : Catgories et performances des algorithmes de dtection de communauts.

Validation d'un dcoupage en communauts


[Bolshakova et Azuaje 2003] proposent trois indices permettant d'valuer la qualit d'un dcoupage en cluster d'un graphe. L'indice de Silhouette mesure les proprits d'isolation et d'htrognit des clusters obtenus. L'indice de Dunn et l'indice de Davies-Bouldin, calculent le nombre de clusters denses et spars, ils permettent de dterminer la qualit du nombre de clusters obtenus. Dans [Girvan et Newman 2004], une approche diffrente est propose: le calcul de la modularit. Plus le rsultat du calcul est proche de 1 plus le dcoupage est prcis. La modularit est actuellement la mesure de rfrence pour valuer la qualit d'un dcoupage en communauts. Dans [Gustafsson et al 2006], une comparaison est effectue entre la modularit et l'indice de Silhouette et la modularit est mise en avant comme plus pertinente. [Rattigan 2007] propose quant lui deux indices complmentaires pour mesurer la qualit d'un dcoupage en communauts. Ces deux indices sont la proportion d'artes intercommunautaires et la proportion d'artes intra-communautaires. Ils sont tous les deux compris entre 0 et 1. Un bon dcoupage en communauts possde un faible taux d'artes intercommunautaires et un taux lev d'artes intra-communautaires.

Calcul de la centralit
La centralit permet de dtecter les positions stratgiques dans un rseau social. Plusieurs mthodes d'valuation de la centralit ont t proposes en fonction du critre choisi pour considrer un nud comme plus central qu'un autre. Ces mthodes sont rappeles dans cette partie avant de rentrer plus en dtail sur les algorithmes proposs pour calculer la centralit d'intermdiarit. Analyse des rseaux sociaux et web smantique: un tat de l'art Page 20 sur 44

ISICIL : Intgration Smantique de l'Information par des Communauts d'Intelligence en Ligne ANR-08-CORD-011-05

Document mis le : 20/07/2009 Rf : ISICIL-DOC-EA1-SNAetWS-20090720

[Freeman 1979] propose 2 mthodes de calcul pour chacun des trois indicateurs de centralit locale (degr, intermdiarit, proximit) qu'il prsente, une mesure dpendante de la taille du rseau et une mesure indpendante. La premire mesure est intressante pour mesurer l'influence de l'activit d'un nud dans un rseau alors que la deuxime, indpendante de la taille du rseau, offre un indicateur de comparaison entre des nuds de diffrents rseaux. Le fait de s'affranchir de la taille d'un rseau dans un indice permet galement de comparer diffrents rsultats locaux issus d'un mme rseau, notamment pour comparer diffrents types de liens et donc diffrents types de rseaux dans un graphe multipartite. De plus, cela fournit une mthode gnrique de calcul de centralit globale, base sur la centralit locale choisie. La centralit de degr locale d'un nud est tout simplement son degr. La mthode de calcul de la centralit d'intermdiarit locale d'un nud consiste effectuer la somme des valeurs d'intermdiarit de ce nud pour chaque couple de nud du rseau. La valeur d'intermdiarit d'un nud A pour un couple de nud B et C, est le rapport du nombre de chemins godsiques entre B et C contenant A sur le nombre total de chemins godsiques entre B et C. Le calcul de la centralit locale de proximit consiste effectuer la somme des distances d'un nud aux autres nuds du graphe. Cette mesure est plutt une mesure de "dcentralit", savoir que les nuds qui obtiennent un score plus lev sont les moins centraux. Ainsi pour faire un parallle avec les deux mthodes prcdentes, il est opportun de mesurer la centralit de proximit en considrant l'inverse de la somme des distances du nud aux autres nuds. Pour rendre indpendantes ces mesures de la taille du rseau, Freeman propose dans les 3 cas de diviser le rsultat obtenu par la valeur maximale possible. La valeur maximale est atteinte chaque fois par le point central dans un rseau en toile. Ainsi pour un rseau de taille n, la valeur maximale de la centralit de degr est n-1 et la valeur maximale d'intermdiarit est (n -3n +2)/2. Pour le calcul de la centralit de proximit, la somme minimale des distances est n-1, ainsi la valeur maximale de la centralit de proximit d'un nud est le rapport de n-1 sur la somme des distances avec les autres nuds du rseau. Enfin Freeman fournit une formule de calcul de la centralit globale d'un rseau adaptable pour chacun des 3 indices de centralit locale exposs. Le principe est de mesurer l'cart entre la valeur de centralit la plus leve par rapport celle des autres nuds du graphe. Les dfinitions prcdentes mettent en avant la complexit de calcul de chacun de ces trois indices. Le calcul de la centralit de degr est bien videmment trivial. Par contre les calculs de centralit d'intermdiarit et de proximit sont bien plus complexes en raison de leur dpendance au calcul des godsiques. Toutefois la proprit de petit monde des rseaux sociaux cre un lien troit entre la centralit de degr d'un sommet et sa centralit de proximit. De plus l'indice de centralit le plus significatif est l'intermdiarit qui met en avant les individus les plus influents dans un rseau. L'intermdiarit est ainsi l'indice de centralit le plus considr dans la littrature. L'ensemble des

Analyse des rseaux sociaux et web smantique: un tat de l'art

Page 21 sur 44

ISICIL : Intgration Smantique de l'Information par des Communauts d'Intelligence en Ligne ANR-08-CORD-011-05

Document mis le : 20/07/2009 Rf : ISICIL-DOC-EA1-SNAetWS-20090720

travaux mentionns ci-dessous traitent principalement cet indice, mais certaines des notions et mthodes de calcul fournies sappliquent galement pour la mesure des autres indices.

Algorithmes exacts Plusieurs algorithmes de calcul d'intermdiarit exacts ont t proposs. Ils sont applicables sur des rseaux de petites tailles, de l'ordre de 105 sommets pour le plus performant. Ces algorithmes proposent pour la plupart une version pour les graphes pondrs et non pondrs. Les principaux sont bass sur le calcul des godsiques dans un premier temps puis sur les sommes des godsiques o se trouve un sommet, et ce pour chaque sommet [Douglas et Borgatti 1994][Brandes 2001] [Newman 2001]. Les autres sont bass sur une rpartition optimale du flot d'information dans le rseau entre les diffrents chemins possibles [Freeman et Borgatti 1991]. [Latora et Marchiori 2004] proposent une approche qui combine les deux premires. L'algorithme exact le plus performant est celui dcrit dans [Brandes 2001], il offre un rsultat en O (n+m) en espace et en temps O (nm) et O(nm+log(n)), respectivement pour des graphes non pondrs et pondrs. Cet algorithme s'appuie sur un ensemble de lemmes permettant de ne considrer que les calculs indispensables et de rduire ainsi la complexit des mthodes optimales bases sur le calcul des godsiques. Par exemple, si vs se trouve sur une godsique de vr vt ,alors drt<= drs +dst. Nous noterons l'article de [White et Borgati 1994] qui prend en considration l'orientation des arcs pour le calcul de la centralit d'intermdiarit. Ulrik Brandes dans [Brandes 2008], effectue un tour d'horizon des variantes proposes pour le calcul de l'intermdiarit. Ces variantes portent notamment sur le niveau d'importance des diffrents sommets d'un chemin, sur la longueur des chemins considrer, l'intermdiarit entre les groupes de sommets, l'intermdiarit des artes ou encore l'intermdiarit entre des sommets de diffrents types. Il adapte l'algorithme de [Brandes 2001] pour chacune des variantes discutes. La prise en considration de diffrents types est faiblement traite dans la littrature. Nous notons principalement [Flom et al 2004] (Brandes se base sur son approche), qui traite l'intermdiarit entre des sommets de deux types diffrents, c'est--dire des graphes bi-partites. L'approche de [Everett et Borgati 1999] adapte les principaux concepts de centralit des sommets aux groupes de sommets. Les critres d'appartenance d'un nud un groupe de sommets sont trs varis et Everett et Borgati fournissent notamment des exemples bass sur le sexe et l'ge. Or, on pourrait considrer tout simplement les nuds d'un type donn comme critre d'appartenance un groupe, et considrer leur approche comme une solution au problme de centralit pour les graphes multipartites. [Everett et Borgatti 2005] fournit une mthode de calcul de la centralit d'intermdiarit gocentrique, savoir l'intermdiarit d'un nud donn par rapport au rseau form par son

Analyse des rseaux sociaux et web smantique: un tat de l'art

Page 22 sur 44

ISICIL : Intgration Smantique de l'Information par des Communauts d'Intelligence en Ligne ANR-08-CORD-011-05

Document mis le : 20/07/2009 Rf : ISICIL-DOC-EA1-SNAetWS-20090720

voisinage direct. Cette mesure permet d'extraire les sommets les plus influents par rapport leur voisinage direct. [Bothorel et Bouklit 2008] propose un algorithme de calcul de la centralit d'intermdiarit pour les hypergraphes. Algorithmes approchs Plusieurs autres algorithmes, proposent des estimations de la centralit d'intermdiarit [Radicchi et al 2004][Brandes et Pich 2007][Bader et al 2007][Geisberger et al 2008], fournissant des rsultats un peu moins prcis mais avec de bien meilleures performances, les rendant utilisables pour des rseaux de l'ordre de 106 sommets. La qualit de ces derniers algorithmes dpend de leur technique d'chantillonnage. [Brandes et Pich 2007][Bader et al 2007][Geisberger et al 2008] proposent des approximations partir d'un chantillon de sommets rpartis dans le rseau. Algorithmes parallles Enfin [Bader et Madduri 2006] et [Santos et al 2006] fournissent des contributions majeures en terme de performance avec des algorithmes parallles du calcul de la centralit d'intermdiarit permettant de traiter des rseaux sociaux de l'ordre du million de sommets avec un rsultat exact pour l'un et une approximation pour l'autre. L'algorithme de [Santos et al 2006] est tout particulirement intressant par son approche incrmentale qui fournit tout moment un rsultat approximatif de plus en plus prcis avec un calcul rparti correspondant bien aux contraintes du web. L'algorithme de [Bader et Madduri 2006] fournit un rsultat exact en paralllisant l'algorithme de [Brandes 2001]. Le tableau 2 synthtise les catgories et performances des algorithmes de calcul des centralits d'intermdiarit. Rfrence Exact parallle Complexit Taille des Incrm Type de graphes ental considr Pondr Non typs Non orients graphe

[Newman 2001]

Oui

Non

O(n.m) et 105 Non O(n.m.log(n) sommets respectivement pour des graphes non pondrs et pondrs O(n.m) et O(n.m + 105 Non n.log(n)) sommets respectivement pour des graphes non pondrs et

[Brandes 2001]

Oui

Non

Pondr Non typs Non orients

Analyse des rseaux sociaux et web smantique: un tat de l'art

Page 23 sur 44

ISICIL : Intgration Smantique de l'Information par des Communauts d'Intelligence en Ligne ANR-08-CORD-011-05

Document mis le : 20/07/2009 Rf : ISICIL-DOC-EA1-SNAetWS-20090720

pondrs [Geisberger Non et al 2008] [Brandes et Pich 2007] [Bader et Oui Madduri 2006] oui Non ~[Brandes 2004] 106 Oui mais approximation sommets partir de k noeuds. O(n.m) et O(n.m + 106 Non n.log(n)) sommets respectivement pour des graphes non pondrs et pondrs Non estim 105 oui Graphes pondrs Non typs Non orients

Graphes pondrs Non typs Non orients

[Santos et Non al 2006]

Oui

Graphes pondrs Non typs Non orients

Tableau 2: Catgories et performances des algorithmes de calcul des centralits d'intermdiarit.

Jeux de donnes couramment utiliss


La qualit et la performance des algorithmes utiliss sont values sur plusieurs jeux de donnes. Ces jeux de donnes sont gnrs ou bass sur des rseaux rels. Concernant la gnration de rseaux, trois mthodes principales sont utilises, la gnration de graphes alatoires [Gilbert 1959], "preferential attachement" [Barabasi et Albert 1999] et "small world" de [Watts et Strogatz 1998]. La gnration alatoire de graphe produit des rseaux n'ayant aucune proprit d'un rseau social. Le modle de [Watts et Strogatz] reproduit la proprit des petits mondes que l'on retrouve dans tous les graphes. [Barabasi et Albert 1999] fournit une solution permettant de gnrer un graphe possdant une structure proche de celle des rseaux sociaux, en fournissant notamment une rpartition des degrs suivant une loi de puissance. Toutefois ces rseaux tant gnrs automatiquement, ils servent surtout de tmoins et de point de comparaison entre les diffrentes mthodes. Plusieurs jeux de donnes rels reviennent alors rgulirement pour juger de l'efficacit et de la qualit d'un algorithme d'analyse de rseau social. Les tous premiers rseaux tudis taient construits partir de questionnaires, en demandant par exemple des personnes de citer des amis. Le rseau social du club de karat de Zachary ne possde qu'une trentaine de nud mais il est souvent utilis comme preuve du bon fonctionnement d'un algorithme de clustering. Toutefois, l'amlioration de la complexit des algorithmes ncessite des rseaux de grandes tailles pour valuer leurs performances, juger leur qualit et en observer les limites. L'extraction d'un sousAnalyse des rseaux sociaux et web smantique: un tat de l'art Page 24 sur 44

ISICIL : Intgration Smantique de l'Information par des Communauts d'Intelligence en Ligne ANR-08-CORD-011-05

Document mis le : 20/07/2009 Rf : ISICIL-DOC-EA1-SNAetWS-20090720

ensemble du graphe du web form par les hyperliens entre les pages est rgulirement utilise, un crawl du web offre la possibilit d'obtenir des rseaux de trs grandes tailles. Les articles scientifiques sont galement beaucoup utiliss. On retrouve ainsi deux rseaux extraits partir des articles scientifiques, le rseau de citation et le rseau de co-auteurs. La source principale servant d'extraction de ce type de rseaux est CiteSeer ( http://citeseer.ist.psu.edu/ ).

c) Conclusion partielle
Nous avons abord ici les principaux algorithmes de calcul de clustering et d'intermdiarit. Les algorithmes de clustering les plus apprcis pour leur dcoupage sont les algorithmes hirarchiques sparatifs bass sur l'intermdiarit. Toutefois la complexit de calcul de l'intermdiarit est une limite liminatoire pour utiliser ces algorithmes sur de larges rseaux sociaux tels que ceux du web qui contiennent plusieurs millions de sommets. Les approches telles que celles de [Newman 2004] sont donc privilgies pour les trs grands rseaux. [Radicchi et al 2004] a ouvert la porte l'utilisation de mthodes approximatives du calcul de la centralit d'intermdiarit pour le clustering. Ainsi, le calcul des centralits d'intermdiarit partir d'chantillons de [Brandes et Pich 2007][Bader et al 2007][Geisberger et al 2008] sont des pistes intressantes pour rduire le temps de calcul de l'algorithme de [Girvan et Newman 2002], tout en conservant la mme complexit. Nous noterons tout particulirement l'approche [Rattigan et al 2006] qui indexe la structure du graphe et optimise grandement les calculs de plus courts chemins et des centralits d'intermdiarit. Il utilise ensuite ces index pour optimiser deux algorithmes, dont celui de [Girvan et Newman 2002]. Certains de ces algorithmes mentionns sont adaptables pour prendre en compte l'orientation, la pondration, l'tiquetage des artes et le typage des sommets. Ainsi [Brandes 2008] tend son algorithme [Brandes 2001] pour prendre en compte diffrentes caractristiques de graphes pour calculer la centralit d'intermdiarit, ce qui ouvre dsormais la porte l'utilisation de ces diffrents algorithmes pour adapter [Girvan et Newman 2002]. Enfin nous avons vu sur quels rseaux la qualit et la performance de ces mthodes sont values. Nous allons maintenant montrer que l'avnement du web 2.0 et l'mergence du web smantique amnent appliquer les mthodes d'analyse des rseaux sur de nouvelles traces gnres par les usages du web.

3. Les rseaux sociaux en ligne


Le web fournit des outils de communications qui s'imposent toujours plus en tant qu'lment majeur des modes d'interaction de notre socit. La communication est un lment essentiel de la socialisation et les interactions des utilisateurs du web au travers de leurs usages sont devenues des sources de choix pour extraire et analyser des rseaux sociaux de trs grandes tailles (de l'ordre de 106 108 sommets). Les discussions lectroniques et la structure en hyperliens du web tait les Analyse des rseaux sociaux et web smantique: un tat de l'art Page 25 sur 44

ISICIL : Intgration Smantique de l'Information par des Communauts d'Intelligence en Ligne ANR-08-CORD-011-05

Document mis le : 20/07/2009 Rf : ISICIL-DOC-EA1-SNAetWS-20090720

principales sources du web disposition des chercheurs jusqu' l'avnement du web 2.0. La popularit montante des outils collaboratifs du web 2.0 permet d'tudier de nouveaux rseaux avec des acteurs qui fournissent toujours plus d'informations sur eux-mmes mais galement sur les personnes avec qui ils interagissent. Ainsi [Mika 2007] distingue trois catgories de rseaux sociaux sur le web : Les rseaux sociaux infrs avec des techniques de web mining: citations entre pages personnels, pagerank, cooccurrence de noms. Les discussions lectroniques: mails, chat, forum. Les applications sociales du web 2.0: outils de publication (wiki, blog, news), rseaux sociaux, sites de partage (contenu, produits, vnements, etc.) et jeux collaboratifs. [Wellman 2001] argumente que les relations en ligne forment des rseaux sociaux virtuels reprsentatifs des rseaux sociaux rels. En effet ces rseaux virtuels sont crs partir d'interactions inities par des personnes physiques. Cet argument est confirm par [Mika 2007], mais il souligne le caractre incomplet de ces rseaux sociaux en raison de l'absence en ligne de certaines composantes de la ralit. [Hendler et al 2008] montre que le web 2.0 et le web smantique amplifient la connectivit des utilisateurs du web et rapprochent qualitativement les rseaux virtuels des rseaux rels. Cette partie traite dans un premier temps de l'application des techniques d'analyse des rseaux sociaux prcdemment voques aux rseaux sociaux du web, puis de l'apport du web smantique l'analyse des rseaux sociaux.

d) Web 1 et web 2
[Buffa 2008] " dresse l'historique des outils collaboratifs de l'poque prcdant l'arrive du web nos jours". La "libralisation" d'internet la fin des annes 80 a trs rapidement t suivie "par la cration du web par Tim Berners Lee" au dbut des annes 90. Les moyens de communication synchrones et asynchrones proposs par ces technologies ont t massivement adopts par les particuliers dans un premier temps et par les entreprises ensuite. Les sociologues se sont rapidement intresss aux rseaux sociaux mergeant de ces nouveaux moyens de communication plus grands et plus faciles reconstituer qu' l'aide de questionnaires. L'explosion du volume de connaissance prsent sur le web est l'origine du web mining, discipline destine la dcouverte de cette connaissance sur le web, dont un cas d'application est l'extraction de rseaux sociaux. L'affranchissement des barrires gographiques proposes par internet a t vite peru comme une aubaine pour la facilitation de la collaboration. Depuis le milieu des annes 90 et l'apparition du premier wiki, cr par Ward Cunnigham, les logiciels sociaux n'ont cess de prolifrer sur le web jusqu' donner aux internautes la possibilit d'amliorer grandement leur visibilit et devenir des acteurs importants dans le paysage du web et dans son dveloppement.

Analyse des rseaux sociaux et web smantique: un tat de l'art

Page 26 sur 44

ISICIL : Intgration Smantique de l'Information par des Communauts d'Intelligence en Ligne ANR-08-CORD-011-05

Document mis le : 20/07/2009 Rf : ISICIL-DOC-EA1-SNAetWS-20090720

Web mining
[Adamic et Adar 2003] propose une mthode d'extraction des rseaux d'amis des universits de Stanford et du MIT, partir des pages personnelles des tudiants. Les tudiants de ces universits, au moment de l'tude, avaient pour usage de mettre des hyperliens de leur page personnelle vers la page personnelle de leurs amis. Ainsi, dans un premier temps, les auteurs dmontrent que le graphe form par la structure en hyperliens de ces pages possde les proprits des rseaux sociaux : "small world", distribution des degrs en loi de puissance, et un taux de clustering lev. Ensuite, un indice de similarit entre les pages personnelles est dfini partir de la cooccurrence d'lments textuels et de la prsence d'hyperliens entre les pages. [Kautz et al 1997] [Mika 2005 bis] [Matsuo et al 2006] et [Jin et al 2007] se sont intresss l'extraction de rseaux sociaux partir des cooccurrences de noms sur les pages web. Le principe de ces mthodes, consiste mesurer la force d'une relation entre deux personnes en se basant sur les cooccurrences de leur nom. [Kautz et al 1997] et [Mika 2005 bis] utilisent le coefficient de Jaccard qui pour une paire de noms X et Y vaut nX Y/(nX+ny) avec nx et ny le nombre de pages contenant repectivement les noms X et Y, et nX Y. le nombre de pages contenant la fois X et Y. [Matsuo et al 2006] et [Jin et al 2007] utilisent le coefficient de recouvrement qui, avec la mme notation, est dfini ainsi : nX Y/min(nX,ny). Le nombre de pages contenant un nom ou une cooccurrence de noms est obtenu par une requte un moteur de recherche, Altavista pour [Kautz et al 1997] et Google pour les autres. Ces quatre articles proposent des mthodes d'extraction de rseaux sociaux trs proches mais ils exploitent ces rseaux diffremment. [Kautz et al 1997] propose un outil d'exploration de son rseau social pour la recherche d'experts. [Mika 2005 bis] et [Matsuo et al 2006] appliquent la cooccurrence entre des noms et des termes afin d'extraire des rseaux d'affiliation. [Mika 2005 bis] exploite ce rseau d'affiliation pour extraire et construire une ontologie lgre des termes du web smantique. [Matsuo et al 2006] propose un outil d'animation de communauts de chercheurs, POLYPHONET, qui extrait et exploite ce rseau d'affiliation. [Jin et al 2007] rapplique les techniques de [Matsuo et al 2006] pour extraire du web des rseaux d'artistes et de grandes firmes japonaises.

Les discussions synchrones et asynchrones


[Tyler et al 2003] construit un graphe d'interaction entre les personnes d'une entreprise partir de l'analyse des enttes des emails qui contiennent l'metteur et le destinataire. Aprs avoir dmontr que ce graphe possde les proprits inhrentes aux rseaux sociaux il dtermine des communauts de pratique en appliquant la mthode de [Wilkinson et Huberman 2002] base sur l'algorithme de clustering de [Girvan et Newman 2002]. Le dcoupage en communauts et les personnes appartenant ces communauts sont valids par des entretiens avec des membres de sept communauts choisies alatoirement parmi les soixante six communauts dtectes.

Analyse des rseaux sociaux et web smantique: un tat de l'art

Page 27 sur 44

ISICIL : Intgration Smantique de l'Information par des Communauts d'Intelligence en Ligne ANR-08-CORD-011-05

Document mis le : 20/07/2009 Rf : ISICIL-DOC-EA1-SNAetWS-20090720

web 2.0

Figure 9: Panorama des mdias sociaux propos par Fred Cavazza [Cavazza 2009]

La figure 9 synthtise le panorama des mdias sociaux propos par Fred Cavazza sur son blog [Cavazza 2009]. Il dcompose ces rseaux sociaux en 4 catgories principales, les outils d'expression pour publier, discuter et aggrger sa vie sociale, de rseautage pour rechercher, se connecter et interagir avec des personnes, de partage pour publier et s'changer des resources, et des jeux en ligne bass sur la collaboration. Certaines plateformes sociales comme Facebook sont extensibles par API et permettent ainsi d'agrger ces diffrentes pratiques sociales avec des applications ddies. Le social tagging, qui consiste classifier collaborativement des ressources en les annotant avec des tags, s'est impos avec l'mergence du web 2.0 comme l'outil dominant de classification des ressources partages en lignes (flickr, del.icio.us). [Mika 2005] modlise le social tagging avec un graphe tripartite, les sommets tant des utilisateurs, des tags ou des ressources annotes. Les arrtes de ce graphe sont ternaires pour reprsenter l'association d'un tag une ressource par un acteur. Il considre ensuite de plus prs deux sous graphes bipartites. Le premier relie les acteurs aux concepts (tags). Ce graphe permet de dduire un rseau social d'affiliation, les liens sont entre Analyse des rseaux sociaux et web smantique: un tat de l'art Page 28 sur 44

ISICIL : Intgration Smantique de l'Information par des Communauts d'Intelligence en Ligne ANR-08-CORD-011-05

Document mis le : 20/07/2009 Rf : ISICIL-DOC-EA1-SNAetWS-20090720

les acteurs ayant utilis les mmes concepts avec des poids reprsentant le nombre de concepts manipuls conjointement. On en dduit similairement un rseau de concepts, une arte entre deux concepts tant pondre par le nombre d'utilisateurs utilisant ces deux concepts. Le deuxime sous graphe bipartite relie les concepts aux instances (ressources) et permet d'obtenir un rseau de concepts supplmentaires, un lien entre deux tags est pondr par le nombre d'instances annotes avec ces deux tags. Ainsi partir d'un crawl des flux RSS de del.icio.us, Peter Mika cre les graphes simples forms par les deux rseaux de concepts mentionns et les normalise afin d'obtenir deux graphes de mme taille. La densit et le coefficient de clustering moyen sont utiliss pour comparer la cohsion de ces deux rseaux. Il est ensuite dmontr que les concepts ayant les coefficients de clustering les plus levs sont les plus spcialiss. Inversement, les termes avec les coefficients de clustering les moins importants et une forte centralit d'intermdiarit sont les plus gnraux. Enfin un algorithme de clustering, bas sur la dfinition de LS-SET, est appliqu en utilisant [UCINET 2002] afin de dterminer les centres d'intrts des utilisateurs. [Bothorel et Bouklit 2008] modlise une folksonomie extraite partir de flickr avec un hypergraphe. Ils proposent une gnralisation de l'algorithme de dtection de communauts de [Girvan and Newman 2002] pour gnrer des nuages de tags thmatiques et "vrifier s'il apparat un consensus ou des conflits dans l'utilisation des tags parmi les communauts". Les sites de rseaux sociaux en ligne sont devenus des applications phares du web 2.0 et connaissent les plus fortes audiences du web. Parmi les premiers, on retrouve Friendster et Orkut, mais les plus connus et les plus visits aujourd'hui sont Facebook et Myspace. Ces sites permettent leurs utilisateurs de maintenir en ligne leur rseau social rel. La grande audience de ses sites (plus de 100 million dutilisateurs pour Myspace) et l'accs leur rseau par API en font ainsi des sources de choix pour analyser des rseaux sociaux de trs grandes tailles. En effet, les utilisateurs dclarent explicitement leurs relations, il n'est plus ncessaire d'tablir des heuristiques sur leurs usages pour dterminer l'existence de relations entre deux personnes, la nature mme de ces relations est fournie. L'un des problmes les plus discuts ces derniers temps est l'interoprabilit de ces plateformes. Les "agrgateurs" proposent de centraliser le contenu de plusieurs rseaux sociaux. Toutefois ces plateformes sont obliges de manipuler diffrentes API et l'agrgation d'une nouvelle application ncessite l'apprentissage d'une nouvelle API. Pour palier cette contrainte, l'initiative "google open social" propose l'interoprabilit entre les rseaux sociaux au travers d'une seule et unique API. La figure 9 reprsente le rseau social de Guillaume Erto sur facebook construit par l'application TouchGraph avec l'API de Facebook. [Bonneau et al 2009] analyse le rseau facebook des tudiants de Stanford et Harvard partir seulement des 8 amis affichs sur les profils publics. Ils montrent qu'un petit ensemble du rseau est suffisant pour analyser un rseau social et obtenir des informations essentielles telles que la couverture maximum, la centralit d'intermdiarit ou un dcoupage en communaut.

Analyse des rseaux sociaux et web smantique: un tat de l'art

Page 29 sur 44

ISICIL : Intgration Smantique de l'Information par des Communauts d'Intelligence en Ligne ANR-08-CORD-011-05

Document mis le : 20/07/2009 Rf : ISICIL-DOC-EA1-SNAetWS-20090720

Figure 9: Le rseau social de Guillaume Erto extrait par l'application TouchGraph avec l'API facebook

e) Web smantique
Le web smantique offre la possibilit aux machines de comprendre et d'exploiter les ressources du web de manire interoprable. Pour cela le w3c propose des formalismes dots dune syntaxe XML permettant de modliser les concepts du web, de les instancier et de les interroger. Les langages OWL (Ontology Web Language) et RDFS (Ressource Description Framework Schema) permettent de dcrire une ontologie, "ensemble structur des termes et concepts fondant le sens d'un champ d'informations" (http://fr.wikipedia.org/wiki/Ontologie_(informatique)). Le langage RDF (Ressource Description Framework) permet de dcrire les ressources du web, identifies par une URI, avec les Analyse des rseaux sociaux et web smantique: un tat de l'art Page 30 sur 44

ISICIL : Intgration Smantique de l'Information par des Communauts d'Intelligence en Ligne ANR-08-CORD-011-05

Document mis le : 20/07/2009 Rf : ISICIL-DOC-EA1-SNAetWS-20090720

proprits et concepts d'une ontologie, SPARQL en est le langage de requte. La structure de RDF est un modle de graphe, sur lequel nous sommes intuitivement amens appliquer les techniques d'analyses des rseaux sociaux lorsque les ressources dcrites incluent les internautes.

Reprsentation smantique d'un rseau social


Avec le caractre toujours plus participatif du web, le paysage de la toile est dsormais le produit de ses utilisateurs, devenus une des ressources majeures du web. En rponse ce phnomne social, la communaut du web smantique propose des modles ontologiques pour reprsenter et exploiter les profils des utilisateurs, leurs usages et leur rseau social. L'initiative la plus clbre et la plus adopte est l'ontologie FOAF, Friend Of A Friend. Cette ontologie dcrit "les personnes, les liens entre elles et ce qu'elles crent et font". Tout d'abord un large ensemble de proprits reprsentent la plupart des concepts ncessaires la description d'un profil. Par exemple "family_name", "nick" et "interest" permettent respectivement de dfinir le nom de famille, le surnom et un intrt d'une personne. Ensuite la proprit "knows" est utilise pour connecter les profils entre eux et ainsi former le rseau social des profils FOAF. Enfin FOAF modlise les usages des utilisateurs avec des classes pour reprsenter les ressources manipules (OnlineAccount, Document, Group) et des proprits pour les interactions des utilisateurs avec ces ressources (holdsOnlineAccount, weblog, member). Nous avons vu que si FOAF permet de dcrire prcisment les profils utilisateurs, la modlisation des relations entre utilisateurs et les usages est elle trs large. Les bases proposes sont ainsi tendues par plusieurs ontologies. L'ontologie RELATIONSHIP5 spcialise les relations dans le rseau social en proposant un ensemble de proprits tendant la proprit "knows" de FOAF. RELATIONSHIP modlise un grand nombre de liens entre les personnes comme les relations familiales, amicales ou encore professionnelles. Les activits en lignes principalement modlises dans l'ontologie FOAF par la classe "OnlineAccount" et la proprit "holdsOnlineAccount" sont spcialises dans l'ontologie SIOC. SIOC dcrit "l'information contenue explicitement et implicitement dans les moyens de communication d'internet". Pour cela, cette ontologie modlise les concepts issus des applications sociales du web, tels que les "Posts" des forums. SIOC rutilise au mieux les ontologies existantes et sest presque impose comme standard smantique pour certaines applications ddies, la plus connue tant le moteur de blog WordPress (http://wordpress.org). Ainsi, la gestion des proprits des documents utilise l'ontologie du Dublin Core6 qui fournit notamment les proprits "title", "creator" et "subject". La gestion de l'articulation des concepts manipuls au travers des usages est galement dlgue l'ontologie spcialise: SKOS. Cette dernire offre la possibilit de dfinir les labels associs un concept avec les proprits "prefLabel" et "altLabel", l'articulation entre ces concepts avec "narrower", "broader" et

5 6

http://vocab.org/relationship/ http://dublincore.org/

Analyse des rseaux sociaux et web smantique: un tat de l'art

Page 31 sur 44

ISICIL : Intgration Smantique de l'Information par des Communauts d'Intelligence en Ligne ANR-08-CORD-011-05

Document mis le : 20/07/2009 Rf : ISICIL-DOC-EA1-SNAetWS-20090720

"related", mais aussi les liens avec les documents et la gestion des significations. La figure 10 illustre l'articulation des ontologies SIOC, FOAF et SKOS.

Figure 10 : Exemple d'articulation des ontologies SIOC, FOAF et SKOS

Le social tagging consiste partager des ressources et les classifier avec des annotations sous forme de tags. Le fruit du social tagging est une classification de ressources librement tablie par les utilisateurs, appele folksonomie. L'adoption massive de cette pratique par les utilisateurs du web2.0 et la classification propose par les folksonomies ont amen la communaut du web smantique s'intresser de prs ces usages. Ainsi [Gruber 2005] pose les bases d'une ontologie dcrivant les concepts essentiels d'une folksonomie. Il dfinit tout particulirement le noyau d'une folksonomie, savoir l'action de "tagging" compose d'une ressource, d'un tag et d'un utilisateur. [Knerr 2007] s'appuie sur cette base pour proposer une ontologie qui prend notamment en compte la gestion de la vie prive et utilise FOAF pour modliser les acteurs. L'ensemble des tags manipuls par une personne ou un groupe de personnes est appel un nuage de tags. Le nuage de tags est l'une des alternatives pour naviguer au sein des ressources d'une folksonomie. L'ontologie SCOT [Kim et al 2007] s'intresse de prs ces nuages de tags et commence s'imposer comme moyen de "reprsenter la structure et la smantique des donnes du social tagging afin de les partager et de les rutiliser". SCOT [Kim et al 2007] dans la suite de SIOC s'intgre parfaitement au sein du trio ontologique FOAF, SIOC et SKOS (figure 11). L'initiative MOAT [Passant et al 2008], Mining Of A Tag, complte cet ensemble ontologique en permettant de modliser la signification des tags. Enfin [Limpens et al 2009] propose une ontologie pour modliser les points de vues des utilisateurs sur la structuration des folksonomies en leur permettant de valider ou d'invalider des infrences algorithmiques de liens smantiques.

Analyse des rseaux sociaux et web smantique: un tat de l'art

Page 32 sur 44

ISICIL : Intgration Smantique de l'Information par des Communauts d'Intelligence en Ligne ANR-08-CORD-011-05

Document mis le : 20/07/2009 Rf : ISICIL-DOC-EA1-SNAetWS-20090720

Figure 8 : Articulation de SCOT avec FOAF, SIOC et SKOS Dans la reprsentation smantique des personnes et des usages, il est important de mentionner les microformats. Comme l'argumente [Khare and Celik 2006], cette initiative est importante dans la marche en avant vers un web smantique qui doit passer par une smantique lgre avant d'atteindre le but attendu par la communaut. Le principe des microformats est d'utiliser les attributs de HTML de manire consensuelle dans l'optique d'ajouter de la smantique embarque dans un document XHTML. Les rgles mises en place permettent de s'abstenir de l'usage d'une ontologie et de mettre en place un mcanisme de smantique lgre, sans rgles d'infrence ni relations de subsomption. On retrouve ainsi un ensemble de microformats (http://microformats.org/wiki) permettant de dcrire des personnes, des ressources et des rseaux sociaux. Par exemple, le microformat hCard pour reprsenter une carte de visite (nom, couriel, adresse, etc.), hResume pour la publication de CV et "XFN" (XTML Friends Network) pour dcrire un rseau de connaissances sont des microformats qui permettent de reprsenter les profils des personnes. De nombreux microformats sont destins la dfinition des ressources et usages du web: "hAtom" est utilis pour la description des weblogs, "hCalendar" pour les vnements, "xfolk" pour les folksonomies, "votelink" pour les votes, "hReview" pour les revues sur les produits, "XMDP" pour les mtadonnes d'une page, "adr" pour les adresses et "geo" pour la go-localisation. Des micros formats sont aussi disponibles pour dfinir la nature d'un lien hypertext en utilisant l'attribut "rel" de la balise <a>: rel="tag" pour les tags, rel="enclosure" pour les fichiers attachs, rel="nofollow" pour les liens ne pas prendre en compte pour les algorithmes d'indexation, rel="directory" pour les liens vers un rpertoire, rel="licence" pour les licences et rel="home" pour dsigner une page d'accueil. Grce leur facilit d'intgration, ces microformats sont largement Analyse des rseaux sociaux et web smantique: un tat de l'art Page 33 sur 44

ISICIL : Intgration Smantique de l'Information par des Communauts d'Intelligence en Ligne ANR-08-CORD-011-05

Document mis le : 20/07/2009 Rf : ISICIL-DOC-EA1-SNAetWS-20090720

utiliss (http://microformats.org/wiki/implementations) notamment dans l'optique de la portabilit des donnes mais aussi pour une exploitation directe des informations (import d'une carte de visite dans son rpertoire, ajout d'un vnement dans son agenda, visualisation sur une carte d'un lieu, etc.). [Adida 2008] propose une mthode pour augmenter la smantique de ces microformats en les portant en RDFa afin de les relier des ontologies existantes, telles que celles mentionnes prcdemment.

Analyse de rseaux sociaux smantiques


Plusieurs millions de profils FOAF sont en ligne sur le web. Le succs de FOAF est en grande partie d son adoption par des applications sociales ayant une forte audience. On retrouve notamment des fournisseurs de blogs (www.livejournal.net) et des sites de rseaux sociaux (www.tribe.net). Les liens entre les profils FOAF forms par la proprit "knows" dfinissent un rseau daccointances. [Finin et al 2005] dmontre que ce rseau possde des caractristiques des rseaux sociaux comme la rpartition des degrs suivant une loi de puissance et une structure en communauts. [Paolillo et al 2006] appliquent des techniques d'analyse des rseaux sociaux une base d'annotations FOAF extraites par un crawl RDF des profils de LiveJournal. Ils construisent deux rseaux sociaux partir des proprits "knows" et "interest". Le premier est le rseau d'accointance form par la proprit "knows" qui spcifie une relation en reliant des profils FOAF. Le deuxime rseau est le rseau d'intrts extraits partir de la proprit "interest" qui modlise les centres d'intrts. Ces deux rseaux sont filtrs pour minimiser leur taille et les temps de calculs. Ainsi, le rseau "knows" est rduit aux 200 profils les plus connects et le rseau "interest" prend en compte les 500 intrts les plus mentionns. Suite ce filtrage, un clustering hirarchique (l'algorithme utilis n'est pas prcis) est appliqu pour extraire des groupes d'utilisateurs et des groupes d'intrts. Les groupes d'intrts sont ainsi concentrs en neuf groupes d'intrts gnraux tels que l'art, la sexualit ou la musique. Le rsultat du clustering du rseau "knows" est visualis diffrents niveaux de coupe du dendrogramme obtenu afin de dterminer visuellement les indices de centralit et l'articulation des diffrents groupes. Ces deux rseaux sont ensuite fusionns en un graphe bipartite pour dterminer les principaux centres d'intrts de chaque groupe d'utilisateurs. [Goldbeck et al 2003] tend l'ontologie FOAF pour ajouter des proprits relatives la confiance afin de modliser un rseau social de confiance. En se basant sur la notion de contrainte de rseau, un algorithme est ensuite propos pour dterminer le risque pour une personne d'accorder sa confiance une autre personne. La prolifration des profils FOAF et la dcentralisation de leur production au sein des diffrents rseaux sociaux posent le problme de la multiplicit des profils pour une mme personne. [Goldbeck et Rothstein 2008] transforme ce problme en atout pour le web smantique avec une mthode de fusion des profils FOAF. Plusieurs proprits de FOAF dcrivent un courriel, un identifiant de messagerie ou une page web personnelle qui sont par nature unique une personne. Deux profils partageant une valeur identique pour une de ces proprits dsignent donc la mme personne et peuvent tre fusionns. Les personnes ayant des profils sur plusieurs sites de rseautage social deviennent ainsi des hubs entre les rseaux sociaux du web. Analyse des rseaux sociaux et web smantique: un tat de l'art Page 34 sur 44

ISICIL : Intgration Smantique de l'Information par des Communauts d'Intelligence en Ligne ANR-08-CORD-011-05

Document mis le : 20/07/2009 Rf : ISICIL-DOC-EA1-SNAetWS-20090720

[San Martin et a 2009] tudie l'expressivit et la complexit de SPARQL. Ils montrent que RDF et SPARQL prsentent toutes les caractristiques pour l'change, l'interoprabilit, la transformation et l'interrogation de donnes sociales sur le web. Toutefois ils montrent aussi que la version standard de SPARQL n'est pas assez expressive pour effectuer des requtes "globales" sur un rseau social, ncessaires pour calculer la plupart des mtriques de l'analyse des rseaux sociaux. D'autres chercheurs ont quant eux apport des supports smantiques l'analyse des graphes forms par les bases d'annotations smantiques au format RDF. [Anyanwu et al 2007] et [Kochut et al 2007] proposent des extensions de SPARQL, le langage de requte d'annotation RDF du W3C, afin d'extraire des chemins entre des ressources smantiquement lies. [Anyanwu et al 2007] propose l'extension SPARQ2L qui permet d'imposer l'inclusion de certaines ressources dans les chemins extraits des contraintes de taille sur leur longueur. L'extension SPARQLeR de [Kochut et al 2007] permet de manipuler plus de caractristiques sur les chemins : o Contraintes sur la longueur des chemins. o Possibilit d'imposer la prsence d'une ressource sur les chemins. o Prise en compte ou non de l'orientation des chemins qui sont par nature orients dans les graphes RDF. o Expressions rgulires permettant de filtrer la squence et type des ressources et proprits contenues dans les chemins. o Prise en compte du polymorphisme des ressources. L'extension de [Kochut et al 2007] a t intgre dans le moteur smantique CORESE [Corby et al 2004] [Corby 2008], avec certaines modifications syntaxiques. [Ereteo et al 2009] propose un framework pour analyser des rseaux sociaux smantiques en exploitant les extensions de SPARQL, implmentes dans CORESE. [Tifous et al 2007] a ouvert la voie de nouveaux algorithmes d'analyse des rseaux sociaux bass sur des dfinitions smantiques des indices d'analyses de ces rseaux. Une ontologie des communauts de pratique est propose en respect avec la dfinition de [Wenger 1998] qui extrait trois constituants essentiels la dfinition d'un groupe d'individus comme communaut : Un engagement mutuel : tous les membres sont engags dans un processus de partage et d'interaction de connaissances, de transmission de comptences, et d'entraide. Cet engagement mutuel est caractris par la rciprocit des relations, la confiance et l'ouverture. Une entreprise commune : une communaut possde une entreprise commune dont la signification dpasse celle d'un objectif ou d'un but. Il s'agit de l'ensemble des processus qui mnent la constitution de produits communs. Un rpertoire partag : Un ensemble de ressources communes sont ncessaires la vie de la communaut. Ces ressources servent de support dans la ngociation, et la dfinition du sens, des choix adopter. Ces ressources sont un vocabulaire propre la communaut, des rfrences (personnes, documents, sites) ainsi que des lieux d'change (lieu physique, forum, blog, )

Analyse des rseaux sociaux et web smantique: un tat de l'art

Page 35 sur 44

ISICIL : Intgration Smantique de l'Information par des Communauts d'Intelligence en Ligne ANR-08-CORD-011-05

Document mis le : 20/07/2009 Rf : ISICIL-DOC-EA1-SNAetWS-20090720

4. Analyse smantique des rseaux sociaux


La disponibilit en ligne des donnes des rseaux sociaux sous diffrents formats, les efforts de modlisation smantique associs et la structure en graphe du langage RDF nous amne envisager une nouvelle conception de l'analyse des rseaux sociaux. Les approches actuelles des algorithmes d'analyse des rseaux sociaux sont bases sur des dfinitions et les caractristiques des graphes reprsentant les rseaux sociaux. La smantique des indicateurs mesurs n'est pas prise en compte. Par exemple, les algorithmes de dtection de communauts utilisent des dfinitions relies des caractristiques de graphes, aucune ne se base sur une dfinition sociologique d'une communaut. La modlisation ontologique de la dfinition de [Wenger 1998] par [Tifous et al 2007] peut servir d'exemple pour extraire smantiquement des communauts. Les donnes sociales dcrites en RDF forment un graphe typ qui fournit une reprsentation plus puissante et plus riche des rseaux sociaux du web par rapport aux modles de graphe classiques l'analyse des rseaux sociaux. Dans [Ereteo et al 2009] nous dcrivons un framework bas sur ces reprsentations enrichies pour proposer une analyse smantique des interactions en ligne. La Figure 11 illustre la pile d'abstraction que nous utilisons pour effectuer cette analyse.

Figure 9: Pile d'abstraction d'une analyse smantique des rseaux sociaux.

Nous reprsentons les donnes sociales en RDF en utilisant les ontologies prsentes ainsi que des ontologies de domaines si ncessaire. Nous enrichissons ensuite ces donnes sociales avec des indicateurs issus de l'analyse des rseaux sociaux qui sont extraits avec des requtes SPARQL. SemSNA est une ontologie qui dcrit les concepts de l'analyse des rseaux sociaux (ex: la centralit). Cette ontologie permet (1) d'abstraire les ontologies construites partir d'ontologies de domaine Analyse des rseaux sociaux et web smantique: un tat de l'art Page 36 sur 44

ISICIL : Intgration Smantique de l'Information par des Communauts d'Intelligence en Ligne ANR-08-CORD-011-05

Document mis le : 20/07/2009 Rf : ISICIL-DOC-EA1-SNAetWS-20090720

pour appliquer nos outils sur des schmas existants; et (2) d'enrichir les donnes sociales avec de nouvelles annotations comme, par exemple, les indices de l'analyse des rseaux sociaux dcrit prcdemment. Ces annotations permettent d'accompagner plus efficacement le cycle de vie d'une analyse en ne calculant qu'une seule fois les indices coteux et en les actualisant d'une manire incrmentale lorsque le rseau volue dans le temps. Nous proposons des requtes SPARQL paramtrables [Ereteo et al 2009] pour calculer les indices de l'analyse des rseaux sociaux et les paramtrer en fonction de la smantique des liens sociaux considrs. Pour ce faire, nous utilisons le moteur de recherche smantique CORESE [Corby et al 2004] qui propose des extensions puissantes de SPARQL telle que l'extraction de chemin dans des graphes typs [Corby 2008]. Cette approche permet d'interroger directement le graphe social en tenant compte de la diversit des liens sociaux sans passer par des reprsentations intermdiaires.

5. Conclusion et discussion
La sociologie possde aujourd'hui de nombreuses rponses sur la socialisation de lhomme. On retrouve ainsi des motifs rcurrents dans les rseaux sociaux tels que le phnomne des petits mondes, une structure en communaut et la rpartition des degrs suivant une loi de puissances. Comprendre, amliorer ou exploiter le cycle de vie d'un rseau social repose sur un ensemble d'indicateurs majeurs, globaux ou locaux, relatifs ces paterns. Les indicateurs globaux permettent de comprendre la structure gnrale du rseau social comme la densit et l'organisation des groupes d'acteurs. Les indicateurs locaux indiquent les positions stratgiques et les acteurs influents d'un rseau social. Une manipulation conjointe et intelligente de ces deux types d'indicateurs permet d'amliorer l'change d'informations, la crativit ou l'indpendance du fonctionnement d'un rseau par rapport ses acteurs. Une analyse gocentrique permet d'un autre cot un acteur d'adapter ses actions par rapport son entourage direct, en analysant par exemple sa contrainte de rseau ou les risques d'accorder sa confiance, et d'avoir un meilleur accs l'information. La taille croissante des premiers rseaux analyss a rapidement apport des limites aux calculs de certains de ces indices. Si les calculs de densit, de degr ou encore de coefficient de clustering sont triviaux et rapides, ce n'est pas le cas de la centralit d'intermdiarit et de la dtection de communauts, riches en informations. Un calcul de centralit d'intermdiarit exacte est contraint par le calcul des godsiques pour chaque sommet soit une complexit minimale de O(n.m) et donc une limitation 105 sommets pour un temps de calcul raisonnable. Heureusement des approximations de bonne qualit partir d'un petit pourcentage de sommets offrent de bonnes performances et permettent d'estimer la centralit d'intermdiarit pour 106 sommets. L'valuation d'un dcoupage en communaut pose deux problmes principaux, la dfinition mme d'une communaut et la complexit de calcul en fonction de la dfinition choisie. Certaines dfinitions sont lies des caractristiques particulires des graphes telles que les cliques mais sont bien loin des ralits sociales. D'autres sont lies aux caractristiques des rseaux sociaux et l'interprtation d'indices rvlateurs de coupes dans le graphe. Les dfinitions des indices des Analyse des rseaux sociaux et web smantique: un tat de l'art Page 37 sur 44

ISICIL : Intgration Smantique de l'Information par des Communauts d'Intelligence en Ligne ANR-08-CORD-011-05

Document mis le : 20/07/2009 Rf : ISICIL-DOC-EA1-SNAetWS-20090720

rseaux sociaux ne considrent que peu de smantique dans les relations sociales. L'orientation et l'intensit d'une relation sont prises en compte dans certaines dfinitions mais augmentent considrablement la complexit de calcul de la plupart des indices. Les rseaux sociaux contenant plusieurs types de ressources sont en gnral modliss par plusieurs graphes simples afin d'viter l'explosion des complexits de calcul au sein d'un graphe multipartite. Le web tant devenu un lment de communication majeur de notre civilisation, les interactions massives au sein des outils collaboratifs du web 2.0 sont devenues des sources privilgies d'extraction de rseaux sociaux pour les sociologues. Les premiers rseaux sociaux du web taient extraits partir d'hypothses bases sur la cooccurrence de noms dans des pages web ou encore les liens entre les pages personnelles. Le web 2.0 a effectu un pas supplmentaire dans la socialisation du web en fournissant toujours plus d'interactions entre les internautes, et rservant mme une prsence en ligne privilgie pour les rseaux sociaux rels, au travers de plateformes ddies la socialisation. En modlisation smantiquement les personnes, leurs usages en ligne et les ressources qu'ils manipulent, la communaut du web smantique ouvre la voie une approche smantique de l'analyse des rseaux sociaux. Certains travaux s'orientent dj dans ce sens en fournissant des outils d'analyse des graphes du web smantique. L'avnement du web smantique est un pas supplmentaire pour la qualit de reprsentation en ligne des rseaux sociaux rels, estce aussi une porte ouverte la smantisation de leur analyse?

C. References
[Adamic et Adar 2003] L. A. Adamic et E. Adar. Friends ans Neighbors on the web. Social Networks, vol 25, p211-230 (2003). [Adida 2008] B. Adida : hGRDDL: Bridging micorformats and RDFa. Special Issue of the Journal of Web Semantics on Semantic Web and Web 2.0, Volume 6, Edited by Mark Greaves and Peter Mika, Elsevier, p 61-69 (2008) [Alkhateeb et al 2007] F. Alkhateeb, J.F. Baget, J. Euzenat, RDF with Regular Expressions INRIA RR6191, http://hal.inria.fr/inria-00144922/en. (2007) [Anyanwu et al., 2007] M. Anyanwu, A. Maduko, A. Sheth, SPARQL2L: Towards Support for Subgraph Extraction Queries in RDF Databases, Proc. WWW2007. (2007) [Bader et Madduri 2006] D. A. Bader, K. Madduri, Parallel algorithms for evaluating centrality in real-world networks. ICPP2006 (2006). [Bader et al 2007] D. A. Bader, S. Kintali, K. Madduri, and M. Mihail. Approximating betweenness centrality. WAW2007 (2007) [Barabasi et al, 1999] A. Barabasi and R. Albert. Emergence of scaling in random networks. Science, 286:509-512. (1999).

Analyse des rseaux sociaux et web smantique: un tat de l'art

Page 38 sur 44

ISICIL : Intgration Smantique de l'Information par des Communauts d'Intelligence en Ligne ANR-08-CORD-011-05

Document mis le : 20/07/2009 Rf : ISICIL-DOC-EA1-SNAetWS-20090720

[Barber 2007] M.J. Barber: Modularity and Community Detection in Bipartite Network. Phys. Rev. E, 76, 036106. (2007). [Berge 1985] C. Berge. Graphs and Hypergraphs. Elsevier Science Ltd. (1985) [Bolshakova et Azuaje 2003] N. Bolshakova et F. Azuaje. Cluster validation techniques for genome expression data. Signal processing, 83:825-833. (2003). [Bonacich 1987] P. Bonacich, Power and centrality: A family of measures. American Journal of Sociology, 92, 1170-1182. (1987). [Bonneau et al 2009] J. Bonneau, J. Anderson, F. Stajano, R. Anderson: Eight Friends are Enough: Social Graph Approximation Via Public Listings. SocialNets 2009: The Second ACM Workshop on Social Network System. (2009). [Borgatti 2005] S. P. Borgatti, 2005. Centrality and network flow. Social networks 27 p: 55-71. (2005) [Bothorel et Bouklit 2008] C. Bothorel et M. Bouklit. An algorithm for detecting communities in folksonomy hypergraphs. 8th International Conference on Innovative Internet Community Systems I2CS 2008 June 16-18, 2008, Schoelcher, Martinique Sponsored by IEEE. [Bothorel et Bouklit 2008] C. Bothorel et M. Bouklit. Dtection de structures de communaut dans les hyper-rseaux dinteractions. AlgoTel2008, 10mes Rencontres Francophones sur les Aspects Algorithmiques de Tlcommunications, Saint-Malo, 3 - 16 mai 2008. [Brandes 2001] U. Brandes, A faster algorithm for betweenness centrality. J. Math. Socio 25(2): 163177 (2001). [Brandes et Pich 2007] U. Brandes et C. Pich, Centrality estimation in large networks. Journal of Bifurcation and Chaos in Applied Sciences and Engineering 17(7): 2303-2318 (2007). [Brandes 2008] U. Brandes, On variants of shortest-path betweenness centrality and their generic computation. Social Networks 30 (2): 136-145. [Buffa et al, 2008] M. Buffa, F. Gandon, G. Ereteo, P. Sander et C. Faron, SweetWiki: A semantic wiki, Special Issue of the Journal of Web Semantics on Semantic Web and Web 2.0, Volume 6, Issue 1, February 2008, Edited by Mark Greaves and Peter Mika, Elsevier, Pages 84-97. (2008). [Burt 1992] R. S. Burt, Structural holes. The Social Structure of Competition, Cambridge, Harvard University Press. (1992) [Burt 2001] R. S. Burt, Structural Holes versus Network Closure as Social Capital. N. Lin, K. Cook, R. S. Burt: Social Capital: Theory and research. Aldine de Gruyter: 31-56 (2001) [Burt 2004] R. S. Burt, Structural Holes and Good Ideas. American Journal of Sociology 100(2): 339399 (2004)

Analyse des rseaux sociaux et web smantique: un tat de l'art

Page 39 sur 44

ISICIL : Intgration Smantique de l'Information par des Communauts d'Intelligence en Ligne ANR-08-CORD-011-05

Document mis le : 20/07/2009 Rf : ISICIL-DOC-EA1-SNAetWS-20090720

[Cavazza 2009] F. Cavazza. Social Media Lanscape http://www.fredcavazza.net/2009/04/10/social-media-landscape-redux/

Redux.

[Chen et al 2009] J. Chen, O. R. Zaiane and R. Goebel, Detecting Communities in Social Networks using Max-Min Modularity, SIAM International Conference on Data Mining (SDM'09), Sparks, Nevada, USA, April 30- May 2, 2009 [Coleman 1988] J. S. Coleman. Social capital in the creation of human capital. The American journal of sociology, Vol 94, Supplement: Organizations and Institutions: Sociological and Economic Approaches to the Analysis of Social Structure. (1988) [Corby et al 2004] C. Corby, R. Dieng-Kuntz et C. Faron-Zucker, querying the semantic web with the corese search engine. ECAI/PAIS2004 (2004) [Corby, 2008] Graph Path in SPARQL, Olivier Corby, INRIA, March 2008 http://wwwsop.inria.fr/edelweiss/software/corese/v2_4_0/manual/next.php

[Danon 2005] L. Danon, A. Diaz-Guilera, J. Duch, and A. Arenas. Comparing community structure identification. Journal of statical Mechanics: Theory and Experiment, 2005(09):P09008. (2005). [Donetti et Munoz 2004] L. Donetti et M. A. Munoz. Detecting communities: a new systematic and efficient algorithm. Journal of statical mechanics, 2004(10):10012, 2004. [Ereteo et al 2009] G. Erto, F. Gandon., O. Corby, M. Buffa: Semantic Social Network Analysis. Web Science 2009. (2009) [Everett et Borgatti 1999] M. G. Everett, S. P. Borgatti, 1999. The centrality of groups and classes. Journal of Mathematical Sociology 23 (3), 181 201. [Everett et Borgatti 2005] M. G. Everett, S. P. Borgatti, 2005. Ego network betweenness. Social Networks 1, 215-239. [Finin et al 2005] T. Finin, L. Ding et L. Zou, Social networking on the semantic web. Learning organization journal 5 (12): 418-435. (2005) [Flom et al 2004] P. L. Flom, S. R. Friedman, S. Strauss, A. Neaigus. A new measure of linkage between two sub-networks. Connections 26(1): 62-70 (2004) [Freeman, 1979] L.C. Freeman, Centrality in social networks: Conceptual Clarification. Social Networks. 1, 215-239. (1979). [Freeman et Borgatti 1991] L. C. Freeman, S. P. Borgatti, Centrality in valued graphs: A mesure of betweenness based on network flow. Social Networks 13: 141-154 (1991). [Fortunato et al 2004] S. Fortunato, V. Latora, and M. Marchiori. Method to find community structures based on information centrality. Phys. Rev. E 70(5): 056104 (2004) [Geisberg et al 2008] R. Geisberg, P. Sanders et D. Scultes, Better approximation of betweenness centrality. ALENEX08 (2008).

Analyse des rseaux sociaux et web smantique: un tat de l'art

Page 40 sur 44

ISICIL : Intgration Smantique de l'Information par des Communauts d'Intelligence en Ligne ANR-08-CORD-011-05

Document mis le : 20/07/2009 Rf : ISICIL-DOC-EA1-SNAetWS-20090720

[Girvan and Newman 2002] M. Girvan and M. E. J. Newman, Community structure in social and biological networks. PNAS 99 (12): 7821-7826 (2002) [Girvan and Newman 2004] M. Girvan and M. E. J. Newman, Finding and evaluating community structure in networks. Phys. Rev. E, 69:026113. (2004) [Golbeck et al, 2003] J. Golbeck, B. Parsia, and J. Hendler, Trust network on the semantic web. Proceedings of cooperative information agents (2003). [Goldbeck et Rothstein 2008] J. Goldbeck et M. Rothstein, Linking social Networks on the web with FOAF. Proceedings of the twenty-third conference on artificial intelligence, AAA08. (2008). [Gruber 2005] T. Gruber, Ontology of folksonomy: A mash-up of apples and oranges. In Conference on Metadata and Semantics Research MTSR2005 (2005). [Gustafsson et al 2006] M. Gustafsson, M. Hrnquist et A. Lombardi. Comparison and validation of community structures in complex networks. Phys 367: 559-576 (2006). [Hendler et Goldbeck 2008] J. Hendler et J.r Goldbeck, Metcalfe's law, web 2.0 and the Semantic Web. Journal of Web semantic 6(1): 14-20, 2008 [Holme et al 2002] P. Holme, B. J. Kim, C. N. Yoon et S. K. Han, Attack vulnerability of complex networks, Phys. Rev. E 65, 056109 (2002). [Jin et al 2007] Y. Jin, Y. Matsuo, et M. Ishizuka. Extracting a Social Network among Entities by Web mining. ESWC 2007. (2007). [Kautz et al 1997] H. Kautz, B. Selman, et M. Shah. The hidden Web. AI magazine, Vol. 18, No. 2, pp. 27-35. (1997). [Khare and Celik 2006] R. Khare et T. Celik, Microformats: a pragmatic path to the Semantic Web. Proceedings of the 15th international conference on World Wide Web. [Kim et al 2007] H. Kim, S. Yang, S. Song, J. G. Breslin et H. Kim, Tag Mediated Society with SCOT Ontology. ISWC2007. (2007). [Knerr 2007] T. Knerr, Tagging Ontology Towards a Common Ontology for Folksonomies. http://tagont.googlecode.com/files/TagOntPaper.pdf (2007) [Kochut et al 2007] K. J. Kochut et M. Janik, SPARQLeR: Extended SPARQL for Semantic Association Discovery, Proc. European Semantic Web Conference, ESWC'2007, Innsbruck, Austria (2007). [Latora et Marchiori 2004] V. Latora et M. Marchiori, A measure of centrality based on the network efficiency. Phy 9(6): 188 (2004) [Limpens et al 2009] F. Limpens, F. Gandon et M. Buffa: Smantique des Folksonomies: structuration collaborative et assiste. IC2009. (2009)

Analyse des rseaux sociaux et web smantique: un tat de l'art

Page 41 sur 44

ISICIL : Intgration Smantique de l'Information par des Communauts d'Intelligence en Ligne ANR-08-CORD-011-05

Document mis le : 20/07/2009 Rf : ISICIL-DOC-EA1-SNAetWS-20090720

[Matsuo et al 2006] Y. Matsuo, M. Hamasaki, H. Takeda, T. Nishimura, K. Hasida et M. Ishizuka. POLYPHONET: An advanced social network extraction system. In proceedings WWW 2006 (2006). [Mika, 2005] P. Mika, Ontologies are us: A unified model of social networks and semantics., in The Semantic Web. Proceedings of the 4th International Semantic Web Conference, ISWC 2005, Galway, Ireland, November 6-10, volume 3729 of Lecture Notes in Computer Science, p. 522 536: Springer. [Mika 2005 bis] P. Mika, Flink: Semantic Web Technology for the Extraction and Analysis of Social Networks. Web Semantics: Science, Services and Agents on the World Wide Web, Vol. 3, No. 2-3., pp. 211-223. (2005). [Milgram 1967] S. Milgram. The Small World Problem. Psychology Today, 1(1): 61 67. (1967). [Moreno 1933] J.L. Moreno, Emotions mapped by new geography, New York Times (1933). [Newman 2001] M. E. J. Newman. Scientific collaboration networks. Shortests paths weighted networks, and centrality. Phys Rev 64: 016132 (2001) [Newman 2003] M. E. J. Newman, The structure and function of complex networks. SIAM Review 45, 167-256 (2003). [Newman 2003 bis] M. E. J. Newman. A measure of betweeness centrality based on random walks. Cond-mat/0309045 (2003) [Newman 2004] M. E. J. Newman, Fast algorithm for detecting community in networks. Phys. Rev. E 69, 066133 (2004). [Newman 2004 bis] M. E. J. Newman, Detecting community structure in networks. Eur. Phys. J. B, 38:321-330. (2004). [Newman 2008] E. A. Leicht, M. E. J. Newman, Community structure in directed networks, Phys. Rev. Lett. 100, 118703 (2008). [Nieminem 1974] N. J., On Centrality in a graph". Scandinavian Journal of Psychology 15:322-336. [Paolillo et al 2006] J. C. Paolillo and E. Wright, Social Network Analysis on the Semantic Web: Techniques and Challenges for Visualizing FOAF, in Book Visualizing the semantic WebXmlbased Internet And Information (2006). [Pissard 2008] N. Pissard. "Etude des interactions sociales mediates: methodologies, algrithmes, services". Thse de doctorat. [Passant et al 2008] A. Passant, P. Laublet. Meaning Of A Tag: A Collaborative Approach to Bridge the Gap Between Tagging and Linked Data. LDOW2008. (2008). [Pons et al 2005] Pa. Pons and M. Latapy. Computing communities in large networks using random walks. ISCIS2005 (2005) Analyse des rseaux sociaux et web smantique: un tat de l'art Page 42 sur 44

ISICIL : Intgration Smantique de l'Information par des Communauts d'Intelligence en Ligne ANR-08-CORD-011-05

Document mis le : 20/07/2009 Rf : ISICIL-DOC-EA1-SNAetWS-20090720

[Radicchi et al 2004] F. Radicchi, C. Castellano, F. Cecconi, V. Loreto, and D. Parisi. Defining and identifying communities in networks. Proceedings of national Academy sciences USA 101, p: 2658-2663 (2004) [Raghavan et al 2007] R.N. Raghavan, R. Albert, S. Kumara: Near Linear Time Algorithm to Detect Community Structures in Large Scale Network. Phys. Rev. E, 76, 036106. (2007) [Rattigan et al 2006] M. J. Rattigan, M. Maier, D. Jensen. Using structure indices for efficient approximation of network properties. Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 357-366. (2006) [Rattigan et al 2007] M. J. Rattigan, M. Maier, D. Jensen. Graph clustering with network structure indices. International Conference on Machine Learning (2007). [San Martin et al 2009] M., San Martin, C., Gutierrez: Representing, Querying and Transforming Social Networks with RDF / SPARQL. ESWC09. (2009). [Santos et al 2006] E. E., Santos, L. Pan, D. Arendt, M. Pittkin: An Effective Anytime Anywhere Parallel Approach for Centrality Measurements in Social Network Analysis. IEEE2006 (2006) [Scott 2000] J. Scott, Social network analysis, a handbook. Deuxime edition, Edition Sage. (2000). [Tifous 2007] A. Tifous, A. E. Ghali, R. Dieng-Kuntz, A. Giboin, C. Evangelou, G. Vidou, An Ontology for Supporting a Community of Pratice. K-CAP'07 (2007). [Tyler et al 2003] J. R. Tyler, D. M. Wilkinson, et B. A. Huberman. Email as spectroscopy: automated discovery of community structure within organizations. International Conference on Communities and Technologies p 81-96, Deventer, The Netherlands, 2003. [UCINET 2002] S.P. Borgatti, M.G. Everett et L.C. Freeman. Ucinet for Windows: Software for Social Network Analysis. Harvard, MA: Analytic Technologies. (2002). [Wellman 2001] B. Wellman. Computer Networks As Social Networks. Science 293, 2031-34 (2001). [Wenger 1998] E. Wenger, Communities of Practice: Learning as a Social System Thinker (1998) [White et Borgatti 1994] D. R. White et S. P. Borgatti, Betweenness centrality measures for directed graphs. Social Networks 16, p 335 - 346 (1994). [Wilkinson et Huberman 2003] D. M. Wilkinson et B. A. Huberman. A method for finding communities of related genes. In proceedings of the national Academy of sciences. (2003) [Wu 2004] Fang Wu and Bernando A. Huberman, Finding communities in linear time: a physics approach. Hp Labs (2004) [Xu et al 2007] X. Xu, N. Yuruk, Z. Feng and T. A. J. Schweiger. SCAN: a Structural Clustering Algorithm for Networks. In KDD, pages 824.833. (2007)

Analyse des rseaux sociaux et web smantique: un tat de l'art

Page 43 sur 44

ISICIL : Intgration Smantique de l'Information par des Communauts d'Intelligence en Ligne ANR-08-CORD-011-05

Document mis le : 20/07/2009 Rf : ISICIL-DOC-EA1-SNAetWS-20090720

[Zhou et Lipowsky 2004] H. Zhou et R. Lipowsky. Network browniam motion: A new method to measure vertex-vertex proximity and to identify communities and subcommunities. International conference on computational science, p: 1062-1069 (2004).

Analyse des rseaux sociaux et web smantique: un tat de l'art

Page 44 sur 44

You might also like