Je n’ai pas été assez clair dans mon dernier billet, donc voici quelques petites précisions :

(1) La couleur des liens indique leur direction (les liens sortants ont la même couleur que le noeud dont ils sortent). On voit ainsi que le blog de Ch. Bricman a de nombreux liens sortants [et réciproques].  En théorie des graphes, on appelle ça un « hub« . Mais un hub n’est pas nécessairement une autorité, c’est-à-dire qu’il ne possède pas nécessairement le plus grand nombre de « liens entrants ».

(2) La taille des points (centralité) indique quant à elle le nombre de fois qu’une personne apparaît sur les chemins (courts) qui parcourent le réseau (average shortest path), tous chemins confondus (les liens entrants mais aussi les liens sortant). C’est là une information importante, mais qui n’indique pas grand chose d’autre que la capacité des acteurs à employer des hyperliens pour citer de nombreux autres membres du réseau.

(3) Par ailleurs – comme on l’a fait remarquer ce matin – il y a des journaux en ligne qui citent des blogs sans utiliser le moindre hyperlien : il est nécessaire de revoir ce travail de mapping en intégrant les médias traditionnels dans l’analyse. Je crois  d’ailleurs que c’est un travail qui a récemment été initié par une doctorante de l’ULB (J. De Maeyer).

Pour une introduction à Navicrawler, c’est ici.

Et pour un introduction à Gephi 0.7, c’est ici

Publicités

Quelles sources les blogueurs citent-ils le plus souvent ? C’est une question que vous vous êtes sans doute déjà posée, et à laquelle vous vous êtes certainement dit qu’il était difficile d’apporter une réponse claire et précise. Détrompez-vous… S’il y a des sites dont vous souhaitez connaître les sources, faites-en simplement la liste… et suivez la procédure suivante !

Etape 1. téléchargez le plug-in Navicrawler 1.7.1 ; il permet de lancer des procédures d’auto-navigation (crawl) sur les sites que vous souhaitez explorer (n= > 5). Au fil de la navigation, le logiciel enregistrera tous les liens sortants. Au bout d’une vingtaine de minutes, il aura collecté une vaste base d’hyperliens. Ceux-ci étant trop nombreux que pour pouvoir être intégrés dans un graphe lisible, il vous faudra opérer une sélection.

Etape 2. Vous ne devrez garder que les liens les plus influents, ceux que les blogueurs ont cités à plusieurs reprises. Il existe pour cela une fonction qui vous permet de réduire votre base de données pour ne garder que les liens les plus cités. Il vous faut également exclure les liens que vous jugez non-pertinents. Si votre étude porte sur les blogs de journalisme politique, il vous faut par exemple exclure, un par un, les blogs technologiques, sportifs, promotionnels etc. Au terme de cette procédure de nettoyage, vous pourrez classer les différents liens en fonctions de sous-thématiques, et exporter votre base de données sous format .gnp.

Etape 3. Dans le logiciel Gephi 0.7, ouvrez le fichier (.gnp) que vous venez de constituer.  Un graphe apparait dans la fenêtre centrale. Pour le rendre un peu plus lisible, il vous suffit d’ouvrir l’onglet « layout » et de lancer l’algorithme « force atlas ». Si la structure n’est pas assez aérée, vous pouvez introduire une valeur plus grande dans « repulsion strength« … Bon, les différentes fonctions du programme sont un peu trop nombreuses pour pourvoir être expliquées ici. Je vous conseille donc de télécharger le manuel explicatif que voici.

Les résultats : J’ai testé le programme sur base d’un très petit noyau. Le coeur de mon réseau est constitué de 7 ou 8 blogs de journalistes politiques francophones.  On retrouve, à gauche du graphe, les questions de politique fédérale et et de communication politique (Charles Bricman, Fabrice Grosfilley, Michel Geyer, Michel Henrion). A droite, les questions communautaires et de politique des minorités (Mehmet Koksal, Henri Goldman, Marcel Sel…). Au centre du réseau, se trouvent les sources communes à tous blogueurs (Le Soir, La Libre).

La taille d’un point (noeud) représente sa centralité, un indice qui est fonction du nombre du nombre de fois que le point figure dans les chemins les plus courts (entre les différents points du réseau). Si je le voulais, je pourrais parfaitement faire en sorte que la taille d’un noeud indique une autre variable, comme le nombre de liens entrants (ce qui constitue un bon indicateur de l’autorité du blog). Cela nous permettrait de mettre en évidence la présence de blogs qui, bien que peu connectés, sont régulièrement cités par d’ autres blogs (blogs.rtlinfo.be). Dernière chose : la couleur d’un lien indique la direction de ce lien : chaque lien a la couleur du noeud dont il sort.

Critique : Je trouve les deux programmes très bien pensés, mais j’ai tout de même rencontré quelques difficultés, en cours de route. Permettez-moi de vous en faire part… :

(1) Avec l’utilisation de la fonction de navigation automatique, certains liens sortants sont pris comme des « sources privilégiées » alors qu’il ne s’agit que d’hyperliens présents au sein de commentaires de lecteurs. Seule solution : examiner chaque site dans le détail.

(2) Quand deux ou trois URL renvoient vers un même site – comme c’est souvent le cas – les nœuds apparaissent en double ou en triple. Il faut les fusionner en transformant les lignes de codes au sein du fichier .gnp. Si quelqu’un connaît un autre moyen de les fusionner, qu’il/elle me le dise… je suis preneur.

(3) Un blog peut constituer une source influente aux yeux d’autres blogueurs, sans que l’observateur en prenne conscience ; soit parce que ces blogueurs s’éloignent du champ thématique circonscrit par le chercheur, soit parce qu’ils font partie de systèmes d’échange distincts, ou de sous-graphes faiblement connectés au graphe initial (cutpoint). C’est pas simple : il faut trouver un juste milieu entre cohérence et précision.

Voilà. J’espère avoir pu vous être utile. Si vous avez des conseils, des questions, des suggestions, écrivez-moi ! Bonne chance.

1. Qu’est-ce qu’un graphe ?

Dans la théorie des graphes, un individu est un noeud (n), et on le représente par un point. Les noeuds peuvent soit être être connectés les uns aux autres, par des liens. Pour désigner un ensemble de deux ou trois noeuds (N = {n1, n2}), on utilise les mots « diade » ou « triade ».

Ensuite, pour désigner un ensemble de liens, on utilise la lettre (L). Et pour désigner un lien spécifique entre deux noeuds on écrit l1 = < n1, n2>. Si l’on s’abstient de tenir compte les liens réflexifs (loops), le nombre maximum de liens entre g acteurs, au sein d’un graphe, est égal à g(g-1)/2. Ces liens peuvent être représentés sous forme de matrices sociales (sociomatrix).

n1 n2 n3 n4 n4
n1 1 0 0 0
n2 1 1 0 0
n3 1 0 1 0
n4 1 0 0 1
n5 1 0 0 0

Ensuite, vient la question la cohésion, ou de la connectivité du graphe, c’est-à-dire de son aptitude à rester entier en dépit de la disparition de noeuds et de liens. D’un seul noeud peut dépendre la connectivité de tout graphe, auquel cas on appelle ce noeud “cutpoint”. Les liens entre cutpoints on les appelle “ponts” (bridges), ou des “liens faibles”. Dans la graphe suivant, c’est le blog du journaliste politique Jean-Paul Marthoz qui joue le rôle de cutpoint. On voit que, sans lui, le sous-graphe francophone (en rouge) serait déconnecté du sous-graphe anglophone (en bleu).

Il y est maintenant possible d’élaborer des graphes plus élaborés qui contiennent différentes sortes de liens (graphes mutlivariés), ou des graphes qui représentent, non seulement les liens entre acteurs, mais aussi les liens entre agrégats d’acteurs (hypergraphes). Au sein de ces agrégats, on peut mesurer non seulement la densité des liens, mais aussi leur “centralité”.

Mais dans l’étude des réseaux de journalistes, on s’intéresse également à des variables relationnelles autres que la densité ou la centralité : on s’intéresse par exemple au prestige de X aux yeux d’Y, ou l’autorité de X sur Y… D’où l’intérêt d’identifier des relations directionnelles (arcs), représentées par des flèches. La valeur simple d’une relation directionnelle est notée X (xij= la valeur de la relation x qui va de ni à nj).

2. Comment visualiser un réseau social ?

Voici un graphe produit à l’aide d’un outil de mapping nommé « Gephi« . Chaque noeud représente l’URL d’un blog de journalisme politique belge. Les liens directionnels représentent quant à eux des hyperliens contenus dans les « blogrolls » des différents sites explorés. Au sein de chaque site, il a fallu exclure les URL hors-thème, pour ne garder qu’une petite dizaine de « sites voisins ».

Voici enfin un graphe un peu plus étendu. Le coeur du réseau est constitué des liens qui ont cités sur le blog de J.-P. Marthoz, au cours de l’année 2010, ainsi que de ceux qu’il a placés dans sa blogroll. La taille des noeuds représente la centralité dans le réseau (betweeness centrality). Ce genre de représentation graphique pose au moins un problème : elle sous-évalue les sites qui ne contiennent que peu de liens hypertextes ; c’est pourquoi il est utile de compléter le travail de mapping d’URL par un travail d’analyse sémantique.

___

Programme de mapping : Gephi 0.7

Module à installer sur Firefox : Navicrawler 1.7.1

MediaLab Science Po’ Paris

Mapping controversies du MIT

Blog d’une doctorante de l’ULB, sur la visualisation de réseaux sociaux

Il y a quelques semaines (le 20 novembre 2009), Bruno Latour s’exprimait au micro de France Culture. Il y parlait de la façon dont le web permet aujourd’hui, aux chercheurs en sciences sociales, de visualiser les espaces de débats et de tracer des controverses scientifiques (cf. MediaLab, NaviCrawler). Le web – estime Latour – nous offre aujourd’hui la possibilité de concrétiser le projet de Gabriel Tarde, c’est-à-dire de repérer les formes linguistiques qui expriment la confiance (ou la méfiance), de tracer les réseaux de confiance… Dans ces réseaux, on peut voir émerger les « atomes » et les « agrégats » : par exemple, dans le cas de la « controverse en ligne » sur le climat, on peut voir dans le détail que les climato-sceptiques – les personnes qui mettent en cause la fait que le réchauffement climatique soit dû à l’activité humaine – sont alliés à un tas d’autres querelles, comme « contre la règlementation des industries pétrochimiques » ou la « lutte contre l’avortement« .

Je vous laisse un petit aperçu d’un des meilleurs moments de l’interview : « [A]vant on avait un immense décalage entre le suivi de l’activité scientifique – des arguments – et le suivi des rumeurs, des opinions, des passades, des modes etc. Et maintenant, modes, passades, opinions ou arguments sont traçables par les mêmes outils. Et cela à une conséquence politique très importante (…). Cela donne à l’espace politique une visualisation à la fois des arguments, des rumeurs et des opinions, ce qui est assez important dans des sujets qui les mélangent. Par exemple, ça fait maintenant un mois que j’essaie de savoir si je dois me faire vacciner du H1N1. Et je n’arrive pas à me faire une opinion. Si le MediaLab faisait son boulot sérieusement, on aurait des outils qui permettraient de suivre à la fois les arguments des différents chercheurs et les opinions – les rumeurs -; et de distinguer les deux. Ce qui est assez compliqué dans ce cas là puisque ce sont précisément les médecins et les infirmières qui sont souvent à l’origine de rumeurs sur la vaccination ».

Et voici l’émission dans son intégralité.