août 2010


Je n’ai pas été assez clair dans mon dernier billet, donc voici quelques petites précisions :

(1) La couleur des liens indique leur direction (les liens sortants ont la même couleur que le noeud dont ils sortent). On voit ainsi que le blog de Ch. Bricman a de nombreux liens sortants [et réciproques].  En théorie des graphes, on appelle ça un « hub« . Mais un hub n’est pas nécessairement une autorité, c’est-à-dire qu’il ne possède pas nécessairement le plus grand nombre de « liens entrants ».

(2) La taille des points (centralité) indique quant à elle le nombre de fois qu’une personne apparaît sur les chemins (courts) qui parcourent le réseau (average shortest path), tous chemins confondus (les liens entrants mais aussi les liens sortant). C’est là une information importante, mais qui n’indique pas grand chose d’autre que la capacité des acteurs à employer des hyperliens pour citer de nombreux autres membres du réseau.

(3) Par ailleurs – comme on l’a fait remarquer ce matin – il y a des journaux en ligne qui citent des blogs sans utiliser le moindre hyperlien : il est nécessaire de revoir ce travail de mapping en intégrant les médias traditionnels dans l’analyse. Je crois  d’ailleurs que c’est un travail qui a récemment été initié par une doctorante de l’ULB (J. De Maeyer).

Pour une introduction à Navicrawler, c’est ici.

Et pour un introduction à Gephi 0.7, c’est ici

Pour ceux que ça intéresse, voici une carte de la blogosphère journalistique belge francophone.

(1) Le blog le plus central, celui qui apparaît le plus souvent sur les chemins les plus courts (entre les différents points du réseau) est celui de Charles Bricman. Viennent ensuite les plateformes de la Libre Belgique et du Soir (Politic Twist et  Saga Belgica). En dehors de ces deux plateformes, les blogs des journaux sont plutôt isolés (cf. bas de graphe) : La Libre Belgique a un grand nombre de blogs, mais qui restent assez peu connectés au reste de la blogosphère.

(2) On observe aussi une séparation gauche / droite : Les blogs de gauche et les blogs relatifs aux questions de minorités sont concentrés en haut du graphe. Les blogs libéraux sont plus éparpiés (Grand Barnum, On Vote Pour Eux …).

(3) On voit enfin que les sites plus fréquentés ne sont pas nécessairement les sites les plus centraux et les mieux connectés. Des sites fort fréquentés – comme « Parlemento » de Mehmet Koksal, le blog de Marcel Sel, ou de Henri Goldman – passent presque inaperçus au sein du graphe…


Quelles sources les blogueurs citent-ils le plus souvent ? C’est une question que vous vous êtes sans doute déjà posée, et à laquelle vous vous êtes certainement dit qu’il était difficile d’apporter une réponse claire et précise. Détrompez-vous… S’il y a des sites dont vous souhaitez connaître les sources, faites-en simplement la liste… et suivez la procédure suivante !

Etape 1. téléchargez le plug-in Navicrawler 1.7.1 ; il permet de lancer des procédures d’auto-navigation (crawl) sur les sites que vous souhaitez explorer (n= > 5). Au fil de la navigation, le logiciel enregistrera tous les liens sortants. Au bout d’une vingtaine de minutes, il aura collecté une vaste base d’hyperliens. Ceux-ci étant trop nombreux que pour pouvoir être intégrés dans un graphe lisible, il vous faudra opérer une sélection.

Etape 2. Vous ne devrez garder que les liens les plus influents, ceux que les blogueurs ont cités à plusieurs reprises. Il existe pour cela une fonction qui vous permet de réduire votre base de données pour ne garder que les liens les plus cités. Il vous faut également exclure les liens que vous jugez non-pertinents. Si votre étude porte sur les blogs de journalisme politique, il vous faut par exemple exclure, un par un, les blogs technologiques, sportifs, promotionnels etc. Au terme de cette procédure de nettoyage, vous pourrez classer les différents liens en fonctions de sous-thématiques, et exporter votre base de données sous format .gnp.

Etape 3. Dans le logiciel Gephi 0.7, ouvrez le fichier (.gnp) que vous venez de constituer.  Un graphe apparait dans la fenêtre centrale. Pour le rendre un peu plus lisible, il vous suffit d’ouvrir l’onglet « layout » et de lancer l’algorithme « force atlas ». Si la structure n’est pas assez aérée, vous pouvez introduire une valeur plus grande dans « repulsion strength« … Bon, les différentes fonctions du programme sont un peu trop nombreuses pour pourvoir être expliquées ici. Je vous conseille donc de télécharger le manuel explicatif que voici.

Les résultats : J’ai testé le programme sur base d’un très petit noyau. Le coeur de mon réseau est constitué de 7 ou 8 blogs de journalistes politiques francophones.  On retrouve, à gauche du graphe, les questions de politique fédérale et et de communication politique (Charles Bricman, Fabrice Grosfilley, Michel Geyer, Michel Henrion). A droite, les questions communautaires et de politique des minorités (Mehmet Koksal, Henri Goldman, Marcel Sel…). Au centre du réseau, se trouvent les sources communes à tous blogueurs (Le Soir, La Libre).

La taille d’un point (noeud) représente sa centralité, un indice qui est fonction du nombre du nombre de fois que le point figure dans les chemins les plus courts (entre les différents points du réseau). Si je le voulais, je pourrais parfaitement faire en sorte que la taille d’un noeud indique une autre variable, comme le nombre de liens entrants (ce qui constitue un bon indicateur de l’autorité du blog). Cela nous permettrait de mettre en évidence la présence de blogs qui, bien que peu connectés, sont régulièrement cités par d’ autres blogs (blogs.rtlinfo.be). Dernière chose : la couleur d’un lien indique la direction de ce lien : chaque lien a la couleur du noeud dont il sort.

Critique : Je trouve les deux programmes très bien pensés, mais j’ai tout de même rencontré quelques difficultés, en cours de route. Permettez-moi de vous en faire part… :

(1) Avec l’utilisation de la fonction de navigation automatique, certains liens sortants sont pris comme des « sources privilégiées » alors qu’il ne s’agit que d’hyperliens présents au sein de commentaires de lecteurs. Seule solution : examiner chaque site dans le détail.

(2) Quand deux ou trois URL renvoient vers un même site – comme c’est souvent le cas – les nœuds apparaissent en double ou en triple. Il faut les fusionner en transformant les lignes de codes au sein du fichier .gnp. Si quelqu’un connaît un autre moyen de les fusionner, qu’il/elle me le dise… je suis preneur.

(3) Un blog peut constituer une source influente aux yeux d’autres blogueurs, sans que l’observateur en prenne conscience ; soit parce que ces blogueurs s’éloignent du champ thématique circonscrit par le chercheur, soit parce qu’ils font partie de systèmes d’échange distincts, ou de sous-graphes faiblement connectés au graphe initial (cutpoint). C’est pas simple : il faut trouver un juste milieu entre cohérence et précision.

Voilà. J’espère avoir pu vous être utile. Si vous avez des conseils, des questions, des suggestions, écrivez-moi ! Bonne chance.

Stéphane Bouquillon et Jacob Matthews viennent de publier un ouvrage intitulé « le Web Collaboratif » aux Presses Universitaires de Grenoble (2010). Je vous en résume rapidement le propos : les auteurs estiment que l’idée de communication « collaborative » ou « participative » n’a pas commencé en 2005. Déjà à la fin des années 70, les développeurs des projets de télématique annonçaient que les usagers allaient prendre la parole contre les médias de masse, que l’usager ne sera plus simplement un consommateur mais aussi un citoyen, actif.

Pour Bouquillon et Matthews, ce qu’on appelle aujourd’hui « Web 2.0 » est moins de la conséquence d’une transformation technologique, que le résultat d’une stratégie d’adaptation des industries des la culture et de la communication. Du point de vue technique, le terme ne désigne rien de concret. Au départ, le terme est un simple inventaire des caractéristiques des start-ups qui ont survécu à la bulle spéculative de 2000 (O’Reilly, « What is Web 2.0 ?», 2005). Autrement dit, l’ambition d’O’Reilly – le père du concept – n’était pas de décrire l’Internet d’aujourd’hui, mais de montrer la raison pour laquelle certains start-ups ont réussi à survivre à l’éclatement de la bulle spéculative. Et le point commun de ces firmes qui y ont survécu– répond O’Reilly – c’est qu’elles ont réussi à mettre leurs usagers au centre de la valorisation, au centre du processus de production de contenus.

Pour Bouquillon et Matthews, c’est le point de départ d’une prophétie auto-réalisatrice : il a suffit que les acteurs se convainquent de la réalité de ce phénomène vague et incertain, pour qu’il devienne réel dans ses conséquences… Si la communication est devenue « participative », ce n’est donc pas tant parce que la technologie a permis de donner une voix à ceux qui n’en avaient pas, mais plutôt parce que – en situation de crise – les grands acteurs de l’industrie de la communication, ont trouvé le besoin de s’inventer un nouveau discours enchanté leur permettant de récréer une rationalité autour de leurs investissements.

Pour les entreprises de la culture et de la communication, le web collaboratif est tout d’abord une occasion de faire travailler des créatifs sans les rémunérer; en les invitant par exemple à participer à des compétitions de créations publicitaires, lesquelles sont ensuite réutilisées par l’entreprise. Cette forme de travail gratuit constitue par ailleurs une nouvelle source de concurrence inter-personnelle qui permet aux entreprises médiatiques et culturelles de tempérer les exigences salariales de leurs employés. C’est grâce au phénomène participatif, qu’il leur est en effet possible de demander à ces derniers : « Mais qu’est-ce qui justifie que l’on vous paie pour faire ce que d’autres feraient gratuitement ? ». A cette question, les employés peuvent évidemment répondre « la qualité », mais si la qualité vend mal – si le consommateur n’est pas prêt à payer plus cher pour davantage de précision, de beauté et de fiabilité – ils risquent fort de se retrouver à court d’arguments.

1. Qu’est-ce qu’un graphe ?

Dans la théorie des graphes, un individu est un noeud (n), et on le représente par un point. Les noeuds peuvent soit être être connectés les uns aux autres, par des liens. Pour désigner un ensemble de deux ou trois noeuds (N = {n1, n2}), on utilise les mots « diade » ou « triade ».

Ensuite, pour désigner un ensemble de liens, on utilise la lettre (L). Et pour désigner un lien spécifique entre deux noeuds on écrit l1 = < n1, n2>. Si l’on s’abstient de tenir compte les liens réflexifs (loops), le nombre maximum de liens entre g acteurs, au sein d’un graphe, est égal à g(g-1)/2. Ces liens peuvent être représentés sous forme de matrices sociales (sociomatrix).

n1 n2 n3 n4 n4
n1 1 0 0 0
n2 1 1 0 0
n3 1 0 1 0
n4 1 0 0 1
n5 1 0 0 0

Ensuite, vient la question la cohésion, ou de la connectivité du graphe, c’est-à-dire de son aptitude à rester entier en dépit de la disparition de noeuds et de liens. D’un seul noeud peut dépendre la connectivité de tout graphe, auquel cas on appelle ce noeud “cutpoint”. Les liens entre cutpoints on les appelle “ponts” (bridges), ou des “liens faibles”. Dans la graphe suivant, c’est le blog du journaliste politique Jean-Paul Marthoz qui joue le rôle de cutpoint. On voit que, sans lui, le sous-graphe francophone (en rouge) serait déconnecté du sous-graphe anglophone (en bleu).

Il y est maintenant possible d’élaborer des graphes plus élaborés qui contiennent différentes sortes de liens (graphes mutlivariés), ou des graphes qui représentent, non seulement les liens entre acteurs, mais aussi les liens entre agrégats d’acteurs (hypergraphes). Au sein de ces agrégats, on peut mesurer non seulement la densité des liens, mais aussi leur “centralité”.

Mais dans l’étude des réseaux de journalistes, on s’intéresse également à des variables relationnelles autres que la densité ou la centralité : on s’intéresse par exemple au prestige de X aux yeux d’Y, ou l’autorité de X sur Y… D’où l’intérêt d’identifier des relations directionnelles (arcs), représentées par des flèches. La valeur simple d’une relation directionnelle est notée X (xij= la valeur de la relation x qui va de ni à nj).

2. Comment visualiser un réseau social ?

Voici un graphe produit à l’aide d’un outil de mapping nommé « Gephi« . Chaque noeud représente l’URL d’un blog de journalisme politique belge. Les liens directionnels représentent quant à eux des hyperliens contenus dans les « blogrolls » des différents sites explorés. Au sein de chaque site, il a fallu exclure les URL hors-thème, pour ne garder qu’une petite dizaine de « sites voisins ».

Voici enfin un graphe un peu plus étendu. Le coeur du réseau est constitué des liens qui ont cités sur le blog de J.-P. Marthoz, au cours de l’année 2010, ainsi que de ceux qu’il a placés dans sa blogroll. La taille des noeuds représente la centralité dans le réseau (betweeness centrality). Ce genre de représentation graphique pose au moins un problème : elle sous-évalue les sites qui ne contiennent que peu de liens hypertextes ; c’est pourquoi il est utile de compléter le travail de mapping d’URL par un travail d’analyse sémantique.

___

Programme de mapping : Gephi 0.7

Module à installer sur Firefox : Navicrawler 1.7.1

MediaLab Science Po’ Paris

Mapping controversies du MIT

Blog d’une doctorante de l’ULB, sur la visualisation de réseaux sociaux