Vicnent (.|)

Savez vous classer les choux ? Pardon, les Blogs ! (Part II/III)

La suite attendue de ce billet.

[...] quelle que soit la petitesse d'un objet, il existe toujours un éclairage qui le fait grand.

Denis Guedj (Le théorème du perroquet, p.50, Coll. Points P785)

Classer des blogs, ça peut servir. Dans la première partie de cette série de trois billets, je me suis attaché à exprimer le fait qu'un classement au sens de la relation d'ordre exige de n'avoir au plus qu'un seul paramètre. Le problème qui vient tout de suite à l'esprit : mais quel paramètre ?

Puis j'ai expliqué qu'il n'y a pas qu'un seul paramètre (au sens de leadership ou pertinence) lorsque l'on souhaite comparer deux blogs : nombre de lecteurs, possibilité de commenter, et une vingtaine d'autres au moins.

Enfin, j'ai souligné le fait qu'un choix peut être fait à cet instant : l'agrégation ; il s'agit de prendre en compte, dans la définition en extension d'un blog, tous les paramètres et d'en faire une métrique. Il s'agit donc de pondérer chaque paramètre, via une fonction, d'en faire un critère et de trouver à la fin un nombre.

Le problème induit, c'est qu'en forçant une métrique via l'agrégation, on crée deux biais génants : si un blog sans faute d'orthographe est meilleur qu'un blog avec des fautes d'orthographe, si un blog avec un plus gros lectorat qu'un autre lui est meilleur (et encore ?), quid d'un blog avec un plus gros lectorat mais aussi plus de fautes d'orthographe ? En agrégeant les paramètres, même pondérés, c'est affirmer que pour deux paramètres il est possible de déterminer leur valeur de façon relative ; par exemple, que la taille du lectorat est 11.4 fois plus importante dans la métrique que le nombre de fautes d'orthographe pour 100 mots. D'autre part, avec une définition par extension et en ne prenant en compte que ses paramètres, ces derniers peuvent être manipulables: par exemple, si nous indiquons qu'il est mieux de faire 7 billets par semaines que 3, une dérive qualitative peut être engendrée par une multiplication de petits billets.

Quoi qu'il en soit, le système par agrégation nécessite que les paramètres aient un certain nombre de bonnes propriétés :

Il me semble qu'il faut que ces derniers soient à la fois

  • mesurables (c'est un truisme, mais c'est important)
  • pertinents (il doit être révélateur de quelque chose)
  • fiables (sa définition ne doit pas poser de problème, et il n'est pas sujet à caution ou manipulable. (cf feedburner))

Et à réfléchir ou lire ou discuter de ces paramètres, il apparait tout de suite que la seule propriété mesurable est un problème. En effet, si deux paramètres comme la taille du lectorat et le nombre de commentaire peuvent prétendre à la liste de critères retenus, comment les mesurer ?

Bref, à ce stade, l'agrégation est une mauvaise solution... car elle présuppose que beaucoup de contraintes relatives à sa mise en oeuvre soient résolubles.

Depuis la wikiolabouffe (CR1 - CR2), j'ai eu l'occasion de réfléchir encore à cette problématique, notamment avec des échanges avec Guilhem (et d'autres aussi bien sur...) et un autre choix peut être opéré : la qualification par les pairs. Le paradigme est le suivant : plutôt que de donner une note à un blog pour ce qu'il est, notons le en fonction de ce qu'il est vis à vis des autres, ie pour ce qu'il représente. Guilhem l'exprime ainsi :

tout algorithme, aussi puissant soit il, ne peut, en tout contexte, décider si un contenu est susceptible ou pas d'attirer l'intérêt des internautes. Ainsi si l'on considère qu'un classement doit, sans poser un jugement transcendant, donner à voir les contenus les plus susceptibles d'intéresser la masse des internautes, il lui faut tout simplement repérer ceux sur lesquels se cristallisent un intérêt de la part des "attentifs" du web, ceux qui ont une pratique éditoriale sur des sujets précis au sein de leur blog ou de leur site ou sur des sites tiers sur lesquels ils interviennent comme commentateurs ou contributeurs. Ainsi les critères de "qualité" qui doivent entrer en compte ne sont que des critères de "qualité conférée", des indicateurs de prescription. A ce titre, ce sont des éléments tels que les liens pointant vers un site en différentiant liens d'un billet, d'un commentaire, d'une blogroll, les contenus des ancres des liens pointant, le nombre de commentaires différents, de contributeurs différents. Il n'en existe pas des centaines mais ceux ci permettent de profiter de l'effet de masse des individus qui jugent de ces contenus et donc de rester neutre dans son travail de ranking, sans présupposer que des critères de qualité intrinsèques valent mieux que d'autres pour juger du potentiel d'intérêt porté à un document (niveau du français par exemple ...).

C'est l'autre façon d'attaquer le classement.

Plutôt que de classer les blogs en se demandant comment agréger les paramètres d'une définition des blogs en extension, intéressons nous à ce que devrait être un classement, s'il existe. Et de fait, il apparait tout de suite d'autres contraintes :

  • quid de la thématique général ? Peut-on classer un blog de maths, de droit et de cuisine sur un même plan ?
  • quid des effets de boucle ? X et Y se linkant tout le temps ?

Finalement, ce classement pourrait même être en n-dimensions ! On peut parfaitement faire des graphes en 5 ou 6 dimensions sur un espace en deux dimensions : on peut commencer par avoir deux axes : l'axe vertical représentant une donnée, l'axe horizontal une autre. Par exemple, plus un blog se trouve dans la partie droite, plus la personne publie en nombre de billets par mois. Plus un blog se trouve haut, plus il a de lecteurs. Ensuite, les blogs peuvent être représentés par plusieurs paramètres : des couleurs pour les thèmes, des tailles proportionnelles au volume du lectorat, des icones relatives au nombre de commentaires etc...

Finalement, la vraie question, c'est de se demander : classer les blogs, c'est classer quoi ? Et c'est classer comment ?

Classer dans le sens de ranger dans des cases, ça ne devrait pas trop poser de problème. Classer dans le sens de la relation d'ordre, ça me parait plus difficile.

Pour ma part, je serais relativement heureux que d'une part, on essayât de garder un classement par thème, sans lequel tout perd son sens mais qu'on réfléchisse à ce que d'autres appellent l'autorité relative qui semblent être une voie prometteuse : tel blog est devant tel autre parce qu'il a en moyenne plus de backlink, plus de lecteur et plus de commentaire. Quant à essayer de faire un mix des trois, je ne suis pas sûr que cela ait un sens.

Arrivé ici, le lecteur est pris d'un vertige : plusieurs solutions s'offrent à lui mais visiblement, elles sont impraticables techniquement. Additionner des choux et des navets ne fonctionne pas.

Sauf que !

Sauf qu'en prenant un tout autre modèle, on peut néanmoins faire quelques chose : Imaginons trois Blogs : A, B et C.

A et B sont en compétition ayant pour but de se faire linker un maximum : ainsi, les situations suivantes seront toujours vraies :

  1. un ou des billets de A et B ne sont pas linkés par C,
  2. un ou des billets de A sont linkés par C, aucun billet de B n'est linké par C.
  3. aucun billet de A et B n'est linké par C

Ainsi, les blog A et B sont en compétition de backlink. Remplaçons C par l'ensemble de tous les blogs sauf A et B et nous avons le résultat de la compétition entre A et B ! Échangeons A et B par tous les couples uniques de blogs et nous avons les résultats de la compétition concernant tous les blogs.

Quel est le dessein ?

Plutôt qu'agréger des choux et des navets d'un blog, prenons l'ensemble des critères pertinents, mesurables et fiables qui permettent de faire rentrer deux blogs en compétition : les backlinks, le nombre de commentaire, ... et occupons nous uniquement de caractériser comment ces paramètres évoluent, les uns par rapport aux autres !

Ensuite, posons la probabilité P(A/B) que tel blog A soit devant tel autre B et associons, à une différence de probabilité, un nombre de points. Ce nombre de points est facilement calculables, il s'agit pour chaque critère, de compter le nombre de victoire. Ainsi, si A est linké par la blogosphère 1729 fois et B est linké par la blogosphère 1024 fois, le résultat de la compétition pour ces deux blogs indiquent que sur 2753 points à distribuer entre ces deux blogs, 62.8% sont attribués à A et le reste à B. Ceci indique un niveau de performance de A par rapport à B ( niveau de performance que l'on peut transformer en niveau intrinséque avec d'autres hypothèses de départ, j'y reviendrai...). Par la suite, il s'agit de voir si pour 100 liens concernant A et B, A continue à en prendre prendre 62.8%. Si oui, la différence de niveau entre A et B reste constante. Si A prend plus, son niveau augmente un peu, celui de B diminue un peu. Si A en prend moins, son niveau baisse, celui de B augmente.

Lorsque tous les blogs sont entrés en compétition (ie, comptage tous les mois ?), il est aisé (Ok, aisé est à ce stade de l'explication un peu parachuté...) de calculer le niveau de chaque blog. Par la suite, la compétition continue, les niveaux étant posé, la progression de tel blog par rapport aux autres devient calculables.

Reste un problème : on ne connait rien de P, la fonction de probabilité. Les paramètres, qui vont modéliser les variables, n'ont ni fonction de densité, ni fonction de répartition ! En fait, si, en ajoutant une hypothèse légitime au départ, tout devient parfaitement calculable ! Et ce qui deviendra intéressant c'est qu'en considérant la performance d'un blog par rapport aux autres, nous allons être capable de lui donner une note : note qui exprime la valeur d'un blog dans la blogosphère.

La méthode sera décrite et explicitée dans la partie III, à paraitre sous peu puisque déjà bien en bonne partie rédigée. Les matheux et les joueurs d'échecs vont être heureux : il y a de la distribution de Verhulst au menu...

Les hommes découvrent que pour la difficile entreprise de comprendre le monde - ce qui devrait être le but implicite de tout philosophe - il faut de la longueur de temps, et un esprit sans dogmatisme.

Bertrand Russell (Ma conception du monde, trad. Louis Evrard, p.20, idées/nrf n°17)

Trackbacks

Aucun trackback.

Pour faire un tracback sur ce billet : http://www.vicnent.info/blog/tb.php?id=1126

Commentaires

1. Le jeudi 25 septembre 2008 à 10:38:41, par Jean-Marie Le Ray

Très intéressant ! Et accessible.
La citation de Guilhem me fait penser au PageRank !
Mais bon, je ne suis ni ingénieur ni matheux :)
Jean-Marie

2. Le jeudi 25 septembre 2008 à 13:41:43, par Eric C.

NB #1 : quand tu parles de qualification par les pairs, il est difficile de ne pas voir un lien avec l'impact factor.
Dont les limites sont connues. Et critiquées ...

NB #2 : si tu attribues les points en fonction du nombre de liens dans la blogosphère, tu remplaces implicitement qualité par popularité.

Merci Éric. Ok pour le facteur d'impact (On pourra lire l'article Wikipédia ainsi que le billet d'... Éric) Je vais y réfléchir et te répondrai probablement dans la partie III où j'explicite les mécanismes et paradigmes.
Vicnent

Ajouter un commentaire

Note : Je ne censure aucun commentaire à priori, et à postériori que si ceux ci sont contraires à la loi. Si votre commentaire n'apparait pas de suite, il a été spamplemoussé : vous pouvez attendre que je le déspamplemousse ou me faire un petit mail à Vicnent [at] gmail DOT com


de 1 jusque 20, c'est Moi !

CKwaDonk ??

Last.Photo.En.Ligne
Wikio - Top des blogs - Divers Wikio - Top des blogs



Twits again

    wtf ?

    Avertissements d'usage, parce que vous le valez bien. Je, Vicnent, suis propriétaire et Auteur de ce Blog. En tant que propriétaire des lieux, je m'autorise à y mettre ce que je veux, mensonges éhontés ou par omission si je veux. En tant qu'Auteur, sachez que les droits d'auteur s'appliquent à toute oeuvre de l'esprit, quels qu'en soient le genre, la forme d'expression, le mérite ou la destination. Tout lecteur de ce blog doit en respecter les droits de propriété intellectuelle. Il doit notamment veiller à ne pas reproduire et diffuser les articles et contributions publiées sur ce blog sur d'autres blogs, forums ou d'autres supports sans mon accord. Tout lecteur peut néanmoins reproduire le contenu de ce blog à des fins de consultations privées ou reproduire et diffuser de courts extraits d'un article ou d'un message, à des fins d'information ou de recherches, en citant Blog de Vicnent (.|) comme Auteur de l'article ou du message. Une fonction spéciale permet même de faire des trackback vers chaque article. Vous allez rire, mais la fonction Trackback porte le nom Trackback. Déni de responsabilité : Les articles de ce blog résultent en général ou en particulier de la compilation d'informations en provenance de plusieurs sources et/ou d'expériences personnelles. Dans la mesure du possible, ils tentent de compiler une documentation exhaustive ou non dont les sources sont citées dans la mesure du possible ou non. Toute personne mettant en application ces renseignements le fait à ses propres risques. Je, Vicnent, n'assume aucune responsabilité des dommages susceptibles de résulter de l'usage de ces renseignements. En particulier toute décision concernant un traitement médical devrait toujours se prendre en consultation avec un professionnel de la santé qualifié, diplomé et compétent. Vous devriez également arrêter de fumer, passer votre permis moto, faire de parachutisme et ne jamais arrêtez de vous cultiver sinon, vous deviendrez xénophobe. Que vous ayez 18 ans ou plus m'est totalement égal, vous pouvez de toute façon sortir et/ou arrêter la lecture de ce blog quand bon vous semble. Votre avis reste de toute façon votre avis et quand parfois, je vois ce que je vois et j'entends ce que j'entends, je me dis que j'ai raison de penser ce que je pense. En dernier recours, vous pouvez aussi aller vous faire foutre. Bonnes lectures.

    Aller au contenu | Aller au menu | Aller à la recherche

    topTen3

    Ici !

    Calendrier

    « septembre 2008 »
    lunmarmerjeuvensamdim
    1234567
    891011121314
    15161718192021
    22232425262728
    2930