Savez vous classer les choux ? Pardon, les Blogs ! (Part II/III)
Par Vicnent, jeudi 25 septembre 2008 à 09:04:29 :: Mathématiques :: permalien #1126
La suite attendue de ce billet.
[...] quelle que soit la petitesse d'un objet, il existe toujours un éclairage qui le fait grand.
Denis Guedj (Le théorème du perroquet, p.50, Coll. Points P785)
Classer des blogs, ça peut servir. Dans la première partie de cette série de trois billets, je me suis attaché à exprimer le fait qu'un classement au sens de la relation d'ordre exige de n'avoir au plus qu'un seul paramètre. Le problème qui vient tout de suite à l'esprit : mais quel paramètre ?
Puis j'ai expliqué qu'il n'y a pas qu'un seul paramètre (au sens de leadership
ou pertinence
) lorsque l'on souhaite comparer deux blogs : nombre de lecteurs, possibilité de commenter, et une vingtaine d'autres au moins.
Enfin, j'ai souligné le fait qu'un choix peut être fait à cet instant : l'agrégation ; il s'agit de prendre en compte, dans la définition en extension d'un blog, tous les paramètres et d'en faire une métrique. Il s'agit donc de pondérer chaque paramètre, via une fonction, d'en faire un critère et de trouver à la fin un nombre.
Le problème induit, c'est qu'en forçant une métrique via l'agrégation, on crée deux biais génants : si un blog sans faute d'orthographe est meilleur qu'un blog avec des fautes d'orthographe, si un blog avec un plus gros lectorat qu'un autre lui est meilleur (et encore ?
), quid d'un blog avec un plus gros lectorat mais aussi plus de fautes d'orthographe ? En agrégeant les paramètres, même pondérés, c'est affirmer que pour deux paramètres il est possible de déterminer leur valeur de façon relative ; par exemple, que la taille du lectorat est 11.4 fois plus importante dans la métrique que le nombre de fautes d'orthographe pour 100 mots. D'autre part, avec une définition par extension et en ne prenant en compte que ses paramètres, ces derniers peuvent être manipulables
: par exemple, si nous indiquons qu'il est mieux de faire 7 billets par semaines que 3, une dérive qualitative peut être engendrée par une multiplication de petits billets.
Quoi qu'il en soit, le système par agrégation nécessite que les paramètres aient un certain nombre de bonnes propriétés :
Il me semble qu'il faut que ces derniers soient à la fois
- mesurables (c'est un truisme, mais c'est important)
- pertinents (il doit être révélateur de quelque chose)
- fiables (sa définition ne doit pas poser de problème, et il n'est pas sujet à caution ou manipulable. (cf feedburner))
Et à réfléchir ou lire ou discuter de ces paramètres, il apparait tout de suite que la seule propriété mesurable
est un problème. En effet, si deux paramètres comme la taille du lectorat et le nombre de commentaire peuvent prétendre à la liste de critères retenus, comment les mesurer ?
Bref, à ce stade, l'agrégation est une mauvaise solution... car elle présuppose que beaucoup de contraintes relatives à sa mise en oeuvre soient résolubles.
Depuis la wikiolabouffe
(CR1 - CR2), j'ai eu l'occasion de réfléchir encore à cette problématique, notamment avec des échanges avec Guilhem (et d'autres aussi bien sur...) et un autre choix peut être opéré : la qualification par les pairs
. Le paradigme est le suivant : plutôt que de donner une note à un blog pour ce qu'il est, notons le en fonction de ce qu'il est vis à vis des autres, ie pour ce qu'il représente. Guilhem l'exprime ainsi :
tout algorithme, aussi puissant soit il, ne peut, en tout contexte, décider si un contenu est susceptible ou pas d'attirer l'intérêt des internautes. Ainsi si l'on considère qu'un classement doit, sans poser un jugement transcendant, donner à voir les contenus les plus susceptibles d'intéresser la masse des internautes, il lui faut tout simplement repérer ceux sur lesquels se cristallisent un intérêt de la part des "attentifs" du web, ceux qui ont une pratique éditoriale sur des sujets précis au sein de leur blog ou de leur site ou sur des sites tiers sur lesquels ils interviennent comme commentateurs ou contributeurs. Ainsi les critères de "qualité" qui doivent entrer en compte ne sont que des critères de "qualité conférée", des indicateurs de prescription. A ce titre, ce sont des éléments tels que les liens pointant vers un site en différentiant liens d'un billet, d'un commentaire, d'une blogroll, les contenus des ancres des liens pointant, le nombre de commentaires différents, de contributeurs différents. Il n'en existe pas des centaines mais ceux ci permettent de profiter de l'effet de masse des individus qui jugent de ces contenus et donc de rester neutre dans son travail de ranking, sans présupposer que des critères de qualité intrinsèques valent mieux que d'autres pour juger du potentiel d'intérêt porté à un document (niveau du français par exemple ...).
C'est l'autre façon d'attaquer le classement.
Plutôt que de classer les blogs en se demandant comment agréger les paramètres d'une définition des blogs en extension, intéressons nous à ce que devrait être un classement, s'il existe. Et de fait, il apparait tout de suite d'autres contraintes :
- quid de la thématique général ? Peut-on classer un blog de maths, de droit et de cuisine sur un même plan ?
- quid des effets de boucle ? X et Y se linkant tout le temps ?
Finalement, ce classement pourrait même être en n-dimensions ! On peut parfaitement faire des graphes en 5 ou 6 dimensions sur un espace en deux dimensions : on peut commencer par avoir deux axes : l'axe vertical représentant une donnée, l'axe horizontal une autre. Par exemple, plus un blog se trouve dans la partie droite, plus la personne publie en nombre de billets par mois. Plus un blog se trouve haut, plus il a de lecteurs. Ensuite, les blogs peuvent être représentés par plusieurs paramètres : des couleurs pour les thèmes, des tailles proportionnelles au volume du lectorat, des icones relatives au nombre de commentaires etc...
Finalement, la vraie question, c'est de se demander : classer les blogs, c'est classer quoi ?
Et c'est classer comment ?
Classer dans le sens de ranger dans des cases, ça ne devrait pas trop poser de problème. Classer dans le sens de la relation d'ordre, ça me parait plus difficile.
Pour ma part, je serais relativement heureux que d'une part, on essayât de garder un classement par thème, sans lequel tout perd son sens mais qu'on réfléchisse à ce que d'autres appellent l'autorité relative qui semblent être une voie prometteuse : tel blog est devant tel autre parce qu'il a en moyenne plus de backlink, plus de lecteur et plus de commentaire. Quant à essayer de faire un mix des trois, je ne suis pas sûr que cela ait un sens.
Arrivé ici, le lecteur est pris d'un vertige : plusieurs solutions s'offrent à lui mais visiblement, elles sont impraticables techniquement. Additionner des choux et des navets ne fonctionne pas.
Sauf que !
Sauf qu'en prenant un tout autre modèle, on peut néanmoins faire quelques chose : Imaginons trois Blogs : A, B et C.
A et B sont en compétition ayant pour but de se faire linker un maximum : ainsi, les situations suivantes seront toujours vraies :
- un ou des billets de A et B ne sont pas linkés par C,
- un ou des billets de A sont linkés par C, aucun billet de B n'est linké par C.
- aucun billet de A et B n'est linké par C
Ainsi, les blog A et B sont en compétition de backlink. Remplaçons C par l'ensemble de tous les blogs sauf A et B et nous avons le résultat de la compétition entre A et B ! Échangeons A et B par tous les couples uniques de blogs et nous avons les résultats de la compétition concernant tous les blogs.
Quel est le dessein ?
Plutôt qu'agréger des choux et des navets d'un blog, prenons l'ensemble des critères pertinents, mesurables et fiables qui permettent de faire rentrer deux blogs en compétition : les backlinks, le nombre de commentaire, ... et occupons nous uniquement de caractériser comment ces paramètres évoluent, les uns par rapport aux autres !
Ensuite, posons la probabilité P(A/B) que tel blog A soit devant tel autre B et associons, à une différence de probabilité, un nombre de points. Ce nombre de points est facilement calculables, il s'agit pour chaque critère, de compter le nombre de victoire. Ainsi, si A est linké par la blogosphère 1729 fois et B est linké par la blogosphère 1024 fois, le résultat de la compétition pour ces deux blogs indiquent que sur 2753 points à distribuer entre ces deux blogs, 62.8% sont attribués à A et le reste à B. Ceci indique un niveau de performance de A par rapport à B ( niveau de performance
que l'on peut transformer en niveau intrinséque avec d'autres hypothèses de départ, j'y reviendrai...). Par la suite, il s'agit de voir si pour 100 liens concernant A et B, A continue à en prendre prendre 62.8%. Si oui, la différence de niveau entre A et B reste constante. Si A prend plus, son niveau augmente un peu, celui de B diminue un peu. Si A en prend moins, son niveau baisse, celui de B augmente.
Lorsque tous les blogs sont entrés en compétition (ie, comptage tous les mois ?), il est aisé (Ok, aisé est à ce stade de l'explication un peu parachuté
...) de calculer le niveau de chaque blog. Par la suite, la compétition continue, les niveaux étant posé, la progression de tel blog par rapport aux autres devient calculables.
Reste un problème : on ne connait rien de P, la fonction de probabilité. Les paramètres, qui vont modéliser les variables, n'ont ni fonction de densité, ni fonction de répartition ! En fait, si, en ajoutant une hypothèse légitime au départ, tout devient parfaitement calculable ! Et ce qui deviendra intéressant c'est qu'en considérant la performance d'un blog par rapport aux autres, nous allons être capable de lui donner une note : note qui exprime la valeur d'un blog dans la blogosphère.
La méthode sera décrite et explicitée dans la partie III, à paraitre sous peu puisque déjà bien en bonne partie rédigée. Les matheux et les joueurs d'échecs vont être heureux : il y a de la distribution de Verhulst au menu...
Les hommes découvrent que pour la difficile entreprise de comprendre le monde - ce qui devrait être le but implicite de tout philosophe - il faut de la longueur de temps, et un esprit sans dogmatisme.
Bertrand Russell (Ma conception du monde, trad. Louis Evrard, p.20, idées/nrf n°17)
Commentaires
1. Le jeudi 25 septembre 2008 à 10:38:41, par Jean-Marie Le Ray
2. Le jeudi 25 septembre 2008 à 13:41:43, par Eric C.
:: Fil rss des commentaires de ce billet ::
Ajouter un commentaire