Savez vous classer les choux ? Pardon, les Blogs ! (Part III/III)
Par Vicnent, dimanche 5 octobre 2008 à 13:55:39 :: Mathématiques :: permalien #1122
Troisième et dernière partie, l'algorithme de Fight-Blog !
En relisant les parties I/III et II/III (si si, faites le !), vous avez bien compris que l'un des paradigmes qui me gène le plus, c'est de dire que tel blog est meilleur que tel autre d'une part, et que parce que tel blog a trois navets et deux choux, alors il est devant tel autre.... Bref, ce n'est pas tant la relation d'ordre qui me gène que le classement fait "ainsi", même si Jean commence à tout lâcher sur les entrailles du classement Wikio (Partie I, Partie II). D'ailleurs, relisez les pages du top blog, on a classement, certes, mais un classement selon quels critères ou quelle méthode ? Quand vous observez le classement du foot ou du tennis, à une victoire est associée un certain nombre de points, sans tenir compte, en aucune façon de la notion de performance inhérente au résultat.
En effet, dire que le blog X est devant le blog Y, ou encore que le blog X est nième et le blog Y est n+1ième n'apporte aucune aucune information sur la qualité :
- du blog X
- du blog Y
- du blog X par rapport au le blog Y
- de l'évolution du blog X dans le temps
Pour faire simple, la carotte est un aliment moins gras que la noix, mais on ne sait pas si ces aliments sont peu gras tous les deux, très gras tous les deux, si l'un est très gras et l'autre encore plus ou encore si l'un l'est très peu et l'autre énormément.
Prenons des chiffres et 3 élèves A, B et C et prenons leurs classements en mathématiques sur trois années :
- En 2006, A est premier, B est deuxième et C est troisième.
- En 2007, A est toujours premier, B est toujours deuxième, et C est donc toujours troisième
- En 2008, B passe en tête, A est deuxième, C est toujours dernier.
- le premier a-t-il un bon niveau ? (on peut être premier de sa classe avec 04/20 de moyenne)
- la différence de niveau entre deux classés (en 2006, A et B peuvent avoir tous les deux 04/20 et en 2007 11/20 ! ou tout à fait autre chose !)
- l'évolution du niveau de A entre 2006 et 2007 (s'est il amélioré ? a-t-il chuté et tous les autres aussi ?)
- 2006 : A a 06/20, B a 05/20 et C a 04/20
- 2007 : A a 11/20, B a 10/20 et C a toujours 04/20
- 2008 : A a 12/20, B a 16/20 et C a 06/20
C'est donc assez clair : un classement, sans entraille ni modèle, ne vaut rien. Il ne représente rien et est complétement biaisé. (Pardon Pierre, mais rassure toi, j'ai déjà une immense estime pour (tout) ce que tu as déjà accompli et pour les récentes décisions que tu as prises... (d'où ma motivation à rentrer dans le wikio labs))
Ce qui suit se veut constructif : c'est toujours simple de dénoncer une situation, ce n'est pas toujours facile de dire pourquoi. Ca l'est clairement encore moins d'y remédier. Sauf à utiliser des yaka-focon
Ici, j'essaie simplement de proposer un modèle mathématique. Ce qu'on appelle aussi communément modéliser un problème. L'avantage d'utiliser un modèle est principalement que l'on va dégager des propriétés, ou inversement, les traduire dans le modèle. Ainsi, si un algorithme de classement doit apparaitre, les formules et les paramètres ne seront pas sortis de je-ne-sais-où. Le modèle que je propose pour les blogs est le suivant :
- considérons que ces blogs sont en lutte pour la première place, la première place d'un classement de popularité thématique.
- considérons qu'un blog n'a aucun moyen d'influencer son propre classement à travers les paramètres mesurés.
Une fois les bases posées, il reste à trouver l'algorithme. C'est parti.
Définition préliminaire : on nomme Probabilité de Fight Blog du blog X par rapport au blog Y la probabilité que le blog X soit meilleur que le Blog Y
. On le note
Imaginons maintenant que nous ayons 3 blogs : si
et si
alors
En effet, cette égalité exprime le fait que les probabilités que le blog
soit mieux classé que le blog
et que le blog
soit mieux classé que le blog
sont indépendantes et qu'il existe néanmoins une relation entre
et
. Cela permet également d'introduire une forme de relation de Chasles dans les propriétés du modèle qui va nous servir.
De même,
Or,
Donc,
Donc,
Prenons le logarithme népérien de l'expression en nous souvenant que et que
Nous obtenons
Posons : nous avons donc
Or, on peut également écrire en prenant la fonction inverse que nous pouvons désormais résoudre.
soit
c'est à dire :
Donc qui est une fonction logistique
En différenciant la probabilité par rapport à la différence de points de classement, nous obtenons : au coefficient C près.
Concrétement, l'algorithme de Fight Blog va se présenter ainsi :
Soient deux Blogs et
dont on connait le classement en point de fight-blog (pfb). On connait donc, via leur différence de pfb la probabilité que l'un batte l'autre. A la bataille suivante, on calcule le résultat entre
et
et nous obtenons un nouveau résultat : si l'un ou l'autre fait mieux que le résultat attendu, son classement en point progresse. Cette progression est bien évidemment calculable. (et idem pour la baisse : quand l'un monte, l'autre baisse...). Enfin, en choisissant bien une valeur pour C, on peut réduire le calcul pour un blog en ne le faisant pas se battre contre toute la blogosphère mais contre un échantillon réduit, finement calculé. (L'idée est par exemple de ne pas considérer le résultat entre Federer et un joueur de cinquième série, tant le niveau est différent)
Exemple : comme indiqué ci dessus, si a actuellement 2235 pfb et
a 2140 pfb, on s'attend, si ces deux blogs bataillent, Ã ce que que
prenne 65% des liens de toute la blogosphère qui concernent uniquement
et
. Au mois suivant (ou à la période suivante), on s'aperçoit que
ne prend plus que 61% des liens. Le niveau de
a donc baissé. Cette baisse est exactement calculable.
Ce qui est vraiment intéressant avec ce modèle et cet algorithme, c'est que nous pourrons désormais :
- voir évoluer le niveau d'un blog dans le temps. Je vous l'ai expliqué quelques paragraphes plus haut, on peut être en 2006 le premier de sa classe avec 07/20 puis être le dernier en 2008 avec 16/20 tout en ayant vu son niveau progresser.
- comparer les classements des premiers dans le temps : le blog presse citron est premier du classement Top blog depuis 'n' mois, avant lui, c'était un autre : comment le niveau du premier du top blog a-t-il évolué dans le temps sur cette période ?
- Aussi, il deviendra possible également de comparer le niveau entre le premier blog de cuisine et le premier blog de sport.
- Enfin, les buzz seront également bien gérés : le fait qu'un billet "explose" pendant un mois fera bien évidemment progresser son classement, mais dans des proportions calculées par le modèle donc raisonnable du fait de l'échantillon : c'est la notion de performance ; si un blog vient à battre beaucoup de blogs du fait d'un billet par rapport à la performance attendue, ce n'est pas pour autant que le blog est devenu bien meilleur ou beaucoup plus populaire. Pour vous en convaincre, prenons l'exemple du classement au football : ce n'est pas parce que le dernier bat le premier sur un match que le dernier va se retrouver sur le podium du classement d'un coup. Et de mauvaise équipe, elle ne deviendra pas une bonne équipe pour autant. Cependant, cette performance est notable et est incontestablement meilleure que le troisième faisant un match nul avec le second. Cette notion de
incontestablement meilleure
sera également calculable. Pour prendre une autre image, nous saurons désormais calculer la vitesse moyenne d'un blog, et son accélération...
Commentaires
1. Le lundi 6 octobre 2008 à 11:20:12, par Jean-Marie Le Ray
2. Le lundi 6 octobre 2008 à 15:39:42, par pangloss
3. Le lundi 6 octobre 2008 à 18:11:25, par Eric C.
4. Le lundi 6 octobre 2008 à 22:54:30, par Eric C.
5. Le mardi 7 octobre 2008 à 08:08:18, par iBeer
6. Le mardi 7 octobre 2008 à 09:48:55, par Eric C.
7. Le mardi 7 octobre 2008 à 11:03:56, par Eric C.
8. Le mardi 7 octobre 2008 à 11:06:14, par Eric C.
9. Le mardi 7 octobre 2008 à 23:03:18, par Philippe
10. Le mercredi 8 octobre 2008 à 08:45:36, par Paul
11. Le mercredi 8 octobre 2008 à 10:00:32, par Vicnent
12. Le mercredi 8 octobre 2008 à 11:15:44, par Christophe D.
13. Le mercredi 8 octobre 2008 à 14:07:00, par Paul
14. Le mercredi 8 octobre 2008 à 14:08:18, par Paul
:: Fil rss des commentaires de ce billet ::
Ajouter un commentaire