Savez vous classer les choux ? Pardon, les Blogs ! (Part I/III)
Par Vicnent, lundi 8 septembre 2008 à 22:22:22 :: Mathématiques :: permalien #1121
Classer les blogs ! Vaste travail qu'un Hercule moderne aurait probablement pris comme treizième œuvre...
Mais classer les blogs, au delà de faire plaisir à l'égo qu'il procure à tel ou tel autre en lui apprenant qu'étonnamment, il a la plus [mettre ici l'adjectif qui convient], c'est se donner matière à faire fonctionner le cerveau : le problème n'est en soit pas simple et peut même se révéler redoutable à être modélisé...
Réflexions.
Classer les blogs, c'est d'abord classer
: occupons nous du verbe !
ÀMHA, on peut donner deux sens pertinents à classer
dans le cadre des blogs :
- soit une notion ensembliste :
Ranger, distribuer dans des catégories distinctes selon des critères définis
. (Source) Classer prend alors le sens de regrouper, d'associer par propriété. - soit un notion de
relation d'ordre
: ce blog est meilleur que tel autre. (Distribuer, ranger méthodiquement selon un certain ordre, de manière à en faciliter la consultation
ou mieux :Placer une chose sur une liste officielle en raison de sa valeur
...) Et encore, je dis meilleur, mais en fait, il faut juste comprendremieux classé
!
Dans le cadre de la relation d'ordre, un problème apparait tout de suite : en fonction de quel critère unique peut-on dire / indiquer / démontrer que tel blog est devant
tel autre ?
Car le problème, dans le cadre de sa modélisation, est vite compliqué ! Si l'on prend en compte un unique paramètre mesurable (donc quantifiable), la relation d'ordre n'a aucun problème à se mettre en place : il peut être le nombre de jour depuis sa création
, le nombre de billets par mois en moyenne sur les 6 derniers mois
, le nombre de lecteurs uniques cumulés sur le mois
etc... Mais si l'on souhaite prendre en compte deux paramètres ou plus, il n'y a plus de relation d'ordre : c'est ce qu'on appelle souvent l'addition de carottes et navets, qui, à part faire un panier de marché ou une future soupe, ne fait plus grand chose...
L'idée alors, pour passer outre le problème, dans le cadre de notre modélisation, est de procéder par équivalence et agrégation : d'une part, on associe à un paramètre une valeur dans une unité précise. Puis, on essaie, pour tous les autres paramètres, de leur trouver une équivalence dans la même unité.
Pour reprendre notre exemple, 3 carottes et 2 navets, comparés à 4 carottes et 1 navet : bien difficile de dire que l'un est devant l'autre ! Et par rapport à quoi d'abord ? Par contre, en associant à chaque quantité un prix, par exemple, 1 carotte = 1 euro, 1 navet = 0.5 euro, on peut calculer un équivalent-euro de chaque produit (équivalence) puis, de même pour le panier complet (agrégation). Ainsi, le premier panier revient à 4 euros, le deuxième à 4.5 euros. N'ayant plus qu'une seule unité à traiter, on peut mettre en place une relation d'ordre et affirmer ainsi que le premier panier est moins cher que le second. Nous aurions pu faire la même chose en traitant la notion de calorie par mg
et ainsi, affirmer que le deuxième panier est beaucoup plus calorique que le premier. (ou pas !)
Je propose donc la démarche suivante : dans un premier temps, attachons nous aux paramètres et autres caractéristiques des blogs : car c'est là le premier problème. Dans un second temps, on s'attachera à trouver des équivalences. Je mets volontairement on
car ne comptez pas sur moi pour vous donner la solution. Il y aura des propositions, des pistes de réflexions, mais pas de solution toute cuite
. Enfin, dans un dernier temps, nous verrons comment agréger tout cela en une unique unité. Mais peut être pas... Les mathématiques sont pleines de richesses et parfois, à partir d'un modèle simple, on peut arriver à des choses férocement compliquées....
Classer les blogs nous oblige donc à trouver une équivalence entre les différents paramètres. Quels sont les paramètres, les caractéristiques d'un blog ? ( [...], les blogs démarrent des conversations (c) LLM)
- la langue : un blog peut être écrit en français, en anglais, ou dans les deux langues. Ex de David Madore
- la qualité de la langue : un
KiK0u lol Mdr
de chez Skyrock et le style de Jules où vous pouvez aussi lachez vos comms ! - la thématique : un blog
vrac
comme le mien, où je parle de tout (actualités, politiques, réflexions, moi, etc) et celui de Maitre Eolas qui ne traite exclusivement que du Droit. Vulagrisation (qui s'adresse au plus grand nombre) VS Très Haute Technicité (public structurellement réduit - Mr Tao) - actualité : doit-on prendre en compte le fait que tel blog colle au plus près / au plus tôt de l'actualité ? Blog de buzz comme le
crocrodile
? Et puis, quid de l'actualité quand on tient un blog sur la cuisine ou l'élevage de fourmis ? - l'ancienneté : un blog qui date de 550 av LLM a-t-il un atout sur un blog commencé 3 ans plus tard ?
- la densité : le fait de faire 28 billets par jour n'est pas comme en faire 2, voire moins... (Martin Hirsch ; Blog 1 : rien depuis le 5 mars 2008, blog 2 : rien depuis le 19 mai 2007 )
- la continuité : le fait d'avoir une moyenne constante en terme de volume de publication par unité de temps est il mieux qu'un blog inconstant ?
- la taille du blog : en cumulant un vieux blog et beaucoup de billets par jour...
- la taille du lectorat : probablement qu'un blog ayant 15000 lecteurs par jours est devant un blog qui n'en a que le dixième. Mais encore ? Et puis, il y a la problématique du comptage : sans un outil de référence, fiable et commun, comment faire ? Sans compter les failles qui permettent d'afficher 30 milliards de lecteurs dans FeedBurner. (non, je ne mets pas le lien, de toute façon réparé)
- le professionnalisme des éditeurs : Maitre Eolas, certes, mais aussi Jean Michel Apathie ont une légitimé certaine pour raconter leur métier sur leur blog ! Est-ce mieux qu'un passionné autodidacte !
- la vivacité : Pour ces deux derniers, Me Eolas prend le temps de répondre à chaque commentaire (souvent) et les lire pour le moins. Jean Michel Apathie a la démarche inverse : l'un est-il meilleur que l'autre ?
- le professionnalisme du blog : un blog d'un blogueur professionnel (Presse Citron pour ne citer que le plus connu, mais sont-ils si nombreux en France ?) a-t-il un atout par rapport à un non professionnel ? Et quid d'un blog de marque associé à une société (Deezer par exemple) ? Et d'un blog d'un pdg comme Michel Édouard Leclerc ?
- L'Infuence : Arf ! le vilain mot est laché ! Et encore, il faudrait commencer par dire ce que c'est avant même d'essayer de le quantifier. Quand Me Éolas, raconte n'importe quoi, il a une certaine influence. Quand Fuzz collecte de la locomotive pour finir en grand titre, est-ce vraiment de l'influence ? Le fond d'un coté, la forme de l'autre...
- le multiblogging : comment prendre en compte un multiblog ? Embruns, entre son carnet web et son journal de bord, le tout adossé à un site web complet est un bon exemple : d'un coté, des billets personnels, longs, développés, argumentés et sourcés. De l'autre, une sorte de défouloir accroché au temps qui passe, nourri de réaction sur du copié collé linké. Dans un autre style, DamDam's World possède un blog et une sorte de photo blog indépendant, mais adossé au premier.
- le multi éditeur : Le site d'Éconoclaste où se mêlent des billets tantôt d'Alexandre, tantôt de Stéphane. Dans ce cas, c'est leur blog. Alors que dans un autre style, Me Eolas partage de temps en temps le sien avec d'autres professionnels.
- l'anonymat : le fait de bloguer sous son vrai nom (connu ou non), ou sous pseudo (connu ou pas) change-t-il quelque chose ?
- les commentaires : l'ouverture, la qualité des commentaires, la qualité des allers retours entre blogueurs doivent-il influencer le classement ?
- les copiés collés : au delà du billet que tout le monde reprend (comment ça, ça n'existe pas ?), certains font de l'hyper copié collé : certains sont sauvages, d'autres font de l'hyperlinkage-agrégatif (Bien Bien Bien) et d'autres encore en font leur fond de matière à réaction (Embruns). Et si mes billets se nourrissent d'embed Youtube : c'est grave ?
- la chronologie : un blog peut être chronologique ou antechronologique (plus rare...). De même pour les commentaires. Et ?
- les flux : certains ne proposent pas de flux (D. Feldmann) , d'autres ni flux ni commentaire ou un flux mais ferment les commentaires... D'autres un flux court (Embruns). D'autres encore un flux long (la majorité, ouf...)
- les liens : qui linke qui ? Et pourquoi ?
- la plateforme : le fait d'avoir développé seul son outil de bloging (Madore, VDM), de l'avoir largement adapté (ici par exemple), d'utiliser une plateforme open source, libre, gratuite, professionnel, payante etc sont ils des critères pertinents ?
- W3 : le fait de répondre aux standards du W3 est-il important ?
- contenu média : le fait qu'il y ait du son, de la vidéo ou toute forme d'embed doit-il le faire grimper dans le classement ?
En quelques minutes heures, j'ai essayé de résumer les caractéristiques des blogs. J'en suis à 24 il me semble.
Un partie du travail désormais consiste à sélectionner lesquels de ces paramètres et caractéristiques peuvent devenir des indicateurs pertinents, fiables, stables, mesurables que l'on peut mettre en place pour agréger tout cela sous forme de note. Ou de ranking...
Wikio, dans son top blog, propose le petit texte suivant :
Comment est fait ce classement ?
La position d'un blog dans le classement Wikio dépend du nombre et de la valeur des liens qui pointent vers lui. Ces liens sont dynamiques, c'est-à -dire qu’ils s’agit de rétroliens (backlinks) ou de liens postés à l’intérieur des articles.
Les blogolistes (blogrolls) ne sont pas prises en compte et la période de validité des liens se limite aux 120 derniers jours, ceci afin d’être le plus représentatif possible de l’influence actuelle des blogs sachant que le Top des blogs est mis à jour tous les premiers du mois.
De plus, la valeur de chaque lien dépend du classement du blog qui le poste. Ainsi, dans notre algorithme, la valeur d'un lien posté sur un blog du haut du classement est plus importante que celle d'un lien posté sur un blog de moindre autorité.
Enfin, le Top des Blogs propose également des classements thématiques : High-tech, Gastronomie, Littérature, Politique, Sport... De nouveaux classements voient le jour régulièrement.
Par rapport à mes paramètres (non exhaustifs, faites vous plaisir en commentaires), Pierre en a rajouté un, et non des moindres : la période de validité des liens se limite aux 120 derniers jours
. Il conviendrait de réfléchir à la pertinence de ce choix.
Bref, tout cela fera l'objet d'un prochain billet.
Le troisième et dernier billet, non des moins intéressants, consistera, dans le cadre d'un classement, à travailler sur une forme de rétro engineering de modélisation : plutôt que de faire le travail ci dessus, partir plutôt des propriétés du classement et en déduire le modèle. C'est par exemple le travail contraire qu'ont fait Lawrence et Serge il y a 10 ans à Standford (bon anniversaire Google !), lorsqu'ils ont mis au point le pageRank. Et là , des choses très chouettes vont apparaitre : on verra notamment que dans le cadre d'une forme de Fight-Blog, une notion comme "la valeur intrinsèque d'un blog" apparait... Bon, je m'avance peut-être un peu là mais pas tant que ça je pense... J'y travaille et on en reparle ensemble dans le billet dédié ?
Commentaires
1. Le mardi 9 septembre 2008 à 20:59:43, par Deeder
2. Le mardi 9 septembre 2008 à 23:32:30, par Paul
3. Le mercredi 10 septembre 2008 à 12:20:50, par Jean Véronis
4. Le mercredi 10 septembre 2008 à 17:02:13, par Gonzague
5. Le lundi 22 septembre 2008 à 15:52:41, par Rémi
:: Fil rss des commentaires de ce billet ::
Ajouter un commentaire