Vicnent (.|)

Savez vous classer les choux ? Pardon, les Blogs ! (Part I/III)

Classer les blogs ! Vaste travail qu'un Hercule moderne aurait probablement pris comme treizième Å“uvre...

Mais classer les blogs, au delà de faire plaisir à l'égo qu'il procure à tel ou tel autre en lui apprenant qu'étonnamment, il a la plus [mettre ici l'adjectif qui convient], c'est se donner matière à faire fonctionner le cerveau : le problème n'est en soit pas simple et peut même se révéler redoutable à être modélisé...

Réflexions.

Classer les blogs, c'est d'abord classer : occupons nous du verbe !

ÀMHA, on peut donner deux sens pertinents à classer dans le cadre des blogs :

  • soit une notion ensembliste : Ranger, distribuer dans des catégories distinctes selon des critères définis. (Source) Classer prend alors le sens de regrouper, d'associer par propriété.
  • soit un notion de relation d'ordre : ce blog est meilleur que tel autre. (Distribuer, ranger méthodiquement selon un certain ordre, de manière à en faciliter la consultation ou mieux : Placer une chose sur une liste officielle en raison de sa valeur...) Et encore, je dis meilleur, mais en fait, il faut juste comprendre mieux classé !

Dans le cadre de la relation d'ordre, un problème apparait tout de suite : en fonction de quel critère unique peut-on dire / indiquer / démontrer que tel blog est devant tel autre ?

Car le problème, dans le cadre de sa modélisation, est vite compliqué ! Si l'on prend en compte un unique paramètre mesurable (donc quantifiable), la relation d'ordre n'a aucun problème à se mettre en place : il peut être le nombre de jour depuis sa création, le nombre de billets par mois en moyenne sur les 6 derniers mois, le nombre de lecteurs uniques cumulés sur le mois etc... Mais si l'on souhaite prendre en compte deux paramètres ou plus, il n'y a plus de relation d'ordre : c'est ce qu'on appelle souvent l'addition de carottes et navets, qui, à part faire un panier de marché ou une future soupe, ne fait plus grand chose...

L'idée alors, pour passer outre le problème, dans le cadre de notre modélisation, est de procéder par équivalence et agrégation : d'une part, on associe à un paramètre une valeur dans une unité précise. Puis, on essaie, pour tous les autres paramètres, de leur trouver une équivalence dans la même unité.

Pour reprendre notre exemple, 3 carottes et 2 navets, comparés à 4 carottes et 1 navet : bien difficile de dire que l'un est devant l'autre ! Et par rapport à quoi d'abord ? Par contre, en associant à chaque quantité un prix, par exemple, 1 carotte = 1 euro, 1 navet = 0.5 euro, on peut calculer un équivalent-euro de chaque produit (équivalence) puis, de même pour le panier complet (agrégation). Ainsi, le premier panier revient à 4 euros, le deuxième à 4.5 euros. N'ayant plus qu'une seule unité à traiter, on peut mettre en place une relation d'ordre et affirmer ainsi que le premier panier est moins cher que le second. Nous aurions pu faire la même chose en traitant la notion de calorie par mg et ainsi, affirmer que le deuxième panier est beaucoup plus calorique que le premier. (ou pas !)

Je propose donc la démarche suivante : dans un premier temps, attachons nous aux paramètres et autres caractéristiques des blogs : car c'est là le premier problème. Dans un second temps, on s'attachera à trouver des équivalences. Je mets volontairement on car ne comptez pas sur moi pour vous donner la solution. Il y aura des propositions, des pistes de réflexions, mais pas de solution toute cuite. Enfin, dans un dernier temps, nous verrons comment agréger tout cela en une unique unité. Mais peut être pas... Les mathématiques sont pleines de richesses et parfois, à partir d'un modèle simple, on peut arriver à des choses férocement compliquées....

Classer les blogs nous oblige donc à trouver une équivalence entre les différents paramètres. Quels sont les paramètres, les caractéristiques d'un blog ? ( [...], les blogs démarrent des conversations (c) LLM)

  1. la langue : un blog peut être écrit en français, en anglais, ou dans les deux langues. Ex de David Madore
  2. la qualité de la langue : un KiK0u lol Mdr de chez Skyrock et le style de Jules où vous pouvez aussi lachez vos comms !
  3. la thématique : un blog vrac comme le mien, où je parle de tout (actualités, politiques, réflexions, moi, etc) et celui de Maitre Eolas qui ne traite exclusivement que du Droit. Vulagrisation (qui s'adresse au plus grand nombre) VS Très Haute Technicité (public structurellement réduit - Mr Tao)
  4. actualité : doit-on prendre en compte le fait que tel blog colle au plus près / au plus tôt de l'actualité ? Blog de buzz comme le crocrodile ? Et puis, quid de l'actualité quand on tient un blog sur la cuisine ou l'élevage de fourmis ?
  5. l'ancienneté : un blog qui date de 550 av LLM a-t-il un atout sur un blog commencé 3 ans plus tard ?
  6. la densité : le fait de faire 28 billets par jour n'est pas comme en faire 2, voire moins... (Martin Hirsch ; Blog 1 : rien depuis le 5 mars 2008, blog 2 : rien depuis le 19 mai 2007 )
  7. la continuité : le fait d'avoir une moyenne constante en terme de volume de publication par unité de temps est il mieux qu'un blog inconstant ?
  8. la taille du blog : en cumulant un vieux blog et beaucoup de billets par jour...
  9. la taille du lectorat : probablement qu'un blog ayant 15000 lecteurs par jours est devant un blog qui n'en a que le dixième. Mais encore ? Et puis, il y a la problématique du comptage : sans un outil de référence, fiable et commun, comment faire ? Sans compter les failles qui permettent d'afficher 30 milliards de lecteurs dans FeedBurner. (non, je ne mets pas le lien, de toute façon réparé)
  10. le professionnalisme des éditeurs : Maitre Eolas, certes, mais aussi Jean Michel Apathie ont une légitimé certaine pour raconter leur métier sur leur blog ! Est-ce mieux qu'un passionné autodidacte !
  11. la vivacité : Pour ces deux derniers, Me Eolas prend le temps de répondre à chaque commentaire (souvent) et les lire pour le moins. Jean Michel Apathie a la démarche inverse : l'un est-il meilleur que l'autre ?
  12. le professionnalisme du blog : un blog d'un blogueur professionnel (Presse Citron pour ne citer que le plus connu, mais sont-ils si nombreux en France ?) a-t-il un atout par rapport à un non professionnel ? Et quid d'un blog de marque associé à une société (Deezer par exemple) ? Et d'un blog d'un pdg comme Michel Édouard Leclerc ?
  13. L'Infuence : Arf ! le vilain mot est laché ! Et encore, il faudrait commencer par dire ce que c'est avant même d'essayer de le quantifier. Quand Me Éolas, raconte n'importe quoi, il a une certaine influence. Quand Fuzz collecte de la locomotive pour finir en grand titre, est-ce vraiment de l'influence ? Le fond d'un coté, la forme de l'autre...
  14. le multiblogging : comment prendre en compte un multiblog ? Embruns, entre son carnet web et son journal de bord, le tout adossé à un site web complet est un bon exemple : d'un coté, des billets personnels, longs, développés, argumentés et sourcés. De l'autre, une sorte de défouloir accroché au temps qui passe, nourri de réaction sur du copié collé linké. Dans un autre style, DamDam's World possède un blog et une sorte de photo blog indépendant, mais adossé au premier.
  15. le multi éditeur : Le site d'Éconoclaste où se mêlent des billets tantôt d'Alexandre, tantôt de Stéphane. Dans ce cas, c'est leur blog. Alors que dans un autre style, Me Eolas partage de temps en temps le sien avec d'autres professionnels.
  16. l'anonymat : le fait de bloguer sous son vrai nom (connu ou non), ou sous pseudo (connu ou pas) change-t-il quelque chose ?
  17. les commentaires : l'ouverture, la qualité des commentaires, la qualité des allers retours entre blogueurs doivent-il influencer le classement ?
  18. les copiés collés : au delà du billet que tout le monde reprend (comment ça, ça n'existe pas ?), certains font de l'hyper copié collé : certains sont sauvages, d'autres font de l'hyperlinkage-agrégatif (Bien Bien Bien) et d'autres encore en font leur fond de matière à réaction (Embruns). Et si mes billets se nourrissent d'embed Youtube : c'est grave ?
  19. la chronologie : un blog peut être chronologique ou antechronologique (plus rare...). De même pour les commentaires. Et ?
  20. les flux : certains ne proposent pas de flux (D. Feldmann) , d'autres ni flux ni commentaire ou un flux mais ferment les commentaires... D'autres un flux court (Embruns). D'autres encore un flux long (la majorité, ouf...)
  21. les liens : qui linke qui ? Et pourquoi ?
  22. la plateforme  : le fait d'avoir développé seul son outil de bloging (Madore, VDM), de l'avoir largement adapté (ici par exemple), d'utiliser une plateforme open source, libre, gratuite, professionnel, payante etc sont ils des critères pertinents ?
  23. W3 : le fait de répondre aux standards du W3 est-il important ?
  24. contenu média : le fait qu'il y ait du son, de la vidéo ou toute forme d'embed doit-il le faire grimper dans le classement ?

En quelques minutes heures, j'ai essayé de résumer les caractéristiques des blogs. J'en suis à 24 il me semble.

Un partie du travail désormais consiste à sélectionner lesquels de ces paramètres et caractéristiques peuvent devenir des indicateurs pertinents, fiables, stables, mesurables que l'on peut mettre en place pour agréger tout cela sous forme de note. Ou de ranking...

Wikio, dans son top blog, propose le petit texte suivant :

Comment est fait ce classement ?

La position d'un blog dans le classement Wikio dépend du nombre et de la valeur des liens qui pointent vers lui. Ces liens sont dynamiques, c'est-à-dire qu’ils s’agit de rétroliens (backlinks) ou de liens postés à l’intérieur des articles.

Les blogolistes (blogrolls) ne sont pas prises en compte et la période de validité des liens se limite aux 120 derniers jours, ceci afin d’être le plus représentatif possible de l’influence actuelle des blogs sachant que le Top des blogs est mis à jour tous les premiers du mois.

De plus, la valeur de chaque lien dépend du classement du blog qui le poste. Ainsi, dans notre algorithme, la valeur d'un lien posté sur un blog du haut du classement est plus importante que celle d'un lien posté sur un blog de moindre autorité.

Enfin, le Top des Blogs propose également des classements thématiques : High-tech, Gastronomie, Littérature, Politique, Sport... De nouveaux classements voient le jour régulièrement.

Par rapport à mes paramètres (non exhaustifs, faites vous plaisir en commentaires), Pierre en a rajouté un, et non des moindres : la période de validité des liens se limite aux 120 derniers jours. Il conviendrait de réfléchir à la pertinence de ce choix.

Bref, tout cela fera l'objet d'un prochain billet.

Le troisième et dernier billet, non des moins intéressants, consistera, dans le cadre d'un classement, à travailler sur une forme de rétro engineering de modélisation : plutôt que de faire le travail ci dessus, partir plutôt des propriétés du classement et en déduire le modèle. C'est par exemple le travail contraire qu'ont fait Lawrence et Serge il y a 10 ans à Standford (bon anniversaire Google !), lorsqu'ils ont mis au point le pageRank. Et là, des choses très chouettes vont apparaitre : on verra notamment que dans le cadre d'une forme de Fight-Blog, une notion comme "la valeur intrinsèque d'un blog" apparait... Bon, je m'avance peut-être un peu là mais pas tant que ça je pense... J'y travaille et on en reparle ensemble dans le billet dédié ?

Trackbacks

Aucun trackback.

Pour faire un tracback sur ce billet : http://www.vicnent.info/blog/tb.php?id=1121

Commentaires

1. Le mardi 9 septembre 2008 à 20:59:43, par Deeder

On sent l'approche mathématique du problème qui le résume somme toute très bien. Première partie de l'analyse menée avec succès : les variables et définitions sont posées, reste à voir lesquelles retenir. C'est une approche claire et simple que l'on aimerait voir plus souvent lorsque l'on parle d'influence des blogs. A mon avis, l'influence n'est pas un paramètre simple comme tu le décris : je pencherai plutôt pour un alliage de certains paramètres énoncés ci-dessus. Mais c'est là une autre question. J'attends avec impatience la suite de l'analyse et la synthèse de cette réflexion des plus intéressantes.

2. Le mardi 9 septembre 2008 à 23:32:30, par Paul

Vicnent: as tu étudié (même de manière purement empirique) l'indépendance des variables que tu mentionnes ? Il est probable que celles-ci se réduisent assez drastiquement. Le jour où wikio aura un classement non pas sur un seul axe (d'Eolas à kikou-je-skyblogue) mais sur deux ou trois axes en fonction des intérêts de ses lecteurs, il deviendra un outil puissant..

3. Le mercredi 10 septembre 2008 à 12:20:50, par Jean Véronis

Paul> La première étape pour étudier tout ça c'est certainement de tirer des statistiques... Sachant que certaines variables ne sont pas forcément aisément accessibles (par exemple le professionnalisme des blogueurs). Il faudrait faire à la main (pas très réaliste sur des dizaines de milliers de blogs) et encore... ce n'est pas toujours évident !

4. Le mercredi 10 septembre 2008 à 17:02:13, par Gonzague

les critères que tu proposes sont intéressants mais ça ne serait pas dur de tenir ça à jour ? :)

Attention Gonzague, je me suis bien gardé pour l'instant de me prononcer sur quelque critère que ce soit : je propose une méthodologie relativement intuitive : équivalence+agrégation (notamment pour le problème de la relation d'ordre). Elle est discutable/négociable. Mais pour l'instant, elle ne me parait pas à priori mauvaise : donc je poursuis. Dans ce billet, j'indique qu'il faut donc regarder les paramètres. J'en fais une liste (non exhaustive ! Depuis par exemple, j'ai vu que sur ton blog, la prévisualisation des commentaires n'est pas possible : pas bien !). Dans le billet II, je regarderai comment les agréger, en prenant pour chaque paramètre, de quoi en faire un critère justement... (Jean évoque une méthode pour ça par exemple : les statistiques. Il en a d'autres assurément.)
Vicnent

5. Le lundi 22 septembre 2008 à 15:52:41, par Rémi

Il me semble qu'avant de se lancer dans un beau modèle, tu en oublies la question principale : classer les blogs, pourquoi faire ?

Certes, c'est un exercice mental amusant (ou pas... ;-) ), mais en pratique, à quoi ça pourrait bien servir ? Les blogs que tu cites dans ta liste de critères sont tellement différents, quel est l'intérêt de savoir que l'un est "plus grand" (ou plus petit) qu'un autre ? Pour reprendre ton exemple potager, classer deux paniers de courses suivant leur prix ou leur valeur energétique, c'est intéressant pour les gens qui s'intéressent à leur budget ou leur régime. Mais si je décide d'utiliser comme équivalence le nombre de lettres ("quatre carottes" = 14, "cinq navets" = 10), la démarche tient toujours d'un point de vue théorique, mais elle est complétement inutile en pratique.

À part pour l'exercice intellectuel, chercher une équivalence utile entre tous les critères, c'est illusoire. Un classement comme Wikio annonce la couleur : c'est sur les liens que les blogs sont classés. Un critère, pas d'aggrégation. Suivant les gens, le critère est utile ou pas, mais il est clair. Ici, je vois mal comment une équivalence, quelle qu'elle soit, pourrait être utile.

Maintenant, il reste le premier sens de "classer", c.a.d. mettre dans des catégories différentes. Le but est alors plus de réfléchir à ce qui caractérise un blog, le différencie -- ou au contraire le rapproche -- des autres. Ta liste de critères reste pertinente, et la problèmatique principale est de l'organiser (éventuellement la hiérarchiser), trouver les recouvrements, les "composantes principales". Si chaque critère est chiffrable, je sais qu'il existe un certain nombre d'outils. Si ils ne le sont pas... voilà une question intéressante.

Tu as tout à fait raison Rémi, c'est pour ça que le billet II tarde un peu. Avant de classer, intéressons nous à la question "Classer quoi"... ou "selon quoi"... Des réponses seront apportées...
Vicnent

Ajouter un commentaire

Note : Je ne censure aucun commentaire à priori, et à postériori que si ceux ci sont contraires à la loi. Si votre commentaire n'apparait pas de suite, il a été spamplemoussé : vous pouvez attendre que je le déspamplemousse ou me faire un petit mail à Vicnent [at] gmail DOT com


de 1 jusque 20, c'est Moi !

CKwaDonk ??

Last.Photo.En.Ligne
Wikio - Top des blogs - Divers Wikio - Top des blogs



Twits again

    wtf ?

    Avertissements d'usage, parce que vous le valez bien. Je, Vicnent, suis propriétaire et Auteur de ce Blog. En tant que propriétaire des lieux, je m'autorise à y mettre ce que je veux, mensonges éhontés ou par omission si je veux. En tant qu'Auteur, sachez que les droits d'auteur s'appliquent à toute oeuvre de l'esprit, quels qu'en soient le genre, la forme d'expression, le mérite ou la destination. Tout lecteur de ce blog doit en respecter les droits de propriété intellectuelle. Il doit notamment veiller à ne pas reproduire et diffuser les articles et contributions publiées sur ce blog sur d'autres blogs, forums ou d'autres supports sans mon accord. Tout lecteur peut néanmoins reproduire le contenu de ce blog à des fins de consultations privées ou reproduire et diffuser de courts extraits d'un article ou d'un message, à des fins d'information ou de recherches, en citant Blog de Vicnent (.|) comme Auteur de l'article ou du message. Une fonction spéciale permet même de faire des trackback vers chaque article. Vous allez rire, mais la fonction Trackback porte le nom Trackback. Déni de responsabilité : Les articles de ce blog résultent en général ou en particulier de la compilation d'informations en provenance de plusieurs sources et/ou d'expériences personnelles. Dans la mesure du possible, ils tentent de compiler une documentation exhaustive ou non dont les sources sont citées dans la mesure du possible ou non. Toute personne mettant en application ces renseignements le fait à ses propres risques. Je, Vicnent, n'assume aucune responsabilité des dommages susceptibles de résulter de l'usage de ces renseignements. En particulier toute décision concernant un traitement médical devrait toujours se prendre en consultation avec un professionnel de la santé qualifié, diplomé et compétent. Vous devriez également arrêter de fumer, passer votre permis moto, faire de parachutisme et ne jamais arrêtez de vous cultiver sinon, vous deviendrez xénophobe. Que vous ayez 18 ans ou plus m'est totalement égal, vous pouvez de toute façon sortir et/ou arrêter la lecture de ce blog quand bon vous semble. Votre avis reste de toute façon votre avis et quand parfois, je vois ce que je vois et j'entends ce que j'entends, je me dis que j'ai raison de penser ce que je pense. En dernier recours, vous pouvez aussi aller vous faire foutre. Bonnes lectures.

    Aller au contenu | Aller au menu | Aller à la recherche

    topTen3

    Ici !

    Calendrier

    « septembre 2008 »
    lunmarmerjeuvensamdim
    1234567
    891011121314
    15161718192021
    22232425262728
    2930