Le Soir édité

Logo @lesoir_diff
L̶e̶ ̶S̶o̶i̶r̶ édité (@lesoir_diff) est un twitter bot qui tente de capturer les changements et corrections d’articles publiés en Une du site du journal Le Soir.

On le sait, l’information de nos jours court plus vite que le temps qu’on a pour la lire. Les rédactions se sont complètement informatisées et connectées de l’écriture à la publication. Ce qui permet évidemment beaucoup de choses: autant d’offrir un article à ses lecteurs dès qu’il est écrit, que de pouvoir le corriger ou de le compléter alors qu’il est déjà publié. Cela arrive aussi parfois que des articles soient même supprimés, comme l’a repéré la RTBF avec cette intox sur un adolescente qui aurait attaqué ses parents en justice à cause de photos publiées sur Facebook.

Ce qui m’a toujours intéressé avec l’information numérisée, c’est la possibilité de ré-écriture. Publier à un moment donné une information et légèrement ou carrément la modifier par après, c’est tellement simple et à la fois pas du tout anodin. Par exemple, parcourir l’onglet “historique” d’un article de Wikipedia peut, dans certains cas, nous enseigner beaucoup plus de choses que l’article lui-même. Sur certains articles en ligne, on voit parfois des mentions du type “mise-à-jour”, souvent en début ou fin de page, datées et accompagnées d’un commentaire expliquant comment l’article a été édité.

C’est cet intérêt pour la manipulation, dirons-nous, qui m’a fait découvrir @nyt_diff, un twitter bot développé par Juan E. D. et qui suit les changements en Une du New York Times.

Comme je trouvais la démarche fort intéressante, j’ai contacté Juan pour lui demander s’il partageait le code de son projet et si je pouvais l’adapter pour d’autres sites de news. Ce qu’il a fait bien généreusement. J’ai alors un peu hésité à savoir quel média j’allais suivre. Je voulais voir du côté belge francophone ce que cela pouvait donner. J’ai choisi finalement celui avec le plus gros tirage et ai modifié le programme de Juan en conséquence.

Techniquement, cela fonctionne assez simplement. Le programme se connecte à intervalle régulier sur le fil RSS de la Une du Soir. Il récupère ainsi les 10 derniers articles publiés et enregistre dans une base de donnée le titre, l’url, le résumé de l’article et son auteur. Lorsque le script retourne un peu plus tard pour effectuer la même opération, il vérifie s’il y a eu de nouveaux articles publiés, mais surtout, il vérifie s’il y a eu des modifications sur les articles déjà enregistrés. Dans l’affirmative, les versions modifiées vont être également ajoutées à la base de donnée et un ou plusieurs tweets vont être postés affichant les modifications enregistrées.

En lançant ce projet la semaine dernière, je n’avais vraiment aucune idée de ce à quoi m’attendre. Je me suis même demandé au début si le bot allait trouver des modifications et à quelle fréquence. C’est donc avec surprise que j’ai découvert que la Une du Soir était, en fait, très régulièrement éditée. Pour être tout à fait clair, il ne s’agit pas ici d’une analyse en profondeur des modifications du journal Le Soir. Seul le fil RSS avec ses 10 articles est consulté. Le programme ne vérifie pas le contenu complet des articles et ne peut non plus déterminer si un article a été effacé. C’est donc un peu à la surface des choses que le projet fonctionne, principalement sur comment la rédaction titre et résume ses articles pour attirer ses lecteurs.

Je laisse le soin aux motivés et aux analystes qui, à partir de ce projet, voudraient faire des vérifications plus conséquentes sur une correspondance entre des changements de surface et de fond d’un article. Il à ce projet open source pour les y aider.

Néanmoins, @lesoir_diff révèle une facette du Soir qui pour ma part était méconnue et amusante à suivre au jour le jour. Outre les articles écrits en direct et donc modifiés minute par minute,

certains ajouts ou corrections se font parfois plusieurs heures après la première publication.

J’ai aussi découvert que les urls des articles étaient immédiatement modifiées pour refléter les changements dans les titres.

Cette pratique, souvent découragée sur le web, m’a beaucoup questionné et donc fait chercher un peu plus loin. En général, quand on publie sur le net, on se garde bien de modifier une url, parce que si un visiteur connaît uniquement l’ancienne, il pourrait ne pas trouver la page qu’il cherche. Cette fameuse erreur 404 qui nous fait râler quand on cherche du contenu. Bien entendu, Le Soir a prévu cette éventualité. Peu importe les changements d’url, on retrouvera toujours l’article. Je vais pas m’étendre sur les détails, cela concerne surtout les professionels du web et le SEO, comme on dit, mais cela pourrait avoir un effet pervers, il me semble. Je pourrais donc moi aussi écrire mes propres urls pour des articles du Soir.

http://www.lesoir.be/833806/article/CHARLES-MICHEL-EN-A-UNE-PETITE

Notez que ça ne change pas le contenu de l’article, ni ne conserve l’url modifiée une fois sur le site du Soir. Quel intérêt, me direz-vous, si ce n’est de troller ses amis? Peut-être… Quoique pour un petit Google Bombing… Qui sait? Entre-temps, comme cela n’apportait rien de suivre les changements d’url des articles, j’ai supprimé cette fonctionnalité du bot. Ça allège un peu aussi la lecture des tweets.

Après une petite semaine de fonctionnement, le L̶e̶ ̶S̶o̶i̶r̶ édité est à son 600ème tweet. Si la face B des médias vous intéresse, n’hésitez pas à le suivre ou à adapter son code pour le faire fonctionner sur d’autres sites d’information belges ou étrangers. Contactez-moi aussi sur Twitter (@xuv) pour plus d’info ou pour partager vos idées. J’ai prévu de faire tourner le programme pour d’autres médias, donc faites signe afin qu’on ne se marche pas sur les pieds.

Je vous laisse sur ce dernier tweet…


Posted

in

,

by

Tags:

Comments

3 responses to “Le Soir édité”

  1. Didier Lahousse Avatar

    Bonjour,
    Nous sommes chez Audaxis, responsable des développements de la plateforme éditoriale WEB pour LESOIR (mais aussi sudpresse et lavoixdunord.fr, une 50aines de titres au total), je dois bien dire que votre article et BOT a fait notre journée. Précision concernant le SEO, les URLs multiples ne sont pas un problème si la balise ”canonical” présente dans toutes les version (urls) de l’article est unique. Ce qui visiblement a été retiré de LESOIR mais reste bien présent sur les autres titres du groupe comme sudinfo. Nous introduisons un ticket auprès de l’équipe de maintenance pour qu’elle y réapparaisse. Merci.

  2. Didier Lahousse Avatar

    J’oublais, la canonical est importante, mais sur lesoir et nos autres titres, une redirection 301 est en place vers la dernière version de l’article.

    1. Juego Avatar

      Merci pour cette précision sur les urls canoniques. Cela m’avait effectivement échappé.