Le Soir édité

Logo @lesoir_diff
L̶e̶ ̶S̶o̶i̶r̶ édité (@lesoir_diff) est un twitter bot qui tente de capturer les changements et corrections d’articles publiés en Une du site du journal Le Soir.

On le sait, l’information de nos jours court plus vite que le temps qu’on a pour la lire. Les rédactions se sont complètement informatisées et connectées de l’écriture à la publication. Ce qui permet évidemment beaucoup de choses: autant d’offrir un article à ses lecteurs dès qu’il est écrit, que de pouvoir le corriger ou de le compléter alors qu’il est déjà publié. Cela arrive aussi parfois que des articles soient même supprimés, comme l’a repéré la RTBF avec cette intox sur un adolescente qui aurait attaqué ses parents en justice à cause de photos publiées sur Facebook.

Ce qui m’a toujours intéressé avec l’information numérisée, c’est la possibilité de ré-écriture. Publier à un moment donné une information et légèrement ou carrément la modifier par après, c’est tellement simple et à la fois pas du tout anodin. Par exemple, parcourir l’onglet “historique” d’un article de Wikipedia peut, dans certains cas, nous enseigner beaucoup plus de choses que l’article lui-même. Sur certains articles en ligne, on voit parfois des mentions du type “mise-à-jour”, souvent en début ou fin de page, datées et accompagnées d’un commentaire expliquant comment l’article a été édité.

C’est cet intérêt pour la manipulation, dirons-nous, qui m’a fait découvrir @nyt_diff, un twitter bot développé par Juan E. D. et qui suit les changements en Une du New York Times.

Comme je trouvais la démarche fort intéressante, j’ai contacté Juan pour lui demander s’il partageait le code de son projet et si je pouvais l’adapter pour d’autres sites de news. Ce qu’il a fait bien généreusement. J’ai alors un peu hésité à savoir quel média j’allais suivre. Je voulais voir du côté belge francophone ce que cela pouvait donner. J’ai choisi finalement celui avec le plus gros tirage et ai modifié le programme de Juan en conséquence.

Techniquement, cela fonctionne assez simplement. Le programme se connecte à intervalle régulier sur le fil RSS de la Une du Soir. Il récupère ainsi les 10 derniers articles publiés et enregistre dans une base de donnée le titre, l’url, le résumé de l’article et son auteur. Lorsque le script retourne un peu plus tard pour effectuer la même opération, il vérifie s’il y a eu de nouveaux articles publiés, mais surtout, il vérifie s’il y a eu des modifications sur les articles déjà enregistrés. Dans l’affirmative, les versions modifiées vont être également ajoutées à la base de donnée et un ou plusieurs tweets vont être postés affichant les modifications enregistrées.

En lançant ce projet la semaine dernière, je n’avais vraiment aucune idée de ce à quoi m’attendre. Je me suis même demandé au début si le bot allait trouver des modifications et à quelle fréquence. C’est donc avec surprise que j’ai découvert que la Une du Soir était, en fait, très régulièrement éditée. Pour être tout à fait clair, il ne s’agit pas ici d’une analyse en profondeur des modifications du journal Le Soir. Seul le fil RSS avec ses 10 articles est consulté. Le programme ne vérifie pas le contenu complet des articles et ne peut non plus déterminer si un article a été effacé. C’est donc un peu à la surface des choses que le projet fonctionne, principalement sur comment la rédaction titre et résume ses articles pour attirer ses lecteurs.

Je laisse le soin aux motivés et aux analystes qui, à partir de ce projet, voudraient faire des vérifications plus conséquentes sur une correspondance entre des changements de surface et de fond d’un article. Il à ce projet open source pour les y aider.

Néanmoins, @lesoir_diff révèle une facette du Soir qui pour ma part était méconnue et amusante à suivre au jour le jour. Outre les articles écrits en direct et donc modifiés minute par minute,

certains ajouts ou corrections se font parfois plusieurs heures après la première publication.

J’ai aussi découvert que les urls des articles étaient immédiatement modifiées pour refléter les changements dans les titres.

Cette pratique, souvent découragée sur le web, m’a beaucoup questionné et donc fait chercher un peu plus loin. En général, quand on publie sur le net, on se garde bien de modifier une url, parce que si un visiteur connaît uniquement l’ancienne, il pourrait ne pas trouver la page qu’il cherche. Cette fameuse erreur 404 qui nous fait râler quand on cherche du contenu. Bien entendu, Le Soir a prévu cette éventualité. Peu importe les changements d’url, on retrouvera toujours l’article. Je vais pas m’étendre sur les détails, cela concerne surtout les professionels du web et le SEO, comme on dit, mais cela pourrait avoir un effet pervers, il me semble. Je pourrais donc moi aussi écrire mes propres urls pour des articles du Soir.

http://www.lesoir.be/833806/article/CHARLES-MICHEL-EN-A-UNE-PETITE

Notez que ça ne change pas le contenu de l’article, ni ne conserve l’url modifiée une fois sur le site du Soir. Quel intérêt, me direz-vous, si ce n’est de troller ses amis? Peut-être… Quoique pour un petit Google Bombing… Qui sait? Entre-temps, comme cela n’apportait rien de suivre les changements d’url des articles, j’ai supprimé cette fonctionnalité du bot. Ça allège un peu aussi la lecture des tweets.

Après une petite semaine de fonctionnement, le L̶e̶ ̶S̶o̶i̶r̶ édité est à son 600ème tweet. Si la face B des médias vous intéresse, n’hésitez pas à le suivre ou à adapter son code pour le faire fonctionner sur d’autres sites d’information belges ou étrangers. Contactez-moi aussi sur Twitter (@xuv) pour plus d’info ou pour partager vos idées. J’ai prévu de faire tourner le programme pour d’autres médias, donc faites signe afin qu’on ne se marche pas sur les pieds.

Je vous laisse sur ce dernier tweet…

Also on:

If you don’t share any love, you don’t get any friends

love-friends

Or why a sudden decrease of daily friend requests got me thinking that the [loveMachine] wasn’t running anymore.

I’ve been running a script for about 8 months now that logs into my Facebook account and automatically likes everything it sees in my home timeline. This activity generates a lot of clicks on my behalf, around 1000 likes a day. And a consequence of this activity is that I get a lot of friend requests.

I haven’t (yet) created another script that accepts all these requests for me. The [loveMachine] is about distributing likes, not fully automating a Facebook account. Although, this should not be too hard to add. But I like to keep things simple.

Anyway, I do login back on Facebook once in a while to perform by hand these basic routines and check that everything runs fine. And last friday, I was surprised to see there was no friend requests pending and that the activity around my profile was somewhat different from the usual crap I have to put up with. Something was wrong. And the easiest way to have an overall look at a Facebook profile is to access the “Activity Log” page (see top right drop-down menu to access it). From there, I could see that might lastest like was performed 3 days earlier. Definitely something was not performing right.

I then logged on my personal server, from where the script is running. And strangely, the only thing I could see was that Facebook was not sending my bot a proper page. Just a blank empty html. No login form, no data. Not even a logo. I changed the user-agent, changed server, and asked for confirmation from other [loveMachine] users. The response was always the same.

Over the weekend, I did some research on how could a website detect the use of bots and scrapers. And for a while, I thought Facebook had come with a perfect answer. But then I stumbled upon a post on the Casperjs forum. Due to the POODLE bug, Facebook had been disabling SSL v3, which my bot (written in Casperjs) was using by default. Using another SSL protocol just simply solved the problem. And the [loveMachine] was back on track.

This little pause in the process showed me how much I got used to the constant activity the [loveMachine] is generating. Since my friends count got over 1000, I wasn’t really paying much attention to this constantly increasing number. I even got to think it was a natural consequence. Once you get to a certain number of friends, they might just be coming in. I was wrong and this little break proved it. Facebook is an attention seeker. You have to give it something in order to get something back.