Le Soir édité

Logo @lesoir_diff
L̶e̶ ̶S̶o̶i̶r̶ édité (@lesoir_diff) est un twitter bot qui tente de capturer les changements et corrections d’articles publiés en Une du site du journal Le Soir.

On le sait, l’information de nos jours court plus vite que le temps qu’on a pour la lire. Les rédactions se sont complètement informatisées et connectées de l’écriture à la publication. Ce qui permet évidemment beaucoup de choses: autant d’offrir un article à ses lecteurs dès qu’il est écrit, que de pouvoir le corriger ou de le compléter alors qu’il est déjà publié. Cela arrive aussi parfois que des articles soient même supprimés, comme l’a repéré la RTBF avec cette intox sur un adolescente qui aurait attaqué ses parents en justice à cause de photos publiées sur Facebook.

Ce qui m’a toujours intéressé avec l’information numérisée, c’est la possibilité de ré-écriture. Publier à un moment donné une information et légèrement ou carrément la modifier par après, c’est tellement simple et à la fois pas du tout anodin. Par exemple, parcourir l’onglet “historique” d’un article de Wikipedia peut, dans certains cas, nous enseigner beaucoup plus de choses que l’article lui-même. Sur certains articles en ligne, on voit parfois des mentions du type “mise-à-jour”, souvent en début ou fin de page, datées et accompagnées d’un commentaire expliquant comment l’article a été édité.

C’est cet intérêt pour la manipulation, dirons-nous, qui m’a fait découvrir @nyt_diff, un twitter bot développé par Juan E. D. et qui suit les changements en Une du New York Times.

Comme je trouvais la démarche fort intéressante, j’ai contacté Juan pour lui demander s’il partageait le code de son projet et si je pouvais l’adapter pour d’autres sites de news. Ce qu’il a fait bien généreusement. J’ai alors un peu hésité à savoir quel média j’allais suivre. Je voulais voir du côté belge francophone ce que cela pouvait donner. J’ai choisi finalement celui avec le plus gros tirage et ai modifié le programme de Juan en conséquence.

Techniquement, cela fonctionne assez simplement. Le programme se connecte à intervalle régulier sur le fil RSS de la Une du Soir. Il récupère ainsi les 10 derniers articles publiés et enregistre dans une base de donnée le titre, l’url, le résumé de l’article et son auteur. Lorsque le script retourne un peu plus tard pour effectuer la même opération, il vérifie s’il y a eu de nouveaux articles publiés, mais surtout, il vérifie s’il y a eu des modifications sur les articles déjà enregistrés. Dans l’affirmative, les versions modifiées vont être également ajoutées à la base de donnée et un ou plusieurs tweets vont être postés affichant les modifications enregistrées.

En lançant ce projet la semaine dernière, je n’avais vraiment aucune idée de ce à quoi m’attendre. Je me suis même demandé au début si le bot allait trouver des modifications et à quelle fréquence. C’est donc avec surprise que j’ai découvert que la Une du Soir était, en fait, très régulièrement éditée. Pour être tout à fait clair, il ne s’agit pas ici d’une analyse en profondeur des modifications du journal Le Soir. Seul le fil RSS avec ses 10 articles est consulté. Le programme ne vérifie pas le contenu complet des articles et ne peut non plus déterminer si un article a été effacé. C’est donc un peu à la surface des choses que le projet fonctionne, principalement sur comment la rédaction titre et résume ses articles pour attirer ses lecteurs.

Je laisse le soin aux motivés et aux analystes qui, à partir de ce projet, voudraient faire des vérifications plus conséquentes sur une correspondance entre des changements de surface et de fond d’un article. Il à ce projet open source pour les y aider.

Néanmoins, @lesoir_diff révèle une facette du Soir qui pour ma part était méconnue et amusante à suivre au jour le jour. Outre les articles écrits en direct et donc modifiés minute par minute,

certains ajouts ou corrections se font parfois plusieurs heures après la première publication.

J’ai aussi découvert que les urls des articles étaient immédiatement modifiées pour refléter les changements dans les titres.

Cette pratique, souvent découragée sur le web, m’a beaucoup questionné et donc fait chercher un peu plus loin. En général, quand on publie sur le net, on se garde bien de modifier une url, parce que si un visiteur connaît uniquement l’ancienne, il pourrait ne pas trouver la page qu’il cherche. Cette fameuse erreur 404 qui nous fait râler quand on cherche du contenu. Bien entendu, Le Soir a prévu cette éventualité. Peu importe les changements d’url, on retrouvera toujours l’article. Je vais pas m’étendre sur les détails, cela concerne surtout les professionels du web et le SEO, comme on dit, mais cela pourrait avoir un effet pervers, il me semble. Je pourrais donc moi aussi écrire mes propres urls pour des articles du Soir.

http://www.lesoir.be/833806/article/CHARLES-MICHEL-EN-A-UNE-PETITE

Notez que ça ne change pas le contenu de l’article, ni ne conserve l’url modifiée une fois sur le site du Soir. Quel intérêt, me direz-vous, si ce n’est de troller ses amis? Peut-être… Quoique pour un petit Google Bombing… Qui sait? Entre-temps, comme cela n’apportait rien de suivre les changements d’url des articles, j’ai supprimé cette fonctionnalité du bot. Ça allège un peu aussi la lecture des tweets.

Après une petite semaine de fonctionnement, le L̶e̶ ̶S̶o̶i̶r̶ édité est à son 600ème tweet. Si la face B des médias vous intéresse, n’hésitez pas à le suivre ou à adapter son code pour le faire fonctionner sur d’autres sites d’information belges ou étrangers. Contactez-moi aussi sur Twitter (@xuv) pour plus d’info ou pour partager vos idées. J’ai prévu de faire tourner le programme pour d’autres médias, donc faites signe afin qu’on ne se marche pas sur les pieds.

Je vous laisse sur ce dernier tweet…

How to get the latest Blender running on a Pi

Arch Linux Arm - RPi2

How to get the most up-to-date applications running on a Raspberry Pi and other ARM based single boards computers?

Update 25 Oct 2016: I have written a small step by step tutorial to get you through the install process on a Raspberry Pi 2 and up. It’s available here.

Update 16 Feb 2016: Blender 2.76b is now available for the Armv7h architecture from the package manager.

For a project I’m working on, I need a small computer that can just run some scripts 24/7 while being connected to the net. Performance is not a key issue, although it’s always nice to have a fast system. But in this case, since we’re trying to keep a low budget, a computer under $50 should do the trick. And that’s why we went for the Raspberry Pi 2.

While I was developing the project, I used the latest version of Blender (who doesn’t anyway?) and some other Python libs. When moving the whole project to the Raspberry Pi, that’s when things got messy.

I’ve been using Arch Linux as my main system for a year and am really happy with it (thx Chris). So naturally, I used Arch Linux ARM for the Pi. I’ve been using it for other projects, so I felt comfortable. For those who don’t know Arch yet, it’s a bleeding-edge rolling release distribution. That means you always get the latest shit as soon as it’s available and you don’t need to do big upgrades of your system every 6 months or {2|4} years. It has also a very technical and dedicated community, that takes pride at making good documentation.

What I did not expect is that Blender was not available in the repositories for Arch ARM, although it’s of course available for the i686 and x86_64 architectures. So I started looking for a distribution that had Blender already packaged, which Raspbian has. (Raspbian is a mod of Debian crafted for the Raspberry Pi and thus promoted by the Raspberry Pi foundation as the go-to distribution for their hardware.)

But Raspbian, based on Jessie, only packages Blender 2.72, a version of Blender released in 2014. And that’s pretty far back in Blender spacetime. So my hand made Blender scripts were suddenly more buggy and not performing as well. Bummer. Since I’m kinda used to Debian systems, and since Debian has also a bleeding-edge rolling release, I thought “No problem, I’ll just switch to stretch/testing and I’ll get Blender 2.76.” Well, that did not go too well on the Raspberry Pi. I’m not sure why. I guess Raspbian is making too much modifications to the Debian core, but after switching to testing, no more Blender in the package-list available.

So back to square one. Where do I go from here? Some people online were saying Blender was not buildable on ARM architecture. But I found packets for Blender 2.76 in the Fedora branch for ARM, and Blender is available for Raspbian. So what am I missing here? Then I stumbled on this post from Popolon, where he managed to patch and compile Blender on an ARMv7 architecture using Arch (and that’s exactly what I need for my Pi). He even provided a link to his build, but that was unfortunately too old to run on the current version of Arch.

But that’s where the power of Arch comes to the rescue. Arch is a system with a lot of pre-compiled packages, and for whatever is missing, there is AUR (the Arch User Respository). What comes from AUR is a a set of scripts that will help you compile a specific application for your system. Of course, you could do any compilation yourself on any Linux system, but what I find easier here is that since you have the latest packages installed already, compiling new ones is maybe a little easier since you don’t really have to worry about having the right versions of a library. It’s always going to be the latest one, which is usually the ones needed for the application you’re trying to install.

With a slight modification of the PGKBUILD I found for Blender, I started the compilation on the Raspberry Pi 2. 6 hours later, I had the latest Blender running.  Super. I can move on with the project.

Now, I also sent feedback to the Arch Linux Arm community about this. And have heard it’s in the pipeline to be added to the official repositories. That’s great news. It could mean next time, I will not need to compile it. And others can benefit from that also. But if this story can only tell you one thing is to trust Arch Linux for running the latest software on an ARM based computer. Even if it’s not yet in the repositories, you’ll probably have the best chance to get the thing running using that system more than any other.

D’une coquille vide à une autre…

Moutons

Beaucoup d’appels au standard depuis le déménagement, beaucoup d’incompréhension, des questions, des remarques et même un commentaire en bas d’article. La toile est en feu. Alors voici un peu d’eau pour ceux qui se préparent à faire le grand voyage.

Bon, Diaspora*, je te passe l’histoire de la naissance et des espoirs déchus. Disons juste que c’est un réseau social alternatif, ouvert et décentralisé. Ça veut dire que ce n’est pas supporté par des gros géants du web, mais par une bande de bénévoles et d’associations qui ont le fort désir qu’une alternative existe. Ça c’est pour le côté alternatif.

Pour le côté ouvert, c’est du logiciel libre. Ça veut dire que potentiellement, tu peux étudier comment ça marche, tu peux le modifier pour tes propres besoins, tu peux l’installer où tu veux. Je dis bien potentiellement puisqu’il faut quand même quelques connaissances. Heureusement, des gens, des amis, les ont et donc on peut se baser sur eux. L’outil est donc à nous, on en fait ce qu’on veut.

Pour le côté décentralisé, ça veut dire qu’il n’y a pas qu’un seul point d’entrée à Diaspora*, mais 36 (chiffre non contractuel). Si tu veux, Diaspora*, c’est un peu comme un réseau de réseaux sociaux. En gros, Louis a installé Diaspora* sur son serveur à lui, il a appelé ça Diaspote et propose à qui veut de s’y créer un compte. Aka a fait pareil sur ses serveurs, il a appelé ça Framasphere. Et Josephine également, elle a appelé ça crossfamilyweb, mais comme c’est un tout petit serveur, elle autorise seulement les membres de sa famille à ouvrir un compte chez elle. (Les prénoms sont fictifs, mais les situations bien réelles.) Pourtant, tous les utilisateurs de Diaspote, Framasphere et crossfamilyweb peuvent échanger, discuter, s’envoyer des messages privés, partager des liens, des photos, etc. peu importe chez qui se trouve leur compte. C’est ça, la décentralisation. Un peu comme avec l’email. Certains en ont un chez GMail, Hotmail ou sur les serveurs de leur patron. Pourtant tout le monde communique avec tout le monde et pas uniquement les Gmail avec les Gmail. Avec Diaspora*, c’est pareil mais c’est pas du courrier, c’est du réseau social.

Pratiquement, j’ai un compte chez JoinDiaspora, mais si tu veux t’en créer un, je te suggère plutôt Framasphere en ce moment. Ils sont un peu plus sérieux et disponibles. En plus, ils parlent français. Ça peut aider. Pour le reste, une fois inscrit, c’est comme partout ailleurs. T’as des #hashtags pour trouver des sujets de discussion communs. Tu vas devoir ajouter des amis. Et poster les mêmes photos de chats ou d’autres que tu postais ailleurs. Faire des commentaires, des “J’aime”.  C’est un peu à toi de sentir l’ambiance.

Je vais quand même t’avertir que c’est peut-être moins engageant au début que les gros réseaux où tout le monde se trouve. Et ce pour deux raisons.

Premièrement, un réseau social c’est une coquille vide. Il n’y a rien. C’est toi qui vient y mettre l’ambiance. Donc s’il n’y a pas d’ambiance dans ton réseau social, c’est de ta faute. Oui oui, tu lis bien. Tu crois que Facebook t’apporte beaucoup, mais en fait non. C’est toi qui y a tout emmené, tes amis et les photos de tes amis. Et c’est Mark qui empoche le fric des publicités qu’il met sur ce que tu y déposes à la sueur de ton front. Mais je m’égare.

Diaspora*, pareil, est conçu comme un réseau social, donc il permet tout ce que Facebook permet (ou presque). Par contre, comme il n’a aucun bénéfice à en tirer, il ne te force pas à ajouter du contenu, à donner tout ton carnet d’adresse, à inviter et ré-inviter en stoemelings tous tes amis, à te rappeler que c’est l’anniversaire de ton collègue ou que maman a pété ton score a Candy Crush pour la 30ième fois cette semaine. Non, c’est calme sur Diaspora* si tu veux que ce soit calme. On ne va pas t’obliger à faire du social si c’est pas ton truc. Par contre, si t’aimes bien connecter avec d’autres de cette manière, ça peut fonctionner.

Le deuxième point qui gratte un peu, c’est que c’est parfois moins fluide que les grosses plateformes. Les bénévoles qui développent Diaspora* font un excellent travail et le logiciel est mature. Mais comme tout logiciel, il n’est pas exempt de bugs. C’est surtout un peu rude au début, trouver comment inviter ou connecter avec des amis, mais une fois qu’on a compris, ça passe tout seul. Et ça s’améliore de jour en jour. Le truc à retenir, c’est d’utiliser le moteur de recherche interne au maximum au début pour trouver du contenu, des amis ou connaissances et de ne pas hésiter à connecter, commenter, poster, poser des questions.

La suite, c’est à toi de l’écrire. Faut sans doute changer tes habitudes, revenir sur le site régulièrement et rappeler à tes amis où ils peuvent te trouver. Mais avec un peu de bol et de patience, d’ici quelque temps, les meilleurs d’entre eux t’auront rejoint.

Illustration de l’article: “Moutons du Pré Salé”, Claude Valette, license CC-BY-ND 2.0

Avis de déménagement

Facebook Logout

Le 31 décembre 2015, minuit, heure belge, j’ai désactivé mon compte Facebook.  Aujourd’hui, ça fait un mois qui j’y avais pas remis les pieds. J’ai appris deux choses: un, j’étais intoxiqué, deux tout le monde s’en fout.

Ça fait des mois (des années?) que je pense à me sortir de ce réseau social qui me bouffe le temps et l’éthique. J’ai même composé un projet spécialement pour m’aider à décrocher. Mais j’y suis toujours resté, multipliant les expériences et cherchant à en tirer parti sans trop y perdre de sens. Je n’ai rien contre les réseaux sociaux (je parle de ces plateformes en ligne qui connectent des utilisateurs). Je leur reconnais une utilité et de nombreuses qualités. Mais les méthodes et pratiques de Zuck et de sa société me débectent et les derniers évènements sont la goutte de trop. Donc, c’est décidé: je décroche.

Au départ, je m’étais fixé de quitter complètement la plateforme pendant un mois, pour voir. Voir comment je réagirais, voir si mes contacts s’en rendraient compte, voir si je pouvais faire sans. La première chose qui m’a surpris c’est le nombre de fois que je me suis trouvé à taper automatiquement dans la barre d’adresse “f…” pour m’arrêter ensuite sur la page de login. La première semaine, ça m’arrivait 5 fois par jour. Avec le temps, ce réflexe a presque disparu. L’autre surprise, c’est qu’aucun de mes contacts n’a remarqué que j’étais parti. Pas un mail ou message du type “T’es où?”, “Qu’est-ce qu’il se passe?”, “On ne te voit plus”. Rien. Pour résumer, je me suis rendu compte que ce site avait pris une place importante dans mes habitudes et que mon absence y était insignifiante. Deux excellentes raisons pour continuer la démarche de changement.

Le dilemme est qu’un réseau social a de la valeur, d’autant plus pour un artisan des médias, puisqu’il connecte et permet la diffusion des idées, des projets. Je pourrais tout simplement tout foutre à la poubelle et supprimer mon compte. Je l’ai déjà fait. Je suis aussi présent sur d’autres réseaux sociaux plus ou moins organisés {et|ou} proches de mes pratiques, donc je ne manque pas de lieux d’échanges. Mais Facebook est l’actuel roi en ce monde et une partie de mes contacts privilégie cette forme par rapport aux autres, sinon le problème ne se poserait pas. Alors que faire?

Je rêve évidemment que mes amies et les amis de mes amis se déplacent toutes et tous vers ces plateformes qui ne les exploitent pas, qui leur offrent les mêmes avantages, mais sans les déposséder ou les transformer en pompe à fric. Bien sûr ça a un coût. Un changement n’est jamais gratuit. Ça demande au moins un petit effort, au mieux dans la durée, et si je suis prêt à le faire aujourd’hui, ce n’est peut-être pas le bon moment pour tout le monde.

Pour ceux qui ne comprendraient pas trop ce déplacement, ou en quoi Facebook est pire qu’un autre. La raison est simple.

Voici ma page sur Diaspora*,

Diaspora

voici celle sur Twitter,

Twitter

et puis celle-la sur Facebook.

Facebook

Seul Facebook ici maintient mon contenu derrière un paywall. Malgré que tous mes paramètres Facebook soient mis en mode public, Facebook n’affiche rien publiquement. Un visiteur doit donner son vrai nom, une adresse email valide, sa date de naissance, plus quantité d’autres infos pour pouvoir avoir accès à un contenu que je considère accessible à tous. C’est tout à fait contraire à l’idée que je me fais du partage.

En quittant cette prison dorée, je m’exclus également de ces excellents contenus postés par certains amis. Tant pis, j’attendrai de les retrouver ailleurs, si jamais eux aussi font un jour ce déplacement.

Je n’ai pas encore bien décidé quoi faire du compte actuel, temporairement réactivé par mon passage ces derniers jours. Peut-être le transformer en fan page, peut-être le désactiver à nouveau, peut-être complètement le supprimer.

En attendant, à ceux qui liront ceci derrière leurs barricades, le meilleur moyen de continuer à échanger, c’est de me dire où je peux vous suivre sans devoir m’inscrire, de me rejoindre là où on se sentira libre, ou de t’abonner à ce blog via cette page.

Pour ma part, j’arrête de nourrir le monstre.

L’illustration de cette article est l’image affichée par Facebook lorsqu’on se déconnecte du site…

Radical Networks was rad

Radical Networks

Last weekend, Brooklyn, in the chilling space of NYU Polytechnical School of Engineering, was held the Radical Networks conference, organized by Sarah Grant, Amelia Marzec and Erica Kermani. This was the first edition, but the mood and quality of it really made it seem like this had been rolling for years. The talks and workshops available over the weekend shared these goals:

  • To understand how the technology can be used as a method of control and how to subvert that.
  • Teach people how to use networking technology for themselves.
  • Encourage creative and social exploration with computer networks.

The event was sold out but thanks to Internet Society NY, you could watch a live stream and still can access the recordings. So I’ll just point you a couple that I really enjoyed, although you could just watch all of them, as they really bring interesting approaches and point of views on these questions.

Seeing the Internet


Do you have any idea what the cloud looks like? Well, Shuli Hallak has been photographing it for years so the “Saint Thomas of I have nothing to hide” can’t say he did not know.

In The Final Days Of The WWW


A portfolio of digital art projects done by Dennis de Bel and Roel Roscam Abbing, former students of Piet Zwart Institute. They played around and hacked the notions of networking in goofy clever ways and brought a breath of fresh air and good laughs in the middle of all the “serious” talks we had over the weekend. A must watch in terms of creativity and exploration.

NYC Mesh, a community owned Wi-Fi network


And if you want to hear me speak about why you should talk to your neighbor, or how citizens can reclaim these hidden networks Shuli Hallak talked about, hop on the NYCmesh train with Brian and Dan.

See you next year, RadNets.

(Cover illustration uses a photo by Shuli Hallak, licensed CC-BY-SA)

I ♥ Phaune Radio

Phaune Radio homepage

Je n’écoute plus la radio. Tsé bien, celle qui diffuse encore sur les ondes. Enfin, je l’écoute, parfois, quand je loue une camionnette pour déménager. C’est te dire que c’est pas si souvent, je suis développeur, pas déménageur. Bref, je ne l’écoute pas en ligne non plus. Ça m’arrive d’écouter un podcast, quand on m’envoie un lien, mais je ne me branche pas toutes les semaines ou tous les jours sur les chaînes nationales ou régionales ou internationales. Pourtant, elles sont toutes, là, sur le oueb, en streaming ou podcast… Bien non. Je n’écoute pas. Et le principal problème, je crois, c’est le format. Coupure pub, jingle, nouvelles du monde, annonce de programme, voix radiophonique du présentateur,… tout ressemble trop à un média. C’est formaté. Même si tu changes la sauce, on dirait que l’emballage est produit en série.

C’est vache ce que je viens de dire. Je n’écoute pas généralement, donc je ne peux vraiment pas faire de généralité. Mais j’ai pas la patience de me brancher sur un programme à une certaine heure pour pas louper une émission que j’aimerais bien. Je n’ai pas non plus la patience de trouver un podcast dont j’aimerais entendre les enregistrements chaque semaine. J’ai bien essayé, il y a de très bons programmes sur certaines chaînes. Mais je n’ai pas les bons outils ou juste pas la motivation.

Sauf…, sauf depuis qu’on m’a branché sur LeDjamRadio. Ça c’est pour moi de la radio. Je peux écouter à n’importe quelle heure, le programme me plaît dans 90% des cas. Il n’y a pas de pub (ou presque, une fois par jour max), il n’y a pas de présentateur à la voix suave, pas de jingle rrrrrrépépépétititif qui te bombe l’oreille et la musique est un bon mix entre originalité, diversité et classiques revisités. Bref, c’est idéal pour bosser.

Bon, après deux ans d’écoute intensive et de partage − ouais, je suis boulimique − je me suis quand même un peu lassé. J’y ai piqué beaucoup de titres pour ma chronique “Cover Tuesday” (je leur dois bien cet aveu). Mais j’aime pas non plus la nouvelle interface où il faut t’inscrire avec ton mail et tout. Ça casse le rythme.

C’est là que mon dealer qui s’ignore a posté un lien vers Phaune Radio, la radio smart. Et là, c’est le bonheur à nouveau. Un vent de fraîcheur dans mes pavillons, un tour d’oreille bien nécessaire et une visite en “mouvement perpétuel d’un cabinet de curiosités sonores”. Bref, ne cherche plus, branche-toi. C’est bon.

phauneradio.com

Github, why u no show more media files?

Break down of media files on GithubMaybe you’ve noticed, it’s impossible to search for media files on Github. Searching Github is for code only. You might find references to media files in code, but no more. This is pretty annoying although understandable for two reasons:

  1. Github targets developers and, as such, focuses on tools that are relevant to them.
  2. The open source licenses that Github promotes for its public projects are maybe not always the most relevant or friendly ones when applied to media content. So, it’s just a supposition but, by preventing search for media files, Github avoids getting in trouble for actually hosting content that stands in a the gray area of open source licensing.

Anyway, since I’m very interested in how designers are using Github for their projects, I conducted my own study and started indexing as many projects as I could, mainly storing references to the media files they contained. And after more than 2 weeks of constant querying their API − with a little help of my friend Olm– − I managed to store information from ~500.000 original public projects. That’s a little more than 1% of all the projects that exists on Github so far (44,444,444 at the time I’m writing this blog post).

1% is a pretty small number, but the API is limited to 5000 calls per hour. It would take me years to get the whole data and certainly more as Github growth seems accelerating. But for the purpose of this study, it should be pretty enough. The goal is to get a sense of what’s popular. These 500.000 projects are also what I call “original”, which means they are not “forks” of other projects. So it overall might represents more projects than this 1%.

Another disclaimer before getting into the data, when I say media files, I actually searched for files with certain extensions. I used a list of 210 popular and not so popular media file extensions, compiled with the help of Wikipedia and others. Again, a trade off here due to time and space constraints. I could have missed some big ones that I never heard of. Although I hope its unlikely.

Ok, so with 1% of Github in my hands, it’s starts to be interesting to make assumptions about the big picture.

Out of the 546,574 projects, only 52,564 have been forked at least once. That’s barely 10%. But those 10% have produced 276,118 forks. So maybe overall 30% of Github is forks and 6% is original projects that have been forked. Yeah, open source is hard. The rest is empty projects (20% of the originals I downloaded), deleted ones and the occasional spam.

Surprisingly, Github gets spammed, a little. And the not-super-smart spammers are just filling the description of projects with their trash content, which makes it easy for Github to spot, I guess. Why are those spammy repositories still available from the API is a wonder to me.

550,000 projects represents a total of 130,000,000 files of which 12% are media files. Extrapolate this and Gihtub might host more than 1,5 billion media files. Quite a resource if we could only search through it. Anyway, as expected, the most popular media files are the PNG, JPG, GIF and SVG.

This is understandable as Github is the go to place if you’re into web design, whether its javascript libraries, CSS frameworks or icon sets. Github also offers static website hosting that attracts a lot of people. But let’s have a deeper look at the “others”. What’s popular and how does it break down?

What’s interesting to see here is that after PDF, which Github allows you to view in the web interface, comes two font formats (TTF and WOFF) that are very popular with web designers also, but for some reason, Github is not displaying. Actually, the next format that Github offers a preview of comes on the 11th position in this graph, the famous PSD. In between, we have many formats that could easily be previewed in a browser, but Github does not seem to care.

The little surprise here for me is the amount of OGG, MP3 and WAV files available. I certainly did not expect that. Seeing also that the ASSET file type is quite popular (a file format used in game design with Unity) and considering that game development tools overlap web development tools these days, all of this starts to make sense. Sound is an important part of any interactive experience, being a web/app interface or a game. Again, these sound files could be easily previewed in a browser.

Lastly, let’s consider STL, the last file format displayed here (and 30th in position). It’s the common file format for exchanging object files used in 3D printing. Github has a preview for it and even shows some form of “3D diff” between commits.  Great, but on 13th position, we have OBJ, also an open 3D format, that counts 5 times more files on Github than STL. To my knowledge, it’s not more complicated to display an OBJ file in the browser than a STL one. So what’s the logic here?

To wrap this up, Github could do so much more with not so much effort to allow previews in the browser of some important media file formats for designers. Maybe the “licensing” trouble described at the beginning is not a bad supposition after all. I’d be certainly happy to hear Github’s take on this. If you know anyone working there, thanks for forwarding these questions, and if anyone there is listening, I’d be pleased to dig more deeply into your data to understand more how designers (could) use your product.

Send us a picture of your laptop with stickers

laptopstickers

For a research project with Dorothy Howard, we ask you to send us a picture of your laptop cover with stickers. There could be one or many stickers, just as long as you agree to license the picture under a Creative Commons Attribution-ShareAlike (or equivalent, or Public Domain is fine too).

Write your name (how you want to be credited) in the image filename and drop it on https://balloon.io/laptopstickers.

You can also send it by mail to julien [a] xuv.be or tweet to with the hashtag #laptopstickers.

Thanks for spreading the word in your network and beyond.

Teasing : the most popular media file formats on Github

In my process of studying collaborative tools for designers, I took a deeper look at Github to find out how much media files were hosted there, of which type, etc. I’m just using the API provided by Github. No magic trick here. Although it’s a long process due to the API call limitations. There is 43.000.000 projects on Github. But I’m close to have gone over 1%, which is the lower limit I was reaching for before making any assumptions. So here under is just an small infographic to  tease you and make you impatient for the larger study I plan to release in a couple of days. Enjoy.

 

 

Took also the opportunity to test Infogr.am. Still not sure if I’ll use their service for the following article. Any suggestion or remarks?