Comment je suis devenu boulimique (de données brutes)

Et j'aime ça !

Les voies de la connaissance et du savoir sont impénétrables – et cauchemardesques !

C’est en ces termes que je pourrais résumer ma orientation/conversion très inattendue vers/à R.

Premier contact (anodin)

Je suis abonné à quelques chaînes YouTube sur des sujets qui m’intéressent. Et je suivais ce jour-là une vidéo au sujet d’une femme évoluant dans une profession plutôt masculine. Parmi les choses dites, elle a évoqué – juste évoqué – le mot « R ». Pour tout un chacun, « R » est une lettre de l'alphabet, mais dans ce contexte précis, ça semblait être un outil. Comme je ne connaissais pas, j’ai cherché et j’ai vu que c’était un langage de programmation orienté vers les statistiques. Ainsi, j’ai pu plus aisément replacer son témoignage dans un contexte et mieux comprendre les tenants et les aboutissants.

Second contact

L’histoire aurait pu s’arrêter là. Sauf que deux jours plus tard à peine, de nouveau sur YouTube, la plateforme me fit une proposition de vidéo dont le titre semblait suggérer d’abandonner Excel au profit de R.

Sachant maintenant reconnaître le mot R, le titre me parlait, sauf que je ne voyais pas le lien entre R, un langage de programmation, et Excel un tableur, donc un logiciel.

Intrigué, j’ai visionné la vidéo afin de comprendre ce lien.

L’idée du gars était qu’Excel est un outil qui mélange les données et les équations appliquées à ces données et qu’en plus de donner un ensemble incohérent, son usage pouvait conduire à un mauvais usage car peu adapté à la manipulation aisée des dites équations. Et grâce aux améliorations d'interface – comme la poignée de recopie – la probabilité d'introduire des erreurs en était que facilitée.

Un individu plus structuré aurait placé d’un côté les données et de l’autre les équations. Tout mélange serait donc impossible et les erreurs – autres que celles des équations en elles-mêmes – limitées.

En tant qu’utilisateur du XML+XSLT et concepteur d’applications Web, la séparation des données de la présentation fait partie de mon quotidien. Donc lorsque l’argument séparatiste données/équations m’a été exposé, il avait une très forte signification pour moi.

La vidéo n’exposait pas d’exemples, mais juste des principes. Frustrant !

Comme je suis ingénieur, j’avais besoin d’exemples plus concret pour comprendre plus clairement la problématique et comment l’appliquer car il arrive parfois que la théorie soit séduisante… mais que la pratique soit juste contre-productive. J’aime les choses qui simplifient ma vie.

J’avais donc besoin de plus d’informations techniques à ce sujet.

L’apprentissage

J’ai donc commencé à me documenter sur R. À quoi ça ressemble, ses objectifs, ses avantages, ses inconvénients. J’ai trouvé un MOOC sur ma plateforme de formation préférée et j’ai décidé de suivre le cours. J’ai suivi un cours, puis un autre, puis un autre. Et en quelques semaines, j’ai pu balayer l’ensemble des bases. J’avais assez de matière pour m’amuser seul, comme un gamin dans un bac à sable.

Sauf que…

Sauf que R, c’est plutôt orienté vers les statistiques. Même si j’avais eu de bonnes notes aux examens des certifications du MOOC, j’avais bien perçu que certains concepts élémentaires des théories statistiques me faisaient défaut. Je savais les utiliser mais sans réellement les comprendre. R n’était pas ma limitation, mes connaissances anciennes des stats l’étaient. Et si je voulais réaliser des calculs justes, il me fallait utiliser les bonnes formules, donc comprendre quand les utiliser et donc comprendre parfaitement les concepts, de manière claire et limpide.

La deuxième chose est que R sert aux stats et les stats nécessitent des données, des données brutes, plein de données brutes, surtout lorsqu’il s’agit de refaire les calculs des autres pour valider qu’on a bien compris les concepts et qu’on sait utiliser les formules.

Coup de foudre et conséquences

Je ne peux pas le cacher : j’adore R. Non seulement pour le langage lui-même qui est très pratique, mais aussi parce qu’il permet une séparation claire entre les données et les équations. Et ça, ça correspond bien à mon état d’esprit et ma façon de faire. J’aime organiser mon univers en petites boîtes bien distinctes et bien maîtriser le contenu de chacune.

En plus d’être pratique, il m’oblige à comprendre les mécaniques statistiques en arrière-plan car comme c’est au programmeur de mettre en place ses propres équations, le moindre écart à la théorie conduit à une erreur dans les résultats et donc l’interprétation. Ça impose donc de maîtriser encore mieux ses propres connaissances et donc de s’améliorer. Pour ça, il faut des connaissances théoriques, beaucoup de connaissances théoriques.

Or, en me redonnant le pouvoir et donc la responsabilité, je suis seul maître à bord, sans filet. Si R est un outil puissant, il oblige à une certaine humilité. Et clairement, en matière de théorie statistique, même si j’avais les bases et quelques vagues souvenirs, je n’étais pas à la hauteur – du simple fait de ne pas pratiquer.

Donc j’ai commencé à potasser à nouveau, pour comprendre chaque concept derrière chaque morceau d’équation et savoir quand et comment les utiliser.

Sauf qu’une théorie sert à prévoir. C’est un pari sur l’avenir. Et pour ça, il faut des données. Et je ne voulais pas des données de seconde main, déjà trafiquées et peut-être faussées. Je voulais du pur jus, fraîchement pressé à froid, du bio. Et là, c’est encore plus compliqué. Il faut fouiller, chercher et réclamer.

Mes difficultés à trouver des données brutes m’ont permis de comprendre encore plus l’importance de l’Open Data. En attendant, pour gagner en expérience, je teste mes équations sur tout et n’importe quoi. Je cherche les données brutes partout. Dans le bracelet Fitbit que je porte au poignet, ma balance électronique, les logs de mes machines, les études scientifiques… Tout, absolument tout, y passe. J’en dévore des quantités astronomiques...et j’aime ça.

Car plus je charge des données, plus je m’interroge sur comment les utiliser pour en faire quelque chose d’intéressant… et plus les données me parlent.

Mon cerveau bouillonne d’idées… et c’est un cauchemar car ça tourne presque à l’obsession. Je dois faire tous mes efforts pour ne pas tomber dans l’excès et ne pas oublier le reste.