{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "# Nettoyage de données\n", "Un exemple d'un carnet Jupyter conçu pour un hypothétique usage en classe, dans le cadre de la leçon du *Programming Historian* portant sur les carnets Jupyter. Par Quinn Dombrowski, Tassie Gniady et David Kloster." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Qu'est-ce que le nettoyage de données?\n", "Si vous souhaitez utiliser un ordinateur pour réaliser une analyse de données, de quelque nature que ce soit, vous devrez vous assurer que vos données soient *propres*, c'est-à-dire d'un format constant qui suit des conventions intelligibles pour l'ordinateur. Par exemple, si vous comptez à l'oeil toutes les mentions de chats dans un texte, vous n'hésiterez probablement pas à inclure \"chat\", \"Chat\", \"chats\", \"Chat--\" et \"chat.\" dans votre décompte. Et selon la question de recherche à laquelle vous souhaitez répondre, il n'est pas impossible que vous ajoutiez aussi \"minou\", \"minet\", \"chaton\" et \"félin\".\n", "\n", "Confier une tâche pareille à un être humain pourrait prendre beaucoup de temps, surtout si le texte à analyser est long, mais vous pouvez raisonnablement vous attendre à ce que la personne en charge prenne tout ce vocabulaire en compte en effectuant le travail, surtout si vous demandez de compter \"tous les mots qui font référence à des chats.\" Mais les ordinateurs n'interprètent pas les textes de la même façon que les êtres humains et ils n'ont pas non plus la même compréhension du concept de \"chat\". Il serait sans doute possible de faire en sorte que l'ordinateur effectue un décompte similaire à celui d'un être humain dans ce contexte, mais il faudrait d'abord modifier le texte pour éviter que l'ordinateur ne soit confondu par les variations mineures (comme la présence de majuscules ou de ponctuation) qu'un être humain n'aurait aucun mal à gérer implicitement.\n", "\n", "Même lorsque toutes vos données sont dans un format cohérent, certaines questions de recherche peuvent exiger que ce format soit transformé avant l'analyse. L'exemple suivant provient d'un projet de recherche portant sur la fiction rédigée par des fans de *Harry Potter* dans une variété de langues et de cultures." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Les données\n", "Les données avec lesquelles nous travaillerons ont été saisies sur l'archive italienne de fictions de fan efpfanfic.net. Chacune des lignes du fichier contient une évaluation du texte de fiction (similaire à la note accordée à un film), qui peut être *verde* (vert), *giallo* (jaune), *arancione* (orange) ou *rosso* (rouge), en plus de la date de publication initiale du texte et de la date de sa plus récente modification. Nous aurions aussi pu saisir d'autres informations au sujet de chaque texte, dont son titre, son URL, son auteur, l'URL de la page de l'auteur, son genre, ses personnages et une description générale de son contenu, mais les trois éléments d'information que nous avons inclus dans le fichier de données suffisent à explorer un certain nombre de questions de recherche. " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Les orientations de la recherche\n", "Les données avec lesquelles nous travaillerons -- à savoir l'évaluation, la date de publication et la date de mise à jour -- peuvent servir à trouver les réponses à des questions comme:\n", "\n", "- Quelles sont les tendances, s'il y en a, qui gouvernent *le moment* où les fans publient de la fiction?\n", "- Les tendances observées sont-elles les mêmes pour des textes qui reçoivent des évaluations différentes?\n", "- Que peut-on observer au sujet des intervalles de temps qui s'écoulent entre la publication et la modification des textes? À noter que, pour interpréter ces mesures, il nous faudrait peut-être d'autres informations, par exemple sur la longueur des textes.\n", "- Les observations sont-elles constantes dans le temps ou changent-elles au fil des années?" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Format d'enregistrement des dates\n", "Les dates de publication et de mise à jour que nous avons saisies dans l'archive de textes de fiction ont été enregistrées en format *jour/mois/année*. Afin de répondre aux questions que nous nous posons au sujet des jours de la semaine, nous devrons d'abord convertir les dates dont nous disposons en jours de la semaine.\n", "\n", "