arrow_back

Dataprep : Qwik Start

Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

Dataprep : Qwik Start

Lab 1 heure universal_currency_alt 1 crédit show_chart Débutant
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

Nous avons développé cet atelier avec notre partenaire Trifacta. Si vous avez accepté de recevoir les actualités sur les produits, les annonces et les offres sur la page de profil de votre compte, il est possible que vos informations personnelles soient partagées avec Trifacta, le collaborateur d'atelier.

GSP105

Google Cloud – Ateliers adaptés au rythme de chacun

Présentation

Cloud Dataprep by Trifacta est un service intelligent qui permet d'explorer visuellement des données, de les nettoyer et de les préparer à des fins d'analyse. Cette solution sans serveur fonctionne à n'importe quelle échelle. Vous n'avez aucune infrastructure à déployer ni à gérer. La préparation des données s'effectue facilement : pas de code à écrire, quelques clics suffisent !

Dans cet atelier, vous allez utiliser Dataprep pour manipuler un ensemble de données. Vous importerez des ensembles, corrigerez les données non concordantes, et transformerez et associerez des données. Si ces notions ne vous sont pas familières, ne craignez rien. Elles n'auront plus de secret pour vous d'ici la fin de cet atelier.

Préparation

Avant de cliquer sur le bouton "Démarrer l'atelier"

Lisez ces instructions. Les ateliers sont minutés, et vous ne pouvez pas les mettre en pause. Le minuteur, qui démarre lorsque vous cliquez sur Démarrer l'atelier, indique combien de temps les ressources Google Cloud resteront accessibles.

Cet atelier pratique vous permet de suivre vous-même les activités dans un véritable environnement cloud, et non dans un environnement de simulation ou de démonstration. Nous vous fournissons des identifiants temporaires pour vous connecter à Google Cloud le temps de l'atelier.

Pour réaliser cet atelier :

  • vous devez avoir accès à un navigateur Internet standard (nous vous recommandons d'utiliser Chrome) ;
Remarque : Ouvrez une fenêtre de navigateur en mode incognito/navigation privée pour effectuer cet atelier. Vous éviterez ainsi les conflits entre votre compte personnel et le temporaire étudiant, qui pourraient entraîner des frais supplémentaires facturés sur votre compte personnel.
  • vous disposez d'un temps limité ; une fois l'atelier commencé, vous ne pouvez pas le mettre en pause.
Remarque : Si vous possédez déjà votre propre compte ou projet Google Cloud, veillez à ne pas l'utiliser pour réaliser cet atelier afin d'éviter que des frais supplémentaires ne vous soient facturés.

Démarrer l'atelier et se connecter à la console Google Cloud

  1. Cliquez sur le bouton Démarrer l'atelier. Si l'atelier est payant, un pop-up s'affiche pour vous permettre de sélectionner un mode de paiement. Sur la gauche, vous trouverez le panneau Détails concernant l'atelier, qui contient les éléments suivants :

    • Le bouton Ouvrir la console Google
    • Le temps restant
    • Les identifiants temporaires que vous devez utiliser pour cet atelier
    • Des informations complémentaires vous permettant d'effectuer l'atelier
  2. Cliquez sur Ouvrir la console Google. L'atelier lance les ressources, puis ouvre la page Se connecter dans un nouvel onglet.

    Conseil : Réorganisez les onglets dans des fenêtres distinctes, placées côte à côte.

    Remarque : Si la boîte de dialogue Sélectionner un compte s'affiche, cliquez sur Utiliser un autre compte.
  3. Si nécessaire, copiez le nom d'utilisateur inclus dans le panneau Détails concernant l'atelier et collez-le dans la boîte de dialogue Se connecter. Cliquez sur Suivant.

  4. Copiez le mot de passe inclus dans le panneau Détails concernant l'atelier et collez-le dans la boîte de dialogue de bienvenue. Cliquez sur Suivant.

    Important : Vous devez utiliser les identifiants fournis dans le panneau de gauche. Ne saisissez pas vos identifiants Google Cloud Skills Boost. Remarque : Si vous utilisez votre propre compte Google Cloud pour cet atelier, des frais supplémentaires peuvent vous être facturés.
  5. Accédez aux pages suivantes :

    • Acceptez les conditions d'utilisation.
    • N'ajoutez pas d'options de récupération ni d'authentification à deux facteurs (ce compte est temporaire).
    • Ne vous inscrivez pas aux essais offerts.

Après quelques instants, la console Cloud s'ouvre dans cet onglet.

Remarque : Vous pouvez afficher le menu qui contient la liste des produits et services Google Cloud en cliquant sur le menu de navigation en haut à gauche. Icône du menu de navigation

Tâche 1 : Créer un bucket Cloud Storage dans votre projet

  1. Dans la console Cloud, accédez au menu de navigation (Icône du menu de navigation) > Cloud Storage > Buckets.

  2. Cliquez sur Créer un bucket.

  3. Dans la boîte de dialogue Créer un bucket, saisissez un nom unique pour le bucket dans Nom. Conservez la valeur par défaut des autres paramètres.

Remarque : Pour en savoir plus sur l'attribution de noms aux buckets, consultez les consignes de dénomination des buckets.
  1. Décochez la case Appliquer la protection contre l'accès public sur ce bucket dans la section Choisissez comment contrôler l'accès aux objets.

  2. Cliquez sur Créer.

Vous avez créé votre bucket. Notez bien le nom du bucket, car vous l'utiliserez plus tard dans l'atelier.

Tester la tâche terminée

Cliquez sur Vérifier ma progression pour valider la tâche exécutée. Si vous avez réussi à créer le bucket Cloud Storage, vous verrez une note d'évaluation s'afficher.

Créer un bucket Cloud Storage

Tâche 2 : Initialiser Cloud Dataprep

  1. Cliquez sur le menu de navigation > Dataprep.
  2. Cochez la case pour accepter les conditions d'utilisation de Google Dataprep, puis cliquez sur Accept (Accepter).
  3. Cochez la case pour autoriser le partage des informations de votre compte avec Trifacta, puis cliquez sur Agree and Continue (Accepter et continuer).
  4. Cliquez sur Allow (Autoriser) pour autoriser Trifacta à accéder aux données du projet.
  5. Cliquez sur votre nom d'utilisateur pour vous connecter à Cloud Dataprep by Trifacta. Votre nom d'utilisateur figure dans le champ Nom d'utilisateur dans le panneau de gauche de l'atelier.
  6. Cliquez sur Allow (Autoriser) pour autoriser Cloud Dataprep à accéder au compte qui vous a été attribué pour cet atelier Google Cloud.
  7. Cochez la case pour valider les conditions d'utilisation de Trifacta, puis cliquez sur Accept (Accepter).
  8. Sur l'écran First time setup (Configuration initiale), cliquez sur Continue (Continuer) pour créer l'emplacement de stockage par défaut.

Dataprep s'ouvre.

Tester la tâche terminée

Cliquez sur Vérifier ma progression pour valider la tâche exécutée. Si vous avez réussi à initialiser Cloud Dataprep avec l'emplacement de stockage par défaut, vous recevez une note d'évaluation.

Initialiser Cloud Dataprep

Tâche 3 : Créer un flux

Cloud Dataprep utilise un espace de travail flow pour accéder aux ensembles de données et les gérer.

  1. Cliquez sur l'icône des flux, puis sur le bouton Create (Créer). Sélectionnez ensuite Blank Flow (Flux vide).

Icône des flux, bouton "Create" (Créer) et option "Blank Flow" (Flux vide)

  1. Cliquez sur Untitled Flow (Flux sans titre), puis nommez et décrivez le flux. Comme nous utilisons des données de la Federal Election Commission des États-Unis datant de 2016 pour cet atelier, nommez le flux "FEC-2016" et indiquez "Federal Elections Commission États-Unis 2016" pour sa description.
  2. Cliquez sur OK.

La page de flux FEC-2016 s'ouvre.

Tâche 4 : Importer des ensembles de données

Dans cette section, vous allez importer et ajouter des données dans le flux FEC-2016.

  1. Cliquez sur Add Datasets (Ajouter des ensembles de données), puis sélectionnez le lien Import Datasets (Importer des ensembles de données).

  2. Dans le volet de gauche, sélectionnez Cloud Storage pour importer des ensembles de données à partir de Cloud Storage, puis cliquez sur le crayon pour modifier le chemin du fichier.

Page Cloud Storage

  1. Dans la zone de texte Choose a file or folder (Sélectionner un fichier ou un dossier), saisissez gs://spls/gsp105, puis cliquez sur Go (OK).

Vous devrez peut-être agrandir la fenêtre du navigateur pour afficher les boutons Go (OK) et Cancel (Annuler).

  1. Cliquez sur us-fec/.

  2. Cliquez sur l'icône + à côté de cn-2016.txt pour créer un ensemble de données. Il s'affichera dans le volet de droite. Cliquez sur le titre de l'ensemble de données dans le volet de droite et renommez-le "Candidate Master 2016".

  3. De même, ajoutez l'ensemble de données itcont-2016-orig.txt et renommez-le "Campaign Contributions 2016".

  4. Lorsque les deux ensembles de données figurent dans le volet de droite, cliquez sur Import & Add to Flow (Importer et ajouter au flux).

Deux ensembles de données listés dans le volet de droite

Les deux ensembles de données apparaissent comme des flux.

Tâche 5 : Préparer le fichier des candidats

  1. L'ensemble de données "Candidate Master 2016" est sélectionné par défaut. Dans le volet de droite, cliquez sur Edit Recipe (Modifier la recette).

Page de l'ensemble de données "Candidate Master 2016"

La page "Candidate Master 2016 Transformer" s'ouvre en mode Grille.

Page "Candidate Master 2016 Transformer" en mode Grille

La page "Transformer" vous permet de créer votre recette de transformation et d'afficher les résultats appliqués à cet échantillon. Lorsque vous êtes satisfait du résultat affiché, exécutez le job associé à votre ensemble de données.

  1. Chacun des en-têtes de colonne comporte un nom et une valeur indiquant le type de données. Pour afficher les types de données, cliquez sur l'icône de colonne :

column6

  1. Notez également que lorsque vous cliquez sur le nom de la colonne, un panneau Details (Détails) s'ouvre à droite.

  2. Pour fermer le panneau Details (Détails), cliquez sur X en haut à droite.

Lors des étapes suivantes, vous allez explorer les données en mode Grille et appliquer des étapes de transformation à votre recette.

  1. La colonne "column5" comporte des données des années 1990 à 2064. Élargissez cette colonne (de la même manière que dans une feuille de calcul) pour séparer chaque année. Cliquez sur le plus haut segment, représentant l'année 2016, pour le sélectionner.

column5

Une étape de sélection de ces valeurs est alors créée.

  1. Dans le panneau Suggestions à droite, accédez à la section Keep rows (Conserver les lignes), puis cliquez sur Add (Ajouter) pour ajouter cette étape à votre recette.

 Panneau "Suggestions"

Le panneau "Recipe" (Recette) à droite contient maintenant l'étape suivante :

Keep rows where(DATE(2016, 1, 1) <= column5) && (column5 < DATE(2018, 1, 1))

  1. Passez la souris sur la partie rouge (non concordante) de l'en-tête de la colonne "column6 (State)" pour sélectionner les lignes non concordantes.

column6

Faites défiler la page vers le bas (mis en surbrillance en rouge) pour trouver les valeurs non concordantes. Vous remarquez que pour la plupart de ces enregistrements, la valeur "P" est indiquée dans la colonne "column7" et "US" dans la colonne "column6". Une non-concordance est identifiée parce que column6 est marquée comme une colonne "State" (colonne "État", indiquée par l'icône représentant un drapeau), mais elle comporte des valeurs qui ne font pas référence à des États (comme "US").

  1. Pour corriger la non-concordance, cliquez sur X en haut du panneau "Suggestions" pour annuler la transformation, puis cliquez sur l'icône représentant un drapeau dans "column6" et transformez-la en colonne "String" (Chaîne).

column6

La non-concordance n'existe plus et le marqueur de colonne est devenu vert.

  1. Filtrez les données pour n'afficher que les candidats à la présidentielle, correspondant aux enregistrements pour lesquels la valeur "P" figure dans la colonne "column7". Dans l'histogramme de column7, passez la souris sur les deux segments pour repérer celui qui est "H" et celui qui est "P". Cliquez sur le segment "P".

column7

  1. Dans le panneau "Suggestions" à droite, cliquez sur Add (Ajouter) pour ajouter l'étape à la recette.

Champ &quot;Keep rows&quot; (Conserver les lignes)

Tâche 6 : Transformer le fichier des contributions avec Wrangle et le joindre au fichier des candidats

Sur la page "Join" (Joindre), vous pouvez ajouter votre ensemble de données actuel à un autre ensemble de données ou à une autre recette en fonction des informations communes aux deux ensembles de données.

Avant de joindre le fichier "Contributions" au fichier "Candidates", nettoyez le fichier "Contributions".

  1. Cliquez sur FEC-2016 (le sélectionneur d'ensembles de données) en haut de la page en mode Grille.

FEC-2016 en haut de la page en mode Grille

  1. Cliquez sur l'ensemble de données grisé Campaign Contributions 2016 pour le sélectionner.

  2. Dans le volet de droite, cliquez sur Add > Recipe > Edit Recipe (Ajouter > Recette > Modifier la recette).

  3. Cliquez sur l'icône de recette en haut à droite sur la page, puis sur Add New Step (Ajouter une étape).

Icône de recette et bouton &quot;Add New Step&quot; (Ajouter une étape)

Supprimez les délimiteurs superflus de l'ensemble de données.

  1. Insérez dans le champ de recherche la commande en langage Wrangle ci-dessous :
replacepatterns col: * with: '' on: `{start}"|"{end}` global: true

L'outil de création de transformations analyse la commande Wrangle et renseigne les champs de transformation "Find" (Rechercher) et "Replace" (Remplacer).

Outil de création de transformations

  1. Cliquez sur Add (Ajouter) pour ajouter la transformation à la recette.

  2. Ajoutez une autre étape à la recette. Cliquez sur New Step (Nouvelle étape), puis saisissez "Join" dans le champ de recherche.

Champ &quot;Search transformations&quot; (Rechercher des transformations)

  1. Cliquez sur Join datasets (Joindre des ensembles de données) pour ouvrir la page "Joins" (Jointures).

  2. Cliquez sur "Candidate Master 2016" pour l'associer à "Campaign Contributions 2016", puis cliquez sur Accept (Accepter) en bas à droite.

Ligne &quot;Candidate Master 2016&quot;

  1. À droite, pointez sur la section "Join Keys" (Clés de jointure), puis cliquez sur le crayon (icône de modification).

Champ &quot;Join conditions&quot; (Conditions de jointure)

Dataprep déduit des clés communes. Dataprep vous suggère un grand nombre de valeurs communes en tant que clés de jointure.

  1. Dans le panneau "Add Key" (Ajouter une clé), accédez à la section "Suggested join keys" (Clés de jointure suggérées) et cliquez sur column2 = column11.

Panneau &quot;Add Key&quot; (Ajouter une clé)

  1. Cliquez sur Save and Continue (Enregistrer et continuer).

Vous pouvez examiner les colonnes 2 et 11 qui s'affichent.

  1. Cliquez sur Next (Suivant), puis cochez la case à gauche du libellé "Column" (Colonne) pour ajouter toutes les colonnes des deux ensembles de données au nouvel ensemble de données joint.

Liste du libellé &quot;Column&quot; (Colonne)

  1. Cliquez sur Review (Examiner), puis sur Add to Recipe (Ajouter à la recette) pour revenir au mode Grille.

Tâche 7 : Résumé des données

Vous allez générer un résumé de ces données. Pour cela, vous allez agréger les contributions de la colonne 16, en faire la moyenne, puis les compter. Ensuite, vous allez regrouper les candidats en fonction de leur ID, leur nom et leur parti dans les colonnes 2, 24 et 8 respectivement.

  1. En haut du panneau "Receipe" (Recette), cliquez sur New Step (Nouvelle étape) à droite et saisissez la formule suivante dans le champ de recherche Transformation pour prévisualiser les données agrégées.
pivot value:sum(column16),average(column16),countif(column16 > 0) group: column2,column24,column8

Un échantillon initial des données jointes et agrégées s'affiche, représentant un tableau récapitulatif des candidats à la présidentielle américaine, ainsi que les métriques des contributions à leur campagne 2016.

Page des contributions à la campagne

  1. Cliquez sur Add (Ajouter) pour ouvrir un tableau récapitulatif des principaux candidats à l'élection présidentielle américaine, ainsi que les métriques des contributions à leur campagne 2016.

Tâche 8 : Renommer les colonnes

Vous pouvez faciliter l'interprétation des données en renommant les colonnes.

  1. Ajoutez à la recette chacune des étapes de changement de nom et d'arrondi individuellement. Pour ce faire, cliquez sur New Step (Nouvelle étape), puis saisissez les lignes suivantes :
rename type: manual mapping: [column24,'Candidate_Name'], [column2,'Candidate_ID'],[column8,'Party_Affiliation'], [sum_column16,'Total_Contribution_Sum'], [average_column16,'Average_Contribution_Sum'], [countif,'Number_of_Contributions']
  1. Ensuite, cliquez sur Add (Ajouter).

  2. Ajoutez une dernière étape en cliquant sur New Step (Nouvelle étape) pour arrondir le montant "Average Contribution" (Contribution moyenne) :

set col: Average_Contribution_Sum value: round(Average_Contribution_Sum)
  1. Ensuite, cliquez sur Add (Ajouter).

Les résultats ressemblent en principe à ce qui suit :

Table des résultats avec les colonnes &quot;Candidate_Id&quot;, &quot;Candidate_Name&quot;, &quot;Part_Affiliation&quot; et &quot;Total_Contribution_Sum&quot;

Félicitations !

Vous avez ajouté un ensemble de données à l'aide de Dataprep, et vous avez créé des recettes pour superposer les données et générer des résultats significatifs.

Étapes suivantes et informations supplémentaires

Cet atelier fait partie d'une série appelée "Qwik Starts". Les ateliers de cette série sont conçus pour vous présenter brièvement les nombreuses fonctionnalités proposées par Google Cloud. Pour suivre un autre atelier, recherchez "Qwik Starts" dans le catalogue.

Formations et certifications Google Cloud

Les formations et certifications Google Cloud vous aident à tirer pleinement parti des technologies Google Cloud. Nos cours portent sur les compétences techniques et les bonnes pratiques à suivre pour être rapidement opérationnel et poursuivre votre apprentissage. Nous proposons des formations pour tous les niveaux, à la demande, en salle et à distance, pour nous adapter aux emplois du temps de chacun. Les certifications vous permettent de valider et de démontrer vos compétences et votre expérience en matière de technologies Google Cloud.

Dernière mise à jour du manuel : 15 septembre 2023

Dernier test de l'atelier : 15 septembre 2023

Copyright 2024 Google LLC Tous droits réservés. Google et le logo Google sont des marques de Google LLC. Tous les autres noms d'entreprises et de produits peuvent être des marques des entreprises auxquelles ils sont associés.