Test and share your knowledge with our community!

done

Get access to over 700 hands-on labs, skill badges, and courses

Utiliser Cloud Dataprep sur Google Cloud

Lab 1 heure universal_currency_alt 1 crédit show_chart Débutant

GSP050
Présentation
Préparation
Tâche 1 : Ouvrir Google Cloud Dataprep
Tâche 2 : Récupérer les fichiers de l'ensemble de données
Tâche 3 : Créer un flux
Tâche 4 : Nettoyer les données des clients
Tâche 5 : Unifier plusieurs ensembles de données relatives aux transactions
Tâche 6 : Modifier les étapes de la recette
Tâche 7 : Joindre les données des transactions aux données des clients
Tâche 8 : Créer des colonnes et en renommer
Tâche 9 : Publier les résultats sur BigQuery
Félicitations !

Test and share your knowledge with our community!

done

Get access to over 700 hands-on labs, skill badges, and courses

Nous avons développé cet atelier avec notre partenaire Alteryx. Si vous avez accepté de recevoir les actualités sur les produits, les annonces et les offres sur la page de profil de votre compte, il est possible que vos informations personnelles soient partagées avec Alteryx, le collaborateur d'atelier.

GSP050

Google Cloud – Ateliers adaptés au rythme de chacun

Présentation

Cloud Dataprep est l'outil de préparation de données en libre-service de Google, conçu en collaboration avec Alteryx. Dans cet atelier, vous allez apprendre à nettoyer et à enrichir plusieurs ensembles de données à l'aide de Cloud Dataprep. Les exercices de cet atelier se basent sur un scénario fictif.

Scénario :

Vous travaillez pour une entreprise fournissant des services techniques qui propose trois types d'abonnements mensuels :

Offre découverte (prix : 9,99 € par mois)
Offre classique (prix : 14,99 € par mois)
Offre premium (prix : 29,99 € par mois)

De temps en temps, l'entreprise propose des remises promotionnelles. Ainsi, les prix des produits peuvent s'avérer légèrement inférieurs aux tarifs indiqués ci-dessus. Dans cet atelier, votre objectif est de fournir une analyse de l'activité de vente en fonction du code postal sur une période de trois ans.

Pour ce faire, vous devrez associer la source de données contenant les coordonnées de vos clients (où vous trouverez le code postal) aux données de ventes à partir d'une source de données d'achats. Une fois ces données associées, vous regrouperez les résultats.

Points abordés

Dans cet atelier, vous allez apprendre à effectuer les tâches suivantes :

Nettoyer des données et établir leur profil avec Cloud Dataprep
Associer plusieurs ensembles de données avec Cloud Dataprep
Analyser les résultats de formules dans Cloud Dataprep

Préparation

Avant de cliquer sur le bouton "Démarrer l'atelier"

Lisez ces instructions. Les ateliers sont minutés, et vous ne pouvez pas les mettre en pause. Le minuteur, qui démarre lorsque vous cliquez sur Démarrer l'atelier, indique combien de temps les ressources Google Cloud resteront accessibles.

Cet atelier pratique vous permet de suivre vous-même les activités dans un véritable environnement cloud, et non dans un environnement de simulation ou de démonstration. Nous vous fournissons des identifiants temporaires pour vous connecter à Google Cloud le temps de l'atelier.

Pour réaliser cet atelier :

vous devez avoir accès à un navigateur Internet standard (nous vous recommandons d'utiliser Chrome) ;

Remarque : Ouvrez une fenêtre de navigateur en mode incognito/navigation privée pour effectuer cet atelier. Vous éviterez ainsi les conflits entre votre compte personnel et le temporaire étudiant, qui pourraient entraîner des frais supplémentaires facturés sur votre compte personnel.

vous disposez d'un temps limité ; une fois l'atelier commencé, vous ne pouvez pas le mettre en pause.

Remarque : Si vous possédez déjà votre propre compte ou projet Google Cloud, veillez à ne pas l'utiliser pour réaliser cet atelier afin d'éviter que des frais supplémentaires ne vous soient facturés.

Démarrer l'atelier et se connecter à la console Google Cloud

Cliquez sur le bouton Démarrer l'atelier. Si l'atelier est payant, un pop-up s'affiche pour vous permettre de sélectionner un mode de paiement. Sur la gauche, vous trouverez le panneau Détails concernant l'atelier, qui contient les éléments suivants :
- Le bouton Ouvrir la console Google
- Le temps restant
- Les identifiants temporaires que vous devez utiliser pour cet atelier
- Des informations complémentaires vous permettant d'effectuer l'atelier
Cliquez sur Ouvrir la console Google. L'atelier lance les ressources, puis ouvre la page Se connecter dans un nouvel onglet.

Conseil : Réorganisez les onglets dans des fenêtres distinctes, placées côte à côte.
Remarque : Si la boîte de dialogue Sélectionner un compte s'affiche, cliquez sur Utiliser un autre compte.
Si nécessaire, copiez le nom d'utilisateur inclus dans le panneau Détails concernant l'atelier et collez-le dans la boîte de dialogue Se connecter. Cliquez sur Suivant.
Copiez le mot de passe inclus dans le panneau Détails concernant l'atelier et collez-le dans la boîte de dialogue de bienvenue. Cliquez sur Suivant.
Important : Vous devez utiliser les identifiants fournis dans le panneau de gauche. Ne saisissez pas vos identifiants Google Cloud Skills Boost. Remarque : Si vous utilisez votre propre compte Google Cloud pour cet atelier, des frais supplémentaires peuvent vous être facturés.
Accédez aux pages suivantes :
- Acceptez les conditions d'utilisation.
- N'ajoutez pas d'options de récupération ni d'authentification à deux facteurs (ce compte est temporaire).
- Ne vous inscrivez pas aux essais offerts.

Après quelques instants, la console Cloud s'ouvre dans cet onglet.

Remarque : Vous pouvez afficher le menu qui contient la liste des produits et services Google Cloud en cliquant sur le menu de navigation en haut à gauche. Icône du menu de navigation

Activer Cloud Shell

Cloud Shell est une machine virtuelle qui contient de nombreux outils pour les développeurs. Elle comprend un répertoire d'accueil persistant de 5 Go et s'exécute sur Google Cloud. Cloud Shell vous permet d'accéder via une ligne de commande à vos ressources Google Cloud.

Cliquez sur Activer Cloud Shell en haut de la console Google Cloud.

Une fois connecté, vous êtes en principe authentifié et le projet est défini sur votre ID_PROJET. Le résultat contient une ligne qui déclare YOUR_PROJECT_ID (VOTRE_ID_PROJET) pour cette session :

Your Cloud Platform project in this session is set to YOUR_PROJECT_ID

gcloud est l'outil de ligne de commande pour Google Cloud. Il est préinstallé sur Cloud Shell et permet la complétion par tabulation.

(Facultatif) Vous pouvez lister les noms des comptes actifs à l'aide de cette commande :

gcloud auth list

Cliquez sur Autoriser.
Vous devez à présent obtenir le résultat suivant :

Résultat :

ACTIVE: * ACCOUNT: student-01-xxxxxxxxxxxx@qwiklabs.net To set the active account, run: $ gcloud config set account `ACCOUNT`

(Facultatif) Vous pouvez lister les ID de projet à l'aide de cette commande :

gcloud config list project

Résultat :

[core] project = <ID_Projet>

Exemple de résultat :

[core] project = qwiklabs-gcp-44776a13dea667a6

Remarque : Pour consulter la documentation complète sur gcloud, dans Google Cloud, accédez au guide de présentation de la gcloud CLI.

Tâche 1 : Ouvrir Google Cloud Dataprep

Dans la console Cloud, accédez au menu de navigation, puis sous ANALYSE, sélectionnez Dataprep.
Avant d'accéder à Cloud Dataprep, prenez connaissance des conditions d'utilisation de Google Cloud Dataprep, puis cliquez sur Accepter.
Cochez la case et cliquez sur Accepter et continuer lorsque vous êtes invité à partager les informations de votre compte avec Alteryx.
Cliquez sur Autoriser pour autoriser Alteryx à accéder à votre projet.
Sélectionnez vos identifiants associés à l'atelier pour vous connecter, puis cliquez sur Autoriser.
Cochez la case et cliquez sur Accepter pour accepter les conditions d'utilisation d'Alteryx.
Si vous êtes invité à utiliser l'emplacement par défaut pour le bucket de stockage, cliquez sur Continuer.
Si vous êtes un nouvel utilisateur, vous serez invité à sélectionner des ensembles de données lors du lancement du tutoriel. Quittez la fenêtre en cliquant sur Annuler ou en la fermant.
Cliquez sur l'icône Dataprep en haut à droite pour accéder à l'écran d'accueil.

Tâche 2 : Récupérer les fichiers de l'ensemble de données

Dans cette section, vous allez ajouter les fichiers d'activité de vente à un bucket de stockage que Dataprep a créé pour vous.

Retournez dans la console Cloud.

Remarque : Si vous aviez fermé la console Cloud, vous pouvez l'ouvrir en cliquant sur l'icône Google Cloud située en bas à gauche.

Récupérez le nom de votre bucket. Dans le menu de navigation, sélectionnez Cloud Storage > Bucket.
Notez le nom du bucket Dataprep pour l'utiliser à l'étape suivante.
Dans la ligne de commande Cloud Shell, exécutez la commande suivante, en remplaçant [YOUR-BUCKET-NAME] par le nom du bucket Dataprep :

gsutil cp -r gs://spls/gsp050 gs://[YOUR-BUCKET-NAME]

Vous devez obtenir un résultat semblable à celui-ci :

Copying gs://spls/gsp050/lab_customers.csv [Content-Type=text/csv]... \ [4 files][ 8.5 MiB/ 8.5 MiB] Operation completed over 4 objects/8.5 MiB.

Cliquez sur Vérifier ma progression pour valider l'objectif. Récupérer les fichiers de l'ensemble de données

Tâche 3 : Créer un flux

Retournez à l'onglet Cloud Dataprep. Pour préparer vos données, vous devez créer un flux. Un flux est une série d'ensembles de données liés comprenant les relations qui les unissent.

Cliquez sur Create Flow (Créer un flux) en haut à droite :

Attribuez au flux le nom Qwiklab1, laissez le champ de description vide, puis cliquez sur OK.

Votre flux est à présent créé. Pour vous guider et vous aider à démarrer, Dataprep crée des espaces réservés dans le flux. La première étape consiste à importer et ajouter des données dans Dataprep et dans le flux.

Cliquez sur le signe + sous "Dataset" (Ensemble de données) pour ajouter une nouvelle source de données, puis cliquez sur le lien Import Datasets (Importer des ensembles de données).
Dans le menu de navigation de gauche, cliquez sur Cloud Storage > dataprep-staging-xxx > gsp050 pour accéder aux exemples de données que vous avez stockés à la section précédente.
Cliquez sur le signe + à côté de chaque fichier listé. Lorsque vous cliquez sur un fichier, il est déplacé vers la partie droite de l'écran. Cliquez sur Import & Add to Flow (Importer et ajouter au flux) pour ajouter les ensembles de données à votre flux :

Cloud Dataprep vous redirige vers la page d'affichage du flux, qui contient désormais les ensembles de données que vous avez ajoutés. Des espaces réservés supplémentaires sont créés pour la recette et le résultat.

Page d'affichage du flux contenant les ensembles de données ajoutés

Tâche 4 : Nettoyer les données des clients

Maintenant que vous disposez des données, l'étape suivante consiste à concevoir une recette de préparation des données afin de nettoyer l'ensemble de données des clients. Dans le modèle, une recette est déjà ajoutée avec les données de lab_2013_transactions.csv. Ignorons cette recette pour le moment et créons la nôtre.

Pour créer une recette :

Cliquez sur l'icône (+) à côté de lab_customers.csv.
Ensuite, cliquez sur Add new Recipe (Ajouter une recette).

Deux ensembles de données (lab_2015_transactions.csv et lab_customers.csv) avec le menu développé affiché pour lab_customers.csv

Effectuez un clic droit sur ce nouveau nœud de recette.

Sélectionnez Edit name and description (Modifier le nom et la description) dans le menu déroulant.
Remplacez le nom par lab_customers, puis cliquez sur OK.

Un nœud de recette est créé, et un panneau s'ouvre sur le côté droit. Il affiche des informations sur la recette, comme les données et les étapes de transformation existantes.
Cliquez sur le bouton bleu Edit Recipe (Modifier la recette). (Vous pouvez également double-cliquer directement sur le nœud de recette.)

Cloud Dataprep ouvre la page "Transformer Grid" (Grille de transformation). Il s'agit d'une interface semblable à une feuille de calcul qui vous permet de définir les différentes étapes de la recette de préparation de données. La page "Transformer" vous permet de créer votre recette de transformation et d'afficher les résultats appliqués à cet exemple. Lorsque vous êtes satisfait du résultat affiché, exécutez le job associé sur votre ensemble de données.

Chaque colonne est associée à un nom et une icône spécifiant le type de données concerné. Pour afficher les types de données disponibles, cliquez sur l'icône située à gauche du nom de la colonne :

Menu développé pour la colonne "column_id", avec l'option "More types" (Plus de types) mise en évidence et les options de sous-menu associées affichées

Un panneau Details (Détails) s'ouvre sur la droite lorsque vous cliquez sur une option de colonne.

Ce panneau est dynamique et contient des informations sur les éléments que vous avez sélectionnés, y compris les informations sur les colonnes et les transformations suggérées. Cliquez maintenant sur X en haut à droite du panneau "Details" (Détails) pour le fermer.

Dans les étapes suivantes, vous allez explorer les données en mode Grille et appliquer des étapes de transformation à votre recette.

Lorsque vous ouvrez la page "Transformer Grid" (Grille de transformation), Cloud Dataprep affiche automatiquement le profil du contenu de l'ensemble de données et génère des histogrammes organisés en colonnes, ainsi que des indicateurs de qualité des données. Ces informations sur le profil de vos données peuvent orienter votre processus de préparation.

Appliquer un filtre

Faites défiler la page vers la droite jusqu'à la colonne start_date (date_début). Examinez la barre horizontale située en haut de la colonne :

Barre horizontale à trois couleurs au-dessus de la colonne "start_date" (bleu, rouge et gris)

Remarque : Vous pouvez avancer si la barre rouge n'apparaît pas dans la colonne "start_date".

Cette barre représente la qualité des données. La partie verte représente les valeurs valides, la partie grise celles qui sont manquantes ou vides. Si la barre est rouge, cela signifie que les données ne correspondent pas au type indiqué. En cliquant sur les différentes portions de la barre, vous obtiendrez des suggestions relatives à la qualité des données sous forme d'expressions conditionnelles. Ces expressions testent chaque enregistrement pour déterminer s'il est valide, vide ou non valide, en fonction de la portion de la barre sur laquelle vous avez cliqué.

En utilisant start_date (date_début) et end_date (date_fin) comme filtre, vous allez ajouter une transformation permettant de supprimer les contacts pour lesquels la colonne start_date est vide.

Cliquez sur la partie grise de la barre de qualité des données dans la colonne start_date (date_début).

Cloud Dataprep génère une liste de transformations suggérées en fonction de votre sélection et l'affiche sur la droite. Lorsque vous pointez sur la fiche d'une suggestion, Dataprep vous montre un aperçu de vos données une fois la suggestion appliquée. Si vous sélectionnez une fiche, Cloud Dataprep actualise la grille de manière à afficher un aperçu de cette transformation.

Cliquez sur Add (Ajouter) sur la fiche de la suggestion "Delete rows with missing values in start_date" (Supprimer les lignes dont la valeur est manquante dans start_date) sur la droite.

Les lignes qui étaient en rouge ont été supprimées de l'ensemble de données.

Renseigner des valeurs manquantes

Examinez la colonne end_date (date_fin). La barre de qualité des données indique qu'un grand nombre de lignes comporte des valeurs manquantes. Pour faciliter l'utilisation de cette colonne, vous allez insérer une valeur fictive (le 1er janvier 2050) dans ces lignes vides.

Cliquez sur la section grise de la barre de qualité des données dans la colonne end_date (date_fin).

De nouvelles transformations suggérées sont générées. Une suggestion Set missing values to NULL() (Définir les valeurs manquantes sur NULL()) devrait apparaître. Dans ce cas, Dataprep ne sait pas exactement quelle valeur vous souhaitez remplir et crée un modèle que vous pouvez modifier.

Sur la fiche d'une suggestion, cliquez sur Edit (Modifier).

Cela fait apparaître l'outil Add Step (Ajouter une étape). La transformation suggérée par Cloud Dataprep a déjà été appliquée, mais vous pouvez apporter des modifications au code.

Dans la zone Formula (Formule), remplacez la valeur NULL() par '2050/1/1' (entre guillemets informatiques simples). La formule complète ressemblera à ceci :

IFMISSING($col, '2050/01/01')

Section "Edit with formula" (Modifier à l'aide d'une formule) affichant la formule complète dans la zone de texte "Formula" (Formule)

Cliquez sur Add (Ajouter).

Les problèmes de qualité de l'ensemble de données lab_customers sont maintenant corrigés et la portion grise de la barre de qualité des données a disparu.

Tâche 5 : Unifier plusieurs ensembles de données relatives aux transactions

À présent, concentrons-nous sur les ensembles de données relatives aux transactions.

Cliquez sur le nom du flux QWIKLAB1 en haut de l'écran :

Titre du flux avec "Qwiklab1" mis en évidence

Vous êtes redirigé vers la page d'affichage du flux.

Créez un ensemble de données unique rassemblant les ensembles de données relatives aux transactions de 2013, 2014 et 2015.

Cliquez sur l'ensemble de données lab_2013_transactions.
Cliquez sur le signe (+), puis sur Add new Recipe (Ajouter une recette).

Cloud Dataprep crée une recette et un ensemble de données formaté sous le nom Untitled recipe (Recette sans titre).

Effectuez un clic droit sur ce nouvel ensemble de données formaté. Sélectionnez Edit name and description (Modifier le nom et la description) dans le menu déroulant.
Donnez-lui le nom Combined Transactions (Transactions combinées), puis cliquez sur OK.

Affichage du flux pour deux ensembles de données (lab_2013_transactions.csv et lab_2014_transactions.csv), et la nouvelle recette "Combined Transactions" (Transactions combinées)

Double-cliquez sur Combined Transactions (Transactions combinées) pour modifier la recette. La recette s'ouvre alors dans l'outil "Transformer Grid" (Grille de transformation). Notez que les données présentes dans cette grille correspondent aux données structurées de l'ensemble de données lab_2013_transactions.csv.

Associer plusieurs ensembles de données ayant le même schéma par une transformation d'unification

Avant d'effectuer une transformation, regardez en bas à gauche de l'outil "Transformer Grid" (Grille de transformation). Vous y trouverez des métadonnées :

Affichage des métadonnées avec 5 colonnes, 26 476 lignes et 3 types de données

Les métadonnées présentent la synthèse des données chargées dans la grille. Rappelez-vous que les données chargées sont un échantillon de l'ensemble de données complet, jusqu'à 10 Mo.

Regardez en haut de l'outil de transformation, à côté du nom de la recette. Vous voyez ici l'échantillon qui est actuellement visible.

Remarque : Selon la version, l'affichage peut se présenter différemment.

Section du nom de la recette dans laquelle les données initiales sont visibles

Section du nom de la recette dans laquelle les données complètes sont visibles

L'échantillon affiché comprend les données initiales de la source. Pour les petits ensembles de données (de moins de 10 Mo), Dataprep charge l'intégralité de l'ensemble de données dans l'échantillon de données initiales.

Cliquez sur l'icône Recette en haut.

Icône Recette

Cliquez sur Add New Step (Ajouter une étape).
Saisissez "Union" (Unification) dans le champ de recherche, puis cliquez sur le résultat obtenu afin d'accéder à l'outil d'unification.

Le champ "Union Output" (Résultats de l'unification) affiche le schéma de sortie correspondant à l'ensemble de données. Chaque zone représente une colonne. Le schéma de sortie de Cloud Dataprep est basé sur le schéma de l'ensemble de données à partir duquel vous avez lancé l'unification. Dans cet exemple, les colonnes situées dans l'ensemble de données "Combined Transactions" (Transactions combinées) déterminent les colonnes qui s'affichent dans le résultat combiné.

Cliquez sur Add Data (Ajouter des données).
Cochez l'ensemble de données lab_2014_transactions. Dans le menu déroulant en bas à gauche, sélectionnez Align By Name (Aligner par nom), puis cliquez sur Apply (Appliquer).
Cliquez sur Add to Recipe (Ajouter à la recette) pour combiner les ensembles de données. Après avoir ajouté l'unification au script, examinez la colonne transaction_date.

Cet ensemble de données inclut désormais les enregistrements allant de janvier 2013 à décembre 2014.

Vous avez donc unifié deux des trois ensembles de données. Consultez les métadonnées qui devraient également faire apparaître des lignes supplémentaires.

Affichage des métadonnées avec 5 colonnes, 68 597 lignes et 3 types de données

Tâche 6 : Modifier les étapes de la recette

Quand on travaille avec des données, on est souvent amené à ajuster ou supprimer certaines transformations. Avec Dataprep, vous pouvez très facilement modifier vos recettes. Dans le cas présent, vous avez unifié deux ensembles de données sur trois. Au lieu de créer de toutes pièces une nouvelle étape pour unifier l'ensemble de données restant, vous pouvez modifier le travail effectué précédemment.

Cliquez sur l'icône Annuler pour revenir à l'action précédente. Dans notre cas, il s'agit de l'étape "Union" (Unification).

Notez que votre recette est vide à présent. La grille et les métadonnées sont également actualisées de manière à afficher l'état d'origine.

Cliquez sur l'icône Répéter de sorte que l'étape "Union" (Unification) réapparaisse.
Dans le panneau "Recipe" (Recette), effectuez un clic droit sur l'étape "Union" (Unification) et sélectionnez Edit (Modifier).
L'outil d'unification s'affiche à nouveau. Cette fois, cliquez sur Add data (Ajouter des données), puis cochez l'ensemble de données lab_2015_transactions. Dans le menu déroulant en bas à gauche, sélectionnez Align By Name (Aligner par nom), puis cliquez sur Apply (Appliquer).
Examinez les correspondances entre les colonnes. Cliquez sur Add to Recipe (Ajouter à la recette) pour combiner les trois ensembles de données.
Après avoir ajouté l'unification au script, examinez la colonne transaction_date.

Cet ensemble de données inclut désormais des enregistrements allant de janvier 2013 à décembre 2015. Combien de lignes apparaissent maintenant dans les métadonnées ?

Cliquez sur le nom de flux QWIKLAB1 pour revenir à la page d'affichage du flux.

Cet affichage est actualisé afin d'afficher la combinaison des trois ensembles de données relatives aux transactions en un ensemble de données "Combined Transactions" (Transactions combinées) unique.

Affichage du flux de la recette "Combined Transactions" (Transactions combinées) pour les trois ensembles de données

Tâche 7 : Joindre les données des transactions aux données des clients

Maintenant que les ensembles de données sont combinés, vous allez enrichir les données relatives aux transactions à l'aide des informations sur le lieu des achats. Pour ce faire, vous allez joindre les données des clients aux données relatives aux transactions. Lorsque vous effectuez une jointure, veillez à traiter l'ensemble de données le plus volumineux comme ensemble principal, situé à gauche lors de la jointure. L'ensemble de données le moins important correspondra alors à l'ensemble de données associé, situé à droite lors de la jointure. Dans Cloud Dataprep, l'ensemble de données à partir duquel vous débutez une jointure devient automatiquement l'ensemble de données principal.

Double-cliquez sur Combined Transactions (Transactions combinées) pour modifier de nouveau la recette.
Cliquez sur l'icône Joindre dans la barre d'outils "Transformer" (Transformateur) pour ouvrir l'outil de jointure.

Icône Joindre

Remarque : Vous pouvez également activer l'outil de jointure comme vous l'avez fait précédemment, au moyen du panneau "Recipe" (Recette) et de l'option New Step (Nouvelle étape), puis en recherchant "Join" (Joindre). Dans Dataprep, les options permettant de créer des transformations sont nombreuses.

Cliquez sur l'ensemble de données lab_customers à intégrer dans l'autre ensemble de données, puis cliquez sur Accept (Accepter).
Sur l'écran qui s'affiche, modifiez les clés et les conditions de la jointure. Un aperçu des correspondances avec les clés de jointure apparaît à gauche. Les options situées à droite vous permettent de modifier le type, les clés et les statistiques d'aperçu de la jointure. Dataprep tentera de déterminer automatiquement les clés de jointure en se basant sur les valeurs communes aux deux ensembles de données.

Vous pouvez éventuellement modifier les clés de jointure. Passez la souris sur la section "Join keys" (Clés de jointure), puis cliquez sur le crayon (icône de modification) pour modifier la clé de jointure ou sur Add (Ajouter) pour ajouter d'autres clés.

Pour ces ensembles de données, Cloud Dataprep a choisi une jointure interne portant sur la colonne customer_id. Cela signifie que l'ensemble de données généré comprendra les enregistrements qui ont la même valeur pour customer_id.

Cliquez sur Next (Suivant).
Sur l'écran qui s'affiche, vous pouvez sélectionner les colonnes à inclure ou à exclure après la jointure. Dans le panneau Output Columns (Colonnes de la sortie), cochez la case associée aux champs suivants pour ajouter les colonnes correspondantes à la jointure :
- customer_id (current)
- transaction_date
- ticket_price
- product
- address_state
- address_zip
- region
- start_date
- end_date

Toutes les colonnes que vous ne cochez pas seront exclues. Les résultats s'affichent comme suit :

Panneau "Output columns" (Colonnes de résultats)" affichant divers titres de colonnes, cochés ou non

Cliquez sur Review (Aperçu) pour prévisualiser le résultat de votre jointure dans la grille de transformation.
Cliquez sur Add to Recipe (Ajouter à la recette).

Tâche 8 : Créer des colonnes et en renommer

Pour finir, vous allez appliquer quelques opérations de nettoyage supplémentaires à vos données avant de les afficher dans votre rapport. Vous devez créer des colonnes contenant les valeurs que vous souhaitez utiliser comme critères de visualisation.

Nous allons découvrir un autre moyen de définir des transformations dans Dataprep, à partir des menus de colonne.

Cliquez sur la flèche du menu déroulant à côté de transaction_date, puis sélectionnez Extract > Datetime > Year (YYYY) (date_transaction > Extraire > Date/Heure > Année (AAAA)).

Un nouvel outil de création de formules s'ouvre, prérempli avec les actions sélectionnées. Un aperçu est également généré dans la grille.

Cliquez sur Add (Ajouter).

Notez qu'une colonne appelée year_transaction_date (année_date_transaction) est créée. À l'étape précédente, vous avez eu la possibilité de définir le nom de la nouvelle colonne en modifiant la transformation. Si vous ne renseignez pas de nom, Dataprep génère une nouvelle colonne dont le nom est basé sur la transformation effectuée, ou appelée "column#" (colonne#) si vous n'avez sélectionné aucune colonne source.

Vous allez renommer cette colonne manuellement. Cliquez sur la flèche du menu déroulant à côté de year_transaction_date (année_date_transaction), puis sélectionnez Rename (Renommer).
Saisissez activity_year (année_activité) dans le champ. Cliquez sur Add (Ajouter) pour accepter les modifications.

Notez que vous pouvez renommer plusieurs colonnes avec cette transformation en cliquant sur Add (Ajouter) pour ajouter d'autres mappages.

Tâche 9 : Publier les résultats sur BigQuery

Vous venez de finir de préparer vos données et vous êtes prêt à produire un fichier de résultats dans Cloud Storage. Cloud Dataprep exécute votre recette de transformation des données afin de générer un fichier de résultats à l'aide du moteur BigQuery.

Cliquez sur Run (Exécuter) en haut à droite de la grille de transformation.
Dans la boîte de dialogue Run Job (Exécuter le job), vous pouvez configurer les paramètres d'exécution du job et la destination des résultats. Par défaut, Cloud Dataprep crée un fichier CSV sur Cloud Storage.
Passez la souris sur l'action de publication existante, puis cliquez sur Edit (Modifier) à droite.
Cliquez sur l'onglet BigQuery à gauche.
Sélectionnez la base de données Dataprep, puis cliquez sur le bouton Create a new table (Créer une table) à droite.
Saisissez transactions_by_customer (transactions_par_client) comme nom de la nouvelle table, puis sélectionnez Append to this table every run (Ajouter à cette table à chaque exécution) comme option d'écriture.
Cliquez en bas sur Update (Mettre à jour) pour actualiser les paramètres des résultats.
Cliquez sur Run (Exécuter) pour lancer le job BigQuery. Cette opération prend quelques minutes. Vous pouvez voir la progression du job sur la page "Jobs" de Dataprep. Une fois l'opération terminée, un message de réussite semblable au suivant apparaît et vos données sont chargées dans la nouvelle table BigQuery.

Affichage de l'état "Completed" (Terminé) pour la recette "Combined Transactions" (Transactions combinées) sur la page des jobs du flux

Pointez sur le job terminé et cliquez sur Profile (Profil) pour afficher les données organisées. Celles-ci se présentent comme suit :

Page à onglets "Profile" (Profile) affichant des sections pour toutes les données et le profil des résultats par colonne

Vous pouvez consulter vos résultats par le biais d'une requête directe à BigQuery. Dans la console Google Cloud, accédez à ANALYSE > BigQuery. Cliquez sur l'ensemble de données Dataprep.
Saisissez select * from Dataprep.transactions_by_customer; dans l'éditeur de requête. Cliquez sur Run (Exécuter) pour afficher les données qui ont été publiées.

Vous savez désormais utiliser l'outil Cloud Dataprep, ainsi que nettoyer et enrichir facilement plusieurs sources de données à l'aide de son interface intuitive et visuelle.

Cliquez sur Vérifier ma progression pour valider l'objectif. Publier les résultats sur BigQuery

Félicitations !

L'atelier "Utiliser Google Cloud Dataprep" est maintenant terminé. Dans cet atelier, vous avez commencé par créer des flux et transformer les données. Vous avez ensuite appris à utiliser l'UI de Dataprep pour filtrer les données désordonnées, unifier et joindre plusieurs fichiers, et créer et renommer des colonnes. Enfin, vous avez généré un fichier de résultats que vous avez exporté vers Google Cloud Storage.

Étapes suivantes et informations supplémentaires

Vous pouvez continuer à explorer Dataprep Professional Edition grâce à un essai gratuit de 30 jours en cliquant ici. Veillez à vous déconnecter de votre compte d'atelier temporaire et vous reconnecter avec votre adresse e-mail Google Cloud valide. Des fonctionnalités avancées, comme des options de connectivité supplémentaires, l'orchestration des pipelines et la qualité adaptable des données, sont également disponibles dans l'édition Premium que vous pouvez explorer dans Google Cloud Marketplace.

Consultez les guides d'utilisation pour apprendre à trouver, nettoyer et améliorer des données dans Google Dataprep.

Formations et certifications Google Cloud

Les formations et certifications Google Cloud vous aident à tirer pleinement parti des technologies Google Cloud. Nos cours portent sur les compétences techniques et les bonnes pratiques à suivre pour être rapidement opérationnel et poursuivre votre apprentissage. Nous proposons des formations pour tous les niveaux, à la demande, en salle et à distance, pour nous adapter aux emplois du temps de chacun. Les certifications vous permettent de valider et de démontrer vos compétences et votre expérience en matière de technologies Google Cloud.

Dernière mise à jour du manuel : 27 septembre 2023

Dernier test de l'atelier : 27 septembre 2023

Copyright 2024 Google LLC Tous droits réservés. Google et le logo Google sont des marques de Google LLC. Tous les autres noms d'entreprises et de produits peuvent être des marques des entreprises auxquelles ils sont associés.