arrow_back

Premiers pas avec BigQuery Machine Learning

Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

Premiers pas avec BigQuery Machine Learning

Lab 45 minutes universal_currency_alt No cost show_chart Débutant
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

GSP247

Google Cloud – Ateliers adaptés au rythme de chacun

Présentation

BigQuery Machine Learning (BigQuery ML) permet aux utilisateurs de créer et d'exécuter des modèles de machine learning dans BigQuery à l'aide de requêtes SQL. L'objectif est de démocratiser le machine learning en permettant aux utilisateurs SQL de créer des modèles à l'aide de leurs propres outils et d'accélérer le rythme de développement en leur évitant d'avoir à transférer des données.

Nous mettons à votre disposition un nouvel ensemble de données d'e-commerce comprenant des millions d'enregistrements Google Analytics pour le Google Merchandise Store, qui sont chargés dans BigQuery. Dans cet atelier, vous allez utiliser ces données pour créer un modèle capable de prédire si un visiteur effectuera une transaction.

Points abordés

Dans cet atelier, vous allez apprendre à créer, évaluer et utiliser des modèles de machine learning dans BigQuery.

Prérequis

Pour exploiter pleinement cet atelier de formation, vous devez posséder des connaissances de base de SQL ou de BigQuery.

Préparation

Avant de cliquer sur le bouton "Démarrer l'atelier"

Lisez ces instructions. Les ateliers sont minutés, et vous ne pouvez pas les mettre en pause. Le minuteur, qui démarre lorsque vous cliquez sur Démarrer l'atelier, indique combien de temps les ressources Google Cloud resteront accessibles.

Cet atelier pratique vous permet de suivre vous-même les activités dans un véritable environnement cloud, et non dans un environnement de simulation ou de démonstration. Nous vous fournissons des identifiants temporaires pour vous connecter à Google Cloud le temps de l'atelier.

Pour réaliser cet atelier :

  • vous devez avoir accès à un navigateur Internet standard (nous vous recommandons d'utiliser Chrome) ;
Remarque : Ouvrez une fenêtre de navigateur en mode incognito/navigation privée pour effectuer cet atelier. Vous éviterez ainsi les conflits entre votre compte personnel et le temporaire étudiant, qui pourraient entraîner des frais supplémentaires facturés sur votre compte personnel.
  • vous disposez d'un temps limité ; une fois l'atelier commencé, vous ne pouvez pas le mettre en pause.
Remarque : Si vous possédez déjà votre propre compte ou projet Google Cloud, veillez à ne pas l'utiliser pour réaliser cet atelier afin d'éviter que des frais supplémentaires ne vous soient facturés.

Démarrer l'atelier et se connecter à la console Google Cloud

  1. Cliquez sur le bouton Démarrer l'atelier. Si l'atelier est payant, un pop-up s'affiche pour vous permettre de sélectionner un mode de paiement. Sur la gauche, vous trouverez le panneau Détails concernant l'atelier, qui contient les éléments suivants :

    • Le bouton Ouvrir la console Google
    • Le temps restant
    • Les identifiants temporaires que vous devez utiliser pour cet atelier
    • Des informations complémentaires vous permettant d'effectuer l'atelier
  2. Cliquez sur Ouvrir la console Google. L'atelier lance les ressources, puis ouvre la page Se connecter dans un nouvel onglet.

    Conseil : Réorganisez les onglets dans des fenêtres distinctes, placées côte à côte.

    Remarque : Si la boîte de dialogue Sélectionner un compte s'affiche, cliquez sur Utiliser un autre compte.
  3. Si nécessaire, copiez le nom d'utilisateur inclus dans le panneau Détails concernant l'atelier et collez-le dans la boîte de dialogue Se connecter. Cliquez sur Suivant.

  4. Copiez le mot de passe inclus dans le panneau Détails concernant l'atelier et collez-le dans la boîte de dialogue de bienvenue. Cliquez sur Suivant.

    Important : Vous devez utiliser les identifiants fournis dans le panneau de gauche. Ne saisissez pas vos identifiants Google Cloud Skills Boost. Remarque : Si vous utilisez votre propre compte Google Cloud pour cet atelier, des frais supplémentaires peuvent vous être facturés.
  5. Accédez aux pages suivantes :

    • Acceptez les conditions d'utilisation.
    • N'ajoutez pas d'options de récupération ni d'authentification à deux facteurs (ce compte est temporaire).
    • Ne vous inscrivez pas aux essais offerts.

Après quelques instants, la console Cloud s'ouvre dans cet onglet.

Remarque : Vous pouvez afficher le menu qui contient la liste des produits et services Google Cloud en cliquant sur le menu de navigation en haut à gauche. Icône du menu de navigation

Ouvrir la console BigQuery

  1. Dans la console Google Cloud, sélectionnez le menu de navigation > BigQuery.

Le message Bienvenue sur BigQuery dans Cloud Console s'affiche. Il contient un lien vers le guide de démarrage rapide et les notes de version.

  1. Cliquez sur OK.

La console BigQuery s'ouvre.

Tâche 1 : Créer un ensemble de données

  1. Pour créer un ensemble de données, cliquez sur l'icône Afficher les actions à côté de votre ID de projet, puis sélectionnez Créer un ensemble de données.

Option "Créer un ensemble de données"

  1. Ensuite, saisissez bqml_lab pour l'ID de l'ensemble de données et cliquez sur Créer un ensemble de données.

Tester la tâche terminée

Cliquez sur Vérifier ma progression pour valider la tâche exécutée. Si votre tâche a bien été exécutée, vous recevez une note d'évaluation.

Créer un ensemble de données BigQuery

Tâche 2 : Créer un modèle

Entrons à présent dans le vif du sujet !

  1. Dans l'ÉDITEUR BigQuery, saisissez ou collez la requête suivante pour créer un modèle capable de prédire si un visiteur effectuera une transaction :
#standardSQL CREATE OR REPLACE MODEL `bqml_lab.sample_model` OPTIONS(model_type='logistic_reg') AS SELECT IF(totals.transactions IS NULL, 0, 1) AS label, IFNULL(device.operatingSystem, "") AS os, device.isMobile AS is_mobile, IFNULL(geoNetwork.country, "") AS country, IFNULL(totals.pageviews, 0) AS pageviews FROM `bigquery-public-data.google_analytics_sample.ga_sessions_*` WHERE _TABLE_SUFFIX BETWEEN '20160801' AND '20170631' LIMIT 100000;
  1. Cliquez sur EXÉCUTER.

Le système d'exploitation de l'appareil utilisé par le visiteur, le type d'appareil (mobile), la situation géographique du visiteur (pays) et le nombre de pages vues figurent parmi les critères pris en compte pour déterminer si une transaction a été effectuée.

Dans ce cas précis, bqml_lab désigne l'ensemble de données, et sample_model le modèle (en l'occurrence, il s'agit d'un modèle de type régression logistique binaire). L'étiquette (label) représente le résultat que vous cherchez à obtenir.

Remarque : Si vous n'êtes intéressé que par une colonne, cette méthode vous évite d'avoir à définir input_label_cols.

Seules les données recueillies entre le 1er août 2016 et le 30 juin 2017 sont utilisées pour l'entraînement, ce qui permet de réserver les données du dernier mois de la période pour les prédictions. Afin de gagner du temps, le nombre de points de données est limité à 100 000.

Utilisez ensuite la commande CREATE MODEL (Créer un modèle) pour créer une tâche de requête qui sera exécutée de façon asynchrone, ce qui vous laisse le temps de fermer ou d'actualiser la fenêtre BigQuery, par exemple.

Tester la tâche terminée

Cliquez sur Vérifier ma progression pour valider la tâche exécutée. Si votre tâche a bien été exécutée, vous recevez une note d'évaluation.

Créer un modèle pour prédire si un visiteur effectuera une transaction

(Facultatif) Consulter les informations sur le modèle et les statistiques d'entraînement

Si cela vous intéresse, vous pouvez obtenir des informations sur le modèle en développant l'ensemble de données bqml_lab, puis en cliquant sur le modèle sample_model dans l'UI. Sous l'onglet Détails, vous devriez trouver des informations de base concernant le modèle ainsi que les options d'entraînement utilisées pour le créer. Sous Entraînement, vous devriez voir une table ou des graphiques, selon les paramètres Afficher en tant que que vous avez définis :

Table d'entraînement

Graphique d'entraînement

Tâche 3 : Évaluer le modèle

  • Remplacez la requête précédente par celle qui suit, puis cliquez sur Exécuter :
#standardSQL SELECT * FROM ml.EVALUATE(MODEL `bqml_lab.sample_model`, ( SELECT IF(totals.transactions IS NULL, 0, 1) AS label, IFNULL(device.operatingSystem, "") AS os, device.isMobile AS is_mobile, IFNULL(geoNetwork.country, "") AS country, IFNULL(totals.pageviews, 0) AS pageviews FROM `bigquery-public-data.google_analytics_sample.ga_sessions_*` WHERE _TABLE_SUFFIX BETWEEN '20170701' AND '20170801'));

Avec un modèle de régression linéaire, la requête ci-dessus renvoie les colonnes suivantes :

  • mean_absolute_error, mean_squared_error, mean_squared_log_error
  • median_absolute_error, r2_score, explained_variance

La même requête renvoie les colonnes suivantes avec un modèle de régression logistique :

  • precision, recall
  • accuracy, f1_score
  • log_loss, roc_auc

Pour connaître la signification de chaque métrique et leur méthode de calcul, consultez le glossaire du machine learning ou faites une recherche Google.

Comme vous pouvez le constater, les parties SELECT et FROM de la requête sont identiques à celles utilisées lors de l'entraînement. Par contre, la période a changé dans la partie WHERE, et dans la partie FROM, vous appelez ml.EVALUATE.

Un tableau semblable à ce qui suit doit s'afficher :

Résultats de la requête avec un modèle de régression logistique

Tester la tâche terminée

Cliquez sur Vérifier ma progression pour valider la tâche exécutée. Si votre tâche a bien été exécutée, vous recevez une note d'évaluation.

Évaluer le modèle

Tâche 4 : Utiliser le modèle

Prédire les achats pour chaque pays

Avec la requête suivante, vous allez pouvoir prédire le nombre de transactions effectuées par les visiteurs dans chaque pays, trier les résultats et établir un classement des 10 pays qui enregistreront le plus de transactions :

  • Remplacez la requête précédente par celle qui suit, puis cliquez sur Exécuter :
#standardSQL SELECT country, SUM(predicted_label) as total_predicted_purchases FROM ml.PREDICT(MODEL `bqml_lab.sample_model`, ( SELECT IFNULL(device.operatingSystem, "") AS os, device.isMobile AS is_mobile, IFNULL(totals.pageviews, 0) AS pageviews, IFNULL(geoNetwork.country, "") AS country FROM `bigquery-public-data.google_analytics_sample.ga_sessions_*` WHERE _TABLE_SUFFIX BETWEEN '20170701' AND '20170801')) GROUP BY country ORDER BY total_predicted_purchases DESC LIMIT 10;

Cette requête ressemble beaucoup à la requête d'évaluation de la section précédente, sauf que vous utilisez ml.PREDICT à la place de ml.EVALUATE, et que la partie BigQuery ML de la requête a été enveloppée avec des commandes SQL standards. Pour cet atelier, nous nous intéressons aux pays et au nombre de transactions dans chacun d'eux, ce qui explique l'utilisation des commandes SELECT, GROUP BY et ORDER BY. La commande LIMIT, quant à elle, limite les résultats aux 10 pays arrivés en tête.

Un tableau semblable à ce qui suit doit s'afficher :

10 lignes de pays avec le nombre total d'achats probables pour chacun d'eux

Tester la tâche terminée

Cliquez sur Vérifier ma progression pour valider la tâche exécutée. Si votre tâche a bien été exécutée, vous recevez une note d'évaluation.

Prédire les achats pour chaque pays

Prédire les achats pour chaque utilisateur

Considérons un autre exemple. Cette fois-ci, vous allez pouvoir prédire le nombre de transactions effectuées par chaque visiteur, trier les résultats et établir un classement des 10 visiteurs qui réaliseront le plus de transactions :

  • Remplacez la requête précédente par celle qui suit, puis cliquez sur Exécuter :
#standardSQL SELECT fullVisitorId, SUM(predicted_label) as total_predicted_purchases FROM ml.PREDICT(MODEL `bqml_lab.sample_model`, ( SELECT IFNULL(device.operatingSystem, "") AS os, device.isMobile AS is_mobile, IFNULL(totals.pageviews, 0) AS pageviews, IFNULL(geoNetwork.country, "") AS country, fullVisitorId FROM `bigquery-public-data.google_analytics_sample.ga_sessions_*` WHERE _TABLE_SUFFIX BETWEEN '20170701' AND '20170801')) GROUP BY fullVisitorId ORDER BY total_predicted_purchases DESC LIMIT 10;

Un tableau semblable à ce qui suit doit s'afficher :

10 lignes de fullVisitorId avec le nombre total d'achats probables pour chaque visiteur

Tester la tâche terminée

Cliquez sur Vérifier ma progression pour valider la tâche exécutée. Si votre tâche a bien été exécutée, vous recevez une note d'évaluation.

Prédire les achats pour chaque utilisateur

Tâche 5 : Tester vos connaissances

Voici quelques questions à choix multiples qui vous permettront de mieux maîtriser les concepts abordés lors de cet atelier. Répondez-y du mieux que vous le pouvez.

Félicitations !

L'atelier d'auto-formation "Premiers pas avec BigQuery Machine Learning" est maintenant terminé. Vous avez créé, évalué et utilisé un modèle de régression logistique binaire pour faire des prédictions.

Terminer votre quête

Cet atelier d'auto-formation fait partie de la quête BigQuery for Machine Learning. Une quête est une série d'ateliers associés qui constituent un parcours de formation. Si vous terminez cette quête, vous obtenez un badge attestant de votre réussite. Vous pouvez rendre publics les badges que vous recevez et ajouter leur lien dans votre CV en ligne ou sur vos comptes de réseaux sociaux. Inscrivez-vous à cette quête pour obtenir immédiatement les crédits associés. Découvrez toutes les quêtes disponibles dans le catalogue Google Cloud Skills Boost.

Étapes suivantes et informations supplémentaires

Formations et certifications Google Cloud

Les formations et certifications Google Cloud vous aident à tirer pleinement parti des technologies Google Cloud. Nos cours portent sur les compétences techniques et les bonnes pratiques à suivre pour être rapidement opérationnel et poursuivre votre apprentissage. Nous proposons des formations pour tous les niveaux, à la demande, en salle et à distance, pour nous adapter aux emplois du temps de chacun. Les certifications vous permettent de valider et de démontrer vos compétences et votre expérience en matière de technologies Google Cloud.

Dernière mise à jour du manuel : 23 août 2023

Dernier test de l'atelier : 23 août 2023

Copyright 2024 Google LLC Tous droits réservés. Google et le logo Google sont des marques de Google LLC. Tous les autres noms d'entreprises et de produits peuvent être des marques des entreprises auxquelles ils sont associés.