arrow_back

Dataflow: Qwik Start - Python

Partecipa Accedi
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

Dataflow: Qwik Start - Python

Lab 30 minuti universal_currency_alt 1 credito show_chart Introduttivi
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

GSP207

Laboratori autogestiti Google Cloud

Panoramica

In questo lab configurerai l'ambiente di sviluppo Python, scaricherai l'SDK di Cloud Dataflow per Python ed eseguirai una pipeline di esempio utilizzando la console Google Cloud.

Configurazione e requisiti

Prima di fare clic sul pulsante Avvia lab

Leggi le seguenti istruzioni. I lab sono a tempo e non possono essere messi in pausa. Il timer si avvia quando fai clic su Avvia lab e ti mostra per quanto tempo avrai a disposizione le risorse Google Cloud.

Con questo lab pratico avrai la possibilità di completare le attività in prima persona, in un ambiente cloud reale e non di simulazione o demo. Riceverai delle nuove credenziali temporanee che potrai utilizzare per accedere a Google Cloud per la durata del lab.

Per completare il lab, avrai bisogno di:

  • Accesso a un browser internet standard (Chrome è il browser consigliato).
Nota: utilizza una finestra del browser in incognito o privata per eseguire questo lab. Ciò evita eventuali conflitti tra il tuo account personale e l'account Studente, che potrebbero causare addebiti aggiuntivi sul tuo account personale.
  • È ora di completare il lab: ricorda che, una volta iniziato, non puoi metterlo in pausa.
Nota: se hai già un account o un progetto Google Cloud personale, non utilizzarlo per questo lab per evitare addebiti aggiuntivi al tuo account.

Come avviare il lab e accedere alla console Google Cloud

  1. Fai clic sul pulsante Avvia lab. Se devi effettuare il pagamento per il lab, si apre una finestra popup per permetterti di selezionare il metodo di pagamento. A sinistra, trovi il riquadro Dettagli lab con le seguenti informazioni:

    • Pulsante Apri console Google
    • Tempo rimanente
    • Credenziali temporanee da utilizzare per il lab
    • Altre informazioni per seguire questo lab, se necessario
  2. Fai clic su Apri console Google. Il lab avvia le risorse e apre un'altra scheda con la pagina di accesso.

    Suggerimento: disponi le schede in finestre separate posizionate fianco a fianco.

    Note: se visualizzi la finestra di dialogo Scegli un account, fai clic su Utilizza un altro account.
  3. Se necessario, copia il Nome utente dal riquadro Dettagli lab e incollalo nella finestra di dialogo di accesso. Fai clic su Avanti.

  4. Copia la Password dal riquadro Dettagli lab e incollala nella finestra di dialogo di benvenuto. Fai clic su Avanti.

    Importante: devi utilizzare le credenziali presenti nel riquadro di sinistra. Non utilizzare le tue credenziali Google Cloud Skills Boost. Nota: utilizzare il tuo account Google Cloud per questo lab potrebbe comportare addebiti aggiuntivi.
  5. Fai clic nelle pagine successive:

    • Accetta i termini e le condizioni.
    • Non inserire opzioni di recupero o l'autenticazione a due fattori, perché si tratta di un account temporaneo.
    • Non registrarti per le prove gratuite.

Dopo qualche istante, la console Google Cloud si apre in questa scheda.

Nota: puoi visualizzare il menu con un elenco di prodotti e servizi Google Cloud facendo clic sul menu di navigazione in alto a sinistra. Icona menu di navigazione

Attiva Cloud Shell

Cloud Shell è una macchina virtuale in cui sono caricati strumenti per sviluppatori. Offre una home directory permanente da 5 GB e viene eseguita su Google Cloud. Cloud Shell fornisce l'accesso da riga di comando alle risorse Google Cloud.

  1. Fai clic su Attiva Cloud Shell Icona Attiva Cloud Shell nella parte superiore della console Google Cloud.

Quando la connessione è attiva, l'autenticazione è già avvenuta e il progetto è impostato sul tuo PROJECT_ID. L'output contiene una riga che dichiara il PROJECT_ID per questa sessione:

Your Cloud Platform project in this session is set to YOUR_PROJECT_ID

gcloud è lo strumento a riga di comando di Google Cloud. È preinstallato su Cloud Shell e supporta il completamento tramite tasto Tab.

  1. (Facoltativo) Puoi visualizzare il nome dell'account attivo con questo comando:
gcloud auth list
  1. Fai clic su Autorizza.

  2. L'output dovrebbe avere ora il seguente aspetto:

Output:

ACTIVE: * ACCOUNT: student-01-xxxxxxxxxxxx@qwiklabs.net To set the active account, run: $ gcloud config set account `ACCOUNT`
  1. (Facoltativo) Puoi elencare l'ID progetto con questo comando:
gcloud config list project

Output:

[core] project = <project_ID>

Output di esempio:

[core] project = qwiklabs-gcp-44776a13dea667a6 Nota: per la documentazione completa di gcloud, in Google Cloud, fai riferimento alla Panoramica dell'interfaccia a riga di comando gcloud.

Imposta la regione

  • In Cloud Shell, esegui questo comando per impostare la regione del progetto per questo lab:
gcloud config set compute/region {{{project_0.default_region | "REGION"}}}

Assicurati che l'API Dataflow sia stata abilitata correttamente

Per garantire l'accesso all'API necessaria, riavvia la connessione all'API Dataflow.

  1. Nella console Cloud, inserisci "API Dataflow" nella barra di ricerca in alto. Fai clic sul risultato per API Dataflow.

  2. Fai clic su Gestisci.

  3. Fai clic su Disabilita API.

Se ti viene chiesto di confermare, fai clic su Disabilita.

  1. Fai clic su Abilita.

Quando l'API è stata nuovamente abilitata, la pagina mostrerà l'opzione per disabilitare.

Attività 1: crea un bucket Cloud Storage

  1. Nel menu di navigazione (Icona menu di navigazione), fai clic su Cloud Storage > Bucket.
  2. Fai clic su Crea bucket.
  3. Nella finestra di dialogo Crea bucket, specifica gli attributi seguenti:
  • Nome: per utilizzare un nome bucket univoco, usa -bucket. Questo nome del bucket non include informazioni sensibili, dato che lo spazio dei nomi dei bucket è globale e visibile pubblicamente.
  • Tipo di località: più regioni
  • Località: us
  • Una località in cui verranno archiviati i dati del bucket.
  1. Fai clic su Crea.

  2. Se appare il messaggio L'accesso pubblico verrà vietato fai clic su Conferma.

Verifica l'attività completata

Fai clic su Controlla i miei progressi per verificare l'attività eseguita. Se hai completato correttamente l'attività, riceverai un punteggio di valutazione.

Crea un bucket Cloud Storage.

Attività 2: installa pip e l'SDK di Cloud Dataflow

  1. L'SDK Cloud Dataflow più recente per Python richiede Python versione >= 3.7.

Per assicurarti di eseguire il processo con la versione corretta, esegui l'immagine Docker Python3.9:

docker run -it -e DEVSHELL_PROJECT_ID=$DEVSHELL_PROJECT_ID python:3.9 /bin/bash

Il comando estrae un container Docker con l'ultima versione stabile di Python 3.9, quindi apre una shell dei comandi per eseguire questi comandi all'interno del container.

  1. Quando il container è in esecuzione, installa la versione più recente di Apache Beam per Python eseguendo questo comando da un ambiente virtuale:
pip install 'apache-beam[gcp]'==2.42.0

Verranno visualizzati alcuni avvisi correlati alle dipendenze che, in questo lab, possono essere ignorati.

  1. Esegui l'esempio wordcount.py in locale utilizzando il comando seguente:
python -m apache_beam.examples.wordcount --output OUTPUT_FILE Nota: hai installato 'google-cloud-dataflow', ma stai eseguendo 'wordcount' con 'Apache_beam'. Il motivo è che Cloud Dataflow è una distribuzione di [Apache Beam](https://github.com/Apache/beam).

È possibile che venga visualizzato un messaggio simile al seguente:

INFO:root:Missing pipeline option (runner). Executing pipeline using the default runner: DirectRunner. INFO:oauth2client.client:Attempting refresh to obtain initial access_token

Questo messaggio può essere ignorato.

  1. Ora puoi visualizzare un elenco dei file che si trovano nel tuo ambiente cloud locale per reperire il nome dell'elemento OUTPUT_FILE:
ls
  1. Copia il nome dell'elemento OUTPUT_FILE ed esegui il comando cat sul file:
cat <file name>

Nei risultati è visualizzata ciascuna parola presente nel file e quante volte compare.

Attività 3: esegui una pipeline di esempio in remoto

  1. Imposta la variabile di ambiente BUCKET sul bucket che hai creato in precedenza:
BUCKET=gs://<bucket name provided earlier>
  1. Ora eseguirai il file di esempio wordcount.py in remoto:
python -m apache_beam.examples.wordcount --project $DEVSHELL_PROJECT_ID \ --runner DataflowRunner \ --staging_location $BUCKET/staging \ --temp_location $BUCKET/temp \ --output $BUCKET/results/output \ --region {{{project_0.default_region | "filled in at lab start"}}}

Attendi finché nell'output non viene visualizzato questo messaggio:

JOB_MESSAGE_DETAILED: Workers have started successfully.

Quindi continua con il lab.

Attività 4: verifica l'esito del job

  1. Apri il menu di navigazione e fai clic su Dataflow dall'elenco dei servizi.

Inizialmente dovresti vedere il tuo job wordcount con stato In esecuzione.

  1. Fai clic sul nome per seguire l'avanzamento. Quando tutte le caselle sono deselezionate, puoi continuare a esaminare i log in Cloud Shell.

Quando lo stato visualizzato è Riuscito, il processo è stato completato.

Verifica l'attività completata

Fai clic su Controlla i miei progressi per verificare l'attività eseguita. Se hai completato correttamente l'attività, riceverai un punteggio di valutazione.

Esegui una pipeline di esempio in remoto.
  1. Fai clic su Menu di navigazione > Cloud Storage nella console Google Cloud.

  2. Fai clic sul nome del bucket. Nel bucket dovresti vedere le directory results e staging.

  3. Fai clic sulla cartella results. Dovresti vedere i file di output creati dal job:

  4. Fai clic su un file per vedere i conteggi delle parole al suo interno.

Attività 5: verifica le tue conoscenze

La seguente domanda a scelta multipla consoliderà la tua conoscenza dei concetti esposti in questo lab. Rispondi alle domande al meglio delle tue capacità.

Complimenti!

Completa la Quest

Questo self-paced lab fa parte della Quest Baseline: Data, ML, AI. Una Quest è una serie di lab collegati tra loro che formano un percorso di apprendimento. Il completamento della Quest ti permette di ottenere un badge come riconoscimento dell'obiettivo raggiunto. Puoi rendere pubblici i tuoi badge inserendone i link nel tuo CV online o sui social media. Iscriviti a questa Quest o ad altre contenenti il lab e ricevi subito un riconoscimento per averlo completato. Per vedere tutte le Quest disponibili, consulta il catalogo di Google Cloud Skills Boost.

Passaggi successivi/Scopri di più

Questo lab fa parte di una serie chiamata Qwik Starts, pensata per offrirti un piccolo assaggio delle diverse funzionalità disponibili in Google Cloud. Cerca "Qwik Starts" nel catalogo di Google Cloud Skills Boost per trovare il prossimo lab da seguire.

Per ottenere una copia del libro su cui è basato questo lab: Data Science in Google Cloud Platform: O'Reilly Media, Inc.

Formazione e certificazione Google Cloud

… per utilizzare al meglio le tecnologie Google Cloud. I nostri corsi ti consentono di sviluppare competenze tecniche e best practice per aiutarti a metterti subito al passo e avanzare nel tuo percorso di apprendimento. Offriamo vari livelli di formazione, dal livello base a quello avanzato, con opzioni di corsi on demand, dal vivo e virtuali, in modo da poter scegliere il più adatto in base ai tuoi impegni. Le certificazioni ti permettono di confermare e dimostrare le tue abilità e competenze relative alle tecnologie Google Cloud.

Ultimo aggiornamento del manuale: 4 maggio 2023

Ultimo test del lab: 4 maggio 2023

Copyright 2024 Google LLC Tutti i diritti riservati. Google e il logo Google sono marchi di Google LLC. Tutti gli altri nomi di società e prodotti sono marchi delle rispettive società a cui sono associati.