arrow_back

Dataproc: Qwik Start - Console

Partecipa Accedi
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

Dataproc: Qwik Start - Console

Lab 30 minuti universal_currency_alt 1 credito show_chart Introduttivi
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

GSP103

Laboratori autogestiti Google Cloud

Panoramica

Dataproc è un servizio cloud completamente gestito, veloce e intuitivo, da utilizzare per eseguire cluster Apache Spark e Apache Hadoop in modo più semplice ed economico. Ora puoi eseguire in pochi secondi o minuti operazioni che prima richiedevano ore o giorni. Puoi creare rapidamente cluster Dataproc e ridimensionarli in qualsiasi momento, così non dovrai preoccuparti delle pipeline di dati che superano le dimensioni dei cluster.

Questo lab illustra come utilizzare la console Google Cloud per creare un cluster Dataproc, eseguire un semplice job Apache Spark nel cluster, quindi modificare il numero di worker nel cluster.

Attività previste

In questo lab imparerai a:

  • Creare un cluster Dataproc nella console Google Cloud
  • Eseguire un semplice job Apache Spark
  • Modificare il numero di worker nel cluster

Configurazione e requisiti

Prima di fare clic sul pulsante Avvia lab

Leggi le seguenti istruzioni. I lab sono a tempo e non possono essere messi in pausa. Il timer si avvia quando fai clic su Avvia lab e ti mostra per quanto tempo avrai a disposizione le risorse Google Cloud.

Con questo lab pratico avrai la possibilità di completare le attività in prima persona, in un ambiente cloud reale e non di simulazione o demo. Riceverai delle nuove credenziali temporanee che potrai utilizzare per accedere a Google Cloud per la durata del lab.

Per completare il lab, avrai bisogno di:

  • Accesso a un browser internet standard (Chrome è il browser consigliato).
Nota: utilizza una finestra del browser in incognito o privata per eseguire questo lab. Ciò evita eventuali conflitti tra il tuo account personale e l'account Studente, che potrebbero causare addebiti aggiuntivi sul tuo account personale.
  • È ora di completare il lab: ricorda che, una volta iniziato, non puoi metterlo in pausa.
Nota: se hai già un account o un progetto Google Cloud personale, non utilizzarlo per questo lab per evitare addebiti aggiuntivi al tuo account.

Come avviare il lab e accedere alla console Google Cloud

  1. Fai clic sul pulsante Avvia lab. Se devi effettuare il pagamento per il lab, si apre una finestra popup per permetterti di selezionare il metodo di pagamento. A sinistra, trovi il riquadro Dettagli lab con le seguenti informazioni:

    • Pulsante Apri console Google
    • Tempo rimanente
    • Credenziali temporanee da utilizzare per il lab
    • Altre informazioni per seguire questo lab, se necessario
  2. Fai clic su Apri console Google. Il lab avvia le risorse e apre un'altra scheda con la pagina di accesso.

    Suggerimento: disponi le schede in finestre separate posizionate fianco a fianco.

    Note: se visualizzi la finestra di dialogo Scegli un account, fai clic su Utilizza un altro account.
  3. Se necessario, copia il Nome utente dal riquadro Dettagli lab e incollalo nella finestra di dialogo di accesso. Fai clic su Avanti.

  4. Copia la Password dal riquadro Dettagli lab e incollala nella finestra di dialogo di benvenuto. Fai clic su Avanti.

    Importante: devi utilizzare le credenziali presenti nel riquadro di sinistra. Non utilizzare le tue credenziali Google Cloud Skills Boost. Nota: utilizzare il tuo account Google Cloud per questo lab potrebbe comportare addebiti aggiuntivi.
  5. Fai clic nelle pagine successive:

    • Accetta i termini e le condizioni.
    • Non inserire opzioni di recupero o l'autenticazione a due fattori, perché si tratta di un account temporaneo.
    • Non registrarti per le prove gratuite.

Dopo qualche istante, la console Google Cloud si apre in questa scheda.

Nota: puoi visualizzare il menu con un elenco di prodotti e servizi Google Cloud facendo clic sul menu di navigazione in alto a sinistra. Icona menu di navigazione

Verifica se l'API Cloud Dataproc è abilitata

Per creare un cluster Dataproc in Google Cloud, l'API Cloud Dataproc deve essere abilitata. Per verificare se l'API è abilitata:

  1. Fai clic sul menu di navigazione > API e servizi > Libreria:

  2. Digita Cloud Dataproc nella finestra di dialogo Cerca API e servizi. La console mostrerà l'API Cloud Dataproc nei risultati di ricerca.

  3. Fai clic su API Cloud Dataproc per visualizzare lo stato dell'API. Se l'API non è già abilitata, fai clic sul pulsante Abilita.

Una volta abilitata l'API, procedi con le istruzioni del lab.

Autorizzazione per l'account di servizio

Per assegnare all'account di servizio l'autorizzazione all'archiviazione, necessaria per la creazione di un cluster:

  1. Vai a Menu di navigazione > IAM e amministrazione > IAM.

  2. Fai clic sull'icona a forma di matita per l'account del servizio compute@developer.gserviceaccount.com.

  3. Fai clic sul pulsante + AGGIUNGI UN ALTRO RUOLO e seleziona il ruolo Storage Admin

Dopo aver selezionato il ruolo Storage Admin, fai clic su Salva

Attività 1: crea un cluster

  1. Nella console di Cloud Platform, seleziona il menu di navigazione > Dataproc > Cluster, quindi fai clic su Crea cluster.

  2. Fai clic su Crea per Cluster su Compute Engine.

  3. Imposta i seguenti campi per il cluster e accetta i valori predefiniti di tutti gli altri campi:

Nota: nella sezione Configura nodi, assicurati che per il nodo master e quelli worker siano impostati i valori corretti per Serie di macchine e Tipo di macchina
Campo Valore
Nome example-cluster
Regione
Zona
Serie di macchine E2
Tipo di macchina e2-standard-2
Numero di noti worker 2
Dimensione del disco primario 30 GB
Solo IP interni Deseleziona "Configura tutte le istanze per avere solo indirizzi IP interni"
Nota: una zona è uno speciale spazio dei nomi multiregionale in grado di eseguire il deployment di istanze in tutte le zone di computing Google a livello globale. Puoi anche specificare regioni distinte, ad esempio us-central1 o europe-west1, per isolare le risorse (incluse le istanze VM e Cloud Storage) e le posizioni di archiviazione dei metadati utilizzate da Cloud Dataproc all'interno della regione specificata dall'utente.
  1. Fai clic su Crea per creare il cluster.

Il nuovo cluster verrà visualizzato nell'elenco Cluster. La creazione del cluster potrebbe richiedere alcuni minuti. Lo stato visualizzato è Provisioning in corso fino a quando il cluster non è pronto per essere utilizzato; successivamente, passerà a In esecuzione.

Verifica l'attività completata

Fai clic su Controlla i miei progressi per verificare l'attività eseguita.

Creazione di un cluster Dataproc

Attività 2: invia un job

Per eseguire un job Spark di esempio:

  1. Fai clic su Job nel riquadro sinistro per visualizzare i job di Dataproc, quindi fai clic su Invia job.

  2. Imposta i seguenti campi per aggiornare il job. Accetta i valori predefiniti per tutti gli altri campi:

Campo Valore
Regione
Cluster example-cluster
Tipo di job Spark
Classe principale o jar org.apache.spark.examples.SparkPi
File jar file:///usr/lib/spark/examples/jars/spark-examples.jar
Argomenti 1000 (imposta il numero di attività).
  1. Fai clic su Invia.
Nota su come il job calcola Pi: il job Spark stima il valore Pi utilizzando il metodo Monte Carlo. Genera i punti x,y su un piano di coordinate che modella un cerchio racchiuso in un quadrato unitario. L'argomento di input (1000) determina il numero di coppie x,y da generare; più coppie vengono generate, più accurata è la stima. La stima utilizza i nodi worker di Cloud Dataproc per caricare in contemporanea il calcolo. Per ulteriori informazioni, consulta questo articolo su come stimare il valore Pi utilizzando il metodo Monte Carlo e cerca JavaSparkPi.java su GitHub.

Il job verrà visualizzato nell'elenco Job, che mostra i job del progetto insieme a cluster, tipo e stato corrente. Lo stato del job è In esecuzione e diventerà Riuscito una volta completato.

Verifica l'attività completata

Fai clic su Controlla i miei progressi per verificare l'attività eseguita.

Invio di un job

Attività 3: visualizza l'output del job

Per visualizzare l'output del job completato:

  1. Fai clic sull'ID del job nell'elenco Job.

  2. Imposta RITORNO A CAPO AUTOMATICO su ON o scorri completamente verso destra per vedere il valore calcolato di Pi. Se RITORNO A CAPO AUTOMATICO è impostato su ON, l'output dovrebbe essere simile a questo:

Output

Il job ha calcolato correttamente un valore approssimativo di Pi.

Attività 4: aggiorna un cluster per modificare il numero di worker

Per modificare il numero di istanze worker nel cluster:

  1. Nel riquadro di navigazione a sinistra, seleziona Cluster per tornare alla visualizzazione Cluster Dataproc.

  2. Fai clic su example-cluster nell'elenco Cluster. Per impostazione predefinita, la pagina visualizza una panoramica dell'utilizzo della CPU da parte del cluster.

  3. Fai clic su Configurazione per visualizzare le impostazioni correnti del cluster.

  4. Fai clic su Modifica. Il numero di nodi worker ora è modificabile.

  5. Inserisci 4 nel campo Nodi worker.

  6. Fai clic su Salva.

Ora il cluster è aggiornato. Controlla il numero di istanze VM nel cluster.

Verifica l'attività completata

Fai clic su Controlla i miei progressi per verificare l'attività eseguita.

Aggiornamento di un cluster
  1. Per eseguire nuovamente il job con il cluster aggiornato, fai clic su Job nel riquadro a sinistra, quindi su INVIA JOB.

  2. Imposta gli stessi campi che hai impostato nella sezione Invia un job:

Campo Valore
Regione
Cluster example-cluster
Tipo di job Spark
Classe principale o jar org.apache.spark.examples.SparkPi
File jar file:///usr/lib/spark/examples/jars/spark-examples.jar
Argomenti 1000 (imposta il numero di attività).
  1. Fai clic su Invia.

Attività 5: verifica le tue conoscenze

Di seguito, sono riportate alcune domande a scelta multipla che servono a consolidare le tue conoscenze relative ai concetti di questo lab. Rispondi alle domande al meglio delle tue capacità.

Complimenti!

Ora sai come utilizzare la console Google Cloud per creare e aggiornare un cluster Dataproc e successivamente inviare un job nel cluster.

Prossimi passi/Scopri di più

Questo lab fa anche parte di una serie di lab chiamata Qwik Starts, pensata per offrirti un piccolo assaggio delle diverse funzionalità disponibili in Google Cloud. Cerca "Qwik Starts" nel catalogo dei lab per trovare il prossimo lab da seguire.

Formazione e certificazione Google Cloud

… per utilizzare al meglio le tecnologie Google Cloud. I nostri corsi ti consentono di sviluppare competenze tecniche e best practice per aiutarti a metterti subito al passo e avanzare nel tuo percorso di apprendimento. Offriamo vari livelli di formazione, dal livello base a quello avanzato, con opzioni di corsi on demand, dal vivo e virtuali, in modo da poter scegliere il più adatto in base ai tuoi impegni. Le certificazioni ti permettono di confermare e dimostrare le tue abilità e competenze relative alle tecnologie Google Cloud.

Ultimo aggiornamento del manuale: 21 marzo 2024

Ultimo test del lab: 21 marzo 2024

Copyright 2024 Google LLC Tutti i diritti riservati. Google e il logo Google sono marchi di Google LLC. Tutti gli altri nomi di società e prodotti sono marchi delle rispettive società a cui sono associati.