menu
arrow_back

Processar dados com o Google Cloud Dataflow

—/100

Checkpoints

arrow_forward

Create a BigQuery Dataset

Copy the airport geolocation file to your Cloud Storage bucket

Process the Data using Cloud Dataflow (submit Dataflow job)

Processar dados com o Google Cloud Dataflow

1 hora 15 minutos 7 créditos

GSP198

Laboratórios autoguiados do Google Cloud

Visão geral

Neste laboratório, você simulará um conjunto de dados em tempo real com base em informações históricas. A simulação será processada com arquivos de texto em Python e o Google Cloud Dataflow. Os dados resultantes serão armazenados no Google BigQuery. Em seguida, você usará o Google BigQuery para analisar alguns recursos do conjunto de dados em tempo real.

O Cloud Dataflow é um serviço totalmente gerenciado para transformar e aperfeiçoar dados nos modos de streaming (tempo real) e em lote (históricos) por meio de APIs Java e Python com o SDK do Apache Beam. O Cloud Dataflow tem uma arquitetura sem servidor que pode ser usada para fragmentar e processar conjuntos de dados em lote muito grandes ou fluxos de dados de alto volume em paralelo.

O Google BigQuery é um serviço RESTful da Web de análise interativa de conjuntos de dados de grande porte que funciona junto com o Google Storage.

O conjunto de dados usado inclui informações históricas sobre voos nacionais nos Estados Unidos, extraídas do site da Secretaria de Estatísticas de Transporte dos EUA (US Bureau of Transport Statistics). Com esse conjunto de dados, é possível demonstrar diversos conceitos e técnicas de ciência de dados. Ele também será usado em todos os laboratórios da Quest Data Science on Google Cloud Platform.

Participe do Qwiklabs para ler o restante deste laboratório e muito mais!

  • Receber acesso temporário a Console do Google Cloud.
  • Mais de 200 laboratórios, do nível iniciante ao avançado.
  • Tamanho compacto para que você possa aprender no seu próprio ritmo.
Participe para iniciar este laboratório