menu
arrow_back

Como processar dados com intervalos de tempo usando o Apache Beam e o Cloud Dataflow (Java)

Como processar dados com intervalos de tempo usando o Apache Beam e o Cloud Dataflow (Java)

Horas Minutos 7 Créditos

GSP272

Laboratórios autoguiados do Google Cloud

Visão geral

Neste laboratório, você aprenderá a implantar um aplicativo Java usando o Maven para processar dados no Cloud Dataflow. Este laboratório usa um aplicativo Java que implementa uma agregação com intervalos de tempo para aumentar os dados brutos e criar conjuntos de dados de teste e treinamento consistentes. Esses conjuntos podem ser usados para aperfeiçoar seus modelos de machine learning nos próximos laboratórios.

O conjunto de dados base inclui informações históricas sobre voos domésticos nos Estados Unidos fornecidas pelo site da Secretaria de Estatísticas de Transporte dos EUA (US Bureau of Transport Statistics). Com esse conjunto de dados, é possível demonstrar diversos conceitos e técnicas de ciência de dados. Ele também é usado em todos os outros laboratórios das Quests Data Science on the Google Cloud Platform e Data Science on Google Cloud Platform: Machine Learning.

Os conjuntos de dados agregados com intervalos de tempo são úteis porque ajudam a aumentar a acurácia dos modelos de dados, que mudam de comportamento com um padrão regular ou semi-regular durante um período. Por exemplo: no geral, sabemos que os tempos de taxiamento dos voos, quando aguardam a autorização para decolar, aumentam nos períodos de pico. Em laboratórios anteriores, vimos que o tempo de atraso de chegada, que você pretende usar aqui, varia de acordo com o tempo de taxiamento. As companhias aéreas sabem disso e ajustam os horários de chegada dos voos já considerando o tempo médio estimado de taxiamento no horário de partida em cada aeroporto. Ao computar dados agregados com intervalos de tempo, é possível modelar com maior precisão se um voo sofrerá atrasos identificando parâmetros, como o tempo de taxiamento, que estão acima da média em um determinado intervalo de tempo.

O Apache Beam é uma ótima opção para criar esses conjuntos de dados agregados porque ele cria conjuntos de dados de teste e treinamento em lote com dados históricos. Além disso, você usa o mesmo código no modo de streaming para calcular médias de dados de streaming em tempo real. A vantagem de usar o mesmo código é que ocorrem menos divergências no treinamento caso uma linguagem ou plataforma diferente fosse usada para processar os dados históricos e os dados de streaming.

O Cloud Dataflow é um serviço totalmente gerenciado para transformar e aperfeiçoar dados nos modos de streaming (tempo real) e em lote (históricos) por meio de APIs Java e Python com o SDK do Apache Beam. O Cloud Dataflow tem uma arquitetura sem servidor que pode ser usada para fragmentar e processar conjuntos de dados em lote muito grandes ou fluxos de dados de alto volume em paralelo.

O Google BigQuery é um serviço RESTful na Web para análise interativa de conjuntos de dados de grande porte que funciona junto com o Google Storage.

Objetivos

  • Configurar o arquivo de modelo de objeto do projeto Maven Apache

  • Implantar o aplicativo Java no Apache Beam para criar os arquivos de dados de teste e treinamento agregados

Join Qwiklabs to read the rest of this lab...and more!

  • Get temporary access to the Google Cloud Console.
  • Over 200 labs from beginner to advanced levels.
  • Bite-sized so you can learn at your own pace.
Join to Start This Lab
Pontuação

—/20

Check that Cloud Dataflow project called CreateTraining DataSet is running.

Executar etapa

/ 5

Check that the training and test data sets have been written to Cloud Storage

Executar etapa

/ 5

Check that flights.testFlights table exists in BigQuery

Executar etapa

/ 5

Check that flights.trainFlights table exists in BigQuery

Executar etapa

/ 5