arrow_back

Como carregar seus próprios dados no BigQuery

Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

Como carregar seus próprios dados no BigQuery

Lab 1 hora 30 minutos universal_currency_alt 1 crédito show_chart Introdutório
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

GSP865

Laboratórios autoguiados do Google Cloud

Informações gerais

O BigQuery é um banco de dados de análise NoOps, totalmente gerenciado e de baixo custo desenvolvido pelo Google. Com ele, você pode consultar muitos terabytes de dados sem ter que gerenciar uma infraestrutura ou precisar de um administrador de banco de dados. O BigQuery usa SQL e está disponível no modelo de pagamento por utilização. Assim, você pode se concentrar na análise dos dados para encontrar informações relevantes.

Neste laboratório, você fará a ingestão de subconjuntos dos dados de corridas de táxi em Nova York em tabelas do BigQuery.

Conteúdo

  • Carregar dados de várias fontes no BigQuery
  • Carregar dados no BigQuery usando a CLI e o console
  • Usar DDL para criar tabelas

Configuração e requisitos

Antes de clicar no botão Start Lab

Leia estas instruções. Os laboratórios são cronometrados e não podem ser pausados. O timer é iniciado quando você clica em Começar o laboratório e mostra por quanto tempo os recursos do Google Cloud vão ficar disponíveis.

Este laboratório prático permite que você realize as atividades em um ambiente real de nuvem, não em uma simulação ou demonstração. Você vai receber novas credenciais temporárias para fazer login e acessar o Google Cloud durante o laboratório.

Confira os requisitos para concluir o laboratório:

  • Acesso a um navegador de Internet padrão (recomendamos o Chrome).
Observação: para executar este laboratório, use o modo de navegação anônima ou uma janela anônima do navegador. Isso evita conflitos entre sua conta pessoal e a conta de estudante, o que poderia causar cobranças extras na sua conta pessoal.
  • Tempo para concluir o laboratório---não se esqueça: depois de começar, não será possível pausar o laboratório.
Observação: não use seu projeto ou conta do Google Cloud neste laboratório para evitar cobranças extras na sua conta.

Como iniciar seu laboratório e fazer login no console do Google Cloud

  1. Clique no botão Começar o laboratório. Se for preciso pagar, você verá um pop-up para selecionar a forma de pagamento. No painel Detalhes do laboratório à esquerda, você verá o seguinte:

    • O botão Abrir Console do Cloud
    • Tempo restante
    • As credenciais temporárias que você vai usar neste laboratório
    • Outras informações se forem necessárias
  2. Clique em Abrir Console do Google. O laboratório ativa recursos e depois abre outra guia com a página Fazer login.

    Dica: coloque as guias em janelas separadas lado a lado.

    Observação: se aparecer a caixa de diálogo Escolher uma conta, clique em Usar outra conta.
  3. Caso seja preciso, copie o Nome de usuário no painel Detalhes do laboratório e cole esse nome na caixa de diálogo Fazer login. Clique em Avançar.

  4. Copie a Senha no painel Detalhes do laboratório e a cole na caixa de diálogo Olá. Clique em Avançar.

    Importante: você precisa usar as credenciais do painel à esquerda. Não use suas credenciais do Google Cloud Ensina. Observação: se você usar sua própria conta do Google Cloud neste laboratório, é possível que receba cobranças adicionais.
  5. Acesse as próximas páginas:

    • Aceite os Termos e Condições.
    • Não adicione opções de recuperação nem autenticação de dois fatores (porque essa é uma conta temporária).
    • Não se inscreva em testes gratuitos.

Depois de alguns instantes, o console do GCP vai ser aberto nesta guia.

Observação: para ver uma lista dos produtos e serviços do Google Cloud, clique no Menu de navegação no canto superior esquerdo. Ícone do menu de navegação

Abrir o console do BigQuery

  1. No Console do Google Cloud, selecione o menu de navegação > BigQuery:

Você verá a caixa de mensagem Olá! Este é o BigQuery no Console do Cloud. Ela tem um link para o guia de início rápido e as notas de versão.

  1. Clique em OK.

O console do BigQuery vai abrir.

Tarefa 1: crie um conjunto de dados para armazenar tabelas

  1. No console do BigQuery, clique no ícone Exibir ações (Ícone "Exibir ações") ao lado do ID do projeto e depois em Criar conjunto de dados.

Console do BigQuery com o nome do projeto e o link "Criar conjunto de dados" em destaque

  1. Defina o ID do conjunto de dados como nyctaxi. Não altere os valores dos outros campos.

  2. Clique em Criar conjunto de dados.

O conjunto de dados "nyctaxi" vai aparecer abaixo do nome do seu projeto.

Clique em Verificar meu progresso abaixo para saber o quanto deste laboratório você completou. Uma marca de seleção indica que tudo foi feito corretamente.

Como criar um conjunto de dados para armazenar novas tabelas

Tarefa 2: faça a ingestão de um novo conjunto de dados de CSV

Nesta seção, você carregará um CSV local em uma tabela do BigQuery.

  1. Faça o download de um subconjunto dos dados de corridas de táxi em Nova York em 2018, disponível aqui.

  2. No console do BigQuery, clique no ícone Exibir ações ao lado do conjunto de dados nyctaxi e depois em Criar tabela.

  3. Especifique as seguintes opções de tabela:

Origem:

  • Criar tabela de: Upload
  • Selecionar o arquivo: encontre o arquivo que você salvou
  • Formato do arquivo: CSV

Destino:

  • Nome da tabela: 2018trips

Deixe as outras configurações como padrão.

Esquema:

  • Marque a caixa de seleção Detectar automaticamente. Dica: a caixa de seleção não apareceu? Confirme que o formato de arquivo é CSV, e não Avro.

Opções avançadas

  • Não altere as configurações.
  1. Clique em Criar tabela.

A tabela 2018trips aparecerá abaixo do conjunto de dados "nyctaxi".

Selecione a tabela "2018trips" e confira os detalhes abaixo:

  1. Selecione Visualizar e confirme se todas as colunas foram carregadas.

Você carregou um arquivo CSV em uma nova tabela do BigQuery.

Executar consultas SQL

Para praticar, execute uma consulta básica na tabela 2018trips.

  • No "Editor de consultas", escreva uma consulta que mostre as cinco corridas mais caras do ano:
#standardSQL SELECT * FROM nyctaxi.2018trips ORDER BY fare_amount DESC LIMIT 5

Clique em Verificar meu progresso abaixo para saber o quanto deste laboratório você completou. Uma marca de seleção indica que tudo foi feito corretamente.

Faça a ingestão de um novo conjunto de dados de CSV

Tarefa 3: faça a ingestão de um novo conjunto de dados do Google Cloud Storage

Agora, carregue outro subconjunto dos mesmos dados de corridas de 2018 que está disponível no Cloud Storage. Desta vez, você usará a ferramenta da CLI.

  1. No Cloud Shell, execute este comando:
bq load \ --source_format=CSV \ --autodetect \ --noreplace \ nyctaxi.2018trips \ gs://cloud-training/OCBL013/nyc_tlc_yellow_trips_2018_subset_2.csv Observação: o job de carregamento acima vai adicionar esse subconjunto à tabela 2018trips que você criou anteriormente.

Quando o job de carregamento terminar, uma confirmação vai aparecer na tela.

  1. No console do BigQuery, selecione a tabela 2018trips e veja os detalhes. Conforme que número de linhas quase dobrou.

  2. Execute a consulta anterior novamente para saber se as cinco corridas mais caras ainda são as mesmas.

Clique em Verificar meu progresso abaixo para saber o quanto deste laboratório você completou. Uma marca de seleção indica que tudo foi feito corretamente.

Faça a ingestão de um novo conjunto de dados do Google Cloud Storage

Tarefa 4: crie tabelas usando outras tabelas com DDL

Agora, a tabela 2018trips tem corridas do ano inteiro. Mas e se você quisesse ver apenas as corridas de janeiro? Para simplificar, analisaremos só a data e a hora de partida neste laboratório. Use DDL para extrair os dados e armazená-los em outra tabela.

  1. No "Editor de consultas", execute o comando CREATE TABLE:
#standardSQL CREATE TABLE nyctaxi.january_trips AS SELECT * FROM nyctaxi.2018trips WHERE EXTRACT(Month FROM pickup_datetime)=1;
  1. No "Editor de consultas", execute esta consulta para descobrir qual foi a maior distância percorrida em janeiro:
#standardSQL SELECT * FROM nyctaxi.january_trips ORDER BY trip_distance DESC LIMIT 1

Clique em Verificar meu progresso abaixo para saber o quanto deste laboratório você completou. Uma marca de seleção indica que tudo foi feito corretamente.

Crie tabelas usando outras tabelas com DDL

Parabéns!

Você criou um conjunto de dados e fez a ingestão no BigQuery a partir de um arquivo CSV, do Google Cloud Storage e de outras tabelas do BigQuery.

Treinamento e certificação do Google Cloud

Esses treinamentos ajudam você a aproveitar as tecnologias do Google Cloud ao máximo. Nossas aulas incluem habilidades técnicas e práticas recomendadas para ajudar você a alcançar rapidamente o nível esperado e continuar sua jornada de aprendizado. Oferecemos treinamentos que vão do nível básico ao avançado, com opções de aulas virtuais, sob demanda e por meio de transmissões ao vivo para que você possa encaixá-las na correria do seu dia a dia. As certificações validam sua experiência e comprovam suas habilidades com as tecnologias do Google Cloud.

Manual atualizado em 25 de setembro de 2023

Laboratório testado em 25 de setembro de 2023

Copyright 2024 Google LLC. Todos os direitos reservados. Google e o logotipo do Google são marcas registradas da Google LLC. Todos os outros nomes de produtos e empresas podem ser marcas registradas das respectivas empresas a que estão associados.