arrow_back

Data Catalog: Qwik Start

Unirse Acceder
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

Data Catalog: Qwik Start

Lab 30 minutos universal_currency_alt 1 crédito show_chart Introductorio
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

GSP729

Labs de autoaprendizaje de Google Cloud

Descripción general

Data Catalog es un servicio de administración de metadatos escalable y completamente administrado dentro de Dataplex.

Ofrece una interfaz de búsqueda simple y fácil de usar para el descubrimiento de datos y un sistema de categorización flexible y potente que se usa para capturar metadatos técnicos y empresariales. Además, brinda una base sólida de seguridad y cumplimiento gracias a las integraciones en Cloud Data Loss Prevention (DLP) y Cloud Identity and Access Management (IAM).

BigQuery es un almacén de datos para empresas que permite realizar consultas de SQL de alta velocidad mediante la potencia de procesamiento de la infraestructura de Google.

Simplemente traslada tus datos a BigQuery y déjanos el trabajo duro a nosotros. Puedes controlar el acceso al proyecto y a tus datos (por ejemplo, puedes otorgar permisos de visualización o consulta de datos) según tus necesidades empresariales.

Usa Data Catalog

Existen dos formas principales de interactuar con Data Catalog:

  • Buscar elementos de datos a los que tienes acceso
  • Etiquetar recursos con metadatos

Caso de uso de Data Catalog

Imagina que eres el ingeniero de datos de tu empresa. Tu trabajo es garantizar que tus colegas, como los científicos de datos o los analistas de negocios, puedan descubrir y usar fácilmente todos los conjuntos de datos. Cuando ingresa un conjunto de datos nuevo, tú realizas anotaciones con información importante; por ejemplo, si contiene datos de PII o no, quién es el propietario del conjunto de datos, cuántas filas tiene, etcétera.

Puedes anotar esta información si agregas etiquetas a tus conjuntos de datos y tablas. Data Catalog te permite crear plantillas de etiqueta para que definas qué tipo de atributos deseas etiquetar. Esto te permite acceder, mapear y descubrir fácilmente la información pertinente de tus conjuntos de datos y tablas.

Qué aprenderás

En este lab, aprenderás a hacer lo siguiente:

  • Habilitar la API de Data Catalog para usar este servicio en tu proyecto de Google Cloud
  • Crear un conjunto de datos con BigQuery
  • Copiar una tabla pública de taxis de Nueva York en tu conjunto de datos
  • Crear una plantilla de etiquetas de Data Catalog
  • Etiquetar tu tabla recién creada con las etiquetas nuevas que creaste

Requisitos previos

Nota: Antes de comenzar este lab, sal de tu cuenta de Gmail personal o corporativa, o bien ejecuta este lab en modo Incógnito.

De este modo, evitarás la confusión de accesos mientras se ejecuta el lab.

Configuración y requisitos

Antes de hacer clic en el botón Comenzar lab

Lee estas instrucciones. Los labs son cronometrados y no se pueden pausar. El cronómetro, que comienza a funcionar cuando haces clic en Comenzar lab, indica por cuánto tiempo tendrás a tu disposición los recursos de Google Cloud.

Este lab práctico te permitirá realizar las actividades correspondientes en un entorno de nube real, no en uno de simulación o demostración. Para ello, se te proporcionan credenciales temporales nuevas que utilizarás para acceder a Google Cloud durante todo el lab.

Para completar este lab, necesitarás lo siguiente:

  • Acceso a un navegador de Internet estándar (se recomienda el navegador Chrome)
Nota: Usa una ventana de navegador privada o de Incógnito para ejecutar este lab. Así evitarás cualquier conflicto entre tu cuenta personal y la cuenta de estudiante, lo que podría generar cargos adicionales en tu cuenta personal.
  • Tiempo para completar el lab: Recuerda que, una vez que comienzas un lab, no puedes pausarlo.
Nota: Si ya tienes un proyecto o una cuenta personal de Google Cloud, no los uses en este lab para evitar cargos adicionales en tu cuenta.

Cómo iniciar su lab y acceder a la consola de Google Cloud

  1. Haga clic en el botón Comenzar lab. Si debe pagar por el lab, se abrirá una ventana emergente para que seleccione su forma de pago. A la izquierda, se encuentra el panel Detalles del lab que tiene estos elementos:

    • El botón Abrir la consola de Google
    • Tiempo restante
    • Las credenciales temporales que debe usar para el lab
    • Otra información para completar el lab, si es necesaria
  2. Haga clic en Abrir la consola de Google. El lab inicia recursos y abre otra pestaña en la que se muestra la página de acceso.

    Sugerencia: Ordene las pestañas en ventanas separadas, una junto a la otra.

    Nota: Si ve el diálogo Elegir una cuenta, haga clic en Usar otra cuenta.
  3. Si es necesario, copie el nombre de usuario del panel Detalles del lab y péguelo en el cuadro de diálogo Acceder. Haga clic en Siguiente.

  4. Copie la contraseña del panel Detalles del lab y péguela en el cuadro de diálogo de bienvenida. Haga clic en Siguiente.

    Importante: Debe usar las credenciales del panel de la izquierda. No use sus credenciales de Google Cloud Skills Boost. Nota: Usar su propia Cuenta de Google podría generar cargos adicionales.
  5. Haga clic para avanzar por las páginas siguientes:

    • Acepte los términos y condiciones.
    • No agregue opciones de recuperación o autenticación de dos factores (esta es una cuenta temporal).
    • No se registre para obtener pruebas gratuitas.

Después de un momento, se abrirá la consola de Cloud en esta pestaña.

Nota: Para ver el menú con una lista de los productos y servicios de Google Cloud, haga clic en el Menú de navegación que se encuentra en la parte superior izquierda de la pantalla. Ícono del menú de navegación

Activa Cloud Shell

Cloud Shell es una máquina virtual que cuenta con herramientas para desarrolladores. Ofrece un directorio principal persistente de 5 GB y se ejecuta en Google Cloud. Cloud Shell proporciona acceso de línea de comandos a tus recursos de Google Cloud.

  1. Haz clic en Activar Cloud Shell Ícono de Activar Cloud Shell en la parte superior de la consola de Google Cloud.

Cuando te conectes, habrás completado la autenticación, y el proyecto estará configurado con tu PROJECT_ID. El resultado contiene una línea que declara el PROJECT_ID para esta sesión:

Your Cloud Platform project in this session is set to YOUR_PROJECT_ID

gcloud es la herramienta de línea de comandos de Google Cloud. Viene preinstalada en Cloud Shell y es compatible con la función de autocompletado con tabulador.

  1. Puedes solicitar el nombre de la cuenta activa con este comando (opcional):
gcloud auth list
  1. Haz clic en Autorizar.

  2. Ahora, el resultado debería verse de la siguiente manera:

Resultado:

ACTIVE: * ACCOUNT: student-01-xxxxxxxxxxxx@qwiklabs.net To set the active account, run: $ gcloud config set account `ACCOUNT`
  1. Puedes solicitar el ID del proyecto con este comando (opcional):
gcloud config list project

Resultado:

[core] project = <project_ID>

Resultado de ejemplo:

[core] project = qwiklabs-gcp-44776a13dea667a6 Nota: Para obtener toda la documentación de gcloud, consulta la guía con la descripción general de gcloud CLI en Google Cloud.

Tarea 1: Habilita la API de Data Catalog

  1. En el menú de navegación, selecciona APIs y servicios > Biblioteca.

  2. En la barra de búsqueda, ingresa en Data Catalog y selecciona el primer resultado.

  3. Haz clic en Habilitar.

Si ves este error al intentar habilitar la API de Data Catalog, haz lo siguiente:

Mensaje de error No se pudo habilitar la API

  1. Haz clic en Cerrar.
  2. Actualiza la pestaña del navegador.
  3. Vuelve a hacer clic en Habilitar.

La API de Data Catalog debería habilitarse correctamente:

Ventana de Data Catalog de Google Cloud en la que se muestra una descripción general de la API de Data Catalog

Cómo abrir la consola de BigQuery

  1. En la consola de Google Cloud, seleccione elmenú de navegación > BigQuery.

Se abrirá el cuadro de mensaje Te damos la bienvenida a BigQuery en la consola de Cloud. Este cuadro de mensaje contiene un vínculo a la guía de inicio rápido y las notas de la versión.

  1. Haga clic en Listo.

Se abrirá la consola de BigQuery.

Tarea 2: Crea un conjunto de datos

  1. En el panel de navegación izquierdo de BigQuery, haz clic en Ver acciones junto al ID del proyecto y, luego, haz clic en CREAR CONJUNTO DE DATOS.

El menú de navegación Ver acciones, en el que la opción Crear conjunto de datos está destacada dentro del menú secundario del proyecto.

  1. En el diálogo Crear conjunto de datos, realiza lo siguiente:
  • En ID de conjunto de datos, ingresa demo_dataset.

  • Selecciona us (multiple regions in United States) en Ubicación de los datos.

La página Crear conjunto de datos, en la que se completan los campos ID del proyecto, ID del conjunto de datos y Ubicación de los datos.

  1. Luego, haz clic en Crear conjunto de datos.
Nota: No puedes agregar una descripción o una etiqueta cuando creas un conjunto de datos con la consola de Cloud. Podrás hacerlo después de crear el conjunto de datos.

Haz clic en Revisar mi progreso para verificar el objetivo. Crear un conjunto de datos

Tarea 3: Copia una tabla pública de taxis de Nueva York en tu conjunto de datos

  1. En el panel izquierdo, haz clic en + AGREGAR > Conjuntos de datos públicos.

  2. En la barra de búsqueda, ingresa Viajes en NYC TLC y haz clic en el resultado que aparece:

Los resultados de la búsqueda, en los que el mosaico Viajes en NYC TLC aparece destacado junto al menú &quot;Filtrar por&quot;.

Para este lab, usarás una tabla de este conjunto de datos que contiene datos de viajes de los taxis amarillos de la ciudad de Nueva York del año 2018.

  1. Cuando esté todo listo para continuar, haz clic fuera del panel lateral para cerrarlo.

  2. Copia la tabla tlc_yellow_trips_2018. Para ello, ejecuta el siguiente comando en tu panel de Cloud Shell:

bq cp bigquery-public-data:new_york_taxi_trips.tlc_yellow_trips_2018 $(gcloud config get project):demo_dataset.trips

En el comando anterior, se utilizó bq command line tool para copiar la tabla pública en el proyecto y se organizó en el demo_dataset que creaste anteriormente.

  1. Actualiza tu página del navegador de BigQuery.
  1. Confirma que la tabla viajes aparece en demo_dataset.

Los proyectos fijados que figuran en la lista, en los que la tabla de viajes aparece como un archivo en demo_dataset.

Agregarás etiquetas de Data Catalog a la tabla en la siguiente sección.

Haz clic en Revisar mi progreso para verificar el objetivo. Copiar una tabla pública de taxis de Nueva York en tu conjunto de datos

Tarea 4: Crea una plantilla de etiqueta de Data Catalog

Crea una plantilla de etiqueta desde la IU de Data Catalog.

  1. Abre el Menú de navegación y haz clic en Data Catalog > Plantillas de etiquetas. Luego, haz clic en + CREAR PLANTILLA DE ETIQUETA:

El panel Data Catalog, en el que se destaca la opción de plantillas de etiquetas, junto con el botón Crear plantilla.

  1. Completa el formulario de la plantilla para definir una “Plantilla de etiqueta de demostración”.
  • Nombre visible de la plantilla (Template display name): Plantilla de etiqueta de demostración
  • ID de plantilla: demo_tag_template
  • Ubicación:

A continuación, crea cuatro atributos de etiqueta (también llamados “campos” de etiqueta).

  1. Haz clic en Agregar un campo.

Crea cuatro atributos con los valores que se indican a continuación. Ten en cuenta que el atributo “fuente” define un atributo de etiqueta requerido. Puedes usar letras minúsculas y guiones bajos para definir nombres de atributos.

  • Nombre visible del campo: Fuente del recurso de datos
  • ID del campo: source_of_data_asset
  • Hacer que este campo sea obligatorio: Marcado
  • Tipo: String
  1. Haz clic en Listo.

  2. Ahora, haz clic en Agregar un campo y, luego, ingresa en:

  • Nombre visible del campo: Cantidad de filas en el recurso de datos
  • ID del campo: number_of_rows_in_data_asset
  • Hacer que este campo sea obligatorio: No marcado
  • Tipo: Doble
  1. Haz clic en Listo.

  2. Luego, haz clic en Agregar un campo y, a continuación, ingresa en:

  • Nombre visible del campo: Contiene PII
  • ID del campo: has_pii
  • Hacer que este campo sea obligatorio: No marcado
  • Tipo: Booleano
  1. Haz clic en Listo.

  2. Luego, haz clic en Agregar un campo y, a continuación, ingresa en:

  • Nombre visible del campo: Tipo de PII
  • ID del campo: pii_type
  • Hacer que este campo sea obligatorio: No marcado
  • Tipo: Enumerado
  1. Agrega 3 valores a este atributo:
  • Correo electrónico
  • Número de seguridad social
  • Ninguna
  1. Luego, haz clic en Listo.

El formulario de plantilla de etiqueta que se completó debe incluir los cuatro atributos de etiqueta:

El formulario de plantilla de etiqueta que se completó, junto con las opciones de visibilidad y los botones Crear y Cancelar.

  1. Haz clic en CREAR.

En la página Plantilla de etiqueta de Data Catalog, se muestran los detalles y los atributos de la plantilla:

El catálogo de datos completo, que enumera los detalles de la plantilla, los campos, los nombres visibles y los tipos.

Haz clic en Revisar mi progreso para verificar el objetivo. Crear una plantilla de etiqueta

Tarea 5: Etiqueta tu tabla con las etiquetas recién creadas

  1. Para adjuntar una etiqueta a una tabla de tu conjunto de datos, haz clic en el ícono de Data Catalog en la esquina superior izquierda.

  2. En el panel izquierdo, selecciona Buscar y escribe demo_dataset en el cuadro de búsqueda.

  3. Haz clic en Buscar:

La página Data Catalog, con el término de búsqueda &quot;demo_dataset&quot; escrito en la barra de búsqueda.

El conjunto de datos demo_dataset y la tabla de viajes que copiaste en el conjunto de datos se muestran en los resultados de la búsqueda.

  1. Haz clic en el nombre de la tabla de viajes para abrirla:

demo_dataset que aparece en la lista junto con sus especificaciones y la tabla de viajes destacada.

Se abre la página Información de las entradas.

  1. Haz clic en ADJUNTAR ETIQUETAS.

La página Detalles de entrada, en la que el botón Adjuntar etiquetas está destacado.

  1. Desde el cuadro de diálogo Adjuntar etiquetas, en "Elige qué etiquetar", selecciona la tabla viajes y haz clic en Aceptar.

  2. Selecciona la Plantilla de etiqueta de demostración para etiquetar plantillas.

  3. Luego, ingresa o selecciona los siguientes valores para cada atributo de etiqueta.

  • source_of_data_asset: tlc_yellow_trips_2018
  • pii_type: NINGUNO

La página Adjuntar etiquetas, en la que la fuente de los recursos de datos y el tipo de PII se seleccionaron y completaron dentro de la Plantilla de etiqueta de demostración.

  1. Haz clic en Guardar.

  2. Haz clic en Plantilla de etiqueta de demostración para ver los atributos de etiqueta que aparecen en la página Detalles de entrada.

La página Detalles de entrada, que incluye el nombre visible de la Plantilla de etiqueta de demostración, la fuente del recurso de datos y el tipo de PII.

Haz clic en Revisar mi progreso para verificar el objetivo. Adjuntar la etiqueta a tu tabla

¡Felicitaciones!

Buen trabajo. Aprendiste a adjuntar correctamente una etiqueta a una tabla con Data Catalog.

Finaliza la Quest

Este lab de autoaprendizaje forma parte de las Quests BigQuery for Marketing Analysts y Data Catalog Fundamentals. Una Quest es una serie de labs relacionados que forman una ruta de aprendizaje. Si completas esta Quest, obtendrás una insignia como reconocimiento por tu logro. Puedes hacer públicas tus insignias y agregar vínculos a ellas en tu currículum en línea o en tus cuentas de redes sociales. Inscríbete en cualquier Quest que contenga este lab y obtén un crédito inmediato de finalización. Consulta el catálogo de Google Cloud Skills Boost para ver todas las Quests disponibles.

Temas abordados

En este lab, aprendiste a realizar las siguientes tareas:

  • Habilitar la API de Data Catalog
  • Crear un conjunto de datos
  • Copiar una tabla pública de taxis de Nueva York en tu conjunto de datos
  • Crear una plantilla de etiqueta y adjuntar la etiqueta a tu tabla

Próximos pasos y más información

Finaliza el lab

Cuando completes el lab, haz clic en Finalizar lab. Tu cuenta y los recursos que usaste se quitaron de la plataforma del lab.

Tendrás la oportunidad de calificar tu experiencia en el lab. Selecciona la cantidad de estrellas que corresponda, ingresa un comentario y haz clic en Enviar.

La cantidad de estrellas indica lo siguiente:

  • 1 estrella = Muy insatisfecho
  • 2 estrellas = Insatisfecho
  • 3 estrellas = Neutral
  • 4 estrellas = Satisfecho
  • 5 estrellas = Muy satisfecho

Puedes cerrar el cuadro de diálogo si no deseas proporcionar comentarios.

Para enviar comentarios, sugerencias o correcciones, usa la pestaña Asistencia.

Capacitación y certificación de Google Cloud

Recibe la formación que necesitas para aprovechar al máximo las tecnologías de Google Cloud. Nuestras clases incluyen habilidades técnicas y recomendaciones para ayudarte a avanzar rápidamente y a seguir aprendiendo. Para que puedas realizar nuestros cursos cuando más te convenga, ofrecemos distintos tipos de capacitación de nivel básico a avanzado: a pedido, presenciales y virtuales. Las certificaciones te ayudan a validar y demostrar tus habilidades y tu conocimiento técnico respecto a las tecnologías de Google Cloud.

Actualización más reciente del manual: 20 de septiembre de 2023

Prueba más reciente del lab: 20 de septiembre de 2023

Copyright 2024 Google LLC. All rights reserved. Google y el logotipo de Google son marcas de Google LLC. Los demás nombres de productos y empresas pueden ser marcas de las respectivas empresas a las que estén asociados.