arrow_back

Cómo cargar datos en Google Cloud SQL

Unirse Acceder
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

Cómo cargar datos en Google Cloud SQL

Lab 1 hora universal_currency_alt 5 créditos show_chart Intermedio
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

GSP196

Labs de autoaprendizaje de Google Cloud

Descripción general

En este lab, importarás datos desde archivos de texto CSV a Cloud SQL y, luego, llevarás a cabo algunos análisis de datos básicos mediante consultas simples.

El conjunto de datos de este lab se obtuvo de la Oficina de Estadísticas del Transporte de EE.UU. y contiene información histórica sobre los vuelos internos en Estados Unidos. Este conjunto de datos puede usarse para demostrar una amplia variedad de conceptos y técnicas sobre la ciencia de datos y se utiliza en todos los demás labs de la Quest Data Science on Google Cloud Platform.

Objetivos

  • Crear una instancia de Cloud SQL
  • Crear una base de datos de Cloud SQL
  • Importar datos de texto a Cloud SQL
  • Compilar un modelo inicial de datos mediante consultas

Configuración y requisitos

Antes de hacer clic en el botón Comenzar lab

Lee estas instrucciones. Los labs son cronometrados y no se pueden pausar. El cronómetro, que comienza a funcionar cuando haces clic en Comenzar lab, indica por cuánto tiempo tendrás a tu disposición los recursos de Google Cloud.

Este lab práctico te permitirá realizar las actividades correspondientes en un entorno de nube real, no en uno de simulación o demostración. Para ello, se te proporcionan credenciales temporales nuevas que utilizarás para acceder a Google Cloud durante todo el lab.

Para completar este lab, necesitarás lo siguiente:

  • Acceso a un navegador de Internet estándar (se recomienda el navegador Chrome)
Nota: Usa una ventana de navegador privada o de Incógnito para ejecutar este lab. Así evitarás cualquier conflicto entre tu cuenta personal y la cuenta de estudiante, lo que podría generar cargos adicionales en tu cuenta personal.
  • Tiempo para completar el lab: Recuerda que, una vez que comienzas un lab, no puedes pausarlo.
Nota: Si ya tienes un proyecto o una cuenta personal de Google Cloud, no los uses en este lab para evitar cargos adicionales en tu cuenta.

Cómo iniciar su lab y acceder a la consola de Google Cloud

  1. Haga clic en el botón Comenzar lab. Si debe pagar por el lab, se abrirá una ventana emergente para que seleccione su forma de pago. A la izquierda, se encuentra el panel Detalles del lab que tiene estos elementos:

    • El botón Abrir la consola de Google
    • Tiempo restante
    • Las credenciales temporales que debe usar para el lab
    • Otra información para completar el lab, si es necesaria
  2. Haga clic en Abrir la consola de Google. El lab inicia recursos y abre otra pestaña en la que se muestra la página de acceso.

    Sugerencia: Ordene las pestañas en ventanas separadas, una junto a la otra.

    Nota: Si ve el diálogo Elegir una cuenta, haga clic en Usar otra cuenta.
  3. Si es necesario, copie el nombre de usuario del panel Detalles del lab y péguelo en el cuadro de diálogo Acceder. Haga clic en Siguiente.

  4. Copie la contraseña del panel Detalles del lab y péguela en el cuadro de diálogo de bienvenida. Haga clic en Siguiente.

    Importante: Debe usar las credenciales del panel de la izquierda. No use sus credenciales de Google Cloud Skills Boost. Nota: Usar su propia Cuenta de Google podría generar cargos adicionales.
  5. Haga clic para avanzar por las páginas siguientes:

    • Acepte los términos y condiciones.
    • No agregue opciones de recuperación o autenticación de dos factores (esta es una cuenta temporal).
    • No se registre para obtener pruebas gratuitas.

Después de un momento, se abrirá la consola de Cloud en esta pestaña.

Nota: Para ver el menú con una lista de los productos y servicios de Google Cloud, haga clic en el Menú de navegación que se encuentra en la parte superior izquierda de la pantalla. Ícono del menú de navegación

Activa Cloud Shell

Cloud Shell es una máquina virtual que cuenta con herramientas para desarrolladores. Ofrece un directorio principal persistente de 5 GB y se ejecuta en Google Cloud. Cloud Shell proporciona acceso de línea de comandos a tus recursos de Google Cloud.

  1. Haz clic en Activar Cloud Shell Ícono de Activar Cloud Shell en la parte superior de la consola de Google Cloud.

Cuando te conectes, habrás completado la autenticación, y el proyecto estará configurado con tu PROJECT_ID. El resultado contiene una línea que declara el PROJECT_ID para esta sesión:

Your Cloud Platform project in this session is set to YOUR_PROJECT_ID

gcloud es la herramienta de línea de comandos de Google Cloud. Viene preinstalada en Cloud Shell y es compatible con la función de autocompletado con tabulador.

  1. Puedes solicitar el nombre de la cuenta activa con este comando (opcional):
gcloud auth list
  1. Haz clic en Autorizar.

  2. Ahora, el resultado debería verse de la siguiente manera:

Resultado:

ACTIVE: * ACCOUNT: student-01-xxxxxxxxxxxx@qwiklabs.net To set the active account, run: $ gcloud config set account `ACCOUNT`
  1. Puedes solicitar el ID del proyecto con este comando (opcional):
gcloud config list project

Resultado:

[core] project = <project_ID>

Resultado de ejemplo:

[core] project = qwiklabs-gcp-44776a13dea667a6 Nota: Para obtener toda la documentación de gcloud, consulta la guía con la descripción general de gcloud CLI en Google Cloud.

Tarea 1: Prepara el entorno

En este lab, se utiliza un conjunto de muestras de código y secuencias de comandos que se desarrollaron para la 2ª edición del libro Data Science on Google Cloud Platform de O'Reilly Media, Inc. El lab aborda la configuración de Google Cloud SQL y las tareas de importación de datos que se tratan en la primera parte del capítulo 3, “Creating Compelling Dashboards”. Clonarás el repositorio de muestra que se usa en el capítulo 2 desde GitHub a Cloud Shell y llevarás a cabo todas las tareas del lab desde allí.

Clona el repositorio de Data Science on Google Cloud

  1. En Cloud Shell, ingresa los siguientes comandos para clonar el repositorio:
git clone \ https://github.com/GoogleCloudPlatform/data-science-on-gcp/
  1. Cambia al directorio del repositorio:
cd data-science-on-gcp/03_sqlstudio
  1. Crea las variables de entorno que se usarán más adelante en el lab para tu ID del proyecto y el bucket de almacenamiento que contendrá tus datos:
export PROJECT_ID=$(gcloud info --format='value(config.project)') export BUCKET=${PROJECT_ID}-ml
  1. Ingresa el siguiente comando para almacenar en etapa intermedia el archivo en el bucket de Cloud Storage:
gsutil cp create_table.sql \ gs://$BUCKET/create_table.sql

Tarea 2. Crea una instancia de Cloud SQL

  1. Ingresa los siguientes comandos para crear una instancia de Cloud SQL:
gcloud sql instances create flights \ --database-version=POSTGRES_13 --cpu=2 --memory=8GiB \ --region={{{project_0.default_region | "REGION"}}} --root-password=Passw0rd

Este proceso tarda unos minutos en completarse.

Prueba la tarea completada

Haz clic en Revisar mi progreso para verificar la tarea realizada. Si creaste correctamente una instancia de Cloud SQL, verás una puntuación de evaluación.

Crea una instancia de Cloud SQL.
  1. Crea una variable de entorno con la dirección IP de Cloud Shell:
export ADDRESS=$(curl -s http://ipecho.net/plain)/32
  1. Incluye la instancia de Cloud Shell en la lista de entidades permitidas para obtener acceso de administración a tu instancia de SQL:
gcloud sql instances patch flights --authorized-networks $ADDRESS
  1. Cuando se te solicite, presiona Y para aceptar el cambio.

Prueba la tarea completada

Haz clic en Revisar mi progreso para verificar la tarea realizada. Si incluiste correctamente Cloud Shell en la lista de entidades permitidas para acceder a la instancia de SQL, verás una puntuación de evaluación.

Incluye la instancia de Cloud Shell en la lista de entidades permitidas para acceder a tu instancia de SQL.

Crea una base de datos y una tabla

Para importar datos en una tabla de Postgres, primero debes crear una base de datos vacía y una tabla con el esquema correcto.

  1. En la consola de Cloud, ve al menú de navegación (Ícono del menú de navegación) y haz clic en SQL.

  2. Para abrir la página de Descripción general de una instancia, haz clic en el nombre flights.

  3. Selecciona Bases de datos en el menú de navegación de SQL de la izquierda.

  4. Haz clic en Crear base de datos.

  5. En el cuadro de diálogo Nueva base de datos, ingresa el nombre bts para la base de datos.

  6. Haz clic en Crear.

  7. Para abrir la página de descripción general de una instancia, selecciona Descripción general en el menú de navegación de SQL.

  8. Haz clic en Importar en la parte superior.

  9. En el campo del archivo de Cloud Storage, haz clic en Explorar.

  10. En la sección Buckets, haz clic en la flecha que se encuentra opuesta al nombre de tu bucket.

  11. Selecciona el archivo create_table.sql.

  12. Haz clic en Seleccionar.

  13. En la sección Formato del archivo, selecciona SQL.

  14. Especifica la base de datos bts en tu instancia de Cloud SQL.

  15. Haz clic en Importar para iniciar la importación.

Se creará la tabla vacía unos segundos después.

Prueba la tarea completada

Haz clic en Revisar mi progreso para verificar la tarea realizada. Si creaste correctamente una base de datos de la BTS y una tabla de vuelos mediante el archivo create_table.sql, verás una puntuación de evaluación.

Crea una base de datos de la BTS y una tabla de vuelos con el archivo create_table.sql

Tarea 3. Agrega datos a una instancia de Cloud SQL

Creaste la base de datos y la tabla vacías y, ahora, cargarás los archivos CSV en esta tabla. Explora el archivo 201501.csv en tu bucket para cargar los datos de enero y especifica CSV como el formato, bts como la base de datos y flights como la tabla.

  1. En la página de tu instancia de Cloud SQL, haz clic en IMPORTAR.

  2. En el campo de archivos de Cloud Storage, haz clic en Explorar. Luego, haz clic en la flecha que se encuentra opuesta al nombre de tu bucket y, por último, selecciona 201501.csv.

  3. Haz clic en Seleccionar.

  4. Selecciona CSV como el formato de archivo.

  5. Selecciona la base de datos bts y escribe flights para la tabla.

  6. Haz clic en IMPORTAR.

Tarea 4. Interactúa con la base de datos

  1. Conéctate con la instancia de Cloud SQL desde Cloud Shell con el siguiente comando:
gcloud sql connect flights --user=postgres
  1. Cuando se le solicite una contraseña, ingresa Passw0rd. Es posible que no veas las letras mientras escribes.

  2. En el mensaje que aparece, conéctate con la base de datos bts:

\c bts;
  1. Cuando se le solicite una contraseña, ingresa Passw0rd.

  2. Luego, ejecuta una consulta para obtener los 5 aeropuertos más concurridos:

SELECT "Origin", COUNT(*) AS num_flights FROM flights GROUP BY "Origin" ORDER BY num_flights DESC LIMIT 5;

Si bien la consulta tiene alto rendimiento porque el conjunto de datos es relativamente pequeño (solo enero), esta se volverá más lenta cuando agregues más meses.

Las bases de datos relacionales son adecuadas para conjuntos de datos más pequeños, en los que puedes realizar consultas ad hoc que mostrarán un pequeño subconjunto de los datos. En el caso de los conjuntos de datos más grandes, debes indexar las columnas de interés para ajustar el rendimiento de este tipo de base de datos. Además, como las bases de datos relacionales normalmente admiten transacciones y garantizan una coherencia sólida, son una buena elección para los datos que se actualizarán a menudo.

Sin embargo, este tipo de base de datos es una mala opción en las siguientes situaciones:

  • Si tus datos son principalmente de solo lectura.
  • Si los tamaños de tus conjuntos de datos están en el rango de los terabytes.
  • Si necesitas analizar la tabla completa (por ejemplo, para calcular el valor máximo de una columna) o si tus datos se transfieren con tasas altas.

Esto describe el caso de uso de las demoras en vuelos. En este caso, puedes cambiar de una base de datos relacional a un almacén de datos analítico: BigQuery. El almacén de datos analítico nos permitirá utilizar SQL, y tiene mucha más capacidad para trabajar con conjuntos de datos grandes y consultas ad hoc (es decir, no es necesario que indexe las columnas).

¡Felicitaciones!

Ahora sabes cómo crear tablas y, también, cómo importar datos de texto que se almacenaron en Cloud Storage a Google Cloud SQL.

Próximos pasos y más información

Aquí se muestran algunos pasos para continuar:

Capacitación y certificación de Google Cloud

Recibe la formación que necesitas para aprovechar al máximo las tecnologías de Google Cloud. Nuestras clases incluyen habilidades técnicas y recomendaciones para ayudarte a avanzar rápidamente y a seguir aprendiendo. Para que puedas realizar nuestros cursos cuando más te convenga, ofrecemos distintos tipos de capacitación de nivel básico a avanzado: a pedido, presenciales y virtuales. Las certificaciones te ayudan a validar y demostrar tus habilidades y tu conocimiento técnico respecto a las tecnologías de Google Cloud.

Actualización más reciente del manual: 28 de noviembre de 2023

Prueba más reciente del lab: 28 de noviembre de 2023

Copyright 2024 Google LLC. All rights reserved. Google y el logotipo de Google son marcas de Google LLC. Los demás nombres de productos y empresas pueden ser marcas de las respectivas empresas a las que estén asociados.