arrow_back

Dataprep: Qwik Start

Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

Dataprep: Qwik Start

Lab 1 godz. universal_currency_alt 1 punkt show_chart Wprowadzające
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

Ten moduł opracowaliśmy we współpracy z firmą Trifacta. Jeśli w profilu konta masz ustawioną zgodę na otrzymywanie ogłoszeń, ofert i nowych informacji o usługach, Twoje dane osobowe mogą być udostępniane tej firmie jako sponsorowi modułu.

GSP105

Moduły Google Cloud do samodzielnego ukończenia

Opis

Cloud Dataprep firmy Trifacta to inteligentna usługa umożliwiająca przeglądanie, oczyszczanie i przygotowywanie danych do analizy w formie wizualnej. Cloud Dataprep to usługa bezserwerowa działająca na dowolną skalę. Nie wymaga utrzymywania żadnej infrastruktury. Przygotowywanie danych jest proste: nie trzeba pisać kodu, wszystko obsługuje się myszą.

W tym module nauczysz się używać Dataprep do działań na zbiorze danych. Zaimportujesz zbiory danych, poprawisz nieprawidłowe dane, a także przekształcisz dane i dokonasz ich złączenia. Nie przejmuj się, jeśli to dla Ciebie nowość – wszystko stanie się jasne, gdy ukończysz ten moduł.

Konfiguracja i wymagania

Zanim klikniesz przycisk Rozpocznij moduł

Zapoznaj się z tymi instrukcjami. Moduły mają limit czasowy i nie można ich zatrzymać. Gdy klikniesz Rozpocznij moduł, na liczniku wyświetli się informacja o tym, na jak długo udostępniamy Ci zasoby Google Cloud.

W tym praktycznym module możesz spróbować swoich sił w wykonywaniu opisywanych działań w prawdziwym środowisku chmury, a nie w jego symulacji lub wersji demonstracyjnej. Otrzymasz nowe, tymczasowe dane logowania, dzięki którym zalogujesz się i uzyskasz dostęp do Google Cloud na czas trwania modułu.

Do ukończenia modułu potrzebne będą:

  • dostęp do standardowej przeglądarki internetowej (zalecamy korzystanie z przeglądarki Chrome).
Uwaga: uruchom ten moduł w oknie incognito lub przeglądania prywatnego. Dzięki temu unikniesz konfliktu między swoim kontem osobistym a kontem do nauki, co mogłoby spowodować naliczanie oddatkowych opłat na koncie osobistym.
  • Odpowiednia ilość czasu na ukończenie modułu – pamiętaj, że gdy rozpoczniesz, nie możesz go wstrzymać.
Uwaga: jeśli masz już osobiste konto lub projekt w Google Cloud, nie używaj go w tym module, aby uniknąć naliczania opłat na koncie.

Rozpoczynanie modułu i logowanie się w konsoli Google Cloud

  1. Kliknij przycisk Rozpocznij moduł. Jeśli moduł jest odpłatny, otworzy się wyskakujące okienko, w którym możesz wybrać formę płatności. Po lewej stronie znajduje się panel Szczegóły modułu z następującymi elementami:

    • przyciskiem Otwórz konsolę Google;
    • czasem, który Ci pozostał;
    • tymczasowymi danymi logowania, których musisz użyć w tym module;
    • innymi informacjami potrzebnymi do ukończenia modułu.
  2. Kliknij Otwórz konsolę Google. Moduł uruchomi zasoby, po czym otworzy nową kartę ze stroną logowania.

    Wskazówka: otwórz karty obok siebie w osobnych oknach.

    Uwaga: jeśli pojawi się okno Wybierz konto, kliknij Użyj innego konta.
  3. W razie potrzeby skopiuj nazwę użytkownika z panelu Szczegóły modułu i wklej ją w oknie logowania. Kliknij Dalej.

  4. Skopiuj hasło z panelu Szczegóły modułu i wklej je w oknie powitania. Kliknij Dalej.

    Ważne: musisz użyć danych logowania z panelu po lewej stronie, a nie danych logowania Google Cloud Skills Boost. Uwaga: korzystanie z własnego konta Google Cloud w tym module może wiązać się z dodatkowymi opłatami.
  5. Na kolejnych stronach wykonaj następujące czynności:

    • Zaakceptuj Warunki korzystania z usługi.
    • Nie dodawaj opcji odzyskiwania ani uwierzytelniania dwuskładnikowego (ponieważ konto ma charakter tymczasowy).
    • Nie rejestruj się w bezpłatnych wersjach próbnych.

Poczekaj, aż na karcie otworzy się konsola Google Cloud.

Uwaga: aby wyświetlić menu z listą produktów i usług Google Cloud Console, w lewym górnym rogu kliknij menu nawigacyjne. Ikona menu nawigacyjnego

Zadanie 1. Tworzenie zasobnika Cloud Storage w projekcie

  1. W konsoli Cloud wybierz Menu nawigacyjne (Ikona menu nawigacyjnego) > Cloud Storage > Zasobniki.

  2. Kliknij Utwórz zasobnik.

  3. W oknie Tworzenie zasobnika nadaj zasobnikowi niepowtarzalną nazwę. W pozostałych ustawieniach pozostaw domyślne wartości.

Uwaga: więcej informacji o nadawaniu nazw zasobnikom znajdziesz w wytycznych dotyczących nazw zasobników.
  1. W sekcji Wybierz sposób kontrolowania dostępu do obiektów odznacz opcję Wyegzekwuj blokadę dostępu publicznego do tego zasobnika.

  2. Kliknij Utwórz.

Udało Ci się utworzyć zasobnik. Zapamiętaj jego nazwę, przyda się w kolejnych krokach.

Testowanie ukończonego zadania

Kliknij Sprawdź postępy, aby zobaczyć stan realizacji zadania. Jeśli udało Ci się utworzyć zasobnik Cloud Storage, wyświetli się odpowiedni wynik.

Utworzenie zasobnika Cloud Storage

Zadanie 2. Inicjowanie Cloud Dataprep

  1. Wybierz Menu nawigacyjne > Dataprep.
  2. Zaznacz pole wyboru akceptacji Warunków korzystania z usługi Google Dataprep, a następnie kliknij Akceptuję.
  3. Zaznacz pole wyboru zgody na udostępnienie firmie Trifacta informacji o koncie, a następnie kliknij Zgadzam się i chcę przejść dalej.
  4. Kliknij Zezwól, aby zezwolić firmie Trifacta na dostęp do danych projektu.
  5. Kliknij swoją nazwę użytkownika, aby zalogować się w Cloud Dataprep firmy Trifacta. Twoja nazwa użytkownika jest wyświetlana w polu Nazwa użytkownika w panelu po lewej stronie modułu.
  6. Kliknij Zezwól, aby przyznać Cloud Dataprep dostęp do Twojego konta modułu Google Cloud.
  7. Zaznacz pole wyboru zgody na Warunki korzystania z usługi firmy Trifacta, a następnie kliknij Akceptuję.
  8. Na ekranie First time setup kliknij Continue, aby utworzyć domyślną lokalizację przechowywania danych.

Otworzy się usługa Dataprep.

Testowanie ukończonego zadania

Kliknij Sprawdź postępy, aby zobaczyć stan realizacji zadania. Jeśli udało Ci się zainicjować Cloud Dataprep z domyślną lokalizacją miejsca na dane, wyświetli się odpowiedni wynik.

Zainicjowanie Cloud Dataprep

Zadanie 3. Tworzenie przepływu

Cloud Dataprep uzyskuje dostęp do zbiorów danych i manipuluje nimi w obszarze roboczym przepływu.

  1. Kliknij ikonę Flows, potem przycisk Create, a następnie Blank Flow:

Ikona przepływów, przycisk tworzenia, opcja pustego przepływu

  1. Kliknij Untitled Flow, a potem nadaj nazwę przepływowi i go opisz. W tym module używane są dane United States Federal Elections Commission (Federalnej Komisji Wyborczej Stanów Zjednoczonych) pochodzące z 2016 r., dlatego nadaj przepływowi nazwę „FEC-2016”, a w opisie przepływu umieść „United States Federal Elections Commission 2016”.
  2. Kliknij OK.

Otworzy się strona przepływu FEC-2016.

Zadanie 4. Importowanie zbiorów danych

W tej sekcji zaimportujesz i dodasz dane do przepływu FEC-2016.

  1. Kliknij Add Datasets, a następnie wybierz link Import Datasets.

  2. W panelu menu po lewej stronie wybierz Cloud Storage, aby zaimportować zbiory danych z Google Cloud Storage, a następnie kliknij ikonę ołówka i zmień ścieżkę pliku.

Strona Cloud Storage

  1. W polu tekstowym Choose a file or folder wpisz gs://spls/gsp105 i kliknij Go.

Przyciski GoCancel mogą pojawić się dopiero po rozszerzeniu okna przeglądarki.

  1. Kliknij us-fec/.

  2. Kliknij ikonę + znajdującą się obok pliku cn-2016.txt, aby utworzyć zbiór danych widoczny w prawym panelu. W panelu po prawej stronie kliknij tytuł zbioru danych i zmień go na „Candidate Master 2016” (Informacje o kandydatach w 2016 r.).

  3. W ten sam sposób dodaj zbiór danych itcont-2016-orig.txt i zmień jego nazwę na „Campaign Contributions 2016” (Fundusze wpłacane na kampanię w 2016 r.).

  4. Oba zbiory danych pojawią się w panelu po prawej stronie. Kliknij Import & Add to Flow.

Dwa zbiory danych wyświetlane w panelu po prawej stronie

Oba zbiory danych są wyświetlane w formie przepływu.

Zadanie 5. Przygotowywanie pliku z informacjami o kandydatach

  1. Domyślnie jest wybrany zbiór danych Candidate Master 2016. W panelu po prawej stronie kliknij Edit Recipe.

Strona zbioru danych Candidate Master 2016

W widoku siatki otworzy się strona Transformer dla zbioru danych Candidate Master 2016.

Strona przekształcenia dla zbioru danych Candidate Master 2016 w widoku siatki

Na stronie Transformer tworzony jest przepis na przekształcenie. Są na niej widoczne także wyniki zastosowania przepisu do próbki danych. Jeśli zadowala Cię to, co widzisz, wykonaj zadanie na swoim zbiorze danych.

  1. W nagłówku każdej kolumny znajdują się nazwa i wartość definiujące typ danych. Aby wyświetlić typy danych, kliknij ikonę kolumny:

Kolumna column6

  1. Zwróć uwagę na to, że gdy klikniesz nazwę kolumny, po prawej stronie pojawia się panel Details.

  2. Aby zamknąć panel Details, w jego prawym górnym rogu kliknij X.

Wykonując kolejne kroki, zapoznasz się z danymi w widoku siatki i dodasz kroki przekształcenia do przepisu.

  1. Kolumna column5 zawiera dane dotyczące lat 1990-2064. Rozszerz kolumnę column5 (jak w arkuszu kalkulacyjnym), aby rozdzielić poszczególne lata. Kliknij najwyższy słupek, aby go wybrać – reprezentuje on 2016 r.

Kolumna column5

Spowoduje to utworzenie kroku, w którym wybrane zostaną zaznaczone wartości.

  1. W sekcji Keep rows w panelu Suggestions po prawej stronie kliknij Add, aby dodać ten krok do przepisu.

 Panel sugestii

W panelu Recipe po prawej stronie znajduje się teraz ten krok:

Keep rows where(DATE(2016, 1, 1) <= column5) && (column5 < DATE(2018, 1, 1))

  1. W kolumnie column6 (ze skrótami nazw stanów), najedź na czerwoną część nagłówka i kliknij ją, aby wybrać nieprawidłowe wiersze.

Kolumna column6

Przewiń ekran w dół do czerwonego wyróżnienia, aby znaleźć nieprawidłowe wartości. Zwróć uwagę na to, że większość tych rekordów ma wartość „P” w kolumnie column7 i „US” w kolumnie column6. Nieprawidłowość polega na tym, że kolumna column6 jest oznaczona jako „State” – na co wskazuje ikona flagi – a rekordy zawierają wartości, które nie oznaczają stanów (np. „US”).

  1. Aby poprawić tę nieprawidłowość, kliknij X u góry panelu Suggestions, aby anulować przekształcenie, a następnie kliknij ikonę flagi w kolumnie column6 i zmień typ danych na „String”.

Kolumna column6

Nie ma już nieprawidłowości – znacznik kolumny ma teraz kolor zielony.

  1. Odfiltruj tylko kandydatów na urząd prezydenta, czyli te rekordy, które mają wartość „P” w kolumnie column7. Najedź na 2 słupki znajdujące się na histogramie w kolumnie column7 i sprawdź, który z nich jest oznaczony jako „H”, a który jako „P”. Kliknij słupek „P”.

Kolumna column7

  1. W panelu Suggestions po prawej stronie kliknij Add, aby dodać krok do przepisu.

Okno zachowywania wierszy

Zadanie 6. Przekształcanie pliku Contributions i łączenie go z plikiem Candidates

Na stronie Join możesz dodać aktualny zbiór danych do innego zbioru danych lub przepisu, łącząc je na podstawie wspólnych informacji w obu zbiorach danych.

Zanim utworzysz złączenie pliku z informacjami o funduszach z plikiem z informacjami o kandydatach, oczyść plik z informacjami o funduszach.

  1. Kliknij FEC-2016 (selektor zbioru danych) u góry strony widoku siatki.

Selektor zbioru danych FEC-2016 u góry strony widoku siatki

  1. Kliknij, aby wybrać wyszarzoną pozycję Campaign Contributions 2016.

  2. W panelu po prawej stronie kliknij Add > Recipe, a następnie kliknij Edit Recipe.

  3. Kliknij ikonę przepisu w prawym górnym rogu strony, a następnie kliknij Add New Step.

Ikona przepisu i przycisk dodawania nowego kroku

Usuń zbędne ograniczniki ze zbioru danych.

  1. Wstaw to polecenie w języku Wrangle w polu wyszukiwania :
replacepatterns col: * with: '' on: `{start}"|"{end}` global: true

Usługa Transformation Builder analizuje polecenie w języku Wrangle i wypełnia pola przekształcenia Find i Replace.

Usługa Transformation Builder

  1. Kliknij Add, aby dodać to przekształcenie do przepisu.

  2. Dodaj do przepisu kolejny nowy krok. Kliknij New Step, a następnie wpisz „Join” w polu wyszukiwania.

Pole wyszukiwania przekształceń

  1. Kliknij Join datasets, aby otworzyć stronę Join.

  2. Kliknij zbiór danych „Candidate Master 2016”, aby złączyć go ze zbiorem Campaign Contributions 2016, a następnie w prawym dolnym rogu kliknij Accept.

Wiersz zbioru danych Candidate Master 2016

  1. Po prawej stronie najedź na sekcję Join keys i kliknij ołówek (ikonę edycji).

Pole z warunkami złączenia

Dataprep automatycznie ustawia wspólne klucze. Istnieje wiele wspólnych wartości, które Dataprep sugeruje jako klucze złączenia.

  1. W sekcji Suggested join keys w panelu Add Key kliknij column2 = column11.

Panel dodawania klucza

  1. Kliknij Save and Continue.

Otworzą się kolumny 2 i 11. Możesz je przejrzeć.

  1. Kliknij Next, a następnie zaznacz pole wyboru po lewej stronie etykiety „Column”, aby dodać do złączonego zbioru danych wszystkie kolumny z obu zbiorów danych.

Lista etykiet kolumny Column

  1. Kliknij Review, a następnie Add to Recipe, aby wrócić do widoku siatki.

Zadanie 7. Podsumowanie danych

Wygeneruj użyteczne podsumowanie, agregując, uśredniając i zliczając wpłaty funduszy w kolumnie 16 i grupując kandydatów według identyfikatora, imienia i nazwiska oraz przynależności partyjnej. Dane te znajdują się w kolumnach 2, 24 i 8.

  1. U góry panelu Recipe po prawej stronie kliknij New Step i wpisz tę formułę w polu wyszukiwania Transformation, aby wyświetlić podgląd zagregowanych danych.
pivot value:sum(column16),average(column16),countif(column16 > 0) group: column2,column24,column8

Wyświetlana jest początkowa próbka złączonych i zagregowanych danych. Jest to tabela podsumowania kandydatów na urząd prezydenta USA wraz ze wskaźnikami dotyczącymi wpłat funduszy na kampanię w 2016 r.

Strona wpłat funduszy na kampanię

  1. Kliknij Add, aby otworzyć tabelę podsumowania zawierającą głównych kandydatów na urząd prezydenta USA wraz ze wskaźnikami dotyczącymi wpłat funduszy na kampanię w 2016 r.

Zadanie 8. Zmienianie nazw kolumn

Możesz ułatwić interpretację danych, zmieniając nazwy kolumn.

  1. Dodaj do przepisu poszczególne operacje zmiany nazwy i zaokrąglenia, klikając New Step i wpisując:
rename type: manual mapping: [column24,'Candidate_Name'], [column2,'Candidate_ID'],[column8,'Party_Affiliation'], [sum_column16,'Total_Contribution_Sum'], [average_column16,'Average_Contribution_Sum'], [countif,'Number_of_Contributions']
  1. Następnie kliknij Add.

  2. Dodaj ten ostatni nowy krok, aby zaokrąglić kwotę średniej wpłaty funduszy:

set col: Average_Contribution_Sum value: round(Average_Contribution_Sum)
  1. Następnie kliknij Add.

Wynik powinien być podobny do tego:

Tabela wyników obejmująca pola z identyfikatorami kandydatów, ich nazwą, przynależnością partyjną i całkowitą sumą wpłat

Gratulacje!

Udało Ci się dodać zbiór danych i utworzyć przepisy w Dataprep, przekształcając dane w znaczące wyniki z użyciem języka Wrangle.

Kolejne kroki / Więcej informacji

Ten moduł należy do serii modułów Qwik Start. Opracowaliśmy je tak, aby dać Ci przedsmak bogactwa funkcji dostępnych w Google Cloud. Wyszukaj „Qwik Start” w katalogu modułów i znajdź kolejny interesujący Cię moduł.

Szkolenia i certyfikaty Google Cloud

…pomogą Ci wykorzystać wszystkie możliwości technologii Google Cloud. Nasze zajęcia obejmują umiejętności techniczne oraz sprawdzone metody, które ułatwią Ci szybką naukę i umożliwią jej kontynuację. Oferujemy szkolenia na poziomach od podstawowego po zaawansowany prowadzone w trybach wirtualnym, na żądanie i na żywo, dzięki czemu możesz dopasować program szkoleń do swojego napiętego harmonogramu. Certyfikaty umożliwią udokumentowanie i potwierdzenie Twoich umiejętności oraz doświadczenia w zakresie technologii Google Cloud.

Ostatnia aktualizacja instrukcji: 15 września 2023 r.

Ostatni test modułu: 15 września 2023 r.

Copyright 2024 Google LLC. Wszelkie prawa zastrzeżone. Google i logo Google są znakami towarowymi Google LLC. Wszelkie inne nazwy firm i produktów mogą być znakami towarowymi odpowiednich podmiotów, z którymi są powiązane.