arrow_back

Dataprep: Qwik Start

가입 로그인
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

Dataprep: Qwik Start

Lab 1시간 universal_currency_alt 크레딧 1개 show_chart 입문
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

이 실습은 파트너인 Trifacta와 공동 개발한 것으로 계정 프로필에서 제품 업데이트, 공지사항, 혜택을 수신하는 데 동의하신 경우 귀하의 개인 정보가 실습 스폰서인 Trifacta에 공유될 수 있습니다.

GSP105

Google Cloud 사용자 주도형 실습

개요

Cloud Dataprep by Trifacta는 데이터를 시각적으로 탐색하고 정리하여 분석할 수 있도록 준비하는 지능형 데이터 서비스입니다. Cloud Dataprep은 서버리스 방식이며 규모와 상관없이 작동하기 때문에 인프라를 배포하거나 관리할 필요가 없습니다. 코드 없이 클릭만으로 손쉽게 데이터를 준비하세요.

이 실습에서는 Dataprep을 사용하여 데이터 세트를 조작하며, 데이터 세트 가져오기, 일치하지 않는 데이터 수정, 데이터 변환, 데이터 조인 작업을 수행합니다. 처음인 경우라도 이 실습이 끝나면 이 작업에 대해 완벽하게 이해할 수 있을 것입니다.

설정 및 요건

실습 시작 버튼을 클릭하기 전에

다음 안내를 확인하세요. 실습에는 시간 제한이 있으며 일시중지할 수 없습니다. 실습 시작을 클릭하면 타이머가 시작됩니다. 이 타이머에는 Google Cloud 리소스를 사용할 수 있는 시간이 얼마나 남았는지 표시됩니다.

실무형 실습을 통해 시뮬레이션이나 데모 환경이 아닌 실제 클라우드 환경에서 직접 실습 활동을 진행할 수 있습니다. 실습 시간 동안 Google Cloud에 로그인하고 액세스하는 데 사용할 수 있는 새로운 임시 사용자 인증 정보가 제공됩니다.

이 실습을 완료하려면 다음을 준비해야 합니다.

  • 표준 인터넷 브라우저 액세스 권한(Chrome 브라우저 권장)
참고: 이 실습을 실행하려면 시크릿 모드 또는 시크릿 브라우저 창을 사용하세요. 개인 계정과 학생 계정 간의 충돌로 개인 계정에 추가 요금이 발생하는 일을 방지해 줍니다.
  • 실습을 완료하기에 충분한 시간---실습을 시작하고 나면 일시중지할 수 없습니다.
참고: 계정에 추가 요금이 발생하지 않도록 하려면 개인용 Google Cloud 계정이나 프로젝트가 이미 있어도 이 실습에서는 사용하지 마세요.

실습을 시작하고 Google Cloud 콘솔에 로그인하는 방법

  1. 실습 시작 버튼을 클릭합니다. 실습 비용을 결제해야 하는 경우 결제 수단을 선택할 수 있는 팝업이 열립니다. 왼쪽에는 다음과 같은 항목이 포함된 실습 세부정보 패널이 있습니다.

    • Google 콘솔 열기 버튼
    • 남은 시간
    • 이 실습에 사용해야 하는 임시 사용자 인증 정보
    • 필요한 경우 실습 진행을 위한 기타 정보
  2. Google 콘솔 열기를 클릭합니다. 실습에서 리소스가 가동된 후 로그인 페이지가 표시된 다른 탭이 열립니다.

    팁: 두 개의 탭을 각각 별도의 창으로 나란히 정렬하세요.

    참고: 계정 선택 대화상자가 표시되면 다른 계정 사용을 클릭합니다.
  3. 필요한 경우 실습 세부정보 패널에서 사용자 이름을 복사하여 로그인 대화상자에 붙여넣습니다. 다음을 클릭합니다.

  4. 실습 세부정보 패널에서 비밀번호를 복사하여 시작 대화상자에 붙여넣습니다. 다음을 클릭합니다.

    중요: 왼쪽 패널에 표시된 사용자 인증 정보를 사용해야 합니다. Google Cloud Skills Boost 사용자 인증 정보를 사용하지 마세요. 참고: 이 실습에 자신의 Google Cloud 계정을 사용하면 추가 요금이 발생할 수 있습니다.
  5. 이후에 표시되는 페이지를 클릭하여 넘깁니다.

    • 이용약관에 동의합니다.
    • 임시 계정이므로 복구 옵션이나 2단계 인증을 추가하지 않습니다.
    • 무료 평가판을 신청하지 않습니다.

잠시 후 Cloud 콘솔이 이 탭에서 열립니다.

참고: 왼쪽 상단에 있는 탐색 메뉴를 클릭하면 Google Cloud 제품 및 서비스 목록이 있는 메뉴를 볼 수 있습니다. 탐색 메뉴 아이콘

작업 1. 프로젝트에 Cloud Storage 버킷 만들기

  1. Cloud 콘솔에서 탐색 메뉴(탐색 메뉴 아이콘) > Cloud Storage > 버킷을 선택합니다.

  2. 버킷 만들기를 클릭합니다.

  3. 버킷 만들기 대화상자에서 버킷의 이름을 고유하게 지정합니다. 다른 설정은 모두 기본값 그대로 둡니다.

참고: 버킷 이름 지정 가이드라인에서 버킷 이름 지정에 대해 자세히 알아보세요.
  1. 객체 액세스를 제어하는 방식 선택에서 이 버킷에 공개 액세스 방지 적용을 선택 해제하세요.

  2. 만들기를 클릭합니다.

버킷을 만들었습니다. 나중에 사용할 수 있도록 버킷 이름을 기억해 둡니다.

완료된 작업 테스트하기

진행 상황 확인하기를 클릭하여 실행한 작업을 확인합니다. Cloud Storage 버킷을 성공적으로 만든 경우 평가 점수가 표시됩니다.

Cloud Storage 버킷 만들기

작업 2. Cloud Dataprep 초기화

  1. 탐색 메뉴 > Dataprep을 선택합니다.
  2. Google Dataprep 서비스 약관에 동의하는 체크박스를 선택한 다음 동의를 클릭합니다.
  3. Trifacta와의 계정 정보 공유를 승인하는 체크박스를 선택한 다음 동의 및 계속을 클릭합니다.
  4. 허용을 클릭하여 Trifacta가 프로젝트 데이터에 액세스하도록 허용합니다.
  5. Cloud Dataprep by Trifacta에 로그인할 때 사용할 학생 사용자 이름을 클릭합니다. 사용자 이름은 실습 왼쪽 패널의 사용자 이름입니다.
  6. 허용을 클릭하여 Cloud Dataprep에 Google Cloud 실습 계정에 대한 액세스 권한을 부여합니다.
  7. Trifacta 서비스 약관에 동의하는 체크박스를 선택한 다음 동의를 클릭합니다.
  8. First time setup(최초 설정) 화면에서 Continue(계속)를 클릭하면 기본 스토리지 위치가 생성됩니다.

Dataprep이 열립니다.

완료된 작업 테스트하기

진행 상황 확인하기를 클릭하여 실행한 작업을 확인합니다. Cloud Dataprep을 기본 스토리지 위치로 성공적으로 초기화한 경우 평가 점수가 표시됩니다.

Cloud Dataprep 초기화하기

작업 3. 흐름 만들기

Cloud Dataprep은 flow 작업공간을 사용하여 데이터 세트에 액세스하고 이를 조작합니다.

  1. 흐름 아이콘과 Create(만들기) 버튼을 차례로 클릭한 다음 Blank Flow(빈 흐름)를 선택합니다.

흐름 아이콘, Create(만들기) 버튼, Blank Flow(빈 흐름) 옵션

  1. Untitled Flow(제목 없는 흐름)를 클릭한 후 흐름 이름을 지정하고 설명합니다. 이 실습에서는 미국 연방선거관리위원회 2016의 2016년 데이터를 사용하므로 흐름 이름을 'FEC-2016'으로, 설명을 '미국 연방선거관리위원회 2016'으로 지정합니다.
  2. OK(확인)를 클릭합니다.

FEC-2016 흐름 페이지가 열립니다.

작업 4. 데이터 세트 가져오기

이 섹션에서는 데이터를 가져와서 FEC-2016 흐름에 추가합니다.

  1. Add Datasets(데이터 세트 추가)를 클릭한 다음 Import Datasets(데이터 세트 가져오기) 링크를 선택합니다.

  2. 왼쪽 메뉴 창에서 Cloud Storage를 선택하여 Cloud Storage에서 데이터 세트를 가져온 다음 연필 아이콘을 클릭하여 파일 경로를 수정합니다.

Cloud Storage 페이지

  1. Choose a file or folder(파일 또는 폴더 선택) 텍스트 상자에 gs://spls/gsp105를 입력한 다음 Go(이동)를 클릭합니다.

Go(이동) 및 Cancel(취소) 버튼이 보이지 않으면 브라우저 창을 확대합니다.

  1. us-fec/를 클릭합니다.

  2. cn-2016.txt 옆의 + 아이콘을 클릭하여 오른쪽 창에 표시되는 데이터 세트를 만듭니다. 오른쪽 창의 데이터 세트에서 제목을 클릭하고 이름을 'Candidate Master 2016'으로 바꿉니다.

  3. 같은 방식으로 itcont-2016-orig.txt 데이터 세트를 추가하고 이름을 'Campaign Contributions 2016'으로 바꿉니다.

  4. 오른쪽 창에 두 데이터 세트가 나열되면 Import & Add to Flow(가져오기 및 흐름에 추가)를 클릭합니다.

오른쪽 창에 나열된 두 개의 데이터 세트

두 데이터 세트가 모두 흐름으로 표시됩니다.

작업 5. Candidate 파일 준비

  1. Candidate Master 2016 데이터 세트가 기본으로 선택됩니다. 오른쪽 창에서 Edit Recipe(레시피 수정)를 클릭합니다.

Candidate Master 2016 데이터 세트 페이지

Candidate Master 2016 변환 페이지가 그리드 뷰로 열립니다.

그리드 뷰로 열린 Candidate Master 2016 변환 페이지

변환 페이지에서는 변환 레시피를 빌드하고 이를 샘플에 적용한 결과를 볼 수 있습니다. 표시되는 결과에 만족하면 데이터 세트에 대해 작업을 실행합니다.

  1. 각 열의 머리글에는 데이터 유형을 지정하는 이름과 값이 나옵니다. 데이터 유형을 확인하려면 열 아이콘을 클릭합니다.

column6

  1. 열 이름을 클릭하면 Details(세부정보) 패널이 오른쪽에 열립니다.

  2. 세부정보 패널의 오른쪽 상단에서 X를 클릭하여 Details(세부정보) 패널을 닫습니다.

다음 단계에서는 그리드 뷰에서 데이터를 탐색하고 레시피에 변환 단계를 적용합니다.

  1. Column5는 1990~2064년의 데이터를 제공합니다. 스프레드시트에서와 같이 column5를 넓히면 각 연도가 분리됩니다. 2016년을 나타내는 가장 큰 빈(bin)을 클릭하여 선택합니다.

column5

그러면 이 값을 선택하는 단계가 만들어집니다.

  1. 오른쪽의 Suggestions(추천) 패널에 있는 Keep rows(행 유지) 섹션에서 Add(추가)를 클릭하여 이 단계를 레시피에 추가합니다.

 Suggestions(추천) 패널

오른쪽의 Recipe(레시피) 패널에는 다음 단계가 있습니다.

Keep rows where(DATE(2016, 1, 1) <= column5) && (column5 < DATE(2018, 1, 1))

  1. Column6(State)에서 헤더의 일치하지 않는 부분(빨간색)으로 마우스를 가져가 클릭하여 일치하지 않는 행을 선택합니다.

column6

아래로 스크롤하여 하단(빨간색으로 강조 표시됨)에서 불일치 값을 찾으면 해당되는 레코드 대부분에 column7의 값이 'P', column6의 값이 'US'로 되어 있는 것을 알 수 있습니다. 이러한 불일치는 'State' 열(플래그 아이콘으로 표시)로 표시되어 있는 column6에 State가 아닌 값(예: 'US')이 포함되어 있기 때문에 발생합니다.

  1. 불일치를 수정하려면 Suggestions(추천) 패널 상단의 X를 클릭하여 변환을 취소한 다음 Column6의 플래그 아이콘을 클릭하고 이를 'String' 열로 변경합니다.

column6

더 이상 불일치 항목이 없으며 이제 열이 녹색으로 바뀝니다.

  1. 대선 후보자를 필터링합니다. 이는 column7에 값 'P'가 있는 레코드입니다. column7의 히스토그램에서 두 개의 빈(bin)을 가리키면 'H'와 'P' 값을 갖는 빈을 알 수 있습니다. 'P' 빈(bin)을 클릭합니다.

column7

  1. 오른쪽 Suggestions(추천) 패널에서 Add(추가)를 클릭하여 레시피에 대한 단계를 수락합니다.

Keep rows(행 유지) 상자

작업 6. Contributions 파일을 랭글링하고 Candidates 파일에 조인

조인 페이지에서 두 데이터 세트의 공통 정보를 바탕으로 현재 데이터 세트를 다른 데이터 세트나 레시피에 추가할 수 있습니다.

Contributions 파일을 Candidates 파일에 조인하기 전에 Contributions 파일을 정리해야 합니다.

  1. 그리드 뷰 페이지 상단에서 FEC-2016(데이터 세트 선택기)을 클릭합니다.

그리드 뷰 페이지 상단의 FEC-2016

  1. 회색으로 표시된 Campaign Contributions 2016을 클릭하여 선택합니다.

  2. 오른쪽 창에서 Add(추가) > Recipe(레시피)를 클릭한 다음 Edit Recipe(레시피 수정)를 클릭합니다.

  3. 페이지 오른쪽 상단의 레시피 아이콘을 클릭한 다음 Add New Step(새 단계 추가)을 클릭합니다.

레시피 아이콘 및 Add New Step(새 단계 추가) 버튼

데이터 세트에서 불필요한 구분 기호를 삭제합니다.

  1. 검색창에 다음과 같은 Wrangle 언어 명령어를 입력합니다.
replacepatterns col: * with: '' on: `{start}"|"{end}` global: true

변환 빌더가 Wrangle 명령어를 파싱하여 Find and Replace(찾기 및 바꾸기) 변환 필드를 채웁니다.

변환 빌더

  1. Add(추가)를 클릭하여 해당 변환을 레시피에 추가합니다.

  2. 레시피에 또 다른 새 단계를 추가한 다음 New Step(새 단계)을 클릭하고 검색창에 'Join'을 입력합니다.

변환 검색 상자

  1. 조인 페이지를 열려면 Join datasets(데이터 세트 조인)를 클릭합니다.

  2. 'Candidate Master 2016'을 클릭하여 Campaign Contributions 2016에 조인한 다음 오른쪽 하단에 있는 Accept(수락)를 클릭합니다.

Candidate Master 2016 행

  1. 오른쪽의 조인 키 섹션에 마우스를 가져간 다음 연필(수정 아이콘)을 클릭합니다.

조인 조건 상자

Dataprep은 공통 키를 유추하는데 다양한 공통 값을 조인 키로 추천합니다.

  1. Add Key(키 추가) 패널의 Suggested Join Keys(추천 조인 키) 섹션에서 column2 = column11을 클릭합니다.

Add Key(키 추가) 패널

  1. Save and Continue(저장 후 계속)를 클릭합니다.

검토할 수 있도록 열 2와 열 11이 열립니다.

  1. Next(다음)를 클릭하고 '열' 라벨의 왼쪽에 있는 체크박스를 선택하여 두 데이터 세트의 모든 열을 조인된 데이터 세트에 추가합니다.

열 라벨 목록

  1. Review(검토)와 Add to Recipe(레시피에 추가)를 차례로 클릭하여 그리드 뷰로 돌아갑니다.

작업 7. 데이터 요약

열 16에 입력된 선거 자금 데이터의 총계, 평균, 항목 수를 계산하고 열 2, 24, 8의 ID, 이름, 소속 정당 데이터로 후보자를 그룹화해서 요약을 생성합니다.

  1. 오른쪽에 있는 Recipe(레시피) 패널의 상단에서 New Step(새 단계)을 클릭하고 다음 수식을 Transformation(변환) 검색창에 입력하면 합산 데이터를 미리 볼 수 있습니다.
pivot value:sum(column16),average(column16),countif(column16 > 0) group: column2,column24,column8

조인되어 집계된 데이터의 초기 샘플이 표시됩니다. 이 샘플은 미국의 주요 대선 후보자들에 대한 요약표와 2016년 선거 자금 측정항목을 나타냅니다.

Campaign Contributions 페이지

  1. Add(추가)를 클릭하여 미국의 주요 대선 후보자들에 대한 요약표와 2016년 선거 자금 측정항목을 확인할 수 있습니다.

작업 8. 열 이름 변경

열 이름을 변경하면 데이터를 더욱 쉽게 해석할 수 있습니다.

  1. New Step(새 단계)을 클릭하여 이름 바꾸기 및 라운딩 단계를 레시피에 개별적으로 추가한 후 다음을 입력합니다.
rename type: manual mapping: [column24,'Candidate_Name'], [column2,'Candidate_ID'],[column8,'Party_Affiliation'], [sum_column16,'Total_Contribution_Sum'], [average_column16,'Average_Contribution_Sum'], [countif,'Number_of_Contributions']
  1. 그런 다음 Add(추가)를 클릭합니다.

  2. 선거 자금 평균값을 라운딩하는 마지막 New Step(새 단계)을 추가합니다.

set col: Average_Contribution_Sum value: round(Average_Contribution_Sum)
  1. 그런 다음 Add(추가)를 클릭합니다.

다음과 같은 결과가 표시됩니다.

Results table with columns for Candidate_Id, Candidate_Name, Part_Affiliation, and Total_Contribution_Sum

수고하셨습니다.

Dataprep을 사용하여 데이터 세트를 추가하고 데이터를 의미 있는 결과로 랭글링하기 위한 레시피를 만들었습니다.

다음 단계/더 학습하기

이 실습은 Qwik Start 실습 시리즈 중 하나이며, Google Cloud에서 제공하는 다양한 기능을 간략하게 소개하고자 마련되었습니다. 실습 카탈로그에서 'Qwik Start'를 검색하여 다음으로 참여할 실습을 찾아보세요.

Google Cloud 교육 및 자격증

Google Cloud 기술을 최대한 활용하는 데 도움이 됩니다. Google 강의에는 빠른 습득과 지속적인 학습을 지원하는 기술적인 지식과 권장사항이 포함되어 있습니다. 기초에서 고급까지 수준별 학습을 제공하며 바쁜 일정에 알맞은 주문형, 실시간, 가상 옵션이 포함되어 있습니다. 인증은 Google Cloud 기술에 대한 역량과 전문성을 검증하고 입증하는 데 도움이 됩니다.

설명서 최종 업데이트: 2023년 9월 15일

실습 최종 테스트: 2023년 9월 15일

Copyright 2024 Google LLC All rights reserved. Google 및 Google 로고는 Google LLC의 상표입니다. 기타 모든 회사명 및 제품명은 해당 업체의 상표일 수 있습니다.