[사용해봐요 Dataprep] 2편 – Dataprep 기본 기능

본 내용은 [사용해봐요 Dataprep] 1편 – Dataprep 간단 소개 및 시작하기 포스팅에서 이어지는 내용입니다. 참고 부탁드립니다 🙂

[사용해봐요 Dataprep] 2편 – Dataprep 기본 기능 목차

  • replace
  • delete rows
  • rename
  • delete columns
  • merge
  • Undo
  • Run Jo
  • Edit Recipe description

replace

id열은 ‘사십’을 제외하고 모두 숫자로 이루어져 있습니다.

mismatched value인 ‘사십’을 40으로 바꾸어보겠습니다.

빨간색 표시를 클릭하면 우측에 ‘이렇게 데이터를 정제하는게 어떻겠느냐’는 Suggestions(제안)이 나타납니다.

위쪽 메뉴에 A→B 아이콘인 ‘Replace’메뉴가 있습니다.

클릭 후, 아래와 같이 값을 입력합니다.

  • Column : id
  • Find : ‘사십’
  • Replace with : 40

그럼 기존 id 열 오른쪽에 노란색 열인 preview가 나타납니다.

위와 같이 값을 입력한 Recipe를 Add 했을 때, 나오는 결과를 미리보기 해주는 것입니다.

Add를 클릭합니다.

아래 사항들을 확인할 수 있습니다.

  • ‘사십’이 40으로 변환되었습니다.
  • id열의 빨간색 mismatched 표시가 사라졌습니다.
  • 우측에 [Replace matches of ‘40’ from id with ‘40’]라는 Recipe가 추가되었습니다.

delete rows

다음으로 like 열에 아무 값도 없는 행을 삭제하겠습니다.

검은색 표시를 클릭하면 우측에 ‘이렇게 데이터를 정제하는게 어떻겠느냐’는 Suggestions(제안)이 나타납니다.

Delete rows를 제안하고 있네요.

우리의 목적은 행을 삭제하는 것이므로, Add를 클릭합니다. [Delete rows]라는 Recipe를 Add하는 뜻입니다.

아래 사항들을 확인할 수 있습니다.

  • like열에서 아무 값도 없는 행이 사라졌습니다.
  • like열의 검은색 missing 표시가 사라졌습니다.
  • 우측에 [Delete rows where ISMISSING([like])]라는 Recipe가 추가되었습니다.

rename

이번엔 열 이름을 바꾸겠습니다.

‘nickname’ 열을 ‘title’열로 rename하겠습니다.

nickname 오른쪽 V아이콘을 클릭하면 해당 열을 어떻게 변경할 것인가에 대한 메뉴가 나타납니다.

Rename을 클릭합니다.

새 이름을 ‘title’로 입력하면 바로 반영되어 preview가 나타납니다.

Add를 클릭합니다.

아래 사항들을 확인할 수 있습니다.

  • like열이 title로 이름이 바뀌었습니다.
  • 우측에 [Rename nickname to ‘title]이라는 Recipe가 추가되었습니다.

delete columns

instagram_followers 열을 삭제하겠습니다.

instagram_followers 열 오른쪽 V아이콘을 클릭하면 해당 열을 어떻게 변경할 것인가에 대한 메뉴가 나타납니다.

delete 을 클릭합니다.

아래 사항들을 확인할 수 있습니다.

  • instagram_followers 열이 삭제되었습니다.
  • 우측에 [Delete instagram_followers]라는 Recipe가 추가되었습니다.

merge

이번엔 title 열과 name 열을 merge 해보겠습니다.

title열을 클릭하고 Cmd 키(혹은 Ctrl 키)를 누른 상태로 name 열을 클릭합니다.

우측에 Details 패널이 열립니다.

스크롤을 조금 내리면 Merge columns가 보입니다. 

[title, name separated by ‘,’]를 클릭하고 Add를 클릭합니다.

아래 사항들을 확인할 수 있습니다.

  • merge된 열이 ‘column1’이라는 이름으로 새로 생성되었습니다. 
  • 우측에 [Concentenate title, name separated by ‘,’]라는 Recipe가 추가되었습니다.

Undo

그런데 merge한 결과가 영 마음에 들지 않아 실행취소를 하고 싶습니다.

상단의 Undo 아이콘을 클릭하면 간단히 실행취소 할 수 있습니다.

그럼 아래 사항들을 확인할 수 있습니다.

  • merge된 열이 사라졌습니다.
  • 우측에 [Concentenate title, name separated by ‘,’]라는 Recipe도 사라졌습니다.

Run Job

지금까지 만든 Recipe대로 데이터 정제를 실행하도록 하겠습니다.

우측 상단의 Run Job 버튼을 클릭합니다.

정제한 데이터를 어디로 publish할 것인지 설정하는 창이 나타납니다.

기본적으로 Google Cloud Storage에 정제한 데이터가 csv파일로 생성됩니다.

Run Job을 클릭합니다.

‘animal crossing’ Flows 화면으로 돌아왔습니다.

우측에 Job이 In progress 상태인 것이 보입니다.

잠시 후, Job이 Completed된 것을 확인 할 수 있습니다.

Edit Recipe description

해당 Recipe의 이름과 설명을 지정하여 Recipe를 헷갈리는 일이 없도록 하겠습니다.

information에 마우스를 갖다대면 파란 점 세개가 나타납니다. Edit name and description을 클릭합니다.

정보를 입력하고 OK를 입력합니다.

Recipe의 이름과 설명이 수정된 것을 확인할 수 있습니다.

다음 포스팅 [사용해봐요 Dataprep] 3편 – Dataprep Join 기능 에서 뵙겠습니다.