[사용해봐요 Dataprep] 3편 – Dataprep Join 기능

본 내용은 [사용해봐요 Dataprep] 2편 – Dataprep 기본 기능 포스팅에서 이어지는 내용입니다. 참고 부탁드립니다 🙂

[사용해봐요 Dataprep] 3편 – Dataprep Join 기능 목차

  • birthday 정제
    • Run Job
    • Edit Recipe description
  • Join

birthday 정제

전편에 이어, 이번엔 birthday.csv를 정제해보도록 하겠습니다.

birthday.csv를 클릭한 후, Add new Recipe, Edit Recipe를 차례대로 클릭합니다.

잠시 후, birthday 데이터가 나타납니다.

wish_item 열에서 숫자가 보입니다.

wish_item 열을 클릭한 후, Patterns의 {digit}을 클릭합니다.

Suggestions 중에서 Delete Rows를 클릭한 후, Add를 클릭합니다.

아래 사항들을 확인할 수 있습니다.

  • wish_item 열에서 숫자만 있던 행이 사라졌습니다.
  • 우측에 [Delete rows where MATHCES([wish_item], ‘{start}({digit}{8}){end}’)]라는 Recipe가 추가되었습니다.

Run Job

birthday의 Recipe를 실행하겠습니다.

Run Job을 클릭하고, 다음 화면에서도 Run Job을 클릭합니다.

flows에서 Job이 In progress인 상태인 것을 확인할 수 있습니다.

이때, 해당 Job을 클릭한 후, 나오는 화면의 우측 상단 View Dataflow Job 을 클릭합니다.

그럼 Dataflow로 이동하면서, 해당 Job이 순차적으로 실행되고 있는 걸 볼 수 있습니다.

Edit Recipe description

마찬가지로 Recipe를 헷갈리지 않도록 birthday의 Recipe정보를 편집합니다.

Recipe정보를 편집하는 자세한 내용은 전 포스팅에 적어두었습니다.

Join

이번엔 information-200524 Recipe와, birthday-200524 Recipe를 JOIN 해보겠습니다.

information-200524 Recipe를 클릭한 후, Add new Recipe 버튼과, Edit Recipe 버튼을 차례대로 클릭합니다.

information-200524-2 Recipe가 생성됩니다.

Join 아이콘을 클릭합니다.

Join할 dataset이나 Recipe를 선택할 수 있는 창이 나옵니다. 

birthday-200524 Recipe를 선택하고 Accept를 클릭합니다.

Join Key를 제안하는 화면이 나옵니다.

여기선 name 열을 join key로 제안하고 있습니다.

현재 ‘information-200524’와 ‘birthday-200524’의 공통점이 되는 것이 name이기 때문입니다.

Next를 클릭합니다.

모든 항목에 체크하고 Review를 클릭합니다.

Add to Recipe를 클릭합니다.

그럼 아래 사항들을 확인할 수 있습니다.

  • 두 Recipe의 모든 열이 현재 Recipe(information-200524-2)에 모두 모아졌습니다.
  • 우측에 [Inner join with birthday-200524 on name == name]라는 Recipe가 추가되었습니다.
  • 동일한 열인 name1과, id1 열이 생성되었습니다. 
    • 두 열은 삭제하도록 합니다.

다음 포스팅 [사용해봐요 Dataprep] 4편 – Dataprep Export 기능 에서 뵙겠습니다.