Apache Superset

[Superset] Virtual Dataset 생성

비번변경 2023. 2. 27. 22:41

Dataset 유형

Superset에서 Dataset는 Physical과 Virtual 두 가지 유형이 있다.

 

Physical Dataset

데이터베이스의 테이블 또는 뷰를 나타낸다.

실제 물리적인 테이블을 반영하기 때문에 데이터베이스에서 스키마 및 열 유형 등의 정보를 자동으로 가져올 수 있다. 이러한 정보는 Superset 메타데이터 DB에 저장되는데, 만약 테이블 스키마 등의 정보가 변경된 경우 Sync Columns from Source to force Superset 버튼을 클릭해 내부 데이터 모델을 갱신할 수 있다.

 

Virtual Dataset

데이터베이스에 대한 자유 형식 SQL 쿼리로 생성한 Dataset이다.

메트릭을 정의하거나 calculated columns을 정의하는 등 Physical Dataset의 기능 대부분을 동일하게 제공한다. 

Virtual Dataset은 여러 테이블 JOIN 또는 Self JOIN 하는 경우, 일회성의 임시 탐색이 필요한 경우, 기본 데이터를 크게 변환하려는 경우에 사용을 고려할 수 있다.

 

 

이전 2023.02.24 - [Superset] Physical Dataset 생성 및 편집 글을 통해 Physical Dataset을 생성해 보았으므로, 이 글에서는 Virtual Dataset을 생성해 보도록 한다.

 

 

특정 Chart 쿼리 확인

2023.02.25 - [Superset] Chart 생성에서 생성한 Chart의 데이터를 Virtual Dataset으로 만들어보려고 한다.

그러기 위해서 우선 해당 Chart의 쿼리를 확인해 본다.

Chart 편집 화면 우측 상단의 … > View query를 통해 Chart를 그리는 데 사용한 쿼리를 확인할 수 있다.

내용을 복사해 둔다.

 

 

Virtual Dataset 생성

1. SQL 쿼리 실행

SQL Editor의 편집기에 복사한 쿼리를 붙여놓고 실행한다.

FROM 절을 통해 사용할 schema와 table을 지정하므로 왼쪽에서 따로 선택하지 않아도 되지만, 사용할 데이터베이스는 지정해주어야 한다.

 

2. 결과 데이터 저장

쿼리를 실행한 결과 데이터를 CREATE CHART 버튼을 이용해 저장할 수 있다.

저장할 Dataset의 이름을 설정하고 저장한다.

 

3. Dataset  확인

생성하면 바로 Chart 생성 화면으로 넘어가는데, 생성한 Virtual Dataset 역시 Datasets 페이지에서 확인할 수 있다.

 

 

참고 문서

https://preset.io/blog/understanding-superset-semantic-layer/

 

 

728x90