Hadoop EcoSystem

[parquet-tools] parquet 파일 조회

비번변경 2024. 3. 12. 00:03

parquet-tools

parquet 파일은 csv나 json 마냥 메모장 같은 편집기로 열어도 그 내용이 제대로 보이지 않는다. 따라서 parquet 파일을 다룰 수 있는 별도의 유틸리티를 사용하게 되는데, 이 글에서는 여러 parquet 유틸리티 중 parquet 파일의 데이터와 메타데이터를 읽을 수 있는 도구인 parquet-tools를 사용하는 방법을 적어둔다.

 

참고로 Apache에서 공식적으로 제공하는 parquet-tools는 아니다! 간단히 pip로 설치할 수 있는 도구를 사용하려고 한다.

테스트할 parquet 파일은 https://www.nyc.gov/site/tlc/about/tlc-trip-record-data.page 에서 다운로드했다.

 

 

설치

parquet-tools는 pip로 설치할 수 있다.

pip install parquet-tools

정상적으로 설치되었으면 --help 옵션 사용 시 아래와 같은 출력을 확인할 수 있다.

 

 

show

show 명령어는 parquet 파일의 데이터를 테이블 형태로 출력한다. 출력할 컬럼과 행의 수를 지정할 수 있다.

parquet-tools show <FILE>
# -n, --head : 출력할 행의 개수 지정
# -c, --columns : 출력할 컬럼 지정

## 예시
parquet-tools show green_tripdata_2023-01.parquet -n 10 -c VendorID,lpep_pickup_datetime,store_and_fwd_flag

 

 

 

csv

csv 명령어는 데이터를 csv 형식으로 출력한다. show 명령과 동일하게 출력할 컬럼과 행의 수를 지정할 수 있다.

parquet-tools csv <FILE>
# -n, --head : 출력할 행의 개수 지정
# -c, --columns : 출력할 컬럼 지정

## 예시 
parquet-tools csv green_tripdata_2023-01.parquet -n 10 -c VendorID,lpep_pickup_datetime,store_and_fwd_flag

 

 

inspect

inspect 명령은 parquet 파일의 컬럼의 수, 행의 수, row group의 수와 같은 메타데이터와 컬럼 목록, 그리고 각 컬럼의 정보를 확인할 수 있다. 

parquet-tools inspect <FILE>
# --detail : thrift를 사용한 상세 출력

# 예시
parquet-tools inspect cities.parquet 
parquet-tools inspect --detail cities.parquet

 

파일 메타데이터

 

컬럼 목록

 

컬럼 상세 정보

 

상세 출력

 

 

참고 문서

https://pypi.org/project/parquet-tools/