개요 빅데이터 관련 프로젝트를 하다보면 json, csv 등 외의 parquet 형식의 파일을 다루게 되는데, 이번 글에서는 parquet 파일에 대해서 간단히 정리해두려고 한다. 참고로 parquet은 파케이라고 발음한다. Apache Parquet Apache Parquet이란 Hadoop 에코 시스템에서 공통적으로 사용할 수 있는 컬럼 기반 데이터 압축 형식을 말한다. 복잡하게 중첩된 데이터 구조를 위해 개발되었고, Dremel의 논문에서 작성된 record shredding and assembly algorithm을 사용한다. 또한 열(컬럼) 기반으로 데이터를 압축하여 효율적인 압축 및 인코딩을 지원한다. 관련 개념 Block (HDFS block) HDFS에서의 블록을 의미한다. File 파일의..