개요 2024.01.19 - [Hive] 테이블 - 파티션, 2024.02.02 - [Hive] 테이블 - 버켓팅 (bucketing)에 이어서 이번 글에서는 Hive 테이블의 스큐 (SKEW)에 대한 부분을 알아보려고 한다. 스큐 (SKEW) 스큐란 컬럼에 특정 데이터가 빈번하게 저장되는 경우 분리해서 저장하는 기능이다. 데이터를 디렉터리에 나눠서 저장하는 파티션과 비슷하지만, 파티션이 데이터를 크게 구분하는 용도로 사용한다면 스큐는 컬럼의 데이터를 구분할 때 사용한다. 스큐는 하나의 컬럼의 값이 특정 값에 몰려있을 때 유용하다. 예로 들어 num 컬럼에는 1부터 1000까지의 데이터가 저장되는데 주로 1, 2가 저장된다고 하자. 이 테이블을 파티셔닝하면 num=1, num=2, … , num=1000..