Hadoop EcoSystem 24

[Hive] Metastore

Hive Metastore Hive는 데이터에 대한 논리적 정보와 파일의 물리적 위치 등과 같은 메타성 정보를 가진다. 메타스토어는 이러한 메타 정보를 저장하고 사용자의 요청에 따라 제공한다. 정보를 제공할 때는 Thrift(Apache Thrift; 이기종간의 통신을 위한 프로토콜)를 사용하고 메타 데이터 자체는 JDBC를 이용해 데이터베이스에 저장한다. 유형 Hive의 메타스토어 유형은 임베디드(Embedded metastore), 로컬(Local metastore), 원격(Remote metastore)으로 구분할 수 있다. 임베디드(Embedded metastore) Hive를 설치하면 기본값으로 Derby를 메타스토어 DB로 사용하는데, 한 번에 한 명의 사용자만 접근할 수 있다. 따라서 운영 ..

Hadoop EcoSystem 2023.03.22

Apache Hive 란?

Apache Hive Hadoop Ecosystem에서 데이터를 모델링하고 프로세싱할 때 가장 많이 사용하는 데이터 웨어하우스 솔루션 HDFS에 저장된 데이터를 RDB 데이터베이스 테이블과 같은 구조로 정의하는 방법을 제공한다. Hive를 사용하면 하둡 에코시스템에 저장된 거대한 데이터세트를 SQL 기반으로 쿼리하고 처리할 수 있게 된다. 💡 Hadoop Ecosystem Apache Hadoop 소프트웨어 라이브러리를 이루는 다양한 구성 요소. HDFS, Hive, Pig, YARN, MapReduce 등이 해당된다. 💡 데이터 웨어하우스 여러 소스에서 가져온 구조화된 데이터와 반구조화된 데이터를 분석하고 보고하는 데 사용되는 엔터프라이즈 시스템 구성 요소 Hive는 다음과 같은 구조로 되어 있다. U..

Hadoop EcoSystem 2023.03.21

[Ubuntu/Hadoop] Single Node/Standalone 설치

개요 2023.03.18 - Apache Hadoop 이란? 에서 간단히 Hadoop에 대해 소개했는데, 이 글에서는 직접 설치해보려고 한다. 테스트 환경이므로 단일 노드, 그리고 기본 모드인 비분산 모드(Standalone)로 설치해보려고 한다. 사용한 서버는 AWS EC2, Ubuntu 20.04 LTS이다. 지원 Java 버전 Hadoop은 Java 기반 오픈소스이기 때문에 Java 설치를 요구한다. Hadoop 버전 별 사용할 수 있는 Java 버전은 아래와 같다. Apache Hadoop 3.3 이상 : Java 8, Java 11 Apache Hadoop 3.0.X ~ 3.2.X : Java 8 Apache Hadoop 2.7.X ~ 3.10.X : Java 7, Java 8 참고 : http..

Hadoop EcoSystem 2023.03.19

Apache Hadoop 이란?

Hadoop High Availability Distributed Object Oriented Platform (고가용성 분산형 객체 지향적 플랫폼) 객체 지향적인 작업을 병렬로 분산시켜 고가용성을 확보를 가능하게 하는 기술 Apache Hadoop은 Java 기반의 오픈 소스로, 간단한 프로그래밍 모듈을 사용해 컴퓨터 클러스터에 대규모 데이터 세트를 분산 저장 및 처리한다. 단일 컴퓨터에서 수천 대의 클러스터까지 확장할 수 있도록 설계되었다. HDFS와 MapReduce 프레임워크로 시작되었으나 현재는 빅데이터 처리 및 분석을 위한 플랫폼 중 표준에 가깝게 발전했다. 구성 요소 Hadoop은 MapReduce, HDFS, YARN, Common Utility로 구성되어 있다. HDFS Hadoop Di..

Hadoop EcoSystem 2023.03.18
1 2 3