Hadoop EcoSystem

[Spark] Pycharm에서 실행하기

비번변경 2023. 11. 30. 17:52

개요

2023.11.29 - [Spark] Window에 설치에서 Spark를 컴퓨터에 설치해 봤는데, 아무래도 IDE를 이용해 코딩을 하는 게 편할 것 같다. 보통 Spark는 JetBrains의 IntelliJ, Pycharm을 많이 사용한다고 하니, 이 글에서는 Pycharm으로 Spark를 실행할 수 있도록 PySpark를 설치/설정해 보겠다.

 

 

PySpark 설치 - 생략

PySpark는 클러스터 자체를 설정하는 대신, 로컬에서 실행하거나 원격 클러스터에 연결하기 위한 클라이언트 용도로 사용되며, pip로 설치할 수 있다.

pip install pyspark

# Spark SQL
pip install pyspark[sql]
# pandas API on Spark
pip install pyspark[pandas_on_spark] plotly  # to plot your data, you can install plotly together.
# Spark Connect
pip install pyspark[connect]

상세 : https://spark.apache.org/docs/latest/api/python/getting_started/install.html

 

다만 PySpark는 Apache Spark 공식 사이트에서 확인할 수 있는 배포판에도 포함되어 있으므로, 이 글에서는 설치를 생략한다.

 

 

PyCharm 프로젝트 설정

PyCharm 프로젝트에서 Spark에 포함된 PySpark를 사용할 수 있도록 경로를 지정한다.

 

1. 프로젝트 설정 접근

PyCharm 메뉴에서 파일 > 설정으로 접근할 수 있다.

 

2. 콘텐츠 루트 추가 클릭

설정 > 프로젝트 > 프로젝트 구조로 이동하면 확인할 수 있다.

 

3. SPARK_HOME/python 경로 지정

Spark 설치 경로 내 Python 경로를 지정한다.

 

4. SPARK_HOME/python 경로 추가

지정한 경로를 확인하고 적용 및 확인 버튼을 누른다.

이상이 없으면 추가한 python을 프로젝트에서 확인할 수 있다.

 

5. 테스트 코드 실행

이상이 없는지 간단히 데이터프레임을 생성하는 코드를 실행해 본다.

from pyspark.sql import SparkSession
import findspark

findspark.init()

# SparkSession 초기화
spark = SparkSession.builder.appName("Simple Application").getOrCreate()

# 데이터프레임 생성
data = [("James", "", "Smith", "1991-04-01", "M", 3000),
        ("Michael", "Rose", "", "2000-05-19", "M", 4000),
        ("Robert", "", "Williams", "1978-09-05", "M", 4000),
        ("Maria", "Anne", "Jones", "1967-12-01", "F", 4000),
        ("Jen", "Mary", "Brown", "1980-02-17", "F", -1)]
columns = ["firstname", "middlename", "lastname", "dob", "gender", "salary"]
df = spark.createDataFrame(data=data, schema=columns)

# 데이터프레임 연산
df.filter(df["salary"] > 3000).show()

# 종료
spark.stop()

문제없이 실행되는 모습을 확인할 수 있다.

 

 

참고 문서

https://spark.apache.org/docs/latest/api/python/getting_started/install.html