개요
2023.11.29 - [Spark] Window에 설치에서 Spark를 컴퓨터에 설치해 봤는데, 아무래도 IDE를 이용해 코딩을 하는 게 편할 것 같다. 보통 Spark는 JetBrains의 IntelliJ, Pycharm을 많이 사용한다고 하니, 이 글에서는 Pycharm으로 Spark를 실행할 수 있도록 PySpark를 설치/설정해 보겠다.
PySpark 설치 - 생략
PySpark는 클러스터 자체를 설정하는 대신, 로컬에서 실행하거나 원격 클러스터에 연결하기 위한 클라이언트 용도로 사용되며, pip로 설치할 수 있다.
pip install pyspark
# Spark SQL
pip install pyspark[sql]
# pandas API on Spark
pip install pyspark[pandas_on_spark] plotly # to plot your data, you can install plotly together.
# Spark Connect
pip install pyspark[connect]
상세 : https://spark.apache.org/docs/latest/api/python/getting_started/install.html
다만 PySpark는 Apache Spark 공식 사이트에서 확인할 수 있는 배포판에도 포함되어 있으므로, 이 글에서는 설치를 생략한다.
PyCharm 프로젝트 설정
PyCharm 프로젝트에서 Spark에 포함된 PySpark를 사용할 수 있도록 경로를 지정한다.
1. 프로젝트 설정 접근
PyCharm 메뉴에서 파일 > 설정으로 접근할 수 있다.
2. 콘텐츠 루트 추가 클릭
설정 > 프로젝트 > 프로젝트 구조로 이동하면 확인할 수 있다.
3. SPARK_HOME/python 경로 지정
Spark 설치 경로 내 Python 경로를 지정한다.
4. SPARK_HOME/python 경로 추가
지정한 경로를 확인하고 적용 및 확인 버튼을 누른다.
이상이 없으면 추가한 python을 프로젝트에서 확인할 수 있다.
5. 테스트 코드 실행
이상이 없는지 간단히 데이터프레임을 생성하는 코드를 실행해 본다.
from pyspark.sql import SparkSession
import findspark
findspark.init()
# SparkSession 초기화
spark = SparkSession.builder.appName("Simple Application").getOrCreate()
# 데이터프레임 생성
data = [("James", "", "Smith", "1991-04-01", "M", 3000),
("Michael", "Rose", "", "2000-05-19", "M", 4000),
("Robert", "", "Williams", "1978-09-05", "M", 4000),
("Maria", "Anne", "Jones", "1967-12-01", "F", 4000),
("Jen", "Mary", "Brown", "1980-02-17", "F", -1)]
columns = ["firstname", "middlename", "lastname", "dob", "gender", "salary"]
df = spark.createDataFrame(data=data, schema=columns)
# 데이터프레임 연산
df.filter(df["salary"] > 3000).show()
# 종료
spark.stop()
문제없이 실행되는 모습을 확인할 수 있다.
참고 문서
https://spark.apache.org/docs/latest/api/python/getting_started/install.html