Lim Seunghyun Space

Pyspark 환경 구성하기 본문

Data Engineering/Spark

Pyspark 환경 구성하기

Lim Seung Hyun 2023. 1. 9. 22:43

설치 환경

  • OS: Mac OS (M1)

 

기존 설치된 도구

  • pyenv, pyenv-virtualenv
  • python3

 

설치 순서

  1. Java 8 설치
  2. Apache Spark 설치
  3. Pyspark 설치

 

1. Java 8 설치

  • Oracle Java 8 페이지로 이동
  • 환경에 맞는 Java 8 설치 (Mac의 경우 jdk-8u351-macosx-x64.dmg)
    • 설치하는 과정에서 Oracle 로그인 필요
  • JAVA_HOME 경로 설정
    • /usr/libexec/java_home -v 1.8 로 Java 설치된 경로 확인
    • ~/.zshrc 하위에 아래의 내용을 추가
export JAVA_HOME=/Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin/Contents/Home
export PATH=${PATH}:$JAVA_HOME/bin

# 공백은 \ 와 함께 사용

 

JAVA HOME 정상 적용 모습

 

 

2. Apache Spark 접속

  • Apache Spark 다운로드 페이지로 이동
  • 원하는 Spark 버전과 Package Type을 선택
  • Spark tar 파일 설치 ex) spark-3.3.1-bin-hadoop3.tgz
  • 원하는 위치에 두고 압축풀기
    • tar -xzf <spark.tgz>
  • SPARK_HOME 경로 설정
    • ~/.zshrc 하위에 아래의 내용을 추가
export SPARK_HOME=<압축을 풀었던 경로>  e.g) export SPARK_HOME=/Users/limseunghyun/Desktop/SparkCourse/Install/spark-3.3.1-bin-hadoop3
export PATH=$SPARK_HOME/bin:$PATH

 

 

3. Pyspark 설치

  • pyenv 에 가상 환경으로 이동
    • pyenv activate <가상 환경 이름>
  • pip3 install pyspark 로 pyspark 설치

Pyspark 로 정상 설치 확인

728x90

'Data Engineering > Spark' 카테고리의 다른 글

SparkSession  (0) 2023.02.08
Spark 프로그램 작성  (0) 2023.01.25
스파크 소개  (0) 2023.01.10