Data Engineering/Spark
Pyspark 환경 구성하기
Lim Seung Hyun
2023. 1. 9. 22:43
설치 환경
- OS: Mac OS (M1)
기존 설치된 도구
- pyenv, pyenv-virtualenv
- python3
설치 순서
- Java 8 설치
- Apache Spark 설치
- Pyspark 설치
1. Java 8 설치
- Oracle Java 8 페이지로 이동
- 환경에 맞는 Java 8 설치 (Mac의 경우 jdk-8u351-macosx-x64.dmg)
- 설치하는 과정에서 Oracle 로그인 필요
- JAVA_HOME 경로 설정
/usr/libexec/java_home -v 1.8
로 Java 설치된 경로 확인- ~/.zshrc 하위에 아래의 내용을 추가
export JAVA_HOME=/Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin/Contents/Home
export PATH=${PATH}:$JAVA_HOME/bin
# 공백은 \ 와 함께 사용
2. Apache Spark 접속
- Apache Spark 다운로드 페이지로 이동
- 원하는 Spark 버전과 Package Type을 선택
- Spark tar 파일 설치 ex) spark-3.3.1-bin-hadoop3.tgz
- 원하는 위치에 두고 압축풀기
- tar -xzf <spark.tgz>
- SPARK_HOME 경로 설정
- ~/.zshrc 하위에 아래의 내용을 추가
export SPARK_HOME=<압축을 풀었던 경로> e.g) export SPARK_HOME=/Users/limseunghyun/Desktop/SparkCourse/Install/spark-3.3.1-bin-hadoop3
export PATH=$SPARK_HOME/bin:$PATH
3. Pyspark 설치
- pyenv 에 가상 환경으로 이동
- pyenv activate <가상 환경 이름>
pip3 install pyspark
로 pyspark 설치
728x90