일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
Tags
- Dynamic Programming
- datacamp
- BOT
- Airflow
- Data Engineering
- 그리디
- 프로그래머스
- Pseudo Lab
- airflow architecture
- 2023년 목표
- data_engineer
- 데이터 엔지니어
- Spark
- telegram
- terraform
- 백준온라인저지
- hackerrank
- docker container
- 빅데이터를 지탱하는 기술
- SQL
- delete join
- Python
- docker
- airflow webserver
- 알고리즘
- dsf
- docker image
- MySQL
- 백준 온라인 저지
- leetcode
Archives
- Today
- Total
Lim Seunghyun Space
Pyspark 환경 구성하기 본문
설치 환경
- OS: Mac OS (M1)
기존 설치된 도구
- pyenv, pyenv-virtualenv
- python3
설치 순서
- Java 8 설치
- Apache Spark 설치
- Pyspark 설치
1. Java 8 설치
- Oracle Java 8 페이지로 이동
- 환경에 맞는 Java 8 설치 (Mac의 경우 jdk-8u351-macosx-x64.dmg)
- 설치하는 과정에서 Oracle 로그인 필요
- JAVA_HOME 경로 설정
/usr/libexec/java_home -v 1.8
로 Java 설치된 경로 확인- ~/.zshrc 하위에 아래의 내용을 추가
export JAVA_HOME=/Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin/Contents/Home
export PATH=${PATH}:$JAVA_HOME/bin
# 공백은 \ 와 함께 사용
2. Apache Spark 접속
- Apache Spark 다운로드 페이지로 이동
- 원하는 Spark 버전과 Package Type을 선택
- Spark tar 파일 설치 ex) spark-3.3.1-bin-hadoop3.tgz
- 원하는 위치에 두고 압축풀기
- tar -xzf <spark.tgz>
- SPARK_HOME 경로 설정
- ~/.zshrc 하위에 아래의 내용을 추가
export SPARK_HOME=<압축을 풀었던 경로> e.g) export SPARK_HOME=/Users/limseunghyun/Desktop/SparkCourse/Install/spark-3.3.1-bin-hadoop3
export PATH=$SPARK_HOME/bin:$PATH
3. Pyspark 설치
- pyenv 에 가상 환경으로 이동
- pyenv activate <가상 환경 이름>
pip3 install pyspark
로 pyspark 설치
728x90
'Data Engineering > Spark' 카테고리의 다른 글
SparkSession (0) | 2023.02.08 |
---|---|
Spark 프로그램 작성 (0) | 2023.01.25 |
스파크 소개 (0) | 2023.01.10 |