일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
Tags
- terraform
- Airflow
- delete join
- data_engineer
- MySQL
- Data Engineering
- airflow architecture
- 데이터 엔지니어
- Dynamic Programming
- airflow webserver
- telegram
- BOT
- docker
- docker image
- SQL
- 백준온라인저지
- hackerrank
- dsf
- 빅데이터를 지탱하는 기술
- datacamp
- docker container
- 백준 온라인 저지
- 그리디
- 프로그래머스
- Python
- leetcode
- 2023년 목표
- 알고리즘
- Pseudo Lab
- Spark
Archives
- Today
- Total
Lim Seunghyun Space
Spark 프로그램 작성 본문
스파크를 사용하는 방법
- Scala, Java, Python에서 스파크 라이브러리를 이용하여 프로그램 작성하는 방법
- Spark shell 을 사용하는 방법
Scala, Java, Python에서 스파크 라이브러리를 이용하여 프로그램 작성하는 방법
- Spark 라이브러리을 이용해 원하는 동작을 하는 코드를 작성하고 spark submit을 한 후에 동작한 결과를 확인하는 과정을 거친다.
Spark shell 을 사용하는 방법
- 터미널에서 spark-shell 명령어을 통해 shell에 접속하여 사용한다.
- Spark python shell 을 이용하기 위해서는 pyspark 명령어를 통해 shell 에 접속하여 사용한다.
- spark shell 에서 작성한 프로그램은 쉘을 종료하면 작성한 코드들이 삭제되므로 간단한 작업에 적합하다.
- 탐색적 데이터 분석, 데이터를 확인하거나 가설을 검증하는 등 간단한 작업은 spark shell을 사용한다.
- spark-shell 은 scala 을 통해 간단하게 프로그램을 작성할 수 있으며, Spark Context와 Spark Session 이 각각 sc, spark로 기본 제공된다.
- ctrl + c 을 통해 shell을 종료할 수 있다.
- python을 이용해 shell 에서 간단한 프로그램을 작성하기 위해서는 pyspark를 사용하며, spark-shell과 마찬가지로 Spark Context와 Spark Session 이 각각 sc, spark로 기본 제공된다.
- exit()을 입력하여 shell을 종료할 수 있다.
참고한 자료
- 스파크를 다루는 기술(Spark In Action) - 길벗
728x90
'Data Engineering > Spark' 카테고리의 다른 글
SparkSession (0) | 2023.02.08 |
---|---|
스파크 소개 (0) | 2023.01.10 |
Pyspark 환경 구성하기 (0) | 2023.01.09 |