일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 데이터 엔지니어
- airflow webserver
- airflow architecture
- BOT
- Dynamic Programming
- leetcode
- 2023년 목표
- 빅데이터를 지탱하는 기술
- Data Engineering
- SQL
- 백준온라인저지
- 프로그래머스
- Spark
- delete join
- dsf
- 알고리즘
- docker image
- 백준 온라인 저지
- Pseudo Lab
- terraform
- MySQL
- Airflow
- data_engineer
- docker container
- hackerrank
- telegram
- 그리디
- datacamp
- docker
- Python
- Today
- Total
목록Data Engineering/Spark (4)
Lim Seunghyun Space

1. SparkSession Spark API로 작성된 스파크 애플리케이션을 실행하기 위한 진입점으로 주로 spark라고 명시한다. SparkSession으로 드라이버 프로세스를 제어하고 하나의 SparkSession은 하나의 스파크 애플리케이션에 대응한다. 2. SparkSession의 구조 SparkSession은 각 언어로 작성된 Spark 스크립트를 실행하기 위한 진입점이다. SparkSession을 통해 JVM에서 실행할 수 있는 코드로 변환해주고, 변환된 코드는 Executor로 전달한다. Reference 스파크 완벽 가이드 - 한빛미디어

스파크를 사용하는 방법 Scala, Java, Python에서 스파크 라이브러리를 이용하여 프로그램 작성하는 방법 Spark shell 을 사용하는 방법 Scala, Java, Python에서 스파크 라이브러리를 이용하여 프로그램 작성하는 방법 Spark 라이브러리을 이용해 원하는 동작을 하는 코드를 작성하고 spark submit을 한 후에 동작한 결과를 확인하는 과정을 거친다. Spark shell 을 사용하는 방법 터미널에서 spark-shell 명령어을 통해 shell에 접속하여 사용한다. Spark python shell 을 이용하기 위해서는 pyspark 명령어를 통해 shell 에 접속하여 사용한다. spark shell 에서 작성한 프로그램은 쉘을 종료하면 작성한 코드들이 삭제되므로 간단한..

1. Spark란? 대규모의 데이터 처리를 위한 통합 분석 엔진이다. 2. Spark 주요 기능 선호하는 언어(Java, Scala, Python, R)를 이용해 배치 및 실시간 스트리밍으로 데이터를 처리하는 도구를 지원한다. SQL과 구조적 데이터 처리를 위한 Spark SQL, Pandas 워크로드를 위한 Spark의 Pandas API, 머신러닝을 위한 MLlib, 그래프 처리를 위한 GraphX, 증분 계산과 스트림 처리를 위한 Structured Streaming을 비롯한 고수준의 도구도 제공한다. 3. Spark를 사용하는 이유 Spark에서 처리하는 게 MapReduce에서 처리하는 것보다 빠르다. DAG 엔진으로 워크플로를 최적화한다. 다양한 언어(Java, Scala, Python, R)..

설치 환경 OS: Mac OS (M1) 기존 설치된 도구 pyenv, pyenv-virtualenv python3 설치 순서 Java 8 설치 Apache Spark 설치 Pyspark 설치 1. Java 8 설치 Oracle Java 8 페이지로 이동 환경에 맞는 Java 8 설치 (Mac의 경우 jdk-8u351-macosx-x64.dmg) 설치하는 과정에서 Oracle 로그인 필요 JAVA_HOME 경로 설정 /usr/libexec/java_home -v 1.8 로 Java 설치된 경로 확인 ~/.zshrc 하위에 아래의 내용을 추가 export JAVA_HOME=/Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin/Contents/Home export PAT..