일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
Tags
- data_engineer
- 백준 온라인 저지
- delete join
- airflow webserver
- BOT
- hackerrank
- telegram
- 그리디
- airflow architecture
- SQL
- leetcode
- datacamp
- Python
- 데이터 엔지니어
- docker container
- 백준온라인저지
- MySQL
- Airflow
- Pseudo Lab
- docker
- terraform
- dsf
- docker image
- Spark
- 2023년 목표
- 알고리즘
- Data Engineering
- Dynamic Programming
- 프로그래머스
- 빅데이터를 지탱하는 기술
Archives
- Today
- Total
Lim Seunghyun Space
스파크 소개 본문
1. Spark란?
- 대규모의 데이터 처리를 위한 통합 분석 엔진이다.
2. Spark 주요 기능
- 선호하는 언어(Java, Scala, Python, R)를 이용해 배치 및 실시간 스트리밍으로 데이터를 처리하는 도구를 지원한다.
- SQL과 구조적 데이터 처리를 위한 Spark SQL, Pandas 워크로드를 위한 Spark의 Pandas API, 머신러닝을 위한 MLlib, 그래프 처리를 위한 GraphX, 증분 계산과 스트림 처리를 위한 Structured Streaming을 비롯한 고수준의 도구도 제공한다.
3. Spark를 사용하는 이유
- Spark에서 처리하는 게 MapReduce에서 처리하는 것보다 빠르다.
- DAG 엔진으로 워크플로를 최적화한다.
- 다양한 언어(Java, Scala, Python, R)로부터 사용이 가능하다.
728x90
'Data Engineering > Spark' 카테고리의 다른 글
SparkSession (0) | 2023.02.08 |
---|---|
Spark 프로그램 작성 (0) | 2023.01.25 |
Pyspark 환경 구성하기 (0) | 2023.01.09 |