Lim Seunghyun Space

스파크 소개 본문

Data Engineering/Spark

스파크 소개

Lim Seung Hyun 2023. 1. 10. 23:37

1. Spark란?

  • 대규모의 데이터 처리를 위한 통합 분석 엔진이다.

 

2. Spark 주요 기능

  • 선호하는 언어(Java, Scala, Python, R)를 이용해 배치 및 실시간 스트리밍으로 데이터를 처리하는 도구를 지원한다. 
  • SQL과 구조적 데이터 처리를 위한 Spark SQL, Pandas 워크로드를 위한 Spark의 Pandas API, 머신러닝을 위한 MLlib, 그래프 처리를 위한 GraphX, 증분 계산과 스트림 처리를 위한 Structured Streaming을 비롯한 고수준의 도구도 제공한다.

 

3. Spark를 사용하는 이유

  • Spark에서 처리하는 게 MapReduce에서 처리하는 것보다 빠르다.
  • DAG 엔진으로 워크플로를 최적화한다.
  • 다양한 언어(Java, Scala, Python, R)로부터 사용이 가능하다.
728x90

'Data Engineering > Spark' 카테고리의 다른 글

SparkSession  (0) 2023.02.08
Spark 프로그램 작성  (0) 2023.01.25
Pyspark 환경 구성하기  (0) 2023.01.09