Lim Seunghyun Space

[1주차] 데이터 엔지니어링이란 본문

Data Engineering/실리콘밸리에서 날아온 데이터 엔지니어링 스타터 키드 with Python

[1주차] 데이터 엔지니어링이란

Lim Seung Hyun 2021. 12. 30. 09:33

 

데이터 엔지니어 역할
데이터 엔지니어 스킬 셋
데이터 팀의 발전 과정
데이터 웨어하우스란?
데이터 파이프라인 종류

 

데이터 엔지니어 역할

  • 데이터 웨어하우스 혹은 데이터 레이크 관리
  • 데이터 파이프라인 작성 및 관리
  • 이벤트 수집
    • 사용자의 행동 데이터

 

데이터 엔지니어 스킬 셋

  • SQL(기본) : Hive, Presto, SparkSQL 등
  • Programming Language : Python/Scala/Java
  • Large Scale Computing Platform : Spark/YARN
  • Knowledge : Machine Learning, A/B test, Statistics
  • Colud Computing
    • Redshift/EMR/S3/SageMaker from AWS
    • BigQuery/ML Engine from GCP
    • AzureML from Microsoft
    • Snowflake
  • ETL/ELT Scheduler : Airflow

 

데이터 팀의 발전 과정

  • Step 1
    • 초기에는 데이터가 없다. -> 데이터 인프라는 필요 없고 생존이 더 필요하다.
    • 회사가 커지고 데이터의 양이 많아지면 데이터 인프라 구축
      • Data Warehouse, 사이즈가 더 작으면 RDB
      • Production DB의 데이터를 구축된 데이터 인프라에 적재
    • ETL 작성
      • Airflow, 워크플로우가 작으면 cronjob
  • Step 2
    • 주기적으로 Summary Table 생성
    • Summary Table 데이터를 기반으로 지표를 설정하고 대시보드로 시각화
    • 데이터 사이언스 인프라 구축

 

데이터 웨어하우스란?

  • 회사에 필요한 모든 데이터를 보관한 공간
  • 데이터 조직이 되는 첫 번째 발돋움
  • Scalable해야함, 큰 데이터를 적재하고 분석해야하기 때문
  • Production DB와 별개

 

데이터 파이프라인 종류

  • Batch Processing
  • Realtime Processing
  • A/B 테스트 분석 파이프라인
  • Summary Data 생성 파이프라인

 

자료 소스 : https://programmers.co.kr/learn/courses/12916

 

[스터디/6기] 실리콘밸리에서 날아온 데이터 엔지니어링 스타터 키트 with Python

🚀 아쉽지만 6기는 마감되었어요. 7기 오픈 알림 신청하고, 최저가에 수강하세요! 최저가 알림 받기 데이터 엔지니어링을 시작하려는 모두에게 자신있게 추천하는 첫 스텝 : 실리콘밸리에서 날

programmers.co.kr

 

728x90