Data Engineering/실리콘밸리에서 날아온 데이터 엔지니어링 스타터 키드 with Python
[1주차] 데이터 엔지니어링이란
Lim Seung Hyun
2021. 12. 30. 09:33
데이터 엔지니어 역할
데이터 엔지니어 스킬 셋
데이터 팀의 발전 과정
데이터 웨어하우스란?
데이터 파이프라인 종류
데이터 엔지니어 역할
- 데이터 웨어하우스 혹은 데이터 레이크 관리
- 데이터 파이프라인 작성 및 관리
- 이벤트 수집
- 사용자의 행동 데이터
데이터 엔지니어 스킬 셋
- SQL(기본) : Hive, Presto, SparkSQL 등
- Programming Language : Python/Scala/Java
- Large Scale Computing Platform : Spark/YARN
- Knowledge : Machine Learning, A/B test, Statistics
- Colud Computing
- Redshift/EMR/S3/SageMaker from AWS
- BigQuery/ML Engine from GCP
- AzureML from Microsoft
- Snowflake
- ETL/ELT Scheduler : Airflow
데이터 팀의 발전 과정
- Step 1
- 초기에는 데이터가 없다. -> 데이터 인프라는 필요 없고 생존이 더 필요하다.
- 회사가 커지고 데이터의 양이 많아지면 데이터 인프라 구축
- Data Warehouse, 사이즈가 더 작으면 RDB
- Production DB의 데이터를 구축된 데이터 인프라에 적재
- ETL 작성
- Airflow, 워크플로우가 작으면 cronjob
- Step 2
- 주기적으로 Summary Table 생성
- Summary Table 데이터를 기반으로 지표를 설정하고 대시보드로 시각화
- 데이터 사이언스 인프라 구축
데이터 웨어하우스란?
- 회사에 필요한 모든 데이터를 보관한 공간
- 데이터 조직이 되는 첫 번째 발돋움
- Scalable해야함, 큰 데이터를 적재하고 분석해야하기 때문
- Production DB와 별개
데이터 파이프라인 종류
- Batch Processing
- Realtime Processing
- A/B 테스트 분석 파이프라인
- Summary Data 생성 파이프라인
자료 소스 : https://programmers.co.kr/learn/courses/12916
[스터디/6기] 실리콘밸리에서 날아온 데이터 엔지니어링 스타터 키트 with Python
🚀 아쉽지만 6기는 마감되었어요. 7기 오픈 알림 신청하고, 최저가에 수강하세요! 최저가 알림 받기 데이터 엔지니어링을 시작하려는 모두에게 자신있게 추천하는 첫 스텝 : 실리콘밸리에서 날
programmers.co.kr
728x90