일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
Tags
- datacamp
- delete join
- MySQL
- Data Engineering
- Python
- Spark
- airflow architecture
- Dynamic Programming
- 백준 온라인 저지
- docker
- Pseudo Lab
- telegram
- dsf
- 빅데이터를 지탱하는 기술
- 2023년 목표
- 알고리즘
- 백준온라인저지
- airflow webserver
- terraform
- SQL
- 데이터 엔지니어
- leetcode
- BOT
- docker image
- hackerrank
- 프로그래머스
- 그리디
- Airflow
- docker container
- data_engineer
Archives
- Today
- Total
Lim Seunghyun Space
[1주차] 데이터 엔지니어링이란 본문
Data Engineering/실리콘밸리에서 날아온 데이터 엔지니어링 스타터 키드 with Python
[1주차] 데이터 엔지니어링이란
Lim Seung Hyun 2021. 12. 30. 09:33
데이터 엔지니어 역할
데이터 엔지니어 스킬 셋
데이터 팀의 발전 과정
데이터 웨어하우스란?
데이터 파이프라인 종류
데이터 엔지니어 역할
- 데이터 웨어하우스 혹은 데이터 레이크 관리
- 데이터 파이프라인 작성 및 관리
- 이벤트 수집
- 사용자의 행동 데이터
데이터 엔지니어 스킬 셋
- SQL(기본) : Hive, Presto, SparkSQL 등
- Programming Language : Python/Scala/Java
- Large Scale Computing Platform : Spark/YARN
- Knowledge : Machine Learning, A/B test, Statistics
- Colud Computing
- Redshift/EMR/S3/SageMaker from AWS
- BigQuery/ML Engine from GCP
- AzureML from Microsoft
- Snowflake
- ETL/ELT Scheduler : Airflow
데이터 팀의 발전 과정
- Step 1
- 초기에는 데이터가 없다. -> 데이터 인프라는 필요 없고 생존이 더 필요하다.
- 회사가 커지고 데이터의 양이 많아지면 데이터 인프라 구축
- Data Warehouse, 사이즈가 더 작으면 RDB
- Production DB의 데이터를 구축된 데이터 인프라에 적재
- ETL 작성
- Airflow, 워크플로우가 작으면 cronjob
- Step 2
- 주기적으로 Summary Table 생성
- Summary Table 데이터를 기반으로 지표를 설정하고 대시보드로 시각화
- 데이터 사이언스 인프라 구축
데이터 웨어하우스란?
- 회사에 필요한 모든 데이터를 보관한 공간
- 데이터 조직이 되는 첫 번째 발돋움
- Scalable해야함, 큰 데이터를 적재하고 분석해야하기 때문
- Production DB와 별개
데이터 파이프라인 종류
- Batch Processing
- Realtime Processing
- A/B 테스트 분석 파이프라인
- Summary Data 생성 파이프라인
자료 소스 : https://programmers.co.kr/learn/courses/12916
[스터디/6기] 실리콘밸리에서 날아온 데이터 엔지니어링 스타터 키트 with Python
🚀 아쉽지만 6기는 마감되었어요. 7기 오픈 알림 신청하고, 최저가에 수강하세요! 최저가 알림 받기 데이터 엔지니어링을 시작하려는 모두에게 자신있게 추천하는 첫 스텝 : 실리콘밸리에서 날
programmers.co.kr
728x90
'Data Engineering > 실리콘밸리에서 날아온 데이터 엔지니어링 스타터 키드 with Python' 카테고리의 다른 글
[1주차] 데이터 팀의 역할 (0) | 2021.12.29 |
---|