일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- telegram
- docker container
- Data Engineering
- Python
- BOT
- hackerrank
- data_engineer
- 프로그래머스
- docker
- Spark
- 백준 온라인 저지
- airflow architecture
- 데이터 엔지니어
- airflow webserver
- Pseudo Lab
- SQL
- 알고리즘
- Dynamic Programming
- 빅데이터를 지탱하는 기술
- docker image
- 백준온라인저지
- 2023년 목표
- datacamp
- 그리디
- terraform
- delete join
- MySQL
- Airflow
- dsf
- leetcode
- Today
- Total
목록Data Engineering (12)
Lim Seunghyun Space

Airflow 워크플로우 작성, 에약 및 모니터링하는 플랫폼 Airflow를 쓰는 이유 ETL을 구현한 Python 스크립트를 하나 가동하는데는 cronjob으로 돌려도 상관없지만, 다수의 ETL 스크립트를 cronjob으로 가동하는 경우 아래와 같은 문제점이 있다. 모니터링 : 스크립트가 잘 가동되고 있는지 확인하기 어렵다. 의존성 문제 : ETL간 의존성이 있는 경우 상위 ETL이 잘 가동되고 있는지 확인하기 어렵다. 실패 복구 : 스크립트에서 에러 발생시 언제부터 언제까지 어떻게 다시 실행할 것인지 불명확하다, Backfill의 이슈도 있다. 분산된 환경에서 중앙으로 ETL을 관리하기 어렵다. 위의 문제점을 Airflow에서 해결할 수 있다. Airflow 컴포넌트 웹 서버 : 웹 대시보드 스케쥴러..

구축 환경 OS : Ubuntu 18.04 Python : 3.8 Python 환경 구축 Python 가상환경 생성 Local에 설치된 Python에 문제 생기지 않도록 virtualenv를 이용하여 airflow를 위한 Python 가상 환경 생성 Python 가상환경은 User의 홈 디렉토리에 생성 virtualenv venv --python=python3.8 생성한 Python 가상환경 실행 airflow_limsh@lim-space:~$ source venv/bin/activate (venv) airflow_limsh@lim-space:~$ source 설치된 가상환경 경로/bin/activate로 활성화 (venv) airflow_limsh@lim-space:~$ tree -L 2 . └── v..