Lim Seunghyun Space

[1주차] 데이터 팀의 역할 본문

Data Engineering/실리콘밸리에서 날아온 데이터 엔지니어링 스타터 키드 with Python

[1주차] 데이터 팀의 역할

Lim Seung Hyun 2021. 12. 29. 20:44
데이터의 흐름
데이터 조직의 비전
데이터 조직의 구성
데이터 조직의 형태

 

데이터의 흐름

Data Flow 출처 : 프로그래머스 실리콘밸리에서 날아온 데이터 엔지니어링 스타터 키트 with Python

  1. 서비스로부터 생성된 내부 및 외부 데이터를 Production DB에 저장
  2. Production DB에 있는 데이터를 ETL을 통해 Data Warehouse에 적재
  3. Data Warehouse에 적재된 데이터에서 지표를 설정하고 대시보드 형태로 시각화
  4. Data Warehouse에 적재된 데이터를 통해 서비스에 필요한 모델을 생성

 

데이터 조직의 비전

  • 신뢰할 수 있는 데이터로 회사의 부가가치 생성
  • 고품질의 데이터로 중요 지표를 가지고 결정권자가 방향을 결정(Decision Science)
    • data informed decisions : 데이터를 참고하여 결정하라
    • data driven decisions : 데이터가 나타내는대로 결정하라
  • 고품질의 데이터로 ML/AI을 이용해 서비스를 개선하여 소비자들은 더 나은 경험을 할 수 있게함

 

데이터 조직의 구성

  • 데이터 사이언티스트 (Product Science)
    • 알고리즘/머신러닝을 통해 고객 경험을 개선
    • 모델을 개발하기 때문에 끈기와 경험이 필요함
    • 필요한 스킬
      • 머신러닝에 대한 지식과 경험
      • Python/Spark (코딩 능력)
      • SQL/Hive
      • 수학적 지식과 통계 지식
  • 데이터 분석가 (Data Analyst)
    • 중요 지표 정의하고 대시보드로 시각화
    • 필요한 스킬
      • SQL/Hive
      • 수학적 지식과 통계지식
      • 비즈니스에 대한 도메인 지식
  • 데이터 엔지니어 (Data Engineer)
    • 데이터 웨어하우스 혹은 데이터 레이크 관리
    • 데이터 파이프라인 작성 및 관리
    • A/B 테스트 시스템 구축 및 분석

 

데이터 조직의 형태

  • Centralized
    • 여러 부서나 팀으로부터 요구사항을 받아서 진행
    • 데이터 조직에 대한 분위기가 좋음 (훈훈..?)

Centralized 출처 : 프로그래머스 실리콘밸리에서 날아온 데이터 엔지니어링 스타터 키트 with Python

  • Distributed or Decentralized
    • Centralized에서 각 부서나 팀으로 분산된 형태
    • Centralized에 비해 업무 처리 속도가 빠를 수 있음

Distributed or Decentralized 출처 : 프로그래머스 실리콘밸리에서 날아온 데이터 엔지니어링 스타터 키드 with Python

  • Hybrid of Centralized and Distributed
    • Centralized와 Distributed or Decentralized의 혼합 형태
    • 두 장점을 섞은 형태

Hybrid of Centralized and Distributed 출처 : 프로그래머스 실리콘밸리에서 날아온 데이터 엔지니어링 스타터 키드 with Python

 

자료 소스 : https://programmers.co.kr/learn/courses/12916

 

[스터디/6기] 실리콘밸리에서 날아온 데이터 엔지니어링 스타터 키트 with Python

🚀 아쉽지만 6기는 마감되었어요. 7기 오픈 알림 신청하고, 최저가에 수강하세요! 최저가 알림 받기 데이터 엔지니어링을 시작하려는 모두에게 자신있게 추천하는 첫 스텝 : 실리콘밸리에서 날

programmers.co.kr

 

728x90