본문 바로가기

etl

[TIL] 10주차_Day43: 데이터 파이프라인, Airflow (3) 💡Today I Learned 데이터 파이프라인과 Airflow에 대한 세 번째 수업을 진행했습니다. DAG 작성 실습 1. Airflow 예제 프로그램 살펴보기 - PythonOperator : 태스크 실행 (내부에 dag와 task 지정) : python_callable = [파이썬으로 짠 task_함수명 지정] → PythonOperator의 entry 함수 : params = {딕셔너리 형태} → task 함수(즉, entry 함수)에 공통으로 적용되는 파라미터, task함수로 전달하고 싶은 인자들 - Airflow Decorators 사용하기 from airflow.decorators import task @task def print_hello(): print("hello!") return "h.. 더보기
[TIL] 10주차_Day42: 데이터 파이프라인, Airflow (2) 💡Today I Learned 데이터 파이프라인과 Airflow에 대한 두 번째 수업을 진행했습니다. Airflow 설치 및 실습 1. 트랜잭션 이해하기 - 테이블 업데이트 (Full Refresh vs. Incremental Update) TRUNCATE: 조건 x, 테이블의 모든 레코드 삭제, SQL 트랜잭션 무시 DELETE FROM: 조건에 맞는 레코드 삭제, SQL 트랜잭션 준수 - 트랜잭션이란? : BEGIN ~ COMMIT/END or ROLLBACK auto commit = True: 기본적으로 모든 SQL 문이 물리적인 테이블 공간에 바로 커밋됨, BEGIN~END로 바꿀 수 있음 auto commit = False: 모든 operation이 자동으로 커밋되지 않음, 모두 staging .. 더보기
[TIL] 10주차_Day41: 데이터 파이프라인, Airflow (1) 💡Today I Learned 데이터 파이프라인과 Airflow에 대한 첫 번째 수업을 진행했습니다. Airflow 설치 및 실습 1. 데이터 파이프라인(=ETL) 소개 - 데이터 웨어하우스 구성 1️⃣데이터 소스(프로덕션 DB, 트랜잭션 데이터, 유저 데이터, 콜 데이터, 세일즈 데이터, ...) → 다수의 ETL → 2️⃣Airflow+데이터 웨어하우스 (요약 테이블 만들기 = ELT = 데이터 분석) → 3️⃣대시보드 - ETL : ETL = Extract(데이터 소스로부터 Data Dump ex: 파일 다운로드, API 호출) + Transform(원하는 형태로 변환, 추출) + Load(데이터 웨어하우스에 테이블 형태 등으로 적재) : DAG = Directed Acyclic Graph (루프 .. 더보기
[TIL] 8주차_Day31: 데이터 웨어하우스 관리, 고급 SQL, BI 대시보드 (1) 💡Today I Learned 데이터 웨어하우스, SQL, BI 대시보드에 대한 첫 번째 수업을 진행했습니다. 1. 데이터 팀의 역할 - 데이터 조직이 하는 일 : 신뢰할 수 있는 데이터를 바탕으로 부가 가치(=간접 매출)를 생성 : 결정 과학(Decision Science) → 데이터 기반 지표(KPI) 정의, 대시보드/리포트 생성 : (Product Science) 고품질 데이터 기반 사용자 경험 개선, 프로세스 최적화 → by.ML 알고리즘 - 데이터 팀의 발전 단계 : 온라인 서비스에서 생기는 데이터 → 데이터 인프라(Production db, ETL/ELT) → 데이터 분석(지표 정의, 시각화, ...) ↔ 데이터 과학 적용(사용자 경험 개선 ex) 추천, 검색 등의 개인화 서비스) 1. 데이.. 더보기
반응형