본문 바로가기

aws

[TIL] 10주차_Day45: 데이터 파이프라인, Airflow (5) 💡Today I Learned 데이터 파이프라인과 Airflow에 대한 다섯 번째 수업을 진행했습니다. Production DB to Data Warehouse DAG, Backfill 실습 1. Review - start_date, execution_date, DAG의 첫 실행 날짜 1. start_date: DAG가 읽어와야 할 데이터의 시점 (ex: 매일 1번 실행되는 DAG의 start_date = 2021/02/05이라면 DAG의 첫 실행 날짜 = 2021/02/06) → 5일의 데이터 읽고싶음 = 5일에 쌓인 모든 데이터를 6일에 실행해서 읽어와야 함 2. execution_date: DAG가 처음 읽어와야하는 데이터의 날짜, 따라서 DAG 실행동안 변경되지 x, 각 task가 실행될 때 사용.. 더보기
[TIL] 8주차_Day35: 데이터 웨어하우스 관리, 고급 SQL, BI 대시보드 (5) 💡Today I Learned 데이터 웨어하우스, SQL, BI 대시보드에 대한 다섯 번째 수업을 진행했습니다. Superset 이용한 대시보드 실습 1. 다양한 시각화 툴 - 시각화 툴이란 : 대시보드 or BI(Business Intelligence) : KPI(Key Performance Indicator), 백엔드 관계형 DB/데이터 웨어하우스의 데이터 기반으로 계산/분석/표시 : 데이터 퀄리티가 중요 → ELT를 통한 summary 테이블을 사용하는 것이 일반적 (by. 데이터 분석가) : 의사결정권자들의 데이터 기반 결정을 위함 *) Citizen Data Analyst: 현업 종사자들(데이터 인력이 아닌)이 대시보드를 직접 만들고 KPI를 정의, 팀에 필요한 작업을 중앙 데이터 팀을 통하지 .. 더보기
[TIL] 8주차_Day34: 데이터 웨어하우스 관리, 고급 SQL, BI 대시보드 (4) 💡Today I Learned 데이터 웨어하우스, SQL, BI 대시보드에 대한 네 번째 수업을 진행했습니다. Snowflake 실습 1. Snowflake - Snowflake 특징 : 가변비용 모델임 → 컴퓨팅 인프라 & 스토리지가 별도로 설정 : 노드 수를 조정할 필요 x (Scale out), distkey 등의 최적화 필요 x : 데이터 클라우드 이기도 o : 자체 스토리지 이외에도 클라우드 스토리지를 외부 테이블로 사용 가능 : 멀티 클라우드 지원 : 다른 지역의 Snowflake DB 간의 데이터 공유 (cross-region) : Semi-structured data (JSON 네이티브하게 지원 o) ... → Redshift보다 강력함 : 한 organization(조직) > 안에 여러 .. 더보기
[TIL] 8주차_Day33: 데이터 웨어하우스 관리, 고급 SQL, BI 대시보드 (3) 💡Today I Learned 데이터 웨어하우스, SQL, BI 대시보드에 대한 세 번째 수업을 진행했습니다. Redshift 스냅샷, Spectrum, SageMaker을 이용한 ML 실습 1. Redshift의 권한/보안 - IAM Role : AWS 리소스 관련 권한 설정 서비스 : 역할(Role) 혹은 그룹(Group) 별로 스키마별 접근 권한을 주는 것이 일반적 : 사용자 집합 = 그룹, 테이블 집합 = 스키마 : 역할(계승 o → 포함관계, 상속 느낌), 그룹(계승 x) GRANT [권한 옵션] ON SCHEMA [스키마 이름] TO GROUP [그룹 이름]; GRANT [권한 옵션] ON ALL TABLES IN SCHEMA [스키마 이름] TO GROUP [그룹 이름]; : 컬럼 레벨의 .. 더보기
[TIL] 8주차_Day32: 데이터 웨어하우스 관리, 고급 SQL, BI 대시보드 (2) 💡Today I Learned 데이터 웨어하우스, SQL, BI 대시보드에 대한 두 번째 수업을 진행했습니다. Redshift (Trial) 설치, Redshift 초기 설정 (스키마, 그룹, 유저), Redshift COPY 명령으로 테이블에 레코드 적재하기 관련 실습 진행 1. Redshift의 특징 - Overall : AWS에서 지원하는 데이터 웨어하우스 서비스 : OLAP(Analytical) → 응답속도가 빠르지 x, 프로덕션 DB로는 사용불가 : 컬럼 기반 스토리지 → 레코드(row)가 아닌 컬럼(속성)별로 저장함, 컬럼별 압축이 가능, 컬럼 추가/삭제가 빠름 : 벌크 업데이트 → 레코드가 들어있는 파일을 S3(AWS 스토리지)로 복사 후 COPY 커맨드로 Redshift에 일괄 복사 : .. 더보기
[TIL] 7주차_Day30: AWS 클라우드 실습 (5) 💡Today I Learned AWS 클라우드 실습에 대한 다섯 번째 수업을 진행했습니다. Lambda, Docker 실습 1. Lambda - Lambda 함수 : 서버리스 서비스 (별도의 물리적 서버, 환경 없이 소스코드로만 등록해서 돌아감) : 함수만 등록해서 서비스 제공 : 별도의 서버 없이 함수 등록으로 어플리케이션이 작동 : 이벤트(=트리거) 발생 시 이 함수를 동작시킬 수 있도록 구성 가능 : 트리거 설정 가능 - Lambda 함수 생성하기 (실습) : Lambda > 함수 생성 > 블루프린트(샘플 소스코드) > 이름, 역할 설정 > 생성 : 테스트 > 이벤트 생성 > key-value 수정해서 이벤트 생성 : 코드 직접 작성 후에는 Deploy → 생성 - S3 관련 트리거 생성하기 (실.. 더보기
[TIL] 7주차_Day29: AWS 클라우드 실습 (4) 💡Today I Learned AWS 클라우드 실습에 대한 네 번째 수업을 진행했습니다. 어제자 종합 실습 이어서 진행 _ AWS CLI, 콘솔, RDS, Front(React), CI/CD 파이프라인, Route53 도메인 설정 (완료) 1. 종합 실습 - 종합 실습 구성 : 하나의 VPC 안에 서브넷 구성 : 가용 영역(AZ) 2개 안에 각각 private/public 서브넷 : private 서브넷 두 개 (AZ가 2개) → 내부에 인스턴스(Elastic beanstalk), RDBMS(RDS) + AZ 2개 중 1개에만 private 서브넷이 NAT gateway로 외부와 통신 : public 서브넷 → [baston host] 터널링을 통해 접속 : public 서브넷은 internet gate.. 더보기
[TIL] 7주차_Day28: AWS 클라우드 실습 (3) 💡Today I Learned AWS 클라우드 실습에 대한 세 번째 수업을 진행했습니다. IAM, S3, CI/CD 파이프라인 구축, 종합 실습 (백엔드 모듈_Springboost, Elastic bs 생성, baston host 생성, VPC 구성) 1. AWS Identity and Access Management (IAM) ; AWS 리소스에 대한 액세스를 안전하게 제어할 수 있는 웹 서비스 : 리소스 사용 시 인증(로그인) 및 권한 부여된 대상을 제어함 : 자격 증명 = AWS 계정 루트 사용자 → 계정 생성할 때 사용한 이메일, 암호로 로그인 : 루트 사용자 = 해당 계정의 모든 AWS 서비스 및 리소스에 대한 완전한 액세스 권한이 있는 단일 로그인 ID → 일상적인 작업에는 루트 사용자를 사용.. 더보기
반응형