[TIL] 8주차_Day32: 데이터 웨어하우스 관리, 고급 SQL, BI 대시보드 (2)
💡Today I Learned 데이터 웨어하우스, SQL, BI 대시보드에 대한 두 번째 수업을 진행했습니다. Redshift (Trial) 설치, Redshift 초기 설정 (스키마, 그룹, 유저), Redshift COPY 명령으로 테이블에 레코드 적재하기 관련 실습 진행 1. Redshift의 특징 - Overall : AWS에서 지원하는 데이터 웨어하우스 서비스 : OLAP(Analytical) → 응답속도가 빠르지 x, 프로덕션 DB로는 사용불가 : 컬럼 기반 스토리지 → 레코드(row)가 아닌 컬럼(속성)별로 저장함, 컬럼별 압축이 가능, 컬럼 추가/삭제가 빠름 : 벌크 업데이트 → 레코드가 들어있는 파일을 S3(AWS 스토리지)로 복사 후 COPY 커맨드로 Redshift에 일괄 복사 : ..
더보기
[TIL] 8주차_Day31: 데이터 웨어하우스 관리, 고급 SQL, BI 대시보드 (1)
💡Today I Learned 데이터 웨어하우스, SQL, BI 대시보드에 대한 첫 번째 수업을 진행했습니다. 1. 데이터 팀의 역할 - 데이터 조직이 하는 일 : 신뢰할 수 있는 데이터를 바탕으로 부가 가치(=간접 매출)를 생성 : 결정 과학(Decision Science) → 데이터 기반 지표(KPI) 정의, 대시보드/리포트 생성 : (Product Science) 고품질 데이터 기반 사용자 경험 개선, 프로세스 최적화 → by.ML 알고리즘 - 데이터 팀의 발전 단계 : 온라인 서비스에서 생기는 데이터 → 데이터 인프라(Production db, ETL/ELT) → 데이터 분석(지표 정의, 시각화, ...) ↔ 데이터 과학 적용(사용자 경험 개선 ex) 추천, 검색 등의 개인화 서비스) 1. 데이..
더보기
[TIL] 6주차_Day23: 데이터 웨어하우스와 SQL과 데이터분석 (3)
💡Today I Learned 데이터 웨어하우스와 SQL, 데이터분석에 대한 세 번째 수업을 진행했습니다. group by, aggregate 함수, ctas, cte 서브 쿼리 실습 1. GROUP BY, AGGREGATE : 테이블의 레코드를 그룹핑해 그룹별로 정보를 계산 1) 그룹핑을 할 필드 결정 (하나 이상 가능) 2) GROUP BY 함수로 지정 3) 그룹별로 집계함수 계산 (COUNT, SUM, AVG, MIN, MAX, LISTAGG, ...) ex) 가장 많이 사용된 채널 (기준 a) 세션 수 b) 유니크한 사용자 수) SELECT channel, COUNT(1) AS session_count, COUNT(DISTINCT userId) AS user_count, FROM raw_data...
더보기