본문 바로가기

데브코스/TIL

[TIL] 5주차_Day18: 크롤한 웹데이터로 만들어보는 웹사이트 (3)

💡Today I Learned

  • 크롤링한 웹 데이터로 만들어보는 시각화 웹 서비스의 프로젝트_day3를 진행했습니다.
  • 진행사항 공유, 샘플 데이터(.json) 이용한 시각화 차트 구현

 

1. 진행된 사항 / 진행할 사항 (개인)

  • 리모트 repo에서 작업공간 분리, 로컬에서 branch 따서 작업하고 있음, 데모 용 그래프 노션에 업로드
  • json 샘플 데이터 이용해서 그래프 그리기 → remote repo에 PR, networkx 라이브러리 속성 이용해 그래프 가시화하기

 

2. daily scrum _ 논의된 사항

  • 오후 조별 프로젝트 팀 미팅 내용 구성 (프로젝트 개요 - 현재까지 진행된 사항 - 추후 진행될 사항)
  • 버블차트 구현 시 각 위치별 데이터 표시 방법 (ex: 군집화 알고리즘)
  • 오후 6시 마무리 미팅
  • AWS lambda (스크립트를 lambda function에 등록할 경우 콘솔 or rest_api에서 호출 가능, 잡 스케줄러에 등록해 스크립트 실행 가능 → 주기마다 스크래핑 자동화)

 

3-1. 오늘 진행: 샘플 데이터로 시각화 진행

  • job.json: 94개의 채용 공고 data에서 position, tech_stack 추출해 히스토그램, 그래프로 시각화
  • missing data: position은 89개, tech_stacks는 75개의 job에서만 확인 가능 (나머지는 null, 페이지 상에서 표시되지 않음)

 

3-2. 오늘 진행: 그래프 네트워크 시각화 시 라이브러리 변경 및 시각화 방식 변경 논의

  • 문제점: 각 poisition별로 tech_stack을 할당하는 것이 아닌 같은 job(공고)에 속한 모든 position과 tech_stack을 대응시킴 → ex) position: 서버/백엔드, 프론트엔드  tech_stack: Django, Flutter, Dart 의 경우 모든 기술 스택이 두 position에 매칭됨
  • 대안 1) Pyvis 라이브러리를 이용해 position-tech_stack 간의 그래프로 표현
  • 대안 2) Position 선택 시 Tech_stack을 워드클라우드로 시각화
  • 대안 3) 기존의 networkx 라이브러리를 이용한 projection graph 내에서 문제점 개선할 수 있는 방안 모색

 

반응형