본문 바로가기

데브코스/TIL

[TIL] 5주차_Day19: 크롤한 웹데이터로 만들어보는 웹사이트 (4)

💡Today I Learned

  • 크롤링한 웹 데이터로 만들어보는 시각화 웹 서비스의 프로젝트_day4를 진행했습니다.
  • 진행사항 공유, 샘플데이터 이용해 네트워크 그래프 및 히스토그램 수정

 

1. 진행된 사항 / 진행할 사항 (개인)

  • json 샘플 데이터를 이용해 그래프 그리기, 네트워크 그래프 관련 논의사항 슬랙에 공유
  • 네트워크 그래프 시각화 방식 최종 결정(networkx), 필터링 데이터 받기 직전 단계까지 코드 완성

 

2. 오후 보고

  • 그래프 시각화 시 표시할 노드의 threshold값 수정하고 나니 position 별로 구분지어지는 것 같음 → 매뉴얼하게 수정, 현재 샘플 데이터는 약 100개 정도, but 실제 채용공고는 약 1600~1700개 → 전체 데이터 이용했을 때 표시하지 않을 노드의 threshold 값 조정해야할 것 같음
  • 그래프에서 노드 크기로만 구분하려고 했으나 뚜렷하게 구분이 안됨 → 차수(degree)로 크기와 색상까지 같이 지정하는 것으로 수정
  • 히스토그램 형식 통일
  • 포지션별로 평균 min~max wage 표시하는 그래프 구현 → 최종 결과물에 포함 여부 상의하기
  • 이 때 wage 표시할 때 기업마다 이상치가 발견, 우선 코드에서 조건문으로 걸러내도록 함 (ex) DB에는 2000만원 → 2000 * 10000 으로 저장, 일부 공고에서 ‘만원’ 무시하고 20,000,000 으로만 연봉정보 기입해 DB에 저장돼있음 → 일정 값 이상인 경우 10000으로 나눠주도록 수정 _ 추후 DB에까지 반영돼야 할듯)

 

반응형