본문 바로가기

웹크롤링

[TIL] 5주차_Day20: 크롤한 웹데이터로 만들어보는 웹사이트 (5) 💡Today I Learned 크롤링한 웹 데이터로 만들어보는 시각화 웹 서비스의 프로젝트_day5를 진행했습니다. 진행사항 공유, 시각화 함수 구현 및 백엔드 repo에 업로드 1. 진행된 사항 / 진행할 사항 (개인) 입력_json, 출력_파일 저장 & 파일 경로 반환하도록 함수 구성 한글 설정 시 폰트 지정 → os에 따라 변경 필요 파일 경로 → 백엔드 상에서 저장할 경로로 설정 변환하기 시각화 함수 세 개 묶어서 하나의 .py 파일로 backend repo에 올리기 (import 해서 사용 예정) 배포 환경 페이지 확인 (job or company 마다 필터링 페이지 확인) 로컬에서 SQL DB 연동 후 서버 데모 실행 requirements.txt 구성 pip freeze > requireme.. 더보기
[TIL] 5주차_Day19: 크롤한 웹데이터로 만들어보는 웹사이트 (4) 💡Today I Learned 크롤링한 웹 데이터로 만들어보는 시각화 웹 서비스의 프로젝트_day4를 진행했습니다. 진행사항 공유, 샘플데이터 이용해 네트워크 그래프 및 히스토그램 수정 1. 진행된 사항 / 진행할 사항 (개인) json 샘플 데이터를 이용해 그래프 그리기, 네트워크 그래프 관련 논의사항 슬랙에 공유 네트워크 그래프 시각화 방식 최종 결정(networkx), 필터링 데이터 받기 직전 단계까지 코드 완성 2. 오후 보고 그래프 시각화 시 표시할 노드의 threshold값 수정하고 나니 position 별로 구분지어지는 것 같음 → 매뉴얼하게 수정, 현재 샘플 데이터는 약 100개 정도, but 실제 채용공고는 약 1600~1700개 → 전체 데이터 이용했을 때 표시하지 않을 노드의 thre.. 더보기
[TIL] 5주차_Day18: 크롤한 웹데이터로 만들어보는 웹사이트 (3) 💡Today I Learned 크롤링한 웹 데이터로 만들어보는 시각화 웹 서비스의 프로젝트_day3를 진행했습니다. 진행사항 공유, 샘플 데이터(.json) 이용한 시각화 차트 구현 1. 진행된 사항 / 진행할 사항 (개인) 리모트 repo에서 작업공간 분리, 로컬에서 branch 따서 작업하고 있음, 데모 용 그래프 노션에 업로드 json 샘플 데이터 이용해서 그래프 그리기 → remote repo에 PR, networkx 라이브러리 속성 이용해 그래프 가시화하기 2. daily scrum _ 논의된 사항 오후 조별 프로젝트 팀 미팅 내용 구성 (프로젝트 개요 - 현재까지 진행된 사항 - 추후 진행될 사항) 버블차트 구현 시 각 위치별 데이터 표시 방법 (ex: 군집화 알고리즘) 오후 6시 마무리 미팅.. 더보기
[TIL] 5주차_Day17: 크롤한 웹데이터로 만들어보는 웹사이트 (2) 💡Today I Learned 크롤링한 웹 데이터로 만들어보는 시각화 웹 서비스의 프로젝트_day2를 진행했습니다. 진행사항 공유, 깃허브 코드 리뷰 정책 논의, RNR 추가 및 세분화 1. 진행된 사항 / 진행할 사항 (개인) 시각화 차트 구성 및 역할 분담, 사용할 테이블 및 속성 구상, 예제 데이터로 차트 시각화하는 코드 샘플 데이터 적재 후 그래프 구현, bipartite graph 개념 학습 후 구현 2. daily scrum _ 논의된 사항 깃허브 내 코드 리뷰 정책 (1명 이상 리뷰 & 코멘트 후 리뷰어 혹은 셀프 머지) master 브랜치에서 실제 기능 개발은 'feature_xxx' 브랜치로 → 개발 완료된 후 PR 날리고 브랜치를 merge 3. 변경된 사항 그래프 네트워크 → 이분 그.. 더보기
[TIL] 5주차_Day16: 크롤한 웹데이터로 만들어보는 웹사이트 (1) 💡Today I Learned 크롤링한 웹 데이터로 만들어보는 시각화 웹 서비스의 프로젝트_day1을 진행했습니다. 주제 선정, RNR(Role And Responsibility), 서비스 아키텍처 구성 1. 주제 선정 개발 직군의 현재 채용 중인 공고, 회사, 포지션, 요구 기술스택을 보여주는 웹 서비스 개발 - 프로그래머스 채용 페이지 (https://career.programmers.co.kr/job?page=1&order=recent) 내의 데이터들을 이용해 포지션별 채용 공고 / 포지션 별 기술 스택 / 포지션-지역별 채용 공고 / 채용 회사 별 복지 현황을 다양한 시각화 차트로 제공합니다. 2. RNR 데이터 스크래핑 (1) + 백엔드 개발 (2) + 데이터 시각화 (2) 시각화 차트 중 1... 더보기
[TIL] 3주차_Day10: 파이썬 웹 크롤링(5) 💡Today I Learned 파이썬을 이용한 웹 크롤링 기술에 대한 다섯 번째 강의를 진행했습니다. seaborn, matplotlib를 이용한 자료 시각화 스크래핑 데이터를 wordcloud로 시각화 1. seaborn을 이용한 시각화 : 분산돼있는 스크래핑의 결과를 시각화 : seaborn - matplotlib을 기반으로 하는 시각화 라이브러리 : line plot, bar plot plotting 해보기 2. 스크래핑 결과 시각화하기 : 한국어 자연어 처리 패키지 konlpy : 형태소 분석기 (kkma, komoran, hannanum, okt, ...) 사용해 문장 내 명사 추출 : 추출한 명사를 wordcloud 패키지로 워드 클라우드 생성 : 결과 예시 더보기
[TIL] 3주차_Day9: 파이썬 웹 크롤링(4) 💡Today I Learned 파이썬을 이용한 웹 크롤링 기술에 대한 네 번째 강의를 진행했습니다. selenium을 이용한 브라우저 자동화 실습 키보드, 마우스 이벤트 자동화를 통한 동적 웹 페이지 스크래핑 1. selenium으로 브라우저 자동화 : 파이썬 이용해 웹 브라우저 조작할 수 있는 자동화 프레임워크 : 자동화 = 이벤트(키보드 마우스 조작 ...)를 파이썬 코드를 통해 조작 가능 : WebDriver = 웹 브라우저를 제어할 수 있는 자동화 프레임워크 : 요소 찾기 1. find_element(By, target) (하나) 2. find_elements(By, target) (해당되는 것 전부) 2. wait and call : 요청~응답 받는 동안 특정 조건에 따라 wait(대기)할 수 .. 더보기
[TIL] 3주차_Day8: 파이썬 웹 크롤링(3) 💡Today I Learned 파이썬을 이용한 웹 크롤링 기술에 대한 세 번째 강의를 진행했습니다. request, beautifulsoup 이용한 html parsing, find 실습 1. BeautifulSoup : html 코드를 분석해주는 파이썬의 html parser 라이브러리 : 특정 태그로 묶인 요소만 보고싶을 때 *) 다른 markup 언어(XML 등)의 parser로도 사용 가능함 2. BeautifulSoup 활용 해 특정 요소만 가져오기 3. HTML의 Locator : 태그 이름만 가지고는 원하는 요소 특정하기 불편.. (같은 이름의 태그가 매우 많을 수 있음) : id, class로 원하는 태그 한정짓기 4. 정적/동적 웹 사이트 : 어떻게 생성되는지에 따라 두 종류로 나눔 : .. 더보기
반응형