본문 바로가기

셀레니움

[TIL] 3주차_Day10: 파이썬 웹 크롤링(5) 💡Today I Learned 파이썬을 이용한 웹 크롤링 기술에 대한 다섯 번째 강의를 진행했습니다. seaborn, matplotlib를 이용한 자료 시각화 스크래핑 데이터를 wordcloud로 시각화 1. seaborn을 이용한 시각화 : 분산돼있는 스크래핑의 결과를 시각화 : seaborn - matplotlib을 기반으로 하는 시각화 라이브러리 : line plot, bar plot plotting 해보기 2. 스크래핑 결과 시각화하기 : 한국어 자연어 처리 패키지 konlpy : 형태소 분석기 (kkma, komoran, hannanum, okt, ...) 사용해 문장 내 명사 추출 : 추출한 명사를 wordcloud 패키지로 워드 클라우드 생성 : 결과 예시 더보기
[TIL] 3주차_Day9: 파이썬 웹 크롤링(4) 💡Today I Learned 파이썬을 이용한 웹 크롤링 기술에 대한 네 번째 강의를 진행했습니다. selenium을 이용한 브라우저 자동화 실습 키보드, 마우스 이벤트 자동화를 통한 동적 웹 페이지 스크래핑 1. selenium으로 브라우저 자동화 : 파이썬 이용해 웹 브라우저 조작할 수 있는 자동화 프레임워크 : 자동화 = 이벤트(키보드 마우스 조작 ...)를 파이썬 코드를 통해 조작 가능 : WebDriver = 웹 브라우저를 제어할 수 있는 자동화 프레임워크 : 요소 찾기 1. find_element(By, target) (하나) 2. find_elements(By, target) (해당되는 것 전부) 2. wait and call : 요청~응답 받는 동안 특정 조건에 따라 wait(대기)할 수 .. 더보기
[TIL] 3주차_Day8: 파이썬 웹 크롤링(3) 💡Today I Learned 파이썬을 이용한 웹 크롤링 기술에 대한 세 번째 강의를 진행했습니다. request, beautifulsoup 이용한 html parsing, find 실습 1. BeautifulSoup : html 코드를 분석해주는 파이썬의 html parser 라이브러리 : 특정 태그로 묶인 요소만 보고싶을 때 *) 다른 markup 언어(XML 등)의 parser로도 사용 가능함 2. BeautifulSoup 활용 해 특정 요소만 가져오기 3. HTML의 Locator : 태그 이름만 가지고는 원하는 요소 특정하기 불편.. (같은 이름의 태그가 매우 많을 수 있음) : id, class로 원하는 태그 한정짓기 4. 정적/동적 웹 사이트 : 어떻게 생성되는지에 따라 두 종류로 나눔 : .. 더보기
[TIL] 3주차_Day7: 파이썬 웹 크롤링(2) 💡Today I Learned 파이썬을 이용한 웹 크롤링 기술에 대한 두 번째 강의를 진행했습니다. HTTP 프로토콜, HTML의 구조에 대한 개념 파이썬을 이용해 http 통신 코드로 구현해보기 1. 인터넷과 웹 : 컴퓨터 한 대 → 한 대씩 네트워크로 연결 → 이 네트워크를 묶어 근거리 지역 네트워크(LAN) 구성 → LAN들을 묶어 범지구적으로 연결된 네트워크=인터넷 : 인터넷 망 위에서 정보를 교환할 수 있는 환경, 시스템 (WWW, Web) 탄생 2. 웹에서 정보 주고받기 : 클라이언트(Cllient) - 정보를 요청하는 컴퓨터 : 서버(Server) - 정보를 제공하는 컴퓨터 : 클라이언트가 서버에 작업 요청 → 서버는 요청에 대해서 작업 수행 → 수행한 작업의 결과를 클라이언트에게 응답(응답.. 더보기
[TIL] 3주차_Day6: 파이썬 웹 크롤링(1) 💡Today I Learned 파이썬을 이용한 웹 크롤링 기술에 대한 첫 번째 강의를 진행했습니다. 본격적인 웹 크롤링에 앞서 개발 환경을 구축 HTML의 이론 및 실습 진행 1. 개발 환경 구축 - vs code 설치, 에디터 설정, extension(확장 프로그램) 설치 2. HTML/CSS/JavaScript - HTML: 웹 브라우저가 이해할 수 있는 웹 문서를 만들기 위한 언어 - CSS: 문서를 예쁘게 꾸미는 언어 - JavaScript: 문서에 다양한 기능을 만들어주는 언어 3. HTML - 콘텐츠 가지는 태그 = 시작 태그 ~ 종료 태그 콘텐츠 - 콘텐츠 가지지 않는 태그 = 단일 태그 (with. self closing) - 속성 = 값 pair, 각 태그별로 고유의 속성 & 모든 태그에.. 더보기
반응형