본문 바로가기

728x90

[python]/웹 크롤링

(9)

[웹 크롤링] 네이버 주식 상하한가 종목 크롤링 https://zzuzzu-99.tistory.com/2 [웹 크롤링] 8. 정적크롤링(3) ◆ 크롤링 대상 사이트 살펴보기 정적 크롤링은 주소값을 사용하기 때문에 한 페이지 내부에서만 원하는 데이터를 받아올 수 있다고 하였다. 하지만, 정적 크롤링에서도 페이지 이동과 유사한 zzuzzu-99.tistory.com 이 글을 바탕으로 네이버 주식 사이트에 있는 상하한가들의 종목,가격,전날대비 가격변동, 전날대비 가격등락 퍼센테이지 그리고 그 종목과 관련된 뉴스기사,일봉,주봉,월봉 이미지를 크롤링 하겠다. #네이버 사이트를 이용한 크롤링은 상업적으로 사용하면 안됩니다. https://finance.naver.com/ 네이버 금융 국내 해외 증시 지수, 시장지표, 뉴스, 증권사 리서치 등 제공 finance...

[웹 크롤링] 8. 정적크롤링(3) ◆ 크롤링 대상 사이트 살펴보기 정적 크롤링은 주소값을 사용하기 때문에 한 페이지 내부에서만 원하는 데이터를 받아올 수 있다고 하였다. 하지만, 정적 크롤링에서도 페이지 이동과 유사한 기능이 구현 가능하다. 그러기 위해서는 URL 주소값의 패턴을 파악해야한다. https://www.coupang.com/?src=1042016&spec=10304903&addtag=900&ctag=HOME&lptag=%EC%BF%A0%ED%8C%A1&itime=20220522172104&pageType=HOME&pageValue=HOME&wPcid=16179569736102006159795&wRef=www.google.com&wTime=20220522172104&redirect=landing&gclid=Cj0KCQjwvqe..

[웹 크롤링] 7. 정적 크롤링(2) https://dhlottery.co.kr/gameResult.do?method=byWin 로또6/45 - 회차별 당첨번호 1015회 당첨결과 (2022년 05월 14일 추첨) 당첨번호 14 23 31 33 37 40 1015회 순위별 등위별 총 당첨금액, 당첨게임 수, 1게임당 당첨금액, 당첨기준, 비고 안내 순위 등위별 총 당첨금액 당첨게임 수 1게임 dhlottery.co.kr ◆ 라이브러리 BeautifulSoup BeautifulSoup는 HTML 태그를 효율적으로 탐색하고, 원하는 정보를 손쉽게 추출하기 위한 라이브러리이다. 다른 라이브러리로도 충분히 추출할 수 있지만 매우 편리하다는 장점이 있다. ◆ BeautifulSoup의 필요성 https://zzuzzu-99.tistory.com/22..

[웹 크롤링] 6. 정적 크롤링(1) ◆ 크롤링 대상 사이트 살펴보기 크롤링을 할 때는 꼭 해당 웹 사이트를 살펴봐야한다. 바로 정적 크롤링 / 동적 크롤링 중 어떤 것이 적합할지 정해야 하기 때문이다. 로또 당첨 번호의 경우는 어떨까? https://dhlottery.co.kr/gameResult.do?method=byWin 로또6/45 - 회차별 당첨번호 1015회 당첨결과 (2022년 05월 14일 추첨) 당첨번호 14 23 31 33 37 40 1015회 순위별 등위별 총 당첨금액, 당첨게임 수, 1게임당 당첨금액, 당첨기준, 비고 안내 순위 등위별 총 당첨금액 당첨게임 수 1게임 dhlottery.co.kr 하나의 웹 페이지 안에 필요한 당첨 번호가 나타나 있다. F12를 눌러서 검사창은 켜준다, 다음 select버튼을 클릭하여 원..

[웹 크롤링] 5. 선택자 HTML은 기본적으로 내용로 작성되어 시작과 끝이 하나의 쌍으로 구성되어 있고, 그 사이에 포함되는 구조이다. ex) 내용 하지만 웹 페이지를 표현하는 데이터 모두가 태그로 이루어져 있기 때문에 그 중에는 서로 동일한 태그도 많이 존재한다. 이렇게 동일한 태그를 분간해 주기 위해, HTML에서는 선택자라는걸 사용해 각 태그를 구별할 수 있는, 일종의 주소를 부여 해 줄 수 있다. ◆ 선택자의 필요성 아래와 같은 HTML 문서가 있다고 가정해보자 파이썬 크롤링 자바 게임 해당 웹 페이지에서 언어와 관련된 데이터만 필요하다고 생각해 보자 만약 태그로만 해당 데이터를 선택한다면, 태그 을 사용해야한다. 하지만 태그 에 언어 정보 뿐만 아니라 게임도 포함된다. 따라서 이러한 경우에는 프로젝트 정보를 제외하고 언..

[웹 크롤링] 4. HTML 구조 ◆ 웹페이지와 HTML HTML 은 웹 페이지와 그 내용을 구조화하기 위해 사용하는 코드이다. 웹 페이지를 만들 때 쓰는 언어라고 이해하시면 편할 것 같다 이 글을 읽고 있는 페이지에서 F12 버튼을 클릭해 개발자 도구창을 보면은 이 코드들이 바로 HTML 이다. 정리하자면 HTML이라는 문서를 통해 웹페이지의 구조를 파악할 수 있고, 이를 이용하여 원하는 데이터가 웹 페이지의 어디에 위치해 있는지 파악하여 수집하는 것이 크롤링의 핵심이다. ◆ HTML 태그 확인 네이버 페이지를 활용하여 HTML 태그를 확인 해 보자. F12를 눌러서 개발자 도구 창을 열어준다. HTML 창의 좌측 상단에 있는 버튼에 마우스 커서를 클릭하시면 페이지 구성 요소의 HTML 태그를 쉽게 확인 가능하다. 이 버튼을 'sele..

[웹 크롤링] 3 . 라이브러리와 크롤링 준비 크롤링을 하기 위해서는 라이브러리를 사용해야한다. 라이브러리란? 프로그래밍을 할 떄, 코드를 작성하지 않고 필요한 기능을 수행할 수 있도록 마련된 함수와 메소드 집합이다. 📌 정적 크롤링 정적크롤링을 할 때 파이썬의 두 가지 라이브러리를 사용한다. 하나는 requests 나머지 하나는 beautifulsoup4(BeautifulSoup)을 사용한다. 하니씩 설치해보겠다. ✅ requests requests 라이브러리는 기존에 어려운 http요청을 쉽게 사용하기 위해 만들어진 라이브러리이다. 쉽게 말해, 파이썬과 웹을 연결하기 위해 사용하는 것이다. 1. 터미널(명령 프롬프트) 열기 윈도우 버튼 > cmd입력 > 관리자 권한으로 실행 2. 명령프롬프트 창에 명령어 입력 pip install requests

[웹 크롤링] 2. 크롤링의 종류 크롤링은 '어떤 데이터를 크롤링 하는가'에 따라 크게 정적크롤링과 동적크롤링으로 나뉜다. ✅ 정적 크롤링 정적 크롤링은 로그인과 같은 사전 작업 없이, 한 페이지 내부에서 원하는 데이터를 수집할 때 사용한다. 동영상 스트리밍 사이트의 인기 동영상 같은 경우라고 생각하면 편하다. 따라서 정적 크롤링은 주소를 통해 데이터를 요청하고, 결과를 받는 것으로 크롤링이 종료된다. 한 페이지 내에서 모든 작업이 이루어지기 때문에 속도가 매우 빠르다라는 장점을 가진다. 하지만 주소를 통해 데이터를 받다보니, 로그인 > 페이지 이동> 클릭 > 데이터 수집 과 같은 연속적인 작업은 수행이 불가능하다. 따라서 페이지의 변화가 조금이라도 필요한 경우에는 적용이 힘들기 때문에 수집 대상에 한계가 있다는 단점이 있다. 제목과 가..

이전 1 2 다음

728x90

티스토리툴바