크롤링을 하기 위해서는 라이브러리를 사용해야한다.
라이브러리란?
프로그래밍을 할 떄, 코드를 작성하지 않고 필요한 기능을 수행할 수 있도록 마련된
함수와 메소드 집합이다.
📌 정적 크롤링
정적크롤링을 할 때 파이썬의 두 가지 라이브러리를 사용한다.
하나는 requests 나머지 하나는 beautifulsoup4(BeautifulSoup)을 사용한다.
하니씩 설치해보겠다.
✅ requests
requests 라이브러리는 기존에 어려운 http요청을 쉽게 사용하기 위해 만들어진 라이브러리이다.
쉽게 말해, 파이썬과 웹을 연결하기 위해 사용하는 것이다.
1. 터미널(명령 프롬프트) 열기

윈도우 버튼 > cmd입력 > 관리자 권한으로 실행
2. 명령프롬프트 창에 명령어 입력
pip install requests << 입력

위와 같이 입력 한 뒤 Sucessfully 문구가 출력되면 설치 완료이다
3. 라이브러리 설치 확안
라이브러리 설치를 했으니, 잘 설치 되었는지 확인을 해보자
아래 코드를 실행해 주시고 아무런 오류가 발생하지 않으면 정상이다.

requests install! 가 출력되면 정상
✅ beautifulsoup4
beautifulsoup4는 requests로 받아온 html 데이터를 다루기 위해 사용되는 라이브러리이다
쉽게 말해 웹에 있는 다양한 데이터 중 필요한 데이터만 뽑아내기 위해 사용된다
beautifulsoup4도 requests와 마찬가지로 설치해준다
1. 명령프롬프트창에 명령어 입력
pip install beautifulsoup4 << 입력


beautifulsoup4는 import 구문에서 사용되는 이름과 다르다는 특징이 있다.
✅ 크롤링 맛보기
다음 코딩은 네이버 웹툰의 요일 별 상위 웹툰 이름을 받아오는 코드이다.

실행결과


★ 정리하기 ★
필요할 때 라이브러리 사용
정적 크롤링 도구(라이브러리)
-requests
-BeautifulSoup
피드백은 언제나 환영입니다
'[python] > 웹 크롤링' 카테고리의 다른 글
[웹 크롤링] 6. 정적 크롤링(1) (0) | 2022.05.18 |
---|---|
[웹 크롤링] 5. 선택자 (0) | 2022.05.12 |
[웹 크롤링] 4. HTML 구조 (0) | 2022.05.09 |
[웹 크롤링] 2. 크롤링의 종류 (0) | 2022.05.06 |
[웹 크롤링] 1. 웹 크롤링이란? (0) | 2022.05.06 |