본문 바로가기

[python]/웹 크롤링

[웹 크롤링] 3 . 라이브러리와 크롤링 준비

728x90

크롤링을 하기 위해서는 라이브러리를 사용해야한다.

 

라이브러리란?

프로그래밍을 할 떄, 코드를 작성하지 않고 필요한 기능을 수행할 수 있도록 마련된

함수와 메소드 집합이다.

 

 

📌 정적 크롤링

정적크롤링을 할 때 파이썬의 두 가지 라이브러리를 사용한다.

하나는 requests 나머지 하나는 beautifulsoup4(BeautifulSoup)을 사용한다.

 

하니씩 설치해보겠다.

 

requests

requests 라이브러리는 기존에 어려운 http요청을 쉽게 사용하기 위해 만들어진 라이브러리이다.

쉽게 말해, 파이썬과 웹을 연결하기 위해 사용하는 것이다.

 

1. 터미널(명령 프롬프트) 열기

윈도우 버튼 > cmd입력 > 관리자 권한으로 실행

 

2. 명령프롬프트 창에 명령어 입력

 

pip install requests  << 입력

 

위와 같이 입력 한 뒤 Sucessfully 문구가 출력되면 설치 완료이다

 

3. 라이브러리 설치 확안

 

라이브러리 설치를 했으니, 잘 설치 되었는지 확인을 해보자

아래 코드를 실행해 주시고 아무런 오류가 발생하지 않으면 정상이다.

requests  install! 가 출력되면 정상

 

beautifulsoup4

 

beautifulsoup4는 requests로 받아온 html 데이터를 다루기 위해 사용되는 라이브러리이다

쉽게 말해 웹에 있는 다양한 데이터 중 필요한 데이터만 뽑아내기 위해 사용된다

 

beautifulsoup4도 requests와 마찬가지로 설치해준다

 

1. 명령프롬프트창에 명령어 입력

 

pip install beautifulsoup4   << 입력

 

beautifulsoup4import 구문에서 사용되는 이름과 다르다는 특징이 있다.

 

크롤링 맛보기

 

다음 코딩은 네이버 웹툰의 요일 별 상위 웹툰 이름을 받아오는 코드이다.

 

실행결과

 

 

★ 정리하기 ★

필요할 때 라이브러리 사용

정적 크롤링 도구(라이브러리)

-requests

-BeautifulSoup

 

 

피드백은 언제나 환영입니다

728x90