Python BeautifulSoup 이용 크롤링하기
Contents
들어가며
Python을 이용하여 크롤링을 해보았습니다. BeautifulSoup를 이용한 사례들이 많았고 참고하여 진행해 보았습니다.
BeautifulSoup 설치
|
|
크롤링 시작하기
클리앙의 모두의공원 카테고리의 글을 크롤링해보려 합니다. 레퍼런스 사이트내용을 참고해서 아래와 같이 진행해 보았습니다. 우선 해당 페이지의 모든 html text를 긁어와봅시다.
|
|
콘솔창에 엄청나게 길게 출력된 내용을 볼 수 있습니다.
이어서 BeautifulSoup 라이브러리를 이용하여 html 문서를 파싱합니다.
|
|
혹시 아래와 같은 에러를 만난다면
|
|
lxml 라이브러리가 없어 발생한 문제입니다. 설치합시다.
|
|
계속 진행해봅시다. 크롬 인스펙터를 이용해서 구조를 파악하고, 아래와 같이 게시물 번호와 제목을 가져오기로 했습니다.
|
|
그 결과물은
|
|
한글이 깨져나옵니다. 오랜시간의 사투 결과 찾은 해결책은 plain_text = source_code.text
를
plain_text = source_code.content
로 변경하는 것이었습니다.
|
|
완료!
참고자료
- 파이썬(Python)-취미 프로그래밍, 취미 프로젝트의 시작.
- 파이썬(Python) - beautifulSoup 으로 html 파싱
- [PYTHON 3] Tutorials 25. 웹 크롤러(like Google) 만들기 2 - How to build a web crawler
끝.