4.13. [PYTHON] 파이썬 크롤러 개발2 – BeautifulSoup, requests 라이브러리


4.13. [PYTHON] 파이썬 크롤러 개발2 – BeautifulSoup, requests 라이브러리

크롤링을 하려면 1.개발자도구를 이용해 웹사이트를 분석하고, 2. 크롤링 코드를 작성하고, 3. 파일 저장 및 데이터 분석하는 단계를 거칩니다. 어떤 웹사이트는 크롤링을 막은 경우도 있지만 그런 경우 우회하는 방법도 배울 예정입니다. 앞에서 "requests"와 "BeautifulSoap" 라이브러리를 배웠습니다. "requests"는 웹 자원을 요청하는 것이고, "BeautifulSoap"은 불러온 웹 자원을 파싱하고 분석하는 방법을 제공하는 모듈입니다. "BeautifulSoap"은 여러 메서드를 제공합니다. "find"는 하나의 태그를 찾아주는 메서드이고, "find_all"은 여러 태그를 리스트로 찾는 메서드이며, "select"는 선택자 문법으로 여러 태그를 찾도록 해 줍니다. "find_all"을 사용하여 태그를 불러오는 예제를 돌려 봤습니다. 요즘은 예제가 잘 돌면 가슴을 쓸어내립니다. import requests from bs4 import BeautifulSoup a...


#BeautifulSoap #bs4 #웹크롤링 #크롤링 #파싱

원문링크 : 4.13. [PYTHON] 파이썬 크롤러 개발2 – BeautifulSoup, requests 라이브러리