[빅데이터] 웹 크롤링과 웹 크롤러


[빅데이터] 웹 크롤링과 웹 크롤러

1. 웹 크롤링 기법 1. HTTP와 HTML을 활용하는 방법 HTTP 통신을 이용해 원하는 웹 페이지의 HTML 소스 코드를 다운로드한 후 이를 적절히 파싱하여 필요한 데이터를 추출하는 것이다. 2. 원하는 데이터가 있는 웹 페이지의 URL 주소를 알기 어려울 때 웹 브라우저를 이용해 사람이 직접 데이터를 받는 모습을 따라하는 프로그램을 만들어 원하는 데이터를 다운로드하는 것이다. 3. 데이터를 다운로드할 수 있도록 만들어진 API를 활용한다. 2. 웹 크롤러 웹 크롤링이나 웹 스크래핑을 수행하는 프로그램을 말한다. 프로그래밍 언어로 크롤러를 구현하는 경우 파이썬을 예시로 들면, 'requests'와 'BeautifulSoup' 패키지를 사용하여, HTML의 소스 코드를 다운로드한 후 파싱해 웹 페이지..


원문링크 : [빅데이터] 웹 크롤링과 웹 크롤러