4.12. [PYTHON] 파이썬 크롤러 개발1 – 크롤링할 사이트 분석


4.12. [PYTHON] 파이썬 크롤러 개발1 – 크롤링할 사이트 분석

크롤링(Crawling)이란, 웹상에 데이터를 긁어모으는 작업을 말합니다. 크롤(crawl)은 포복입니다. 크롤링을 구글 검색하면 나오는 이미지는 기어 다니는 아이들의 이미지가 넘쳐납니다. 아마도 여기저기 기어 다니며 데이터를 긁어모으는 행위가 포복하는 아기를 연상시키나 봅니다. 웹크롤링(Web crawling) 이나 웹스크래핑(Web scraping)이 모두 같은 의미로 사용됩니다. 크롤링을 하려면 두 가지 라이브러리를 설치해야 합니다. 가상환경을 열어 설치합니다. pip3 install requests : 웹자원을 요청하기 위한 라이브러리입니다. pip3 install bs4 : 가지고 온 HTML 코드를 파싱 하기 위한 라이브러리입니다. konlpy에서 패키지들 설치에 애를 먹은 기억이 있는데, 이번에는 깔끔하게 설치되었습니다. 그런데 이번에는 강의 진행하는 웹페이지가 변경되어서 강의 내용을 그대로 따라 하지 못하게 돼서 다른 웹페이지를 대상으로 따라 해 봅니다. NDSL 웹페...


#bs4 #requests #robots #웹크롤링 #파싱

원문링크 : 4.12. [PYTHON] 파이썬 크롤러 개발1 – 크롤링할 사이트 분석