파이썬 웹 크롤링 기초 BeutifulSoup 파서


파이썬 웹 크롤링 기초 BeutifulSoup  파서

파서 종류를 시작으로 BeutifulSoup 파싱 모듈을 사용하여 html 태그에 접근하여 결과를 출력하는 것 까지 진행한 내용을 정리 했습니다. 파서 종류 > lxml C언어로 만들어진 파서 가장 많이 사용되며 파서 종류 중 가장 속도가 빠르다 버전에 따라 라이브러리 설치 필요 > html5lib html 소스를 그대로 읽어 사용 할 수 있다 속도는 매우 느리다 (네트웍 속도에 영향을 받는다) > html.parser 파이썬이 제공하는 기본 파서 > 처리속도 lxml > html.parser > html5lib 주의점: 사이트 마다 인코딩 환경이 다르므로 한 가지 파서로 안 되면 다른 파서로 확인해 볼 것 BeautifulSoup HTML 파싱 모듈 html "<p>test&lt..........



원문링크 : 파이썬 웹 크롤링 기초 BeutifulSoup 파서