[PYTHON] 파이썬 lxml로 스크레이핑 진행


[PYTHON] 파이썬 lxml로 스크레이핑 진행

안녕하세요, Hello python을 활용하여 lxml을 사용해 HRML에서 데이터를 추출하고자 합니다. lxml에는 여러 가지 API가 있으며, 이 중에서 HTML을 파싱(Parsing)할 때는, lxml.html을 사용합니다. * 파싱(parsing) : 페이지(문서, html 등)에서 내가 원하는 데이터를 특정 패턴이나 순서로 추출해 가공하는 것 내용 및 코드는 위키북스의 '파이썬을 이용한 웹 크롤링과 스크레이핑'을 참조해서 작성했습니다. lxml은 libxml2와 libxslt을 사용한 C확장 라이브러리입니다. 최초 실행 시에는 설치가 되어 있지 않기에, 전용 패키지를 설치합니다. 마무리 python을 통해 HTML을 파싱하는 lxml.html에 대해서 살펴봤습니다. 감사합니다..........



원문링크 : [PYTHON] 파이썬 lxml로 스크레이핑 진행