함수는 하나의 단위로 실행되는 블록으로 특별한 목적의 작업을 수행하도록 설계됩니다. 이번 포스팅에서는 함수의 기본적인 사용방법과 동작 방식을 알아봅니다. function sayHi() { // 함수의 바디(body)는 여는..
float 프로퍼티는 특정 요소의 배치 및 페이지 레이아웃을 설정하는데 사용됩니다. 프로퍼티의 값은 다음과 같습니다. - left: 요소가 소속된 컨테이너의 왼쪽에 자신을 위치시킵니다. - right: 요소가 소속된 컨..
웹 페이지의 모든 요소는 사각형 박스 모양을 같습니다. display 프로퍼티를 이용하면 이 박스가 어떻게 보이게 만들지 정할 수 있습니다. 가장 대표적인 세 가지 값과 해당 속성이 적용된 요소의 특징에 대해서..
CSS 포지션 프로퍼티는 문서 내에서 요소를 배치하는 유형을 설정합니다. 또한 top, bottom, left, right 프로퍼티와 함께 사용되는 것이 일반적입니다. position 프로퍼티 값으로는 static, relative, absolute,..
문자열을 숫자로 바꿔야 하는 경우가 상당히 자주 있습니다. Javascript에서 문자열을 숫자로 변경하는 두 가지 방법을 알아보겠습니다. parseInt와 parseFloat 함수 사용하기 두 내장 함수를 이용하면 손쉽게 문..
자바스크립트 this 키워드에 대해서 알아보겠습니다. 이 키워드는 경우에 따라서 가리키는 대상이 다릅니다. - 일반 함수 호출 시에는 전역 객체를 가리킵니다. 즉, window 객체를 가리킵니다. - 메서드 호출 시에..
파이썬에서는 모든 것이 객체입니다. 크게 가변과 불변 타입으로 나눌 수 있는데요. 어떤 타입이냐에 따라서 그 속성을 변경할 수도 하지 못할 수도 있습니다. 가변 객체 대표적인 것으로 list와 dict가 있습니다...
자바스크립트에서 자식 요소/노드에 대해서 접근하는 방법인 childNodes 프로퍼티와 children 프로퍼티의 차이점에 대해서 보겠습니다. 사실 각각의 이름에서 그 차이를 알 수 있습니다. 다음과 같은 예제 HTML 코..
다우지수 30개 종목 중에 이전해 마감일을 기준으로 배당률이 높은 상위 종목 10개를 일 년 동안 보유하는 전략을 다우의 개라고 합니다. 일종의 고배당주 투자 전략입니다. 제가 즐겨 찾아보는 유튜버 소몽님께서..
for 반복문과 딕셔너리(dict)를 사용해서 딕셔너리 안에 모든 요소를 다루는 방법을 알아보겠습니다. 다음과 같은 딕셔너리를 예제로 다루겠습니다. 다우존스 지수에 포함되는 30개 기업의 종목코드와 기업명이 ke..
문자열로 이루어진 리스트 안에 문자를 모두 대문자, 소문자 또는 첫 글자만 대문자로 바꾸고 싶다면, 반복문과 문자열 함수를 함께 이용하면 손쉽게 처리할 수 있습니다. 알아야 하는 문자열 함수는 세 가지 정도..
회사를 다니다 보면 비개발 직군도 라이브러리와 프레임워크라는 용어를 여기저기서 들을 수 있습니다. 그런 분들 또는 교양으로 둘의 차이를 알고 싶어 하는 분들을 대상으로 간단하게 비유와 그림으로 차이를 설..
작업을 하다 보면 페이지 새로고침을 해야 할 때가 있습니다. 파이썬 Selenium에서 새로고침을 하는 세 가지 방법을 알아보겠습니다. refresh 메서드 메서드의 이름 그대로 새로고침을 실행합니다. 제일 간단한 방..
자료를 수집하다 보면 딕셔너리(dictionary)로 구성된 리스트(list)를 작성하게 되는 경우가 많이 있습니다. 예를 들면 아래와 같은 형태입니다. 여러 방면으로 사용하기 편한 형태라고 생각합니다. [{'title': 'C..
BeatutifulSoup을 이용할 때 CSS 선택자를 이용하면 원하는 태그를 손쉽게 찾을 수 있습니다. ID와 CLASS 값이 있는 경우라면 더 쉽습니다. 그런데 사실 태그의 속성에는 아이디와 클래스 이외에도 활용하면 더 도..
이번 포스팅에서는 파이썬 셀레니움 웹 드라이버 HTTP Proxy를 설정하는 방법을 간단히 다루겠습니다. 어떤 제한 정책에 의해서 특정 웹 사이트에 바로 접근하지 못하는 경우가 있습니다. 이럴 때 우회해서 접근할..
파이썬 셀레니움을 이용해서 웹사이트를 제어하는 일을 생각해보면, 바로바로 내가 원하는 요소를 동작시켜서 일을 끝마치면 될 것 같습니다. 대개의 경우에는 이렇게 특정 요소를 바로 직접적으로 찾아들어가면..
종종 헷갈리는 CSS 가상 선택자 :nth-child와 :nth-of-type의 차이점에 대해서 알아보겠습니다. 예를 들어 다음과 같은 HTML 코드가 있습니다. <div> <p>Lorem</p> <p>ipsum</p> <p>dolor</p> </div> nth-child와..
가상 선택자(셀렉터)를 이용하면 HTML 요소의 상태에 따라서 해당 요소의 스타일을 다르게 적용할 수 있습니다. 대표적인 것이 hover, active, focus입니다. 아래의 예제처럼 사용할 수 있습니다. :hover 가상 셀..
반복문을 돌리면 작업이 어디까지 진행된 건지, 되고는 있는 건지 궁금할 때가 많이 있습니다. 주피터 노트북 화면을 바라보며 반복문을 돌린 셀의 별표가 사라지길 계속 기다리기도 조금 답답합니다. 이럴 때 진..
미국 배당주 투자를 할 때 꼭 알아두어야 하는 단어가 있습니다. 바로 배당락일(Ex-Dividend Date)입니다. 배당을 받자고 배당주를 투자하는 것이니까요. 당연히 언제까지 사서 가지고 있어야 배당을 받을 수 있는..
프로그래밍에 관심이 생기면 제일 처음 갖게 되는 질문은 "뭐부터 해야 하나?"가 아닐까 싶습니다. 당장 돈을 내고 수강을 하기에는 아직 그 정도로 열정이 있는지 모르겠고, 우선은 어떤 건지 맛부터 보고 싶을..
웹크롤링을 할 때 BeautifulSoup의 select 함수만 잘 사용해도 훨씬 작업을 수월하게 할 수 있습니다. 하지만 기존에 HTML, CSS에 대해서 어느 정도 지식이 있는 사람이 아니라면 조금 어려움을 겪을지도 모르겠습..
웹사이트에서 원하는 정보를 수집하는 대개의 경우라면 보통 맨 위에서부터 차례대로 원하는 정보가 있는 위치까지 찾아 내려가기 마련입니다. 하지만 종종 이 방법으로 해결하기가 애매한 상황이 있습니다. 예를..
openpyxl을 이용해서 엑셀 파일을 읽어오고 그 내용을 판다스 데이터프레임으로 변환하는 방법을 알아보겠습니다. 다음 사진과 같이 생긴 샘플 데이터를 이용하겠습니다. openpyxl을 이용해서 샘플 엑셀 파일을..
엑셀은 어떠한 배경지식이 없어도 손쉽게 데이터를 관리할 수 있는 매우 직관적인 프로그램입니다. 약간의 파이썬 코드로 이런 훌륭한 프로그램을 다룰 수 있습니다. 이미 잘 개발된 라이브러리가 있으니까요. 이..
저는 경제적 자유를 달성하기 위한 수단 중 하나로 미국 주식 투자를 하고 있습니다. 좀 더 정확히 말하면 성장주와 배당 성장주 위주의 포트폴리오를 구성하고 있습니다. 미국 주식 투자를 얘기할 때 또 빼놓을..
유튜브 프리미엄의 가장 큰 장점은 광고가 없다는 점이죠. 동영상 볼 때 끊김 없이 볼 수 있으니까요. 그리고 또 다른 장점 하나는 백그라운드 재생이라 생각합니다. 이동 중에 창밖을 보면서도 영상을 들을 수 있..
엑셀로 데이터를 정리해서 관리하다 보면 종종 동일한 양식의 두 파일을 비교해야 할 때가 있습니다. 과거에 만들어 놓은 파일 A와 새로 업데이트한 파일 B를 비교하는 경우 말입니다. 이렇게 두 개의 파일을 비교..
파이썬 3.6 버전부터는 f-string이라는 문자열 포매팅 기능이 추가되었습니다. 이전의 문자열 포매팅 방법들에 비해 훨씬 가독성도 좋고 더 직관적으로 사용할 수 있다는 장점이 있습니다. f-string을 사용하기 위..
Plotly 라이브러리를 이용해서 버블 차트를 그리는 방법을 알아보겠습니다. 이번에는 그동안의 포스팅과는 다르게 plotly.express라는 비교적 최근 기능을 활용하겠습니다. plotly.express는 사용이 쉽고 빠르게..
Plotly 라이브러리를 사용해서 막대그래프를 그리는 방법을 알아보겠습니다. 이번 포스팅에서는 총 세 가지 타입의 막대그래프를 다루겠습니다. 1. 하나의 세로 막대그래프 2. 여러 개의 세로 막대그래프 3. 누적..
Plotly 라이브러리를 사용해서 주피터 노트북에 선 그래프를 그리는 방법을 소개하겠습니다. Plotly 선 그래프를 세 가지 형태로 살펴보겠습니다. ①산점도 스타일 ② 선 그래프 ③ 선 그래프 + 마커 선 그래프는..
Plotly 라이브러리를 사용해서 Jupyter Notebook에서 산점도(Scatter plots)를 그리는 방법을 알아보겠습니다. 1. 하나의 산점도 그리기 2. 두 개 이상의 산점도 그리기 3. 마커(marker) 서식 변경하기 (모양, 색..
파이썬에는 Operating System를 제어할 수 있는 os 모듈이 있습니다. 이 모듈을 사용해서 폴더를 생상하고 삭제하는 방법을 알아보겠습니다. import os os.listdir('C:/Users/User/Desktop/TestFolder') # [] 실습..
Plotly는 파이썬에 수많은 데이터 시각화 라이브러리 중 예쁜 걸로 손에 꼽을만한 라이브러리입니다. 또한 인터렉티브한 시각화가 가능하다는 게 큰 장점입니다. 오늘은 이 라이브러리를 주피터 노트북에서 사용하..
지금 보는 웹페이지에서 이미지를 다운로드하여 저장하고 싶은데 우클릭이 막혀있을 때가 있습니다. 또는 원하는 이미지 개수가 많아서 너무 여러 번 다운로드하는 번거로움이 싫을 때도 있습니다. 그럴 때 더 편..
여러 사람들과 함께 한 화면으로 웹사이트를 보는 경우 특정 부분에 밑줄을 긋거나, 동그라미 또는 네모 같은 도형들을 그리고 싶을 때가 있습니다. 기존에 화면 필기 프로그램을 쓰고 있는 경우에는 문제가 없습..
봇이 유저의 메시지를 가져올 수 있는 두 가지 방법이 있습니다. 첫 번째는 Polling, 두 번째는 WebHook입니다. 이번에는 이 두 가지에 대해서 간단하게 알아보겠습니다. Polling이란 위키백과의 설명을 발췌하면..
ActionChains 기능을 사용하면 여러 개의 동작을 체인으로 묶어서 저장하고 실행할 수 있습니다. 마우스 이동, 클릭, 키보드 누름과 같은 기본 동작 이외에도, 마우스 커서를 특정 위치에 올려놓거나, 드래그 앤..
Telegram Bot이란 - 텔레그램에서 봇이란 유저이 아닌 프로그램에 의해 운영되는 계정으로 유저의 아이디와 동등한 개체입니다. - 유저는 봇과의 대화창을 열거나 채널에 초대하여 메시지, 커맨드 라인, 인라인..
웹크롤링을 하다 보면 여러 가지 어려운 상황을 마주치게 됩니다. 대표적인 상황은 다음과 같습니다. - 해당 웹사이트가 프로그램을 통한 접근 허용하지 않는 경우 - 해당 웹사이트가 로그인을 요구하는 경우 - 해..
이번에는 정적 웹 페이지와 동적 웹 페이지에 대해서 알아보겠습니다. 특히 웹크롤링에 관심이 있으신 분이라면 알아두면 도움이 됩니다. 정적 웹 페이지 (static web pages) 정적 웹 페이지는 언제 접속해도 같은..
pandas dataframe으로 데이터를 다루다 보면 데이터 중 일부가 누락되어있는 경우가 종종 있습니다. 오늘은 누락된 데이터가 존재하는지 확인하는 방법을 알아보겠습니다. dataframe.isna() 이 메서드는 데이터프..
파이썬에서 셀레니움 라이브러리를 이용하면 손쉽게 로그인이 필요한 웹사이트도 접근할 수 있습니다. 다만 종종 문제가 되는 것이 캡차(captcha)에 걸리는 경우입니다. 오랜만에 네이버를 selenium을 통해서 들어..
pnadas dataframe을 다루다 보면 데이터 타입을 변경해야 할 때가 있습니다. 오늘은 그 방법을 알아보겠습니다. DataFrame 데이터 타입을 바꾸는 두가지 방법 코드를 보면서 어떤 결과가 나오는지 살펴보겠습니다..
이전에 뉴스 알림 봇을 만드는 내용을 작성했던 적이 있습니다. 당시에는 네이버 모바일 버전에서 뉴스 기사를 가져오는 방법을 사용했었는데, PC 버전에서는 어떻게 할 수 있는지 여쭤보시는 분이 계셔서 이번 글..
파이썬을 이용해서 코딩을 하다 보면 많이 사용하는 라이브러리 중 하나가 바로 판다스입니다. 오늘은 pandas dataframe을 활용할 때 알아두면 도움이 되는 기초 속성 9가지를 알아보겠습니다. 코드 실습하기 #..
파이썬에는 국내외 일단위 주식 데이터를 제공해주는 라이브러리들이 있습니다. 그중 대표적인 pandas-datareader를 사용하는 방법을 알아보겠습니다. 이 라이브러리를 이용하면 다양한 데이터 소스로부터 정보를..
웹브라우저에서 지금 보고 있는 사이트의 주소를 복사해서 다른 곳에 붙여 넣었더니, 한글은 온데간데없이 사라지고 왠 %로 시작하는 이상한 문자가 대신 들어가 있는 것을 본 적이 있으신가요. 바로 URL 인코딩..
크롤링을 하다 보면 종종 페이지에서 아무것도 받아오지 못해서 막히는 경우가 생깁니다. 여러 가지 이유가 있을 수 있겠지만 본인이 잘못한 게 없다면 대개 서버에서 차단을 당했기 때문입니다. 서버는 User Agen..
부업으로 구매대행, 위탁판매 등 쇼핑몰을 하시는 사장님들로부터 크롤링 관련 문의를 받곤 합니다. 아무래도 업체에서 제공하는 설루션을 쓰시자니 비용도 조금 부담스럽고 뭔가 아직은 잘 모르시겠고, 하지만 좀..
오늘은 손쉽게 클릭 드래그만으로도 디자이너 같이 배너, 썸네일, 카드 뉴스, 상세페이지 등을 만들 수 있는 온라인 사이트 미리캔버스를 소개합니다. 온라인 마케팅을 한 번이라도 직접 해보신 분이라면, 이런 이..
매주 토요일이면 수많은 전 국민이 로또 당첨번호를 맞춰보는 것 같습니다. 이렇게 번호를 맞춰 보다 보면 이런 궁금증이 들 때가 있습니다. '가장 많이 당첨된 번호가 뭘까?' 이 질문에 답하기 위해서는 역대 당..
파이썬에는 과거 주가부터 현재 주가까지 데이터를 조회 및 다운로드할 수 있는 yfinance라는 좋은 라이브러리가 있습니다. 기본 사용 방법 종목코드를 사용해서 Ticker 객체를 만들면 해당 종목에 대한 여러가지..
전업 개발자가 아닌 분들도 파이썬 웹 스크래핑/크롤링에 관심 많은 것 같습니다. 아무래도 다른 분야보다 활용할 수 있는 곳이 다양하기 때문이 아닌가 싶습니다. 그중에서도 특히 개인 투자자 분들이 더 적극적..
python xlwings 라이브러리를 이용해서 엑셀에 데이터를 읽고 쓸 때 기본적인 세팅은 엑셀 창이 열리도록 되어있습니다. 하지만 종종 이 창을 띄우지 않고서 작업을 하고 싶은 마음이 들 때가 있습니다. 예를 들어..
오늘은 딱 세줄의 코드로 웹 사이트에서 이미지를 다운로드하는 방법을 알아보겠습니다. 이미지 url을 이용해서 내 컴퓨터에 저장하는 방법은 여러 가지가 있지만 이 방법이 아마 가장 손쉬운 방법일 거라 생각합..
파이썬에서 변수는 이름 공간(namespace)에서 관리됩니다. 이름 공간은 변수의 이름을 정의해 둔 공간으로 크게 전역 이름 공간과 지역 이름 공간으로 나누어집니다. 전역 변수(global variables) 전역 변수는 함..
글 순서 (1) 사이트 구조 살펴보기, 뉴스 링크 수집하기 (2) 봇 만들기, 새로운 뉴스 링크만 추출하기 (3) 스케쥴러 만들기, 매 시간 메시지 보내기 이번에는 프로그램 종료 전까지 매 시간 새로운 뉴스를 전송해..
글 순서 (1) 사이트 구조 살펴보기, 뉴스 링크 수집하기 (2) 봇 만들기, 새로운 뉴스 링크만 추출하기 (3) 스케쥴러 만들기, 매 시간 메시지 보내기 이번에는 텔레그램 봇을 생성하고, 이전 시간에 작성했던 뉴스..
특정 업무나 투자 활동을 하는 경우 뉴스를 지속적으로 확인해야 하는 일들이 있습니다. 예를 들어 회사에서 IR, PR 업무를 담당하는 경우가 해당합니다. 또는 특정 주식 종목 등의 뉴스를 체크할 수도 있겠네요...
파이썬을 활용해서 계랑 투자를 해 볼까 고민하는 개인 투자자라면 필요한 것 중에 하나가 바로 종목 코드입니다. 다행히도 종목 코드 데이터는 한국 거래소에서 손쉽게 엑셀로 다운로드할 수 있습니다. http://ma..
판다스를 사용하다 보면 생각보다 자주 필요한 기능이 칼럼의 순서를 바꾸고, 새 컬럼을 추가하고, 이름을 변경하는 것입니다. 사용법이 어려운 기능들은 아니지만 아직 pandas가 익숙하지 않은 분들은 종종 헷갈..
판다스를 사용하다 보면 평균 계산, 데이터프레임 열이나 행 삭제 작업등을 할 때 axis(축)을 지정해야 합니다. 축을 넣어야 할 때면 0을 넣어야 하는지 1을 넣어야 하는지 헷갈릴 수 있습니다. 이번 시간에는 바..
엑셀에 Rank 함수가 있는 것처럼 판다스에도 rank 함수가 존재합니다. 이 함수를 이용하면 수 목록 내에서 개별 수의 크기 순위를 손쉽게 계산할 수 있습니다. 이번에는 rank 함수를 사용하는 방법을 알아보겠습니..
리스트(list)는 여러 개의 값을 한 번에 저장할 수 있는 기본 자료 구조로, 값의 수정과 삭제가 자유로운 장점이 있습니다. 이번에는 리스트에서 값을 수정하고 제거하는 방법을 알아보겠습니다. 값 수정하기 리스..
파이썬에는 BeautifulSoup이라는 HTML 문서 분석 라이브러리가 있습니다. 이를 이용하면 HTML 문서에서 손쉽게 내가 원하는 정보를 추출할 수 있습니다. 오늘은 BeautifulSoup이 제공하는 여러 가지 유용한 기능..
파이썬 리스트에 중복된 값을 제거하고 싶다면 어떻게 해야 하는지 알아보겠습니다. 크게 두 가지 방법이 있습니다. 1) 집합(set) 자료형을 이용한다. 2) for문을 이용해 리스트 요소를 순회하며 중복 여부를 체크..
엑셀의 누적 세로 막대형 차트를 이용하면 손쉽게 폭포 차트를 그릴 수 있습니다. 그 방법을 알아보겠습니다. 폭포 차트란 폭포 차트(waterfall chart)는 초기 값이 특정 요인에 의해 어떻게 영향을 받는지 표현합..
판다 스는 크게 두 가지 자료 구조로 이루어졌습니다. 첫 번째는 Series, 두 번째는 DataFrame 입니다. 오늘은 Series에 대해서 다루겠습니다. 판다스 불러오기 import pandas as pd Series 생성하기 s = pd.Serie..
주 1회 추첨하는 로또. 1회를 시작으로 역대 로또 당첨번호 중 가장 많이 나온 숫자는 무엇인지 알아보았습니다. 현재 로또 사업자인 동행복권 사이트에서 데이터를 다운받아 세어보았습니다. 당첨번호만 집계한..
로또 사는 친구를 보니 문득 두 가지 사소한 궁금증이 생겼습니다. 1) 역대 로또 당첨번호 중 가장 많이 나온 숫자는 뭘까 2) 당첨 번호 구간별 출현 비중은 어떨까 매번 추첨 행위가 독립 시행이기 때문에 서로..
긴 문서를 읽다 보면 한 번씩 '아 귀찮다'라는 생각이 듭니다. 누가 와서 간단히 요점만 말해주면 좋을 것 같습니다. 글의 주요 내용을 어떻게 하면 간단히 알아챌 수 있을까요? 이렇게 생각해 볼 수 있을 것 같습..
KoNLPy를 설치하고 사용하는 과정에서 겪은 에러 사항을 정리합니다. 문제의 발단은 공식문서를 읽어보지 않고 설치 및 실행한 것이었습니다. 당당히 실행을 시켰는데 아래와 같은 에러가 출력되었습니다. 공식문..
웹 페이지에서 텍스트를 추출하고 단어별 빈도수를 세어보겠습니다. 불용어 등을 처리하지 않은 간단한 버전입니다. 1. 웹 페이지에서 텍스트 추출하기 - 이번 예제에서 사용할 텍스트는 이란의 미사일 발사에 대..
종종 웹 사이트에서 텍스트를 가져와야 할 때가 있습니다. 간단한 파이썬 코드를 이용해서 HTML 문서를 일반 텍스트로 가져오는 방법을 알아보겠습니다. import requests from bs4 import BeautifulSoup url = 'ht..
파이썬을 엑셀처럼 사용하기 시리즈 (1) 엑셀이 있는데 왜 파이썬을 배워야 하지? (2) 데이터 열기 pandas read_excel() (3) 데이터 정렬하기 pandas sort_values() (4) 데이터 필터링하기, 비교 연산자 pandas fi..
파이썬에서는 os 모듈의 rename() 메서드를 사용해서 파일 또는 폴더의 이름을 간단히 변경할 수 있습니다. 예를들어 특정 폴더 안에 여러개의 사진 파일이 있을때, 이 사진들의 이름을 차례대로 1, 2, 3와 같이..
requests 라이브러리를 이용해서 Get request를 보내는 간단한 방법과 쿼리 스트링에 대해 알아보겠습니다. Get Request 예시 아래 코드는 웹 브라우저에서 G마켓 Best 페이지에 접속한 것과 같은 내용입니다. 다..
판다스에서 작업을 하다보면 결과물인 데이터프레임을 이메일, 웹사이트 등에 붙여넣고 싶을 때가 종종있습니다. 스크린 샷으로 붙여넣을 수도 있겠지만 HTML 테이블 태그를 삽입한다면 더 깔끔하고 보기 좋을겁니..
주피터 노트북에서 작업을 하다 보면 기존에 설치되어있는 라이브러리 외에 새로운 것들이 필요한 경우가 생깁니다. 이때 가장 많이 사용되는 설치 방법은 명령 프롬트에서 해당 라이브러리를 설치하는 것입니다...
파이썬을 엑셀처럼 사용하기 시리즈 (1) 엑셀이 있는데 왜 파이썬을 배워야 하지? (2) 데이터 열기 pandas read_excel() (3) 데이터 정렬하기 pandas sort_values() (4) 데이터 필터링하기, 비교 연산자 pandas fi..
1. 주피터 노트북 창 띄우기 작업을 저장할 폴더를 열고 경로 창을 클릭해서 jupyter notebook을 입력합니다. - 주피터 노트북을 실행하기 위해서는 아나콘다가 설치되어있어야 합니다. 설치 방법은 링크를 참고해..
파이썬을 엑셀처럼 사용하기 시리즈 (1) 엑셀이 있는데 왜 파이썬을 배워야 하지? (2) 데이터 열기 pandas read_excel() (3) 데이터 정렬하기 pandas sort_values() (4) 데이터 필터링하기, 비교 연산자 pandas fi..
파이썬을 엑셀처럼 사용하기 시리즈 (1) 엑셀이 있는데 왜 파이썬을 배워야 하지? (2) 데이터 열기 pandas read_excel() (3) 데이터 정렬하기 pandas sort_values() (4) 데이터 필터링하기, 비교 연산자 pandas fi..
파이썬을 엑셀처럼 사용하기 시리즈 (1) 엑셀이 있는데 왜 파이썬을 배워야 하지? (2) 데이터 열기 pandas read_excel() (3) 데이터 정렬하기 pandas sort_values() (4) 데이터 필터링하기, 비교 연산자 pandas fi..
파이썬을 엑셀처럼 사용하기 시리즈 (1) 엑셀이 있는데 왜 파이썬을 배워야 하지? (2) 데이터 열기 pandas read_excel() (3) 데이터 정렬하기 pandas sort_values() (4) 데이터 필터링하기, 비교 연산자 pandas fi..
파이썬을 엑셀처럼 사용하기 시리즈 (1) 엑셀이 있는데 왜 파이썬을 배워야 하지? (2) 데이터 열기 pandas read_excel() (3) 데이터 정렬하기 pandas sort_values() (4) 데이터 필터링하기, 비교 연산자 pandas fi..
특정 웹 사이트에서 매일 스크래핑하는 데이터를 엑셀 파일 하나에 일자별로 저장하고 싶다면 어떻게 할 수 있을까요? 판다스에서는 pd.ExcelWriter()를 사용해서 기존 파일에 새 시트만 추가하여 저장하는 방법이..
xlwings 라이브러리를 이용하면 코드 몇 줄로 그래프를 그릴 수 있습니다. 매번 작성해야 되는 보고서 스타일이 있다면 그래프 그리기도 자동화할 수 있습니다. 샘플 데이터를 만들겠습니다. 2020년 1월 1일부터 5..
이번에는 판다스를 이용해서 내가 원하는 조건으로 데이터를 필터링하는 방법을 알아보겠습니다. 샘플 데이터 불러오기 In [1]: # 판다스 라이브러리 임포트 import pandas as pd # plotly express에 내장되어있는..
BeautifulSoup을 이용해서 텍스트를 추출하는 방법은 대표적으로 두 가지가 있습니다. 하나는 get_text() 이용하는 것이고, 다른 하나는 string를 이용하는 것입니다. 두 방식의 차이점에 대해서 알아보겠습니다...
엑셀에서와 마찬가지로 xlwings에서도 원하는 셀 범위를 간편하게 선택할 수 있는 기능이 있습니다. expand 메서드를 사용하거나 options 메서드를 사용하면 됩니다. 우선 샘플 데이터를 만들겠습니다. import xlw..
판다스 데이터프레임을 엑셀 형태로 저장하기 위해서는 to_excel() 메서드를 사용하면 됩니다. 이때 메서드의 매개 변수로 저장할 파일의 이름을 전달합니다. 경로를 별도 지정하지 않는다면 현재 스크립트가 위치..
이번에는 여러 개의 엑셀 시트를 하나의 데이터프레임으로 합치는 방법을 알아보겠습니다. 샘플 데이터는 다음과 같이 생겼습니다. 온라인 소매 데이터로 세계 각국에서의 주문 기록이 담겨있습니다. 주문 국가에..
파이썬을 배우고 단순 반복 업무는 컴퓨터에게 맡기세요. 오늘은 엑셀 업무를 자동화하기 위해서 파이썬에서 엑셀을 다루는 방법을 알아보는 첫 시간입니다. 아나콘다(Anaconda3)가 설치되어있어야 아래 코드를 따..
코딩이 어느새 모든 직무에서 점점 더 필요한 역량이 되어가고 있습니다. 일반 직장인들 중에도 단순 반복 업무를 파이썬 스크립트로 자동화하고 그 시간에 꿀을 빠는 바람직한 사례가 늘어나고 있습니다. (저도..
오늘은 파이썬 아나콘다를 설치하는 방법을 알아보겠습니다. 파이썬은 공식 홈페이지인 python.org에서 무료로 다운로드할 수 있지만 업무 자동화, 데이터 분석 등과 같은 일을 하기 위해서는 많은 추가 라이브러..
데이터를 처리하다 보면 때때로 컬럼을 추가, 수정, 삭제해야 하는 경우가 있습니다. 예를 들어 기존의 데이터를 조합하여 새로운 컬럼을 만들고 싶을 수 있습니다. 또는 특정 값을 바꾸고 싶을 수도 있습니다. 이..
이번에는 구글 문서에서 코드블럭을 입력하는 방법을 알아보겠습니다. 최근 짧은 전자책을 구글 문서를 이용해서 쓰고 있는데, 코드블럭을 입력하면 좋겠다는 생각을 했습니다. 혹시나 해서 찾아보니 부가기능 설..
이번에는 CSS selector를 이용해서 데이터를 추출하는 방법을 알아보겠습니다. CSS는 HTML 요소의 스타일을 정의한 문서입니다. 그렇다면 어떤 요소에 어떤 스타일을 주어야하는지 명확하게 지정할 필요가 있겠죠...
이번에는 윈도우 환경에서 정해진 시간마다 자동으로 파이썬 스크립트를 실행시키는 방법을 알아보겠습니다. 윈도우 검색창에서 "작업"이라는 단어를 검색하면 아래와 같이 작업 스케줄러를 찾을 수 있습니다. 실..
크롤링 등을 작업을 마치고 나면 그 결과값을 누적해서 저장하고 싶을 경우가 있습니다. 이번 시간에는 .to_csv 메서드를 활용해서 누적 저장하는 방법을 알아보겠습니다. to_csv Append Mode 사용하기 import pan..
주피터 노트북은 .ipynb 파일 형식 외에도 다양한 저장 방식을 지원합니다. 오늘은 그중에서도 .pdf 파일 형식으로 저장할 때 발생할 수 있는 오류에 대해서 알아보겠습니다. .pdf 저장하기 File - Download as -..
판다스에서 데이터를 행과 열로 데이터를 추출하는 방법을 살펴보겠습니다. 몇 가지 기본 문법만 숙지하면 다양한 방식으로 응용할 수 있습니다. 먼저 컬럼 데이터를 추출하는 방법을 알아보겠습니다. 데이터 불러..
이번에는 데이터를 정렬하는 방법을 알아보겠습니다. 데이터를 정렬하는 기준은 크게 두가지가 있습니다. 1) .sort_index()를 사용하는 방법과 2) .sort_values()를 사용하는 방법입니다. 이름에서 유추할 수 있듯..
판다스에는 데이터 분석에 유용한 여러 가지 함수(메소드)와 속성이 미리 정의되어 있습니다. 이번 시간에는 불러온 데이터를 살펴보는 기능들에 대해서 알아보겠습니다. 데이터 불러오기 In [1]: # 판다스 라이브..
판다스(Pandas)는 파이썬에서 사용할 수 있는 엑셀과 유사한 데이터 분석 라이브러리입니다. 판다스를 이용하면 표로 정리된 다양한 데이터(excel, csv, sql 등)를 자유자재로 다룰 수 있습니다. 엑셀에서 데이터..
웹 스크래핑을 하기 위해서는 우선 내가 원하는 웹 사이트를 읽어올 수 있어야 합니다. 웹의 동작 방식 브라우저에 원하는 페이지의 주소를 입력하고 엔터를 치면 다음과 같은 일이 일어납니다. 브라우저는 서버에..