빅데이터를 분석한다거나, 파이썬으로 활용하는 과정에서 엑셀 파일을 데이터프레임 형식으로 가져와야 하는 일이 생긴다. 이때 엑셀 파일의 용량이 크거나, 파일의 수가 많을 경우 데이터를 가져오는데 시간이 꽤 많이 소요된다. 한 번만 처리를 해야 하면 기다릴 수도 있겠지만... 나의 경우는 일주일 간격으로 크롤링을 해서 데이터를 엑셀 파일로 만들어놓았고, 이용자가 접속할 때마다 파일들을 확인하도록 프로그램을 설계해놨으며 매번 이 데이터들을 통해 원하는 정보만 뽑아내도록 프로그램을 만들었다. 그렇기에 어떻게든 속도를 빠르게 해야만 했다. (혹여나 더 좋은 방법이 있다면 조언 부탁드립니다ㅎㅎ) 이 과정에서 많은 엑셀 파일을 조회해야 했는데, 시도해 본 방법을 포스팅해 보려 한다. 확장자에 따른 처리 속도와 dask를 사용해 '데이터를 불러올 때도 병렬 처리를 통해 좀 더 빨라지지 않을까?' 생각하여 시도해 보았다. 1. .xlsx 확장자 파일을 읽는다. 2. .csv 확장자 파일을 읽는다. ...
#csv
#dask
#numpy
#pandas
#python
#xlsx
#라이브러리
#모듈
#엑셀
원문링크 : 파이썬 엑셀 파일 빠르게 읽는 방법(dask, csv, xlsx)