파이썬 엑셀 파일 빠르게 읽는 방법(dask, csv, xlsx)


파이썬 엑셀 파일 빠르게 읽는 방법(dask, csv, xlsx)

빅데이터를 분석한다거나, 파이썬으로 활용하는 과정에서 엑셀 파일을 데이터프레임 형식으로 가져와야 하는 일이 생긴다. 이때 엑셀 파일의 용량이 크거나, 파일의 수가 많을 경우 데이터를 가져오는데 시간이 꽤 많이 소요된다. 한 번만 처리를 해야 하면 기다릴 수도 있겠지만... 나의 경우는 일주일 간격으로 크롤링을 해서 데이터를 엑셀 파일로 만들어놓았고, 이용자가 접속할 때마다 파일들을 확인하도록 프로그램을 설계해놨으며 매번 이 데이터들을 통해 원하는 정보만 뽑아내도록 프로그램을 만들었다. 그렇기에 어떻게든 속도를 빠르게 해야만 했다. (혹여나 더 좋은 방법이 있다면 조언 부탁드립니다ㅎㅎ) 이 과정에서 많은 엑셀 파일을 조회해야 했는데, 시도해 본 방법을 포스팅해 보려 한다. 확장자에 따른 처리 속도와 dask를 사용해 '데이터를 불러올 때도 병렬 처리를 통해 좀 더 빨라지지 않을까?' 생각하여 시도해 보았다. 1. .xlsx 확장자 파일을 읽는다. 2. .csv 확장자 파일을 읽는다. ...


#csv #dask #numpy #pandas #python #xlsx #라이브러리 #모듈 #엑셀

원문링크 : 파이썬 엑셀 파일 빠르게 읽는 방법(dask, csv, xlsx)