[Python] pandas, dask :: 대용량 .csv 파일 빠르게 처리하기 + 성능 비교 (feat. time, chunksize)


[Python] pandas, dask :: 대용량 .csv 파일 빠르게 처리하기 + 성능 비교 (feat. time, chunksize)

여러 이유로, 100mb 이상의 용량을 가진 .csv 파일을 다루어야 하는 경우가 있습니다. 웬만한 용량의 파일도 Pandas를 통해 처리할 수 있지만, 어느 정도의 용량 이상을 가지는 경우에는 read_csv, to_csv 사용 시 파일 당 수 초 이상의 시간이 소요되기도 합니다. 파일의 수가 몇천 개 이상이라면 그에 따른 시간 손실도 엄청날 것입니다. 본 포스팅은 대용량 .csv 처리 시 처리시간을 단축하기 위한 몇 가지의 기능을 소개하는 해외 블로거의 포스팅(Optimized ways to Read Large CSVs in Python), dask 데이터프레임을 다루는 스택 오버플로우 게시글을 국문으로 요약한 것입니다. 1. 방법론 1) pandas에서 chunksize argument 활용하기 (1) 필요 패키지 pandas를 불러옵니다. 여기서 read_csv, concat, to_csv를 사용할 것입니다. import pandas as pd (2) chunk를 나누어 파일...


#bigdata #파이썬 #데이터프레임 #too_big_csv #python #pandas #dask #chunksize #chunk #판다스

원문링크 : [Python] pandas, dask :: 대용량 .csv 파일 빠르게 처리하기 + 성능 비교 (feat. time, chunksize)