[빅데이터] Pandas 용량 큰 파일 메모리 문제. chunk로 읽고 저장하기

Pandas의 Data Frame을 다룰 때 데이터의 크기가 작은 경우에는 큰 문제가 없습니다. 하지만 MB 단위를 넘어서 GB, TB 까지 다뤄야 할 경우에는 전체 데이터를 하나의 Data Frame으로 읽고 처리하기는 불가능에 가깝죠. 그럴 때는 데이터를 여러 조각으로 잘라서 처리하는 방식을 사용하면 됩니다. 바로 chunksize를 옵션을 사용하는 것이죠. 아래 코드를 보면서 본인 코드에 적용해 보세요. csv 파일을 읽고 쓰는 것을 예시로 들겠습니다. pandas의 read_csv 옵션에는 chunksize가 있습니다. 적당한 사이즈로 설정하여 처리하면 됩니다. chunk_size = 10**5 for chunk in pd.read_csv(file_path, encoding='utf8', chunksize=chunk_size): chunk = chunk[chunk['과일']=='감귤'] # 파일 저장 if not os.path.exists(out_file): chunk.to_...

#chunksize #pandas #python #대용량 #빅데이터 #파이썬 #판다스

원문링크 : [빅데이터] Pandas 용량 큰 파일 메모리 문제. chunk로 읽고 저장하기