대용량 데이터 다루기

요즘은 딥러닝이 아닌 머신러닝 모델을 다루고 있다. 거대한 양의 데이터를 전처리하고 Set을 나눈 후 데이터의 특성 및 Case에 따른 모델을 각자 생성하고 Test하여 성능을 평가하는 작업을 반복 중이다. 일의 주제에 대해서는 프로젝트가 완전히 종료되면 다루도록 하고... 현재 만지고 있는 데이터는 종류에 따라 조금씩 다르지만, 그 수가 가장 적은 데이터는 약 1억 건, 가장 많은 데이터는 30억 건이 넘는다. (데이터의 row 수가 억단위가 된다고 보면 되겠다.) 이 데이터들은 당연히 Raw 데이터에서 사용할 수 있는 데이터만 추려낸 후의 결과이다. 필요한 column만 모아서 따로 csv 파일로 저장했음에도 그 용량이 적게는 3GB에서 많게는 5~6GB 정도의 파일이 10개가 생성되기도 하였다. 이번 프로젝트는 알고리즘의 난이도나 코드의 복잡성이 문제가 되지 않았다. 데이터의 용량이 너무 커서 시간적 loss가 너무 많다는 것이 문제였다. 주피터노트북에서 파일 하나를 불러오는데...

#apply #머신러닝 #Python #pandas #list #lambda #groupby #dict #concat #빅데이터

원문링크 : 대용량 데이터 다루기