Train , Test 데이터 전처리를 위해 병합하는 방법 정리 !


Train , Test 데이터 전처리를 위해 병합하는 방법 정리 !

데이터 전처리를 실행할 때, train 과 test데이터를 따로 전처리하면 스케일링이나 인코딩에 문제가 생기기 때문에 보통 train과 test 데이터를 합쳐서 전처리를 하고 다시 기존 index대로 나누는 방법을 사용하는데요 어떤 방법을 사용할 수 있는지 알아보겠습니다. 1. pd.concat + assign(indic) 여기서 indic은 indicator로 각 데이터에 test, train이라는 일종의 태그를 달아주는 방법입니다 df = pd.concat([test.assign(indic="test"), train.assign(indic="train")]) test, train = df[df["indic"].eq("test")], df[df["indic"].eq("train")] DataFrame...


원문링크 : Train , Test 데이터 전처리를 위해 병합하는 방법 정리 !