머신러닝 분석 절차

[feature 선언 및 운영 요약 ] 머신러닝을 위해서는 해당 프로세스에 맞는 변수를 별도로 운영할 필요가 있기 때문에 조금은 헷갈리는 경우가 발생한다 (아래 내용은 기본적인 절차를 이해할 수 있도록 도식화 한 것임) 구분 train/val/test File Load [데이터 불러오기 및 데이터 확인] - pd.read_csv('filepath+filename'), train.info()/test.info()] train, test 생성 → train = pd.read_csv('./train.csv') test = pd.read_csv('./test.csv') ① train test [탐색적 데이터 분석(EDA)] ②기술 분석 (df.describe() ….. ) 및 시각화 시각화 - 전체 변수 : Pairplot/Heatmap, 연속 변수 : distplot, 범주형 변수 : countplot [데이터 전처리 1] ③불필요 변수 삭제, 결측치/중복값/이상치 처리 예) ID와 같은...

#0 #모델 #분 #시 #예시 #예측 #예측값 #월 #일 #제출 #초 #최적 #타겟 #평가 #데이터 #년도 #class #DecisionTreeClassifier #depth2의 #GridSearchCV의 #n_components #S4의 #test #Test데이터 #train #unique한 #Xtrain #객체생성 #기타 #학습

원문링크 : 머신러닝 분석 절차