데이터세트와 전처리
학습 데이터와 예측(테스트) 데이터
- features : 학습을 위한 데이터 세트(또는 데이터 세트 내의 각각의 특성들), x, X로 표현함
- labels : 예측해야 할 값, 또는 지도학습에서 학습에 사용되는 정답 값, y, Y로 표현함
- 학습 데이터와 예측(테스트) 데이터는 명확하게 분리되어있어야 한다.
- 학습 데이터는 features와 labels가 모두 존해하나 예측(테스트) 데이터는 features만 존재함(labels를 맞추어야 함)
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(x_train, y_train)
prediction = model.predict(x_test)
검증 데이터
- 과대적합 : 지나치게 학습 데이터에 맞춰짐
- 과소적합 : 훈련이 제대로 되지 않음
- 학습 데이터의 일부(학습 데이터의 약 20%)를 검증을 위한 데이터 세트로 분리
- 학습 과정에서 검증 세트가 포함되면 절대 안됨
전처리 기본 - scikit-learn의 전처리 기능
- 전처리(pre-processing) : 데이터 분석에 적합하게 _데이터를 가공 / 변형 / 처리 / 클리닝_ 하는 과정
-
전처리 관련 용어
. 결측치 - Imputer
. 이상치
. 정규화 (Normalization)
. 표준화 (Standardization)
. 샘플링 (over/under sampling)
. 피처 공학 (Feature Engineering)
: feature 생성 / 연산
: 구간 생성, 스케일 변홍
정규화 (Normalization)
- 0~1 사이의 분포로 조정
표준화 (Standardization)
- 평균을 0, 표준편차를 1로 맞충