AI/ML(패스트 캠퍼스) - 데이터세트와 전처리

Scikit-learn을 이용한 데이터 전처리 방법에 대한 개요

데이터세트와 전처리

학습 데이터와 예측(테스트) 데이터

features : 학습을 위한 데이터 세트(또는 데이터 세트 내의 각각의 특성들), x, X로 표현함
labels : 예측해야 할 값, 또는 지도학습에서 학습에 사용되는 정답 값, y, Y로 표현함
학습 데이터와 예측(테스트) 데이터는 명확하게 분리되어있어야 한다.
학습 데이터는 features와 labels가 모두 존해하나 예측(테스트) 데이터는 features만 존재함(labels를 맞추어야 함)

from sklearn.linear_model import LinearRegression

model = LinearRegression()
model.fit(x_train, y_train)
prediction = model.predict(x_test)

검증 데이터

과대적합 : 지나치게 학습 데이터에 맞춰짐
과소적합 : 훈련이 제대로 되지 않음
학습 데이터의 일부(학습 데이터의 약 20%)를 검증을 위한 데이터 세트로 분리
학습 과정에서 검증 세트가 포함되면 절대 안됨

전처리 기본 - scikit-learn의 전처리 기능

전처리(pre-processing) : 데이터 분석에 적합하게 _데이터를 가공 / 변형 / 처리 / 클리닝_ 하는 과정
전처리 관련 용어

. 결측치 - Imputer

. 이상치

. 정규화 (Normalization)

. 표준화 (Standardization)

. 샘플링 (over/under sampling)

. 피처 공학 (Feature Engineering)

: feature 생성 / 연산

: 구간 생성, 스케일 변홍

정규화 (Normalization)

0~1 사이의 분포로 조정

표준화 (Standardization)

평균을 0, 표준편차를 1로 맞충

이전Document - 블로그 테스트

다음Spring - IoC와 DI