AI/ML(패스트 캠퍼스) - 데이터세트와 전처리

 

Scikit-learn을 이용한 데이터 전처리 방법에 대한 개요

데이터세트와 전처리


학습 데이터와 예측(테스트) 데이터

  • features : 학습을 위한 데이터 세트(또는 데이터 세트 내의 각각의 특성들), x, X로 표현함
  • labels : 예측해야 할 값, 또는 지도학습에서 학습에 사용되는 정답 값, y, Y로 표현함
  • 학습 데이터와 예측(테스트) 데이터는 명확하게 분리되어있어야 한다.
  • 학습 데이터는 features와 labels가 모두 존해하나 예측(테스트) 데이터는 features만 존재함(labels를 맞추어야 함)

from sklearn.linear_model import LinearRegression

model = LinearRegression()
model.fit(x_train, y_train)
prediction = model.predict(x_test)

검증 데이터

  • 과대적합 : 지나치게 학습 데이터에 맞춰짐
  • 과소적합 : 훈련이 제대로 되지 않음
  • 학습 데이터의 일부(학습 데이터의 약 20%)를 검증을 위한 데이터 세트로 분리
  • 학습 과정에서 검증 세트가 포함되면 절대 안됨

전처리 기본 - scikit-learn의 전처리 기능

  • 전처리(pre-processing) : 데이터 분석에 적합하게 _데이터를 가공 / 변형 / 처리 / 클리닝_ 하는 과정
  • 전처리 관련 용어

    . 결측치 - Imputer

    . 이상치

    . 정규화 (Normalization)

    . 표준화 (Standardization)

    . 샘플링 (over/under sampling)

    . 피처 공학 (Feature Engineering)

        : feature 생성 / 연산

        : 구간 생성, 스케일 변홍


정규화 (Normalization)

  • 0~1 사이의 분포로 조정

표준화 (Standardization)

  • 평균을 0, 표준편차를 1로 맞충