보스턴 주택 가격 예측 데이터 세트
import numpy as np
import pandas as pd
from sklearn.datasets import load_boston
np.set_printoptions(suppress=True)
data = load_boston()
print(data['DESCR'])
'''
출력 생략
'''
# 데이터 프레임 만들기
df = pd.DataFrame(data['data'], columns=data['feature_names'])
df.head()
# 타겟 컬럼 추가
df['MEDV'] = data['target']
df.head()
컬럼 설명
- CRIM : 범죄율
- ZN : 25,000 평방 피트 당 주거용 토지 비율
- INDUS : 비소매(non-retail) 비지니스 면적 비율
- CHAS : 찰스 강 더미 변수 (통로가 하천을 향하면 1, 그렇지 않으면 0)
- NOX : 산화 질소 농도 (천만 분의 1)
- RM : 주거 당 평균 방 수
- AGE : 1940년 이전에 건축된 자가 소유 점유 비율
- DIS : 5개의 보스턴 고융 센터까지의 가중 거리
- RAD : 고속도로 접근성 지수
- TAX : 10,000 달러 당 전체 가치 재산 세율
- PTRATIO : 도시 별 학생.교사 비율
- B : 1000(Bk-0.63)^2 여기서 Bk는 도시 별 검정 비율
- LSTAT : 인구의 낮은 지위
- MEDV : 자가 주택의 중앙값(1,000 달러 단위)
# 훈련 데이터 세트와 검증 데이터 세트 분리
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(df.drop('MEDV', 1), df['MEDV'])