#!/usr/bin/env python3
Ridge
Ridge는 linear model이므로 OLS(Ordinary Least Square)를 사용합니다.
Ridge Regression에서 가중치(w) 선택은 추가 제약 조건을 생성하여
가중치(w)의 절댓값을 가능학 작게 만드는 것(0으로 만드는 것이 아님)입니다.
기하학적으로 모든 특성의 기울기를 0에 가깝게 만드는 것이고 이 것을 regularization이라 합니다.
즉 model을 overfitting 하지 않도록 강제로 제한하는 것입니다.
Ridge Regression에 사용하는 regularization을 L2 regularization이라고도 합니다.
보스턴 주택가격으로 Ridge Regression과 linear regression을 사용하여 비교해보겠습니다.
from mglearn.datasets import load_extended_boston
from sklearn.linear_model import Ridge, LinearRegression
from sklearn.model_selection import train_test_split
boston_data, boston_target = load_extended_boston()
x_train, x_test, y_train, y_test = \
train_test_split(boston_data, boston_target,
random_state=0, test_size=0.3)
ridge = Ridge()
ridge.fit(x_train, y_train)
lr = LinearRegression()
lr.fit(x_train, y_train)
print('{:.3f}'.format(ridge.score(x_train, y_train)))
# 0.882
print('{:.3f}'.format(lr.score(x_train, y_train)))
# 0.952
print('{:.3f}'.format(ridge.score(x_test, y_test)))
# 0.783
print('{:.3f}'.format(lr.score(x_test, y_test)))
# 0.645
train set정확도는 Ridge Reg. < Linear Reg.
test set정확도는 Ridge Reg. > Linear Reg. 입니다.
Linear Reg는 train set과 test set의 차이가 많이나므로 overfittng이 되지만
Ridge Reg는 regularization이 적용되기 때문에 train set과 test set의 차이가 적습니다.
따라서 model의 complexity가 낮아지게 되고 test set의 정확도는 상승합니다.
다음으로 Ridge의 Regularization에 대해서 알아보겠습니다.
Ridge Reg.는 alpha parameter로 model을 얼마나 단순화할지를 결정합니다.
default 값은 1이며 높을수록 Regularization을 강화하여 계수를 0에 가깝게 만듭니다.
alpha값에 따른 정확도비교는 아래코드로 확인할 수 있습니다.
alpha_train_score = []
alpha_test_score = []
alpha_set = [0.1, 1 ,10]
for i in alpha_set:
ridge=Ridge(alpha=i)
ridge.fit(x_train, y_train)
ridge_tr_score = round(ridge.score(x_train, y_train), 3)
ridge_te_score = round(ridge.score(x_test, y_test), 3)
alpha_train_score.append(ridge_tr_score)
alpha_test_score.append(ridge_te_score)
print(alpha_set)
# [0.1, 1, 10]
print(alpha_train_score)
# [0.927, 0.882, 0.78]
print(alpha_test_score)
# [0.797, 0.783, 0.678]
alpha값이 커질수록(규제가 강화될수록) 정확도는 낮아지는 것을 볼 수 있습니다.
Ridge도 Linear_model이므로 속성(coef_, intercept_)가 존재합니다.
Ridge의 alpha값에 따른 coef_를 조사하면
import numpy as np
import matplotlib.pyplot as plt
n_feature = boston_data.shape[1]
line = np.linspace(0, n_feature, num=n_feature).reshape(-1, 1)
lr = LinearRegression().fit(x_train, y_train)
plt.scatter(line, lr.coef_, marker='s', label='Linear Reg.') # marker = 's' => square
alpha_set = [0.1, 1 ,10]
marker_set = ['o', '^', 'v']
for i, m in zip(alpha_set, marker_set):
ridge = Ridge(alpha=i)
ridge.fit(x_train, y_train)
plt.scatter(line, ridge.coef_, marker=m, label='alpha={}'.format(i))
plt.ylim(-30, 30)
plt.hlines(y=0, xmin=0, xmax=n_feature)
plt.legend(loc=(0.01, 1.01))
plt.show()
Linar Regression과 몇 가지 alpha 값을 가진 Ridge Regression의 coefficient 비교
x축은 coef_의 원소를 위치대로 나열한 것입니다. 즉 x=0, x=1은 각각 첫번째 특성과 두번째 특성을 나타내는 것입니다.
alpha=10일 때(빨강 역삼각형)은 대부분 y=0에 위치하며
alpha=1(초록 정삼각형)은 alpha=10일 때보다는 약간 퍼진 상태입니다.
alpha=0.1(주황 원)은 매우 크게 확장되었으며
Linear Reg.(파랑 정사각형)은 자유롭게 퍼져있는 것을 확인할 수 있습니다.
이번엔 learning curve(데이터셋의 크기에 따른 모델의 성능 변화)를 알아보겠습니다.
train_ridge_set = []
train_linear_set = []
test_ridge_set = []
test_linear_set = []
for i in test_size_set:
x_train, x_test, y_train, y_test = \
train_test_split(boston_data, boston_target,
random_state=35, test_size=i)
ridge = Ridge(alpha=1).fit(x_train, y_train)
lr = LinearRegression(n_jobs=-1).fit(x_train, y_train) # n_jobs = 사용할 코어의 수, -1은 모든 코어사용
rid_tr_score = ridge.score(x_train, y_train)
rid_te_score = ridge.score(x_test, y_test)
lr_tr_score = lr.score(x_train, y_train)
lr_te_score = lr.score(x_test, y_test)
train_ridge_set.append(rid_tr_score)
train_linear_set.append(lr_tr_score)
test_ridge_set.append(rid_te_score)
test_linear_set.append(lr_te_score)
plt.plot(x_ticks, train_ridge_set, c='lightblue', ls='--', label='train ridge') # c = color, ls = linestyle
plt.plot(x_ticks, train_linear_set, c='orange', ls='--',label='train Linear_Reg')
plt.plot(x_ticks, test_ridge_set, c='lightblue', label='test ridge')
plt.plot(x_ticks, test_linear_set, c='orange', label='test Linear_Reg')
plt.legend(loc=(0.01, 1.01))
plt.ylim(0, 1.1)
plt.show()
보스턴 주택가격 데이터셋에 대한 Ridge vs Linear Reg,
train 데이터(점선)가 test 데이터(line)보다 높음을 알 수 있습니다.
Ridge에는 regularization이 적용되므로 Linear Reg보다 낮습니다.
일반화 데이터에서는 Ridge의 점수가 더 높으며, 데이터셋이 작을수록 두드러집니다.
데이터셋의 크기가 작을수록 Linear Reg.는 어떤 것도 학습하지 못합니다.
데이터가 충분히 크면 regularization이 덜 중요해지고(두 모델의 차이가 줄어듭니다.)
Linear_Reg의 경우 데이터셋이 클수록 train 데이터 성능이 감소합니다. 이는 데이터가 많아질수록 overfitting 하기가 어려움을 시사합니다
참고 자료:
[1]Introduction to Machine Learning with Python, Sarah Guido
'python 머신러닝 -- 지도학습 > Regression' 카테고리의 다른 글
Decision Tree Regressor (0) | 2018.03.14 |
---|---|
Lasso (0) | 2018.03.13 |
LinearRegression (0) | 2018.03.12 |
k_NN(k-최근접 이웃) Regression (1) | 2018.03.12 |