AI/ML(패스트 캠퍼스) - 규제 (Regularization)

 

회귀 분석의 규제와 그 종류

모델이 과대적합 되는 문제를 해결하기 위한 방법으로 가중치가 가질 수 있는 값의 범위를 제한함으로써 수행한다(편향에 대해서는 규제를 적용하지 않는다).

이러한 규제는 보통 확보한 데이터가 충분하지 않거나 일부 특성들 간에 밀접한 상관관계가 있는 경우 사용한다.

규제는 일반적으로 다음과 같은 형태를 띠게 된다.

최솟값 = 비용함수 + 규제항(가중치 벡터의 크기)

이 식이 의미하는 바는 회귀에서는 비용함수가 최솟값이 되어야 성능이 좋은 것인데 위 식에 따르면 비용함수의 값 뿐만 아니라 규제항의 값 또한 최솟값이 되어야 비로소 전체 값이 최솟값이 된다. 즉, 규제항이라는 제약이 추가된 것이다.

이러한 규제항은 2가지가 존재하는데 다음의 2가지이다.

L2 Regularization

규제항이 가중치의 제곱의 합을 기준으로 만들어지는 규제이다. 규제항의 식은 다음과 같다.

$\alpha\frac{1}{2}\sum_{i=1}^{n}\theta_i^2$

여기서 𝝰는 규제의 정도를 조정하는 하이퍼파라미터로 이 값이 작으면 규제가 작게 적용되고 이 값이 크면 규제도 크게 적용된다. 단적인 예로 𝝰가 0이면 규제는 적용되지 않는다.

L2 규제의 경우 가중치의 제곱 값을 사용하게 되어 가중치의 크기가 클수록 영향을 많이 미치게 되고 이에 따라 큰 가중치를 제한하는데 효과적으로 사용할 수 있다.

L1 Regularization

규제항이 가중치의 절대값의 합을 기준으로 만들어지는 규제이다. 규제항의 식은 다음과 같다.

$\alpha\sum_{I=1}^{n}\left|\theta_i\right|$

마찬가지로 𝝰는 규제의 정도를 조정하는 하이퍼파라미터이고 작동하는 방식은 L2 규제와 동일하다.

L1 규제의 경우 크기가 작은 가중치는 0으로 만들어버리는 특성이 있어 일부 특성들을 제거하려고 할 때 유용하다.