딥러닝 모델을 훈련할 때 흔히 발생하는 문제 중 하나는 과대적합(Overfitting)이다. 과대적합은 모델이 훈련 데이터에는 지나치게 잘 맞지만, 새로운 데이터에 대해서는 제대로 일반화하지 못하는 현상을 의미한다. 이 포스팅에서는 Andrew Ng 교수님의 강의 내용을 바탕으로 정규화가 어떻게 과대적합을 해결하는지 살펴보자.
정규화가 과대적합을 줄이는 이유
정규화는 \( \lambda \) 값을 조절하여 가중치 \( w \)를 제한한다. \( w \) 가 작아지면, 신경망의 복잡도가 줄어들고 단순한 모델이 되기 때문에 과대적합이 감소한다. 구체적으로는 다음과 같은 과정을 거칩니다.
- \( \lambda \) 값을 증가시키면 \( w \) 가 0에 가까운 값으로 설정된다.
- 이는 은닉 유닛(hidden unit)의 영향력을 줄여 네트워크가 더 간단해지도록 만든다.
- 결과적으로 과대적합된 모델을 보다 단순하고 일반화된 모델로 변환할 수 있다.
L2 정규화가 과대적합을 줄이는 두 가지 직관
Andrew Ng 교수님는 영상에서 L2 정규화가 과대적합을 줄이는 두 가지 직관을 설명한다.
- 가중치 감소를 통한 네트워크 단순화
\( \lambda \) 값을 크게 설정하면, 비용 함수를 최소화하기 위해 가중치 행렬 w가 0에 가까워진다. 이는 많은 은닉 유닛의 영향력을 줄여 결과적으로 더 작고 단순한 네트워크를 만드는 효과를 낸다. 마치 여러 층을 가진 네트워크가 로지스틱 회귀에 가까워지는 것과 같다. 즉, 복잡한 비선형 함수를 표현하는 능력이 줄어들어 과대적합을 방지한다. 이때 모든 은닉 유닛이 완전히 0이 되는 것은 아니며, 영향력이 작아지는 것이다. - 활성화 함수의 선형 영역 활용
\( \tanh \) 함수 \( g(z) = \tanh(z) \) 를 사용하는 경우를 살펴보면:
가 작아지면 \( z \) 역시 작아진다. \( z \) 가 작은 값일수록 \( tanh \) 함수는 선형에 가까워진다. 이로 인해 네트워크 전체가 선형 회귀처럼 동작하며, 과도하게 복잡한 비선형 결정 경계(complex non-linear decision boundary)를 생성하지 못하게 된다.
마무리
L2 정규화는 딥러닝 모델 훈련에서 가장 널리 사용되는 정규화 기법으로, 모델의 복잡도를 줄이고 과대적합 문제를 해결한다. 정규화로 인해 네트워크가 보다 단순해지며, 일반화 성능이 향상된다. 다음 강의에서는 또 다른 정규화 방법인 드롭아웃(Dropout)에 대해 다룰 예정이다.
References
https://www.youtube.com/watch?v=NyG-7nRpsW8&list=PLkDaE6sCZn6Hn0vK8co82zjQtt3T2Nkqc&index=5
'AI > DL' 카테고리의 다른 글
Understanding Dropout (C2W1L07) (0) | 2025.01.28 |
---|---|
Dropout Regularization (C2W1L06) (0) | 2025.01.28 |
Regularization (C2W1L04) (0) | 2025.01.27 |
Basic Recipe for Machine Learning (C2W1L03) (0) | 2025.01.26 |
Bias/Variance (C2W1L02) (0) | 2025.01.26 |