AI/DL

Basic Recipe for Machine Learning (C2W1L03)

hu6r1s 2025. 1. 26. 20:01

신경망 훈련의 기본 레시피

최초의 모델을 훈련하고 난 뒤 처음으로 질문하는 것은 알고리즘이 높은 편향을 가지는지, 높은 편향을 평가하기 위해서는 훈련 세트 혹은 훈현 데이터의 성능을 봐야 한다.

편향 문제

높은 편향 문제가 발생한다면 아래와 같이 문제를 해결할 수도 있다.

  • 더 많은 은닉 층 혹은 은닉 유닛을 갖는 네트워크를 선택
  • 더 오랜 시간 훈련시키거나 다른 발전된 최적화 알고리즘을 사용
  • 다른 신경망 네트워크를 사용

다른 신경망 네트워크를 사용하는 것은 작동되게 할 수도, 그렇지 않을 수도 있다.

분산 문제

높은 분산를 평가하기 위해서 개발 세트 성능을 보게 된다.

꽤 좋은 훈련 세트 성능에서 꽤 좋은 개발 세트 성능을 일반화할 수 있는지를 봐야 한다.

높은 분산 문제가 발생한다면 아래와 같이 문제를 해결할 수 있다.

  • 데이터를 더 얻는 것
  • Regularization(정규화)
  • 다른 신경망 네트워크를 사용

높은 분산 문제가 있을 때 이를 해결하는 가장 좋은 방법은 데이터를 더 얻는 것이다. 얻을 수 있다면 가장 좋은 방법이다.

그러나 가끔은 데이터를 더 얻지 못하는 경우가 있기 때문에 과대적합을 줄이기 위해 정규화를 시도할 수 있다.

 

이 방법들은 낮은 편향과 분산을 찾을 때까지 계속 시도하고 반복하게 된다.

몇 가지 중요한 것은 첫 번째로 높은 편향이냐 분산이냐에 따라 시도해 볼 수 있는 방법이 달라질 수 있다.
그래서 주로 훈련과 개발 세트를 편향이나 분산 문제가 있는지 진단하는데 사용한다. 그 결과 시도해 볼 수 있는 방법을 적절하게 선택한다.
예를 들어 높은 편향 문제가 있다면 더 많은 훈련 데이터를 얻는 것은 크게 도움이 되지 않는다. 가장 효율적인 방법이 아니라는 것이다.
따라서 편향과 분산, 혹은 둘 다의 문제가 얼마나 있는지 명확히 하는 것은 가장 유용한 시도를 선택하는데 집중할 수 있돌고 한다.


편향-분산 트레이드 오프

초기 머신러닝의 시대에는 편향-분산 트레이드 오프에 대해 많은 논의가 있었다.
그 이유는 시도할 수 있는 많은 것들이 편향을 증가시키고 분산을 감소시키거나 편향을 감소시키고 분산을 증가시키기 때문이다.
딥러닝 이전 시대로 돌아가면 툴이 그렇게 많지는 않았다. 서로 나쁘게 하지 않고 편향만 감소시키거나 분산만 감소시키는 툴이 많이 없었다. 그러나 현대의 딥러닝 빅데이터 시대에는 더 큰 네트워크를 훈련시키고 더 많은 데이터를 얻는 것이 둘 다의 경우에 항상 적용되는 것은 아니지만, 만약 그런 경우라면 정규화를 올바르게 했다면 더 큰 네트워크를 갖는 것이 대부분 분산을 해치지 않고 편향만을 감소시킨다. 그리고 데이터를 더 얻는 것도 대부분 편향을 해치지 않고 분산을 감소시킨다.
따라서 더 큰 네트워크를 훈련시키거나 더 많은 데이터를 얻는 것은 서로 영향을 미치지 않고 편향만을 감소시키거나 분산만을 감소시킨다.

이것이 지도 학습에 딥러닝이 매우 유용한 큰 이유 중 하나라고 생각한다. 편향과 분산의 균형을 신경써야 하는 트레이드 오프가 훨씬 적기 때문이다. 그러나 가끔은 편향이나 분산을 줄이는데 어쩔 수 없이 다른 것을 증가시키는 선택을 하는 경우도 있다.
Regularization(정규화)는 분산을 줄이는데 매우 유용한 기술이다. 정규화를 사용하면 편향을 조금 증가시킬 수 있어 약간의 편향-분산 트레이드 오프가 있다. 하지만 충분히 큰 네트워크가 있다면 그렇게 크게 증가하지는 않는다. 다음은 정규화에 대한 영상을 보고 신경망에 정규화를 적용하는 방법에 대해 정리하겠다.

'AI > DL' 카테고리의 다른 글

Dropout Regularization (C2W1L06)  (0) 2025.01.28
Why Regularization Reduces Overfitting (C2W1L05)  (0) 2025.01.27
Regularization (C2W1L04)  (0) 2025.01.27
Bias/Variance (C2W1L02)  (0) 2025.01.26
Train/Dev/Test Sets (C2W1L01)  (0) 2025.01.26