Pytorch로 시작하는 딥러닝 입문(06-10. 기울기 소실과 폭주, 기울기 초기화: Vanishing Gradient, Exploding Gradient, Weight Initialization)
깊은 인공신경망을 학습하다보면 역전파 과정에서 입력층으로 갈수록 기울기가 점차적으로 작아지는 현상이 발생할 수 있다. 입력층에 가까운 층들에서 가중치들이 제대로 업데이트 되지 않으면 최적의 모델을 찾을 수 없다. 이를 기울기 소실(Gradient Vanishing)이라고 한다. 반대의 경우로, 기울기가 점차 커지면서 가중치들이 비정상적으로 큰 값이 되어 발산되기도 한다. 이를 기울기 폭주(Gradient Exploding)이라고 하며, 뒤에서 배울 순환신경망(Recurrent Neural Network, RNN)에서 발생할 수 있다. 여기서는 기울기 소실 또는 기울기 폭주를 막는 방법들에 대해 다룬다. ♣ ReLU와 ReLU의 변형들시그모이드 함수를 사용하면 입력의 절대값이 클 경우, 시그모이드 ..
2024.03.17