Broccoli's House
#3-(3) 학습 : 경사 하강법 본문
※ 이 글의 내용은 O'REILLY의 <밑바닥부터 시작하는 딥러닝> 책을 기반으로 한다.
신경망 학습 : 경사 하강법
- 경사법
- 학습률
- 학습률(Learning Rate) : 위의 식에서 η 기호가 이동하는 거리를 결정한다. 딥러닝에서는 이 것을 학습률이라고 한다. 한 번의 학습으로 매개변수 값을 얼마나 갱신하는가를 정하는 것이 바로 학습률이다. 이것은 시스템이나 모델이 찾는 값이 아니라, 모델을 구성하는 사람이 지정해주어야 하는 값(초매개변수, hyper-parameter)이다. 정답이 있는 것이 아니기 때문에, 환경 등의 요인에 따라 처음에는 0.01 전후로 정하여 학습을 시도해 보는 것이 좋다.
- 학습률이 너무 작거나 또 너무 크면 학습이 제대로 이루어지지 않기 때문에, 일반적으로 학습률의 값을 변경해가면서 올바르게 학습하고 있는지를 확인해야한다. 학습률이 너무 크면 손실 함수 값이 줄어들지 않고 오히려 더 커지는 오버슈팅(overshooting) 현상이 발생한다. 반대로 학습률이 너무 작으면 수렴이 늦어지고, 지역 최소점(local minimum)에 걸릴 수 있다.
- 데이터 전처리
- 경사 하강법의 안정적인 적용과 학습의 안정성 및 속도를 높이기 위하여, 학습 전에 데이터를 처리해주는 것이 필요하다. 데이터의 중심이 0이 되게 하거나(zero-centered data), 데이터가 항상 일정한 범위 안에 들어오도록 정규화(normalization)하는 것이 이에 해당한다.
'공부 > 딥러닝' 카테고리의 다른 글
#4-(2) 오차역전파법 : 역전파 및 예시 (0) | 2018.03.11 |
---|---|
#4-(1) 오차역전파법 : 소개 (0) | 2018.03.11 |
#3-(2) 학습 : 손실 함수 (0) | 2018.02.25 |
#3-(1) 학습 : 신경망 학습 (0) | 2018.02.07 |
#2-(5) 신경망 : MNIST 손글씨 숫자 인식 (1) | 2018.01.30 |