Broccoli's House
※ 이 글의 내용은 O'REILLY의 책을 기반으로 한다. 학습 관련 기술 : 초기 가중치 설정 가중치의 초깃값 - 가중치의 초깃값을 지정해주는 일은 학습에서 매우 중요한 부분이다. 지정해 주지 않으면 컴퓨터가 무작위로 가중치의 초깃값을 지정하고 학습을 해나가는데, 만약 가중치의 초깃값이 최적값과 멀리 떨어져있다면 학습하는데 오랜 시간이 걸리게 된다. 또한 오래 학습할 경우 과대적합(Overfitting)의 가능성을 내포하고 있으므로 초기 가중치를 설정하여 빠르게 학습하는 것이 매우 중요하다. - 가중치 감소(Weight Decay) : 가중치 감소는, 간단히 말해서 가중치 매개변수의 값이 작아지도록 학습하는 방법이다. 가중치 값을 작게 하여 과대적합이 일어나지 않게 하는 것이다. 특정 가중치 값을 0으..
※ 이 글의 내용은 O'REILLY의 책을 기반으로 한다. 학습 관련 기술 : 매개변수 갱신 매개변수 갱신 - 최적화(Optimization) : 학습 모델과 실제 레이블과의 차이는 손실 함수로 표현되며, 학습의 목적은 오차, 손실 함수의 값을 최대한 작게 하도록하는 매개변수(가중치, 편향)를 찾는 것이다. 즉, 매개변수의 최적값을 찾는 문제이며, 이러한 문제를 푸는 것을 최적화라 한다. - 손실 함수를 최소화하는 매개변수를 찾는 방법에는 여러 가지가 있다. 가장 간단하게는 손실 함수의 그래프에서 가장 낮은 지점을 찾아가도록 손실 함수의 기울기를 구해 최적값을 찾아가는 확률적 경사 하강법(SGD)과 이 방법의 단점을 보완한 모멘텀 및 AdaGrad, Adam 방법 등이 있다. 이것들을 하나하나 알아보도록..
※ 이 글의 내용은 O'REILLY의 책을 기반으로 한다. 오차역전파법 : 역전파 및 예시 계산 그래프 - 계산 그래프(Computational Graph) : 계산 그래프란 계산 과정을 그래프로 나타낸 것이다. 그래프는 자료구조의 일종으로 여러 개의 노드(node)와 그 노드들을 잇는 선, 엣지(edge)로 표현된다. 덧셈 역전파 - z=x+y 수식을 계산 그래프로 나타내면 왼쪽 위와 같다. 우측은 좌측의 계산 그래프의 역전파이다. 계산 그래프의 최종 출력이 L이라하면, z가 L에 끼치는 영향력은 ∂L/∂z으로 표현된다. 마찬가지로, x가 최종 출력 L에 끼치는 영향력은 ∂L/∂x, y가 최종 출력 L에 끼치는 영향력은 ∂L/∂y이다. ∂L/∂x에 연쇄 법칙을 적용하면 ∂L/∂x는 ∂L/∂z에 ∂z/∂..