Broccoli's House

#2-(1) 지도 학습 본문

공부/머신러닝

#2-(1) 지도 학습

김콜리 2018. 1. 20. 14:42

※ 이 글의 내용은 O'REILLY의 <파이썬 라이브러리를 활용한 머신러닝> 책을 기반으로 한다.




지도 학습



  • 지도 학습
 - 지도 학습은 입력과 출력에 대한 데이터 세트가 있고, 주어진 입력으로부터 출력을 예측하고자할 때 사용한다. 
지도 학습에는 분류와 회귀가 있다.



  • 분류와 회귀

 - 분류(Classification) : 분류는 미리 정의된 클래스 레이블 중 하나를 예측하는 것이다. 입력은 여러 개일 수 있지만 나올 수 있는 출력의 수는 정해져있고, 예측하고자 하는 클래스(출력) 사이에는 어떠한 연속성도 존재하지 않는다. 즉, 앞서 보았던 붓꽃의 품종 분류 예제가 에 대한 문제가 된다. 분류는 두 개의 클래스로만 분류하는 이 분류와 셋 이상 여러개의 클래스로 분류하는 다중 분류로 나뉜다.


 - 회귀(Regression) : 회귀는 연속적인 숫자, 실수를 예측하는 것이다. 분류와는 달리 입력과 출력 모두 여러 개일 수 있고, 클래스(출력)사이에는 연속성이 존재한다. 거주지에 따른 소득을 예상할 때, 이것은 회귀 문제가 된다.




  • 일반화
 - 일반화(Generalization) : 훈련 데이터로 학습한 머신러닝 모델이 새롭게 들어오는 데이터를 정확히 처리할 수 있는지에 대한 능력을 말한다. 모델이 처음 보는 데이터에 대해 정확하게 예측할 수 있으면 이를 훈련세트에서 테스트 세트로 일반화되었다고 한다. 




  • 과대적합과 과소적합

 - 과대적합(Overfitting) : 학습을 과하게 하여 훈련 데이터에만 딱 맞는 모델이 생성된 경우를 과대적합이라고 한다. 훈련 데이터에 너무 가깝게 맞추어져 있어서 그 이외에 새로운 테스트 데이터나 실제 사용에 있어 일반화되기 어려울 때 발생한다. 과대적합은 머신러닝의 가장 큰 문제점이다. 더 많고 다양한 훈련 데이터를 입력으로 주거나, 모델을 규제(Regularization)하는 기술적인 방법으로 해결할 수 있다.


 - 과소적합(Underfitting) : 과대적합과는 반대로, 훈련이 부족해 모델이 너무 간단한 경우를 과소적합이라 한다. 과소적합의 경우 데이터의 면면과 다양성을 잡아내지 못해 훈련 데이터 세트에도 잘 맞지 않는다.



<복잡도에 따른 모델의 예측 정확성>


 - 모델을 복잡하게 할수록 훈련 데이터에 대한 정확도는 높아진다. 그러나 너무 과하게 복잡해지는 경우 오히려 정확도가 더 떨어져 일반화가 잘 되지 않는다. 일반화 성능이 최대가 되는 최적점(Sweet spot)에 있는 모델을 찾아야 한다.


Comments