Broccoli's House
#2-(1) 지도 학습 본문
※ 이 글의 내용은 O'REILLY의 <파이썬 라이브러리를 활용한 머신러닝> 책을 기반으로 한다.
지도 학습
- 지도 학습
- 분류와 회귀
- 분류(Classification) : 분류는 미리 정의된 클래스 레이블 중 하나를 예측하는 것이다. 입력은 여러 개일 수 있지만 나올 수 있는 출력의 수는 정해져있고, 예측하고자 하는 클래스(출력) 사이에는 어떠한 연속성도 존재하지 않는다. 즉, 앞서 보았던 붓꽃의 품종 분류 예제가 에 대한 문제가 된다. 분류는 두 개의 클래스로만 분류하는 이진 분류와 셋 이상 여러개의 클래스로 분류하는 다중 분류로 나뉜다.
- 회귀(Regression) : 회귀는 연속적인 숫자, 실수를 예측하는 것이다. 분류와는 달리 입력과 출력 모두 여러 개일 수 있고, 클래스(출력)사이에는 연속성이 존재한다. 거주지에 따른 소득을 예상할 때, 이것은 회귀 문제가 된다.
- 일반화
- 과대적합과 과소적합
- 과대적합(Overfitting) : 학습을 과하게 하여 훈련 데이터에만 딱 맞는 모델이 생성된 경우를 과대적합이라고 한다. 훈련 데이터에 너무 가깝게 맞추어져 있어서 그 이외에 새로운 테스트 데이터나 실제 사용에 있어 일반화되기 어려울 때 발생한다. 과대적합은 머신러닝의 가장 큰 문제점이다. 더 많고 다양한 훈련 데이터를 입력으로 주거나, 모델을 규제(Regularization)하는 기술적인 방법으로 해결할 수 있다.
- 과소적합(Underfitting) : 과대적합과는 반대로, 훈련이 부족해 모델이 너무 간단한 경우를 과소적합이라 한다. 과소적합의 경우 데이터의 면면과 다양성을 잡아내지 못해 훈련 데이터 세트에도 잘 맞지 않는다.
<복잡도에 따른 모델의 예측 정확성>
- 모델을 복잡하게 할수록 훈련 데이터에 대한 정확도는 높아진다. 그러나 너무 과하게 복잡해지는 경우 오히려 정확도가 더 떨어져 일반화가 잘 되지 않는다. 일반화 성능이 최대가 되는 최적점(Sweet spot)에 있는 모델을 찾아야 한다.
'공부 > 머신러닝' 카테고리의 다른 글
#2-(4) 지도학습 알고리즘 : 나이브 베이즈 (0) | 2018.01.21 |
---|---|
#2-(3) 지도학습 알고리즘 : 선형 모델 (0) | 2018.01.21 |
#2-(2) 지도학습 알고리즘 : k-최근접 이웃(k-NN) (0) | 2018.01.20 |
#1-(2) 예제 : 붓꽃의 품종 분류 (0) | 2018.01.20 |
#1-(1) 머신러닝 소개 (0) | 2018.01.19 |