Broccoli's House
#1-(2) 예제 : 붓꽃의 품종 분류 본문
※ 이 글의 내용은 O'REILLY의 <파이썬 라이브러리를 활용한 머신러닝> 책을 기반으로 한다.
예제 : 붓꽃의 품종 분류
- 데이터 불러오기 및 확인
from sklearn.datasets import load_iris |
print("iris_dataset의 키 : {}".format(iris_dataset.keys())) |
>> iris_dataset의 키 : dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names'])
# 'DESCR'은 데이터 세트에 대한 간략한 설명, 'target_names'는 분류해야하는 붓꽃 품종의 이름, 'feature_names'는 붓꽃 특성의 이름, 'data'는 붓꽃의 각 특성에 해당하는 값, 'target'은 data에 맞는 붓꽃의 품종 값을 각각 가지고 있다.
모델 평가를 위한 데이터 처리
- 머신러닝 모델이 잘 작동하는지 알기 위해서는, 모델을 평가할 수 있는 데이터가 필요하다.
- 모델을 만들 때 사용했던 데이터는 모델이 데이터를 모두 기억할 수 있으므로 평가 목적으로 사용해서는 안된다. 따라서, 데이터 세트를 훈련 데이터(Training data)와 테스트 데이터(Test data)로 나눈다. 전체 데이터 세트를 75%의 훈련 세트와 25%의 테스트 세트로 나누는 것이 일반적이다.
|
- 머신러닝 모델 만들기 : k-최근접 이웃 알고리즘
- k-최근접 이웃(k-Nearest Neighbors, k-NN) 알고리즘 : 지도 학습의 한 종류로, 입력 데이터가 들어오면 그 데이터와 가장 가까운 거리에 있는 k개의 데이터 레이블을 참조하여 입력 데이터의 레이블을 정하는 방식의 알고리즘이다.
|
- 예측하기
|
>> 예측 : [0]
>> 예측한 타겟의 이름 : ['setosa']
- 모델 평가하기
y_pred=knn.predict(X_test) |
'공부 > 머신러닝' 카테고리의 다른 글
#2-(4) 지도학습 알고리즘 : 나이브 베이즈 (0) | 2018.01.21 |
---|---|
#2-(3) 지도학습 알고리즘 : 선형 모델 (0) | 2018.01.21 |
#2-(2) 지도학습 알고리즘 : k-최근접 이웃(k-NN) (0) | 2018.01.20 |
#2-(1) 지도 학습 (0) | 2018.01.20 |
#1-(1) 머신러닝 소개 (0) | 2018.01.19 |