Broccoli's House
※ 이 글의 내용은 O'REILLY의 책을 기반으로 한다. 지도 학습 알고리즘 : k-최근접 이웃 k-최근접 이웃 - k-최근접 이웃(k-Nearest Neighbors) 알고리즘은 가장 간단한 머신러닝 알고리즘으로써, 훈련 데이터 세트를 저장하는 것이 모델을 만드는 과정의 전부이다. 새로운 데이터 포인트가 주어지면 알고리즘이 훈련 데이터 세트에서 가장 가까운 데이터 포인트, '최근접 이웃'을 찾는다. 이때, k는 찾고자 하는 최근접 이웃의 개수를 뜻한다. k-최근접 이웃 분류- k-최근접 이웃 분류 : 알고리즘이 가장 간단하도록 k가 1인 경우, 가장 가까운 훈련 데이터 포인트 하나를 최근접 이웃으로 찾아 출력 예측에 사용한다. k가 2 이상일 때는 더 많은 이웃을 가지고 있는 클래스가 출력이 된다. ..
※ 이 글의 내용은 O'REILLY의 책을 기반으로 한다. 지도 학습 지도 학습 - 지도 학습은 입력과 출력에 대한 데이터 세트가 있고, 주어진 입력으로부터 출력을 예측하고자할 때 사용한다. 지도 학습에는 분류와 회귀가 있다. 분류와 회귀 - 분류(Classification) : 분류는 미리 정의된 클래스 레이블 중 하나를 예측하는 것이다. 입력은 여러 개일 수 있지만 나올 수 있는 출력의 수는 정해져있고, 예측하고자 하는 클래스(출력) 사이에는 어떠한 연속성도 존재하지 않는다. 즉, 앞서 보았던 붓꽃의 품종 분류 예제가 에 대한 문제가 된다. 분류는 두 개의 클래스로만 분류하는 이진 분류와 셋 이상 여러개의 클래스로 분류하는 다중 분류로 나뉜다. - 회귀(Regression) : 회귀는 연속적인 숫자,..
※ 이 글의 내용은 O'REILLY의 책을 기반으로 한다. 예제 : 붓꽃의 품종 분류 데이터 불러오기 및 확인from sklearn.datasets import load_iris iris_dataset=load_iris() # scikit-learn 라이브러리에서 붓꽃의 품종 데이터를 불러와 변수에 저장한다. print("iris_dataset의 키 : {}".format(iris_dataset.keys())) # 붓꽃의 데이터 세트의 키워드를 출력한다. >> iris_dataset의 키 : dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names'])# 'DESCR'은 데이터 세트에 대한 간략한 설명, 'target_names'는 분류해..