목록공부/머신러닝 (16)
Broccoli's House
※ 이 글의 내용은 O'REILLY의 책을 기반으로 한다. 지도 학습 알고리즘 : 나이브 베이즈 나이브 베이즈 분류기 - 나이브 베이즈(Naive Bayes) 분류기 : 데이터의 각 특성을 개별로 취급하여 매개변수를 학습하고, 각 특성에서 클래스 별로 통계를 단순하게 취합한다. 선형 모델과 매우 유사하나 로지스틱 회귀(Logistic Regression)나 선형 SVC보다 훈련 속도가 빠르고, 일반화 성능은 조금 뒤쳐진다. 데이터의 특성들이 각각 독립적이고 동등하게 중요하다는 'Naive(순진한)' 가정이 들어간다. 그러나 실제 문제에서 모든 특성이 동등하게 중요하지 않는 경우가 많다. - Ex) 어떠한 병에 걸릴 확률이 1%, 걸리지 않을 확률이 99%, 그 병에 대한 검사를 할 확률이 20%, 검사하..
※ 이 글의 내용은 O'REILLY의 책을 기반으로 한다. 지도 학습 알고리즘 : 선형 모델 선형 모델 - 선형 모델은 입력 특성에 대한 선형 함수를 만들어 출력을 예측한다. 회귀의 선형 모델- 일반화된 예측 함수 : y = wx+b (w : 가중치, b : 편향)- 회귀를 위한 선형 모델은 특성이 하나일 때는 직선, 두 개일 때는 평면이 된다. - 예측 값 y가 각 특성들의 선형 조합이라는 것은 비현실적인 가정일 수 있다. 그러나 이것은 1차원 데이터에서 생각할 수 있는 편견이다. 특성이 많은 데이터 세트, 특히나 훈련 데이터보다 특성이 더 많은 경우에는 어떤 예측 값 y도 완벽하게 선형 함수로 모델링할 수 있다. - 회귀를 위한 선형 모델은 다양하다. 각 모델들은 훈련 데이터로부터 매개 변수 w와 b..
※ 이 글의 내용은 O'REILLY의 책을 기반으로 한다. 지도 학습 알고리즘 : k-최근접 이웃 k-최근접 이웃 - k-최근접 이웃(k-Nearest Neighbors) 알고리즘은 가장 간단한 머신러닝 알고리즘으로써, 훈련 데이터 세트를 저장하는 것이 모델을 만드는 과정의 전부이다. 새로운 데이터 포인트가 주어지면 알고리즘이 훈련 데이터 세트에서 가장 가까운 데이터 포인트, '최근접 이웃'을 찾는다. 이때, k는 찾고자 하는 최근접 이웃의 개수를 뜻한다. k-최근접 이웃 분류- k-최근접 이웃 분류 : 알고리즘이 가장 간단하도록 k가 1인 경우, 가장 가까운 훈련 데이터 포인트 하나를 최근접 이웃으로 찾아 출력 예측에 사용한다. k가 2 이상일 때는 더 많은 이웃을 가지고 있는 클래스가 출력이 된다. ..
※ 이 글의 내용은 O'REILLY의 책을 기반으로 한다. 지도 학습 지도 학습 - 지도 학습은 입력과 출력에 대한 데이터 세트가 있고, 주어진 입력으로부터 출력을 예측하고자할 때 사용한다. 지도 학습에는 분류와 회귀가 있다. 분류와 회귀 - 분류(Classification) : 분류는 미리 정의된 클래스 레이블 중 하나를 예측하는 것이다. 입력은 여러 개일 수 있지만 나올 수 있는 출력의 수는 정해져있고, 예측하고자 하는 클래스(출력) 사이에는 어떠한 연속성도 존재하지 않는다. 즉, 앞서 보았던 붓꽃의 품종 분류 예제가 에 대한 문제가 된다. 분류는 두 개의 클래스로만 분류하는 이진 분류와 셋 이상 여러개의 클래스로 분류하는 다중 분류로 나뉜다. - 회귀(Regression) : 회귀는 연속적인 숫자,..
※ 이 글의 내용은 O'REILLY의 책을 기반으로 한다. 예제 : 붓꽃의 품종 분류 데이터 불러오기 및 확인from sklearn.datasets import load_iris iris_dataset=load_iris() # scikit-learn 라이브러리에서 붓꽃의 품종 데이터를 불러와 변수에 저장한다. print("iris_dataset의 키 : {}".format(iris_dataset.keys())) # 붓꽃의 데이터 세트의 키워드를 출력한다. >> iris_dataset의 키 : dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names'])# 'DESCR'은 데이터 세트에 대한 간략한 설명, 'target_names'는 분류해..
※ 이 글의 내용은 O'REILLY의 책을 기반으로 한다. 머신러닝 소개 머신러닝이란? - 머신러닝(Machine Learning)은 인공지능의 한 분야로, 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야이자, 데이터에서 지식을 추출하는 일종의 소프트웨어 및 프로그램을 일컫기도 한다. - 머신러닝에는 지도 학습(Supervised Learning)과 비지도 학습(Unsupervised Learning)이 있다. 지도 학습 - 지도 학습(Supervised Learning) : 사용자가 데이터를 미리 분류하여, 입력과 그에 따른 출력을 가진 데이터 세트를 알고리즘에 제공하고, 알고리즘은 주어진 입력에서 원하는 출력을 만드는 '방법'을 찾는 방식이다. 입력 데이터로부터 기대한 출력이 나오도록..