목록알고리즘 (5)
Broccoli's House
※ 이 글의 내용은 O'REILLY의 책을 기반으로 한다. 군집 알고리즘 : DBSCAN DBSCAN - DBSCAN(Density-Based Spatial Clustering of Applications with Noise) : DBSCAN은 밀도를 기반으로 하여 군집화하는 매우 유용한 군집 알고리즘이다. k-평균 군집이나 계층적 군집 알고리즘의 경우 데이터 간의 거리를 이용하여 클러스터를 나누는데에 반해, DBSCAN 알고리즘은 데이터 포인트가 세밀하게 몰려 있어 밀도가 높은 부분을 군집화하는 방식이다. - 먼저 DBSCAN 알고리즘은 특성 공간(Feature Space)에서 데이터가 밀집해있는 지역의 포인트를 찾는다. 이러한 지역을 특성 공간의 밀집 지역(Dense Region)이라 한다. 이러한 ..
※ 이 글의 내용은 O'REILLY의 책을 기반으로 한다. 비지도 학습 비지도 학습 - 비지도 학습(Unsupervised Learning) : 사용자가 알고 있는 출력 값이나 정보를 입력 값과 비교하여 학습하는 지도학습 알고리즘과는 다르게, 비지도 학습은 그러한 출력이나 정보 없이 학습 알고리즘을 가르쳐야 하는 모든 종류의 머신러닝을 가리킨다. 즉, 비지도 학습에서의 알고리즘은 입력 데이터만으로 데이터에서 지식을 추출할 수 있어야 한다. - 비지도 학습에는 데이터의 비지도 변환(Unsupervised Transformation)과 군집(Clustering)이 있다. 비지도 변환은 데이터를 새롭게 표현하여 사람이나 다른 머신러닝 알고리즘이 원래 데이터보다 쉽게 해석할 수 있도록 만드는 알고리즘이다. 따라..
※ 이 글의 내용은 O'REILLY의 책을 기반으로 한다. 지도 학습 알고리즘 : 결정 트리 앙상블 앙상블 - 앙상블(Ensemble) : 앙상블은 여러 머신러닝 모델을 연결하여 더 강력한 모델을 만드는 기법이다. 큰 데이터 세트가 있을 때, 데이터 세트를 나누어 독립적으로 운영되는 각각의 머신러닝을 통해 학습시킨 뒤 모델을 합쳐 전체 데이터의 결과를 산출하는 방법이다. 단일 머신러닝 모델로 학습하였을 때 보다 2%에서 5%정도 상승된 결과를 얻을 수 있다. - 머신러닝에는 여러 종류의 앙상블 모델이 많지만, 그 중에서 모델을 구성하는 기본 요소로 결정 트리를 사용하는 랜덤 포레스트(Random Forest)와 그래디언트 부스팅(Gradient Boosting) 이 두 앙상블 모델이 분류와 회귀 문제의 ..
※ 이 글의 내용은 O'REILLY의 책을 기반으로 한다. 지도 학습 알고리즘 : 나이브 베이즈 나이브 베이즈 분류기 - 나이브 베이즈(Naive Bayes) 분류기 : 데이터의 각 특성을 개별로 취급하여 매개변수를 학습하고, 각 특성에서 클래스 별로 통계를 단순하게 취합한다. 선형 모델과 매우 유사하나 로지스틱 회귀(Logistic Regression)나 선형 SVC보다 훈련 속도가 빠르고, 일반화 성능은 조금 뒤쳐진다. 데이터의 특성들이 각각 독립적이고 동등하게 중요하다는 'Naive(순진한)' 가정이 들어간다. 그러나 실제 문제에서 모든 특성이 동등하게 중요하지 않는 경우가 많다. - Ex) 어떠한 병에 걸릴 확률이 1%, 걸리지 않을 확률이 99%, 그 병에 대한 검사를 할 확률이 20%, 검사하..
※ 이 글의 내용은 O'REILLY의 책을 기반으로 한다. 지도 학습 알고리즘 : k-최근접 이웃 k-최근접 이웃 - k-최근접 이웃(k-Nearest Neighbors) 알고리즘은 가장 간단한 머신러닝 알고리즘으로써, 훈련 데이터 세트를 저장하는 것이 모델을 만드는 과정의 전부이다. 새로운 데이터 포인트가 주어지면 알고리즘이 훈련 데이터 세트에서 가장 가까운 데이터 포인트, '최근접 이웃'을 찾는다. 이때, k는 찾고자 하는 최근접 이웃의 개수를 뜻한다. k-최근접 이웃 분류- k-최근접 이웃 분류 : 알고리즘이 가장 간단하도록 k가 1인 경우, 가장 가까운 훈련 데이터 포인트 하나를 최근접 이웃으로 찾아 출력 예측에 사용한다. k가 2 이상일 때는 더 많은 이웃을 가지고 있는 클래스가 출력이 된다. ..