목록비지도학습 (7)
Broccoli's House
※ 이 글의 내용은 O'REILLY의 책을 기반으로 한다. 군집 알고리즘 : DBSCAN DBSCAN - DBSCAN(Density-Based Spatial Clustering of Applications with Noise) : DBSCAN은 밀도를 기반으로 하여 군집화하는 매우 유용한 군집 알고리즘이다. k-평균 군집이나 계층적 군집 알고리즘의 경우 데이터 간의 거리를 이용하여 클러스터를 나누는데에 반해, DBSCAN 알고리즘은 데이터 포인트가 세밀하게 몰려 있어 밀도가 높은 부분을 군집화하는 방식이다. - 먼저 DBSCAN 알고리즘은 특성 공간(Feature Space)에서 데이터가 밀집해있는 지역의 포인트를 찾는다. 이러한 지역을 특성 공간의 밀집 지역(Dense Region)이라 한다. 이러한 ..
※ 이 글의 내용은 O'REILLY의 책을 기반으로 한다. 군집 알고리즘 : 병합 군집 병합 군집 - 병합 군집(Agglomerative Clustering) : 각각의 데이터 포인트를 하나의 클러스터로 지정하고, 지정된 개수의 클러스터가 남을 때까지 가장 비슷한 두 클러스터를 합쳐 나가는 알고리즘. 두 클러스터를 합쳐 나가는 방식에는 모든 클러스터 내의 분산을 가장 작게 증가시키는 두 클러스터를 합치는 방식(Ward), 클러스터 포인트 사이의 평균 거리가 가장 짧은 두 클러스터를 합치는 방식(Average), 클러스터 포인트 사이의 최대 거리가 가장 짧은 두 클러스터를 합치는 방식(Complete) 등이 있다. Ward 방식이 대부분의 데이터 세트에 알맞게 동작한다. - 초기에는 각 포인트가 하나의 클..
※ 이 글의 내용은 O'REILLY의 책을 기반으로 한다. 군집 알고리즘 : k-평균 군집(k-means) 군집 - 군집(Clustering) : 군집은 데이터를 비슷한 것끼리 묶어 클러스터(Cluster)라는 그룹으로 나누는 작업이다. 군집 알고리즘의 목표는 한 클러스터 안의 데이터 포인트끼리는 매우 비슷하고, 다른 클러스터의 데이터 포인트와는 구분되도록 데이터를 나누는 것이다. 데이터 포인트들 간의 유사성(Similarity)을 비교하여 데이터를 나눈다. 분류 알고리즘과 비슷하게 군집 알고리즘은 각 데이터 포인트가 어느 클러스터에 속하는지 예측한다. - 유사성(Similarity) : 유사성의 실제 의미는 철학적인 문제이고, 직관적으로 아는 것이라 정의하기 힘들다. 데이터 포인트 사이의 유사성을 측정..
※ 이 글의 내용은 O'REILLY의 책을 기반으로 한다. 비지도 변환 : NMF(비음수 행렬 분해) 비음수 행렬 분해 - 비음수 행렬 분해(Non-negative Matrix Factorization) : 음수가 포함되지 않은, 전체 원소가 양수인 행렬 V를 음수를 포함하지 않는 행렬 W와 H의 곱으로 분해하는 알고리즘이다. 행렬에 음수가 없으면 분해한 결과 행렬을 찾기 쉽게 만든다. 일반적으로 행렬 분해는 정확한 해가 없기 때문에, 이 알고리즘은 대략적인 해를 구하게 된다. - NMF 알고리즘은 PCA와 유사하고 차원 축소에도 사용할 수 있다. PCA처럼 어떤 성분의 가중치 합으로 각 데이터 포인트를 나타낼 수 있다. 다만 PCA에서는 데이터의 분산이 가장 크고 수직인 성분을 찾았다면, NMF에서는 ..
※ 이 글의 내용은 O'REILLY의 책을 기반으로 한다. 비지도 변환 : PCA(주성분 분석) 비지도 변환 - 비지도 변환 : 비지도 학습을 사용하여 데이터를 변환한 것이다. 이렇게 데이터를 변환하는 이유는 주로 데이터를 시각화하거나, 데이터를 압축하거나, 지도 학습에 사용하기 위해 정보가 더 잘 드러나도록 하기 위해서이다. 비지도 변환에는 여러가지가 있으나 흔히 사용하는 알고리즘인 주성분 분석(Principal Component Analysis : PCA), 특성 추출에 널리 사용되는 비음수 행렬 분해(Non-negative Matrix Factorization : NMF)와 2차원 산점도를 이용하여 시각화 용도로 많이 사용하는 t-SNE(t-distributed Stochastic Neighbor ..
※ 이 글의 내용은 O'REILLY의 책을 기반으로 한다. 비지도 학습 비지도 학습 - 비지도 학습(Unsupervised Learning) : 사용자가 알고 있는 출력 값이나 정보를 입력 값과 비교하여 학습하는 지도학습 알고리즘과는 다르게, 비지도 학습은 그러한 출력이나 정보 없이 학습 알고리즘을 가르쳐야 하는 모든 종류의 머신러닝을 가리킨다. 즉, 비지도 학습에서의 알고리즘은 입력 데이터만으로 데이터에서 지식을 추출할 수 있어야 한다. - 비지도 학습에는 데이터의 비지도 변환(Unsupervised Transformation)과 군집(Clustering)이 있다. 비지도 변환은 데이터를 새롭게 표현하여 사람이나 다른 머신러닝 알고리즘이 원래 데이터보다 쉽게 해석할 수 있도록 만드는 알고리즘이다. 따라..
※ 이 글의 내용은 O'REILLY의 책을 기반으로 한다. 머신러닝 소개 머신러닝이란? - 머신러닝(Machine Learning)은 인공지능의 한 분야로, 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야이자, 데이터에서 지식을 추출하는 일종의 소프트웨어 및 프로그램을 일컫기도 한다. - 머신러닝에는 지도 학습(Supervised Learning)과 비지도 학습(Unsupervised Learning)이 있다. 지도 학습 - 지도 학습(Supervised Learning) : 사용자가 데이터를 미리 분류하여, 입력과 그에 따른 출력을 가진 데이터 세트를 알고리즘에 제공하고, 알고리즘은 주어진 입력에서 원하는 출력을 만드는 '방법'을 찾는 방식이다. 입력 데이터로부터 기대한 출력이 나오도록..