목록군집 (3)
Broccoli's House
※ 이 글의 내용은 O'REILLY의 책을 기반으로 한다. 군집 알고리즘 : DBSCAN DBSCAN - DBSCAN(Density-Based Spatial Clustering of Applications with Noise) : DBSCAN은 밀도를 기반으로 하여 군집화하는 매우 유용한 군집 알고리즘이다. k-평균 군집이나 계층적 군집 알고리즘의 경우 데이터 간의 거리를 이용하여 클러스터를 나누는데에 반해, DBSCAN 알고리즘은 데이터 포인트가 세밀하게 몰려 있어 밀도가 높은 부분을 군집화하는 방식이다. - 먼저 DBSCAN 알고리즘은 특성 공간(Feature Space)에서 데이터가 밀집해있는 지역의 포인트를 찾는다. 이러한 지역을 특성 공간의 밀집 지역(Dense Region)이라 한다. 이러한 ..
※ 이 글의 내용은 O'REILLY의 책을 기반으로 한다. 군집 알고리즘 : 병합 군집 병합 군집 - 병합 군집(Agglomerative Clustering) : 각각의 데이터 포인트를 하나의 클러스터로 지정하고, 지정된 개수의 클러스터가 남을 때까지 가장 비슷한 두 클러스터를 합쳐 나가는 알고리즘. 두 클러스터를 합쳐 나가는 방식에는 모든 클러스터 내의 분산을 가장 작게 증가시키는 두 클러스터를 합치는 방식(Ward), 클러스터 포인트 사이의 평균 거리가 가장 짧은 두 클러스터를 합치는 방식(Average), 클러스터 포인트 사이의 최대 거리가 가장 짧은 두 클러스터를 합치는 방식(Complete) 등이 있다. Ward 방식이 대부분의 데이터 세트에 알맞게 동작한다. - 초기에는 각 포인트가 하나의 클..
※ 이 글의 내용은 O'REILLY의 책을 기반으로 한다. 군집 알고리즘 : k-평균 군집(k-means) 군집 - 군집(Clustering) : 군집은 데이터를 비슷한 것끼리 묶어 클러스터(Cluster)라는 그룹으로 나누는 작업이다. 군집 알고리즘의 목표는 한 클러스터 안의 데이터 포인트끼리는 매우 비슷하고, 다른 클러스터의 데이터 포인트와는 구분되도록 데이터를 나누는 것이다. 데이터 포인트들 간의 유사성(Similarity)을 비교하여 데이터를 나눈다. 분류 알고리즘과 비슷하게 군집 알고리즘은 각 데이터 포인트가 어느 클러스터에 속하는지 예측한다. - 유사성(Similarity) : 유사성의 실제 의미는 철학적인 문제이고, 직관적으로 아는 것이라 정의하기 힘들다. 데이터 포인트 사이의 유사성을 측정..