Broccoli's House
※ 이 글의 내용은 O'REILLY의 책을 기반으로 한다. 군집 알고리즘 : k-평균 군집(k-means) 군집 - 군집(Clustering) : 군집은 데이터를 비슷한 것끼리 묶어 클러스터(Cluster)라는 그룹으로 나누는 작업이다. 군집 알고리즘의 목표는 한 클러스터 안의 데이터 포인트끼리는 매우 비슷하고, 다른 클러스터의 데이터 포인트와는 구분되도록 데이터를 나누는 것이다. 데이터 포인트들 간의 유사성(Similarity)을 비교하여 데이터를 나눈다. 분류 알고리즘과 비슷하게 군집 알고리즘은 각 데이터 포인트가 어느 클러스터에 속하는지 예측한다. - 유사성(Similarity) : 유사성의 실제 의미는 철학적인 문제이고, 직관적으로 아는 것이라 정의하기 힘들다. 데이터 포인트 사이의 유사성을 측정..
※ 이 글의 내용은 O'REILLY의 책을 기반으로 한다. 비지도 변환 : NMF(비음수 행렬 분해) 비음수 행렬 분해 - 비음수 행렬 분해(Non-negative Matrix Factorization) : 음수가 포함되지 않은, 전체 원소가 양수인 행렬 V를 음수를 포함하지 않는 행렬 W와 H의 곱으로 분해하는 알고리즘이다. 행렬에 음수가 없으면 분해한 결과 행렬을 찾기 쉽게 만든다. 일반적으로 행렬 분해는 정확한 해가 없기 때문에, 이 알고리즘은 대략적인 해를 구하게 된다. - NMF 알고리즘은 PCA와 유사하고 차원 축소에도 사용할 수 있다. PCA처럼 어떤 성분의 가중치 합으로 각 데이터 포인트를 나타낼 수 있다. 다만 PCA에서는 데이터의 분산이 가장 크고 수직인 성분을 찾았다면, NMF에서는 ..
※ 이 글의 내용은 O'REILLY의 책을 기반으로 한다. 비지도 변환 : PCA(주성분 분석) 비지도 변환 - 비지도 변환 : 비지도 학습을 사용하여 데이터를 변환한 것이다. 이렇게 데이터를 변환하는 이유는 주로 데이터를 시각화하거나, 데이터를 압축하거나, 지도 학습에 사용하기 위해 정보가 더 잘 드러나도록 하기 위해서이다. 비지도 변환에는 여러가지가 있으나 흔히 사용하는 알고리즘인 주성분 분석(Principal Component Analysis : PCA), 특성 추출에 널리 사용되는 비음수 행렬 분해(Non-negative Matrix Factorization : NMF)와 2차원 산점도를 이용하여 시각화 용도로 많이 사용하는 t-SNE(t-distributed Stochastic Neighbor ..