목록MachineLearning/Clustering (2)
Data Analysis for Investment & Control
클러스터링 기법 중에 대표되는 것으로 다차원 입력 데이터를 어떻게 어떤 그룹에 속하게 할지에 대한 문제를 다룬다. 데이터의 집합을 정의하자. N개로 이루어져 있는 데이터를 K개의 클러스터로 분류하려고 한다(물론 K는 미리 지정한다). K개의 클러스터 정 중앙에 놓여 있는 값을 μk라고 표기 한다. K-means 클러스터링의 아이디어는 K개의 mean(중앙 값)을 이용해 클러스터링 하는 것이다. μk와 이에 속하는 클러스터 데이터 사이의 거리의 총합은 클러스터에 속하지 않는 데이터 사이의 거리의 총합보다 작다. 그러므로 우리의 목표는 주어진 데이터 집합으로부터 이러한 중심 μk의 값을 결정하는 것이다. N개의 데이터를 K개의 클러스터로 구분지어 Sk = {S1, S2, ... SK}의 데이터 집합으로 구분..
Gaussian Mixture Model, 이하 GMM은 클러스터링 방법 중 하나로 데이터의 군집을 가우시안 모델로 표현하는 기법이다. 가우시안 모델의 평균과 분산(μ와 σ)으로부터 군집의 특성을 알 수 있다. 데이터의 분포로부터 가우시안 분포를 선형 결합한 형태라는 가정에서 처리를 한다. GMM에 대한 설명은 아래 블로그에서 그 개념을 잘 설명하고 있다. >> 수식없이 이해하는 Gaussian Mixture Model 먼저 다음과 같이 주어졌다고 하자. 데이터 군집 수 : K각 군집의 평균과 분산 : μk = {μ1, μ2, ..., μK}, σk = {σ1, σ2, ..., σK}표본 데이터 수 : N표본 데이터 xn = {x1, x2, ... xN} 입력 데이터에 대한 확률 분포 함수를 다음과 같이..