빅데이터분석준전문가자격증

ADsP. PART.3 - 데이터 분석 - 통계분석 - 군집(clustering)분석

theblack0 2022. 6. 28. 12:16
반응형

군집분석(Clustering Analysis)

여러 변수 값들로부터 n개의 개체를 유사란 성격을 가진 몇개의 군집으로 집단화하고 형성된 군집들의 특성을 파악해 군집들 사이의 관계를 분석하는 다변량분석기법

계층적 군집(Hierarchical Clustering)

계층적 군집분석의 특징

  • 가장 유사한 개체를 묶어 나가는 과정을 반복하여 원하는 개수의 군집을 형성하는 방법
  • 유사도 판단은 두 개체 간의 거리에 기반하므로 거리 측정에 대한 정의가 필요함
    • 유클리드,맨허튼,민코프스키,마할라노비스 등
  • 이상치에 민감함
  • 사건에 군집 수 K를 설정할 필요가 없는 탐색적 모형
  • 군집을 형성하는 데 매 단계에서 지역적 최적화를 수행해 나가는 방법을 사용하므로 그 결과가 전역적인 최작해라고 볼수 없음
  • 병합적 방법에서 한 번 군집이 형성되면 군집에 속한 개체는 다른 군집으로 이동할 수 없음
  • hclust()함수, cluster패키지의 agnes(), mclust()함수 사용

 

계층적 군집(Hierarchical Clustering)   33회*2출제

 계층적 군집 - 응집형(병합 군집) 군집 방법

A - 최단 연결법

  • 단일 연결법이라고도 하며, 두 군집 사이의 거리를 군집에서 하나씩 관측 값을 뽑았을 때 나타날 수 있는 거리의 최소값을 측정, 고립된 군집을 찾는 데 중점을 둔 방식

B - 최장 연결법

  • 완전연결법이라고도 하며, 두 군집 사이의 거리를 군집에서 하나씩 관측 값을 뽑았을 때 나타날 수 있는 거리의 최대값을 측정

C - 중심연결법

  • 두 군집의 중심 간의 거리를 측정함
  • 두 군집이 결합될 때 새로운 군집의 평균은 가중평균을 통해 구해짐

D - 와드 연결법

  • 계층적 군집내의 오차제곱합에 기초하여 군집을 수행하는 군집방법
  • 크기가 비슷한 군집끼리 병합하는 경향이 있음

E-평균 연결법

  • 모든 항목에 대한 거리 평균을 구하면서 군집화, 계산량이 많아질 수 있음

 

 

계층적 군집의 거리

수학적 거리 개념 : 유클리드,맨허튼,민코프스키, 동계적 거리 개념 : 표준화,마할라노비스

 

***유클리드(Euclidean)***

  • 두 점 사이의 가장 직관적이고 일반적인 거리의 개념, 방향성이 고려되지 않음

***맨허튼(Manhattan)***

  • 두점의 각 성분별 차의 절대값 합

**민코프스키(Minkowski)***

  • 거리 차수와 함계 사용되며, 일반적으로 사용되는 거리 차수는 1,2,∞
  • q=2이면 Euclidean, q=1이면 Manhattan Distance

표준화 거리

  • 각 변수를 해당 변수의 표준편차로 척도 변환한 루에 유클리드 거리를 계산한 것으로 통계학 거리(Statistical distance)라고도 함
  • 표준화를 하면 척도의 차이, 분산의 차이로 인한 왜곡을 피할 수 있음

마할라노비스

  • 변수의 표준화와 함께 변수 간의 상관셩을 동시에 고려한 통계학 거리

dist함수

  • 거리측정에 사용하는 함수로 사용가능한 개념으로 유클리드,맨허튼,민코프스키,maximum,canberra,binary 등이 있음

***코사인(cosine)거리***

  • 두 백터 사이의 사잇각을 계산해서 유사한 정도를 구하는 것
  • 값이 1인 경우 유사도가 -1인 경우 유사도가 매우 작음을 의미함

계층적 군집의 거리

  • 수학적 거리 개념의 종류

 

비계층적 군집(Hierarchical Clustering)

비계층적 군집 - 분할적 군집방법 -   K-중심 군집

K-means

  • k-mean 방법은 사전에 군집의 수 k를 정해 주어야함 ( k:hyperparameter)
  • 군집 수 k가 원데이터 구조에 적합하지 않으면 좋은 결과를 얻을 수 없음
  • 알고리즘이 단순하며 빠르게 수행되어 계층적 군집보다 많은 양의 자료를 처리
  • k-means 군집은 잡음이나 이상값에 영향을 받기 쉬움
  • k-means 분석 전에 이상값을 제거하는 것도 좋은 방법
  • 평균 대신 중앙값을 사용하는 k-medoids군집을 사용할 수 있음

 

k-means 절차

  1. 초기 군집의 중심으로 k개의 객체를 임의로 선택한다
  2. 각 자료를 가장 가까운 군집의 중심에 할당한다
  3. 각 군집 내의 자료들의 평균을 계산하여 군집의 중심을 계산한다
  4. 군집 중심의 변화가 거의 없을 때까지 2,3을 반복한다

 

DBSCAN

  • 밀도 기반 클러스터링으로 점이 세밀하게 몰려 있어 밀도가 높은 부분을 클러스터링 함
  • 어느 점을 기준으로 반경 내에 점이 n개 이상 있으면 하나의 군집으로 인식하는 방식
  • Gaussian(가우스) 분포가 아닌 임의적 모양의 군집분석에 적합함
  • k값을 정할 필요 없음, outlier에 의한 성능 하락을 완화할 수 있음

 

혼합분포군집

  • 데이터가 봉우리가 2개인 분포, 도넛 형태의 분포 등 복잡한 형태를 가진 분포의 경우 여러 분포를 확률적으로 선형 결합한 혼합분포로 설명될 수 있음
  • 데이터가 k개의 모수적 모형의 가중합으로 표현되는 모집단 모형에서 나왔다는 가정하에, 추정된 k개의 모형 중 어느 모형으로부터 나왔을 확률이 높은지에 따라 군집분류를 수행
  • 모수와 가중치 추정에 EM알고리즘이 사용됨(Expectation Maximization)

EM알고리즘

  1. 모수(평균,분산,혼합계수)에 대해 임의의 초기값을 정함
    1. 잠재변수(latent variable) : 어느 집단에 속하는 지에 대한 정보를 갖는 변수
  2. E step : k개의 모형 군집에 대해 모수를 사용해 각 군집에 속할 사후확률을 구함
  3. M step : 사후확률을 이용해 최대 우도 추정으로 모수를 다시 측정하고, 이를 반복함

군집화 평가 지수

 

  • 실루엣계수:군집 내 거리와 군집간의 거리를 기준으로 군집집분할성과를 측정하는 방식
    클러스터 안의 데이터들이 다른 클러스터와 비교해 얼마나 비슷한가를 나타내는 군집평가

실루엣 계수(Silhouette Coefficient)

  • 실루엣 지표가 1에 가까울 수록 군집화가 잘되었다고 판단
  • 실루엣 지표가 1:한 군집의 모든 개체가 한치도 떨어져 있지 않고 붙어있는 경우
  • 실루엣 지표가 0.5보다 크면 결과가 타당한 것으로 평가

Dumn Index(DI)

  • 군집과 군집 사이 거리 중 최솟값 / 군집 내 데이터들 거리 중 최댓값
  • 분자가 클수록 군집 간의 거리가 멀고, 분모가 클수록 군집 내 데이터가 모여있음
  • Dumn Index가 클수록 군집화가 잘 되었다고 평가

*****************군집분석 문제 33회 출제**********************************************

덴드로그램에서 Height 150에서 나눌 경우 군집의 수는?  3개 

33회는 Height 수가 60이였음

 

SOM(self-Organizing Maps)

SOM이란?

  • 자기 조직화지도
  • 인공신경망의 한 종류로, 차원축소와 군집화를 동시에 수행하는 기법
  • 비지도 학습(Unsupervised Learning)의 한 가지 방법
  • 고차원으로 표현된 데이터를 저차원으로 변환해서 보는 데 유용함 (고차원 ->저차원)
  • 입력층과 2차원의 격자 형태의 경쟁층(=출력층)으로 이루어져 있음(2개의 층으로 구성)

 

SOM Process

  • 단계1 : SOM의 노드에 대한 연결강도(weight)초기화
  • 단계2 : 입력 백터와  경쟁 층 노드 간의 거리 계산 및 입력백터와 가까운 노드 선택 -> 경쟁
  • 단계3 : 경쟁에서 선택된 노드와 이웃 노드의 가중치(연결강도) 갱신 ->협력 및 적용
  • 단계4 : 단계2로 가서 반복

SOM vs 신경망 모형

  • 신경망 모형은 연속적인 layer로 구성된 반면, SOM은 2차원의 그리드(격자)로 구성
  • 신경망 모형은 에러 수정을 학습하는 반면 SOM은 경쟁학습 실시
  • 신경망은 역전파 알고리즘이지만, SOM은 전방패스를 사용해 속도가 매우 빠름
반응형