빅데이터분석준전문가자격증
ADsP. PART.3 - 데이터 분석 - 통계분석 - 군집(clustering)분석
theblack0
2022. 6. 28. 12:16
반응형
군집분석(Clustering Analysis)
여러 변수 값들로부터 n개의 개체를 유사란 성격을 가진 몇개의 군집으로 집단화하고 형성된 군집들의 특성을 파악해 군집들 사이의 관계를 분석하는 다변량분석기법
계층적 군집(Hierarchical Clustering)
계층적 군집분석의 특징
- 가장 유사한 개체를 묶어 나가는 과정을 반복하여 원하는 개수의 군집을 형성하는 방법
- 유사도 판단은 두 개체 간의 거리에 기반하므로 거리 측정에 대한 정의가 필요함
- 유클리드,맨허튼,민코프스키,마할라노비스 등
- 이상치에 민감함
- 사건에 군집 수 K를 설정할 필요가 없는 탐색적 모형
- 군집을 형성하는 데 매 단계에서 지역적 최적화를 수행해 나가는 방법을 사용하므로 그 결과가 전역적인 최작해라고 볼수 없음
- 병합적 방법에서 한 번 군집이 형성되면 군집에 속한 개체는 다른 군집으로 이동할 수 없음
- hclust()함수, cluster패키지의 agnes(), mclust()함수 사용
계층적 군집(Hierarchical Clustering) 33회*2출제
계층적 군집 - 응집형(병합 군집) 군집 방법
A - 최단 연결법
- 단일 연결법이라고도 하며, 두 군집 사이의 거리를 군집에서 하나씩 관측 값을 뽑았을 때 나타날 수 있는 거리의 최소값을 측정, 고립된 군집을 찾는 데 중점을 둔 방식
B - 최장 연결법
- 완전연결법이라고도 하며, 두 군집 사이의 거리를 군집에서 하나씩 관측 값을 뽑았을 때 나타날 수 있는 거리의 최대값을 측정
C - 중심연결법
- 두 군집의 중심 간의 거리를 측정함
- 두 군집이 결합될 때 새로운 군집의 평균은 가중평균을 통해 구해짐
D - 와드 연결법
- 계층적 군집내의 오차제곱합에 기초하여 군집을 수행하는 군집방법
- 크기가 비슷한 군집끼리 병합하는 경향이 있음
E-평균 연결법
- 모든 항목에 대한 거리 평균을 구하면서 군집화, 계산량이 많아질 수 있음
계층적 군집의 거리
수학적 거리 개념 : 유클리드,맨허튼,민코프스키, 동계적 거리 개념 : 표준화,마할라노비스
***유클리드(Euclidean)***
- 두 점 사이의 가장 직관적이고 일반적인 거리의 개념, 방향성이 고려되지 않음
***맨허튼(Manhattan)***
- 두점의 각 성분별 차의 절대값 합
**민코프스키(Minkowski)***
- 거리 차수와 함계 사용되며, 일반적으로 사용되는 거리 차수는 1,2,∞
- q=2이면 Euclidean, q=1이면 Manhattan Distance
표준화 거리
- 각 변수를 해당 변수의 표준편차로 척도 변환한 루에 유클리드 거리를 계산한 것으로 통계학 거리(Statistical distance)라고도 함
- 표준화를 하면 척도의 차이, 분산의 차이로 인한 왜곡을 피할 수 있음
마할라노비스
- 변수의 표준화와 함께 변수 간의 상관셩을 동시에 고려한 통계학 거리
dist함수
- 거리측정에 사용하는 함수로 사용가능한 개념으로 유클리드,맨허튼,민코프스키,maximum,canberra,binary 등이 있음
***코사인(cosine)거리***
- 두 백터 사이의 사잇각을 계산해서 유사한 정도를 구하는 것
- 값이 1인 경우 유사도가 -1인 경우 유사도가 매우 작음을 의미함
계층적 군집의 거리
- 수학적 거리 개념의 종류
비계층적 군집(Hierarchical Clustering)
비계층적 군집 - 분할적 군집방법 - K-중심 군집
K-means
- k-mean 방법은 사전에 군집의 수 k를 정해 주어야함 ( k:hyperparameter)
- 군집 수 k가 원데이터 구조에 적합하지 않으면 좋은 결과를 얻을 수 없음
- 알고리즘이 단순하며 빠르게 수행되어 계층적 군집보다 많은 양의 자료를 처리
- k-means 군집은 잡음이나 이상값에 영향을 받기 쉬움
- k-means 분석 전에 이상값을 제거하는 것도 좋은 방법
- 평균 대신 중앙값을 사용하는 k-medoids군집을 사용할 수 있음
k-means 절차
- 초기 군집의 중심으로 k개의 객체를 임의로 선택한다
- 각 자료를 가장 가까운 군집의 중심에 할당한다
- 각 군집 내의 자료들의 평균을 계산하여 군집의 중심을 계산한다
- 군집 중심의 변화가 거의 없을 때까지 2,3을 반복한다
DBSCAN
- 밀도 기반 클러스터링으로 점이 세밀하게 몰려 있어 밀도가 높은 부분을 클러스터링 함
- 어느 점을 기준으로 반경 내에 점이 n개 이상 있으면 하나의 군집으로 인식하는 방식
- Gaussian(가우스) 분포가 아닌 임의적 모양의 군집분석에 적합함
- k값을 정할 필요 없음, outlier에 의한 성능 하락을 완화할 수 있음
혼합분포군집
- 데이터가 봉우리가 2개인 분포, 도넛 형태의 분포 등 복잡한 형태를 가진 분포의 경우 여러 분포를 확률적으로 선형 결합한 혼합분포로 설명될 수 있음
- 데이터가 k개의 모수적 모형의 가중합으로 표현되는 모집단 모형에서 나왔다는 가정하에, 추정된 k개의 모형 중 어느 모형으로부터 나왔을 확률이 높은지에 따라 군집분류를 수행
- 모수와 가중치 추정에 EM알고리즘이 사용됨(Expectation Maximization)
EM알고리즘
- 모수(평균,분산,혼합계수)에 대해 임의의 초기값을 정함
- 잠재변수(latent variable) : 어느 집단에 속하는 지에 대한 정보를 갖는 변수
- E step : k개의 모형 군집에 대해 모수를 사용해 각 군집에 속할 사후확률을 구함
- M step : 사후확률을 이용해 최대 우도 추정으로 모수를 다시 측정하고, 이를 반복함
군집화 평가 지수
- 실루엣계수:군집 내 거리와 군집간의 거리를 기준으로 군집집분할성과를 측정하는 방식
클러스터 안의 데이터들이 다른 클러스터와 비교해 얼마나 비슷한가를 나타내는 군집평가
실루엣 계수(Silhouette Coefficient)
- 실루엣 지표가 1에 가까울 수록 군집화가 잘되었다고 판단
- 실루엣 지표가 1:한 군집의 모든 개체가 한치도 떨어져 있지 않고 붙어있는 경우
- 실루엣 지표가 0.5보다 크면 결과가 타당한 것으로 평가
Dumn Index(DI)
- 군집과 군집 사이 거리 중 최솟값 / 군집 내 데이터들 거리 중 최댓값
- 분자가 클수록 군집 간의 거리가 멀고, 분모가 클수록 군집 내 데이터가 모여있음
- Dumn Index가 클수록 군집화가 잘 되었다고 평가
*****************군집분석 문제 33회 출제**********************************************
덴드로그램에서 Height 150에서 나눌 경우 군집의 수는? 3개
33회는 Height 수가 60이였음
SOM(self-Organizing Maps)
SOM이란?
- 자기 조직화지도
- 인공신경망의 한 종류로, 차원축소와 군집화를 동시에 수행하는 기법
- 비지도 학습(Unsupervised Learning)의 한 가지 방법
- 고차원으로 표현된 데이터를 저차원으로 변환해서 보는 데 유용함 (고차원 ->저차원)
- 입력층과 2차원의 격자 형태의 경쟁층(=출력층)으로 이루어져 있음(2개의 층으로 구성)
SOM Process
- 단계1 : SOM의 노드에 대한 연결강도(weight)초기화
- 단계2 : 입력 백터와 경쟁 층 노드 간의 거리 계산 및 입력백터와 가까운 노드 선택 -> 경쟁
- 단계3 : 경쟁에서 선택된 노드와 이웃 노드의 가중치(연결강도) 갱신 ->협력 및 적용
- 단계4 : 단계2로 가서 반복
SOM vs 신경망 모형
- 신경망 모형은 연속적인 layer로 구성된 반면, SOM은 2차원의 그리드(격자)로 구성
- 신경망 모형은 에러 수정을 학습하는 반면 SOM은 경쟁학습 실시
- 신경망은 역전파 알고리즘이지만, SOM은 전방패스를 사용해 속도가 매우 빠름
반응형