빅데이터분석준전문가자격증

ADsP. PART.3 - 데이터 분석 - 통계분석 - 주성분(Principal Component)분석

theblack0 2022. 6. 28. 14:02
반응형

주성분 분석(PCA)                       19,20회출제

  주성분분석(PCA,Principal Component Analysis)

  • 데이터를 분석할 때 변수의 개수가 많다고 모두 활용하는 것이 꼭 좋은 것이 아님
  • 오히려 변수가 '다중공선성'이 있을 경우 분석 결과에 영향을 줄 수 있음
  • 공분산행렬 또는 상관계수 행렬을 사용해 모든 변수들을 가장 잘 설명하는 주성분을 찾는 방법
  • 상관관계가 있는 변수들을 선형 결합에 의해 상관관계가 없는 새로운 변수(주성분)을 만들고 분산을 극대화하는 변수로 축약함
  • 주성분은 변수들의 선형결합으로 이루어져 있음
  • 독립변수들과 주성분과의 거리인  '정보손실량'을 최소화하거나 

 - 주성분분석 할 때 고민해야 하는 것

  • 공분산행렬과 상관계수행렬 중 어떤 것을 선택할 것인가?
  • 주성분의 개수를 몇 게로 할 것인가?
  • 주성분에 영향을 미치는 변수로 어떤 변수를 선택할 것인가?

 - 공분산 행렬(default) VS 상관계수 행렬

  • 공분산 행렬은 변수의 측정단위를 그대로 반영한 것이고, 상관계수 행렬은 모든 변수의 측정단위를 표준화한 것이다.
  • 공분산행렬을 이용한 경우 측정 단위를 그대로 반영하였기 때문에 변수들의 측정단위에 민감하다.
  • 주성분분석은 거리를 사용하기 때문에 척도에 영향을 받는다(정규화 전후의 결과가 다르다)
  • 설문조사처럼 모든 변수들이 같은 수준으로 점수화 된 경우 공분산행렬을 사용한다
  • 변수들의 scale이 서로 많이 다른 경우에는 상관계수행렬(correlation matrix)을 사용한다

주성분분석에서 상관계수 행령 사용

  • procomp(data,scale=TRUE)
  • princomp(data,cor=TRUE)

-주성분 결정 기준

성분들이 설명하는 분산의 비율

  • 누적 분산 비율을 확인하면 주성분들이 설명하는 전체분산 양을 알 수 있음
  • 누적 분산 비율이 70~90%사이가 되는 주성분 개수 선택

고윳값(Eigenvalue)

  • 분산의 크기를 나타내며, 고윳값이 1보다 큰 주성분만 사용함

Scree Plot

  • 고윳값을 가장 큰 값에서 가장 작은 값을 순서로 정렬해 보여줌(1보다 큰 값 사용)

주성분 분석(PCA) 해석 19,20,21,23회 출제

주성분분석 문제

아래는 주성분 분석 결과이다.

2개의 주성분을 사용한다면 전체 분산의 몇 퍼센트(%)를 설명할 수 있는가?

반응형