빅데이터분석준전문가자격증

ADsP. PART.3 - 데이터 분석 - 통계분석 - 상관(Correlation)분석

theblack0 2022. 6. 28. 13:33
반응형

상관분석 correlation analysis

  상관계수의 이해

  • 상관계수는 두 변수의 관련성의 정도를 의미함(1~ 1의 값으로 나타냄)
  • 두 변수의 상관관계가 존재하지 않을 경우 상관계수는 '0'임
  • 상관관계가 높다고 인과관계가 있다고 할 수 없음
  • 피어슨 상관계수와 스피어만 상관계수가 있음
  • 피어슨 상관계수는 두 변수 간의 선형적인 크기만 측정 가능하며 스피어만 상관계수는 두 변수 간의 비선형적인 관계도 나타낼 수 있음
  • R의 cor.test()함수를 사용해 상관계수 결정을 수행하고, 유의성검정을 판단 할 수 있음
  • 이때 귀무가설은 '상관계수가 0이다', 대림가설은 '상관계수가 0이 아니다'
  •  

상관분석  17,21,22*2.23,33회 출제

스피어만 상관계수

  • 대상자료는 서열척도로 사용, 두 변수 간의 비선형적인 관계를 나타낼 수 있음
  • 연속형 외에 이산형도 가능함
  • 연속형,순서형 데이터 사용
  • 스피어만 상관계수는 원시 데이터가 아니라 각 변수에 대해 순위를 매긴 값을 기반으로 함
  • 두 변수 안의 순위가 완전 일치하면 1, 완전 반대이면-1
  • 예)수학 잘하는 학생이 영어도 잘하는 것과 상관있는지 알아보는 데 사용될 수 있음

피어슨 상관계수

  • 대상자료는 등간척도,비율척도 사용, 두 변수 간의 선형적인 크기만 측정 가능
  • 피어슨 상관계수 : x,y의 공분산을 x,y의 표준편차의 곱으로 나눈 값 corr(x,y) = cov(x,y) / ∂x∂y
  • 응답자 1의 표준편차 2, 응답자2의 표준편차 2, 두 응답자의 공분산 값 4이면 피어슨 상관계수(P)=4/(2*2)=1

공분산

  • Covariance,2개의 확률변수의 선형관계를 나타내는 값
  • 하나의 변수가 상승하는 경향을 보일 때 다른 값도 상승하는 선형 상관성이 있다면 양의 공분산을 갖음
  • 공분산이 0이면 서로 독립이며, 관측값들이 4면에 균일하게 분포되어 있다고 추정할 수 있음
반응형