빅데이터분석준전문가자격증
ADsP. PART.3 - 데이터 분석 - 통계분석 - 상관(Correlation)분석
theblack0
2022. 6. 28. 13:33
반응형
상관분석 correlation analysis
상관계수의 이해
- 상관계수는 두 변수의 관련성의 정도를 의미함(1~ 1의 값으로 나타냄)
- 두 변수의 상관관계가 존재하지 않을 경우 상관계수는 '0'임
- 상관관계가 높다고 인과관계가 있다고 할 수 없음
- 피어슨 상관계수와 스피어만 상관계수가 있음
- 피어슨 상관계수는 두 변수 간의 선형적인 크기만 측정 가능하며 스피어만 상관계수는 두 변수 간의 비선형적인 관계도 나타낼 수 있음
- R의 cor.test()함수를 사용해 상관계수 결정을 수행하고, 유의성검정을 판단 할 수 있음
- 이때 귀무가설은 '상관계수가 0이다', 대림가설은 '상관계수가 0이 아니다'
상관분석 17,21,22*2.23,33회 출제
스피어만 상관계수
- 대상자료는 서열척도로 사용, 두 변수 간의 비선형적인 관계를 나타낼 수 있음
- 연속형 외에 이산형도 가능함
- 연속형,순서형 데이터 사용
- 스피어만 상관계수는 원시 데이터가 아니라 각 변수에 대해 순위를 매긴 값을 기반으로 함
- 두 변수 안의 순위가 완전 일치하면 1, 완전 반대이면-1
- 예)수학 잘하는 학생이 영어도 잘하는 것과 상관있는지 알아보는 데 사용될 수 있음
피어슨 상관계수
- 대상자료는 등간척도,비율척도 사용, 두 변수 간의 선형적인 크기만 측정 가능
- 피어슨 상관계수 : x,y의 공분산을 x,y의 표준편차의 곱으로 나눈 값 corr(x,y) = cov(x,y) / ∂x∂y
- 응답자 1의 표준편차 2, 응답자2의 표준편차 2, 두 응답자의 공분산 값 4이면 피어슨 상관계수(P)=4/(2*2)=1
공분산
- Covariance,2개의 확률변수의 선형관계를 나타내는 값
- 하나의 변수가 상승하는 경향을 보일 때 다른 값도 상승하는 선형 상관성이 있다면 양의 공분산을 갖음
- 공분산이 0이면 서로 독립이며, 관측값들이 4면에 균일하게 분포되어 있다고 추정할 수 있음
반응형