반응형
연관분석(Association Analysis) 33회 출제
연관분석
- 연관규칙(Association rule):항목들 간의 '조건-결과'식으로 표현되는 유용한 패턴
- 이러한 패턴 규칙을 발견해내는 것을 연관분석이라 함
- 장바구니 분석이라고 함(미국 마트에서 기저귀를 사는 고객은 맥주를 동시에 구매한다는 연관규칙을 알아낸 것에 기안함)
Apriori알고리즘
- 연관규칙의 대표적 알고리즘으로 현재도 많이 사용됨
- 데이터들에 대한 발생빈도를 기반으로 각 데이터 간의 연관관계를 밝히는 방법
- 데이터셋이 큰 경우 모든 후보 itemset에 대해 하나하나 검사하는 것이 비효율적임
FP Growth
- Apriori단점을 보완하기 위해 FP-tree와 node,link라는 특별한 자료 구조를 사용
장점
- 조건반응(if=then)으로 표현되는 연관분석의 결과를 이해하기 쉬움
- 강력한 비목적성 분석 기법이며, 분석계산이 간편함
단점
- 분석 품목 수가 증가하면 분석 계산이 기하급수적으로 증가함
- 너무 세분화된 품목을 가지고 연관규칙을 찾으려면 의미없는 분석 결과가 도출됨
- 상대적 거래량이 적으면 규칙발견 시 제외되기 쉬움
연관규칙 측정지표 33회출제
규칙표기 : A -> B
- if A then B -> A가 팔리면 B가 같이 팔린다
지지도 Support
- 전체 거래항목 중 상품 A와 상품 B를 동시에 포함하여 거래하는 비율
- 전체 거래 중 차지하는 비율을 통해 해당 연관 규칙이 얼마나 의미가 있는 것인지를 확인함
- 지지도 = P(A∩B) : A와 B가 동시에 포함된 거래 수 / 전체 거래 수
신뢰도 Confidence
- 상품 A를 포함하는 거래 중 A와 B가 동시에 거래되는 비율
- 상품 A를 구매했을 때 상품 B를 구매할 확률이 어느 정도 되는지를 확인
- 신뢰도 = P(B|A) = P(A∩B) / P(A) : A와 B가 동시에 포함된 거래수 / A가 포함된 거래 수
향상도 Lift
- A가 주어지지 않았을 때 B의 확률 대비 A가 주어졌을 때 B의 확률 증가 비율
- 블록 B를 구매한 고객 대비 품목 A를 구매한 후 품목B를 구매하는 고객에 대한 확률
- 향상도 = P(B|A)/P(B) = P(A∩B) / P(A) * P(B)
- 상품 A의 거래 중 상품 B가 포함된 거래의 비율 / 전체 상품 거래 중 상품 B가 거래된 비율
- A와 B가 동시에 일어난 확률 / A,B가 독립된 사건일 때 A,B가 동시에 일어낳 확률
향상도 해석
반응형
'빅데이터분석준전문가자격증' 카테고리의 다른 글
ADsP. PART.3 - 데이터 분석 - 통계분석 - 시계열(time series)분석 (0) | 2022.06.28 |
---|---|
ADsP. PART.3 - 데이터 분석 - 통계분석 - 주성분(Principal Component)분석 (0) | 2022.06.28 |
ADsP. PART.3 - 데이터 분석 - 통계분석 - 상관(Correlation)분석 (0) | 2022.06.28 |
ADsP. PART.3 - 데이터 분석 - 통계분석 - 군집(clustering)분석 (0) | 2022.06.28 |
ADsP. PART.3 - 데이터 분석 - 통계분석 - 통계학개론 - 3 (0) | 2022.06.27 |