빅데이터분석준전문가자격증

ADsP. PART.3 - 데이터 분석 - 데이터 마트 - 2

theblack0 2022. 6. 25. 14:08
반응형

데이터 가공

1.Data Exploration

가.개요

  • 데이터 분석을 위한 구선괸 데이터의 변수들의 상태를 파악

나.종류

  1.head(데이텃셋),tall(데이터셋)

  • 시작 또는 마지막 6개 recode만 조회하는 함수
  • head(), taill()

2.summary(데이터셋)

가)수치형 변수 : 최대값, 최소값, 평균, 1사분위수, 2사분위수(중앙값),3사분위수

나)명목형 변수 : 명목값, 데이터 개수

 

2.변수 중요도

가.개요

  • 변수 선택법과 유사한 개념으로 모형을 생성하여 사용된 변수의 중요도를 살피는 과정

나.종류

  • 특정변수가 주어졌을 때 클리스가 어떻게 분류되는 지에 대한 에러율을 계산해주고, 그래픽으로 결과를 보여주는 기능
  • greedy.wilks() : 세분화를 위한 stepwise forward변수 선택을 위한 패키지, 종속변수에 가장 영향력을 미치는 변수를 wilks lambda를 활용하여 변수의 중요도를 정리
  • Wilk`s Lambda = 집단 내분산/총분산

3.변수의 구간화

가.개요

  • 연속형 변수를 분석 목적에 맞게 활용하기 위해 구간화히여 모델링에 적용한다
  • 신용평가모형, 고객 세분화와 같은 시스템에서 모형에 활용하는 각 변수들을 구간화해서 구간 별로 점수를 적용하는 스코어링 방식으로 많이 활용

나.구간화 방법

1)binning

  • 신용평가모형의 개발에서 연속형 변수(부채비율 등)를 범주형 변수로 구간화 하는데 자주 활용되고 있는 방법

2)의사결정나무

  • 세분화 또는 예측에 활용되는 의사결정 나무 모형을 사용하여 입력변수들을 구간화 가능
  • 동일한 변수를 여러 번의 분리기준으로 사용이 가능하기 때문에  연속형변수가 반복적으로 선택 시 각각의 분리 기준 값으로 연속형 변수를 구간화 가능

 

반응형