반응형
데이터 가공
1.Data Exploration
가.개요
- 데이터 분석을 위한 구선괸 데이터의 변수들의 상태를 파악
나.종류
1.head(데이텃셋),tall(데이터셋)
- 시작 또는 마지막 6개 recode만 조회하는 함수
- head(), taill()
2.summary(데이터셋)
가)수치형 변수 : 최대값, 최소값, 평균, 1사분위수, 2사분위수(중앙값),3사분위수
나)명목형 변수 : 명목값, 데이터 개수
2.변수 중요도
가.개요
- 변수 선택법과 유사한 개념으로 모형을 생성하여 사용된 변수의 중요도를 살피는 과정
나.종류
- 특정변수가 주어졌을 때 클리스가 어떻게 분류되는 지에 대한 에러율을 계산해주고, 그래픽으로 결과를 보여주는 기능
- greedy.wilks() : 세분화를 위한 stepwise forward변수 선택을 위한 패키지, 종속변수에 가장 영향력을 미치는 변수를 wilks lambda를 활용하여 변수의 중요도를 정리
- Wilk`s Lambda = 집단 내분산/총분산
3.변수의 구간화
가.개요
- 연속형 변수를 분석 목적에 맞게 활용하기 위해 구간화히여 모델링에 적용한다
- 신용평가모형, 고객 세분화와 같은 시스템에서 모형에 활용하는 각 변수들을 구간화해서 구간 별로 점수를 적용하는 스코어링 방식으로 많이 활용
나.구간화 방법
1)binning
- 신용평가모형의 개발에서 연속형 변수(부채비율 등)를 범주형 변수로 구간화 하는데 자주 활용되고 있는 방법
2)의사결정나무
- 세분화 또는 예측에 활용되는 의사결정 나무 모형을 사용하여 입력변수들을 구간화 가능
- 동일한 변수를 여러 번의 분리기준으로 사용이 가능하기 때문에 연속형변수가 반복적으로 선택 시 각각의 분리 기준 값으로 연속형 변수를 구간화 가능
반응형
'빅데이터분석준전문가자격증' 카테고리의 다른 글
ADsP. PART.3 - 데이터 분석 - 통계분석 - 기초통계분석 (0) | 2022.06.26 |
---|---|
ADsP. PART.3 - 데이터 분석 - 데이터 마트 - 3 (0) | 2022.06.25 |
ADsP. PART.3 - 데이터 분석 - 데이터 마트 - 1 (0) | 2022.06.25 |
ADsP. PART.3 - 데이터 분석 - R의 기초 - 2 (0) | 2022.06.24 |
ADsP. PART.3 - 데이터 분석 - R의 기초 -1 (0) | 2022.06.23 |