빅데이터분석준전문가자격증
ADsP. PART.3 - 데이터 분석 - 데이터 마트 - 3
theblack0
2022. 6. 25. 14:36
반응형
기초 분석 및 데이터 관리
1.데이터 EDA(탐색적 자료 분석)
- 데이터의 분석에 앞서 전체적으로 데이터의 특징을 파악하고 데이터를 다양한 각도로 접근
- summary()를 이용하여 데이터의 기초 통계량을 확인가능
2.결측값 인식
- 결측값은 NA, 9999999999999, ' '(공백),Unknown, Not Answer 등으로 표현되는 것으로 결측값을 처리하기 위해서 시간을 많이 사용하는 것은 비효율적
- 결측값 자체의 의미가 있는 경우가 있음
- 쇼핑몰 가입자 중 특정 거래가 존재하지 않는 경우와 인구통계학적 데아터(demographic data)에서 아주 부자이거나 아주 가난한 경우
- 결측값 처리는 전체 작업속도에 큰 영향을 줌
3.결측값 처리 방법
가.단순대치법(Single Imputation)
- completes analysis
- 결측값이 존재하는 레코드를 삭제한다.
- 평균대치법(Mean Imputation)
- 관측 또는 실험을 통해 얻어진 데이터의 평균으로 대치
- 비조건부 편균 대치법 : 관측 데이터의 평균으로 대치
- 조건부 평균 대치법 : 회귀분석을 활용한 대치법
V1 | V2 | V3 | V4 | |
10 | 15 | 20 | 20 | |
12 | 25 | 30 | 30 | |
15 | 35 | 40 | 40 | |
25 | 49 | 57 | 57 | |
30 | 49 | 59 | 59 | |
35 | 55 | 65 | 65 | |
37 | 47 | 70 | 70 | |
40 | 60 | ?1 | 76.89 | |
42 | 65 | ?2 | 81.67 | |
50 | 70 | 92.39 |
3.단순확률 대치법(Single Stochastic Imputation)
- 평균대치법에서 추정량 표준 오차의 과소 추정분문제를 보완하고자 고안된 방법으로 Hot-deck방법, nearest neighbor방법 존재
나.다중 대치법(Multiple Imputation)
- 단순대치법을 한번하지 않고 m번의 대치를 통해 m개의 가상적 완전 자료를 만드는 방법
- 1단계 : 대치
- 2단계 : 분석
- 3단계 : 결합
- Amelia-time series cross sectional data set에서 bootstrapping based algorithm을 활용한 대중 대치법
4.R에서 결측값 처리
- 관련함수
함수 | 내용 |
complete.cases() | 데이터 내 레코드에 결측값이 있으면 FALSE, 없으면 TRUE로 반환 |
is.na() | 결측값을 NA로 인식하여 결측값이 있으면 TRUE, 없으면 FALSE로 반환 |
DMwR패키지의 contrallmputation() | NA값에 가운데 값(centeral value)으로 대치, 숫자는 중위수,요인(factor)은 최빈값으로 대치 |
DMwR패키지의 knnImputation() | NA값을 k최근 이웃 분류 알고리즘을 사용하여 대치하는 것으로, K갸 주변 이웃까지의 거리를 고려하여 가중 편균한 값을 사용 |
Amelia패키지의 amelia() | time-series-cross-sectional data set(여러 국가에서 매년 측정된 자료)에서 황용 *랜덤 포레스트(random forest)모델은 결측값이 존재할 경우, 바로 에러가 발생 randomForest패키지의 rflmpute()함수를 활용하여 NA 결측값을 대치한 후 알고리즘에 적용 |
5.이상값(Outlier)인식과 처리
가.이상값이란?
- 의도하지 않게 잘못 입력한 경우(Bad data)
- 의도하지 않게 입력되었으나 분석 목적에 부합되지 않아 재거해야 하는 경우(Bad data)
- 의도하지 않은 현상이지만 분석에 포함해야 하는 경우
- 의도된 이상갑값(fraud,불량)인 경우
- 이상값을 꼭 제거해야 하는 것은 아니기 때문에 분석의 목적이나 종류에 따라 적절한 판단이 필요
나.이상값의 인식 방법
1.ESD(Extreme Studentized Deviation)
- 평균으로부터 3 표준편차 벌어진 값
2.기하평균-2.5 *표준편차<data<기하평균+*표준편차
3.사분위수 이용하여 제거하기(상자그림의 outerfence 밖에 있는 값 제거)
이상값 정의 : Q1-1.5IQR < data < Q3+1.5IQR
Q1-1.5(Q3-Q1) < data < Q3+1.5(Q3-Q1)
다.극단값(trimming)방법
1)기하평균을 이용한 제거
- geo_mean
2)하단_상단 % 이용한 제거
- 10%절단(상하위 5%에 해당하는 데이터 제거)
라.극단값 조정 방법
- 상한 값과 하한 값을 벗어나는 값들을 하한,상한값으로 바꾸어 활용하는 방법이다.
반응형