빅데이터분석준전문가자격증

ADsP. PART.3 - 데이터 분석 - 데이터 마트 - 3

theblack0 2022. 6. 25. 14:36
반응형

기초 분석 및 데이터 관리

1.데이터 EDA(탐색적 자료 분석)

  • 데이터의 분석에 앞서 전체적으로 데이터의 특징을 파악하고 데이터를 다양한 각도로 접근
  • summary()를 이용하여 데이터의 기초 통계량을 확인가능

2.결측값 인식

  • 결측값은 NA, 9999999999999, '  '(공백),Unknown, Not Answer 등으로 표현되는 것으로 결측값을 처리하기 위해서 시간을 많이 사용하는 것은 비효율적
  • 결측값 자체의 의미가 있는 경우가 있음
  • 쇼핑몰 가입자 중 특정 거래가 존재하지 않는 경우와 인구통계학적 데아터(demographic data)에서 아주 부자이거나 아주 가난한 경우
  • 결측값 처리는 전체 작업속도에 큰 영향을 줌

3.결측값 처리 방법

가.단순대치법(Single Imputation)

  1. completes analysis
    • 결측값이 존재하는 레코드를 삭제한다.
  2. 평균대치법(Mean Imputation)
    • 관측 또는 실험을 통해 얻어진 데이터의 평균으로 대치
    • 비조건부 편균 대치법 : 관측 데이터의 평균으로 대치
    • 조건부 평균 대치법 : 회귀분석을 활용한 대치법

     

         
  V1 V2 V3 V4
  10 15 20 20
  12 25 30 30
  15 35 40 40
  25 49 57 57
  30 49 59 59
  35 55 65 65
  37 47 70 70
  40 60 ?1 76.89
  42 65 ?2 81.67
  50 70   92.39

3.단순확률 대치법(Single Stochastic Imputation)

  • 평균대치법에서 추정량 표준 오차의 과소 추정분문제를 보완하고자 고안된 방법으로 Hot-deck방법, nearest neighbor방법 존재

나.다중 대치법(Multiple Imputation)

  • 단순대치법을 한번하지 않고 m번의 대치를 통해 m개의 가상적 완전 자료를 만드는 방법
  • 1단계 : 대치
  • 2단계 : 분석
  • 3단계 : 결합
  • Amelia-time series cross sectional data set에서 bootstrapping based algorithm을 활용한 대중 대치법

4.R에서 결측값 처리

 - 관련함수

함수 내용
complete.cases() 데이터 내 레코드에 결측값이 있으면 FALSE, 없으면 TRUE로 반환
is.na() 결측값을 NA로 인식하여 결측값이 있으면 TRUE, 없으면 FALSE로 반환
DMwR패키지의 contrallmputation() NA값에 가운데 값(centeral value)으로 대치, 숫자는 중위수,요인(factor)은 최빈값으로 대치
DMwR패키지의 knnImputation() NA값을 k최근 이웃 분류 알고리즘을 사용하여 대치하는 것으로, K갸 주변 이웃까지의 거리를 고려하여 가중 편균한 값을 사용
Amelia패키지의 amelia() time-series-cross-sectional data set(여러 국가에서 매년 측정된 자료)에서 황용
 *랜덤 포레스트(random forest)모델은 결측값이 존재할 경우, 바로 에러가 발생
randomForest패키지의 rflmpute()함수를 활용하여 NA 결측값을 대치한 후 알고리즘에 적용

 

5.이상값(Outlier)인식과 처리

가.이상값이란?

  • 의도하지 않게 잘못 입력한 경우(Bad data)
  • 의도하지 않게 입력되었으나 분석 목적에 부합되지 않아 재거해야 하는 경우(Bad data)
  • 의도하지 않은 현상이지만 분석에 포함해야 하는 경우
  • 의도된 이상갑값(fraud,불량)인 경우
  • 이상값을 꼭 제거해야 하는 것은 아니기 때문에 분석의 목적이나 종류에 따라 적절한 판단이 필요

나.이상값의 인식 방법

 1.ESD(Extreme Studentized Deviation)

  • 평균으로부터 3 표준편차 벌어진 값

2.기하평균-2.5 *표준편차<data<기하평균+*표준편차

3.사분위수 이용하여 제거하기(상자그림의 outerfence 밖에 있는 값 제거)

이상값 정의 : Q1-1.5IQR <  data < Q3+1.5IQR

                      Q1-1.5(Q3-Q1) <  data < Q3+1.5(Q3-Q1)

 

다.극단값(trimming)방법

  1)기하평균을 이용한 제거

  • geo_mean

 

2)하단_상단 % 이용한 제거

  • 10%절단(상하위 5%에 해당하는 데이터 제거)

라.극단값 조정 방법

  • 상한 값과 하한 값을 벗어나는 값들을 하한,상한값으로 바꾸어 활용하는 방법이다.

출처 : 설찬범의 파라다이스

 

반응형