빅데이터분석준전문가자격증

ADsP. PART.3 - 데이터 분석 - 데이터 마트 - 1

theblack0 2022. 6. 25. 12:46
반응형

데이터 변경 및 요약

1.R.reshape를 이용한 데이터 마트 개발

가)데이터마트

  • 데이터웨어하우스와 사용자 사이의 중간층에 위치
  • 하나의  주제 또는 하나의 부서 중심의 데이터웨어하우스라고 함
  • 데이터 마트 내의 대부분의 데이터는 데이터웨어하우스으로부터 복사된다.
  • 자체적으로 수립될 수도 있다
  • 관계형 데이터나 다차원 데이터베이스를 이용하여 구축

CRM(customer relationshop management)

  • 고객 데이터 마트 구축

나)요약변수

  • 수집된 정보를 분석에 맞게 종합한 변수이다
  • 데이터마트에서 가장 기본적인 변수로 총 구매금액,금액,횟수,구매여부 등 데이터 분석을 위해 만들어지는 변수
  • 많은 모델을 공통으로 사용될 수 있어 재활용성이 높다
기간별 구매금액, 횟수 여부 고객의 구매 턴을 볼수 있는 변수이다
위클리 쇼퍼 구매시기를 통해 고객의 특성을 추정하는 데 활용 가능하다
상품별 구매금액,회수여부 고객의 라이트 스테이지와 리이트 스타일 등을 이해하는 데 크게 도움이 된다
상품별 구매순서 고객에 대한 이해와 해석력을 놓일 수 있다
유통 채널별 구매 금액 온라인과 오프라인 사용고객에게 모두 사용하도록 유도하는 대  활용한다
단어빈도 텍스트 자료에서 단어들의 출현 빈도를 데이터화하여 사용한다
초기 행동변수 고객 가입 또는 첫 거래 초기 1개월 간 거래 패턴에 대한 변수로 1년후에 어떤 행돌을 보일지를 평가하는 자료로 활용한다
트렌드 병수 추이값을 나타내는 변수이다
결측값과 이상값 처리 결측값과 이상값은 무리해서 처리하려고 하면 시간과 위험이 커질 수 있으므로 데이터의 내용을 파악하여 치리해야 한다
연속형 변수의 구간화 분석 후 적용 단계를 고려한 데이터 분석을 위해 연령이나 비용 등 연속형 변수를 구간화 하는 것이 필요하다.
반드시 10,100,1000 단위로 구간화하지 않고 의미있는 구간으로 구간화한다

다)파생변수

  • 사용자(분석가)각 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여한 변수
  • 매우 주관적일 수 있으므로 논리적 타당성을 갖추어 개발
  • 세분화, 고객행동 예측, 캠페인 반응 예측에 적극 활용
  • 파생변수는 상황에 따라 특정 상황에만 유의미하지 않게 대표성을 가져야 한다
근무시간 구매자수 근무시간대에 거래가 발생하는 비용을 산출하여 활용
주 구매 매장 변수 고객의 주거래 매장을 예측하여 적절한 분야에 활용
주 활동 지역 변수 고객의 정보나 거래내용을 통해 활동지역을 예측하여 분석에 활용
주 구매 상품 변수 싱품을 추천하는데 활용
(1순위 상품을 구매하고 2순위 상품을 구매하지 않은 고객에게 추천)
구매상품 다양성 변수 고객이 다양한 상품이나 같은 브랜드 등을 구매하는 성향을 파악하여 분석에 필요한 변수로 변환
선호하는 가격대 변수 각각의 취향, 소득,서비스 등에 따라 많이 투자하는 상품군이 있는 데 주로 패션분야에 중요하게 적용
시즌 선호고객 변수 각자 의미있게 생각하는 날 소비가 많이 이루어지기 때문에 패턴을 파악하여 분석에 활요(주로 유통업)
라이프 스테이지 변수 고객이 속한 라이프 스테이지를 예측하여 행돌을 이해하고 그들의 니즈와 가치를 파악하는 데 활용
라이프 스타일 변수 고객의 라이프 스타일을 보고 상품구매를 유도하는 데 활용
행사 민감 변수 같은 상품도 행사를 할 때 구매하는 사람이 있고 행사와 관련없이 구매하는 사람이 있는데 이런 행동 패턴을 파악하여 활용
휴먼가망 변수 고객은 늘 구매하지 않기 때문에 고객의 하향이나 관심사가 변해 구매하지 않거나 경쟁사의 상품을 선호라게 되는 경우가 있는 데 이를 파악하여 사전 대응책에 활용
최대가치 변수 고객의 가치를 판단하여 어느 정도를 판매할 수 있는 지를 예측하는 데 활용
최적 통화 시간 콜센터에 결러온 시간으로 고객의 직업 등을 고려한 통화시간을 예측하여 통화를 시도

라)reshape의 활용

  • melt()와 cast()라는 2개의 핵심함수가 있다
  • 녹이는함수는 melt()모양을 만드는 함수를 cast()로 사용

2.sqldf를 이용한 데이터분석

  • sqldf는 R에서 sql의 명령어를 사용을 가능하게 해주는 패키지이다
  • SAS에서의 proc sql와 같은 역할을 하는 패키지이다

3.plyr을 이용한 데이터분석

  • plyr은 apply함수에 기반해 데이터와 출력변수를 동시에 배열로 치환하여 처리하는 패키지
  • split - apply - combinue : 데이터를 분리하고 처리한 다음, 다시 결합하는 등 필수적인 데이터 처리 기능을 제공
  array data.frame list nothing
array aaply adply alply a_ply
data.frame daply ddply dlply d_ply
list laply ldply llply l_ply
n replicates raply rdply rlply r_ply
function
arguments
maply mdply mlply m_ply

4.데이터 테이블

  • data.table 패키지는 R에서 가장 많이 사용하는 데이터 핸들링 패키지
  • data.table 패키지는 큰 데이터를 탐색, 연산, 병합 하는 데 아주 유용
  • 기존 data.frame방식보다 월등히 빠른 속도가 장점
  • 특정 column을 key값으로 색일을 지정한 후 데이터 처리
  • 빠른 그루핑과 ordering,짧은 문장 지원 측면에서 데이터프레임보다 유용

 

반응형