빅데이터분석준전문가자격증
ADsP. PART.3 - 데이터 분석 - 데이터 마트 - 1
theblack0
2022. 6. 25. 12:46
반응형
데이터 변경 및 요약
1.R.reshape를 이용한 데이터 마트 개발
가)데이터마트
- 데이터웨어하우스와 사용자 사이의 중간층에 위치
- 하나의 주제 또는 하나의 부서 중심의 데이터웨어하우스라고 함
- 데이터 마트 내의 대부분의 데이터는 데이터웨어하우스으로부터 복사된다.
- 자체적으로 수립될 수도 있다
- 관계형 데이터나 다차원 데이터베이스를 이용하여 구축
CRM(customer relationshop management)
- 고객 데이터 마트 구축
나)요약변수
- 수집된 정보를 분석에 맞게 종합한 변수이다
- 데이터마트에서 가장 기본적인 변수로 총 구매금액,금액,횟수,구매여부 등 데이터 분석을 위해 만들어지는 변수
- 많은 모델을 공통으로 사용될 수 있어 재활용성이 높다
기간별 구매금액, 횟수 여부 | 고객의 구매 턴을 볼수 있는 변수이다 |
위클리 쇼퍼 | 구매시기를 통해 고객의 특성을 추정하는 데 활용 가능하다 |
상품별 구매금액,회수여부 | 고객의 라이트 스테이지와 리이트 스타일 등을 이해하는 데 크게 도움이 된다 |
상품별 구매순서 | 고객에 대한 이해와 해석력을 놓일 수 있다 |
유통 채널별 구매 금액 | 온라인과 오프라인 사용고객에게 모두 사용하도록 유도하는 대 활용한다 |
단어빈도 | 텍스트 자료에서 단어들의 출현 빈도를 데이터화하여 사용한다 |
초기 행동변수 | 고객 가입 또는 첫 거래 초기 1개월 간 거래 패턴에 대한 변수로 1년후에 어떤 행돌을 보일지를 평가하는 자료로 활용한다 |
트렌드 병수 | 추이값을 나타내는 변수이다 |
결측값과 이상값 처리 | 결측값과 이상값은 무리해서 처리하려고 하면 시간과 위험이 커질 수 있으므로 데이터의 내용을 파악하여 치리해야 한다 |
연속형 변수의 구간화 | 분석 후 적용 단계를 고려한 데이터 분석을 위해 연령이나 비용 등 연속형 변수를 구간화 하는 것이 필요하다. 반드시 10,100,1000 단위로 구간화하지 않고 의미있는 구간으로 구간화한다 |
다)파생변수
- 사용자(분석가)각 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여한 변수
- 매우 주관적일 수 있으므로 논리적 타당성을 갖추어 개발
- 세분화, 고객행동 예측, 캠페인 반응 예측에 적극 활용
- 파생변수는 상황에 따라 특정 상황에만 유의미하지 않게 대표성을 가져야 한다
근무시간 구매자수 | 근무시간대에 거래가 발생하는 비용을 산출하여 활용 |
주 구매 매장 변수 | 고객의 주거래 매장을 예측하여 적절한 분야에 활용 |
주 활동 지역 변수 | 고객의 정보나 거래내용을 통해 활동지역을 예측하여 분석에 활용 |
주 구매 상품 변수 | 싱품을 추천하는데 활용 (1순위 상품을 구매하고 2순위 상품을 구매하지 않은 고객에게 추천) |
구매상품 다양성 변수 | 고객이 다양한 상품이나 같은 브랜드 등을 구매하는 성향을 파악하여 분석에 필요한 변수로 변환 |
선호하는 가격대 변수 | 각각의 취향, 소득,서비스 등에 따라 많이 투자하는 상품군이 있는 데 주로 패션분야에 중요하게 적용 |
시즌 선호고객 변수 | 각자 의미있게 생각하는 날 소비가 많이 이루어지기 때문에 패턴을 파악하여 분석에 활요(주로 유통업) |
라이프 스테이지 변수 | 고객이 속한 라이프 스테이지를 예측하여 행돌을 이해하고 그들의 니즈와 가치를 파악하는 데 활용 |
라이프 스타일 변수 | 고객의 라이프 스타일을 보고 상품구매를 유도하는 데 활용 |
행사 민감 변수 | 같은 상품도 행사를 할 때 구매하는 사람이 있고 행사와 관련없이 구매하는 사람이 있는데 이런 행동 패턴을 파악하여 활용 |
휴먼가망 변수 | 고객은 늘 구매하지 않기 때문에 고객의 하향이나 관심사가 변해 구매하지 않거나 경쟁사의 상품을 선호라게 되는 경우가 있는 데 이를 파악하여 사전 대응책에 활용 |
최대가치 변수 | 고객의 가치를 판단하여 어느 정도를 판매할 수 있는 지를 예측하는 데 활용 |
최적 통화 시간 | 콜센터에 결러온 시간으로 고객의 직업 등을 고려한 통화시간을 예측하여 통화를 시도 |
라)reshape의 활용
- melt()와 cast()라는 2개의 핵심함수가 있다
- 녹이는함수는 melt()모양을 만드는 함수를 cast()로 사용
2.sqldf를 이용한 데이터분석
- sqldf는 R에서 sql의 명령어를 사용을 가능하게 해주는 패키지이다
- SAS에서의 proc sql와 같은 역할을 하는 패키지이다
3.plyr을 이용한 데이터분석
- plyr은 apply함수에 기반해 데이터와 출력변수를 동시에 배열로 치환하여 처리하는 패키지
- split - apply - combinue : 데이터를 분리하고 처리한 다음, 다시 결합하는 등 필수적인 데이터 처리 기능을 제공
array | data.frame | list | nothing | |
array | aaply | adply | alply | a_ply |
data.frame | daply | ddply | dlply | d_ply |
list | laply | ldply | llply | l_ply |
n replicates | raply | rdply | rlply | r_ply |
function arguments |
maply | mdply | mlply | m_ply |
4.데이터 테이블
- data.table 패키지는 R에서 가장 많이 사용하는 데이터 핸들링 패키지
- data.table 패키지는 큰 데이터를 탐색, 연산, 병합 하는 데 아주 유용
- 기존 data.frame방식보다 월등히 빠른 속도가 장점
- 특정 column을 key값으로 색일을 지정한 후 데이터 처리
- 빠른 그루핑과 ordering,짧은 문장 지원 측면에서 데이터프레임보다 유용
반응형