ADsP. PART.2 - 데이터 분석 기획 - 데이터분석 기획의 이해
분석기획
분석기획이란?
- 실제 분석을 수행에 앞서 분석을 수행할 과제의 정의 및 의도했던 결과를 도출할 수 있도록 이를 적절하게 관리할 수 있는 방안을 사전에 계획하는 일련의 작업
- 어떤 목표(what)를 달성하기 위해 어떤 데이터를 가지고 어떤 방식(how)을 수행할지에 대한 일련의 계획을 수립하는 작업
- 성공적인 분석 결과 도출을 위한 중요 사전 작업
- 해당 문제영역에 대한 전문성 역량 및 통계학적 지식을 활용한 분석 역량과 분석 도구인 데이터 및 프로그래밍 기술 역량에 대한 균형 잡힌 시각을 가지고 방향성 및 계획을 수립해야 함
*************************분석 주제 유형 4가지********************************************
분석 대상(what)
분석방법(how)
Known | Un-Kown | |
Known | 최적화 (Optimization) |
통찰 (Insight) |
Un-Known | 솔루션 (Solution) |
발견 (Discovery) |
- Optimization : 분석 대상 및 분석방법을 이해하고 현 문제를 최적화의 형태로 수행함
- Solution : 분석 과제는 수행되고, 분석 방법을 알지 못하는 경우 솔루션을 찾는 방식으로 분석 과제를 수행함
- Insight : 분석 대상이 불분명하고, 분석 방법을 알고 있는 경우 인사이트 도출
- Discovery : 분석 대상, 방법을 모른다면 발견을 통해 분석 대상 자체를 새롭게 도출함.
**********분석 대상을 알면 (OS) 모르면 (ID)*************************
목표시점별 분석기획 방안 33회 출제 *2
- 과제 중심적인 접근방식의 단기방안, 마스터 플랜 단위의 중장기 방안으로 구분
과제 단위 당면한 분석 주제의 해결 | 마스터플랜 단위 지속적 분석 문화 내재화 | |
1차 목표 | Speed & Test | Accuracy &Deploy |
과제의 유형 | Quick - Win | Long Term View |
접근 방식 | Problem Solving | Problem Definition |
Quick - Win : 즉각적인 실행을 통한 성과 도출, 프로세스 진행과정에서 일반적인 상식과 경험으로 원인이 명백한 경우 바로 개션함으로써 과제를 단기로 달성하고, 추진하는 과정
분석 기획 시 고려사항
- 가용한 데이터,적절한 유스케이스 탐색,장애요소들에 대한 사전계획 수립
가용한 데이터 (available data)
- 분석을 위한 데이터 확보
- 데이터 유형에 따라 적용 가능한 Solution 및 분석 방법이 다름
- 데이터의 유형 분석이 선행적으로 이루어저야 함(정형,비정형,반정형)
적절한 유스케이스 탐색 ( Proper Use-Case)
- 유사붕석 시나리오 및 솔루션이 있다면 이걸을 최대한 활용함
장애요소들에 대한 사전 계획 수림(Low Barrier of Execution)
- 장애요소들에 대한 사전 계획 수립 필요
- 일회성 분석으로 그치지 않고 조직 역량을 내재화 하기 위해서는 충분하고 계속적인 교육 및 활용방안 등의 변화관리가 고려되야함
데이터 유형,저장방식
- 데이터를 유형으로 분류하면 정형,비정형,반정형 데이터로 분류할 수 있다
데이터 유형
정형 데이터
- ERP,CRM,Transaction data,Demand Forecast
반정형 데이터
- Competitor,Pricing,Sensor,machine data
비정형 데이터
- email, SNS, voice, IoT,,보고서, news
데이터 저장방식
RDB
- 관계형 데이터를 저장,수정,관리할 수 있게 해주는 데이터베이스,Oracle,MSSQL,MySQL 등
NoSQL
- 비관계형 데이터 저장소
- MongoDB,Cassandra,HBase,Redis
분산파일시스템
- 분산된 서버의 디스크에 파일 저장, HDFS
분석 방법론 개요
- 분석 방법론의 개요
데이터 분서을 효과적으로 기업에 정착하기 위해 데이터 분석을 체계화하는 절차와 방법이 정리된 데이터 분석 방법 론 수립이 필요
- 분석방법론의 구성요소
상세한 절차, 도구와 기법, 템플릿과 산출물
- 기업의 합리적 의사결정 장애요소
고정관념, 편향된 생각,******프레이밍 효과(Framing Effect)******** 20,22회 출제
Framing Effect(프레이밍 효과) : 동일한 사건이나 상황임에도 불구하고 사람들의 선택이나 판단이 달라지는
현상으로, 특정 사안을 '어떤 시각으로 바라보느냐'에 따라 해석이 달라진다는 이론
분석 방법론의 모델 3가지
폭포수 모델
- 단계를 순차적으로 진행하는 방법
- 이전 단계가 완료되어야 다음 단계로 순차 진행하는 하향식 진행
- 문제점이 발견되면 전단계로 돌아가는 피드백 수행
나선형 모델
- 반복을 통해 점증적으로 개발
- 반복에 대한 관리 체계가 효과적으로 갖춰지지 못한 경우 복잡도가 상승하여 프로젝트 진헹이 어려울 수 있음
프로토타입 모델
- 사용자 요구사항이나 데이터를 정확히 규정하기 어렵고 데이터 소스도 명확히 파악하기 어려운 상황에서 사용
- 일단 분석을 시도해보고 그 결과를 확인해가면서 반복적으로 개선해 나가는 방법
- 신속하게 해결책 모형제시, 상향식 접근방법에 활용
- '사용자들이 이렇게 만들면 편안하게 사용할거야'라는 가설을 생성하게 됨
- 프로토타입을 보고 완성시킨 결과물을 통해 가설을 확인할 수 있음
- 특정 가설을 갖고 서비스를 설계하고 디자인에 대한 실험도 실행함
- 시제품이 나오기 전의 제품의 원형으로 개발 검증과 양산 검증을 거쳐야 시제품이 될 수 있음
- '정보시스템의 미완성 버전또는 중요한 기능들이 포함되어 있는 시스템의 초기모델'
KDD분석방법론 23,33회 출제
- 데이터베이스에서 의미 있는 지식을 탐색하는 데이터 마이닝프로세스
- 데이터셋 선택
- 데이터 전처리
- 데이터셋에 포함되어 있는 잡음(Noise), 이상값(Outlier), 결측치(Missing Value)를 식별하고 필요시 제거
- 데이터 변환
- 분석 목적에 맞는 변수 선택, 데이터의 차원 축소
- 데이터 마이닝을 효율적으로 적용할 수 있도록 데이터셋 변경
- 데이터 마이닝
- 분석 목적에 맞는 데이터 마이닝 기법 및 알고리즘 선택
- 데이터의 패턴을 찾거나 분류 또는 예측 등의 마이닝 작업시행
- 데이터 마이닝 결과
- Interpretation/Evaluation, 분석 결과에 대한 해석과 평과, 활용
CRISP-DM 분석 방법론 16,18,21 2문제,33회 2문제 출제
- Cross-Industery Standard Process for Data Mining
- CRISP-DM은 총 6단계로 이루어져 있습니다.
- 업무 이해 - 데이터의 이해 - 데이터 준비 - 모델링 - 평가 - 전개
업무이해(Business Understanding)
- 비즈니스 관점 프로젝트의 목적와 요구사항을 이해하기 위한 단계
- 도메인 지식을 데이터 분석을 위한 묹제 정의로 변경하고 초기 프로젝트 계획을 수립하는 단계
- 업무 목적 파악 -> 상황 파악 -> 데이터 마이닝 목표 설정 -> 프로젝트 계획 수립
데이터 이해(Data Understanding)
- 분석을 위한 데이터 수집, 데이터 속성 이해를 위한 과정
- 데이터 품질에 대한 문제점 식별 및 숨겨져 있는 인사이트를 발견하는 단계
- 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인
데이터 준비(Data Preparation)
- KDD의 Transformation == CRISP-DM분석 방법론의 데이터셋 준비
- 분석을 위해 수집된 데이터에서 분석 기법에 적합한 데이터셋을 편성하는 단계
- 모델링 단계를 통해 찾아낸 모델은 테스트용 프로세스와 데이터셋으로 평가하여 모델 과적합(Overfitting)등의 문제를 발견하고 대응 방안마련
- 데이터 분석 방법론, 머신러닝을 이용한 수행모델을 만들거나 데이터를 분할하는 부분
- 모델링 기법 선택, 모델링 작성,모델평가
평가(Evaluation)
- 모델링 단계에서 얻는 모델이 프로젝트의 목적에 부합하는 지 평가
- 데이터 마이닝 결과를 수용할 것인지 최종적으로 판단하는 과정
- 분석결과 평가, 모델링 과정 평가, 모델 적용성 평가
전개(Deployment)
- 완성된 모델을 실제업무에 적용하기 위한 계획 수립
- 전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료보고서 작성, 프로젝트 리뷰
빅데이터 분석 방법론
분석기획
- 비즈니스 이해 및 범위 설정
- 프로젝트 정의 및 계획 수립
- 프로젝트 위험계획 수립
데이터 준비
- 필요 데이터 정의
- 데이터 스토어 설계
- 데이터 수집 및 적합성 점검
데이터 분석
- 분석용 데이터 준비
- 텍스트 분석
- 탐색적 분석
- 모델링
- 모델 평가 및 검증
시스템 구현
- 설계 및 구현
- 시스템 테스트 및 운영
평가 및 전개
- 모델 발전 계획
- 프로젝트 평가보고
- 평가 및 전개
분석 기획(Planning)단계의 Task
비즈니스 이해 및 범위 설정 | 프로젝트 정의 및 계획 수립 | 프로젝트 위험 계획 수립 |
- 비즈니스 이해 및 범위 설정
비즈니스 이해
- 분석 대상인 업무 도메인을 이해하기 위해 내부 업무 메뉴얼과 관련 자료, 외부의 관련 비즈니스 자료 조사 및 프로젝트 진행을 위한 방향 설정
프로젝트 범위 설정
- 프로젝트 목적에 부합하는 범위를 명확히 설정함
- 프로젝트에 참여하는 관계자들의 이해를 일치시키기 위하여 구조화된 프로젝트 범위 정의서SOW(Statement of Work)를 작성
프로젝트 정의 및 계획 수립
데이터 분석 프로젝트 정의
- 상세 프로젝트 정의서 작성, 프로젝트의 목표를 명확화 하기 위해 모델 이미지 및 평가 기준 설정
프로젝트 수행 계획 수립
- 프로젝트 수행 계획서 작성, 프로젝트의 목적, 배경, 기대효과, 수행방법 일정 및 추진 조직 WBS 작성
- WBS : Work Breakdown structure, 작업 분할 구조도, 전체 업무를 분류하여 구성요소로 만든 후 각 요소를 평가하고 일정별로 계획하여 그것을 완수할 수 있는 사람에게 할당해주는 역할
프로젝트 위험 계획 수립
- 데이터 분석 위험 식별
- 계획 수립 단계에서 빅데이터 분석 프로젝트를 진행하면서 발생 가능한 모든 위험을 식별함
- 위험에 대한 대응 방법 : 회피(Avoid), 전이(Transfer), 완화(Mitigate), 수용(ACCept)
데이터 준비(Preparing)단계
필요 데이터 정의 | 데이터 스토어 설계 | 데이터 수집 및 정합성 점검 |
필요 데이터 정의
데이터 정의
- 정형,비정형,반정형 등의 모든 내/외부 데이터를 포함하고 데이터의 속성, 데이터 오너, 데이터 관련 시스템 담당자 등을 포함하는 데이터 정의서 작성
- 예)메타데이터 정의서,ERD(Entity Relationship Diagram)포함
데이터 획득 방안 수립
- 내부 데이터 : 부서 간 업무 협조와 개인정보보호 및 정보보완과 관련한 문제점을 사전에 점검
- 외부 데이터 : 시스템 간 다양한 인터페이스 및 법적인 문제점을 고려하여 상세한 계획 수립
데이터스토어 설계
정형 데이터 스토어 설계
- 관계형 데이터베이스(RDBMS)를 사용하고, 데이터의 효율적 저장과 활용을 위해 데이터 스토어의 논리적 물리적 설계를 구분하여 설계함
비정형 데이터 스토어 설계
- 하둡,NoSQL등을 이용하여 비정형 또는 반정형 데이터를 저장하기 위한 논리적, 물리적 데이터 스토어 설계
데이터 수집 및 정합성 점검
데이터 수집 및 저장
- 크롤링 등의 데이터 수집을 위한 ETL 등의 다양한 도구와 API,스크립트 프로그램 등으로 데이터 수집
- 수집된 데이터를 설계된 데이터 스토어에 저장함
데이터 정합성(무결성)점검
- 데이터 스토어의 품질 점검을 통해 데이터의 점합성 확보
- 데이터 품질개선이 필요한 부분에 대해 보완 작업 진행
ETL(Extract Transformation Loading)
다양한 데이터를 취합해 데이터를 추출하고 하나의 공통된 포맷으로 변환해 데이터웨어 하우스나 데이터 마트등에 적재하는 과정을 지원하는 도구
API(Application Programming Interface)
라이브러리에 접근하기 위한 규칙들을 정의한 것
데이터 분석 단계
데이터 분석
- 분석용 데이터를 이용한 가설 설정을 통해 통계 모델을 만들거나 기계학습을 이용한 데이터의 분류, 예측, 군집 등의 기능을 수행하는 과정
- 분석용 데이터 준비
- 텍스트 분석
- 탐색적 분석(EDA)
- 모델링
- 모델 평가 및 검증
분석 기획, 데이터 준비, 데이터 분석 - 추가적 데이터 확보가 필요한 경우 반복적인 피드백을 수행하는 구간
분석과제 도출 방법
하향식 접근방법
- 문제가 확실할 때 사용함, 문제가 주어지고 해법을 찾기 위해 사용함
상향식 접근 방법
- 문제의 정의 자체가 어려운 경우 사용함
디자인 싱킹
- 중요한 의사결정시 상향식과 하향식을 반복적으로 사용
- 기존의 논리적인 단계별 접근법에 기반한 문제해결 방식은 최근 복잡하고 다양한 환경에서 발생하는 문제에 적합하지 않을 수 있음
- "디자인 사고"접근법을 통해 전통적인 분석적 사고를 극복하려 함
- 상향식 방식의 발상(Diverge)단계와 도출된 옵션을 분석하고 검증하는 하향식 접근방식의 수렴(Converse)단계를 반복하여 과제를 발굴함
하향식 접근 방식
- 하향식 접근 방식(Top - Down Approach)의 데이터 분석 기획 단계
문제 탐색(Problem Discovery)
- 비즈니스 모델 기반 문제 탐색
- 외부 참조 모델 기반 문제 탐색
- 문제 탐색 도구
문제정의(Problem Definition)
- 데이터 분석 문제 변환
해결방안 탐색(Solution Search)
- 수행 옵션 도출
타당성 검토(Feasibility Study)
- 타당성 평가
- 과제 선정
하향식 접근 방식 - 문제 탐색 단계
문제 탐색 (Problem Discovery) |
문제 정의 (Problem Definition) |
해결 방안 탐색 (Solution Searon) |
타탕성 검토 (Feasibility Study) |
비즈니스 모델 기반 문제탐색 16,17,20,22,33회 출제
- 비즈니스 모델 캔버스를 활용하여 가치가 창출될 문제를 누락없이 도출할 수 있음
- 해당 기업의 사업 모델을 도식화한 비즈니스 모델 캔버스 블록을 단순화하여 업무, 제품, 고객 단위로 문제를 발굴하고 이를 관리하는 지원 인프라, 규제와 감사 영역에 대한 기회를 추가로 도출하는 작업 수행(5가지 영역 : 업무,제품,고객,지원 인프라,규제와 감사)
분석기회 발굴의 범위 확장
- 거시적 관점의 요인 : STEEP - 사회, 기술,경제 환경, 정치 영역
- 경정재 확대 관점 : 대체제 영역, 경쟁자 영역, 신규진입자 영역
- 시장의 니즈 탐색 : 고객(소비자)영역, 채널 영역, 영향자들 영역
- 역량의 재해석 관점 : 내부역량 영역, 파트너 네트워크 영역
외부 참조 모델 기반 문제 탐색
- 유사/동종 사례 벤치마킹을 통한 분석 기회 발굴
- 제공되는 산업별, 업무 서비스별 분석 테마 후보 그들을 통해 Quick & Easy 방식으로 필요한 분석 기회가 무엇인지에 대한 아이디어를 얻고 기업에 적용할 분석 테마 후보 목록을 빠르게 도출
분석 유즈케이스
- 풀어야 할 문제에 대한 상세 설명 및 해당 문제를 해결했을 때 발생하는 효과를 명시
- 향후 데이터 분석 문제로의 전환 및 적합성 평가에 활용하도록 함
분석유즈케이스의 예
업무 | 분석 유즈 케이스 | 설명 | 효과 |
재무 | 자금 시재 예측 | 일별로 예정된 자금지출과 입금 추정 | 자굼 과부족 현상 예방, 자금 운용 효율화 |
구매 최적화 | 구매 유형과 구매자별로 과거 실적과 구매조건을 비교/분석하여 구매 방안도출 | 구매 비용 절감 |
문제 정의(Problem Definition)단계
- 식별된 비즈니스 문제를 데이터의 문제로 변환하여 정의하는 단계
-문제 탐색 단계 - 무엇을(What)을 어떤 목적으로(Why)수행해야 하는 지 관점
-문제 정의 단계 :- 달성을 위해 필요한 데이터 기법(How)을 정의하기 위한 데이터 분석 문제로 변환을 수행
해결방안 탐색, 타당성 검토 단계
해결방안 탐색 : 어떤 데이터 또는 분석 시스템을 사용할 것인지 검토하는 단계
-데이터 분석 및 분석 시스템에 따라 소요되는 예산 및 활용 가능 도구가 다름
분석역량(Who)/분석 기법 시스템 | 확보 | 미확보 |
기존 시스템 | 기존 시스템 개선 활용 | 교육 및 채용을 통한 역량 확보 |
신규 도입 | 시스템 고도화 | 전문업체(Sourcing) |
타당성 검토 단계
- 경제적 타당도 : 비용 대비 편익 분석 관점의 접근
- 데이터 및 기술적 타당도 : 데이터 존재 여부, 분석 시스템 환경, 분석 역량
상향식 접근 방식 23회 출제
- 문제의 정의 자체가 어려운 경우 상향식 접근 방식 사용
- 데이터를 기반으로 문제의 재정의 및 해결방안을 탐색하고 이를 지속적으로 개선하는 방식
- 상향식 접근 방식의 데이터 분석은 비지도학습(Unsupervised Learning)방법에 의해 수행됨
- 디자인 싱킹(Design Thinking)의 발산 단계에 해당함
- 인사이트 도출 후 반복적인 시행착오를 통해 수정하며 문제를 도출하는 일련의 과정
지도학습 VS 비지도학습
지도학습(Supervised Learning)
- 명확한 input,output이 존재함
- 예측(Prgression) : 데이터를 대표하는 선형모델 등을 만들고 그 모델을 통해 미래의 사건을 예측하는 것
- 분류(Classification) : 이전까지 학습된 데이터를 근거로 새로운 데이터가 기존에 학습된 데이터에 분류 여부
비지도학습(unsupervised Learning)
- 컴퓨터가 알아서 분류를 하고, 의미 있는 값을 보여줌
- 데이터가 어떻게 구성되어 있는지 밝히는 용도로 사용함
- 군집화(Clustering)
분석 프로젝트의 특징 33회 출제
-분석프로젝트의 특징
- 분석 프로젝트는 다른 프로젝트 유형처럼 범위,일정,품질.리스크,의사소통 등 영역별 관리가 수행되어야 한다
- 다양한 데이터에 기반한 분석 기법을 적용하는 특성 때문에 5가지 주요 특성을 고려하여 추가적 관리가 필요하다
- 분석 과제 주요 특성에는 Data size, Data Complexity, Speed, Analytic Complexity, Accuracy & Precision 등이 있다
- 분석 프로젝트는 도출된 결과의 재해석을 통한 지속적인 반복 및 정규화가 수행되기도 한다
분석프로젝트의 특성 관리 영역 17,18,19,21*2,33회 출제
- 분석 과제의 주요 5가지 특성 관리 영역 (Data size, Data Complexity, Speed, Analytic Complexity, Accuracy & Precision)
Data size
- 분석하고자 하는 데이터의 양을 고려하는 관리방안 수립 필요
Data Complexity
- 비정형데이터 및 다양한 시스템에 산제되어 있는 데이터들을 통합해서 분석 프로젝트를 진행할 때는 해당 데이터에 잘 적용될 수 있는 분석 모델 선정에 대한 고려 필요
Speed
- 분석 결과 도출 후 활용하는 시나리오 측면에서 일,주 단위 실적은 배치형태 작업, 사기탐지 서비스 추천은 실시간 수행되어야 함
- 분석 모델의 성능 및 속도를 고려한 개발 및 테스트가 수행 되어야함
Analytic Complexity
- 정확도(Accuracy)와 복잡도(Complexity)는 트레이드 오프 관계가 존재
- 분석 모델이 복잡할수록 정확도는 올라가지만 해석이 어려워짐
- 기준점을 사전에 정의헤 두어야함
Accuracy & Precision
- Accuracy : 분석의 활용적인 측면(모델과 실제 값의 차이)
- Precision : 분석의 안정성 측면(모델을 반복했을 때의 편차)
- Accuracy,Precision은 드레이드 오프인 경우가 많음
- 모델의 해석 및 적용 시 사전에 고려해야 함
10개 주제별 프로젝트 관리 체계 33회출제
분석프로젝트인 경우 관리 영역에서 일반 프로젝트와 다르게 유의해야 할 요소 존재
시간,범위,품질,통합,이해관계자,자원,원가,리스크,조달,의사소통
시간
- 프로젝트 활동의 일정을 수립,일정 통제의 진척 상황관찰
범위
- 작업과 인도물을 식별하고 정의하는데 요구되는 프로세스
품질
- 품질보증과 품질통제를 계획하고 확립하는 데 요구되는 프로세스
통합
- 품질보증과 품질통제를 계획하고 확립하는 데 요구되는 프로세스
통합
- 프로젝트와 관련된 다양한 활동과 프로세스를 도출, 정의, 결합, 단일화, 조정, 통제, 종료에 필요한 프로세스
이해관계자
- 프로젝트 스폰서, 고객사, 기타 이해관계자 식별,관리에 필요한 프로세스
자원
- 인력,시설,장비,자재,기반 시설,도구와 같은 적절한 프로젝트 자원을 식별하고 확보하는 데 필요한 프로세스
원가
- 개발 예산과 원가통제의 진척상황을 관찰하는데 요구되는 프로세스
리스크
- 위험과 기회를 식별하고 관리하는 프로세스
조달
- 계획에 요구된 프로세스를 포함하며, 제품 및 서비스 또는 인도물을 인수하고 공급자와의 관계를 관리하는 데 요구되는 프로세스
의사소통
- 프로젝트와 관련된 정보를 계획,관리,배포하는 데 요구되는 프로세스