adsp합격후기 13

ADsP. 자주 출제되는 주관식 문제 - PART.2 - 데이터 분석 기획

분석방법론의 "시스템 구현"단계에서 시스템으로 구현된 모델은 검증을 위하여 단위 테스트, 통합 테스트, 시스템 테스트 등을 실시한다. 이중 (ㄱ) 테스트는 품질관리 차원에서 진행함으로써 적용된 시스템의 객관성과 안정성을 확보한다 시스템 데이터 거버넌스 체계에서 데이터 저장소 관리란 메타데이터 및 표준 데이터를 관리하기 위한 전사 차원의 저장소로 구성된다. 저장소는 데이터 관리체계 지원을 위한 (ㄱ) 및 관리용 응용 소프트웨어를 지원하고 관리대상 시스템과의 인터페이스를 통한 통제가 이루어져야 한다. 또한 데이터 구조변경에 따른 (ㄴ)도 수행되어야 효율적인 활용이 가능하다 (ㄱ) : 워크플로우 (ㄴ) : 사전영향평가 문제 탐색을 통해서 식별된 비즈니스문제를 변환하는 단계로써, 문제 탐색 단계가 무엇을 어떤 ..

ADsP. 자주 출제되는 주관식 문제 - PART.1 - 데이터 이해

1.데이터 이해 "A마트의 다른 상품들도 B마트보다 쌀것이라 판단" 지혜 데이터 사이언티스트가 갖춰야 할 역량은 빅데이터의 처리 및 분석에 필요한 이론적 지식과 기술적 숙련에 관련된 능력인 (ㄱ) skil과 데이터 속에 숨겨진 가치를 발견하고 새로운 발전 기회를 만들어 내기 위한 능력인 (ㄴ)skil로 나누어진다 (ㄱ) : Hard (ㄴ) :Soft (ㄱ)는 데이터 가공 및 상관관계 간 이해를 통해 패턴을 인식하고 그 의미를 부여한 것이며 지식을 도출하기 위한 자료 (ㄱ) : 정보 기업의 의사결정 과정을 지원하기 위한 주체 중심적으로 통합적이며 시간성을 가지는 비휘발성 데이터의 집합을 (ㄱ)이라고 한다 (ㄱ) : 데이터웨어하우스 지난 몇년간 여러 사일로 대신 하나의 데이터 소스를 추구하는 경향이 생겼다...

ADsP. PART.3 - 데이터 분석 - 통계분석 - 정형 데이터 마이닝

데이터마이닝 기업이 보유하고 있는 일일 거래 데이터, 고객 데이터, 상품 데이터 혹은 마케팅 활동에 있어서의 고객 반응 데이터 등과 이외의 외부 데이터를 포함하는 모든 사용가능한 원천 데이터를 기반으로 감춰진 지식, 기대하지 못했던 경향 또는 새로운 규칙등을 발견하고 이를 실제 비즈니스 의사결정 등에 유용한 정보로 활용하는 일련의 작업 데이터마이닝 5단계 목적정의 데이터 마이닝 도입 목적을 명확하게 함 데이터 준비 데이터 정제(Cleaning)를 통해 데이터의 품질 확보까지 포함 필요시 데이터 양 충분하게 확보 데이터 가공 목적변수를 정의하고, 필요한 데이터를 데이터 마이닝 소프트웨어에 적용할 수 있게 가공 및 준비하는 단계 충분한 CPU와 메모리, 디스크 공간 등 개발환경 구축이 선행 데이터 마이닝 기..

ADsP. PART.3 - 데이터 분석 - 통계분석 - 인공신경망(ANN)분석

인공신경망(ANN) 모형 인공신경망을 이용하면 분류 및 군집을 할 수 있음 인공신경망은 입력층, 은닉층, 출력층 3개의 층으로 구성되어 있음 각 층에 뉴런(노드)이 여러 개 포함되어 있음 학습 : 입력에 대한 올바른 출력이 나오도록 가중치(weight)를 조절하는 것 가중치 초기화는 -1.0 ~ 1.0 사이의 임의 값으로 설정하며, 가중치를 지나치게 큰 값으로 초기화하면 활성화 함수를 편향 시키게 되며, 활성화 함수가 과적합 되는 상태를 포화상태라고 함 경하하강법(Gradient descent) 함수 기울기를 낮은 쪽으로 계속 이동시켜 극값에 이를 때까지 반복시키는 것 제시된 함수의 기울기의 최소값을 찾아내는 머신러닝 알고리즘 비용함수(cost function)을 최소하 하기위해 parameter를 반복..

ADsP. PART.3 - 데이터 분석 - 통계분석 - 분류(Ciassification)분석

데이터 분석 순서 분석용 데이터 준비 => 탐색적 분석 데이터 전처리 => 모델링 => 모델 평가 및 검증 => 모델 적응 운영 방안 수립 속성 간 상관관계 파악 데이터 확인 회귀분석 결정계수(R^2) 데이터 특성 파악 데이터 형식 변경 분류분석 F통계량,t값 분포 파악 결측 값 처리 군집분석 ROC Curve 이상 값 처리 연관분석 오분류표 특성 조작(Scaling, Binning, 실루엣,DI Transform,Dummery) 데이터 차원 축소 Machine Learning Algorithms 분류분석 종류 로지스틱 회귀 의사결정나무 앙상블 신경망모형 kNN,베이즈분류 모형,SVM(서보트백터기계),유전자 알고리즘 로지스틱 회귀분석 16.18.20,22회 출제 독립변수는 연속형, 종속변수가 범주형인 경..

ADsP. PART.3 - 데이터 분석 - 통계분석 - 주성분(Principal Component)분석

주성분 분석(PCA) 19,20회출제 주성분분석(PCA,Principal Component Analysis) 데이터를 분석할 때 변수의 개수가 많다고 모두 활용하는 것이 꼭 좋은 것이 아님 오히려 변수가 '다중공선성'이 있을 경우 분석 결과에 영향을 줄 수 있음 공분산행렬 또는 상관계수 행렬을 사용해 모든 변수들을 가장 잘 설명하는 주성분을 찾는 방법 상관관계가 있는 변수들을 선형 결합에 의해 상관관계가 없는 새로운 변수(주성분)을 만들고 분산을 극대화하는 변수로 축약함 주성분은 변수들의 선형결합으로 이루어져 있음 독립변수들과 주성분과의 거리인 '정보손실량'을 최소화하거나 - 주성분분석 할 때 고민해야 하는 것 공분산행렬과 상관계수행렬 중 어떤 것을 선택할 것인가? 주성분의 개수를 몇 게로 할 것인가? ..

ADsP. PART.3 - 데이터 분석 - 통계분석 - 군집(clustering)분석

군집분석(Clustering Analysis) 여러 변수 값들로부터 n개의 개체를 유사란 성격을 가진 몇개의 군집으로 집단화하고 형성된 군집들의 특성을 파악해 군집들 사이의 관계를 분석하는 다변량분석기법 계층적 군집(Hierarchical Clustering) 계층적 군집분석의 특징 가장 유사한 개체를 묶어 나가는 과정을 반복하여 원하는 개수의 군집을 형성하는 방법 유사도 판단은 두 개체 간의 거리에 기반하므로 거리 측정에 대한 정의가 필요함 유클리드,맨허튼,민코프스키,마할라노비스 등 이상치에 민감함 사건에 군집 수 K를 설정할 필요가 없는 탐색적 모형 군집을 형성하는 데 매 단계에서 지역적 최적화를 수행해 나가는 방법을 사용하므로 그 결과가 전역적인 최작해라고 볼수 없음 병합적 방법에서 한 번 군집이 ..

ADsP. PART.3 - 데이터 분석 - 통계분석 - 통계학개론 - 3

통계적 추론의 분류 모집단에 대한 가정 여부에 따른 통계적 추론의 분류 모수적 추론 Parametric Infererence, 모집단에 특정 분포를 가정하고 모수에 대해 추론함 비모수적 추론 Non-parametric Infererence, 모집단에 대해 특정 분포 가정을 하지 않음 추론 목적에 따른 통계적 추론의 분류 추정 Estimation, 통계량을 사용하여 모집단의 모수를 구체적으로 추측하는 과정 점 추정 : Point estimation, 하나의 값으로 모수의 값이 얼마인지 추측함 구간 측정 : Interval estimation, 모수를 포함할 것으로 기대되는 구간을 확률적으로 구함 가설검정 Testing hypotheses 모수에 대한 가설을 세우고 그 가설의 옳고 그름을 확률적으로 판정하는..

ADsP. PART.3 - 데이터 분석 - 데이터 마트 - 3

기초 분석 및 데이터 관리 1.데이터 EDA(탐색적 자료 분석) 데이터의 분석에 앞서 전체적으로 데이터의 특징을 파악하고 데이터를 다양한 각도로 접근 summary()를 이용하여 데이터의 기초 통계량을 확인가능 2.결측값 인식 결측값은 NA, 9999999999999, ' '(공백),Unknown, Not Answer 등으로 표현되는 것으로 결측값을 처리하기 위해서 시간을 많이 사용하는 것은 비효율적 결측값 자체의 의미가 있는 경우가 있음 쇼핑몰 가입자 중 특정 거래가 존재하지 않는 경우와 인구통계학적 데아터(demographic data)에서 아주 부자이거나 아주 가난한 경우 결측값 처리는 전체 작업속도에 큰 영향을 줌 3.결측값 처리 방법 가.단순대치법(Single Imputation) complet..

ADsP. PART.3 - 데이터 분석 - 데이터 마트 - 2

데이터 가공 1.Data Exploration 가.개요 데이터 분석을 위한 구선괸 데이터의 변수들의 상태를 파악 나.종류 1.head(데이텃셋),tall(데이터셋) 시작 또는 마지막 6개 recode만 조회하는 함수 head(), taill() 2.summary(데이터셋) 가)수치형 변수 : 최대값, 최소값, 평균, 1사분위수, 2사분위수(중앙값),3사분위수 나)명목형 변수 : 명목값, 데이터 개수 2.변수 중요도 가.개요 변수 선택법과 유사한 개념으로 모형을 생성하여 사용된 변수의 중요도를 살피는 과정 나.종류 특정변수가 주어졌을 때 클리스가 어떻게 분류되는 지에 대한 에러율을 계산해주고, 그래픽으로 결과를 보여주는 기능 greedy.wilks() : 세분화를 위한 stepwise forward변수 선..