분류 전체보기 92

ADsP. 자주 출제되는 주관식 문제 - PART.3 - 데이터 분석

SQL을 활용하거나 SAS에서 porc sql로 작업하던 사용자들에게 R프로그램에서 지원해주는 패키지 sqldf() 출력 결과 X 50) 50 y,x1,x2 사이의 적합된 회귀식 Call : lm(formula ~y,~x1+x2,data ~ datavar) Resuduals : Min 1Q Median 3Q Max -0.0575279 0.0163589 -0.0008483 0.0168662 0.0718922 y=0.1570.03+ 0.0028231*1 -0.2786003*2 다변량 회귀분석 결과 u:1,v=2,w=0 때, y값 > m m Call : lm(formula ~y ~u+v+w) coefficients (Imtercept) u v w 3.8 -0.21 0.41 -0.16 y=3.8-0.21u+0...

ADsP. 자주 출제되는 주관식 문제 - PART.2 - 데이터 분석 기획

분석방법론의 "시스템 구현"단계에서 시스템으로 구현된 모델은 검증을 위하여 단위 테스트, 통합 테스트, 시스템 테스트 등을 실시한다. 이중 (ㄱ) 테스트는 품질관리 차원에서 진행함으로써 적용된 시스템의 객관성과 안정성을 확보한다 시스템 데이터 거버넌스 체계에서 데이터 저장소 관리란 메타데이터 및 표준 데이터를 관리하기 위한 전사 차원의 저장소로 구성된다. 저장소는 데이터 관리체계 지원을 위한 (ㄱ) 및 관리용 응용 소프트웨어를 지원하고 관리대상 시스템과의 인터페이스를 통한 통제가 이루어져야 한다. 또한 데이터 구조변경에 따른 (ㄴ)도 수행되어야 효율적인 활용이 가능하다 (ㄱ) : 워크플로우 (ㄴ) : 사전영향평가 문제 탐색을 통해서 식별된 비즈니스문제를 변환하는 단계로써, 문제 탐색 단계가 무엇을 어떤 ..

ADsP. 자주 출제되는 주관식 문제 - PART.1 - 데이터 이해

1.데이터 이해 "A마트의 다른 상품들도 B마트보다 쌀것이라 판단" 지혜 데이터 사이언티스트가 갖춰야 할 역량은 빅데이터의 처리 및 분석에 필요한 이론적 지식과 기술적 숙련에 관련된 능력인 (ㄱ) skil과 데이터 속에 숨겨진 가치를 발견하고 새로운 발전 기회를 만들어 내기 위한 능력인 (ㄴ)skil로 나누어진다 (ㄱ) : Hard (ㄴ) :Soft (ㄱ)는 데이터 가공 및 상관관계 간 이해를 통해 패턴을 인식하고 그 의미를 부여한 것이며 지식을 도출하기 위한 자료 (ㄱ) : 정보 기업의 의사결정 과정을 지원하기 위한 주체 중심적으로 통합적이며 시간성을 가지는 비휘발성 데이터의 집합을 (ㄱ)이라고 한다 (ㄱ) : 데이터웨어하우스 지난 몇년간 여러 사일로 대신 하나의 데이터 소스를 추구하는 경향이 생겼다...

ADsP. PART.3 - 데이터 분석 - 통계분석 - 정형 데이터 마이닝

데이터마이닝 기업이 보유하고 있는 일일 거래 데이터, 고객 데이터, 상품 데이터 혹은 마케팅 활동에 있어서의 고객 반응 데이터 등과 이외의 외부 데이터를 포함하는 모든 사용가능한 원천 데이터를 기반으로 감춰진 지식, 기대하지 못했던 경향 또는 새로운 규칙등을 발견하고 이를 실제 비즈니스 의사결정 등에 유용한 정보로 활용하는 일련의 작업 데이터마이닝 5단계 목적정의 데이터 마이닝 도입 목적을 명확하게 함 데이터 준비 데이터 정제(Cleaning)를 통해 데이터의 품질 확보까지 포함 필요시 데이터 양 충분하게 확보 데이터 가공 목적변수를 정의하고, 필요한 데이터를 데이터 마이닝 소프트웨어에 적용할 수 있게 가공 및 준비하는 단계 충분한 CPU와 메모리, 디스크 공간 등 개발환경 구축이 선행 데이터 마이닝 기..

ADsP. PART.3 - 데이터 분석 - 통계분석 - 인공신경망(ANN)분석

인공신경망(ANN) 모형 인공신경망을 이용하면 분류 및 군집을 할 수 있음 인공신경망은 입력층, 은닉층, 출력층 3개의 층으로 구성되어 있음 각 층에 뉴런(노드)이 여러 개 포함되어 있음 학습 : 입력에 대한 올바른 출력이 나오도록 가중치(weight)를 조절하는 것 가중치 초기화는 -1.0 ~ 1.0 사이의 임의 값으로 설정하며, 가중치를 지나치게 큰 값으로 초기화하면 활성화 함수를 편향 시키게 되며, 활성화 함수가 과적합 되는 상태를 포화상태라고 함 경하하강법(Gradient descent) 함수 기울기를 낮은 쪽으로 계속 이동시켜 극값에 이를 때까지 반복시키는 것 제시된 함수의 기울기의 최소값을 찾아내는 머신러닝 알고리즘 비용함수(cost function)을 최소하 하기위해 parameter를 반복..

ADsP. PART.3 - 데이터 분석 - 통계분석 - 분류(Ciassification)분석

데이터 분석 순서 분석용 데이터 준비 => 탐색적 분석 데이터 전처리 => 모델링 => 모델 평가 및 검증 => 모델 적응 운영 방안 수립 속성 간 상관관계 파악 데이터 확인 회귀분석 결정계수(R^2) 데이터 특성 파악 데이터 형식 변경 분류분석 F통계량,t값 분포 파악 결측 값 처리 군집분석 ROC Curve 이상 값 처리 연관분석 오분류표 특성 조작(Scaling, Binning, 실루엣,DI Transform,Dummery) 데이터 차원 축소 Machine Learning Algorithms 분류분석 종류 로지스틱 회귀 의사결정나무 앙상블 신경망모형 kNN,베이즈분류 모형,SVM(서보트백터기계),유전자 알고리즘 로지스틱 회귀분석 16.18.20,22회 출제 독립변수는 연속형, 종속변수가 범주형인 경..

ADsP. PART.3 - 데이터 분석 - 통계분석 - 시계열(time series)분석

시계열 자료(time series) 16,18,22,23*2회 출제 시계열 자료 시간의 흐름에 따라 관측된 데이터 시계열 분석을 위해서는 정상성을 만족해야함 정상성(stationary) 시계열의 수중과 분산에 체계적인 변화가 없고, 주기적 변동이 없다는 것 미래는 확률적으로 과거와 돌일하다는 것 정상 시계열의 조건 평균은 모든 시점(시간 t)에 일정하다 분산은 모든 시점(시간 t)에 일정하다 공분산은 모든 시점(시간 t)에 의존하지 않고, 단지 시차에만 의존한다 정상시계열 전환 16,18,22,23*2,33회 출제 정상시계열로 전환하는 방법 비정상시계열자료는 정상성을 만족하도록 데이터를 정상시계열로 만든 후 시계열 분석을 수행한다 평균이 일정하지 않은 경우 : 원계열에 차분 사용 계절성을 갖는 비정상시계..

ADsP. PART.3 - 데이터 분석 - 통계분석 - 주성분(Principal Component)분석

주성분 분석(PCA) 19,20회출제 주성분분석(PCA,Principal Component Analysis) 데이터를 분석할 때 변수의 개수가 많다고 모두 활용하는 것이 꼭 좋은 것이 아님 오히려 변수가 '다중공선성'이 있을 경우 분석 결과에 영향을 줄 수 있음 공분산행렬 또는 상관계수 행렬을 사용해 모든 변수들을 가장 잘 설명하는 주성분을 찾는 방법 상관관계가 있는 변수들을 선형 결합에 의해 상관관계가 없는 새로운 변수(주성분)을 만들고 분산을 극대화하는 변수로 축약함 주성분은 변수들의 선형결합으로 이루어져 있음 독립변수들과 주성분과의 거리인 '정보손실량'을 최소화하거나 - 주성분분석 할 때 고민해야 하는 것 공분산행렬과 상관계수행렬 중 어떤 것을 선택할 것인가? 주성분의 개수를 몇 게로 할 것인가? ..

ADsP. PART.3 - 데이터 분석 - 통계분석 - 연관(Association)분석

연관분석(Association Analysis) 33회 출제 연관분석 연관규칙(Association rule):항목들 간의 '조건-결과'식으로 표현되는 유용한 패턴 이러한 패턴 규칙을 발견해내는 것을 연관분석이라 함 장바구니 분석이라고 함(미국 마트에서 기저귀를 사는 고객은 맥주를 동시에 구매한다는 연관규칙을 알아낸 것에 기안함) Apriori알고리즘 연관규칙의 대표적 알고리즘으로 현재도 많이 사용됨 데이터들에 대한 발생빈도를 기반으로 각 데이터 간의 연관관계를 밝히는 방법 데이터셋이 큰 경우 모든 후보 itemset에 대해 하나하나 검사하는 것이 비효율적임 FP Growth Apriori단점을 보완하기 위해 FP-tree와 node,link라는 특별한 자료 구조를 사용 장점 조건반응(if=then)으로..

ADsP. PART.3 - 데이터 분석 - 통계분석 - 상관(Correlation)분석

상관분석 correlation analysis 상관계수의 이해 상관계수는 두 변수의 관련성의 정도를 의미함(1~ 1의 값으로 나타냄) 두 변수의 상관관계가 존재하지 않을 경우 상관계수는 '0'임 상관관계가 높다고 인과관계가 있다고 할 수 없음 피어슨 상관계수와 스피어만 상관계수가 있음 피어슨 상관계수는 두 변수 간의 선형적인 크기만 측정 가능하며 스피어만 상관계수는 두 변수 간의 비선형적인 관계도 나타낼 수 있음 R의 cor.test()함수를 사용해 상관계수 결정을 수행하고, 유의성검정을 판단 할 수 있음 이때 귀무가설은 '상관계수가 0이다', 대림가설은 '상관계수가 0이 아니다' 상관분석 17,21,22*2.23,33회 출제 스피어만 상관계수 대상자료는 서열척도로 사용, 두 변수 간의 비선형적인 관계를..