전체 글 92

ADsP. PART.3 - 데이터 분석 - 통계분석 - 군집(clustering)분석

군집분석(Clustering Analysis) 여러 변수 값들로부터 n개의 개체를 유사란 성격을 가진 몇개의 군집으로 집단화하고 형성된 군집들의 특성을 파악해 군집들 사이의 관계를 분석하는 다변량분석기법 계층적 군집(Hierarchical Clustering) 계층적 군집분석의 특징 가장 유사한 개체를 묶어 나가는 과정을 반복하여 원하는 개수의 군집을 형성하는 방법 유사도 판단은 두 개체 간의 거리에 기반하므로 거리 측정에 대한 정의가 필요함 유클리드,맨허튼,민코프스키,마할라노비스 등 이상치에 민감함 사건에 군집 수 K를 설정할 필요가 없는 탐색적 모형 군집을 형성하는 데 매 단계에서 지역적 최적화를 수행해 나가는 방법을 사용하므로 그 결과가 전역적인 최작해라고 볼수 없음 병합적 방법에서 한 번 군집이 ..

ADsP. PART.3 - 데이터 분석 - 통계분석 - 통계학개론 - 3

통계적 추론의 분류 모집단에 대한 가정 여부에 따른 통계적 추론의 분류 모수적 추론 Parametric Infererence, 모집단에 특정 분포를 가정하고 모수에 대해 추론함 비모수적 추론 Non-parametric Infererence, 모집단에 대해 특정 분포 가정을 하지 않음 추론 목적에 따른 통계적 추론의 분류 추정 Estimation, 통계량을 사용하여 모집단의 모수를 구체적으로 추측하는 과정 점 추정 : Point estimation, 하나의 값으로 모수의 값이 얼마인지 추측함 구간 측정 : Interval estimation, 모수를 포함할 것으로 기대되는 구간을 확률적으로 구함 가설검정 Testing hypotheses 모수에 대한 가설을 세우고 그 가설의 옳고 그름을 확률적으로 판정하는..

ADsP. PART.3 - 데이터 분석 - 통계분석 - 통계학개론 - 2

연속형 확률분포 - 정규분포(normal distribution) 연속형 확률분포 -> 정규분포 균등분포 지수분포 t분포 x^2분포 F분포 가우스분포라고도 하며, 수집된 자료의 분포를 근사하는데 자주사용함 평균과 표준편차(a)에 대해 모양이 결정되고 N(u,a^2)로 표기함 평균 0,표준편차/분산 1인 정규분포, N(0,1)를 표준 정규분포, X분포라고 함 예)키,몸무게,시험 점수 등 거의 대부분의 측정값이 정규분포를 따름 z분포의 평균 주위로 표준편차의 1배 범위에 있을 확률 68%, 2배범위 안 95%, 3배 범위 안 99.7% 확률밀도함수(PDF, Probability Density Function PDF) 특정 구간에 속할 확률을 계산하기 위한 함수 확률밀도함수,f(x)와 구간(a,b)에 대해 활..

ADsP. PART.3 - 데이터 분석 - 통계분석 - 통계학개론 - 1

통계분석 개요 - Population, Parameter, Sample, Statistic 모집단 잘 정의된 연구목적과 이와 연계된 명확한 연구대상(데이터 전체 집합) 예)대통령 후보의 지지율 - 윤권자 모수 모집단의 특성을 나타내는 수치들 모집단의 평균(u(뮤)),분산(a(알파)^2)같은 수치들을 모수(parameter)라고 함 표본 모집단의 개체수가 많아 전부 조사하기 힘들 때 모집단에서 추출(sampleing)한 것 추출(sampling)한 표본으로 모집단의 특성을 추론(infernece)함 (오차발생) 예)각종 여론조사에 참여한 유권자 통계량 표본의 특성을 나타내는 수치들 표본의 평균(xu),분산(s^2)같은 수치를 통계량(statistic)이라고 함 표본 추출 17,33회 추출**********..

ADsP. PART.3 - 데이터 분석 - 통계분석 - 기초통계분석

회귀분석(Regression Analysis) 용어정리 독립변수 다른 변수에 영향을 받지 않고 독립적으로 변화하는 수, 변수라고도 함 입력 값이;나 원인을 나타내는 변수, y=f(x)에서 x에 해당하는 것 종속변수 독립변수의 영향을 받아 값이 변화하는 수, 분석에 대상이 되는 변수 결과물이나 효과를 나타내는 변수, y=f(x)에서 y에 해당하는 것 전차(오차항) 계산에 의해 얻어진 이론 값과 실제 관측이나 측정에 의해 얻어진 값의 차이 오차(Error) - 모집단 , 잔차(Residual) - 표본집단 -회귀분석 변수와 변수 사이의 관계를 알아보기 워한 통계적 분석 방법 독립변수의 값에 의해 종속변수의 값을 예측하기 위함 일반 선형회귀는 종속변수가 연속형 변수일 때 가능함 이산형 - 명목척도, 서열척도,..

ADsP. PART.3 - 데이터 분석 - 데이터 마트 - 3

기초 분석 및 데이터 관리 1.데이터 EDA(탐색적 자료 분석) 데이터의 분석에 앞서 전체적으로 데이터의 특징을 파악하고 데이터를 다양한 각도로 접근 summary()를 이용하여 데이터의 기초 통계량을 확인가능 2.결측값 인식 결측값은 NA, 9999999999999, ' '(공백),Unknown, Not Answer 등으로 표현되는 것으로 결측값을 처리하기 위해서 시간을 많이 사용하는 것은 비효율적 결측값 자체의 의미가 있는 경우가 있음 쇼핑몰 가입자 중 특정 거래가 존재하지 않는 경우와 인구통계학적 데아터(demographic data)에서 아주 부자이거나 아주 가난한 경우 결측값 처리는 전체 작업속도에 큰 영향을 줌 3.결측값 처리 방법 가.단순대치법(Single Imputation) complet..

ADsP. PART.3 - 데이터 분석 - 데이터 마트 - 2

데이터 가공 1.Data Exploration 가.개요 데이터 분석을 위한 구선괸 데이터의 변수들의 상태를 파악 나.종류 1.head(데이텃셋),tall(데이터셋) 시작 또는 마지막 6개 recode만 조회하는 함수 head(), taill() 2.summary(데이터셋) 가)수치형 변수 : 최대값, 최소값, 평균, 1사분위수, 2사분위수(중앙값),3사분위수 나)명목형 변수 : 명목값, 데이터 개수 2.변수 중요도 가.개요 변수 선택법과 유사한 개념으로 모형을 생성하여 사용된 변수의 중요도를 살피는 과정 나.종류 특정변수가 주어졌을 때 클리스가 어떻게 분류되는 지에 대한 에러율을 계산해주고, 그래픽으로 결과를 보여주는 기능 greedy.wilks() : 세분화를 위한 stepwise forward변수 선..

ADsP. PART.3 - 데이터 분석 - 데이터 마트 - 1

데이터 변경 및 요약 1.R.reshape를 이용한 데이터 마트 개발 가)데이터마트 데이터웨어하우스와 사용자 사이의 중간층에 위치 하나의 주제 또는 하나의 부서 중심의 데이터웨어하우스라고 함 데이터 마트 내의 대부분의 데이터는 데이터웨어하우스으로부터 복사된다. 자체적으로 수립될 수도 있다 관계형 데이터나 다차원 데이터베이스를 이용하여 구축 CRM(customer relationshop management) 고객 데이터 마트 구축 나)요약변수 수집된 정보를 분석에 맞게 종합한 변수이다 데이터마트에서 가장 기본적인 변수로 총 구매금액,금액,횟수,구매여부 등 데이터 분석을 위해 만들어지는 변수 많은 모델을 공통으로 사용될 수 있어 재활용성이 높다 기간별 구매금액, 횟수 여부 고객의 구매 턴을 볼수 있는 변수이..

ADsP. PART.3 - 데이터 분석 - R의 기초 - 2

그래프의 종류 산점도 plot(x,y) 산점도 행렬 pairs() 상자그림(boxplot()) 히스토그램(hist()) 막대그래프(barplot()) 그래프 종류 - Boxplot -데이터의 분포를 파악하는 도구이다 **********************************************************매우 중요 시험에 자주 출제******************************************* Q1값과 Q3값은 시험 문제에 주어짐(공식을 외울 것) 이상값 판단 기준 : Q1-1.5*IQR < x < Q3+1.5*IQR IQR : Q3-Q1 Minnum : Q1-1.5*IQR Maxinum : Q3+1.5*IQR 그래프의 종류 - Histogram -히스토그램 도수분포표의 각 ..

ADsP. PART.3 - 데이터 분석 - R의 기초 -1

1.프로그램 설치 1.R 설치 https://www.r-project.org/ 2.R 스튜디오 설치 https://rstudio.com/ 2.R의 특징 오픈소스, 다양한 운영체제에서 사용할 수 있음 우수한 데이터 핸들링 : 텍스트, CSV, 엑셀, SAS, SPSS, DB 등 지원 인터프리터 우수한 그래픽 기능 : 2D, 3D, 동적 그래프 지원 다양한 형태의 데이터 구조를 지원하므로 분석 대응력이 좋음 열우선 배열 Index 번호는 1부터 시작 1:5는 1부터 5까지의 수를 의미함 3.R의 연산자 우선순위 연산자 우선순위 의미 예 ^ , ** 지수 2^4 + , - 양수, 음수 부호 +4, -2 : 수열 생성 1:5 %any% 특수 연산자 %/% : ahrt, %% : 나머지, %*% : 행렬곱 * ,..