빅데이터분석준전문가자격증
ADsP. 자주 출제되는 주관식 문제 - PART.3 - 데이터 분석
theblack0
2022. 7. 5. 00:00
반응형
SQL을 활용하거나 SAS에서 porc sql로 작업하던 사용자들에게 R프로그램에서 지원해주는 패키지 | sqldf() |
출력 결과 X<- 1:100 sum(X > 50) |
50 |
y,x1,x2 사이의 적합된 회귀식 Call : lm(formula ~y,~x1+x2,data ~ datavar) Resuduals : Min 1Q Median 3Q Max -0.0575279 0.0163589 -0.0008483 0.0168662 0.0718922 |
y=0.1570.03+ 0.0028231*1 -0.2786003*2 |
다변량 회귀분석 결과 u:1,v=2,w=0 때, y값 > m <-lm(y~u+v+w) > m Call : lm(formula ~y ~u+v+w) coefficients (Imtercept) u v w 3.8 -0.21 0.41 -0.16 |
y=3.8-0.21u+0.41v-0.16w y=3.8-0.21+0.82 |
여러 대상 간의 객관적 또는 주관적 관계에 관한 수치적 자료를 이용해 유사성에 대한 측정치를 상대적 거리로 시각화하는 방법으로 설문지 응답지의 개객인의 유사성과 선호도 차이를 시각화하여 보고 설명하는 통계적 방법론 | 다차원 척도법 |
평균으로부터 t standard deviation 이상 떨어져 있는 값들을 이상값(outlier)으로 판단하고 t는 3으로 설정하는 이상값 검색 알고리즘은? | ESD (Extreme Studentized Deviation) |
최적방정식을 선택하기 위한 방법 중 모든 독립변수 후보를 포함한 모형에서 시작하여 가장 적은 양향을 주는 변수를 하나씩 제거하면서 더 이상 유의하지 않는 변수가 없을 때까지 설명변수를 제가하는 방법 | 후진제거법 |
College 데이터의 Grad.Rate변수의 기초 동계량을 계산한 결과이다. College데이터의 Grad.Rate변수의 몇 %가 78보다 큰 값을 가지는가? > summary(College$Grad.Rate) min. 1st Qu. Median Mean 3rd Qu. Max. 10.00 53.00 65.00 65.46 78.00 118.00 |
25% |
아래 주성분 분석의 결과에서 두 개의 주성분을 사용할 때 설명가능한 전체 분산의 비율 > model <-princomp(Car) > summary(model) Importance of components : Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Standard deviation 1.503 1.075 0.840 0.752 0.555 Proportion of Variance 0.453 0.231 0.141 0.113 0.061 Cumulative Proportion 0.453 0.684 0.825 0.938 1.000 |
68.4% |
아래 회귀분석 모형의 추정에 대한 설명에서 (ㄱ)은 단순회귀분석 모형을 yi=B0+BiXi+Ei로 표현할 수 있다. 주어진 자료를 가장 잘 설명하는 회귀계수의 추정치는 보통 제곱오차 ∑(yi-(B0+BiXi))^2을 최소로 하는 값을 구한다. 이와 같이 구해진 회귀계수 추정량 (ㄱ) 이라고 한다 |
최소제곱 |
번호를 부여한 샘플을 나열하여 k개씩 n개의 구간을 나누고, 첫 구간에서 하나를 임의로 선택한 후에 k개씩 띄어서 표본을 선택하고 매번 k번째 항목을 추출하는 표본 추출 방법 | 계통추출방법 |
귀무가설(H0)이 옳은 데 귀무가설을 받아들이지 않고 기각하게 되는 오류 | 제 1종 오류 |
조사하기 위해 추출한 모집단의 일부 원소 | 표본(Sample) |
다차원척도법은 여러 대상간의 관계에 관한 수치적 자료를 이용해 유사성에 대한 측정치를 상대적으로 (ㄱ)로 시각화하는 방법 | 거리 |
통계적 추론에서 (ㄱ)검정은 자료와 추출된 모집단의 분포에 대해 아무 제약을 가하지 않고 검정을 실시하는 검정방법으로, 관측된 자료가 특정 분포를 따른다고 가정할 수 없는 경우에 이용 | 비모수 |
상관분석은 데이터 안의 두 변수간의 관게를 알아보기 위해 사용한다. 두 변수간의 상관관계를 알아보기 위해 상관계수를 이용하여 서열척도인 변수간의 상관관계를 측정하는 데 사용하는 상관계수 | 스피어만 상관계수 |
결정계수(R^2) 계산 >anova(out) Analysis of variance Table Response : Fertility DF Sum Sq Mean Sq F value Pr(>F) Education 1 3.162.7 3.162.7 35.446 3.659e-07 *** Residuals 45 4015.2 89.2 |
3162.7/(3162.7+4015.2)=0.4406 |
y,x1,x2 사이의 적합된 회귀식 작성 Call: lm(formula = y -x1*x2, data=datavar) COefficients: Estimate Std. Error t value Pr(> | t | ) (Intercept) 0.1570203 0.2324673 0.675 0.5058 X1 0.0028231 0.0004171 0.769 5.31e-07 *** X2 -0.2786003 0.1344397 -2.072 0.0491 * |
y=0.15702+0.00282*1-0.27860*2 |
시계열자료를 분석하는 목적 중 하나는 과거의 패턴이 유지된다는 가정하에서. 현재까지 수집된 자료를 분석하여 미래에 대한 예측을 하는 것이다. 이를 위해 전체 자료를 이용하는 대신 최근 m개의 관측값들만의 평균을 구하여 지엽적인 변동을 제거하여 장기적인 추세를 쉽게 파알할 수 있는 방법 | 자기회귀모형 (AR모형 : AutoRegression Model) |
자료의 위치를 나타내는 척도의 하나로 관측치를 크기순으로 배열하였을 때 전체의 중앙에 위치한 수치이다. 평균에 비해 이상치에 의한 영향이 적기 때문에 자료의 분포가 심하게 비대칭인 경우 중심을 파악할 때 합리적인 방법 | 중앙값 |
이것은 인공신경망의 한계를 극복하기 위해 제안된 심화신경망을 활용한 기계학습 방법이다. 기존의 인공신경망은 높은 분해 정확도에 비해 속도가 느린 것이 단점이였다. 게다가 과적합도 웬만해선 해결되지 않는 과제였다. 연구자들이 그에 대한 해법을 내놓으면서 다시 각광을 받기 시작했다. | 딥러닝 (Deep Learning) |
트랜잭션에서 추출된 연관규칙 중 하나인 "BC"의 신뢰도 Transaction #1 {A,B,C} Transaction #1 {A,B,D} Transaction #1 {A,B} Transaction #1 {B,C} Transaction #1 {A,B,C,D} Transaction #1 {E} |
신뢰도 : P(A∩B) / P(B) (3/6) / (5/6) = 3/5 = 0.6 |
두 객체 A,B 사이의 유클리디안 거리 계산 개체 변수1 변수2 A 3 4 B 6 8 |
sqrt[(3-4)^2+(6-8)^2] =sqrt[5] |
분류할 데이터와 주어진 데이터의 모든 거리를 계산하여 가까운 거리의 데이터를 k개 만큼 찾은 후 그 중에서 가장 빈도 수가 높은 클래스로 분류해주는 기법 | k-NN |
최적화방법은 우리 생활과 밀접하게 연관되어 있다. 어떤 물건을 구입할 때 우리는 몇가지 대안 중에서 재정적인 고려와 함께 구입 이유, 사용기간, 가격 등 여러 조건을 비교 검토한 후 결정을 내린다. 이러한 결정을 내릴 때 최대 효과, 최소 비용, 최고의 선택과 같은 최적화의 개념을 인식하게 된다. 이러한 최적화 방법 중 가장 많이 사용되는 방법 | 선형계획법 |
"실제 상활을 수학적으로 모델화하고, 그 모델을 컴퓨터에 프로그램으로 최적화 후, 일어날 수 있는 가능한 모든 상황을 입력함으로써 각각의 경우에 어떤 결과가 도출되는 지 예측 | 시뮬레이션 |
연관성 분석에서 "전체 거래 중 항목 A와 항목 B를 동시에 포함되는 거래의 비율"로 정의되는 척도 | 지지도(Support) |
연관성 분석에서 "상품 A를 포함하는 거래 중 A와 B가 동시에 거래되는 비율" | 신뢰도(Confidence) |
연관성 분석에 "상품A가 주어지지 않았을 때 B의 확률 대비 A가 주어졌을 때 B의 확률 증가비율" | 향상도(Lift) |
R에서 다음 명령의 결과 X <- (1,2,3,NA) Mean(x) |
NA |
분류분석의 모형평가 방법으로 랜덤모델과 비교하여 해당 모델의 성과가 얼마나 향상되었는지를 각 등급별로 파악하는 그래프 | 향상도 곡선 |
오분류표를 활용하여 모형을 평가하는 지표 중 범주 불균형을 가지고 있는 데이터에 대한 중요한 범주만을 다루기 위해 사용되는 지표로 실제값이 False인 관측치 중 예측치가 적중한 정도를 나타내는 지표 | 특이도 |
코호넨에 의해 제시되었으며 비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원 뉴런으로 정렬하여 지도의 형상화하는 클러스터링 방법 | SOM (Self-Organizing Map) |
혼합분포군집은 모형 기반의 군집방법으로서 데이터가 K개의 모수적 모형의 가중합으로 표현되는 모집단 모형으로부터 나왔다는 가정하에서 분석을 하는 방법이다. k개의 각 모형은 군집을 의미하며 이 혼합모형의 모수와 가중치의 최대가능도추정에 사용되는 알고리즘 | EM알고리즘 |
분류모형의 성능평가하기 위하여 x출에는 (1-특이도),y축에는 민감도를 나타내어 이 두평가값의 관계를 나타낸 그래프 | ROC Curve |
어떤 항목집합이 반발하다면, 그 항목집합의 모든 부분집합도 반발하다는 원리로 연관규칙 알고리즘 중에서 가장 먼저, 많이 사용되고 있는 알고리즘 | Apriori알고리즘 |
다수 모델의 예측을 관리하고 조합하는 기술을 메타학습이라고 한다. 여러 분류기들의 예측을 조합함으로써 분류 정확성을 향상 시키는 기법 | 앙상블 기법 |
출처 : https://data-make.tistory.com/145 [Data Makes Our Future]
반응형