빅데이터분석준전문가자격증

ADsP. PART.3 - 데이터 분석 - 통계분석 - 통계학개론 - 1

theblack0 2022. 6. 27. 12:54
반응형

통계분석 개요

 - Population, Parameter, Sample, Statistic

모집단

  • 잘 정의된 연구목적과 이와 연계된 명확한 연구대상(데이터 전체 집합)
    • 예)대통령 후보의 지지율 - 윤권자

모수

  • 모집단의 특성을 나타내는 수치들
  • 모집단의 평균(u(뮤)),분산(a(알파)^2)같은 수치들을 모수(parameter)라고 함

표본

  • 모집단의 개체수가 많아 전부 조사하기 힘들 때 모집단에서 추출(sampleing)한 것
  • 추출(sampling)한 표본으로 모집단의 특성을 추론(infernece)함 (오차발생)
  • 예)각종 여론조사에 참여한 유권자

통계량

  • 표본의 특성을 나타내는 수치들
  • 표본의 평균(xu),분산(s^2)같은 수치를 통계량(statistic)이라고 함

표본 추출 17,33회 추출*********************************************************************************************

 - 확률적 표본추출법의 종류

단순 무작위추출 Simple random sampling

  • 모집단의 각 개체가 표본으로 선택될 확률이 동일하게 추출되는 경우
  • 모집단의 개체수 N, 표본 수,n일 때 게뱔 개체가 선택될 확률은 n/N임

계통추출 Systematic sampling

  • 모집단 개체에 1,2,..............N이라는 일련번호를 부여한 후, 첫번째 표본을 임의로 선택하고 일정 간격으로 다음 표본을 선택함
  • 1~100번보 부여 후, 10개 선택한다면,(1,11,21,31,................91)선택

층화추출 Stratified sampling

  • 모집단을 서로 겹치지 않게 몇 개의 집단 또는 층(strata)으로 나누고, 각 집단 내에서 원하는 크기의 표본을 단순 무작위 추출법으로 추출함
  • 층 : 성별,나이대,지역 등 차이가 존재하는 그룹

군집 추출 Cluster sampling

  • 모집단을 차이가 없는 여러 개의 집단(cluster)로 나눔
  • 예)경상대학 내에 경영학과,경제학과
  • 이들 집단 중 몇 개 선택한 후, 선택된 집단 내에서 필요한 만큼의 표본을 임의로 선택함

- 비확률 표본 추출법은 특정 표본이 선정될 확률을 알 수 없어 통계학에서 사용할 수 없음

 

척도의 종류  19,20*3,22,33*2회 출제*****************************************************************************

명목척도 nominal scale

  • 단순히 측정 대상의 특성을 분류하거나 확인하기 위한 목적
  • 숫자로 바꾸어도 그 값이 크고 작음을 나타내지 않고 범주를 표시함
  • 성별,혈액형,출생지 등

서열(순위,순서)척도 Ordinal scale

  • 대소 또는 높고 낮음 등의 순위만 제공할 뿐 양적인 비교는 할 수 없음
  • 항목들 간에 서열이나 순위가 존재
  • 금,은,동메달,선호도,만족도(Likert 척도)등

등간척도(구간척도) Interval scale

  • 순위를 부여하되 순위 사이의 간격이 동일하여 양적인 비교가 가능함
  • 절대 0점이 존재하지 않음, 온도계 수치, 물가지수
  • 절대 0점이 없음을 의미함
  • 온도의0은 상대 0점으로 없음이 아니라 영상,영하의 중간 지점을 나타냄

비율척도 Ratio scale

  • 절대 0점이 존재하여 측정값 사이의 비율 계산이 가능한 척도
  • 몸무게,나이,형제의 수,직장까지 거리

집중화 경향 측정     21,33회 출제

-집중화 경향(Centeral Tendency)측정에 사용되는 값들

평균(Mean)

  • 값들의 무게 중심이 어디인지를 나타내는 값, 산술 평균

중앙값(Median)

  • 자료를 크기 순서대로 배열했을 때, 중앙에 위치하게 되는 값

최빈값(Mode)

  • 어떤 값이 가장 많이 관찰되는 지 나타낸 값

데이터 퍼짐 정도 측정

  - 데이터 집합이 얼마나 퍼저 있는지를 알아보는 데 사용하는 값들

산포도(dispersion)

  • 자료의 변량들이 흩어져 있는 정도를 하나의 수로 나타낸 값
  • 산포도가 크면 변량들이 평균으로부터 멀리 흩어져 있음, 변동성이 커짐
  • 산포도가 작으면 변량들이 평균 주위에 밀집,변동성이 작아짐
  • 범위,사분위수 범위,분산,표준편차,절대편차,변동계수

편차

  • 어떤 자료의 변량에서 평균을 뺀 값을 편차라고 한다(편차 - 변량-평균)
  • 편차의 총합은 항상 0, 편차의 절댓값이 클수록 그 변량은 평균에서 멀리 떨어져 있고, 편차의 절대값이 작을수록 평균에 가까이 있다

분산(s^2) Variance

  • 편차의 제곱의 합을 n-1로 나눈 것
  • 데이터 집합이 얼마나 퍼져있는지 알아볼 수 있는 수치
  • 평균이 같아도 분산은 다를 수 있음

표준편차(s) Standard Deviation

  • 자료의 산포도를 나타내는 수치, 분산의 양의 제곱근
  • 평균으로부터 각 데이터의 관찰 값까지의 평균거리

분산(Variance)의 중요성

  • 평균은 같지만 다른 두확률 분포

분산, 표준편차

  • 분산,표준편차의 이해
    • 특정도시의 10가구를 표본으로 추출해 자녀수를 조사한 결과가 0,0,0,1,1,2,2,3,3,3일 때 
    • 표본 평균 : 1.5 분산 : 1.61, 표준 편차 : 1.27이 나옴
    • 특정 도시의 각 가구는 평균 1.5명의 자녀를 가지고, 각 가구는 약 1.27명의 자녀를 더하거나 뺀 범위 안에 있을 것으로 예상

변동 계수(CV,coefficient of variation)

  • 단위가 다른 두 그룹 또는 단위는 같지만 평균차이가 클 때의 산포 비교에 사용함
    • A학생이 평균 3시간 공부하고 표준편차는 0.4이었고, B학생은 평균 6시간 공부하고, 표준평차가 0.9이었다면 어떤 학생이 꾸준하게 공부했을까?
    • CV=s/x, A=0.4/3 - 0.133, B = 0.9/6 = 0.15이미므로 변동계수가 작은 A가 더 꾸준히 공부함
    • 이때, B학생의 표준편차가 0.8이라면 A,B학생의 변동계수가 같아짐, 즉 공부시간이 평균에 대한 표준편차의 비율이 CV임
    • 관측되는 자료가 모두 양수일 때 사용

통계 기본용어

표본점

  • 어떤 행위를 했을 때 나올 수 있는 값
  • 주사위 굴리는 행위를 했다면 1,2,3,4,5,6 중 하나

표본공간

  • 모든 표본점의 집합
  • 주사위 굴리는 행위에 대한 표본공간 S={1,2,3,4,5,6}

사건

  • 표본점이 특정한 집합
  • 주사위를 한번 굴렸을 때 홀수가 나오는 사건을 A라고 하면 A={1,3,5}

확률 probability

  • 사건이 일어날 수 있는 가능성을 수로 나타낸 것
  • 어떤 사건을 A라고 했을 때, A가 발생할 확률은 P(A)와 같이 표기함
  • 확률 = 사건/표본공간
  • 확률갑 : 0 ≤ P(A) ≤ 1

사건의 종류   19,33회 출제

독립사건

  • A의 발생이 B가 발생할 확률을 바꾸지 않는 사건
  • 두 사건A,B가 독립이면, P(B|A) = P(B), P(A|B) = P(A), P(A∩B) = P(A) * P(B)성립
  • 예) 주사위 던져서 나오는 눈의 값과 동정을 던져 나오는 앞/뒤 사건
  • 예)서로 다른 사람이 총을 쏘아 과녁에 명중할 사건

배반사건

  • 교집합이 공집합인 사건, 한쪽이 일어나면 다른 쪽이 일어나지 않을 때의 두 사건
  • P(A∩B)=0, P(A∪B)= P(A)+P(B)
  • 예)동전 하나를 던져 앞면 나오는 사건, 뒷면 사오는 사건

종속사건

  • 두 사건 A와 B에서 한 사건의 경과가 다른 사건에 영향을 주는 사건
  • 예)음주와 사고 사건, P(AB) = P(A|B)P(B)

조건부확률

   -조건부확률(Conditional probability)

  • 사건 B가 발생했다는 조건 아래서 사건 A가 발생할 조건부 확률
  • P(A|B) = P(A∩B)/P(B), 단 P(B) >  0
  • 두 사건 A,B가 독립사건인 경우 : P(B|A) = P(B), P(A|B) = P(A), P(A∩B) = P(A)|P(B)

확률분포    19,23출제

분포

  • 일정한 범위 안에 흩어져 있는 정도

확률분포

  • random, variable, 확률 현상에 기인해 결과 값이 확률 적으로 정해지는 변수
  • 확률 현산 : 어떤 결과들이 나올지 알지만, 가능한 결과들 중 어떤 결과가 나올지 모르는 현상

이산형 확률분포

  • Discrete(별개의), 확률변수가 몇개의 한정된 가능한 값을 가지는 분포
  • 각 사건은 서로 독립이어야 함
  • 예)이항분포,베루누이분포,기하분포,포아송분포 등

연속형 확률분포

  • Contiriuous, 확률번수의 가능한 값이 무한 개이며 사실상 셀수 없을 때
  • 예)정규분포,지수분포,연속균일분포,카이제곱분포,F분포 등

 

이산형 확률분포

이산형 확률분포 ->베루누이분포 ->이항분포 -> 기하분포 -> 포아송분포

베르누이분포

  • 실험결과 두 가지 중의 하나로 나오는 시행의 결과를 0 또는 1 값으로 대응시키는 확률변수 x에 대해 아래 식을 만족하는 확률변수 x가 따르는 확률분포
  • P(X=0)=p,(X=1)=q, 0 ≤ p ≤1, q = 1-p
  • 모수가 하나이며 서로 반복되는 사건이 일어나는 실험의 반복적 실행을 확률분포로 나타낸 것

베르누이분포의 예

  • 동전을 던져서 앞면이 나올 확률
    • p=1/2, q=1/2
  • 주사위를 던져서 4의 눈이 나올 확률
    • p=1/6, q=5/6
  • 주사위를 던져서 4,5,의 눈의 나올 확률
    • p = 1/3, q=2/3
  • 이항분포
    • 서로 독립된 베르누이 시행을 n회 반복할 때 성공한 횟수를 x라 하면, 성공한 x의 확률분포를 말함
    • 확률변수 K가 n,p 두 개의 모수를 갔으며, K-B(n,p)로 표기함
    • n=1일 때 이항분포가 베르누이분포임
    • 이항분포의 기댓값 E(x)=np
    • 이항분포의 분산: V(x)=np(1-p)
  • 이항분포의 예
  • 동전을 50번 던져서 앞면이 나올 경우는?
    • n=50, p=1/2
  • 주사위를 10번 던져서 나오는 눈이 5일 경우는?
    • n=10,p=1/6
  • 타율 3할인 타자가 100번 타석에 들어서면 안타를 얼마나 칠 것인가?
    • n=100, p=0.3
  • 기하분포
  • 베르누이 시행에서 처음 성공까지 시도한 횟수 x의 분포, 지지잡합 (x) = {1,2,3,..............}
  • 베르누이 시행에서 처음 성공할 때까지 실패한 횟수, Y=X-1의 분포, 지지집합(x)={0,1,2,............}
  • 성골확률 p인 베르누이 시행에 대해, x번 시행 후 첫번째 성공을 얻을 확률,  X ~ G(p)로 표기
  • P(X=x) = (1-P)x+1P(x=1,2,3,................)
  • 실패 횟수에 대해서는 P(Y=x)=(1-p)*p (x=0,1,2,...............)

 

  • 기하분포의 예
    • A 야구선수의 홈런 칠 확률이 5%일 때, 이 선수가 x번째 타석에서 홈런 칠 확률분포
  • 포아송분포
    • 단위시간이나 단위공간에서 어떤 사건이 몇번 발생할 것인지를 표현하는 분포
    • 특정기간 동안 사건(events)발생의 확률을 구할 때 쓰임
    • X~Pols(np)
    • ∇(파이) : 정해진 시간 안에 어떤 사건이 일어날 횟수에 대한 기댓값, P(X=x) e-A∇^2/x^i
  • 포아송분포의 예
    • 어느 AS센터에 1시간당 평균 120건의 전화가 온다. 이때 1분동안 걸려오는 전화 요청이 4건 이하일 확률은?
    • 어는 가게에 1시간당 평균 8명의 손님이 온다. 이때, 1시간 동안 손님이 10명 올 확률은?
    • 확률은  x=∇에서 최대이며, x가 커질수록 0에 접근함
  •  

기댓값

  • 기댓값 :  확률변수 X의 가능한 모든 값들의 가중 평균

 

반응형