빅데이터분석준전문가자격증

ADsP. PART.3 - 데이터 분석 - 통계분석 - 통계학개론 - 2

theblack0 2022. 6. 27. 13:54
반응형

연속형 확률분포 - 정규분포(normal distribution)

연속형 확률분포 -> 정규분포 균등분포 지수분포 t분포 x^2분포 F분포

  • 가우스분포라고도 하며, 수집된 자료의 분포를 근사하는데 자주사용함
  • 평균과 표준편차(a)에 대해 모양이 결정되고 N(u,a^2)로 표기함
  • 평균 0,표준편차/분산 1인 정규분포, N(0,1)를 표준 정규분포, X분포라고 함
  • 예)키,몸무게,시험 점수 등 거의 대부분의 측정값이 정규분포를 따름
  • z분포의 평균 주위로 표준편차의 1배 범위에 있을 확률 68%, 2배범위 안 95%, 3배 범위 안 99.7%

 

  • 확률밀도함수(PDF, Probability Density Function PDF)
  • 특정 구간에 속할 확률을 계산하기 위한 함수
  • 확률밀도함수,f(x)와 구간(a,b)에 대해 활률변수 x가 구간에 포함될 확률 P(a < X < b)=∫^b ^a f(x)dx
  • 확률밀도 함수는 다음의 두 조건을 만족함
    1. 모든 실수 값 x에 대해 f(x) ≥0
    2. ∫∞~∞ f(x)dx=1

 

정규분포(normal distribution)

  • 시그마 규칙

  • 약 68%의 값들이 평균에서 양쪽으로 1 표준편차 범위(ut±a)에 존재
  • 약 95%dml 값들이 평균에서 양쪽으로 2 표준편차 범위(ut±a)에 존재
  • 거의 모든 값들(실제로는 99.7%)이 평균에서 양쪽으로 3표준편차 범위(ut±a)에 존재

연속형 확률분포 - 정규분포의 당위성

대부분의 측정값을 정규분포로 가정하는 이유  "정규분포의 당위성"

 

이항분포의 근사

  • 시행횟수 N이 커질 때, 이항분포 n(N,p)는 평균 Np, 분산 Npq인 정규분포와 N(Np,Npq)와 거의 같아짐

중심극한 정리

  • 표본의 크기가 N인 확률표본의 표본평균은 N이 충분히 크면 근사적으로 정규분포를 따르게 됨
  • 모집단의 분포와 상관없이 표본의 크기가 30이상이 되면 N이 커짐에 따라 표본평균의 분포가 정규분포에 근사해짐

오차의 법칙

  • 오차(Error) : ∈ = x-u
  • MLE(Maximum Likelihood Estimator) : 실제 값일 가능성이 가장 높은 값
  • 실제 값의 MLE가 측정값의 평균이면, 오차는 정규분포를 따른다 ->오차의 법칙

 

연속형 확률분포 - 정규분포 : 이항분포의 근사

 - 주사위를 던져 4가 나오는 횟수의 이항분포 vs 정규분포

연속형 확률분포 - 정규분포 : 중심극한정리

n=30만 되어도 정규분포의 모양을 보이는 것을 확인할 수 있음

 

균등분포(uniform distribution)

이산균등분포

  • 확률분포함수가 정의된 모든 곳에서 값이 일정한 분포
  • 확률변수가 n개의 값을 가질 수 있다면, Ki일 확률이 1/n임 (예:주사위 던지기)

연속균등분포

  • 연속확률분포로 분포가 특정 범위 내에서 균등하게 나타나 있을 경우
  • 두 개의 매개변수 a,b를 받으며, [a,b]범위에서 균등한 확률을 가짐
  • u(a,b)로 나타내며, u(0,1)인 경우 표준연속균등분포라고 함

지수분포(exponential disribution)

  • 사건이 서로 독립적일 때 다음 사건이 일어날 때까지 대기 시간은 지수분포를 따름
  • [참고]일정시간동안 발생하는 사건의 횟수는 포아송 분포를 따름
  • 지수분포와 포아송은 ∇를 사용함

 

t-분포

  • 정규분포는 표본의 수가 적으면 신뢰도가 낮아짐(n이 30개 미만인 경우)
  • 표본을 많이 뽑지 못하는 경우에 대한 대응책으로 예측범위가 넓은 분포를 사용하며, 이것이 t-분포임
  • t-분포는 표본의 개수에 따라 그래프의 모양이 변함
    • 표본의 개수가 많아질수록 정규분포와 비슷하며, 적을수록 옆으로 퍼짐
    • 표본의 개수가 적을수록 신뢰도가 낮아지기 때문에 예측범위를 넓히기 위해 옆으로 퍼지게 됨
  • t-분포는 표본의 수가 30개 미만일 때 사용하며, "신뢰구간","가설검정"에 사용함
  • 그래프 x축 좌표를 t값이라 부르며, t분포표를 사용해 구하고 검정에 사용함

카이제곱분포(x^2)

  • 분산의 특징을 확률분포로 만든 것으로, 카이(x)는 평균 0, 분산 1인 표준정규분포를 의미함
  • 카이제곱(X^2)은 표준정규분포를 제곱한다는 의미가 내포되어 있음
  • 자유도(df,미지수의 개수),v인 카이제곱분포(x^2)를 v개 합한 것으로 분포
  • X1,X2,X3,..........................Xv가 표준정규분포를 따를 때 Q=xi^2+x2^2+....................xv^2, Q~x^2(v)
  • 신뢰구간,가설검정에 사용하며, 그래프의 x축 자표를 카이제곱겂이라 부르며, 카이제곱분포표를 사용해 구하고 검정에 사용함

F-분포

  • 카이제곱분포와 같이 분산을 다를 때 사용하는 분포
  • 카이제곱분포는 한 집단의 분산,  F 분포는 두 집단의 분산을 다름
  • 두 집단의 분산이 크기가 서로 같은지 또는 다른지 비교하는 데 사용함
    • 보통 나눗셈을 활용해 두 집단의 분산을 비교함, 나누었을 때 1이면 두집단의 크기가 같음으로 판단
  • 카이제곱과 비슷하게 비대칭 모양이며, 양수만 존재함
  • 두 분산의 나눗셈을 확률분포로 나타낸 것이 바로 F분포임
  • 표본의 수가 많아지면 1을 중심으로 정규분포 모양이 됨
  • 분산 분석에 F분포를 사용하여, 그래프 x축 좌표인 F값을 활용하는 데 F분포표를 사용해 구함

 

연속형 확률분포

  • 연속형 확률분포의 선택

반응형