빅데이터 관련 개념 정리

추정과 검정

은행털이 2024. 4. 22. 21:15

추정

통계학의 목적은 일부 표본을 조사, 분석하여 전체 모집단을 추정하는 것
- 즉 추정이란 모집단의 특성, 즉 모수(Parameter)가 무잇인지 추측하는 것

  • 점 추정(Point Estimation) : 표본을 기반으로 모수를 특정한 수치로 추정하는 방법, 표본 통계량 이용
  • 구간 추정(Interval Estimation) : 표본을 기반으로 모수를 특정한 구간(신뢰 구간)으로 추정하는 방법
    - 신뢰 구간 : 주어진 신뢰 수준 하에 모수가 포함될 것으로 기대되는 수치 범위
  • 가설 검정(Hypothesis Test) : 모수에 대한 가설을 설정한 후에 그 가설이 옳은지 판단하여 채택 여부를 결정

 

 

1. 점 추정

  • 모수를 단일 값으로 추정하는 통계정 방법
  • 추정치가 유용하고 신뢰할 수 있는 정보를 제공하도록 보장하는 조건은 다음과 같음
    - 불편성(Unbiasedness) : 추정치의 기대값이 추정하고자 하는 모수의 실제 값과 같아야 함
    - 일관성(Consistency) : 표본의 크기가 무한대로 증가함에 따라 추정량이 추정하고자 하는 모수의 실제 값에 확률적으로 수렴
    - 효율성(Efficiency) : 주어진 표본 크기에 대해 가증한 가장 작은 분산을 가지는 추정치
    - 충분성(Sufficiency) : 추정치가 주어진 표본 데이터에서 가능한 모든 정보를 활용하여 모수를 추정한다는 개념
    - 견고성(Robustness) : 추정치가 데이터의 작은 변화나 이상치에 과도하게 영향받지 않는 성질

 

2. 모평균 μ의 추정

모집단의 평균을 표본을 통해 알아내는 과정

  • 표본평균, 중앙값, 최소값, 최대값 등 통계량을 모평균 μ의 추정치로 고려
  • 모평균 μ는 표본평균 X바로 추정 : μ = E(X바) = 1/n  Σ i가 1부터 n까지일 때 Xi
  • 즉 X바의 기대값이 모평균 μ와 같음 = 표본의 평균을 모집단의 평균이라고 가늠(추정)

 

3. 모분산 σ^2의 추정

모집단의 분산을 표본을 통해 알아내는 과정

  • 표본분산 s^2 = 1 / n-1 Σ i가 1부터 n까지일 때 (Xi - X바)^2
  • n -1로 나누는 이유는 표본분산이 모분산의 불편 추정량(unbiased)이 되도록 보정하여, 추정치의 기대값이 실제 모분산의 값과 일치하게 되기 때문
  • 즉 모분산 σ^2은 표본 분산 s^2로, 모집단 표준편차 σ는 표본 표준편차 s로 각각 가늠할 수 있음

 

4. 모비율 p의 추정

주로 모집단 내에서 특성 속성을 가진 원소의 비율을 알아내기 위해 사용

  • 모비율 p의 추정은 p^ = x / n
  • 모비율 p의 분산추정은 Var(p^) = pq / n
  • 모비율 p의 표준편차 추정은 s(p^) = 루트pq/n
    - 표본 크기 n이 충분히 클 때(일반적으로 np >= 10 및 n(1-p) >= 10 조건을 만족할 때) 표본비율에서 분포는 정규분포에 근접
    - 큰 표본에서는 정규분포의 특성을 이용하여 신뢰구간을 계산하거나 가설 검정 수행 가능

 

 

5. 구간 추정

  • 주어진 모수의 값이 특정 신뢰수준(구간)에서 포함될 것으로 예상되는 값의 범위를 제공하는 방법
    - 추정치 : 표본 데이터를 바탕으로 계산된 모수의 추정값
    - 신뢰구간 : 추정치를 중심으로 한, 모수가 포함될 것으로 예상되는 값의 범위(표준오차를 고려하여 모집단 평균 μ가 포함될 확률 구간)
    - 신뢰도 : 추정의 정확성과 연관된 값, 신뢰도가 95%라는 것은 100번 표본을 뽑아 각각 평균을 구했을 경우 95번 정도는 신뢰구간 내에 모집단의 평균이 포함된다는 의미
    - 오차율(α) : 신뢰구간 내에 모집단 평균이 포함되지 않을 확률
    - 신뢰도 = 1- 오차율(α), 오차율(α) = 1 - 신뢰도

 

5-1. 신뢰구간 계산

  • 추정치 선택 : 모평균의 경우 표본 평균, 모비율의경우 표본비율 등 모수에 대한 적절한 추정치 선택
  • 표준오차 계산 :  추정치의 표준오차를 계산하여 표본에서 모수 추정의 변동성을 평가(추정치 분산의 제곱근)
  • 신뢰수준 설정 : 흔히 사용되는 신뢰수준은 90, 95, 99%이고 신뢰 수준은 구간이 모수를 포함할 확률을 의미하며 이에 따라 z-값(정규분포), t-값(t-분포) 등이 결정
  • 신뢰구간 계산 : 신뢰구간 = 추정치 +- (임계값 * 표준오차)

 

5-2. 단일모수의 신뢰구간 추정(모순산 σ^2이 주어진 경우)

  • 표본평균 X바는 정규분포를 따르는 모집단으로부터 추출된 표본들의 평균, 정규분포를 따름
  • 표준오차 계산 : SE = 루트σ^2 / n, n은 표본의 크기
  • 정규분포를 이용한 신뢰구간 계산 : 신뢰구간 = X바 +- z * SE

 

5-2. 단일모수의 신뢰구간 추정(모순산 σ^2이 주어지 않은 경우)

  • 모분산을 알 수 없으므로, 표본 분산을 이용하여 모분산의 추정값을 구해 사용, t-분포를 기반으로 신뢰구간 작성
  • 표준오차 계산 : SE = 루트s^2 / n, n은 표본의 크기
  • t -분포를 이용한 신뢰구간 계산 : X바 +- t-분포의 신뢰수준과 자유도(n-1)에서의 임계값 * SE

 

6. 모비율 p의 신뢰구간

  • 모집단에서 특정 특성을 가진 원소의 비율을 추정하기 위해 사용되는 통계적 방법
  • 모비율 p의 추정량은 표본비율 p^ = x / n으로 계산
    - x : 표본에서 특정 특성을 가진 원소의 수
    - n : 표본의 총 크기
  • 표준오차 계산 : SE(p^) = 루트p^ * (1-p^) / n
  • 신뢰구간 계산 : p^ +- z * SE(p^)

 

6-1. 모분산 σ^2의 신뢰구간

  • 표본 데이터를 바탕으로 모집단의 분산의 범위를 추정하는 데 사용
  • 모분산의 신뢰구간을 추정하는 과정은 모평균, 모비율과 다르게 표본분산을 기반으로 하며, 카이제곱 분포를 활용
  • 표본분산 σ^2의 표본분포는 주어진 자유도 n-1인 카이제곱분포를 이용
  • 표본분포 = (n -1)s^2 / σ^2 ~ χ^2(n-1)

모분산의 신뢰구간, 자유도 n-1을 적용해야함

 

 

6-2. 두 모평균의 차이 μ1 - μ2의 신뢰구간

  • 두 독립된 모집단에서 추출된 표본을 바탕으로,평균 사이의 차이를 추정할 때 사용
  • 두 모분산을 알고있는 경우
    - 신뢰구간 : (X1바 - X2바) +- z * SE
    - 표준오차 :  SE(X1바 - X2바) = 루트( 모분산a / n1 + 모분산b / n2 ))
  • 두 모분산을 알지 못하지만 표본이 많은 경우 (n1, n2가 30이상), 정규분포 이용
    - 표준오차 : SE(X1바 - X2바) = 루트( 표본분산a / n1 + 표본분산b / n2 )), 정규분포 이용
  • 두 모분산을 알지 못하고 표본도 적을 경우 (n1, n2가 30 미만), t - 분포 이용
    - 표준오차 : SE(X1바 - X2바) = 루트( 표본분산a / n1 + 표본분산b / n2 )), t - 분포 이용

두 모평균 차이의 신뢰구간

 

 

6-3. 두 모비율의 차이 p1 - p2의 신뢰구간

  • 두 독립된 표본에서 얻은 비율의 차이를 통해 계산
  • 두 표본 비율의 표준오차를 합산하여 사용하며, 정규분포의 근사를 이용
  • 두 모비율의 차이 p1 - p2의 추정치는 두 표본비율의 차이 p1^ - p2^
  • 두 모비율의 차이에 대한 신뢰구간 : (p1^ - p2^) +- z * SE(p1^ - p2^)
  • 표준오차 계산 : SE(p1^ - p2^) = 루트( SE(p1^)^2 + SE(p2^)^2
    - SE(p1^) = 루트( p1^(1 - p1^) / n1 )
    - SE(p2^) = 루트( p2^(1 - p2^) / n2 )

 

6-4. 두 모분산의 비율의 신뢰구간

  • 두 독립적인 표본에서 추출된 분산을 비교할 때 사용
  • 두 모분산의 비율추정을 위해 두 표본 분산의 비율을 사용
  • ㅍㅛ본 분산의 비율은 자유도 df1 = n1 - 1과 df2 = n2 - 1을 가진 F- 분포를 따름

 

 

 

7. 가설검정

  • 가설(hypothesis)
    - 과학적 연구에서 검증하고자 하는 예측이나 주장을 의미
    - 연구자가 관찰이나 실험을 통해 탐구하고자 하는 현상에 대한 초기의 설명이거나, 특정 변수 간의 관계에 대한 추측을 포함
  • 가설 검정(testing hypothesis)
    - 데이터를 통해 특정 가설의 타당성을 평가하는 과정
    - 특정 가설, 특히 귀무가설(null hypothesis)과 얼마나 일치하는지를 판단하기 위해 사용
    - 예시로, '남녀 간에 지지하는 정당이 다를 것이다', '남녀 간에 지지하는 정당이 비슷할 것이다', '남자가 여자에 비해 A당의 지지율이 높을 것이다' 등과 같은 연구자의 예측을 표현한 것

 

7-1. 가설의 유형

  • 귀무가설 (Null Hyphothesis, H0)
    - 특정 변수간에 차이나 관계가 없다는 가설로, 통계적 검정의 기준점으로 사용
    - 무조건 '~가 없다'로 표현
    - 예시로 "두 집단의 평균에 차이가 없다"

  • 대립가설 (Alternative Hypothesis, Ha 또는 H1)
    - 귀무가설과 반대되는 가설로, 연구자가 증명하고자 하는 가설
    - '~가 있다' 로 표현
    - 예시로, "처리 집단의 평균이 대조 집단의 평균과 차이가 있다"
유형 가설 가설적 표현의 예시
차이의 가설 귀무가설 소득수준에 따라서 선호하는 자동차 유형은 차이가 없을 것이다.
대립가설 소득수준에 따라서 선호하는 자동차 유형은 차이가 있을 것이다.
관계의 가설 귀무가설 스트레스와 감기발병률은 상관관계가 없을 것이다.
대립가설 스트레스와 감기발병률은 상관관계가 있을 것이다.
영향의 가설 귀무가설 주거환경은 아동의 학습능력에 영향이 없다
대립가설 주거환경은 아동의 학습능력에 영향이 있다

 

 

 

7-2. 가설검정의 기본 단계

  • 귀무가설(H0)과 대립가설(Ha or H1) 설정
  • 적절한 검정 통계량 선택
    - 데이터의 유형, 분포, 표본의 크기, 가설의 유형 등을 고려하여 선택
  • 유의수준(α) 설정
    - 유의수준은 귀무가설을 잘못 기각할 확률로, 일반적으로 0.05(5%)를 사용
  • 검정 통계량 계산 및 p-값 평가
    - 검정 통계량을 계산하고 p-값을 도출, p-값은 귀무가설 하에서 관측된 결과가 나올 확률을 의미
    - p-값이 유의수준보다 작거나 같으면 귀무가설을 기각하고, 그렇지 않으면 귀무가설을 기각하지 않음
  •  결론 도출
    - p-값과 유의수준을 비교하여 가설을 기각하거나 마는 결론을 내림
    - p-값이 매우 작다면, 귀무가설 하에서 관찰된 결과가 매우 드물다는 것을 의미 
    - 귀무가설 기각, 대립가설 지지, 대립가설이 채택되는 구간을 유의수준(기각역)이라고 함

 

7-3. 가설검정의 기본용어

용어 개념
검정통계량 - 실제 현상(수집된 데이터)이 기준이 되는 귀무가설(~없다)라는 가정으로부터 얼마나 차이가 나타나는지를 계산한 값
가설기각 - 실제 표본의 관측치와 이론치와의 차이가 확률적인 오차의 범위를 넘어 오류라고 판단되는 것
가설채택 - 관측치와 이론치의 차이가 신뢰수준 범위 내에 존재하는 것
신뢰구간(신뢰수준) - 귀무가설을 여전히 채택(신뢰)하게 되는 구간
- 일반적으로 95% (0.95) 사용
유의수준 - 귀무가설을 버리고 대립가설을 채택하게 되는 구간
- 일반적으로 5% (0.05) 사용
임계치 - 귀무가설과 대립가설을 선택하는 기준의 값
- 통상 이를 확률적으로 표현한 유의확률(p)를 확인하여 가설을 기각 혹은 채택

 

 

7-4. 분석방법 별 검정통계량

분석방법 적용 검정통계량 공식 p(유의확률)
t - test 두 평균간 차이 t - value (X1 - X2) / (s / √n) P < 0.05
대립가설 채택
교차분석 두 범주자료 간 관계  χ^2 Σ (기대빈도 - 관측빈도)^2 / 기대빈도
분산분석 세 집단 이상 간 평균 차이 F-value 집단간 분산 / 집단 내 분산
상관관계 분석 연속형 자료 간 상관관계 t-value r / (√1 - r^2 / n - 2)
회귀분석 연속형 자료 간 영향관계 F-value(모형) MSR / MSE
t-value(변수) b / SE(b)

 

 

7-5. 유의확률(p-value, p-값)

  • 유의확률은 확률의 값이므로 0과 1사이의 값을 가짐
결과 1
대선 후보의 지지율을 파악하기 위해 전국 성인 남녀 1,000명을 조사한 결과,
- A후보 지지율은 45%
- B후보 지지율은 41%이며,
본 조사의 신뢰수준 95%, 표집오차 3%로 나타남
A후보가 B후보를 앞선다고 말할 수 있는가?
결과 2
대선 후보의 지지율을 파악하기 위해 전국 성인 남녀 1,000명을 조사한 결과,
- A후보 지지율은 47%
- B후보 지지율은 40%이며,
본 조사의 신뢰수준 95%, 표집오차 3%로 나타남
A후보가 B후보를 앞선다고 말할 수 있는가?

 

여기서 통계적 유의성에 대한 의미

후보 결과1 결과2
A후보 42% ~ 48% 44% ~ 50%
B후보 38% ~ 44%
- A후보와 B후보의 범위에서 겹치는 부분이 존재하므로 다른 표본을 조사할 시 결과가 바뀔 수 있음
37% ~ 43%
- A후보와 B후보의 범위에서 겹치는 부분이 존재하지 않으므로 다른 표본을 조사해도 결과가 바뀌지 않음
의미 다른 표본(혹은 모집단 전체)을 조사하면 결과가 뒤바뀔 수도 있음 다른 표본(혹은 모집단 전체)을 조사해도 결과는 뒤바뀌지 않음
통계적 표현 통계적으로 유의하지 않음 통계적으로 유의함

 

 

7-6. 제1종 오류(α)와 제2종 오류(β)

  • 제 1종 오류 : 귀무가설 H0이 옳은데도 불구하고 기각하는 오류이며, 나타날 확률을 '제1종 오류의 크기'라고 하고 유의수준 α로 표현
  • 제 2종 오류 : 귀무가설 H0이 옳지 않은데도 불구하고 채택하는 오류이며, 나타날 확률을 '제2종 오류의 크기'라고 하고 β로 표현
  귀무가설(H0)이 사실이라고 판정 귀무가설(H0)이 사실이 아니라고 판정
귀무가설(H0)이 사실임 옳은 결정 제 1종 오류(α)
귀무가설(H0)이 사실이 아님 제 2종 오류(β) 옳은 결정

 

 

 

7-7. 단일 모집단의 가설 검정

  • 단일 모집단에 대한 모평균 가설검정은 통계분석상으로 '일표본 t-검정'에 해당
  • 가설 설정
    - 귀무가설(H0) : 표본집단의 평균은 모집단과 다르지 않음(차이가 없음)
    - 대립가설(H1) : 표본집단의 평균은 모집단과 다름(차이가 있음)
  • 검정통계량 계산
    - 평균의 차이 : z(t) = (X - μ) / (s / √n) = 표본의 평균과 알려진 평균값과의 차이 / 표준오차
    - 비율의 차이 : z(t) =  (p바 - p) / (√pq/n) = 표본의 비율과 알려진 비율값과의 차이 / 표준오차

 

7-8. 두 모집단 사이의 가설검정

  • 두 모집단에 대한 모평균 가설검정은 독립표본 t-검정에 해당
  • 두 개의 독립적인 표본 집단간에 하나의 종속변수의 평균이 동일한가를 검증하는 것
    - 귀무가설(H0) : A집단과 B집단의 평균은 모집단과 다르지 않음(차이가 없음)
    - 대립가설(H1) : A집단과 B집단의 평균은 모집단과 다름(차이가 있음)
  • 검정통계량 계산
    - 평균의 차이 :  z(t) = (X1바 - X2바) / √(표본분산1 / n1) + (표본분산2 / n2) = 두 집단 평균의 차이 / 두 집단 차이의 결합 표준오차

 

7-9. 대응 모집단 사이의 가설검정

  • 대응 모집단 평균 차이의 가설검정은 '대응표본 t-검정'에 해당
  • 동일한 표본의 A시점의 변수값과 B시점의 변수값의 차이 검증에 사용
    - 귀무가설(H0) : 특정 표본의 A변수와 B변수의 평균은 다르지 않음(차이가 없음)
    - 대립가설(H1) : 특정 표본의 A변수와 B변수의 평균은 다름(차이가 있음)
  • 검정통계량 계산
    - 평균의 차이 : z(t) = d바(Xa1 - Xb1) / √차이의 분산 / n
    - d바(Xa1 - Xb1) : 두 변수의 평균 차이

'빅데이터 관련 개념 정리' 카테고리의 다른 글

인공지능 개념  (4) 2024.10.13
분석 모형 설계  (1) 2024.06.13
데이터 축소  (0) 2024.04.21
데이터 통합  (1) 2024.04.21
데이터 정제  (0) 2024.04.20