추정
통계학의 목적은 일부 표본을 조사, 분석하여 전체 모집단을 추정하는 것
- 즉 추정이란 모집단의 특성, 즉 모수(Parameter)가 무잇인지 추측하는 것
- 점 추정(Point Estimation) : 표본을 기반으로 모수를 특정한 수치로 추정하는 방법, 표본 통계량 이용
- 구간 추정(Interval Estimation) : 표본을 기반으로 모수를 특정한 구간(신뢰 구간)으로 추정하는 방법
- 신뢰 구간 : 주어진 신뢰 수준 하에 모수가 포함될 것으로 기대되는 수치 범위 - 가설 검정(Hypothesis Test) : 모수에 대한 가설을 설정한 후에 그 가설이 옳은지 판단하여 채택 여부를 결정
1. 점 추정
- 모수를 단일 값으로 추정하는 통계정 방법
- 추정치가 유용하고 신뢰할 수 있는 정보를 제공하도록 보장하는 조건은 다음과 같음
- 불편성(Unbiasedness) : 추정치의 기대값이 추정하고자 하는 모수의 실제 값과 같아야 함
- 일관성(Consistency) : 표본의 크기가 무한대로 증가함에 따라 추정량이 추정하고자 하는 모수의 실제 값에 확률적으로 수렴
- 효율성(Efficiency) : 주어진 표본 크기에 대해 가증한 가장 작은 분산을 가지는 추정치
- 충분성(Sufficiency) : 추정치가 주어진 표본 데이터에서 가능한 모든 정보를 활용하여 모수를 추정한다는 개념
- 견고성(Robustness) : 추정치가 데이터의 작은 변화나 이상치에 과도하게 영향받지 않는 성질
2. 모평균 μ의 추정
모집단의 평균을 표본을 통해 알아내는 과정
- 표본평균, 중앙값, 최소값, 최대값 등 통계량을 모평균 μ의 추정치로 고려
- 모평균 μ는 표본평균 X바로 추정 : μ = E(X바) = 1/n Σ i가 1부터 n까지일 때 Xi
- 즉 X바의 기대값이 모평균 μ와 같음 = 표본의 평균을 모집단의 평균이라고 가늠(추정)
3. 모분산 σ^2의 추정
모집단의 분산을 표본을 통해 알아내는 과정
- 표본분산 s^2 = 1 / n-1 Σ i가 1부터 n까지일 때 (Xi - X바)^2
- n -1로 나누는 이유는 표본분산이 모분산의 불편 추정량(unbiased)이 되도록 보정하여, 추정치의 기대값이 실제 모분산의 값과 일치하게 되기 때문
- 즉 모분산 σ^2은 표본 분산 s^2로, 모집단 표준편차 σ는 표본 표준편차 s로 각각 가늠할 수 있음
4. 모비율 p의 추정
주로 모집단 내에서 특성 속성을 가진 원소의 비율을 알아내기 위해 사용
- 모비율 p의 추정은 p^ = x / n
- 모비율 p의 분산추정은 Var(p^) = pq / n
- 모비율 p의 표준편차 추정은 s(p^) = 루트pq/n
- 표본 크기 n이 충분히 클 때(일반적으로 np >= 10 및 n(1-p) >= 10 조건을 만족할 때) 표본비율에서 분포는 정규분포에 근접함
- 큰 표본에서는 정규분포의 특성을 이용하여 신뢰구간을 계산하거나 가설 검정 수행 가능
5. 구간 추정
- 주어진 모수의 값이 특정 신뢰수준(구간)에서 포함될 것으로 예상되는 값의 범위를 제공하는 방법
- 추정치 : 표본 데이터를 바탕으로 계산된 모수의 추정값
- 신뢰구간 : 추정치를 중심으로 한, 모수가 포함될 것으로 예상되는 값의 범위(표준오차를 고려하여 모집단 평균 μ가 포함될 확률 구간)
- 신뢰도 : 추정의 정확성과 연관된 값, 신뢰도가 95%라는 것은 100번 표본을 뽑아 각각 평균을 구했을 경우 95번 정도는 신뢰구간 내에 모집단의 평균이 포함된다는 의미
- 오차율(α) : 신뢰구간 내에 모집단 평균이 포함되지 않을 확률
- 신뢰도 = 1- 오차율(α), 오차율(α) = 1 - 신뢰도
5-1. 신뢰구간 계산
- 추정치 선택 : 모평균의 경우 표본 평균, 모비율의경우 표본비율 등 모수에 대한 적절한 추정치 선택
- 표준오차 계산 : 추정치의 표준오차를 계산하여 표본에서 모수 추정의 변동성을 평가(추정치 분산의 제곱근)
- 신뢰수준 설정 : 흔히 사용되는 신뢰수준은 90, 95, 99%이고 신뢰 수준은 구간이 모수를 포함할 확률을 의미하며 이에 따라 z-값(정규분포), t-값(t-분포) 등이 결정
- 신뢰구간 계산 : 신뢰구간 = 추정치 +- (임계값 * 표준오차)
5-2. 단일모수의 신뢰구간 추정(모순산 σ^2이 주어진 경우)
- 표본평균 X바는 정규분포를 따르는 모집단으로부터 추출된 표본들의 평균, 정규분포를 따름
- 표준오차 계산 : SE = 루트σ^2 / n, n은 표본의 크기
- 정규분포를 이용한 신뢰구간 계산 : 신뢰구간 = X바 +- z * SE
5-2. 단일모수의 신뢰구간 추정(모순산 σ^2이 주어지 않은 경우)
- 모분산을 알 수 없으므로, 표본 분산을 이용하여 모분산의 추정값을 구해 사용, t-분포를 기반으로 신뢰구간 작성
- 표준오차 계산 : SE = 루트s^2 / n, n은 표본의 크기
- t -분포를 이용한 신뢰구간 계산 : X바 +- t-분포의 신뢰수준과 자유도(n-1)에서의 임계값 * SE
6. 모비율 p의 신뢰구간
- 모집단에서 특정 특성을 가진 원소의 비율을 추정하기 위해 사용되는 통계적 방법
- 모비율 p의 추정량은 표본비율 p^ = x / n으로 계산
- x : 표본에서 특정 특성을 가진 원소의 수
- n : 표본의 총 크기 - 표준오차 계산 : SE(p^) = 루트p^ * (1-p^) / n
- 신뢰구간 계산 : p^ +- z * SE(p^)
6-1. 모분산 σ^2의 신뢰구간
- 표본 데이터를 바탕으로 모집단의 분산의 범위를 추정하는 데 사용
- 모분산의 신뢰구간을 추정하는 과정은 모평균, 모비율과 다르게 표본분산을 기반으로 하며, 카이제곱 분포를 활용
- 표본분산 σ^2의 표본분포는 주어진 자유도 n-1인 카이제곱분포를 이용
- 표본분포 = (n -1)s^2 / σ^2 ~ χ^2(n-1)
6-2. 두 모평균의 차이 μ1 - μ2의 신뢰구간
- 두 독립된 모집단에서 추출된 표본을 바탕으로,평균 사이의 차이를 추정할 때 사용
- 두 모분산을 알고있는 경우
- 신뢰구간 : (X1바 - X2바) +- z * SE
- 표준오차 : SE(X1바 - X2바) = 루트( 모분산a / n1 + 모분산b / n2 )) - 두 모분산을 알지 못하지만 표본이 많은 경우 (n1, n2가 30이상), 정규분포 이용
- 표준오차 : SE(X1바 - X2바) = 루트( 표본분산a / n1 + 표본분산b / n2 )), 정규분포 이용 - 두 모분산을 알지 못하고 표본도 적을 경우 (n1, n2가 30 미만), t - 분포 이용
- 표준오차 : SE(X1바 - X2바) = 루트( 표본분산a / n1 + 표본분산b / n2 )), t - 분포 이용
6-3. 두 모비율의 차이 p1 - p2의 신뢰구간
- 두 독립된 표본에서 얻은 비율의 차이를 통해 계산
- 두 표본 비율의 표준오차를 합산하여 사용하며, 정규분포의 근사를 이용
- 두 모비율의 차이 p1 - p2의 추정치는 두 표본비율의 차이 p1^ - p2^
- 두 모비율의 차이에 대한 신뢰구간 : (p1^ - p2^) +- z * SE(p1^ - p2^)
- 표준오차 계산 : SE(p1^ - p2^) = 루트( SE(p1^)^2 + SE(p2^)^2
- SE(p1^) = 루트( p1^(1 - p1^) / n1 )
- SE(p2^) = 루트( p2^(1 - p2^) / n2 )
6-4. 두 모분산의 비율의 신뢰구간
- 두 독립적인 표본에서 추출된 분산을 비교할 때 사용
- 두 모분산의 비율추정을 위해 두 표본 분산의 비율을 사용
- ㅍㅛ본 분산의 비율은 자유도 df1 = n1 - 1과 df2 = n2 - 1을 가진 F- 분포를 따름
7. 가설검정
- 가설(hypothesis)
- 과학적 연구에서 검증하고자 하는 예측이나 주장을 의미
- 연구자가 관찰이나 실험을 통해 탐구하고자 하는 현상에 대한 초기의 설명이거나, 특정 변수 간의 관계에 대한 추측을 포함 - 가설 검정(testing hypothesis)
- 데이터를 통해 특정 가설의 타당성을 평가하는 과정
- 특정 가설, 특히 귀무가설(null hypothesis)과 얼마나 일치하는지를 판단하기 위해 사용
- 예시로, '남녀 간에 지지하는 정당이 다를 것이다', '남녀 간에 지지하는 정당이 비슷할 것이다', '남자가 여자에 비해 A당의 지지율이 높을 것이다' 등과 같은 연구자의 예측을 표현한 것
7-1. 가설의 유형
- 귀무가설 (Null Hyphothesis, H0)
- 특정 변수간에 차이나 관계가 없다는 가설로, 통계적 검정의 기준점으로 사용
- 무조건 '~가 없다'로 표현
- 예시로 "두 집단의 평균에 차이가 없다" - 대립가설 (Alternative Hypothesis, Ha 또는 H1)
- 귀무가설과 반대되는 가설로, 연구자가 증명하고자 하는 가설
- '~가 있다' 로 표현
- 예시로, "처리 집단의 평균이 대조 집단의 평균과 차이가 있다"
유형 | 가설 | 가설적 표현의 예시 |
차이의 가설 | 귀무가설 | 소득수준에 따라서 선호하는 자동차 유형은 차이가 없을 것이다. |
대립가설 | 소득수준에 따라서 선호하는 자동차 유형은 차이가 있을 것이다. | |
관계의 가설 | 귀무가설 | 스트레스와 감기발병률은 상관관계가 없을 것이다. |
대립가설 | 스트레스와 감기발병률은 상관관계가 있을 것이다. | |
영향의 가설 | 귀무가설 | 주거환경은 아동의 학습능력에 영향이 없다 |
대립가설 | 주거환경은 아동의 학습능력에 영향이 있다 |
7-2. 가설검정의 기본 단계
- 귀무가설(H0)과 대립가설(Ha or H1) 설정
- 적절한 검정 통계량 선택
- 데이터의 유형, 분포, 표본의 크기, 가설의 유형 등을 고려하여 선택 - 유의수준(α) 설정
- 유의수준은 귀무가설을 잘못 기각할 확률로, 일반적으로 0.05(5%)를 사용 - 검정 통계량 계산 및 p-값 평가
- 검정 통계량을 계산하고 p-값을 도출, p-값은 귀무가설 하에서 관측된 결과가 나올 확률을 의미
- p-값이 유의수준보다 작거나 같으면 귀무가설을 기각하고, 그렇지 않으면 귀무가설을 기각하지 않음 - 결론 도출
- p-값과 유의수준을 비교하여 가설을 기각하거나 마는 결론을 내림
- p-값이 매우 작다면, 귀무가설 하에서 관찰된 결과가 매우 드물다는 것을 의미
- 귀무가설 기각, 대립가설 지지, 대립가설이 채택되는 구간을 유의수준(기각역)이라고 함
7-3. 가설검정의 기본용어
용어 | 개념 |
검정통계량 | - 실제 현상(수집된 데이터)이 기준이 되는 귀무가설(~없다)라는 가정으로부터 얼마나 차이가 나타나는지를 계산한 값 |
가설기각 | - 실제 표본의 관측치와 이론치와의 차이가 확률적인 오차의 범위를 넘어 오류라고 판단되는 것 |
가설채택 | - 관측치와 이론치의 차이가 신뢰수준 범위 내에 존재하는 것 |
신뢰구간(신뢰수준) | - 귀무가설을 여전히 채택(신뢰)하게 되는 구간 - 일반적으로 95% (0.95) 사용 |
유의수준 | - 귀무가설을 버리고 대립가설을 채택하게 되는 구간 - 일반적으로 5% (0.05) 사용 |
임계치 | - 귀무가설과 대립가설을 선택하는 기준의 값 - 통상 이를 확률적으로 표현한 유의확률(p)를 확인하여 가설을 기각 혹은 채택 |
7-4. 분석방법 별 검정통계량
분석방법 | 적용 | 검정통계량 | 공식 | p(유의확률) |
t - test | 두 평균간 차이 | t - value | (X1 - X2) / (s / √n) | P < 0.05 대립가설 채택 |
교차분석 | 두 범주자료 간 관계 | χ^2 | Σ (기대빈도 - 관측빈도)^2 / 기대빈도 | |
분산분석 | 세 집단 이상 간 평균 차이 | F-value | 집단간 분산 / 집단 내 분산 | |
상관관계 분석 | 연속형 자료 간 상관관계 | t-value | r / (√1 - r^2 / n - 2) | |
회귀분석 | 연속형 자료 간 영향관계 | F-value(모형) | MSR / MSE | |
t-value(변수) | b / SE(b) |
7-5. 유의확률(p-value, p-값)
- 유의확률은 확률의 값이므로 0과 1사이의 값을 가짐
결과 1 대선 후보의 지지율을 파악하기 위해 전국 성인 남녀 1,000명을 조사한 결과, - A후보 지지율은 45% - B후보 지지율은 41%이며, 본 조사의 신뢰수준 95%, 표집오차 3%로 나타남 A후보가 B후보를 앞선다고 말할 수 있는가? |
결과 2 대선 후보의 지지율을 파악하기 위해 전국 성인 남녀 1,000명을 조사한 결과, - A후보 지지율은 47% - B후보 지지율은 40%이며, 본 조사의 신뢰수준 95%, 표집오차 3%로 나타남 A후보가 B후보를 앞선다고 말할 수 있는가? |
여기서 통계적 유의성에 대한 의미는
후보 | 결과1 | 결과2 |
A후보 | 42% ~ 48% | 44% ~ 50% |
B후보 | 38% ~ 44% - A후보와 B후보의 범위에서 겹치는 부분이 존재하므로 다른 표본을 조사할 시 결과가 바뀔 수 있음 |
37% ~ 43% - A후보와 B후보의 범위에서 겹치는 부분이 존재하지 않으므로 다른 표본을 조사해도 결과가 바뀌지 않음 |
의미 | 다른 표본(혹은 모집단 전체)을 조사하면 결과가 뒤바뀔 수도 있음 | 다른 표본(혹은 모집단 전체)을 조사해도 결과는 뒤바뀌지 않음 |
통계적 표현 | 통계적으로 유의하지 않음 | 통계적으로 유의함 |
7-6. 제1종 오류(α)와 제2종 오류(β)
- 제 1종 오류 : 귀무가설 H0이 옳은데도 불구하고 기각하는 오류이며, 나타날 확률을 '제1종 오류의 크기'라고 하고 유의수준 α로 표현
- 제 2종 오류 : 귀무가설 H0이 옳지 않은데도 불구하고 채택하는 오류이며, 나타날 확률을 '제2종 오류의 크기'라고 하고 β로 표현
귀무가설(H0)이 사실이라고 판정 | 귀무가설(H0)이 사실이 아니라고 판정 | |
귀무가설(H0)이 사실임 | 옳은 결정 | 제 1종 오류(α) |
귀무가설(H0)이 사실이 아님 | 제 2종 오류(β) | 옳은 결정 |
7-7. 단일 모집단의 가설 검정
- 단일 모집단에 대한 모평균 가설검정은 통계분석상으로 '일표본 t-검정'에 해당
- 가설 설정
- 귀무가설(H0) : 표본집단의 평균은 모집단과 다르지 않음(차이가 없음)
- 대립가설(H1) : 표본집단의 평균은 모집단과 다름(차이가 있음) - 검정통계량 계산
- 평균의 차이 : z(t) = (X - μ) / (s / √n) = 표본의 평균과 알려진 평균값과의 차이 / 표준오차
- 비율의 차이 : z(t) = (p바 - p) / (√pq/n) = 표본의 비율과 알려진 비율값과의 차이 / 표준오차
7-8. 두 모집단 사이의 가설검정
- 두 모집단에 대한 모평균 가설검정은 독립표본 t-검정에 해당
- 즉 두 개의 독립적인 표본 집단간에 하나의 종속변수의 평균이 동일한가를 검증하는 것
- 귀무가설(H0) : A집단과 B집단의 평균은 모집단과 다르지 않음(차이가 없음)
- 대립가설(H1) : A집단과 B집단의 평균은 모집단과 다름(차이가 있음) - 검정통계량 계산
- 평균의 차이 : z(t) = (X1바 - X2바) / √(표본분산1 / n1) + (표본분산2 / n2) = 두 집단 평균의 차이 / 두 집단 차이의 결합 표준오차
7-9. 대응 모집단 사이의 가설검정
- 대응 모집단 평균 차이의 가설검정은 '대응표본 t-검정'에 해당
- 동일한 표본의 A시점의 변수값과 B시점의 변수값의 차이 검증에 사용
- 귀무가설(H0) : 특정 표본의 A변수와 B변수의 평균은 다르지 않음(차이가 없음)
- 대립가설(H1) : 특정 표본의 A변수와 B변수의 평균은 다름(차이가 있음) - 검정통계량 계산
- 평균의 차이 : z(t) = d바(Xa1 - Xb1) / √차이의 분산 / n
- d바(Xa1 - Xb1) : 두 변수의 평균 차이