카테고리 없음

표본 추출

은행털이 2024. 4. 21. 22:19

모집단, 표본, 표본추출의 주요 용어

전수조사 - 연구의 관심이 되는 전체 집단(모집단)을 전부 조사하는 방법
- 비용과 시간적 이유로 사용하기 힘들고, 국가 통계조사에서 일부 사용함
표본조사 - 모집단 내에서 일부만 조사하여 전체 모집단을 추정하는 조사
- 대부분의 조사에서 사용
모집단 - 조사의 관심이 되는 전체 집단
- 모집단의 정의는 명확하고 구체적이어야 함 (OO시 OO동의 20대 남성과 같이)
표본 - 모집단에서 일부만 샘플링하여 실제 조사한 대상
모수 - 모집단으로부터 계산된 모든 값
- 전수조사를 하지 않는 이상 알 수 없는 미지수
- 자료수, 모평균, 모표준편차, 모분산
통계량 - 샘플링한 표본으로부터 계산된 모든 값
- 일반적으로 통계랑을 가지고 모수를 추정함
- 자료수, 표본평균, 표본표준편차, 표본분산
표본추출에서의 모집단 - 관심의 대상인 모든 기본단위들의 집합
기본단위 - 연구자가 조사를통해 조사를 얻을 수 있는 가장 최소의 요소
- 일반적으로 개인이 기본 단위
표집틀 - 샘플링이 되어지는 표집단위의 목록
- 모집단 내의 모든 표집단위들이 포함되어야 함
- 각각의 요소가 이중으로 포함되면 안됨

 

 

1. 확률표본추출법

  • 모집단에서 표본을 선택할 때, 표본에 포함될 확률이 알려진 상태로 추출하는 방법으로 추출 과정에서 주관적 판단을 최소화하고 무작위성을 기반으로 표본을 선택

  • 표본으로 포함될 확률을 고려하기 때문에 다양성을 표본에 포함시킬 수 있어 모집단의 특성을 잘 반영

  • 추출된 표본으로 모집단에 대한 통계적 추론이 가능하여 표본의 결과를 모집단에 일반화할 수 있으며, 추론의 정확도를 확률적으로 산정이 가능

  • 대규모 모집단에 적용하는 것은 비용과 시간이 많이 소비되지만 신뢰성과 유효성이 높아 결과적으로 연구결과의 신뢰도를 높임

 

 

1-1. 단순임의추출법

  • 모집단에서 표본을 무작위로 선택하는 방법

  • 표본으로 선택될 동등한 확률을 가지며 추출 시 주관성을 배제하고 무작위성을 통해 표본을 선택

  • 일반적으로 높은 신뢰성과 정확성을 가짐
  • 모집단이 크고 분산되어 있을 경우 동등한 기회 제공을 위한 비용과 시간이 많이 소모

 

1-2. 계통추출법

  • 모집단에서 일정한 간격으로 표본을 선택하는 방법

  • 모집단을 특정 간격(k)마다 나열한 후, 무작위로 시작점을 선택하고 그 시작점부터 매 k번째 요소를 표본으로 선택
    - 투표의 출구조사와 같은 방식(출구에서 투표 후 퇴장하는 사람들 중 k번째 사람을 조사함)

  • 단순임의추출법보다 실행이 쉽고 자원이 덜 소모되며 모집단이 균일하게 분포된 경우 이 방식으로 선택된 표본은 모집단을 잘 대표하나 모집단에 주기적인 패턴이 존재할 경우 과대 또는 과소대표를 할 위험이 있어 표본의 편향을 초래

  • 시작 전 모집단을 순서대로 정렬해야 하므로 데이터 정렬에 추가적 시간이 소요될 수 있음

 

1-3. 층화임의추출법

  • 모집단을 몇 개의 동질적인 층으로 나눈 뒤 각 층에서 무작위로 표본을 추출하는 방법

  • 동질적인 층 내에서 표본을 추출하므로 더 낮은 분산을 갖고 연구 결과의 정밀도가 향상됨

  • 층 간에는 가능한 한 동질적이고, 층 내에서는 이질적이게 되는 적절한 층화 기준을 선정하는 것이 중요하며 이에는 모집단에 대한 충분한 사전 지식이 필요함

  • 설계 및 실행이 복잡할 수 있으나 향상된 정밀도와 대표성을 통해 추가비용 상쇄가 가능함

 

1-4. 집락추출법

  • 모집단을 몇 개의 집락으로 구분한 뒤 일부 집락을 무작위로 선택해 해당 집락 내의 모든 구성원을 조사하는 방법

  • 모집단을 자연스럽게 형성되거나 인위적으로 정의된 집락으로 선택(지역, 학교, 지역사회 등)

  • 특정 집락을 통째로 조사함으로써 비용과 시간을 절약할 수 있어 대규모 지역 또는 광범위 모집단에 특히 유용하나 이는 종종 정밀도의 감소와 교환될 수도 있음

 

1-4-1. 확률비례집락추출법

  • 집락추출법의 한 형태로 각 집락의 크기에 비례하여 표본을 선택하는 방법

  • 집락의 크기가 서로 다를 때 큰 집락이 작은 집락보다 표본에 선택될 확률이 더 높음

  • 이로 인해 조사의 효율성을 높일 수 있지만, 집락의 크기에 비례하여 표본을 추출하므로 분석 단계에서 각 집락의 크기정보를 바탕으로 확률을 결정하고 데이터에 가중치를 적용해야 하므로 더 복잡해질 수 있음

 

1-5. 다단계 추출법

  • 복잡한 모집단에서 표본을 선택하는 과정을 여러 단계에 나눠 수행하는 표본추출 방법

  •  모집단을 여러 단계에 걸쳐, 점차적으로 축소하며 표본을 추출
    - 첫 단계에서는 큰 단위(지역)를 선택하고 다음 단계에서는 더 작은 단위(학교, 가구)를 선택하는 방식

  • 모집단의 특성이나 연구 목적에 따라 추출 단계의 수와 추출방법을 유연하게 조정 가능(집락추출, 층화추출 등)

  • 여러 단계에 걸쳐 표본을 추출하므로 비용과 시간을 절약할 수 있으나 각 단계의 추출 과정이나 그에 따른 효과를 고려해야 하므로 통계적 분석은 더 복잡해질 수 있음

 

 

 

 

2. 비확률표본추출법

  • 모집단에서 표본을 추출할 때 연구대상이 표본으로 선택될 확률을 알 수 없거나 표본에 포함될 기회가 동등하지 않은 방법

  • 결국 표본 추출에 있어서 동등한 기회를 갖지 못하기때문에 표본이 모집단을 정확히 대표한다고 보장하기 어렵고 이로 인해 통계적 추론을 적용하는데 제한이 있을 수 있음

  • 기본적으로 확률표본추출법에 비해 시간과 비용이 덜 소모되므로 예산이 제한적이거나 빠른 결과가 필요할때 사용

 

2-1. 편의추출법

  • 가장 접근하기 쉬운 개체나 그룹으로부터 데이터를 수집하는 방법
    - 간단하게 주변인을 조사하는 방식과 같음

  • 추가적인 시간, 노력, 비용을 들이지않고 데이터 수집이 가능하여 비용 효율적이나 모집단의 특성을 잘 반영하지 못할 수 있고 이로써 일반화에는 한계가 있음

  • 연구자의 주관, 편의에 따라 표본이 선택되므로 선택 편향위험이 있음

  • 무작위로 추출되는 것이 아니므로 통계적 추론을 적용하는것이 적절하지 않음

 

2-2. 판단추출

  • 특정 목적이나 기준에 기반하여 표본을 의도적으로 선택하는 비확률표본추출법

  • 연구자의 전문지식이나 경험이 표본선택에 중요하게 작용하고, 연구 주제에 깊이있는 이해를 바탕으로 표본을 선별
    - 예시로, 연구자의 전공을 관련으로 표본을 추출하기 위해 해당 연구자의 주변인을 조사하는 방식

  • 연구자의 주관, 편의에 따라 표본이 선택되므로 선택 편향위험이 있음

 

2-3. 지원자추출법

  • 관심이 있는 개인이 스스로 연구에 참여하기로 결정하는 비확률표본추출법

  • 참여자가 스스로 지원하므로 모집 비용이나 노력이 크게 감소하나 연구 참여를 위해 지원하는 인원 수를 미리 파악하기 어려워 연구 계획 수립에 차질이 있을 수 있음

  • 기본적으로 관심이 있는 참여자가 추출되므로 선택 편향이 일어날 수 있으며 결과적으로 일반화가 어려움

 

2-4. 할당추출법

  • 층화표본추출법과 비슷한 비확률표본추출법의 일종으로, 모집단에서 중요한 특성을 가진 하위 그룹(쿼터)의 비율을 정하 각 쿼터에서 의도적으로 특정 수의 대상을 추출하는 방법

  • 모집단의 중요한 특성(성별, 연령, 직업)에 기반하여 쿼터를 정하고 각 쿼터별로 표본의 크기를 할당

  • 쿼터를 설정함으로써 비확률적추출이지만 모집단의 특성을 잘 반영하려고 노력하여 표본의 대표성을 높임

  • 하지만 표본 선택은 연구자의 판단이나 편의에 따르므로 무작위성이 결여되어 통계적 추론 적용에는 제한이 있으며 이에 따른 선택 편향의 위험이 있음

 

2-5. 스노우볼추출법

  • 초기 참여자들로부터 다른 참여자들을 추천받아 점차 눈덩이처럼 그룹을 확대하는 방식으로 주로 연구 대상이나 특정 인구 집단에 접근하기 어려울 때 사용되는 추출법

  • 이미 조사에 참여한 사람의 사회적 네트워크를 활용하여 새 참여자를 찾으므로 연구 대상이 서로 연결되어있을 경우에 특히 유용함

  • 초기 참여자가 추천한 참여자는 서로 특정한 특성이나 선호가 유사할 가능성이 높으므로 선택편향이 발생할 수 있음

 

 

 

3. 표본 크기

  • 표본크기 결정 요인
    1. 첫째 요소 : 투입자원과 여건, 조사비, 조사인력 등 조사에 대한 관심도
    2. 둘째 요소 : 조사의 정확성, 허용되는 오차범위

  • 표본크기 계산식
    - 표본 크기는 지지율과 같은 비율의 추정인가, 가격과 같은 평균의 추정인가에 따라 계산식이 다름
    - 모비율 추정에서 표본 크기를 결정(모비율에 대한 사전 정보가 있는 경우)
    n >= z^2 * p(1 - p) / e^2

    - 모비율 추정에서 표본 크기를 결정(모비율에 대한 사전 정보가 없는 경우)
    n >= z^2 * 0.5 * 0.5 / e^2

    - 모평균 추정에서 표본 크기 결정
    z * (s / root n) <= e 일때 n >= z^2 * s^2 / e^2

 

 

4. 표본추출오차 및 비표본추출오차

  • 표본추출오차 : 표본 조사를통해 얻은 결과가 전체 모집단의 실제 값과 다를 때 발생하는 오차
    - 무작위로 선택된 표본이 모집단의 특성을 완벽하게 반영하지 못할 때 생김
    - 표본 크기가 증가함에 따라 표본추출오차는 감소함
    - 일정수준에 도달하면 오차의 감소 속도가 둔화됨

  • 비표본추출오차 : 표본추출 과정 이외에 발생하는 모든 오차
    - 조사 설계, 데이터 수집, 데이터 처리 및 분석과정에서 발생가능
    - 조사 도구의 부적절함, 응답자의 오해나 오답, 데이터입력 오류 등 다양한 원인으로 발생함
    - 원인과 발생시점이 다양하므로 예측하고 관리하기가 매우 어려움
    - 이를 최소화하기 위해서 설계의 개선, 정확한 데이터 수집방법, 엄격한 데이터 처리 및 분석이 필요