카테고리 없음

확률분포

은행털이 2024. 4. 22. 04:25

확률

  • 전체 사건 중 특정 사건이 일어날 가능성
  • 어떤 실험을 할 때 나타나는 결과의 가능성을 측정하는 척도

P(E) = N(E) / N(T)

 

  • N(T) : 표본 공간에 있는 사건의 총 개수
  • N(E) : 사건 E의 총 개수
  • 모든 사건 E에 대하여 0 <= P(E) <= 1, P(T) = 1, P( ∅ ) = 0
  • P(E의 여사건) = 1 - P(E)

 

 

확률 관련 용어

  • 시행(Trial) : 같은 조건 아래에서 반복할 수 있는 실험이나 관측
    - 주사위를 던지는 행위는 같은 조건에서 여러번 반복할 수 있으므로 시행

  • 사건(Event) : 시행에 의해 생기는 여러 결과
    - 주사위를 던져서 특정 숫자가 나오는 것은 하나의 사건

  • 단순 사건(Simple Event) : 한 개의 원소로 이루어진 사건으로, 기본 사건
    - 주사위를 던져서 6이나오는 사건은 단순 사건

  • 배반 사건(Exclusive Event) : 하나의 사건이 발생할 경우 다른 사건은 발생할 수 없는, 즉 사건들이 동시에 나타날 수 없는 관계
    - 40명의 학생 중 남자와 여자를 각각 3명씩 뽑는 경우 남자를 뽑는 사건은 여자를 뽑는 사건과 같이 발생할 수 없음

  • 독립 사건(Independent Event) : 발생된 사건이 다음에 발생될 사건의 확률에 영향을 미치지 않는 사건
    - 2번 주사위를 던질 때 첫 번째에 5가 나와도 두 번째에 5가 다시 나올 확률에 영향을 미치지 않음

  • 종속 사건(Dependent Event) : 발생된 사건이 다음에 발생할 사건의 확률에 영향을 미치는 사건
    - 검은 공 3개와 흰 공 3개가 있는 상자에서 검은공을 뽑을 혹률은 1/2이지만, 뽑은 검은공을 다시 집어넣지 않고 한번 더 뽑으면 검은공 2개와 흰 공 3개이므로 검은공이 뽑힐 확률이 2/5로 영향을 미침

  • 복원 추출(Replacement Sampling) : 한 집단에서 표본을 선택한 후 도로 표본에 집어넣고 재추출하는 방법
    - 40명의 학생 중 남자를 1명 추출하고(1/40), 다시 추출된 남자를 포함해서 1명을 추출할 경우(1/40)

  • 비복원 추출(Non-replacement Sampling) : 한 집단에서 표본을 선택한 후 도로 표본에 집어넣지 않고 나머지에서 추출하는 방법
    - 40명의 학생 중 남자를 1명 추출(1/40), 나머지에서 다시 남자 1명을 추출(1/39)

 

 

1. 확률의 덧셈법칙

두 사건 중 적어도 하나의 사건이 일어날 확률

  • 배반 사건 : P(A U B) = P(A) + P(B)
    - 두 사건이 서로 배반인 경우, 즉 두 사건이 동시에 일어날 수 없는 경우
    - 두사건 A와 B중 적어도 하나가 일어날 확률은 각 사건이 일어날 확률의 합
    - 동전을 던져서 나올 앞과 뒤가 나올 사건은 서로 배반 사건
    - 동전을 던졌을 때 앞면이나 뒷면 중 하나가 나올 확률은 각각의 확률을 더한 값

  • 배반이 아닌 사건 : P(A U B) = P(A) + P(B) - P(A ∩ B)
    - 두 사건이 배반이 아닌 경우, 즉 두 사건이 동시에 일어날 가능성이 있는 경우
    - 두 사건 A와 B중 적어도 하나가 일어날 확률은 각 사건이 일어날 확률의 합에서 두 사건이 동시에 일어날 확률을 뺀 값
    - 두 개의 주사위를 던져서 1번 주사위와 2번 주사위 모두 같은 5가 나올 사건은 서로 배반이 아닌 사건
    - 두 주사위 모두 5가 나올 확률을 고려햐여 총 확률을 계산할 때, 이 중 계산된 확률을 제거

 

2. 확률의 곱셈법칙

사건 A와 B가 있을 때, A와 B가 동시에 발생할 확률

  • 결합확률이라고 하며 P(A ∩ B)라고 표시
    - P(A ∩ B) = N(A ∩ B) / N(T)
    - N(A ∩ B) : A와 B를 동시에 만족시키는 사건의 총 수
    - N(T) : 사건의 전체 총 수

  • 두 사건이 상호 독립인경우 결합확률은 두 사건의 발생확률의 곱으로 계산
    -  P(A ∩ B) = P(A) * P(B)
    - 주사위 두 개를 던져 1번 주사위가 2, 2번주사위가 5가 나올 확률은 서로 독립적이므로 1/6 * 1/6 = 1/36

 

3. 조건부 확률

한 사건이 일어난 상태에서 다른 사건이 일어날 확률(두 사건이 서로 종속관계에 있는)

  • 사건 B가 일어났을 때 사건 A가 일어날 확률
    - P(A | B) = P(A ∩ B) / P(B)
    - 따라서 A와 B가 동시에 발생할 확률도 유도 가능 P(A ∩ B) = P(B) * P(A | B)

  • 확률적 독립성 : 두 사건 A, B가 다음 조건 중 하나를 만족하면 서로 확률적으로 독립이라고 정의
    - P(A ∩ B) = P(A) * P(B)
    - P(A | B) = P(A)
    - P(B | A) = P(B) 

  • 상호독립 조건 : P(A B) = P(A) * P(B) ≠ 0

  • 상호배반 조건 : A ∩ B = ∅, P(A ∩ B) = 0

 

4. 확률 변수

확률 과정이나 임의 실험 결과를 수치적으로 표현하는 변수

  • 변수
    - 숫자 또는 문자로 표현할 수 있는 특성, 특정 집단이나 대상에서 측정하거나 관찰할 수 있는 특성
    - 나이, 가족의 수, 가구 소득, 혼인상태 등

  • 확률 변수
    - 임의 실험에서 일정한 확률을 가지고 발생하는 결과에 실수값을 부여하는 변수
    - 표본 공간을 구상하는 사건에 수치를 부여한 후 그 값에 확률을 대응한 함수
    - 표본공간 =  정의역, 확률을 나타낸 실수값 = 치역

 

4-1. 이산확률변수

이산점에서 0이 아닌 확률값을 가지는 확률변수 : Pr(X = xi) = Pi, Pi는 0보다 크고 모든 Pi의 합은 1이어야 함

 

- 확률질량함수 : 각 이산점에 있어 확률 크기를 표현하는 함수

 

이산 확률 변수를 알 수 있는 대표적인 예시로 두 개의 주사위를 던져서 나오는 눈의 합을 나타낸 확률

X 2 3 4 5 6 7 8 9 10 11 12
확률 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36 1

 

 

4-2. 연속 확률 변수

특정 실수 구간에서 0이 아닌 확률을  갖는 확률변수

 

- 확률 밀도 함수 : 값의 분포를 설명하는 함수. 확률 밀도 함수 f(x)는 모든 X값에 대하여 f(x) >= 0

- 확률변수 X가 0과 1사이에서 균등한 분포를 가지면, 확률 밀도 함수 f(x) = 1일때 0 <= x <= 1이고 0일때 그 외 값 

 

 

 

4-3. 확률변수의 기대값(평균)

  • 확률분포에 따른 확률변수의 평균적인 값으로 기대값은 확률분포의 무게중심을 의미
  • 확률 값을 가중치로하는 확률변수의 모든 가능한 값에 대한 가중평균
  • 확률 변수의 중심 경향성을 나타내며, 확률과정의 결과로서 얻을 수 있는 평균적인 값

 

4-4. 확률변수의 분산

  • 확률분포의 산포도를 측정하는 지표로 확률변수의 값들이 평균을 중심으로 얼마나 넓게 퍼져있는지 정도를 수치적으로 표현

  • 평균이 같은 경우에도 분산의 크기에 따라서 분포의 모양이 달라짐

  • 확률변수 X의 분산은 X의 값들이 평균 μ = E(X)로부터 얼마나 떨어져있는지를 나타내는 기대값
  • 표준편차는 분산의 양의 제곱근

 

 

 

 

5. 확률분포의 개념과 종류

확률분포는 확률변수가 취할 수 있는 각각의 값에 대한 확률

  • 이산확률분포 : 이산적 확률변수(확률변수가 0, 1, 2와 같은 정수의 값을 가지는 경우)가 이루는 확률분포
    - 베르누이 확률분포, 이항분포, 기하분포, 음이항분포, 포아송분포, 초기하분포, 다항분포

  • 연속확률분포 : 연속적 확률번수(확률변수가 소수점의 값을 포함하는 실수의 값을 가지는 경우)가 이루는 확률분포
    - 균일분포, 정규분포, 감마분포, t-분포 카이제곱분포, F-분포

 

 

5-1. 베르누이 확률분포

  • 결과가 성공과 실패 두 가지 상호 배반적 사건으로 나누어지는 분포
  • 확률변수 X는 성공일 경우 1, 실패일 경우 0
  • 성공확률이 p일때 실패확률은 1 - p, (0 <= p <= 1)
  • 베르누이 확률분포의 기대값 E(X) = p, 분산 Var(X) = p(1 - p)

 

5-2. 이항분포

  • 고정된 n번의 베르누이 시행에서 성공한 횟수에 대한 확률분포
  • 상호 배반적인 두 사건만 나타내는 경우에 발생할 확률의 기준이 되는 분포
    - 동전던지기, 시험의 합격여부, 안타를 칠 가능성 등
  • 각 시행의 성공 확률은 p로 동일하며 오직 두 가지의 결과만 가짐(성공/실패)
    - 시행의 수(n) : 고정된 횟수의 독립정인 시행 수
    - 성공의 확률(p) : 각 시행에서 성공할 확률, 0 <= p <= 1
    - 실패의 확률(q) : 각 시행에서 실패할 확률, q = 1 - p
  • 이항분포의 확률분포 기대값 E(X) = np, 분산 Var(X) = npq

 

5-3. 기하분포

  • 첫 성공이 발생하기까지 필요한 베르누이 시행의 횟수를 모델링
  • 단 한번의 성공을 위해 실패를 거듭해야 하는 경우에 사용
    - 특정 광고 캠페인에 고객이 반응하기까지 몇번을 시도하는가, 로켓의 발사를 성공할때까지 얼마나 실패하는가
  • 기억없음속성 : 이미 일련의 실패가 있었다고 해도, 다음 시행에서 성공할 확률이 변하지 않으며 첫 성공을 달성하기까지 남은 시행 수의 분포는 여전히 기하분포를 따름
  • 기대값은 E(X) = 1/p, 분산은 Var(X) = 1-p / p^2

 

5-4. 음이항분포

  • 고정된 n번의 성공을 얻기위해 필요한 베르누이 시행의 횟수에 대한 확률분포
  • 기하분포는 첫 번째 성공까지의 시행횟수를 다루지만, 음이항분포는 r번째 성공까지 필요한 시행 횟수를 다룸
  • 이항분포는 시행횟수가 고정, 음이항분포는 성공횟수가 고정
  • 기대값은 E(X) = r/p', 분산은 Var(X) = r(1 - p) / p^2
  • k는 최소 r을 포함해야 하므로 k >= r

 

5-5. 포아송분포

  • 특정 시간이나 공간에서 발생하는 이벤트 수를 모델링하는데 사용되는 이산확률분포
  • 특정 기간 동안 또는 특정 영역 내에서 발생할 수 있는 사건의 평균 발생 횟수( λ)를 알고 있을 때 정해진 기간이나 영역에서 실제로 몇 번의 사건이 발생할지를 예측
  • 사건은 독립적으로 발생하며, 매우 드물게 발생하고, 빈도는 일정하다 라는 조건이 필요함
    - 어느 하루동안 어느 공장에서 생산된 제품의 불량품 개수
    - 어느 지역에서 1년동안 화재가 발생할 횟수
    - 어느 하루동안 잘못 걸려온 전화 횟수
  • 기대값은 E(X) = λ, 분산 Var(X) = λ

 

5-6. 초기하분포

  • 특정 조건을 만족하는 객체가 유한한 집단 내에 정해진 수만큼 있을 때, 무작위로 선택된 샘플 내에서 해당 객체가 몇 개 있을지의 확률을 계산하는데 사용되는 확률분포
  • 베르누이를 만족하지 않고, 추출 과정에서 복원되지않는 경우에 유용
  • N : 전체 집단 내의 총 개체 수(모집단 크기)
  • K : 관심 있는 특성을 가진 전체 개체의 수
  • n : 전체 집단에서 선택된 개체의 수
  • 기대값은 E(X) = n * (K/N), 분산 Var(X) = n * (K/N)(1 - K/N)(N - n / N - 1)

 

5-7. 다항분포

  • 두 가지 이상의 범주가 있는 실험에서 각 범주의 발생 횟수에 대한 확률분포여러 번의 독립적 시행에서 각각의 값이 특정 횟수가 나타날 확률을 정의
  • 여러 차례의 독립적인 시행에서 발생 가능한 여러 결과 중 하나가 선택될 때 사용

 

 

 

 

6. 균일분포

정의된 범위 내의 모든 값이 동일한 확률로 발생한다는 특성

  • 연속균일분포 : 정해진 구간 [a, b] 내의 모든 값이 발생할 확률이 동일한 연속확률분포, X ~ Uniform(a, b)로 표현
    - 확률밀도함수는 f(x) = 1 / b-a for x ∈ [a, b]
    - f(x)는 x에 대한 확률 밀도, a와 b는 각각 분포의 하한과 상한이며 a가 0, b가 1인 경우 표준 균일분포 U(0, 1)
    - 기대값은 E(X) = (a + b) / 2, 분산은 Var(X) = (b - a)^2 / 12

  • 이산균일분포 : 각 값이 발생할 확률이 동일한 이산 확률 분포, X ~ Uniform({x1, x2, ...... xn})으로 표현
    - 확률질량함수는 P(X = x) = 1/n for x ∈ {x1, x2, ..... xn}, n은 가능한 결과의 수

 

6-1. 베타분포, X~Beta(α, β)

  • 0과 1 사이의 값으로 제한된 연속 확률변수에 대한 유연한 확률분포
  • 확률변수 X의 값이 0 <= X <= 1인경우, 즉 비율과 같은 데이터에 대해서 적합
  • 두 개의 매개변수 α와 β를 사용하여 모양을 조정하며 분포의 형태를 결정
  • 대표적인 예시로 A/B 테스팅이 있음

 

6-2. 정규분포, X~N(μ,σ^2)

  • 연속확률분포 중 가장 유명하며, 가우스 분포라고도 함
  • 중앙에 위치한 평균=중앙값=최빈값을 중심으로 좌우대칭의 곡선 Bell Curve를 그림
  • 두 개의 매개변수 평균(μ)과 표준편차(σ)인 N(μ, σ^2)로 나타냄
    - 평균(μ) : 데이터의 중심 위치, 분포의 중심을 결정
    - 표준편차(σ) : 데이터의 퍼짐 정도(산포도), 분포의 폭을 결정
  • 기대값은 E(X) = μ, 분산은 Var(X) = σ^2
  • 정규분포 곡선의 총면적은 1

 

6-3. 표준정규분포, Z~N(0, 1)

  • 정규분포를 μ = 0, σ = 1로 변환한 분포, 즉 X~N(μ, σ^2)에서 Z~N(0, 1)
  • 표준화는 개별 관측값을 표준 척도로 바꾸는 방법
  • 표준화 식 Z = (Xi - μ) / σ, X의 각각의 값에 평균  μ빼고 표준편차 σ로 나눔

정규분포 표준화

 

 

6-4. 지수분포, X~Exp( λ)

  • 어떤 사건이 발생할 때까지 경과 시간에 대한 연속확률분포로 특정 사건 사이의 시간 간격을 모델링할 때 사용
  • 기억없음속성 : 과거에 발생한 사건이 미래의 예측에 영향을 주지 않는 속성으로, 연속확률분포에서는 지수분포가 유일함

지수분포

 

 

6-5. 감마분포, X~Γ(k, θ)

  • 어떤 사건이 k번 발생할 때까지 경과시간에 대한 분포
    - 모양매개변수 k : 분포의 형태를 결정
    - 비율매개변수 θ : 시간당 사건의 발생 비율

감마분포

  • k가 클수록 분포는 대칭적으로
  • θ가 클수록 평균 대기시간 감소

 

6-6. t - 분포, X~t(v)

  • 작은 표본 크기에서 정규 모집단의 평균을 추정할 때 널리 사용되는 확률분포
  • 정규분포와 유사한 종 모양을 가짐
  • 분포의 형태가 자유도에 의존적, 자유도는 표본크기가 n일때 n-1
  • 자유도가 증가함에 따라(표본 크기가 충분히 큰 경우) 정규분포에 가까워짐
  • 모표준편차를 알수없고 표본 크기가 작을경우 (n < 30), 집단 간 평균 추정에 사용

 

6-7. χ^2 분포, X~χ^2(k)

  • 통계학에서 주로 적합도 검정, 독립성 검정, 분산 분석에 사용되는 확률 분포
  • 감마 분포에서 k = n/2이고 θ - 1/2에 해당하는 특수형태의 분포
  • 자유도에 따라 분포의 형태가 결정

 

6-8. F - 분포,  X~F(d1, d2)

  • 두 집단간 분산의 동일성 검정에 사용되는 분포
  • 두 개의 독립적으로 카이제곱 분포된 표본의 분산 비율로 정의되는 확률분포
  • 비대칭 분포의 형태를 보이고, 자유도 d1, d2가 클수록 정규분포에 근사한 형태가 됨

F - 분포, d1, d2가 100일 시 정규분포에 근사

 

 

 

7. 확률 표본

  • 확률 분포로부터 독립적으로 동일하게 분포된 여러 관측치
  • 확률변수 X의 확률분포로부터 얻은 n개의 표본 X1, X2, ..... Xn은 서로 독립적이며 각각 X와 동일한 분포를 가짐
  • 표본이론의 주된 목적은 결국 모집단의 모수를 추정하는 것으로, 표본을 통해 모수의 추정을 수행
    - 추정량 (Estimator) : 모수를 추정하기 위해 사용되는 통계량
    - 추정치 (Estimate) : 실제 표본을 기반으로 계산된 특정 추정량의 값

 

8. 표본 분포

  • 표본 통계량이 가질 수 있는 모든 가능한 값의 분포
  • 한 모집단에서 동일한 크기의 모든 가능한 표본을 추출했을 때, 표본들에서 계산된 통계량의 확률분포
    - 표본통계량 : 표본에서 계산된 평균, 비율, 표준편차 등
    - 모집단 대표성 : 표본은 모집단을 대표할 수 있어야 하며, 이를 통해 모집단의 특성을 추정
  • 오차측정 : 선택된 표본이 포함하고있는 오차의 정도 측정
    - 표본 오차 : 표본에서 얻은 자료로 모집단의 특성을 추론함으로써 발생하는 오차
    - 비표본 오차 : 이외에 조사과정에서 발생할 수 있는 모든 오차
    - 표준 오차 : 통계량의 분포인 표준 분포의 표준편차

 

8-1. 평균의 표본분포

    • 특정 모집단에서 동일한 크기로 가능한 모든 표본을 뽑아서 각 표본들의 평균을 계산하였을때 그 평균들의 확률분포
    • 표본의 평균 X들이 이루는 확률분포
    • 평균: X = μ, 분산: s^2 = σ^2 / n, 표준편차 : s = 루트σ^2 / n = σ / 루트n
    • 평균의 표본분포의 표준편차 s를 평균의 표준오차(e)라고 부름
    • 표준오차가 크면 의사결정시 오류가 커지고 작으면 오차가 작아짐

    • 모집단이 정규분포일 때 평균의 표본분포는 표본의 크기 n에 상관없이 정규분포
    • 모집단이 정규분포가 아니더라도 표본의 크기 n이 커지면 커질수록(n >= 30) 표본 평균의 분포는 모집단의 분포와 상관없이 정규분포에 가까워짐
      - 표본 평균의 분포 = 모집단의 평균
      - 표본 평균의 표준편차(표준오차) = 모집단의 표준편차 / 루트n
      - 상위 식들은 모집단이 매우 크거나 무한하다는 가정 하에 성립
      - 모집단의 크기가 작은 유한집단이고 비복원추출일 경우에는 표준편차에 대한 조정이 필요

 

8-2. 비율의 표본분포

  • 비율은 평균의 특별한 경우로 '0과 1사이의 값만 나타날 수 있는 또 다른 평균'
  • 표본의 크기가 충분히 크면 표본 비율p는 평균 P, 분산 PQ / n인 정규분포 N(P, PQ / n)에 근사

 

 

9. 중심극한정리

표본의 크기가 충분히 클 때(n >= 30) 독립적이고 동일하게 분포된(i.i.d) 무작위 표본들의 평균은 근사적으로 정규분포를 따른다는 이론

표본 크기에 따른 분포형태