확률
- 전체 사건 중 특정 사건이 일어날 가능성
- 어떤 실험을 할 때 나타나는 결과의 가능성을 측정하는 척도
P(E) = N(E) / N(T)
- N(T) : 표본 공간에 있는 사건의 총 개수
- N(E) : 사건 E의 총 개수
- 모든 사건 E에 대하여 0 <= P(E) <= 1, P(T) = 1, P( ∅ ) = 0
- P(E의 여사건) = 1 - P(E)
확률 관련 용어
- 시행(Trial) : 같은 조건 아래에서 반복할 수 있는 실험이나 관측
- 주사위를 던지는 행위는 같은 조건에서 여러번 반복할 수 있으므로 시행 - 사건(Event) : 시행에 의해 생기는 여러 결과
- 주사위를 던져서 특정 숫자가 나오는 것은 하나의 사건 - 단순 사건(Simple Event) : 한 개의 원소로 이루어진 사건으로, 기본 사건
- 주사위를 던져서 6이나오는 사건은 단순 사건 - 배반 사건(Exclusive Event) : 하나의 사건이 발생할 경우 다른 사건은 발생할 수 없는, 즉 사건들이 동시에 나타날 수 없는 관계
- 40명의 학생 중 남자와 여자를 각각 3명씩 뽑는 경우 남자를 뽑는 사건은 여자를 뽑는 사건과 같이 발생할 수 없음 - 독립 사건(Independent Event) : 발생된 사건이 다음에 발생될 사건의 확률에 영향을 미치지 않는 사건
- 2번 주사위를 던질 때 첫 번째에 5가 나와도 두 번째에 5가 다시 나올 확률에 영향을 미치지 않음 - 종속 사건(Dependent Event) : 발생된 사건이 다음에 발생할 사건의 확률에 영향을 미치는 사건
- 검은 공 3개와 흰 공 3개가 있는 상자에서 검은공을 뽑을 혹률은 1/2이지만, 뽑은 검은공을 다시 집어넣지 않고 한번 더 뽑으면 검은공 2개와 흰 공 3개이므로 검은공이 뽑힐 확률이 2/5로 영향을 미침 - 복원 추출(Replacement Sampling) : 한 집단에서 표본을 선택한 후 도로 표본에 집어넣고 재추출하는 방법
- 40명의 학생 중 남자를 1명 추출하고(1/40), 다시 추출된 남자를 포함해서 1명을 추출할 경우(1/40) - 비복원 추출(Non-replacement Sampling) : 한 집단에서 표본을 선택한 후 도로 표본에 집어넣지 않고 나머지에서 추출하는 방법
- 40명의 학생 중 남자를 1명 추출(1/40), 나머지에서 다시 남자 1명을 추출(1/39)
1. 확률의 덧셈법칙
두 사건 중 적어도 하나의 사건이 일어날 확률
- 배반 사건 : P(A U B) = P(A) + P(B)
- 두 사건이 서로 배반인 경우, 즉 두 사건이 동시에 일어날 수 없는 경우
- 두사건 A와 B중 적어도 하나가 일어날 확률은 각 사건이 일어날 확률의 합
- 동전을 던져서 나올 앞과 뒤가 나올 사건은 서로 배반 사건
- 동전을 던졌을 때 앞면이나 뒷면 중 하나가 나올 확률은 각각의 확률을 더한 값 - 배반이 아닌 사건 : P(A U B) = P(A) + P(B) - P(A ∩ B)
- 두 사건이 배반이 아닌 경우, 즉 두 사건이 동시에 일어날 가능성이 있는 경우
- 두 사건 A와 B중 적어도 하나가 일어날 확률은 각 사건이 일어날 확률의 합에서 두 사건이 동시에 일어날 확률을 뺀 값
- 두 개의 주사위를 던져서 1번 주사위와 2번 주사위 모두 같은 5가 나올 사건은 서로 배반이 아닌 사건
- 두 주사위 모두 5가 나올 확률을 고려햐여 총 확률을 계산할 때, 이 중 계산된 확률을 제거
2. 확률의 곱셈법칙
사건 A와 B가 있을 때, A와 B가 동시에 발생할 확률
- 결합확률이라고 하며 P(A ∩ B)라고 표시
- P(A ∩ B) = N(A ∩ B) / N(T)
- N(A ∩ B) : A와 B를 동시에 만족시키는 사건의 총 수
- N(T) : 사건의 전체 총 수 - 두 사건이 상호 독립인경우 결합확률은 두 사건의 발생확률의 곱으로 계산
- P(A ∩ B) = P(A) * P(B)
- 주사위 두 개를 던져 1번 주사위가 2, 2번주사위가 5가 나올 확률은 서로 독립적이므로 1/6 * 1/6 = 1/36
3. 조건부 확률
한 사건이 일어난 상태에서 다른 사건이 일어날 확률(두 사건이 서로 종속관계에 있는)
- 사건 B가 일어났을 때 사건 A가 일어날 확률
- P(A | B) = P(A ∩ B) / P(B)
- 따라서 A와 B가 동시에 발생할 확률도 유도 가능 P(A ∩ B) = P(B) * P(A | B) - 확률적 독립성 : 두 사건 A, B가 다음 조건 중 하나를 만족하면 서로 확률적으로 독립이라고 정의
- P(A ∩ B) = P(A) * P(B)
- P(A | B) = P(A)
- P(B | A) = P(B) - 상호독립 조건 : P(A ∩ B) = P(A) * P(B) ≠ 0
- 상호배반 조건 : A ∩ B = ∅, P(A ∩ B) = 0
4. 확률 변수
확률 과정이나 임의 실험 결과를 수치적으로 표현하는 변수
- 변수
- 숫자 또는 문자로 표현할 수 있는 특성, 특정 집단이나 대상에서 측정하거나 관찰할 수 있는 특성
- 나이, 가족의 수, 가구 소득, 혼인상태 등 - 확률 변수
- 임의 실험에서 일정한 확률을 가지고 발생하는 결과에 실수값을 부여하는 변수
- 표본 공간을 구상하는 사건에 수치를 부여한 후 그 값에 확률을 대응한 함수
- 표본공간 = 정의역, 확률을 나타낸 실수값 = 치역
4-1. 이산확률변수
이산점에서 0이 아닌 확률값을 가지는 확률변수 : Pr(X = xi) = Pi, Pi는 0보다 크고 모든 Pi의 합은 1이어야 함
- 확률질량함수 : 각 이산점에 있어 확률 크기를 표현하는 함수
이산 확률 변수를 알 수 있는 대표적인 예시로 두 개의 주사위를 던져서 나오는 눈의 합을 나타낸 확률
X | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 합 |
확률 | 1/36 | 2/36 | 3/36 | 4/36 | 5/36 | 6/36 | 5/36 | 4/36 | 3/36 | 2/36 | 1/36 | 1 |
4-2. 연속 확률 변수
특정 실수 구간에서 0이 아닌 확률을 갖는 확률변수
- 확률 밀도 함수 : 값의 분포를 설명하는 함수. 확률 밀도 함수 f(x)는 모든 X값에 대하여 f(x) >= 0
- 확률변수 X가 0과 1사이에서 균등한 분포를 가지면, 확률 밀도 함수 f(x) = 1일때 0 <= x <= 1이고 0일때 그 외 값
4-3. 확률변수의 기대값(평균)
- 확률분포에 따른 확률변수의 평균적인 값으로 기대값은 확률분포의 무게중심을 의미
- 확률 값을 가중치로하는 확률변수의 모든 가능한 값에 대한 가중평균
- 확률 변수의 중심 경향성을 나타내며, 확률과정의 결과로서 얻을 수 있는 평균적인 값
4-4. 확률변수의 분산
- 확률분포의 산포도를 측정하는 지표로 확률변수의 값들이 평균을 중심으로 얼마나 넓게 퍼져있는지 정도를 수치적으로 표현
- 평균이 같은 경우에도 분산의 크기에 따라서 분포의 모양이 달라짐
- 확률변수 X의 분산은 X의 값들이 평균 μ = E(X)로부터 얼마나 떨어져있는지를 나타내는 기대값
- 표준편차는 분산의 양의 제곱근
5. 확률분포의 개념과 종류
확률분포는 확률변수가 취할 수 있는 각각의 값에 대한 확률
- 이산확률분포 : 이산적 확률변수(확률변수가 0, 1, 2와 같은 정수의 값을 가지는 경우)가 이루는 확률분포
- 베르누이 확률분포, 이항분포, 기하분포, 음이항분포, 포아송분포, 초기하분포, 다항분포 - 연속확률분포 : 연속적 확률번수(확률변수가 소수점의 값을 포함하는 실수의 값을 가지는 경우)가 이루는 확률분포
- 균일분포, 정규분포, 감마분포, t-분포 카이제곱분포, F-분포
5-1. 베르누이 확률분포
- 결과가 성공과 실패 두 가지 상호 배반적 사건으로 나누어지는 분포
- 확률변수 X는 성공일 경우 1, 실패일 경우 0
- 성공확률이 p일때 실패확률은 1 - p, (0 <= p <= 1)
- 베르누이 확률분포의 기대값 E(X) = p, 분산 Var(X) = p(1 - p)
5-2. 이항분포
- 고정된 n번의 베르누이 시행에서 성공한 횟수에 대한 확률분포
- 상호 배반적인 두 사건만 나타내는 경우에 발생할 확률의 기준이 되는 분포
- 동전던지기, 시험의 합격여부, 안타를 칠 가능성 등 - 각 시행의 성공 확률은 p로 동일하며 오직 두 가지의 결과만 가짐(성공/실패)
- 시행의 수(n) : 고정된 횟수의 독립정인 시행 수
- 성공의 확률(p) : 각 시행에서 성공할 확률, 0 <= p <= 1
- 실패의 확률(q) : 각 시행에서 실패할 확률, q = 1 - p - 이항분포의 확률분포 기대값 E(X) = np, 분산 Var(X) = npq
5-3. 기하분포
- 첫 성공이 발생하기까지 필요한 베르누이 시행의 횟수를 모델링
- 단 한번의 성공을 위해 실패를 거듭해야 하는 경우에 사용
- 특정 광고 캠페인에 고객이 반응하기까지 몇번을 시도하는가, 로켓의 발사를 성공할때까지 얼마나 실패하는가 - 기억없음속성 : 이미 일련의 실패가 있었다고 해도, 다음 시행에서 성공할 확률이 변하지 않으며 첫 성공을 달성하기까지 남은 시행 수의 분포는 여전히 기하분포를 따름
- 기대값은 E(X) = 1/p, 분산은 Var(X) = 1-p / p^2
5-4. 음이항분포
- 고정된 n번의 성공을 얻기위해 필요한 베르누이 시행의 횟수에 대한 확률분포
- 기하분포는 첫 번째 성공까지의 시행횟수를 다루지만, 음이항분포는 r번째 성공까지 필요한 시행 횟수를 다룸
- 이항분포는 시행횟수가 고정, 음이항분포는 성공횟수가 고정
- 기대값은 E(X) = r/p', 분산은 Var(X) = r(1 - p) / p^2
- k는 최소 r을 포함해야 하므로 k >= r
5-5. 포아송분포
- 특정 시간이나 공간에서 발생하는 이벤트 수를 모델링하는데 사용되는 이산확률분포
- 특정 기간 동안 또는 특정 영역 내에서 발생할 수 있는 사건의 평균 발생 횟수( λ)를 알고 있을 때 정해진 기간이나 영역에서 실제로 몇 번의 사건이 발생할지를 예측
- 사건은 독립적으로 발생하며, 매우 드물게 발생하고, 빈도는 일정하다 라는 조건이 필요함
- 어느 하루동안 어느 공장에서 생산된 제품의 불량품 개수
- 어느 지역에서 1년동안 화재가 발생할 횟수
- 어느 하루동안 잘못 걸려온 전화 횟수 - 기대값은 E(X) = λ, 분산 Var(X) = λ
5-6. 초기하분포
- 특정 조건을 만족하는 객체가 유한한 집단 내에 정해진 수만큼 있을 때, 무작위로 선택된 샘플 내에서 해당 객체가 몇 개 있을지의 확률을 계산하는데 사용되는 확률분포
- 베르누이를 만족하지 않고, 추출 과정에서 복원되지않는 경우에 유용
- N : 전체 집단 내의 총 개체 수(모집단 크기)
- K : 관심 있는 특성을 가진 전체 개체의 수
- n : 전체 집단에서 선택된 개체의 수
- 기대값은 E(X) = n * (K/N), 분산 Var(X) = n * (K/N)(1 - K/N)(N - n / N - 1)
5-7. 다항분포
- 두 가지 이상의 범주가 있는 실험에서 각 범주의 발생 횟수에 대한 확률분포로 여러 번의 독립적 시행에서 각각의 값이 특정 횟수가 나타날 확률을 정의
- 여러 차례의 독립적인 시행에서 발생 가능한 여러 결과 중 하나가 선택될 때 사용
6. 균일분포
정의된 범위 내의 모든 값이 동일한 확률로 발생한다는 특성
- 연속균일분포 : 정해진 구간 [a, b] 내의 모든 값이 발생할 확률이 동일한 연속확률분포, X ~ Uniform(a, b)로 표현
- 확률밀도함수는 f(x) = 1 / b-a for x ∈ [a, b]
- f(x)는 x에 대한 확률 밀도, a와 b는 각각 분포의 하한과 상한이며 a가 0, b가 1인 경우 표준 균일분포 U(0, 1)
- 기대값은 E(X) = (a + b) / 2, 분산은 Var(X) = (b - a)^2 / 12 - 이산균일분포 : 각 값이 발생할 확률이 동일한 이산 확률 분포, X ~ Uniform({x1, x2, ...... xn})으로 표현
- 확률질량함수는 P(X = x) = 1/n for x ∈ {x1, x2, ..... xn}, n은 가능한 결과의 수
6-1. 베타분포, X~Beta(α, β)
- 0과 1 사이의 값으로 제한된 연속 확률변수에 대한 유연한 확률분포
- 확률변수 X의 값이 0 <= X <= 1인경우, 즉 비율과 같은 데이터에 대해서 적합
- 두 개의 매개변수 α와 β를 사용하여 모양을 조정하며 분포의 형태를 결정
- 대표적인 예시로 A/B 테스팅이 있음
6-2. 정규분포, X~N(μ,σ^2)
- 연속확률분포 중 가장 유명하며, 가우스 분포라고도 함
- 중앙에 위치한 평균=중앙값=최빈값을 중심으로 좌우대칭의 곡선 Bell Curve를 그림
- 두 개의 매개변수 평균(μ)과 표준편차(σ)인 N(μ, σ^2)로 나타냄
- 평균(μ) : 데이터의 중심 위치, 분포의 중심을 결정
- 표준편차(σ) : 데이터의 퍼짐 정도(산포도), 분포의 폭을 결정 - 기대값은 E(X) = μ, 분산은 Var(X) = σ^2
- 정규분포 곡선의 총면적은 1
6-3. 표준정규분포, Z~N(0, 1)
- 정규분포를 μ = 0, σ = 1로 변환한 분포, 즉 X~N(μ, σ^2)에서 Z~N(0, 1)
- 표준화는 개별 관측값을 표준 척도로 바꾸는 방법
- 표준화 식 Z = (Xi - μ) / σ, X의 각각의 값에 평균 μ빼고 표준편차 σ로 나눔
6-4. 지수분포, X~Exp( λ)
- 어떤 사건이 발생할 때까지 경과 시간에 대한 연속확률분포로 특정 사건 사이의 시간 간격을 모델링할 때 사용
- 기억없음속성 : 과거에 발생한 사건이 미래의 예측에 영향을 주지 않는 속성으로, 연속확률분포에서는 지수분포가 유일함
6-5. 감마분포, X~Γ(k, θ)
- 어떤 사건이 k번 발생할 때까지 경과시간에 대한 분포
- 모양매개변수 k : 분포의 형태를 결정
- 비율매개변수 θ : 시간당 사건의 발생 비율
- k가 클수록 분포는 대칭적으로
- θ가 클수록 평균 대기시간 감소
6-6. t - 분포, X~t(v)
- 작은 표본 크기에서 정규 모집단의 평균을 추정할 때 널리 사용되는 확률분포
- 정규분포와 유사한 종 모양을 가짐
- 분포의 형태가 자유도에 의존적, 자유도는 표본크기가 n일때 n-1
- 자유도가 증가함에 따라(표본 크기가 충분히 큰 경우) 정규분포에 가까워짐
- 모표준편차를 알수없고 표본 크기가 작을경우 (n < 30), 집단 간 평균 추정에 사용
6-7. χ^2 분포, X~χ^2(k)
- 통계학에서 주로 적합도 검정, 독립성 검정, 분산 분석에 사용되는 확률 분포
- 감마 분포에서 k = n/2이고 θ - 1/2에 해당하는 특수형태의 분포
- 자유도에 따라 분포의 형태가 결정
6-8. F - 분포, X~F(d1, d2)
- 두 집단간 분산의 동일성 검정에 사용되는 분포
- 두 개의 독립적으로 카이제곱 분포된 표본의 분산 비율로 정의되는 확률분포
- 비대칭 분포의 형태를 보이고, 자유도 d1, d2가 클수록 정규분포에 근사한 형태가 됨
7. 확률 표본
- 확률 분포로부터 독립적으로 동일하게 분포된 여러 관측치
- 확률변수 X의 확률분포로부터 얻은 n개의 표본 X1, X2, ..... Xn은 서로 독립적이며 각각 X와 동일한 분포를 가짐
- 표본이론의 주된 목적은 결국 모집단의 모수를 추정하는 것으로, 표본을 통해 모수의 추정을 수행
- 추정량 (Estimator) : 모수를 추정하기 위해 사용되는 통계량
- 추정치 (Estimate) : 실제 표본을 기반으로 계산된 특정 추정량의 값
8. 표본 분포
- 표본 통계량이 가질 수 있는 모든 가능한 값의 분포
- 한 모집단에서 동일한 크기의 모든 가능한 표본을 추출했을 때, 표본들에서 계산된 통계량의 확률분포
- 표본통계량 : 표본에서 계산된 평균, 비율, 표준편차 등
- 모집단 대표성 : 표본은 모집단을 대표할 수 있어야 하며, 이를 통해 모집단의 특성을 추정 - 오차측정 : 선택된 표본이 포함하고있는 오차의 정도 측정
- 표본 오차 : 표본에서 얻은 자료로 모집단의 특성을 추론함으로써 발생하는 오차
- 비표본 오차 : 이외에 조사과정에서 발생할 수 있는 모든 오차
- 표준 오차 : 통계량의 분포인 표준 분포의 표준편차
8-1. 평균의 표본분포
- 특정 모집단에서 동일한 크기로 가능한 모든 표본을 뽑아서 각 표본들의 평균을 계산하였을때 그 평균들의 확률분포
- 표본의 평균 X들이 이루는 확률분포
- 평균: X = μ, 분산: s^2 = σ^2 / n, 표준편차 : s = 루트σ^2 / n = σ / 루트n
- 평균의 표본분포의 표준편차 s를 평균의 표준오차(e)라고 부름
- 표준오차가 크면 의사결정시 오류가 커지고 작으면 오차가 작아짐
- 모집단이 정규분포일 때 평균의 표본분포는 표본의 크기 n에 상관없이 정규분포
- 모집단이 정규분포가 아니더라도 표본의 크기 n이 커지면 커질수록(n >= 30) 표본 평균의 분포는 모집단의 분포와 상관없이 정규분포에 가까워짐
- 표본 평균의 분포 = 모집단의 평균
- 표본 평균의 표준편차(표준오차) = 모집단의 표준편차 / 루트n
- 상위 식들은 모집단이 매우 크거나 무한하다는 가정 하에 성립
- 모집단의 크기가 작은 유한집단이고 비복원추출일 경우에는 표준편차에 대한 조정이 필요함
8-2. 비율의 표본분포
- 비율은 평균의 특별한 경우로 '0과 1사이의 값만 나타날 수 있는 또 다른 평균'
- 표본의 크기가 충분히 크면 표본 비율p는 평균 P, 분산 PQ / n인 정규분포 N(P, PQ / n)에 근사
9. 중심극한정리
표본의 크기가 충분히 클 때(n >= 30) 독립적이고 동일하게 분포된(i.i.d) 무작위 표본들의 평균은 근사적으로 정규분포를 따른다는 이론