확률분포

카테고리 없음

확률분포

은행털이 2024. 4. 22. 04:25

확률

전체 사건 중 특정 사건이 일어날 가능성
어떤 실험을 할 때 나타나는 결과의 가능성을 측정하는 척도

P(E) = N(E) / N(T)

N(T) : 표본 공간에 있는 사건의 총 개수
N(E) : 사건 E의 총 개수
모든 사건 E에 대하여 0 <= P(E) <= 1, P(T) = 1, P( ∅ ) = 0
P(E의 여사건) = 1 - P(E)

확률 관련 용어

시행(Trial) : 같은 조건 아래에서 반복할 수 있는 실험이나 관측
- 주사위를 던지는 행위는 같은 조건에서 여러번 반복할 수 있으므로 시행
사건(Event) : 시행에 의해 생기는 여러 결과
- 주사위를 던져서 특정 숫자가 나오는 것은 하나의 사건
단순 사건(Simple Event) : 한 개의 원소로 이루어진 사건으로, 기본 사건
- 주사위를 던져서 6이나오는 사건은 단순 사건
배반 사건(Exclusive Event) : 하나의 사건이 발생할 경우 다른 사건은 발생할 수 없는, 즉 사건들이 동시에 나타날 수 없는 관계
- 40명의 학생 중 남자와 여자를 각각 3명씩 뽑는 경우 남자를 뽑는 사건은 여자를 뽑는 사건과 같이 발생할 수 없음
독립 사건(Independent Event) : 발생된 사건이 다음에 발생될 사건의 확률에 영향을 미치지 않는 사건
- 2번 주사위를 던질 때 첫 번째에 5가 나와도 두 번째에 5가 다시 나올 확률에 영향을 미치지 않음
종속 사건(Dependent Event) : 발생된 사건이 다음에 발생할 사건의 확률에 영향을 미치는 사건
- 검은 공 3개와 흰 공 3개가 있는 상자에서 검은공을 뽑을 혹률은 1/2이지만, 뽑은 검은공을 다시 집어넣지 않고 한번 더 뽑으면 검은공 2개와 흰 공 3개이므로 검은공이 뽑힐 확률이 2/5로 영향을 미침
복원 추출(Replacement Sampling) : 한 집단에서 표본을 선택한 후 도로 표본에 집어넣고 재추출하는 방법
- 40명의 학생 중 남자를 1명 추출하고(1/40), 다시 추출된 남자를 포함해서 1명을 추출할 경우(1/40)
비복원 추출(Non-replacement Sampling) : 한 집단에서 표본을 선택한 후 도로 표본에 집어넣지 않고 나머지에서 추출하는 방법
- 40명의 학생 중 남자를 1명 추출(1/40), 나머지에서 다시 남자 1명을 추출(1/39)

1. 확률의 덧셈법칙

두 사건 중 적어도 하나의 사건이 일어날 확률

배반 사건 : P(A U B) = P(A) + P(B)
- 두 사건이 서로 배반인 경우, 즉 두 사건이 동시에 일어날 수 없는 경우
- 두사건 A와 B중 적어도 하나가 일어날 확률은 각 사건이 일어날 확률의 합
- 동전을 던져서 나올 앞과 뒤가 나올 사건은 서로 배반 사건
- 동전을 던졌을 때 앞면이나 뒷면 중 하나가 나올 확률은 각각의 확률을 더한 값
배반이 아닌 사건 : P(A U B) = P(A) + P(B) - P(A ∩ B)
- 두 사건이 배반이 아닌 경우, 즉 두 사건이 동시에 일어날 가능성이 있는 경우
- 두 사건 A와 B중 적어도 하나가 일어날 확률은 각 사건이 일어날 확률의 합에서 두 사건이 동시에 일어날 확률을 뺀 값
- 두 개의 주사위를 던져서 1번 주사위와 2번 주사위 모두 같은 5가 나올 사건은 서로 배반이 아닌 사건
- 두 주사위 모두 5가 나올 확률을 고려햐여 총 확률을 계산할 때, 이 중 계산된 확률을 제거

2. 확률의 곱셈법칙

사건 A와 B가 있을 때, A와 B가 동시에 발생할 확률

결합확률이라고 하며 P(A ∩ B)라고 표시
- P(A ∩ B) = N(A ∩ B) / N(T)
- N(A ∩ B) : A와 B를 동시에 만족시키는 사건의 총 수
- N(T) : 사건의 전체 총 수
두 사건이 상호 독립인경우 결합확률은 두 사건의 발생확률의 곱으로 계산
- P(A ∩ B) = P(A) * P(B)
- 주사위 두 개를 던져 1번 주사위가 2, 2번주사위가 5가 나올 확률은 서로 독립적이므로 1/6 * 1/6 = 1/36

3. 조건부 확률

한 사건이 일어난 상태에서 다른 사건이 일어날 확률(두 사건이 서로 종속관계에 있는)

사건 B가 일어났을 때 사건 A가 일어날 확률
- P(A | B) = P(A ∩ B) / P(B)
- 따라서 A와 B가 동시에 발생할 확률도 유도 가능 P(A ∩ B) = P(B) * P(A | B)
확률적 독립성 : 두 사건 A, B가 다음 조건 중 하나를 만족하면 서로 확률적으로 독립이라고 정의
- P(A ∩ B) = P(A) * P(B)
- P(A | B) = P(A)
- P(B | A) = P(B)
상호독립 조건 : P(A ∩ B) = P(A) * P(B) ≠ 0
상호배반 조건 : A ∩ B = ∅, P(A ∩ B) = 0

4. 확률 변수

확률 과정이나 임의 실험 결과를 수치적으로 표현하는 변수

변수
- 숫자 또는 문자로 표현할 수 있는 특성, 특정 집단이나 대상에서 측정하거나 관찰할 수 있는 특성
- 나이, 가족의 수, 가구 소득, 혼인상태 등
확률 변수
- 임의 실험에서 일정한 확률을 가지고 발생하는 결과에 실수값을 부여하는 변수
- 표본 공간을 구상하는 사건에 수치를 부여한 후 그 값에 확률을 대응한 함수
- 표본공간 = 정의역, 확률을 나타낸 실수값 = 치역

4-1. 이산확률변수

이산점에서 0이 아닌 확률값을 가지는 확률변수 : Pr(X = xi) = Pi, Pi는 0보다 크고 모든 Pi의 합은 1이어야 함

- 확률질량함수 : 각 이산점에 있어 확률 크기를 표현하는 함수

이산 확률 변수를 알 수 있는 대표적인 예시로 두 개의 주사위를 던져서 나오는 눈의 합을 나타낸 확률

X	2	3	4	5	6	7	8	9	10	11	12	합
확률	1/36	2/36	3/36	4/36	5/36	6/36	5/36	4/36	3/36	2/36	1/36	1

4-2. 연속 확률 변수

특정 실수 구간에서 0이 아닌 확률을 갖는 확률변수

- 확률 밀도 함수 : 값의 분포를 설명하는 함수. 확률 밀도 함수 f(x)는 모든 X값에 대하여 f(x) >= 0

- 확률변수 X가 0과 1사이에서 균등한 분포를 가지면, 확률 밀도 함수 f(x) = 1일때 0 <= x <= 1이고 0일때 그 외 값

4-3. 확률변수의 기대값(평균)

확률분포에 따른 확률변수의 평균적인 값으로 기대값은 확률분포의 무게중심을 의미
확률 값을 가중치로하는 확률변수의 모든 가능한 값에 대한 가중평균
확률 변수의 중심 경향성을 나타내며, 확률과정의 결과로서 얻을 수 있는 평균적인 값

4-4. 확률변수의 분산

확률분포의 산포도를 측정하는 지표로 확률변수의 값들이 평균을 중심으로 얼마나 넓게 퍼져있는지 정도를 수치적으로 표현
평균이 같은 경우에도 분산의 크기에 따라서 분포의 모양이 달라짐
확률변수 X의 분산은 X의 값들이 평균 μ = E(X)로부터 얼마나 떨어져있는지를 나타내는 기대값
표준편차는 분산의 양의 제곱근

5. 확률분포의 개념과 종류

확률분포는 확률변수가 취할 수 있는 각각의 값에 대한 확률

이산확률분포 : 이산적 확률변수(확률변수가 0, 1, 2와 같은 정수의 값을 가지는 경우)가 이루는 확률분포
- 베르누이 확률분포, 이항분포, 기하분포, 음이항분포, 포아송분포, 초기하분포, 다항분포
연속확률분포 : 연속적 확률번수(확률변수가 소수점의 값을 포함하는 실수의 값을 가지는 경우)가 이루는 확률분포
- 균일분포, 정규분포, 감마분포, t-분포 카이제곱분포, F-분포

5-1. 베르누이 확률분포

결과가 성공과 실패 두 가지 상호 배반적 사건으로 나누어지는 분포
확률변수 X는 성공일 경우 1, 실패일 경우 0
성공확률이 p일때 실패확률은 1 - p, (0 <= p <= 1)
베르누이 확률분포의 기대값 E(X) = p, 분산 Var(X) = p(1 - p)

5-2. 이항분포

고정된 n번의 베르누이 시행에서 성공한 횟수에 대한 확률분포
상호 배반적인 두 사건만 나타내는 경우에 발생할 확률의 기준이 되는 분포
- 동전던지기, 시험의 합격여부, 안타를 칠 가능성 등
각 시행의 성공 확률은 p로 동일하며 오직 두 가지의 결과만 가짐(성공/실패)
- 시행의 수(n) : 고정된 횟수의 독립정인 시행 수
- 성공의 확률(p) : 각 시행에서 성공할 확률, 0 <= p <= 1
- 실패의 확률(q) : 각 시행에서 실패할 확률, q = 1 - p
이항분포의 확률분포 기대값 E(X) = np, 분산 Var(X) = npq

5-3. 기하분포

첫 성공이 발생하기까지 필요한 베르누이 시행의 횟수를 모델링
단 한번의 성공을 위해 실패를 거듭해야 하는 경우에 사용
- 특정 광고 캠페인에 고객이 반응하기까지 몇번을 시도하는가, 로켓의 발사를 성공할때까지 얼마나 실패하는가
기억없음속성 : 이미 일련의 실패가 있었다고 해도, 다음 시행에서 성공할 확률이 변하지 않으며 첫 성공을 달성하기까지 남은 시행 수의 분포는 여전히 기하분포를 따름
기대값은 E(X) = 1/p, 분산은 Var(X) = 1-p / p^2

5-4. 음이항분포

고정된 n번의 성공을 얻기위해 필요한 베르누이 시행의 횟수에 대한 확률분포
기하분포는 첫 번째 성공까지의 시행횟수를 다루지만, 음이항분포는 r번째 성공까지 필요한 시행 횟수를 다룸
이항분포는 시행횟수가 고정, 음이항분포는 성공횟수가 고정
기대값은 E(X) = r/p', 분산은 Var(X) = r(1 - p) / p^2
k는 최소 r을 포함해야 하므로 k >= r

5-5. 포아송분포

특정 시간이나 공간에서 발생하는 이벤트 수를 모델링하는데 사용되는 이산확률분포
특정 기간 동안 또는 특정 영역 내에서 발생할 수 있는 사건의 평균 발생 횟수( λ)를 알고 있을 때 정해진 기간이나 영역에서 실제로 몇 번의 사건이 발생할지를 예측
사건은 독립적으로 발생하며, 매우 드물게 발생하고, 빈도는 일정하다 라는 조건이 필요함
- 어느 하루동안 어느 공장에서 생산된 제품의 불량품 개수
- 어느 지역에서 1년동안 화재가 발생할 횟수
- 어느 하루동안 잘못 걸려온 전화 횟수
기대값은 E(X) = λ, 분산 Var(X) = λ

5-6. 초기하분포

특정 조건을 만족하는 객체가 유한한 집단 내에 정해진 수만큼 있을 때, 무작위로 선택된 샘플 내에서 해당 객체가 몇 개 있을지의 확률을 계산하는데 사용되는 확률분포
베르누이를 만족하지 않고, 추출 과정에서 복원되지않는 경우에 유용
N : 전체 집단 내의 총 개체 수(모집단 크기)
K : 관심 있는 특성을 가진 전체 개체의 수
n : 전체 집단에서 선택된 개체의 수
기대값은 E(X) = n * (K/N), 분산 Var(X) = n * (K/N)(1 - K/N)(N - n / N - 1)

5-7. 다항분포

두 가지 이상의 범주가 있는 실험에서 각 범주의 발생 횟수에 대한 확률분포로 여러 번의 독립적 시행에서 각각의 값이 특정 횟수가 나타날 확률을 정의
여러 차례의 독립적인 시행에서 발생 가능한 여러 결과 중 하나가 선택될 때 사용

6. 균일분포

정의된 범위 내의 모든 값이 동일한 확률로 발생한다는 특성

연속균일분포 : 정해진 구간 [a, b] 내의 모든 값이 발생할 확률이 동일한 연속확률분포, X ~ Uniform(a, b)로 표현
- 확률밀도함수는 f(x) = 1 / b-a for x ∈ [a, b]
- f(x)는 x에 대한 확률 밀도, a와 b는 각각 분포의 하한과 상한이며 a가 0, b가 1인 경우 표준 균일분포 U(0, 1)
- 기대값은 E(X) = (a + b) / 2, 분산은 Var(X) = (b - a)^2 / 12
이산균일분포 : 각 값이 발생할 확률이 동일한 이산 확률 분포, X ~ Uniform({x1, x2, ...... xn})으로 표현
- 확률질량함수는 P(X = x) = 1/n for x ∈ {x1, x2, ..... xn}, n은 가능한 결과의 수

6-1. 베타분포, X~Beta(α, β)

0과 1 사이의 값으로 제한된 연속 확률변수에 대한 유연한 확률분포
확률변수 X의 값이 0 <= X <= 1인경우, 즉 비율과 같은 데이터에 대해서 적합
두 개의 매개변수 α와 β를 사용하여 모양을 조정하며 분포의 형태를 결정
대표적인 예시로 A/B 테스팅이 있음

6-2. 정규분포, X~N(μ,σ^2)

연속확률분포 중 가장 유명하며, 가우스 분포라고도 함
중앙에 위치한 평균=중앙값=최빈값을 중심으로 좌우대칭의 곡선 Bell Curve를 그림
두 개의 매개변수 평균(μ)과 표준편차(σ)인 N(μ, σ^2)로 나타냄
- 평균(μ) : 데이터의 중심 위치, 분포의 중심을 결정
- 표준편차(σ) : 데이터의 퍼짐 정도(산포도), 분포의 폭을 결정
기대값은 E(X) = μ, 분산은 Var(X) = σ^2
정규분포 곡선의 총면적은 1

6-3. 표준정규분포, Z~N(0, 1)

정규분포를 μ = 0, σ = 1로 변환한 분포, 즉 X~N(μ, σ^2)에서 Z~N(0, 1)
표준화는 개별 관측값을 표준 척도로 바꾸는 방법
표준화 식 Z = (Xi - μ) / σ, X의 각각의 값에 평균 μ빼고 표준편차 σ로 나눔

6-4. 지수분포, X~Exp( λ)

어떤 사건이 발생할 때까지 경과 시간에 대한 연속확률분포로 특정 사건 사이의 시간 간격을 모델링할 때 사용
기억없음속성 : 과거에 발생한 사건이 미래의 예측에 영향을 주지 않는 속성으로, 연속확률분포에서는 지수분포가 유일함

6-5. 감마분포, X~Γ(k, θ)

어떤 사건이 k번 발생할 때까지 경과시간에 대한 분포
- 모양매개변수 k : 분포의 형태를 결정
- 비율매개변수 θ : 시간당 사건의 발생 비율

k가 클수록 분포는 대칭적으로
θ가 클수록 평균 대기시간 감소

6-6. t - 분포, X~t(v)

작은 표본 크기에서 정규 모집단의 평균을 추정할 때 널리 사용되는 확률분포
정규분포와 유사한 종 모양을 가짐
분포의 형태가 자유도에 의존적, 자유도는 표본크기가 n일때 n-1
자유도가 증가함에 따라(표본 크기가 충분히 큰 경우) 정규분포에 가까워짐
모표준편차를 알수없고 표본 크기가 작을경우 (n < 30), 집단 간 평균 추정에 사용

6-7. χ^2 분포, X~χ^2(k)

통계학에서 주로 적합도 검정, 독립성 검정, 분산 분석에 사용되는 확률 분포
감마 분포에서 k = n/2이고 θ - 1/2에 해당하는 특수형태의 분포
자유도에 따라 분포의 형태가 결정

6-8. F - 분포, X~F(d1, d2)

두 집단간 분산의 동일성 검정에 사용되는 분포
두 개의 독립적으로 카이제곱 분포된 표본의 분산 비율로 정의되는 확률분포
비대칭 분포의 형태를 보이고, 자유도 d1, d2가 클수록 정규분포에 근사한 형태가 됨

7. 확률 표본

확률 분포로부터 독립적으로 동일하게 분포된 여러 관측치
확률변수 X의 확률분포로부터 얻은 n개의 표본 X1, X2, ..... Xn은 서로 독립적이며 각각 X와 동일한 분포를 가짐
표본이론의 주된 목적은 결국 모집단의 모수를 추정하는 것으로, 표본을 통해 모수의 추정을 수행
- 추정량 (Estimator) : 모수를 추정하기 위해 사용되는 통계량
- 추정치 (Estimate) : 실제 표본을 기반으로 계산된 특정 추정량의 값

8. 표본 분포

표본 통계량이 가질 수 있는 모든 가능한 값의 분포
한 모집단에서 동일한 크기의 모든 가능한 표본을 추출했을 때, 표본들에서 계산된 통계량의 확률분포
- 표본통계량 : 표본에서 계산된 평균, 비율, 표준편차 등
- 모집단 대표성 : 표본은 모집단을 대표할 수 있어야 하며, 이를 통해 모집단의 특성을 추정
오차측정 : 선택된 표본이 포함하고있는 오차의 정도 측정
- 표본 오차 : 표본에서 얻은 자료로 모집단의 특성을 추론함으로써 발생하는 오차
- 비표본 오차 : 이외에 조사과정에서 발생할 수 있는 모든 오차
- 표준 오차 : 통계량의 분포인 표준 분포의 표준편차

8-1. 평균의 표본분포

특정 모집단에서 동일한 크기로 가능한 모든 표본을 뽑아서 각 표본들의 평균을 계산하였을때 그 평균들의 확률분포
표본의 평균 X들이 이루는 확률분포
평균: X = μ, 분산: s^2 = σ^2 / n, 표준편차 : s = 루트σ^2 / n = σ / 루트n
평균의 표본분포의 표준편차 s를 평균의 표준오차(e)라고 부름
표준오차가 크면 의사결정시 오류가 커지고 작으면 오차가 작아짐
모집단이 정규분포일 때 평균의 표본분포는 표본의 크기 n에 상관없이 정규분포
모집단이 정규분포가 아니더라도 표본의 크기 n이 커지면 커질수록(n >= 30) 표본 평균의 분포는 모집단의 분포와 상관없이 정규분포에 가까워짐
- 표본 평균의 분포 = 모집단의 평균
- 표본 평균의 표준편차(표준오차) = 모집단의 표준편차 / 루트n
- 상위 식들은 모집단이 매우 크거나 무한하다는 가정 하에 성립
- 모집단의 크기가 작은 유한집단이고 비복원추출일 경우에는 표준편차에 대한 조정이 필요함

8-2. 비율의 표본분포

비율은 평균의 특별한 경우로 '0과 1사이의 값만 나타날 수 있는 또 다른 평균'
표본의 크기가 충분히 크면 표본 비율p는 평균 P, 분산 PQ / n인 정규분포 N(P, PQ / n)에 근사

9. 중심극한정리

표본의 크기가 충분히 클 때(n >= 30) 독립적이고 동일하게 분포된(i.i.d) 무작위 표본들의 평균은 근사적으로 정규분포를 따른다는 이론

현재글확률분포

스나오오카미 시로코가 은행을 털기위한 라인업 블로그

따라하며 배우는 파이썬과 데이터과학, 데이터통신, 한빛아카데미, 데이터의 종류, 명품 운영체제, 운영체제, 명품 운영체제 연습문제, 따라하며 배우는 파이썬과 데이터과학 심화문제, IT CookBook JAVA 마스터, Java, 운영체제론, 네트워크, 데이터의 개념, 빅데이터, 연습문제, 초연결 사회의 데이터통신과 네트워킹, 네트워킹, JAVA 마스터, 명품 운영체제 연습문제 3장, 명품 운영체제 연습문제 2장,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

털?자

확률분포

확률

확률 관련 용어

1. 확률의 덧셈법칙

2. 확률의 곱셈법칙

3. 조건부 확률

4. 확률 변수

4-1. 이산확률변수

4-2. 연속 확률 변수

4-3. 확률변수의 기대값(평균)

4-4. 확률변수의 분산

5. 확률분포의 개념과 종류

5-1. 베르누이 확률분포

5-2. 이항분포

5-3. 기하분포

5-4. 음이항분포

5-5. 포아송분포

5-6. 초기하분포

5-7. 다항분포

6. 균일분포

6-1. 베타분포, X~Beta(α, β)

6-2. 정규분포, X~N(μ,σ^2)

6-3. 표준정규분포, Z~N(0, 1)

6-4. 지수분포, X~Exp( λ)

6-5. 감마분포, X~Γ(k, θ)

6-6. t - 분포, X~t(v)

6-7. χ^2 분포, X~χ^2(k)

6-8. F - 분포, X~F(d1, d2)

7. 확률 표본

8. 표본 분포

8-1. 평균의 표본분포

8-2. 비율의 표본분포

9. 중심극한정리

'카테고리 없음'의 다른글

티스토리툴바