확률변수와 확률분포

기초수학 2013. 2. 19. 16:09

1.확률변수(random variable), RV

확률실험 결과 하나하나를 수치로 대응시키는 함수

 

몇 가지 예제를 통해 이해해보자.

 

ex1] 두 개의 동전을 전지는 화률실험에서 앞면이 낭는 횟수의 규칙으로 만들어지는 확률변수 X의 x는 {0, 1, 2}

 

앞면이 0회, 1회, 2회 나오는 확률은 각각 1/4, 1/2, 1/4가 된다. 왜냐하면 앞면이 0회나오는 사건은(T, T)의 1가지 경우, 앞면이 1회 나오는 사건은 (H, T),(T, H)의 2가지 경우, 앞면이 2회 나오는 사건은(H, H)의 1가지 경우로 이루어지고 있기 때문이다. 이 때에 앞면이 0회, 1회, 2회 나오는 사건을 동등하다고 생각하여 각각 1/3, 1/3, 1/3으로 생각해서는 안된다.

 

ex2] 1개의 동전을 2회 던지는 시행에서 쌍을 관찰할 때

 

ex3] 주사위를 던지는 실험, 결과값이 숫자인 경우는 표본 공간의 원소값과 대응값을 동일하게 정의

ex4] 두 개의 주사위 위에 있는 점들의 합의 규칙으로 만들어지는 확률변수 X의 값 x는{2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}

-표본 공간: S={2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}

 

example5] 학생들의 키를 측정하는 실험(조사), "50kg 보다 크고 60kg보다 작은 몸무게에 관심이 있을 때

-표본 공간:

-확률변수  x 는 각 학생들의 키의 측정치이다.

 

 

 

패턴인식 문제에서 대상 객체를 감지하여 받아들이는 과정을 랜덤시행이라고 할 수 있으며, 특징 벡터는 어떠한 척도에 따라 관측한 수치적 속성에 해당한다고 할 수 있다.

예를 들어, 영공에 침범한 적의 항공기를 인식하고자 할 때, 항공기의 모양을 결정하는 파라미터들을 측정하고, 이를 확률변수로 정의할 수 있다.

그림과 같이 확률변수 X는 랜덤시행의 표본공간에서 매 출력에 대하여 실수 X()를 할당하는 함수로 정의할 수 있다. 그러므로 이 함수 X()는 표본공간상의 가능한 모든 요소로부터 확률변수 값인 실선(실수)상의 임의의 점으로 매핑된다. 그리고 매 출력에 값들을 할당하는 함수는 결정적으로 고정되어 있으며, 주사위를 굴린 후의 결과값과 같이 이산확률변수인 경우와 샘플을 취한 개인의 몸무게와 같이 연속확률변수인 경우가 있다.

 

 

2.확률분포(probability distribution)

 수치로 대응된 확률변수의 개별 값들이 갖는 확률값의 분포

 

ex1]의 경우는 확률변수 X가 x의 값을 가질 확률P(X=x) 혹은 p(x)라고 표시하고, 다음과 같은 확률분포표가 만들어 질 것이다.


 

example1] 동전을 2개 던지는 실험, 앞면이 나오는 횟수에 대한 확률분포표

 

 0

 1

 2

 

 1/4

 (1/4)+(1/4)=2/4, 1/2

 1/4

 example2] 주사위를 2개 던지는 실험, 두 개의 주사위 위에 있는 점들의 합에 대한 확률분포료

 

 2

 3

 4

5

6

10 

11 

12 

 1/36

 2/36

 3/36  4/36  5/36  6/36  5/36  4/36  3/36  2/36  1/36

 

그리고 확률변수가 취할 수 있는 구체적인 값 하나 하나를 확률공간상의 확률값으로 할당해 주는 함수를 확률분포함수 혹은 확률함수하고 한다.

 

3.확률함수의 종류

확률변수가 이산확률변수면 이산적인 확률분포를 가지며, 그 분포는 확률질량함수(pmf)에 따른다

만약 연속확률변수면 연속적인 확률분포를 가지며 그 분포는 확률밀도함수(pdf)에 따른다. 확률함수에는 누적분포함수,(pcf), 확률밀도함수(pdf), 확률질량함수(pmf)가 있다.

 

1)누적분포함수(cdf, cumulative distribution function)

그림(a)연속확률변수 X의 누적분포함수

그림(b)이산확률변수 X의 누적분포함수

 

누적분포함수의 성질

1. 항상 0에서 1사이의 값만을 가질 수 있다.

2. x의 값이 커짐에 따라 증가하는 증가 함수이다.

3. 확률변수 X의 값이 어떤 구간안에 속할 확률은  cdf값의 차이와 같다.

 

연속이든 이산이든 상관없이 성립한다.

 

연속확률변수

어떤 확률변수 X의 cdf가 연속함수일 때 X는 연속확률변수이다. 

 

이산확률변수에서의 cdf는 일종의 계단형태의 모양을 가지게 된다.

특정 point에서 cdf값이 한번에 뛰어 오르기 때문에 연속한다고 하기 어렵다.

반면, 연속확률변수의 그래프는 직선 혹은 곡선, 혹은 두가지 복합된 형태로 나타날 수 있다.

계단 형태가 나온다면 최소한 연속확률변수라고 부르기 어렵다. 

 

ex1]

 

cdf 그래프로 나타내 보면 위와 같이 그릴 수 있다.

아래의 식으로 표현할 수 있다.

 

 


2)확률밀도함수(pdf, probability density function)

 

-확률밀도함수는 확률변수 X가 특정한 값 a와 b사이에 있을 확률, 즉 P(a<X<b) 값을 계산하는데 사용될 수 있다.

 

확률밀도함수의 성질

-확률밀도함수는 항상 0보다 큰값을 가진다.

-확률밀도함수를 x가 가질 수 있는 모든 값의 범위에서 적분하면 1이 된다.

 

 확률밀도함수

몸무게에 대한 확률밀도함수가 그림과 같이 주어질 때, 몸무게가 46에서 90사이에 있을 확률은 색칠된 영역의 면적에 해당된다.


3)확률질량함수(pmf, probability mass function)

이산확률변수 X의 확률질량함수는 다음과 같이 정의된다.

단, P(X=x)는 X가 x가 될 확률을 말한다.

 

확률질량함수는 어던 이산확률변수 X에 대한 확률모델이다.

즉, 표본공간을 구성하는 각각의 결과마다 어떤 확률을 부여한 것이다.

 

예를 들어, 앞면이 나올 확률이 0.8, 뒷면이 나올 확률이 0.2인 동전이 있다고 하자.

표본공간은 S={H, T}라고 하자. 이 확률실험를 확률변수 X로 나타내면, X는 앞 또는 뒤 둘 중 하나의 값을 가질 수 있다.

그러면 이 확률변수 X의 확률질량함수는 다음과 같이 정의할 수 있다.

주의할 것은 H와 T이외의 것이 아노는 것에 대해서는 확률이 0 이라고 표시를 해 주어야 한다.

값 H와 T에 각각 0.8과 0.2의 확률이 부여됐다.

또한 0.8, 0.2와 같은 숫자대신 확률변수 X가 가질 수 있는 값에 대한 관계식으로 함수를 표현할 수도 있다.


4.확률변수의 통계량

 

1)기대값(확률변수의 평균)

-일반 데이터의 성질을 표본 성질이라고 하는데, 확률분포의 성질은 모델 또는 모집단 성질이라고 한다

확률변수의 평균과 분산은 일반 데이터에 대한 평균()및 분산()과 구별하기 위해 모집단의 평균으로

를, 모집단의 표준편차로 를 사용한다.

 

일반적인 표본 평균은

만약 X의 모든 값들의 범위를  x라고 할 때, 를 x값을 가진 데이터점의 수라고 하자. 그러므로 위의 표본 평균은 이 되고, 여기서 는 상대도수가 된다. n값을 증가시키면 통계적 확률, 즉 근사 확률 p(x)에 접근하게 된다.

 

그러므로 이 되고, 이 식을 X의 기대값(expectation)이라고 한다.

연속확률변수인 경우는:

 

2)분산과 표쥰푠처

연속확률변수인 경우는:

 

참조:

1. 패턴인식 개론, 한빛미디어

2.http://blog.daum.net/gongdjn/62


반응형

'기초수학' 카테고리의 다른 글

기초 통계와 확률 이론  (0) 2013.02.06
[선형 대수학]벡터와 행렬  (0) 2013.02.06