안녕하세요. 홍박사입니다. 정말 오랜만에 포스팅을 합니다. 6개월만입니다. 핑계지만 연구 프로젝트 진행하느라 블로그에 거의 시간을 쏟지 못했습니다. 앞으로 분발하겠습니다. 지난 포스팅에서는 확률의 기본적인 정의에 대해서 알아 보았습니다. 이번 포스팅에서는 조금 더 나아가 "확률 변수"와 "확률 분포" 그리고 "확률 함수"에 대해서 이야기해 보겠습니다.
우선 변수(Variable)이란 무엇일까요? 변수란 특정 조건에 따라 변하는 값을 의미합니다. 그렇다면 확률변수(Random variable)는 무엇에 따라 변하는 값일까요? 당연히 확률에 따라 변하는 값이겠지요. 확률 변수란 무작위 실험을 했을 때, 특정 확률로 발생하는 각각의 결과를 수치적 값으로 표현하는 변수를 말합니다. 한번에 이해하기에는 조금 어렵습니다. 예들 들어서 다시 설명해 보겠습니다. 확률 변수는 임의(Random)로 진행되는 실험(예: 동전을 무작위로 두번 던져서 그림 또는 숫자가 나오는 실험)에서 일정한 확률(예: 그림이 나올 확률 1/2, 그리고 뒤가 나올 확률 1/2)을 가지고 발생하는 결과에 실수 값(예: 앞=1, 뒤=0)을 부여하는 변수(variable)를 말합니다.
표본 공간을 대문자 "S", 그에 상응하는 실수 값을 부여하는 값을 "X", 그리고 부여된 실수 값 X에 따라 계산된 실수 값을 "R"이라고 했을때, 그 관계를 표현하면 아래 그림(왼쪽)과 같습니다. 이를 그림(오른쪽)과 같이 앞서 설명한 동전을 두번 반복해서 던지는 게임으로 설명하면 이해가 쉬울 것 입니다. 이 게임에서 표본공간(S)은 그림 또는 숫자가 나오는 조합이 되고, 각 변수에 그림 =1 숫자 = 0을 부여했을 때 (X) 나오는 값(R)은 {0,1,2}가 됩니다. 이를 확률 변수라고 합니다. 그리고 확률 변수(R)가 취하는 모든 실수들의 집합을 상태공간(State space)라고 하고, 그 상태공간를 구성하는 각 값이 나올 수 있는 가능성은 특정 확률(0=1/4, 1=1/2, 2=1/4의 확률)로 주어지게 됩니다.
*표본 공간, 사건, 확률의 정의는 이전 포스트에서 확인하실 수 있습니다.
[통계 노트/통계 개념 정리] - [개념 통계] 표본공간, 사건 그리고 확률
대표적인 확률 변수의 종류에는 이산확률 변수(Discrete random varible)와 연속확률 변수(Continuous random variable)가 있습니다. 이산확률 변수는 확률 변수 X가 어느 구간의 모든 실수값을 택하지 않고, 0,1,2 ...와 같은 고립된 값만을 택하는 변수를 말합니다. 영어 Discrete는 "별개의" "분리된"으로 해석할 수 있듯이, 이산확률 변수는 상태공간이 유한 집합인 또는 셈할 수 있는 무한집합인 확률변수를 말합니다. 아래와 같이 동전 던지기 게임이나 주사위 던지기 게임이 대표적인 이산 확률 변수입니다.
연속확률 변수는 영어 Continuous에서도 알 수 있듯이 확률변수가 취하는 값이 연속된 구간으로 나타나는 확률 변수를 말합니다. 다시 말해 확률변수가 어떤 구간의 모든 실수값을 택할 때 이 변수를 연속확률 변수라고 합니다. 정규분포가 대표적인 연속확률 변수라고 할 수 있습니다. 쉽게 이산확률 변수와 연속확률 변수를 비교하면, 이산확률 변수는 딱딱 끊어진 또는 구분된 변수로 구성되어 있고 연속확률 변수는 연속적으로 이어진 변수로 이루어져 있다고 생각하시면 쉽습니다.
자 그럼 이제는 확률 분포(Probability distribution)에 대해 알아봅시다. 확률 분포란 확률변수의 모든 값과 그에 대응하는 확률들이 어떻게 분포하고 있는지를 말합니다. 예컨대 동전을 두 번 던져서 그림이 나오는 확률 변수를 X라고 했을 때 각 상태 공간 값이 나올 확률 분포는 아래 그림과 같습니다. 그렇다면 확률 함수(Probability function)는 무엇일까요? 확률 함수는 확률변수에 의해 정의된 실수를 확률(0~1사이)에 대응시키는 함수를 말합니다. 아래 표으로 설명드리면 x가 0이면 그에 대응되는 확률은 1/4, x가 1이면 대응되는 확률은 1/2 이렇게 확률변수의 상태 공간의 각 실수 값과 확률 값은 대응시키는 것이 바로 확률 함수입니다.
지금까지 다룬 확률변수, 확률분포 그리고 확률 함수의 관계를 정리하면 다음과 같이 표현할 수 있습니다.
자 그럼 여기서 한번 생각을 해봅시다. 왜 확률 변수와 확률 함수가 통계에서 왜 필요할까요 그리고 어떻게 이용될까요? 답은 간단합니다. 확률 함수는 확률 변수가 일어날 확률을 나타내는 함수이므로, 우리가 특정 확률 변수의 확률 함수를 알고 있다면, 특정 사건이 일어날 확률을 계산(예측)할 수 있기 때문입니다. 예를 들어 이산 확률 변수와 함수의 관계를 안다면, 주사위를 두 번 반복하여 던져 나온 두 눈의 합이 5이상 8이하로 나올 확률은 아래와 같이 계산할 수 있습니다.
연속확률 변수와 그 분포함수(distribution function)도 아래 그림과 같이, 우리가 알고 싶은 사건이 발생하는 구간의 넓이를 계산함으로써 그 사건이 발생하는 확률을 계산 또는 예측할 수 있습니다.
확률 변수와 함수의 관계는 간단하지만, 이것이 통계 분석에서 큰 의미를 가집니다. 왜냐하면 바로 이 확률 함수를 이용해서 우리는 특정 사건의 확률을 계산할 수 있고, 그 확률을 바탕으로 앞으로 다루게 될 추리 통계의 기초가 되는 통계적 검정을 할 수 있기 때문입니다.
도움이 되셨다면 공감하트 꾹 눌러주세요~!
'통계 노트 > 통계 개념 정리' 카테고리의 다른 글
[개념 통계 15] 정규분포의 확률 계산 (7) | 2018.03.20 |
---|---|
[개념 통계 14] 정규분포와 표준정규분포 그리고 Z-score (1) | 2018.02.26 |
[개념 통계 12] 표본공간, 사건 그리고 확률 (1) | 2017.06.02 |
[개념 통계 11] 모집단과 표본이란 무엇인가? (13) | 2017.03.19 |
[개념 통계 10] 분산도란 무엇인가: 표준편차와 분산 (22) | 2017.01.19 |