[개념 통계 16] 모집단분포와 표본분포란 무엇인가?
안녕하세요. 홍박사입니다. 이전 포스팅에서는 정규분포가 무엇인지 그리고 정규분포를 이용해서 사건이 일어날 확률을 계산하는 법을 다루었습니다. 이번 포스팅에서는 모집단 분포와 표본 분포에 대한 개념을 다루어 보려고 합니다. 추리 통계에 들어가기 전에 모집단과 표본이 무엇인지 그리고 그 둘은 무엇이 다른지 명확하게 이해해야 합니다. 이번 포스팅은 이전 포스팅: [통계 노트/통계 개념 정리] - [개념 통계] 모집단과 표본이란 무엇인가? 와 많은 내용이 중복됩니다. 참고하시길 바랍니다.^^
모집단은 영어로 "인구"라는 의미의 "Population"입니다. 그렇다고 모집단을 일반적 의미의 "인구"라고 이해하시면 안됩니다. 모집단이란 "어떤 통계적 실험의 대상이 되는 모든 대상물"로 정의할 수 있습니다. 하. 말이 좀 어렵습니다. 그럼 다시 쉽게 풀어 써 보겠습니다. 모집단이란 "연구자가 알고 싶어하는 또는 다루고 싶어하는 연구 대상(예: 대한민국 남성의 키를 조사하고 싶다.)을 구성하는 모든 데이터(예: 대한민국 모든 남성의 키 데이터)"라고 이해하면 됩니다. 쉽게 말하면 내가 조사해서 알고 싶은 실제 대상이라고 할 수 있습니다. 만약 2018년 수능시험 점수를 다루고 싶다고 한다면 모집단은 2018년 수능시험 점수 데이터라고 볼 수 있습니다. 여기서 모집단은 "데이터 집단"이므로 어떠한 분포를 이룰 것입니다. 여기서 모집단을 구성하는 데이터가 이루는 확률 분포를 모집단 분포(Population distribution)라고 합니다.
여기서 또 하나의 중요한 개념을 다뤄야 합니다. 바로 모수라는 개념입니다. 모수는 영어로 "Parameter" 라고 합니다. Parameter라고 하면 어떤 이미지가 떠오르시나요? 어떤 수치의 이미지가 떠오르지 않으신가요? 통계에서 모수도 그렇습니다. 모수란 "모집단의 특성을 나타내는 수치"로 모평균, 모분산, 모표준편차, 모비율, 모상관관계 등이 있습니다. 다시 말해 모수란 모집단을 구성하는 데이터를 설명하는 수치값이라고 할 수 있습니다. 모수는 굉장히 중요합니다. 왜나하면 우리가 실제로 알고 싶어하는 (추정하고 싶어하는) 것은 "모집단 데이터"가 아니라 "모집단 특성을 설명하는 모수"이기 때문입니다. 예컨대 우리는 수능점수 전체 데이터(모집단) 를 알고 싶은 것이 아니라 전체 수능점수 평균(모평균) 또는 전체 수능점수 표준편차(모표준편차)를 알고 싶어하기 때문입니다. 왜? 모수는 모집단의 특성을 간략하게 설명(기술)해주기 때문입니다.
그런데 여기서 문제가 발생합니다. 대부분의 모집단 분포는 완전하게 알려진 것이 없기 때문입니다. 앞서 예를 든 전체 수능시험 점수는 쉽게 ? 모집단 분포와 모수를 알 수 있지만, 세상에는 다양한 모집단들이 있고, 그 중 어떤 모집단(사실상 대부분)은 분포의 정확한 평균이나 산포도 등을 알 수 없는 경우가 있습니다. 어떻게 해서든 조사하면 모집단 분포를 알 수 있는거 아닌가요?라고 물을 수도 있을 겁니다. 네 맞습니다. 가능합니다. 그러나 거의 불가능합니다. 예를 들어 봅시다. 어떤 교육 연구자가 개발해 낸 학습법 A와 B가 있다고 합시다. 이 연구자는 학습법 A를 수업에 적용했을 때와 학습법 B를 적용를 적용했을 때 학생들의 학습 효과를 알고 싶다고 가정해봅시다. 여기서 모집단은 무엇일까요? 여기서 모집단은 학습법 A와 B를 적용했을 때의 모든 학습 효과입니다. 굉장히 추상적인 모집단이라고 할 수 있습니다. 물론 전국민에게 학습법을 적용하여 전수조사할 수도 있겠지만 경제적, 공간적, 시간적 제약으로 인해 거의 불가능하다는 것을 바로 알 수 있을 것 입니다.
그렇다면 우리는 어떻게 모집단의 모수(특성)를 알 수 있을까요? 간단합니다. 표본을 추출해서 모집단의 모수를 추정할 수 있습니다. 그러면 어떠한 방식으로 표본을 추출해야 모집단의 모수를 잘 추정할 수 있을까요? 아마도 모집단을 구성하고 있는 모든 데이터들이 "뽑힐 가능성(확률)을 동등"하게 부여하고, "객관적(어떠한 의도를 가지지 않고)으로 무작위(랜덤) 추출"한 표본이어야 겠지요. 우리는 이러한 표본을 확률 표본(random sample)이라고 합니다. 앞의 말을 조금 있어보이게 설명하면 다음과 같습니다. 확률 표본이란 동일 분포(Identical distribution)와 독립 분포 (Independent Distribution)를 따르는 표본이라고 할 수 있습니다. 다시 쉬운 말로 풀어 봅시다. 동일 분포란 추출한 확률 표본이 같은 모집단에서 추출되었다는 뜻이고, 독립 분포라는 것은 표본을 추출할 때 표본들이 서로 영향을 미치지 않아 같은 확률로 추출되었다는 의미입니다.
모수가 모집단 분포 특성을 설명하는 값인 것처럼, 확률 표본의 특성을 설명하는 값이 존재할 것입니다. 우리는 이것을 통계량(Statistics)라고 부릅니다. 통계량에는 표본평균, 표본분산, 표본표준편차, 표본비율, 표본상관관계 등이 있습니다. 그렇다면 모수(Parameter)와 통계량(Statistics)은 무엇이 다를까요? 모수는 모집단이 변하지 않기 때문에 그 값이 변하지 않습니다. 반면에 통계량은 표본을 어떻게 추출하느냐에 따라서 그 값이 다르게 나타납니다. 즉, 동일한 모집단에서 동일한 수의 표본을 추출하더라도 매번 표본이 달라지기 때문에 각 표본의 통계량(예 평균, 편차값)은 서로 다르게 나타날 수 있다는 것 입니다.
이 시점에서 누군가는 이렇게 질문할 수 있을 것입니다. "통계량은 표본을 추출할 때마다 매번 달라지는데 어떻게 매번 변하는 통계량을 가지고 모수를 추정할 수 있나요?" 타당한 질문입니다. 여기서 우리는 이전에 다루었던 통계 개념을 다시 상기해야합니다. 바로 확률변수와 확률분포 개념입니다.
확률 변수(Random variable)란 무작위 실험을 했을 때, 특정 확률로 발생하는 각각의 결과를 수치값으로 표현한 변수를 말합니다. 그리고 확률 분포(Probability distribution)란 확률변수 X의 모든 값과 그에 대응하는 확률값들의 분포를 말합니다. 더 자세한 설명은 이전 포스팅을 참고해 주십시오 ([통계 노트/통계 개념 정리] - [개념 통계] 확률 변수와 확률 함수).
예를 들어 모평균(모수)를 추정하기 위해 30개씩 n번 표본을 무작위로 추출했다고 합시다. 그러면 표본 평균(통계량)은 우리가 추출한 "확률 표본" X1, X2, X3, ..., Xn에 따라 그 값이 변화합니다. 여기서 중요한 것은 표본 평균(통계량)은 확률 표본이 어떻게 추출되는냐에 따라 특정 확률로 변화하므로 표본 평균(통계량)은 확률 변수라고 할 수 있습니다. 그리고 n번 반복 추출된 표본들 각각의 평균값들(통계량)은 확률 변수이기 때문에 그에 대응하는 발생 확률값들이 있을 것 입니다. 그 확률값들의 분포을 계산하면 표본 평균들(통계량)의 확률 분포를 그릴 수 있을 것입니다. 예를 들어 무작위로 표본 "30개"씩 반복해서 "100번" 추출했다고 합시다. 그러면 우리는 "100번" 추출한 표본 "30개"의 평균값들을 "100개" 구할 수 있을 것 입니다. 그 여러번 추출된 표본들의 가각의 평균값들에 대한 발생 분포를 그려보면 특정 확률변수에 대응하는 확률을 가진 확률 분포를 그릴 수 있을 것입니다. 우리는 이것을 통계량의 확률분포라고 할 수 있고, 이를 표본분포(sampling distribution)라고 부릅니다.
그렇다면 통계량이 확률 변수라는 것이 왜 중요할까요? 어떤 변수가 확률 변수이고 그 확률 변수의 확률분포가 수학적으로 설명(예측)가능한 분포(예컨데 정규분포)를 따르고 있다고 가정해 봅시다. 만약 우리가 특정 확률 변수와 확률 함수를 알고 있다면, 특정 사건이 일어날 확률을 계산(예측)할 수 습니다. 그리고 더 나아가 모수와 통계량의 관계를 알고 있다면, 그것을 통해 우리는 모수에 대한 통계적인 추정을 할 수 있다는 결론을 내릴 수 있습니다. 따라서 통계량이 확률 변수라는 것은, 만약 우리가 통계량의 확률 함수 또는 표본 분포를 안다고 가정하면, 우리는 이를 이용해 우리가 알고 싶어하는 모수를 추정할 수 있다는 뜻입니다. 이전 포스팅 ([통계 노트/통계 개념 정리] - [개념 통계] 확률 변수와 확률 함수) 참고해 주시기 바랍니다.^^
도움이 되셨다면 공감하트 꾹 눌러주세요~!