본문 바로가기

통계 노트/통계 개념 정리

[개념 통계 17] 중심극한 정리는 무엇이고 왜 중요한가?

안녕하세요. 홍박사입니다. 정말 오랜만에 포스팅을 합니다. 바쁘다는 핑계로 계속 포스팅을 미뤄오다가 마음을 다잡고 짧은 호흡으로라도 포스팅을 하는 것이 좋을 것 같다는 생각이 들었습니다. 부족한 글이지만 지금까지 이전 포스팅을 읽어주신 분들에게 감사드립니다. 

 

이번 포스팅에서는 중심극한정리(Central Limit Theorem)가 무엇이고, 또 그것이 왜 중요한지에 대해서 말씀드리려고 합니다. 중심극한정리는 많이 들어보셨을 것입니다. 간략하게 중심극한정리를 설명하면 아래와 같습니다.

 

모집단이 「평균이 μ이고 표준편차가 σ인 임의의 분포」을 이룬다고 할 때, 이 모집단으로부터 추출된 표본의 「표본의 크기 n이 충분히 크다」면 표본 평균들이 이루는 분포는 「평균이 μ 이고 표준편차가σ/√n인 정규분포」에 근접한다.

 

여기서 많은 분들이 헷갈리시는 부분이 있습니다. 생각보다 많은 분들이 중심극한정리를 "내가 수집한 표본의 크기가 크면, 그 표본의 평균이 모집단의 평균과 같고, 표본의 표준편차가 모집단의 표준편차를 표본수로 나눈 값과 같게 된다."라고 이해하곤 합니다. 이와 같이 중심극한정리를 이해 했다면, 이건 중심극한 정리를 완전히 잘못 이해한 것입니다. 표본은 매번 추출할 때마다 달라지게 되고, 그에 따라 표본의 평균값도 매번 달라지기 때문입니다. 따라서 우리가 연구를 위해 수집한 표본의 평균값이 아무리 크기가 크다고 하더라도 모집단의 평균값과 같다고 말할 수 없습니다. 

 

그렇다면 중심극한정리에서 말하는 표본평균분포란 무엇일까요? 중심극한정리에서 말하는 표본평균분포는 내가 수집한 표본을 말하는 것이 아닙니다. 표본평균분포는 영어로 Sampling distribution of sample mean입니다. 즉 표본평균분포는 "모집단에서 표본크기가 n인 표본(예: 30개)을 여러번 반복해서 추출(예: 200번 추출)했을 때 (즉, X1(n=30), X2(n=30), X3(n=30), ... X200(n=30), 각각의 표본 평균들이 이루는 분포"를 말합니다. 그리고 중심극한정리는 그 표본의 크기가 커질 수록 (보통 30 이상), 표본 평균들이 이루는 분포가 <모집단의 평균 μ 그리고 표준편차가σ/√n인 정규분포>에 가까워진다는 정리입니다. 이 말을 그림으로 정리하면 아래와 같습니다.

 

 

 

그렇다면 왜 중심극한정리가 중요한 것일까요? 그것은 중심극한정리가 표본 수집을 기반으로 한 추리통계에서 아주 중요한 이론적 근거를 제시하고 있기 때문입니다. 쉽게 설명드리면 우리는 이 정리를 통해, 모집단이 어떤 분포를 가지고 있던지 간에 (모집단 분포가 모양이던 상관없이) 일단 표본의 크기가 충분히 크다면, 표본평균들의 분포가 모집단의 모수를 기반으로한 정규분포를 이룬다는 점을 이용하여, 특정 사건(내가 수집한 표본의 평균)이 일어날 확률값을 계산할 수 있게 됩니다. 다시 말해 중심극한정리는 표본 평균들이 이루는 표본 분포와 모집단 간의 관계를 증명함으로써, 수집한 표본의 통계량(statistics)을 이용해 모집단의 모수(Parameters)를 추정할 수 있는 수학적(확률적) 근거를 마련해 줍니다. 이것이 추리통계에서 중심극한정리가 중요한 이유입니다.

 

 

도움이 되셨다면 공감하트를 꾹 눌러주세요~!