본문 바로가기

통계 노트/통계 개념 정리

[개념 통계 11] 모집단과 표본이란 무엇인가?


안녕하세요. 홍박사입니다. 이전 포스팅까지는 기술통계(Descriptive Statistics)에 대한 내용을 다루었습니다. 이번 포스팅 부터는 추리통계(Inferential Statistics)에 대한 내용을 다룰 계획입니다. 기술통계에서는 수집한 자료가 어떻게 생겼는지 분석하는 기법을 다루었다면 추리 통계는 수집한 자료를 바탕으로 연구자가 세운 통계적 가설을 확률 기반으로 선택할 것인지 아니면 버릴 것인지 판단하는 통계 기법을 다루고 있습니다.

 

추리 통계를 이해하기 위해서는 중요한 몇몇 개념들을 반드시 이해하고 넘어가야 합니다. 이 개념들을 제대로 이해하지 못하면 앞으로 다루게될 추리 통계 기법들을 이해하기 굉장히 어렵습니다. 물론 이 개념을 정확히 이해 못해도 통계 분석을 하지 못하는 것은 아닙니다. 요즘은 프로그램이 발달해서 클릭 몇번이면 분석 결과를 얻을 수 있고, 결과에 대한 해석도 시쳇말로 야매로 해석할 수 있습니다. 하지만 추리 통계 기법에 대한 깊이 있는 이해가 없으면 통계의 재미를 느낄 수가 없다고 생각합니다. 통계 기법이 그저 논문이나 보고서를 위한 도구로서 전락할 수 있기 때문입니다. 그래서 이번 포스팅에서는 본격적으로 추리 통계를 다루기 전에 반드시 알아야할 개념들을 차근차근 설명해보겠습니다. 


모집단 (Population): 연구자가 알고 싶어하는 대상 / 집단 전체


통계를 공부했던 사람이란면 모집단이라는 말은 정말 많이 들어보셨을 겁니다. 그런데 경험상 모집단에 대해서 정확한 정의를 말할 수 있는 학생은 그리 많지 않았습니다.  모집단은 어려운 개념은 아닙니다. 모집단을 네이버 사전에서 찾아보면 "통계적인 관찰의 대상이 되는 집단 전체"라고 설명이 나옵니다. 바로 이런 설명 때문에 많은 사람들이 모집단의 개념을 잡기 어려워한다고 저는 생각합니다. 모집단은 영어로 Population 인구 입니다. 왜 모집단을 인구라고 했을까요? 왜냐하면 모집단은 전체 집단을 나타내기 때문입니다. 모집단은 "연구자가 알고 싶어하는 집단 전체"를  말합니다. 예컨대 어떤 연구자가 "대한민국 남자와 여자의 평균 키를 알고싶다."라고 한다면 모집단은 대한민국 모든 남자 여자의 키가 됩니다. 


다른 예를 들어보겠습니다. 어떤 연구자가 "고등학교 3학년 평균 수학점수를 알고 싶다."라고 한다면 모집단은 대한민국 전체 고등학교 3학년 학생의 수학성적이 됩니다. 여기까진 쉽죠? 그럼 조금 어려운 예를 들어봅시다. 어떤 의학자가 개발한 백신 A, B가 있는데 이 백신 A를 처방했을 때와 백신 B를 처방했을 때 어떤 효과의 차이가 있는지 알고 싶다고 합시다. 여기서 모집단은 무엇이 될까요? 조금 햇갈리시나요? 여기서 모집단은 백신 A를 처방했을 때 모든 효과 그리고 백신 B를 처방했을 때의 모든 효과가 모집단이 됩니다. 이번 예에서 알 수 있듯이 어떤 측면에서 모집단은 굉장히 추상적인 개념이지요. 연구자가 알고 싶으나 너무 커서 실제로는 알기 굉장히 어려운 추상적이고 이데아적인 집단입니다. 다시한번 요약하겠습니다. 모집단은 연구자가 알고 싶어하는 대상 또는 효과의 전체(집단)입니다. 아니 이것도 어렵습니다. 그냥 모집단을 "연구자가 알고 싶은 것 그 자체"라고 이해합시다. 그게 가장 쉬운 방법입니다.


표본 (Sample): 연구자가 측정 또는 관찰한 결과들의 집합


표본은 모집단과 뗄레야 뗄 수 없는 개념입니다. 표본은 영어로 Sample입니다. 샘플이 뭐죠? 화장품 가게에 가면 샘플이라면서 조그만 병에 담긴 화장품들을 받아보신 경험이 있으실 겁니다. 왜 그걸 샘플이라고 할까요? 그 이유는 파는 화장품에 비해서 양이 아주 작기 때문입니다. 작은 양을 한번 써보고 (물론 몇번 못 써보겠지만요.) 그 화장품의 품질을 한번 테스트해 보라는 의미로 주는 것이기 때문이죠. 통계에서도 마찬가지 입니다. 우리는 모집단을 완전하게 파악할 수 없습니다. 또한 모집단이 어떻게 생겼는지, 즉, 모집단의 분포가 어떻게 되어 있는지 정확하게 알 수가 없습니다. 물론 전수조사를 통해서 할 수도 있겠죠. 그러나 경제적으로 그리고 공간적으로 그리고 시간적으로도 전수조사는 거의 불가능하고 매우 비효율적입니다. 그래서 연구자들은 표본 (Sample)을 측정 또는 관찰해서 연구자가 알고 싶어하는 모집단(효과/대상)을 추정하게됩니다. 왜냐하면 표본을 이용한 방법이 모집단 전체를 조사하는 것보다 모든 면에서 효율적이고 효과적이기 때문입니다. 



아래 그림을 보시면 모집단과 표본의 개념을 더욱 쉽게 이해하실 수 있을 것 입니다. 그렇다면 어떻게 표본으로 모집단을 추정할 수 있을까요? 이를 이해하기 위해서는 이해해야할 개념들이 더 남아 있습니다. 이와 관련된 내용은 다음 포스팅들에서 차근차근 다뤄보겠습니다.  


도움이 되셨다면 공감하트 꾹 눌러주세요~!