본문 바로가기

통계 노트/통계 개념 정리

[개념 통계 07] 도수 분포표와 히스토그램



안녕하세요. 홍박사입니다.  이전 포스트에서는 기술 통계와 추리 통계 무엇인지 이야기 해보았습니다다시 한번 간단하게 요약하자면 기술 통계는 우리가 수집한 데이터가 어떻게 생겼는지 (대표값은 무엇인지? 어떻게 분포하고 있는지?) 파악하는데 사용하는 통계 기법이라고 있고, 추리 통계는 수집한 데이터를 이용해서 우리가 예측하고 싶어하는 것을 확률적으로 판단하는 통계 기법들이라고 있습니다.


● [통계 노트/통계 개념 정리] - [개념 통계] 기술 통계와 추리 통계란 무엇인가?

 

이번 포스팅에는 기술 통계 기법 중에서 하나인 도수 분포표(frequency table) 히스토그램(histogram) 대해서 알아보겠습니다. 도수 분포표와 히스토그램은 중고등학교 과정을 무사히 마치셨다면 매우 익숙한 용어일 거라고 생각합니다. 하지만 그것을 사용하고 그것을 어디에 쓰는지는 모르고 있습니다. 그래서 이번 포스팅에서는 도수 분포표와 히스토그램을 데이터를 파악하고 이해하는데 어떻게 쓰일 있는지 알아보겠습니다.


도수 분포표 (Frequency table): 특정 구간에 속하는 자료의 개수를 나타내는 표


도수 분포표는 영어로 Frequency table입니다. 직역하자면 빈도표입니다. 도수 분포표란 자료의 분표를  개의 구간으로 나누고, 나누어진   구간에 속하는 자료가 몇 개인지 정리한 표입니다.  그런데 구간을 나눌까요? 그 이유는 구간을 나누면 개별적인 데이터를 보는 것보다 데이터의 전체적인 분포 즉 모양을 요약해서 있기 때문입니다. 예컨대 우리가 어느 학년 55명 수학 점수 데이터를 가지고 있다고 합시다. 개별 55개 데이터가 숫자로만 주욱~ 있다고 생각해봅시다. 수학 점수 분포가 한 눈에 들어올까요? 당연히 안들어오겠죠. 그래서 데이터가 어떻게 분포하고 있는지 점수 범위를 0-10, 10-20, 20-30 … 90-100 이렇게 구간을 만들고  범주에 들어간 인원 수를 세면 간단하게 55명의 수학 점수 분포를 파악할 있겠죠. 이게 바로 도수 분포표 입니다.

 

그렇다면 도수분포표는 어떻게 만들까요? 바로 다음과 같은 절차와 방법으로 만듭니다.


(1) 자료의 갯수를 센다.


(2) 자료 내에서 최대 / 최소값을 찾는다.


(3) 몇 개 구간(급의 수)으로 나눌지 결정한다.

    ▶ 자료의 개수나 분포에 따라 달라져야 한다.

    ▶  구간에 5 이상의 숫자가 들어가도록 하는 것이 좋다.

    ▶ 너무 많은 구간을 나누지 않도록 한다. (일반적으로 5-15구간)


(4) 구간의 폭 (급의 폭)을 구한다.

    ▶ 구간폭 = (최대값-최소값)/구간수

    ▶ 되도록이면 정수, 짝수, 5 배수를 사용하는 것이 좋다.


(5) 구간의 경계값 (급의 경계값)을 구한다.


(6) 구간별 자료의 갯수 (도수)를 적는다.

 


실제로 도수 분포표를 작성해봅시다. 아래 자료는 대학에서 임의로 선정한 남학생 55명의 신장(단위 cm)을 기록한 것입니다. 이제 이것에 대한 도수 분포표를 작성해 봅시다.

▲R과 함께하는 통계학의 이해 (최용석, BigBook) 자료 인용


(1) 자료의 갯 수를 센다.

    ▶ 55개


(2) 자료 내에서 최대 / 최소값을 찾는다.

    ▶ 최대 180, 최소 162


(3) 몇 개 구간(급의 수)으로 나눌지 결정한다.

    ▶ 구간 수는 5개로 설정


(4) 구간의 폭 (급의 폭)을 구한다.

    ▶ 구간폭 = (최대값-최소값)/구간수

    ▶ (180-162) / 5 = 3.6 

    ▶ 3.8은 정수가 아니므로 구간 폭은 4로 정한다.


(5) 구간의 경계값 (급의 경계값)을 구한다.


(6) 구간별 자료의 갯수 (도수)를 적는다.


 

히스토그램 (Historgram): 도수 분포표를 시각적으로 표현한 막대 그래프


위의 표처럼 도수 분포표가 완성되었습니다. 위 도수 분포표는 구간 수가 4개 밖에 없어서 그나마 쉽게 데이터 분포가 어떻게 생겼는지 파악할 수 있습니다. 그런데 구간이 10개 이상이라면? 그렇다면 도수분포표에 숫자가 너무 많습니다.따라서 구간별 데이터가 가시적으로 들어오지 않게 될 것입니다. 이러한 상황에서 도수 분포표를 눈에 확! 들어오게 만들어 주는 것이 바로 히스토그램입니다. 히스토그램의  x(가로축) 구간을 나타내고,  y(세로축) 구간별 빈도수를 나타냅니다. 그렇다면 히스토그램으로 우리는 무엇을 알 수 있을까요? 당연히 구간별 빈도수 겠지요? 하지만 그것보다 더 중요한 것. 바로 그 빈도수가 무엇을 결정할까요? 바로 히스토그램의 모양입니다. 그리고 그 히스토그램의 모양으로 우리는 우리가 수집한 데이터가 어떻게 생겼는지 한 눈에 볼 수 있습니다. 바로 아래 그림처럼 말이죠. 



즉, 히스토그램을 그리면, 수집한 데이터가 종모양(정규분포)를 모양을 이루고 있는지, 아니변 두 집단이 혼합된 경우처럼 생겼는지, 특정 구간에 빈도가 몰려 있는 비대칭적인 분포를 이루고 있는지, 또는 유독 튀는 이상한 값이 들어 있는지를 한 눈에 파악할 수 있습니다. 다시 요약하자면, 도수 분포표와 히스토그램을 이용하면 우리가 수집한 데이터를 요약하여 전반적인 생김새(분포)를 파악할 수 있는 것입니다.


도움이 되셨다면 공감하트 꾹 눌러주세요~!