본문 바로가기

통계 노트/통계 개념 정리

[개념 통계 08] 중심화 경향이란 무엇인가


안녕하세요. 홍박사입니다. 기술 통계는 크게 중심화 경향과 분산도로 구분할 수 있습니다. 이번 포스팅에서는 중심화 경향이 무엇인지 한 번 이야기해 보도록하겠습니다. 중심화 경향은 영어로 Central tendency 입니다. 말 그대로 "중심으로 모이는 경향"을 뜻합니다. 더 풀어서 이야기 하자면, 자료가 주로 어떤 값에 모여있는지를 나타내는 통계를 일컬어 중심화 경향이라고 합니다. 


중심화 경향: 수집한 자료 전체를 대표하는 값이 무엇인지 나타내는 통계 (대표값)


"나라의 중심" 또는 "중심 세력"이란 말을 들어보셨을 겁니다. 중심에 있다는 뜻은 수집한 자료 전체를 대표한다는 의미를 내포합니다. 즉 중심화 경향은 전체 자료를 대표하는 값을 구할 때에서 사용됩니다. 중심화 경향의 대표적인 통계치들은 최빈값 (Mode), 중앙값 (Median), 그리고 평균(Mean)이 있습니다. 모두 익숙한 통계치들이지요? 



최빈값: 수집한 데이터 중 그 빈도가 가장 많이 나타나는 데이터 (명목 자료의 대표값)


최빈치(값)은 수집한 데이터 중에서 가장 많은 데이터를 말합니다. 보통 최빈치는 수치형 데이터가 아닌 명목 데이터의 대표값으로 많이 쓰입니다. 예를 들면 우리가 학창시절에 많이 하곤 했던 인기투표, 그리고 대통령 선거 결과 등이 있습니다. 대통령 선거를 예를 들면 우리 국민이 투표한 결과 중에서 가장 많은 지지를 얻은 사람(최빈값)이 대한민국의 대표(대푯치)가 되는 것이라고 생각하시면 이해가 쉽게 될 것 같습니다. 그래서 선거는 중요합니다. 국민의 대표를 뽑는 일이니까요. 



중앙값: 자료를 크기 순으로 정렬했을 때, 중앙에 위치하는 값 (순위 자료의 대표값)


중앙값은 자료를 크기 순으로 나열했을 때, 그 순위의 중앙에 위치하는 값을 말합니다. 쉽게 설명하면 전교생이 100명이라고 했을 때, 수학점수를 가장 높은 점수부터 낮은 점수까지 1등부터 100등까지 나열한 다음 거기서 50등한 값이 중앙값입니다. 예에서도 알 수 있듯이 서열자료의 경우 평균을 사용할 수 없기 때문에 중앙치를 많이 사용합니다. 



평균값: 자료를 모두 더해서 전체 자료의 갯수로 나눈 값 (정량적 자료의 대표값)


평균값은 우리에게 너무 익숙한 통계치입니다. 평균에도 여러가지 가 있습니다. 우리가 주로 사용하는 평균치는 산술평균입니다. 산술평균(Arithmetic mean)은 자료값을 모두 더해서 자료의 갯수로 나눈 값입니다. 그 외에도 기하평균(geometirc mean), 조화평균 (Harmonic mean), 가중평균 (Weighted mean)이 있습니다. 통계에서는 주로 산술평균이 많이 쓰이죠. 평균값은 우리 실생활에도 굉장히 많이 쓰이기 때문에 평균이라는 말 자체가 마치 대표값이라는 말처럼 들리기도 합니다. 하지만 평균의 단점은 일부 극단적인 값 또는 이상한 값들에 영향을 받는 다는 것 입니다. 즉 데이터중 가장 높은 값이 굉장히 크거나 또는 가장 낮은 값이 굉장히 낮으면 평균 값이 왜곡될수 있다는 것이죠. 이에 반해 중앙값은 이러한 극단적인 값에 영향을 받지 않습니다. 왜나하면 중앙값은 극단값이 존재한다 할지라로 결국에는 순위로 결정되기 때문입니다. 따라서 중앙값과 평균값은 비슷할 수도 있고 크게 차이가 날 수도 있습니다. 


위에서 이야기한 중심화 경향의 통계치들을 아래 표와 같이 요약 정리해보았습니다. 


도움이 되셨다면 공감하트 꾹 눌러주세요~!