통계 노트/통계 개념 정리

[개념 통계 09] 분산도란 무엇인가: 범위, 사분 편차, 박스플롯

필로홍 2016. 12. 19. 03:30


안녕하세요. 홍박사입니다. 이전 포스팅에서는 중심화 경향(Central tendency)에 대해서 살펴보았습니다. 중심화 경향은 우리가 수집한 데이터를 대표하는 통계치를 말합니다. 최빈값, 중앙값, 그리고 평균값 등이 중심화 경향 통계치라고 할 수 있습니다. 이번 포스팅에서는 기술 통계의 마지막 부분, 바로 분산도(Variation)에 대해서 알아보도록하겠습니다. 


분산도: 데이터가 어떻게 분포되어 있는지를 설명하는 통계치


분산도는 중심화 경향과 달리 수집한 자료의 대표값에는 관심이 없습니다. 분산도는 영어로 Variation으로, 다양성, 변화라고 해석할 수 있습니다. 조금 추상적인 해석이지요. 여기서 Variation 은 분포도라고 해석하시면 가장 이해하기 쉽습니다. 즉, 분산도는 수집한 데이터가 어떻게 분포되어 있는지 설명하는 통계치를 말합니다. 분산도와 관련된 통게치로는 범위 (Range), 사분편차 (Quatile deviation), 분산 (Variance), 표준편차 (Standard deviation) 등이 있습니다. 자 그럼 이번 포스팅에서는 범위, 사분편차가 무엇이고 또 어떻게 쓰이는지 알아보겠습니다. 


범위: 자료의 최대값에서 최소값의 차이


범위(range)는 데이터 중 가장 큰 값과 가장 작은 값의 차이를 말합니다. 예컨대 학생수가 30명인 어느 반의 수학점수 데이터가 있다고 합시다. 여기서 최하 점수가 20점이고 최고 점수가 100점이라고 합시다. 이 데이터의 범위는 100-20=80입니다. 범위는 수집한 데이터가 최대 어느정도 떨어져 있는지 살펴볼 수 있는 통계치입니다. 하지만 범위는 자료의 최소값과 최대값이라는 극단적인 두 값을 가지고 도출된 통계치이기 때문에 데이터의 분포를 나타내는 데에는 한계점을 가지고 있습니다. 왜냐하면 이 최대 최소 두 값이 다른 데이터들에 비해 너무 작거나 너무 커버리면 수집한 데이터들이 일반적으로 떨어져 있는 분포를 왜곡할 수 있기 때문입니다.


사분편차: 자료를 크기순 정렬 후 전 자료 분포의 중앙부에서 전자료의 50%를 포함한 범위의 반


사분편차는 영어로 Quatile deviation 입니다. Quatile은 1/4을 말합니다. 농구 경기는 보통 쿼터제로 되어 있는 데 15분씩 4개 쿼터로 진행되죠. 바로 쿼터가 1/4이기 때문입니다. 이처럼 사분편차는 자료를 크기순으로 정렬하고 그 자료 분포의 1/4에 해당하는 자료값과 3/4에 해당하는 자료값의 차이를 반으로 나눠준 값을 말합니다. 조금 어렵나요? 사실 전혀 어려운 개념은 아닙니다. 더 쉽게 설명해 보겠습니다. 100명의 수학시험 성적이 있다고 합시다. 이 수학점수를 1등부터 100등까지 높은 점수 순으로 죽 배열합니다. 그리고 25등한 수학점수와 75등한 수학점수의 차이를 반으로 나눈 값입니다. 이해가 좀 되시나요? 아래 그림을 보시면 더욱 이해가 빠르실 겁니다. 


그렇다면 사분편차는 무엇을 나타내는 걸까요? 이미 정의는 이야기 했는데 무슨 얘기냐구요? 제 말은 앞서 말한 사분편차의 정의가 실질적으로 자료 분석에서 어떻게 쓰이는지 생각해 봐야한다는 것입니다. 아래 그림을 잘 보십시오. 100 명의 수학점수 자료로 다시 설명하면, 사분위표는 25등 점수와 77등 점수 사이에 있는 데이터의 범위 (range)를 나타내는 지표라는 것을 알 수 있습니다. 즉, 1-25등 점수와 75-100등 점수는 보지 않고 대체로 가운데 몰려있는 50%의 데이터의 분포를 보겠다는 것입니다. 왜 1-25등과 75-100등은 보지 않을까요? 이 값들은 다소 극단적인 값들이라고 판단하기 때문입니다. 따라서 사분편차에서는 전체 데이터의 1/4과 3/4 지점 사이의 데이터 분포를 보는 통계치라고 할 수 있습니다. 즉, 사분편차가 크다는 것은 분포가 크게 퍼저 이루어져 있다는 것이고 사분편차가 작다는 것은 이 범위의 데이터가 몰려 있다는 것을 의미합니다.



사분위와 땔래야 땔 수 없는 그래프가 있습니다. 바로 박스플롯(Box plot)입니다. 박스플롯은 보통 아래와 같이 생겼습니다. 이 그래프를 이해하기 위해서는 우선 Q1, Q3가 무엇인지 알아야합니다. 여기서 대문자 Q는 Quatile의 약자입니다. 그리고 뒤에 붙은 숫자는 1번째 그리고 3번째 Quatile을 나타냅니다. 즉 Q1은 상위 25%값 (1/4) 그리고 Q3은 상위 75%값(3/4)을 나타냅니다. 혹 어떤 사람은 Q3를 하위 25%라고 부르기도 하는데 이건 똑같은 말입니다. 100명 중 앞에서 75등 뒤에서 25등은 같은 것과 마찬가지입니다. 또한 M은 중앙값(Median) 또는 Q2(50%)로 쓰일 수도 있습니다. 물론 평균값(Mean)을 박스플롯에 나타내기도 합니다. IQR은 Inter Quatile Range의 약자로 Q1과 Q3의 범위 즉 차이를 말합니다. 그리고 Q1과 Q3 양단에 길게 뻗은 수염 같은 것을 Box whisker (수염)라고 부릅니다. 수염길이는 보통 IQR의 1.5배입니다. 박스플롯을 보시면 수염 범위 바깥에 있는 값들이 있습니다. 우리는 이 값을 Outlier 한국말로는 이상값이라고 부릅니다. 말 그대로 좀 이상한 값입니다. 왜냐하면 데이터 범위 내어서 아주 크거나 아주 작은 값들이기 때문입니다. 그래서 이렇게 이상한 이상치들은 통계분석을 하기 전에 포함시킬 것인지 아니면 없앨 것인지 고민해야합니다. 

 




그러면 이 박스플롯은 어떻게 쓰일까요? 박스플롯은 데이터의 모양을 파악하는데 아주 유용하게 쓰일 수 있습니다. 다음 그림을 한번 봅시다. 박스플롯을 이용하면 데이터가 어떻게 분포하고 있는지, 즉 데이터 분포가 왼쪽으로 치우쳐 있는지, 정규분포를 이루는지 아니면 오른쪽으로 치우쳐 있는지를 직관적으로 판단 할 수 있습니다. 



요약하자면 범위, 그리고 사분위편차 그리고 박스플롯은 데이터가 어떻게 분포하고 있는지를 나타내는 통계치입니다. 이러한 통계치를 이용해서 우리가 수집한 데이터의 분포를 간략하게 표현할 수 있는 것 입니다. 다음 포스팅에는 분산과 표준편차에 대해서 살펴보도록 하겠습니다.


도움이 되셨다면 공감하트 꾹 눌러주세요~!