본문 바로가기

통계 노트/통계 개념 정리

[개념 통계 10] 분산도란 무엇인가: 표준편차와 분산


안녕하세요. 홍박사입니다. 지난 포스팅에서는 분산도 관련 통계치 중 범위, 사분위 편차, 박스플롯에 대해서 설명드렸습니다. 이번 포스팅에서는 또 다른 분산도 관련 통계치인 표준편차와 분산에 대해서 설명드리겠습니다. 우선 편차(Deviation)란 무엇일까요? 


편차(Deviation): "개별 자료"와 "전체 자료 평균"의 간 차이


우리는 일상적으로 어떤 자료들 간의 값 차이가 클 때 "편차가 크다"가 크다는 말을 많이 씁니다. 통계에서 편차란 관측치(개별 자료)와 전체 자료 평균(전체 자료 집합) 간 차이를 말합니다. 즉, 개별 자료가 평균으로 부터 얼마만큼 떨어져 있는가?를 나타내는 값이 바로 편차입니다. "편차가 크다"는 말은 개별 자료들이 전체 평균과 많이 떨어져 있다는 의미입니다. 더 쉽게 말씀드리면 어떤 자료는 평균보다 엄청 크고 어떤 자료는 평균보다 엄청 작다는 뜻입니다. 편차를 수식으로 나타내면 다음과 같습니다.

  • 편차= 개별값 - 전체 평균

  •  

예컨대 제 수학점수가 80점이고 우리 반 수학 평균점수가 70점이라면 제 수학점수의 편차는 +10입니다. 만약 제 점수가 60점이라면 제 수학점수의 편차는 -10 입니다. 그렇다면 수집한 자료가 일반적으로 어느정도의 편차를 가지고 있는지 나타내려면 어떻게 해야될까요? 직관적으로 다음과 같은 생각을 할 수 있을 것입니다.

  • 1) 각각의 개별 데이터의 편차를 구한다.

  • 2) 계산한 개별 편차들을 모두 더해서 전체 자료수로 나누어 준다.

그런데 이렇게 하면 수집한 자료의 평균적인 편차를 구할 수 있을까요? 정답은 아닙니다. 왜나하면 결국 개별 자료의 편차를 모두 더하면 "0"이 되기 때문입니다. 평균과 개별 값이 얼마나 떨어져 있는지가 + - 부호로 계산되기 때문에 결국 모두를 더하면 결국 0이 됩니다. 따라서 다른 방법이 필요합니다. 그래서 고안해낸 것이 바로 분산이라는 개념입니다.


분산(Variance): 편차의 제곱을 모두 더해 평균낸 값


분산(Variance)은 편차(개별값-평균값)를 제곱한 후 다 더해서 전체 자료의 갯수로 나눠준 값입니다. 즉 편차의 제곱합을 평균낸 값입니다. 이러한 방법을 취하면 편차의 합이 0이되는 것을 막을 수 있습니다. 분산을 수식으로 나타내면 다음과 같습니다. (아직 모집단과 표본 분산에 대해서는 다루지 않아서 모집단의 분산과 표본분산이 무엇인지 대해서는 이번 포스팅에서는 다루지는 않겠습니다.)



그런데 여기서 또 한번 문제가 발생합니다. 분산은 결국 편차의 제곱을 평균한 값이기 때문에 자료의 단위 역시 제곱이 됩니다. 예를 들어 같은 반 학생들의 키의 분산을 계산하면 그 단위는 길이 단위인 cm가 아니라 면적 단위인 cm2이 됩니다. 이렇게 단위가 달라지게 되면 대체 평균적으로 어느 정도 편차가 있는 건지 알기가 힘듭니다. 그래서 고안해낸 것이 표준편차 입니다.


표준편차(Standard deviation): 분산에 제곱근을 취한 값


표준편차(Standard deviation)는 분산(Variance)값에 제곱근(Root)을 취한 값입니다. 이렇게 분산에 제곱근을 취하게 되면 단위가 본래 자료의 단위로 돌아오게 됩니다. 다시 말해, 분산의 단위를 원래의 자료의 단위에 맞게 전환해서 이해하기 쉽게 만든 값이 표준편차라고 할 수 있습니다. 



왜 절대 편차를 구하지 않고 분산과 표준편차를 구할까?


그런데 또 여기서 한 가지 질문을 하게 됩니다. 표준 편차 값은 어떤 의미에서는 평균 편차라고 볼 수 없습니다. 왜냐하면 표준 편차는 편차의 평균이 아니기 때문입니다. 제대로된 평균 편차를 구한다면 개별 자료의 편차값들을 절대 값으로 바꾸고 평균을 내는 방법이 가장 정확한 평균 편차입니다. 

그럼에도 불구하고 왜 분산과 표준 편차를 구할까요? 그 이유는 바로 분산이 수식 계산를 할 때 편하기 때문입니다. 만약 절대값 부호 |x|가 수식에 들어가면 수식 처리 및 계산을 하는데 불편한 점이 많습니다. 좀 더 복잡해지는 것이죠. 반면에 분산과 같이 제곱 형식을 사용하면 상대적으로 수식 계산 및 처리를 하는데 유용하기 때문에 분산과 표준편차를 사용하는 것이라고 할 수 있습니다.


도움이 되셨다면 공감하트 꾹 눌러주세요~!