통계 노트/통계 개념 정리

[개념 통계 14] 정규분포와 표준정규분포 그리고 Z-score

필로홍 2018. 2. 26. 10:38



안녕하세요. 홍박사입니다. 이전 포스팅에서는 확률변수와 확률함수에 대해서 다루었습니다. 확률변수란 특정확률로 나타나는 어떠한 사건에 수치를 부여한 변수라고 할 수 있고, 확률 함수란 확률 변수를 확률 값으로 대응시키는 함수를 말합니다. 이 확률변수와 확률함수를 이용하면 특정 사건이 일어날 확률을 계산할 수 있습니다. 그리고 그것을 도식화한 것이 바로 확률 분포입니다. 이번 포스팅에서는 통계에서 가장 많이 쓰이는 확률분포인 정규분포(Normal distribution)에 대해서 알아보도록 하겠습니다. 


정규분포는 우리 주변에서 일반적(Normal)으로 발견되는 좌우대칭의 종 모양(Bell curve)으로 생긴 분포입니다. 때론 가우스분포라고도 부르기도 합니다. 우리 주변의 많은 변수 또는 자료들이 정규분포를 따른다고 알려져 있습니다. 예컨대 대한민국 남자의 키의 분포라던가, 전국 수학능력시험 점수의 분포 등이 정규분포를 따른다고 알려져 있습니다. 정규 분포는 평균값에 가장 많은 데이터가 분포되어 있고 평균과 떨어질수록 데이터 적게 분포하는 특징을 가지고 있습니다. 상식적으로 생각했을 때, 대한민국 성인 남자 평균키를 조사한다고 하면, 평균키(173 cm정도가 될까요?)의 남자가 가장 많을 것이고 2 m가 넘는 남자는 몇 없겠죠. 그리고 성인 남성 중 키가 140 cm 이하인 사람도 그리 많지 않을 것입니다. 물론 세상의 모든 현상이 정규분포를 따르지는 않습니다.  


정규분포는 모수가 평균이 이고 표준편차가 인 연속확률 분포입니다. 여기서 은 분포의 중심(가장 높게 올라간 부분)을 나타내며, 는 분포가 흩어진 정도(평균을 중심로 데이터들이 얼마나 멀리 떨어져 있는지)를 나타냅니다. 즉 분포의 표준편차 가 클수록 종모양 분포는 옆으로 퍼진 모양을 가지게 되고, 가 작을수록 평균으로 집중되어 뽀족하게 생긴 종모양을 이루게 됩니다. 모수가 이고 표준편차가 인 정규 분포를 따르는 확률 변수 X가 취할 수 있는 값은 -에서 + ∞ 까지입니다. 




앞서 말씀드린 것 처럼 이 세상의 많은 데이터들이 정규분포를 이루고 있습니다. 그런데 각 집단의 평균과 표준편차가 각각 다르기 때문에 데이터들을 서로 비교하기 어렵다는 문제가 생깁니다. 예를들어 수학시험 결과, A, B반의 수학점수 결과가 정규분포를 이룬다고 가정해 봅시다. 그런데 A반의 경우 평균은 70점에 표준편차가 30점이고, B반의 경우 평균 65점에 표준편차가 10점이라면 두 반 중 어느 반이 더 수학점수가 더 높다고 할 수 있을까요? A, B반 수학점수 데이터의 분포와 모양이 달라서 직관적으로 판단하기 좀 어렵죠? 그래서 서로 다른 모수값(평균, 표준편차)을 가진 정규분포를 가진 집단들을 서로 비교하기 위해 정규분포를 표준화하는 방법이 있습니다. 우리는 이것을 표준 정규분포(Standard Normal Distribution)라고 부릅니다.


그렇다면 어떻게 서로 다른 모양의 정규분포를 표준화할까요? 방법은 이렇습니다. 정규분포의 평균을 "0"으로 표준 편차를 "1"로 만드는 것입니다. 어떻게 평균이 "0"이고 그리고 표준 편차가 1인 표준 정규분포를 만들 수 있을까요? 생각보다 간단합니다. 우리가 수집한 개별 데이터에서 그 데이터 집단 전체의 평균()을 빼고 표준편차()로 나누어주면 됩니다. 개별 데이터에서 전체 데이터의 평균 만큼 빼줬기 때문에 개별 데이터들의 평균을 다시 구하면 "0"이 됩니다. 쉽게 말해 0으로 수평이동 한 것이라고 보면 됩니다. 그리고 표준편차로 개별 데이터를 나누었기 때문에 그 집단의 표준편차도 "1"이 됩니다. 


이렇게 표준화된 개별 데이터를 우리는 Z-score라고 부릅니다. Z-score는 평균이 0이고 표준편차가 1인 정규분포의 확률변수(확률밀도 함수의 x축)이 됩니다.




앞서 설명드린 것처럼 Z-score를 구하는 공식은 위 그림과 같이 개별 데이터값에서 평균을 빼고 그 값을 표준편차로 나눈 값입니다. 우리는 이 Z-score가 의미하는 바에 대해서는 깊게 생각해 보지 않고 Z-score의 공식을 너무도 기계적으로 외워왔습니다. 자. 디사 한번 위 공식을 한번 살펴봅시다. Z-score는 "1) 분자 부분: 어떠한 개별 데이터가 평균으로부터 얼마나 떨어져 있고 (X-), 2) 분모 부분: 그 떨어진 정도가 그 집단의 표준편차의 몇 배 정도 떨어진 것이다" 라는 뜻입니다. 


표준 정규분포에서는 Z-score -1에서 +1에 전체 데이터의 68%가 들어가 있고, Z-score -2에서 +2 범위에 전체 데이터의 95%가 들어가 있습니다. 만약에 어떤 개별 데이터의 Z값이 3이상이 나온다면 우리는 어떻게 이 값을 해석해야 할까요? 좀 튀는 놈이다. 이상한 놈이다. 이렇게 해석할 수 있을 겁니다. 이런 개념이 앞으로 더 이야기할 추리통계 개념과 이어지니 잘 이해하면 도움이 될 것입니다.




사실 정규분포는 위와 같은 함수(수식)으로 나타낼 수 있습니다. 그리고 곡선 아래 면적의 전체 합은 1이 됩니다. 모든 사건이 일어날 확률이 1이기 때문이죠. 여기서 저 수식을 외우는 게 중요한 것이 아닙니다. 우리가 여기서 짚고 넘어가야하는 부분은 바로 정규분포가 함수(수식/공식)라는 것입니다. 앞서 말씀드린 바와 같이 우리가 확률 함수를 안다면 특정사건이 일어날 확률을 계산할 수 있다는 점을 말씀드렸습니다. 따라서 우리가 알고 싶은 어떤 사회적 또는 물리적 현상이 정규분포를 가지고 있다고 가정하면, 우리는 그 현상에서 특정 사건이 일어날 확률을 예측할 수 있는 것입니다. 이게 정규분포를 우리가 사용하는 이유의 핵심입니다.


도움이 되셨다면 공감하트 꾹 눌러주세요~!