본문 바로가기

통계 노트/통계 개념 정리

[개념 통계 21] 가설 검정 방법과 원리

 

 

안녕하세요. 홍박사입니다. 이번 포스팅에서는 가설 검정을 하는 방법에 대해서 이야기해보도록 하겠습니다. 지금까지 가설 검정하는 방법을 이해하기 위해 앞 선 포스팅에서 "귀무가설/대립가설", "1종 오류 2종 오류", "유의수준" 이렇게 세 가지 개념을 다뤘습니다. 자 이제 이 세 가지 개념을 이해하고 가설 검정하는 순서에 대해서 설명해 보겠습니다.

 

● 1단계: 귀무가설 H0과 대립가설 H1을 설정합니다.

광고의 효과에 대한 가설을 예로들어봅니다.

귀무가설은 "광고 전과 후의 평균 상품 판매량에는 차이가 없을 것이다."가 될 것이고,

대립가설은 "광고 전과 후의 평균 상품 판매량에는 차이가 있을 것이다."가 될 것입니다.

 

● 2단계: 유의수준 α를 정합니다.

다음으로 귀무가설을 기각하거나 채택할 유의수준 (허용 1종 오류)을 설정합니다. 보통 5% (α=0.05)또는 1% (α=0.01)로 설정합니다. 또한 양측 검정을 할지 단측 검정을 할지도 설정합니다. 아래 그림에서도 확인 할 수 있듯이 양측 검정을 하였을 때에는 양쪽으로  α/2 값을 적용하기 때문에 단측 검정보다는 양측 검정을 할 때 좀 더 엄밀하게 검정할 수 있습니다.

 

 

 

● 3단계: 표본을 수집하여 검정통계량을 계산하고, 그에 따른 p 값을 계산합니다.

가설과 유의수준을 설정하였으니 이제 표본을 수집합니다. 광고 효과에 대한 가설의 예를 이어 가겠습니다. 우선 광고 이전의 평균 상품 판매량 데이터를 수집하고, 다음으로 광고 방영 후 상품 판매량 데이터를 수집합니다. 그런 다음 광고 이전과 이후의 검정 통계량을 계산합니다. 그런데 검정 통계량은 무엇일까요? 

 

검정 통계량이란 수집한 데이터를 이용해서 계산한 "확률 변수"를 말합니다. 그러면 확률 변수란 무엇일까요? 확률 변수란 "특정 확률로 발생하는 각각의 결과를 수치값으로 표현하는 변수"를 말합니다. 역시나 어렵습니다. 즉 확률 변수란 특정 사건(여기서는 추출한 표본의 통계량)을 어떠한 수치값으로 변환한 것인데, 이 값은 이 값이 발생할 확률값과 대응할 수 있습니다. 대표적으로 정규분포의 Z 값을 예로 들 수 있습니다. 우리가 표본에서 구한 통계량 (표본 수, 표본 평균, 표본 표준 편차)을 이용하면 Z 값을 구할 수 있고, 계산한 Z 값을 이용하면 이 표본이 나올 수 있는 확률을 계산할 수 있습니다.

 

그렇다면 왜 검정 통계량을 계산하는 걸까요? 이유는 다음과 같습니다. 앞서 설명드린 것처럼 검정 통계량은 확률 변수이고, 이 변수는 확률 함수를 이용해, 이 표본 통계량이 발생할 확률을 계산할 수 있다는 것 입니다. (확률변수와 확률함수에 대한 좀 더 자세한 내용은 다음 포스팅을 참고해주세요. [통계 노트/통계 개념 정리] - [개념 통계] 확률 변수와 확률 함수). 검정 통계량을 통해 계산된 확률이 바로 p-값 즉, 추출한 표본 통계량이 나타날 확률 입니다. 엄밀히 말하면 귀무가설이 참일 때의 표본 분포에서 추출한 표본 검정 통계량이 나올 확률을 말합니다. 


검정 통계량은 연구에서 적용하는 통계기법이 사용하는 확률 분포함수에 따라 Z (정규분포), t (t-분포), F (F분포), χ2 (카이제곱 분포) 통계량 등이 사용될 수 있고, 상응하는 p-값 (이 검정통계량이 나올 확률)를 계산할 수 있습니다. 

 

 

 

 

● 4단계: 계산한 p 값 ≤ α이면 귀무가설을 기각하고, p 값 > α 이면 귀무가설을 채택합니다. 

이제 마지막 단계입니다. 3단계에서 계산한 p값과 유의수준을 비교합니다. 만약 p값이 유의수준 (0.05 또는 0.01)보다 작으면 귀무가설을 기각하고 대립가설을 채택합니다. 앞의 광고 효과의 예를 이어 말씀드리면, 만약 p값이 유의수준보다 작을 경우, 광고 전후의 평균 판매량의 차이가 우연히 나타날 확율이 유의수준 (1%, 또는 5%)보다 작다는 뜻이기 때문에, 이 평균 차이가 우연히 발생했다기 보다는, 광고 전후 평균 상품 판매량이 다르다고 판단하는 것이 바람직하다는 것입니다.

 

만약 p값이 유의수준보다 클 경우, 광고 전후의 평균 상품 판매량의 차이가 우연히 관측될 확률이 유의수준보다 크다는 뜻이기 때문에, 이 차이는 귀무가설의 분포내에서 표본을 추출하다 보면 우연히 발생할 수 있는 차이라고 볼 수 있습니다.  따라서 이 경우 귀무가설을 기각할 수 없습니다 (다른 말로 귀무가설을 채택합니다.). 즉, 광고 전후 평균 상품 판매량이 다르다고 판단하기는 어렵다고 판단하는 것입니다.

 

 

 

도움이 되셨다면 공감하트 꾹 눌러주세요~!