본문 바로가기

통계 노트/통계 개념 정리

[개념 통계 18] 귀무가설과 대립가설이란 무엇인가?

안녕하세요 홍박사입니다. 이번 포스팅에서는 통계적 가설검정에 대해서 다루어 볼 겁니다. 우선 가설을 어떻게 정의할 수 있을까요? [진실이라고 확증할 수는 없지만 "아마도 그럴 것이다." 라는 잠정적인 주장]을 가설이라고 말할 수 있을 것 같습니다. 연구자들은 연구하고자 하는 대상이 나타내는 현상을 관찰한 후에, 그 현상을 설명하는 가설을 설정합니다. 그리고 그 가설(Hypothesis)을 통계적인 방식으로 검정(Testing)합니다. 우리는 이를 통계적 가설검정(Hypothesis testing)이라고 부릅니다.

 

우리가 일반적으로 생각하는 가설은 아마 다음과 같은 것이 아닐까요. "지구는 둥글 것이다." 또는 "태양이 지구를 돌 것이다." 하지만 통계적 가설 검정은 어떠한 큰 이론을 제안하는 가설이 아닙니다. 통계에서 쓰이는 가설은 우리가 알고싶어하는 "어떤 모집단의 모수(예: 평균, 분산, 등)에 대한 잠정적인 주장"입니다. 따라서 통계적 가설은 앞서 예를 든 가설들과는 다르게 일정한 형식을 따라야 합니다.

 

그 형식이 바로 "귀무가설 (Null hypothesis: H0)""대립가설 (Alternative hypothesis: H1)"입니다. 통계적 가설 검정을 하려면 우선 두 가지 형식적 가설 (귀무가설"과 "대립가설)을 설정해야 합니다. 그리고 어떤 가설을 채택을 할지를 확률적으로 따져보고 둘 중 하나를 채택합니다. 그러면 귀무가설은 무엇이고 대립가설은 또 무엇인지 살펴봅시다.

 

귀무가설 (또는 영가설이라고 부르기도 합니다.)의 정의를 찾아보면 "모집단의 특성에 대해 옳다고 제안하는 잠정적인 주장"이라고 나옵니다. 무슨 말인지 감이 잘 오지 않습니다. 쉽게 풀어보겠습니다. 귀무가설은 "모집단의 모수는 OO와 같다." 또는 "모집단의 모수는 OO와 차이가 없다."라고 가정하는 것을 말합니다. 조금 더 구체적인 예를 들어보겠습니다.  1) 만약 전국 20세 이상의 평균 키가 170cm라는 주장을 통계적으로 검정한다면, 이에 대한 귀무 가설은 "20세 이상의 성인 남자의 평균 키는 170cm과 같다. (또는 차이가 없다.)"가 될 것입니다. 2) 또 제약 회사에서 개발한 신약의 효과를 검정한다면, 귀무가설은 "개발한 신약은 효과가 없다. (또는 차이가 없다)."가 됩니다. 즉 귀무가설은 "~와 차이가 없다." "~의 효과는 없다." "~와 같다."라는 형식으로 설정된다는 것을 알 수 있습니다. 

 

대립가설 (또는 대안가설이라고 부르기도 합니다.)은 "귀무가설이 거짓이라면 대안적으로 참이 되는 가설"입니다. 쉽게 설명하면 "귀무가설이 틀렸다고 판단했을 때 (기각 되었을 때), 대안적으로 선택하는 (채택되는) 가설"을 말합니다. 앞서 귀무가설을 설명할 때 든 예로 다시 설명드리면, 대립가설은 "모집단의 모수는 OO와 다르다." 또는 "모집단의 모수는 OO와 차이가 있다."라고 가정하는 것을 말합니다. 1) 만약 전국 20세 이상의 평균 키가 170cm라는 주장에 대한 대립가설은 "20세 이상의 성인 남자의 평균 키는 170cm와 다르다. (또는 차이가 있다.)"가 될 것이고, 2) 제약 회사에서 개발한 신약의 효과 검정에 대한 대립가설은 "개발한 신약은 효과가 있다. (또는 차이가 있다)."가 됩니다. 즉 대립가설은 "~와 차이가 있다." "~의 효과는 있다." "~와 다르다."라는 형식으로 이루어집니다.

 

자. 이렇게 두 가지 가설을 세웠다면, 우리가 수집한 표본 데이를 바탕으로 귀무가설이 옳은지 (채택, Accept) 아니면 옳다고 볼 수 없는지 (기각, Reject)를 판단해야 합니다. 이를 귀무가설의 유의성 검정 (Null Hypothesis Significance Testing, NHST)이라고 합니다. 우리는 표본을 추출하고 그 표본으로부터 얻은 정보를 기초로 하여 귀무가설이 참인지 거짓인지를 판정하게 됩니다. 따라서 항상 오류의 가능성이 존재합니다. 표본을 추출할 때마다 매번 통계치가 달라지기 때문입니다. 따라서 연구자는 귀무가설이 참인지 아니면 거짓인지를 검증하기 위해 수집한 표본을 바탕으로 "귀무가설이 참이라고 가정했을 때, 표본으로 부터 얻어지는 통계치 (예: 표본 평균)가 나타날(관측될) 확률"을 계산합니다. 이때 계산된 확률값을 p값이라고 합니다.

 

중심극한 정리에서 설명드린 것처럼, 모집단 분포에 상관없이, 표본의 수가 커지게 되면, 표본들의 평균들이 이루는 분포(표본평균분포)는 <모집단의 평균 μ 그리고 표준편차가σ/√n인 정규분포>에 가까워진다고 말씀드렸습니다. (중심극한정리에 대한 자세한 내용은 다음 링크 [통계 노트/통계 개념 정리] - [개념 통계] 중심극한 정리는 무엇이고 왜 중요한가? 에서 확인해 주십시오.) 우리가 이 표본평균분포를 안다면, 표본을 추출해서 얻어진 표본 평균이 표본평균분포 하에서 나타날 확률이 어느정도인가를 계산할 수 있습니다.


다시 p값으로 돌아가 봅시다. p값이 낮다는 것은 무엇을 말할까요? p값이 낮다는 것은 우리가 귀무가설이 참이라는 가정 하에서 표본을 추출했을 때, 이런 표본 평균이 관측될 확률이 낮다는 것을 뜻합니다. 즉 p 값이 매우 낮으면, 이러한 표본 통계량은 우연히 나타나기 어려운 케이스이기 때문에, 우리는 귀무가설을 채택하지 않고(기각하고), 대안적인 가설, 즉 대립가설을 채택하게 됩니다. 이에 대한 자세한 내용은 다음 포스팅에서 다루도록 하겠습니다. 

 

 

도움이 되셨다면 공감하트를 꾹 눌러주세요~!