[개념 통계 20] 유의 수준이란 무엇인가?
안녕하세요. 홍박사입니다. 이번 포스팅에서는 추리 통계에서 가장 중요한 개념인 유의 수준과 가설 검정에 대해서 이야기 해보겠습니다. 먼저 이전 포스팅에서 다룬 통계적 가설 (귀무가설과 대립가설)의 개념을 대해서 다시 상기해 봅시다. 자세한 내용은 다음 포스팅을 살펴봐 주십시오. ([통계 노트/통계 개념 정리] - [개념 통계] 귀무가설과 대립가설이란 무엇인가?)
우리는 연구를 하거나 조사를 할 때 가설을 세우고 > 표본을 수집하여 > 그 가설을 검정합니다. 통계학에서 가설이란 모집단의 모수(예: 모평균)에 대한 잠정적인 주장 또는 가정을 말합니다. 가설 검정시 우리는 귀무가설 (Null hypothesis, H0)와 대립가설 (Alternative hypothesis, H1)을 설정합니다. 귀무가설(또는 영가설) 이란 "~는 집단 간 평균이 같다.", "~은 효과가 없다." 또는 "~의 평균은 OO이다."로 표현 되는 가설을 말합니다. 보통 귀무가설은 우리가 실험 계획에서 독립변수(연구자가 의도적으로 변화시기는 변수)에 의해 종속변수(독립변수에 따라 어떻게 변화하는 알고 싶은 변수)가 변하지 않는 상황을 가정합니다. 그리고 대립가설(또는 연구가설) 이란 "~는 집단 간 평균이 차이가 있다.", "~은 효과가 있다.", 또는 "~의 평균은 OO이 아니다."로 표현되는 가설을 말합니다. 보통 대립가설은 실험 계획에서 독립변수가 종속변수에 영향을 주는 상황을 가정합니다. 이 때문에 대립가설을 연구가설이라고 부르기도 합니다.
이렇게 두 가설을 설정하고, 추출한 표본(데이터)를 이용하여 얻은 어떤 관찰값(검정통계량, test statistic)을 기반으로 두 가설 중 어떤 가설을 기각하고 채택할지를 결정하는 것이 바로 가설 검정입니다. 하지만 우리가 추출한 표본은 모집단의 일부이기 때문에 항상 오류의 가능성을 가지고 있습니다. 이 때문에 통계학에서는 1종 오류 그리고 2종 오류가 존재하고, 이 통계적 오류들의 최소한의 허용 범위를 설정하여 가설 검정을 합니다.
자, 그럼 1종 오류와 2종 오류를 다시 한번 되짚어 봅시다. 1종 오류란 귀무가설이 참(효과가 없는 상황)인데 기각함(효과가 있다고 판단함)으로써 발생하는 오류를 말합니다. 2종 오류란 귀무가설이 거짓(효과가 있는 상황)인데 채택함(효과가 없다고 판단함)으로써 발생하는 오류입니다. 가설 검정에서는 1종 오류만 고려합니다. 왜냐하면 1종 오류가 2종 오류보다 더욱 중요하다고 생각하기 때문입니다. 자세한 내용은 다음 포스팅을 참고해주세요. ([통계 노트/통계 개념 정리] - [개념 통계] 1종 오류와 2종 오류란 무엇인가).
즉, 가설 검정에서는 1종 오류 (독립변수에 따른 효과가 없는데 효과가 있다고 잘못 판단하는 오류)를 최소한으로 줄여야 합니다. 그러나 무작정 1종 오류를 줄일 수 없기 때문에 1종 오류의 가능성을 보통 1% 또는 5%로 임계값(critical value)을 설정하고 귀무가설을 채택하거나 기각합니다. 이를 유의수준(Significance level)이라고 합니다.
아직 유의 수준에 대한 의미가 명확하지 않다면 좀 더 쉬운 말로 풀어 써봅시다. "유의수준 5%란 독립변수가 실제로 종속변수에 효과가 없는데 검정 결과 효과가 있다고 잘못 결론 낼 확률이 5% 미만이다."이라는 뜻 입니다. 이것도 아직 헷갈린다면 다음과 같이 표현할 수도 있습니다. "유의 수준 5%란 표본을 추출해서 나온 검정 통계량(차이 또는 효과)이 우연히 나타날 확률 5% 미만이다."라는 뜻입니다.
도움이 되셨다면 공감하트를 꾹 눌러주세요~!