본문 바로가기

통계 노트/통계 개념 정리

[개념 통계 06] 기술 통계와 추리 통계란 무엇인가?



안녕하세요. 홍박사입니다. 통계는 데이터를 다루는 목적에 따라 크게 두 가지로 구분할 수 있습니다. 하나는 기술 통계 (Descriptive Statistics) 그리고 다른 하나는 추리 통계 (Inferential statistics)로 말입니다. 


기술 통계 (Descriptive statistics): 수집한 데이터를 요약 묘사 설명하는 통계 기법


기술 통계에서 "기술"은 영어로 Descriptive 입니다. 한국말로는 "묘사하는" 또는 "그려서 설명하는"이라는 뜻입니다. (여기서 "기술"을 "테크놀로지"라고 생각하시면 안됩니다!) 즉, 기술 통계는 우리가 수집한 데이터를 묘사하고 설명하는 통계 기법들을 말합니다. 


그렇다면 기술 통계에는 어떤 것들이 있을까요? 다시 말해 수집한 데이터를 설명하는 통계 기법이 무엇이 있을까요? 기술 통계 기법은 크게 또 두 가지로 구분할 수 있습니다. 하나는 우리가 수집한 데이터를 대표하는 값이 무엇인지 또는 어떤 값에 집중되어 있는지를 다루는 기법입니다. 조금 전문적으로 말씀드리면 데이터의 집중화 경향 (Central tendency)에 대한 기법이라고 말할 수 있습니다. 평균 (mean), 중앙값(median), 최빈값(mode) 등이 바로 집중화 경향에 속하는 것들 입니다. 


다른 하나는 우리가 수집한 데이터가 어떻게 퍼져 있는지를 설명하는 기법이 있습니다. 이를 분산도 (Variation)라고 부릅니다. 분산도는 말 그대로 데이터가 전반적으로 어떻게 분포되어 있는지 즉, 뭉쳐있는지 퍼져 있는를 설명하는 방법입니다. 대표적으로 표준편차 (standard deviation), 사분위(quartile) 값 등이 있습니다.


우리는 기술 통계 기법을 통해서 수집한 데이터의 전체적인 모양을 그릴 수 있습니다. 예컨대, 우리나라의 국민 1인당 평균 소득이 2만 달러라고 합시다. 이 값은 우리나라 국민의 소득 수준의 대표값입니다. 하지만 대표값만이 중요할까요? 아닙니다. 분산도 중요합니다. 예를 들어 국민 1인당 평균 소득이 아무리 높아도, 소득에 대한 편차도 함께 높은 값을 가지고 있다고 가정해 봅시다. 편차가 크다는 것은 소득 분포가 넓게 분표되어 있다는 뜻이고, 이는 다시 말해 국민의 소득 편차가 크다는 뜻입니다. 이를 통해 "소득의 분배가 잘 이루어지지 않고 있구나" 하고 해석할 수도 있습니다. 




추리 통계 (Inferential statistics): 수집한 데이터를 바탕으로 추론 예측하는 통계 기법


추리 통계에서 추리는 Inferential로 무엇을 추론하다라는 뜻입니다. 말 그대로 추리 통계는 수집한 데이터를 기반으로 어떠한 것을 추론하고 예측하는데 사용하는 통계 기법을 말합니다. 대표적인 추리 통계의 예로 대통령 선거 예측을 들 수 있습니다. 



출처: http://eretail.tistory.com/454


얼마전 미국 대선이 있었지요. 그때 모두들 힐러리가 당선될 것이라고 예측했습니다. 어떻게 예측을 했었죠? 바로 설문조사를 통해서였죠. 물론 예측은 맞지 않았습니다. 이 사건은 추리 통계라는 것이 결국에는 확률을 말할 뿐이지 노스트라다무스처럼 예언을 하는 것이 아니라는 것을 다시금 일깨워주었습니다. 왜냐하면 우리는 제한된 데이터 즉 표본을 사용하기 때문입니다 (이건 나중에 더 다루도록 하겠습니다.). 이 대선 결과에 대해서는 여러가지 설명이 있을 수 있습니다. 결국에는 이로써 빅데이터의 중요성이 더욱 강조되었죠. 어쨌든 추리 통계는 그 결과가 다 맞는 것이 아닐지라도 굉장히 중요한 통계 기법입니다. 



기술 통계가 중요할까? 추리 통계가 중요할까?


그렇다면! 기술 통계가 더 중요할까요? 아니면 추리 통계가 더 중요할까요? 물론 둘 다 중요하지만 개인적인 생각으로는 추리 통계가 더 중요하다고 생각합니다. 왜나하면 통계를 사용하는 중요한 목적은 바로 우리가 모르지만 알고 싶어하는 것을 예측하고 설명하는 것이기 때문입니다. 이러한 것을 우리는 추리 통계를 이용해서 확률적으로 추론할 수 있습니다. 이제 다음 포스팅부터는 기술 통계와 기본적인 추리 통계에 대해서 이야기해 보도록 하겠습니다. 


도움이 되셨다면 공감하트 꾹 눌러주세요~!