본문 바로가기

통계 노트/통계 개념 정리

[개념 통계 03] 통계의 시작: 자료와 변수의 종류


안녕하세요 홍박사입니다. 이번 포스팅에서는 통계 분석에서 기초가 되는 자료(Data), 변수(Variable)에 대해 이야기해 보겠습니다. 


양적 자료와 질적 자료는 어떻게 구분할 수 있을까?


우리는 자료(Data)를 수집하고 그것을 바탕으로 통계분석을 합니다. 그렇다면 우리가 무심코 사용하는 자료 또는 데이타란 무엇을 말할까요? 데이터의 사전적 정의는 "어떠한 연구나 조사 따위의 바탕이 되는 재료"입니다. 조금더 있어 보이게 말씀드리면 데이터란 "어떠한 가치 판단을 할 수 있는 근거가 되는 재료"라고 할 수 있습니다. 데이터는 숫자, 문자, 소리, 이미지 등 다양한 형태로 존재합니다, 변수를 크게 분류하면 양적자료 (Quantitative data)와 질적자료(Qualitative data)로 구분할 수 있습니다.


양적 자료란 숫자로 얻을 수 있는 또는 표현될 수 있는 데이터를 말합니다.

양적 자료란 숫자로 얻을 수 있는 또는 표현될 수 있는 데이터를 말합니다. 우리는 생활 곳곳에서 양적 자료를 접할 수 있습니다. 예컨대 대한민국의 1인당 국민총생산(Gross, National Product, GNP)는 2016년 기준 $14,044억입니다. GNP는 국민이 일정기간에 생산한 재화나 서비스를 숫자로 표현한 데이터입니다. 더 쉬운 예를 들어볼까요? 시험성적도 양적 자료입니다. 키와 몸무게도 양적 자료입니다. 다시 말해 숫자료 나타낼 수 있는 자료는 모두 양적 자료라고 보시면 됩니다.


질적자료는 숫자로 표현할 수 없는 범주 데이터를 말합니다.

반면에 질적자료는 숫자로 표현할 수 없는 범주 데이터를 말합니다. 어떤게 있을까요? 성별(남자, 여자)은 숫자로 표현이 안되기 때문에 질적 자료입니다. 여러분의 직업군 또한 숫자로 표현될 수 없기 때문에 질적자료입니다. 여기어 이런 질문이 나올 수 있습니다. "주민등록 번호는 숫자인데 이것은 양적 자료 인가요? 아니면 질적자료인가요?" 정답은 질적자료 입니다. 주민등록번호는 숫자로 표현되어 있지만 "대상을 구분하기 위한 방식"으로 쓰이기 때문에 질적 자료입니다. 쉽게 양적 자료와 질적 자료를 구분하는 방법으로 "데이터를 더하거나 뺄 수 있는가?"를 생각하시면 됩니다. 제 몸무게와 다른 사람 몸무게는 더하기 빼기가 가능합니다. 따라서 몸무게는 양적자료 입니다. 그러나 제 주민등록번호와 다른 사람의 주민등록번호를 더하기 빼기 할 수는 없죠. 물론 할 수는 있겠지만 의미가 없겠죠. 따라서 주민등록번호는 질적자료입니다.


그렇다면 통계에서는 양적 자료와 질적 자료 중 어떤 자료를 더 많이 사용할까요? 물론 둘 다 많이 사용합니다. 그렇지만 보통 우리가 잘 알고 있는 "총합, 평균, 편차값" 등과 같은 통계값은 당연히 양적 자료를 사용해야 얻을 수 있습니다. 그렇다면 질적 자료는 어떻게 통계에 사용될까요? 질적자료는 대부분 빈도수(frequency)를 이용해서 분석을 합니다. 쉽게 말씀드리면 "이 데이터 안에 남자는 몇명, 여자는 몇명 있다." "찬성은 몇명 반대는 몇명 있다." 이렇게 범주에 들어가 있는 데이터의 빈도수를 세서 통계 분석을 합니다. 



먼저 "개체, 요인, 변수"가 뭔지 알고 자료를 수집하자! 


위에서 자료에는 양적 자료와 질적 자료가 있다는 것을 알아봤습니다. 그렇다면 통계분석을 위해 자료를 수집하려고 합니다. 무턱대고 자료를 수집하면 시간과 돈을 낭비하고 낭패를 보는 수가 있습니다. 제대로된 자료를 얻기 위해서는 개체(Item), 요인(Factor), 그리고 변수(Variable)에 대한 개념을 이해해야 합니다. 아래 그림으로 세 가지 개념을 설명해보겠습니다.






개체(Item)는 연구자 또는 관찰자가 관심을 갖는 대상

개체(item)는 연구자 또는 관찰자가 관심을 갖는 대상입니다. 다시 말해 연구 대상입니다. 알고 싶은 대상입니다. 예컨대 우리가 신입사원을 대상으로 연구를 진행한다고 한다면 개체는 신입사원이 될 것입니다.



요인(Factor)은 개체에 관한 특성중 연구자가 특별히 관심을 갖는 특성

요인(factor)은 개체에 관한 특성 중 연구자가 특별히 관심을 갖는 특성을 말합니다. 예를 들어 신입사원에 대한 경력사항, 신체조건, 경제조건 등 연구자가 알고 싶어하는 공통된 특성들의 집합이 바로 요인입니다. 



변수 (Variable)는 요인을 구성하고 있는 요소

변수는 (Variable)는 요인을 구성하고 있는 요소를 말합니다. 예컨대 경력사항이 요인이라면 변수로는 초중고 학위, 근무연수, 직무 등이 될 것 입니다. 신체 조건에 대한 변수로는 가슴둘레, 키, 몸무게, 시력, 혈액형 등이 있습니다. 여기서 중요한 것은 바로 변수는 일정한 측정 단위로 표현될 수 있어야 한다는 것입니다. 쉽게 말해 변수는 특정 단위 또는 숫자로 표현이 가능해야 합니다. 신장의 경우 cm로 몸무게는 kg으로 혈액형은 A, B, O로 표현될 수 있기 때문에 변수라고 할 수 있습니다. 


도움이 되셨다면 공감하트 꾹 눌러주세요~!