본문 바로가기

Statistics

(7)
[개념 통계 09] 분산도란 무엇인가: 범위, 사분 편차, 박스플롯 안녕하세요. 홍박사입니다. 이전 포스팅에서는 중심화 경향(Central tendency)에 대해서 살펴보았습니다. 중심화 경향은 우리가 수집한 데이터를 대표하는 통계치를 말합니다. 최빈값, 중앙값, 그리고 평균값 등이 중심화 경향 통계치라고 할 수 있습니다. 이번 포스팅에서는 기술 통계의 마지막 부분, 바로 분산도(Variation)에 대해서 알아보도록하겠습니다. 분산도: 데이터가 어떻게 분포되어 있는지를 설명하는 통계치 분산도는 중심화 경향과 달리 수집한 자료의 대표값에는 관심이 없습니다. 분산도는 영어로 Variation으로, 다양성, 변화라고 해석할 수 있습니다. 조금 추상적인 해석이지요. 여기서 Variation 은 분포도라고 해석하시면 가장 이해하기 쉽습니다. 즉, 분산도는 수집한 데이터가 어떻..
[개념 통계 06] 기술 통계와 추리 통계란 무엇인가? 안녕하세요. 홍박사입니다. 통계는 데이터를 다루는 목적에 따라 크게 두 가지로 구분할 수 있습니다. 하나는 기술 통계 (Descriptive Statistics) 그리고 다른 하나는 추리 통계 (Inferential statistics)로 말입니다. 기술 통계 (Descriptive statistics): 수집한 데이터를 요약 묘사 설명하는 통계 기법 기술 통계에서 "기술"은 영어로 Descriptive 입니다. 한국말로는 "묘사하는" 또는 "그려서 설명하는"이라는 뜻입니다. (여기서 "기술"을 "테크놀로지"라고 생각하시면 안됩니다!) 즉, 기술 통계는 우리가 수집한 데이터를 묘사하고 설명하는 통계 기법들을 말합니다. 그렇다면 기술 통계에는 어떤 것들이 있을까요? 다시 말해 수집한 데이터를 설명하는 통계..
[R 통계] R 설치하기 안녕하세요 홍박사입니다. 통계 분석을 위한 프로그램이 여러가지가 있습니다. 대표적으로 많이 사용하는 통계 프로그램은 SPSS나 SAS 그리고 R을 많이 사용합니다. 그런데 SPSS와 SAS는 상업용 프로그램입니다. 한마디로 돈을 내야 사용할 수 있는 통계 프로그램입니다. 반면에 R은 무료 입니다. SPSS와 SAS는 돈을 주고 사서 쓰는 프로그램이다 보니 당연히 사용하기 편리합니다. GUI 기반의 프로그램이라 틀릭 몇 번으로 어려운 통계 분석을 할 수 있습니다. 하지만 R은 무료다 보니 사용하는 것이 어렵습니다. R을 쓰기 위해서는 코딩을 직접해야합니다. 그래서 어렵습니다. 사실상 저도 잘 못 씁니다. 이번에 난양공대 NTU 전기전자 공학과에서는 제가 한국에서 자주 사용하던 SPSS 라이센스를 제공하고 ..
[개념 통계 04] 통계의 시작: 척도의 종류 안녕하세요. 홍박사입니다. 이번 포스팅에서는 척도에 대해서 살펴보겠습니다. 척도(Scale)는 어떠한 대상의 특성을 단위를 사용하여 정량화한 것을 말합니다. 쉽게 말하면 척도는 대상 특성의 "단위"라고 해도 크게 무방합니다. 이전 포스팅에서 살펴보았듯이 자료는 범주형(Categorical/Qualitative) 자료와 연속형 (Numerical/quantitative) 자료로 구분할 수 있습니다. 척도도 역시 "범주형 자료"와 "연속형 자료"에 따라 명목척도, 순위척도, 등간척도, 비율척도 이렇게 네 가지로 구분할 수 있습니다. 범주형 자료를 나타내는 척도로는 명목 척도(nominal scale)와 순위척도 (ordinal scale)가 있습니다. 명목 척도 (nominal scale): 말 그대로 이름..
[개념 통계 03] 통계의 시작: 자료와 변수의 종류 안녕하세요 홍박사입니다. 이번 포스팅에서는 통계 분석에서 기초가 되는 자료(Data), 변수(Variable)에 대해 이야기해 보겠습니다. 양적 자료와 질적 자료는 어떻게 구분할 수 있을까? 우리는 자료(Data)를 수집하고 그것을 바탕으로 통계분석을 합니다. 그렇다면 우리가 무심코 사용하는 자료 또는 데이타란 무엇을 말할까요? 데이터의 사전적 정의는 "어떠한 연구나 조사 따위의 바탕이 되는 재료"입니다. 조금더 있어 보이게 말씀드리면 데이터란 "어떠한 가치 판단을 할 수 있는 근거가 되는 재료"라고 할 수 있습니다. 데이터는 숫자, 문자, 소리, 이미지 등 다양한 형태로 존재합니다, 변수를 크게 분류하면 양적자료 (Quantitative data)와 질적자료(Qualitative data)로 구분할 수..
[개념 통계 02] 빅데이터의 시대 왜 통계인가? 정보기술(IT)의 시대에서 데이터기술(DT)의 시대로! 중국 최대 온라인 전자상거래 업체 알리바바그룹의 회장 마윈은 "세상은 지금 IT시대에서 DT시대로 가고 있다."고 말했습니다. 여기서 DT는 데이터 기술(Data Technology)의 약자입니다. 빅데이터(Big data)의 시대라는 말을 많이 들어보셨을 것입니다. 다양한 Smart IT 기기에서 실시간으로 수많은 정보들이 홍수처럼 쏟아지고 있습니다. 빅데이터 기술이란 이러한 형식이 서로 다른 엄청난 양의 데이터가 실시간으로 발생될 때 무질서한 것처럼 보이는 데이터 속에서 특정 또는 일정한 패턴을 찾아내는 기술이라고 할 수 있습니다. 조금더 자세히 빅데이터가 무엇인지 설명해 보도록 하겠습니다. 일반적으로 빅데이터는 "기존의 관리 및 분석 체계로는 ..
[개념 통계 01] 통계 개념을 쉽게 이해하기 개념으로 이해하는 통계: 수학 포기자도 이해할 수 있는 통계 이야기 안녕하세요. 홍박사입니다. 2016년 초부터 제가 공부해왔던 통계학을 블로그에 정리해보겠다는 생각을 했습니다. 처음부터 말씀드리면 저는 통계학을 전공하지는 않았습니다. 오히려 고등학교 때 저는 확률 통계 시험에서 전교 꼴등을 한 학생이었습니다. 그때부터 저는 "아! 확률 통계는 머리가 좋은 사람이 하는 것이구나"라고 생각하고 확률 통계를 공부하겠다는 생각을 일찌감치 접었습니다. 하지만 아이러니하게도 대학원 과정에서 연구 프로젝트를 진행하기 위해서 통계학을 다시 공부해야했고, 두 세 개의 통계학 강의를 수강했습니다. 다행히도 통계 공부를 하면서 고등학교 때 생각했던 것처럼 "통계가 꼭 머리가 좋은 사람만 할 수 있는 분야는 아니라는 것"을..