본문 바로가기

통계 노트/통계 개념 정리

(21)
[개념 통계 13] 확률 변수와 확률 함수 안녕하세요. 홍박사입니다. 정말 오랜만에 포스팅을 합니다. 6개월만입니다. 핑계지만 연구 프로젝트 진행하느라 블로그에 거의 시간을 쏟지 못했습니다. 앞으로 분발하겠습니다. 지난 포스팅에서는 확률의 기본적인 정의에 대해서 알아 보았습니다. 이번 포스팅에서는 조금 더 나아가 "확률 변수"와 "확률 분포" 그리고 "확률 함수"에 대해서 이야기해 보겠습니다. 우선 변수(Variable)이란 무엇일까요? 변수란 특정 조건에 따라 변하는 값을 의미합니다. 그렇다면 확률변수(Random variable)는 무엇에 따라 변하는 값일까요? 당연히 확률에 따라 변하는 값이겠지요. 확률 변수란 무작위 실험을 했을 때, 특정 확률로 발생하는 각각의 결과를 수치적 값으로 표현하는 변수를 말합니다. 한번에 이해하기에는 조금 어렵..
[개념 통계 12] 표본공간, 사건 그리고 확률 안녕하세요. 홍박사입니다. 이번 포스팅에는 표본공간, 사건 그리고 확률의 정의에 대해서 이야기해 보겠습니다. 초반부터 말씀드리겠습니다. 지금부터 확률 통계가 조금 어렵게 느껴지거나 거리감 있게 느껴질 수 있습니다. 어떤 분야든 기본 개념을 잡는 것이 가장 중요합니다. 물론 가장 지루하고 힘든 일입니다. 그냥 띄엄띄엄 이해하고 넘어갈 수도 있습니다. 그런다고 통계 분석을 못하는 것도 아닙니다. 하지만 통계의 재미를 느끼기 위해서는 이 지루함을 참아내셔야 합니다. 자 그럼 시작해 봅시다. 우리는 어떠한 대상의 특성을 파악하기 위해서 관찰하거나 또는 측정을 합니다. 이를 통해서 우리는 관찰값 또는 측정값을 얻을 수 있습니다. 이를 표본(sample)이라고 합니다. 이건 이전 포스팅에서 다루었던 것이라 간단하게..
[개념 통계 11] 모집단과 표본이란 무엇인가? 안녕하세요. 홍박사입니다. 이전 포스팅까지는 기술통계(Descriptive Statistics)에 대한 내용을 다루었습니다. 이번 포스팅 부터는 추리통계(Inferential Statistics)에 대한 내용을 다룰 계획입니다. 기술통계에서는 수집한 자료가 어떻게 생겼는지 분석하는 기법을 다루었다면 추리 통계는 수집한 자료를 바탕으로 연구자가 세운 통계적 가설을 확률 기반으로 선택할 것인지 아니면 버릴 것인지 판단하는 통계 기법을 다루고 있습니다. 추리 통계를 이해하기 위해서는 중요한 몇몇 개념들을 반드시 이해하고 넘어가야 합니다. 이 개념들을 제대로 이해하지 못하면 앞으로 다루게될 추리 통계 기법들을 이해하기 굉장히 어렵습니다. 물론 이 개념을 정확히 이해 못해도 통계 분석을 하지 못하는 것은 아닙니다..
[개념 통계 10] 분산도란 무엇인가: 표준편차와 분산 안녕하세요. 홍박사입니다. 지난 포스팅에서는 분산도 관련 통계치 중 범위, 사분위 편차, 박스플롯에 대해서 설명드렸습니다. 이번 포스팅에서는 또 다른 분산도 관련 통계치인 표준편차와 분산에 대해서 설명드리겠습니다. 우선 편차(Deviation)란 무엇일까요? 편차(Deviation): "개별 자료"와 "전체 자료 평균"의 간 차이 우리는 일상적으로 어떤 자료들 간의 값 차이가 클 때 "편차가 크다"가 크다는 말을 많이 씁니다. 통계에서 편차란 관측치(개별 자료)와 전체 자료 평균(전체 자료 집합) 간 차이를 말합니다. 즉, 개별 자료가 평균으로 부터 얼마만큼 떨어져 있는가?를 나타내는 값이 바로 편차입니다. "편차가 크다"는 말은 개별 자료들이 전체 평균과 많이 떨어져 있다는 의미입니다. 더 쉽게 말씀드..
[개념 통계 09] 분산도란 무엇인가: 범위, 사분 편차, 박스플롯 안녕하세요. 홍박사입니다. 이전 포스팅에서는 중심화 경향(Central tendency)에 대해서 살펴보았습니다. 중심화 경향은 우리가 수집한 데이터를 대표하는 통계치를 말합니다. 최빈값, 중앙값, 그리고 평균값 등이 중심화 경향 통계치라고 할 수 있습니다. 이번 포스팅에서는 기술 통계의 마지막 부분, 바로 분산도(Variation)에 대해서 알아보도록하겠습니다. 분산도: 데이터가 어떻게 분포되어 있는지를 설명하는 통계치 분산도는 중심화 경향과 달리 수집한 자료의 대표값에는 관심이 없습니다. 분산도는 영어로 Variation으로, 다양성, 변화라고 해석할 수 있습니다. 조금 추상적인 해석이지요. 여기서 Variation 은 분포도라고 해석하시면 가장 이해하기 쉽습니다. 즉, 분산도는 수집한 데이터가 어떻..
[개념 통계 08] 중심화 경향이란 무엇인가 안녕하세요. 홍박사입니다. 기술 통계는 크게 중심화 경향과 분산도로 구분할 수 있습니다. 이번 포스팅에서는 중심화 경향이 무엇인지 한 번 이야기해 보도록하겠습니다. 중심화 경향은 영어로 Central tendency 입니다. 말 그대로 "중심으로 모이는 경향"을 뜻합니다. 더 풀어서 이야기 하자면, 자료가 주로 어떤 값에 모여있는지를 나타내는 통계를 일컬어 중심화 경향이라고 합니다. 중심화 경향: 수집한 자료 전체를 대표하는 값이 무엇인지 나타내는 통계 (대표값) "나라의 중심" 또는 "중심 세력"이란 말을 들어보셨을 겁니다. 중심에 있다는 뜻은 수집한 자료 전체를 대표한다는 의미를 내포합니다. 즉 중심화 경향은 전체 자료를 대표하는 값을 구할 때에서 사용됩니다. 중심화 경향의 대표적인 통계치들은 최빈값..
[개념 통계 07] 도수 분포표와 히스토그램 안녕하세요. 홍박사입니다. 이전 포스트에서는 기술 통계와 추리 통계가 무엇인지 이야기 해보았습니다. 다시 한번 간단하게 요약하자면 기술 통계는 우리가 수집한 데이터가 어떻게 생겼는지 (대표값은 무엇인지? 어떻게 분포하고 있는지?)를 파악하는데 사용하는 통계 기법이라고 할 수 있고, 추리 통계는 그 수집한 데이터를 이용해서 우리가 예측하고 싶어하는 것을 확률적으로 판단하는 통계 기법들이라고 할 수 있습니다. ● [통계 노트/통계 개념 정리] - [개념 통계] 기술 통계와 추리 통계란 무엇인가? 이번 포스팅에는 기술 통계 기법 중에서 하나인 도수 분포표(frequency table)와 히스토그램(histogram)에 대해서 알아보겠습니다. 도수 분포표와 히스토그램은 중고등학교 과정을 무사히 마치셨다면 매우 ..
[개념 통계 06] 기술 통계와 추리 통계란 무엇인가? 안녕하세요. 홍박사입니다. 통계는 데이터를 다루는 목적에 따라 크게 두 가지로 구분할 수 있습니다. 하나는 기술 통계 (Descriptive Statistics) 그리고 다른 하나는 추리 통계 (Inferential statistics)로 말입니다. 기술 통계 (Descriptive statistics): 수집한 데이터를 요약 묘사 설명하는 통계 기법 기술 통계에서 "기술"은 영어로 Descriptive 입니다. 한국말로는 "묘사하는" 또는 "그려서 설명하는"이라는 뜻입니다. (여기서 "기술"을 "테크놀로지"라고 생각하시면 안됩니다!) 즉, 기술 통계는 우리가 수집한 데이터를 묘사하고 설명하는 통계 기법들을 말합니다. 그렇다면 기술 통계에는 어떤 것들이 있을까요? 다시 말해 수집한 데이터를 설명하는 통계..