본문 바로가기

통계 노트

(27)
[개념 통계 13] 확률 변수와 확률 함수 안녕하세요. 홍박사입니다. 정말 오랜만에 포스팅을 합니다. 6개월만입니다. 핑계지만 연구 프로젝트 진행하느라 블로그에 거의 시간을 쏟지 못했습니다. 앞으로 분발하겠습니다. 지난 포스팅에서는 확률의 기본적인 정의에 대해서 알아 보았습니다. 이번 포스팅에서는 조금 더 나아가 "확률 변수"와 "확률 분포" 그리고 "확률 함수"에 대해서 이야기해 보겠습니다. 우선 변수(Variable)이란 무엇일까요? 변수란 특정 조건에 따라 변하는 값을 의미합니다. 그렇다면 확률변수(Random variable)는 무엇에 따라 변하는 값일까요? 당연히 확률에 따라 변하는 값이겠지요. 확률 변수란 무작위 실험을 했을 때, 특정 확률로 발생하는 각각의 결과를 수치적 값으로 표현하는 변수를 말합니다. 한번에 이해하기에는 조금 어렵..
[개념 통계 12] 표본공간, 사건 그리고 확률 안녕하세요. 홍박사입니다. 이번 포스팅에는 표본공간, 사건 그리고 확률의 정의에 대해서 이야기해 보겠습니다. 초반부터 말씀드리겠습니다. 지금부터 확률 통계가 조금 어렵게 느껴지거나 거리감 있게 느껴질 수 있습니다. 어떤 분야든 기본 개념을 잡는 것이 가장 중요합니다. 물론 가장 지루하고 힘든 일입니다. 그냥 띄엄띄엄 이해하고 넘어갈 수도 있습니다. 그런다고 통계 분석을 못하는 것도 아닙니다. 하지만 통계의 재미를 느끼기 위해서는 이 지루함을 참아내셔야 합니다. 자 그럼 시작해 봅시다. 우리는 어떠한 대상의 특성을 파악하기 위해서 관찰하거나 또는 측정을 합니다. 이를 통해서 우리는 관찰값 또는 측정값을 얻을 수 있습니다. 이를 표본(sample)이라고 합니다. 이건 이전 포스팅에서 다루었던 것이라 간단하게..
[R 통계] 데이터 프레임 열 편집하기 저는 R로 전향한지 얼마 되지 않았습니다. R을 쓸 때 익숙하지 않아서 가장 힘든 것이 바로 데이터 편집입니다. 어떤 데이터를 분석할 때 가장 시간이 많이 드는 부분은 통계 분석이나 그래프 그릴 때가 아니라 "데이터를 분석하기 좋게 편집할 때"입니다. 그래서 이번 포스팅부터 R에서 데이터 편집하는 방법을 정리해 보려고 합니다. 데이터 형식 중에서 우리가 가장 많이 쓰는 데이터 프레임(data frame)을 쓰도록 하겠습니다. 데이터 프레임 형식은 우리에게 익숙한 엑셀시트 형식이라고 보시면 됩니다. 이 포스팅에 사용된 예는 R graphics Cookbook 15장: 데이터 틀 잡기를 많이 참고하였습니다. 데이터 프레임에 열 추가하기: 데이터프레임$열이름
[개념 통계 11] 모집단과 표본이란 무엇인가? 안녕하세요. 홍박사입니다. 이전 포스팅까지는 기술통계(Descriptive Statistics)에 대한 내용을 다루었습니다. 이번 포스팅 부터는 추리통계(Inferential Statistics)에 대한 내용을 다룰 계획입니다. 기술통계에서는 수집한 자료가 어떻게 생겼는지 분석하는 기법을 다루었다면 추리 통계는 수집한 자료를 바탕으로 연구자가 세운 통계적 가설을 확률 기반으로 선택할 것인지 아니면 버릴 것인지 판단하는 통계 기법을 다루고 있습니다. 추리 통계를 이해하기 위해서는 중요한 몇몇 개념들을 반드시 이해하고 넘어가야 합니다. 이 개념들을 제대로 이해하지 못하면 앞으로 다루게될 추리 통계 기법들을 이해하기 굉장히 어렵습니다. 물론 이 개념을 정확히 이해 못해도 통계 분석을 하지 못하는 것은 아닙니다..
[SPSS] 기술통계 분석하기 이번 포스팅에서는 SPSS를 이용해서 기술통계 분석하는 방법에 대해서 다뤄보겠습니다. SPSS의 장점은 클릭 몇 번으로 통계값을 쉽게 얻을 수 있다는 점입니다. 기술 통계분석도 아주 간단하고 빠른 시간에 구할 수 있습니다. 기술 통계값에 어떤 것이 있는지 알고 싶으신 분은 다음 포스팅을 참고하시면 됩니다. [통계 노트/통계 개념 정리] - [개념 통계] 도수 분포표와 히스토그램[통계 노트/통계 개념 정리] - [개념 통계] 중심화 경향이란 무엇인가[통계 노트/통계 개념 정리] - [개념 통계] 분산도란 무엇인가: 범위, 사분 편차, 박스플롯[통계 노트/통계 개념 정리] - [개념 통계] 분산도란 무엇인가: 표준편차와 분산 이번 포스팅에서 기술 통계분석에 사용한 자료를 첨부하였습니다. 분석하고 싶은 파일을..
[개념 통계 10] 분산도란 무엇인가: 표준편차와 분산 안녕하세요. 홍박사입니다. 지난 포스팅에서는 분산도 관련 통계치 중 범위, 사분위 편차, 박스플롯에 대해서 설명드렸습니다. 이번 포스팅에서는 또 다른 분산도 관련 통계치인 표준편차와 분산에 대해서 설명드리겠습니다. 우선 편차(Deviation)란 무엇일까요? 편차(Deviation): "개별 자료"와 "전체 자료 평균"의 간 차이 우리는 일상적으로 어떤 자료들 간의 값 차이가 클 때 "편차가 크다"가 크다는 말을 많이 씁니다. 통계에서 편차란 관측치(개별 자료)와 전체 자료 평균(전체 자료 집합) 간 차이를 말합니다. 즉, 개별 자료가 평균으로 부터 얼마만큼 떨어져 있는가?를 나타내는 값이 바로 편차입니다. "편차가 크다"는 말은 개별 자료들이 전체 평균과 많이 떨어져 있다는 의미입니다. 더 쉽게 말씀드..
[개념 통계 09] 분산도란 무엇인가: 범위, 사분 편차, 박스플롯 안녕하세요. 홍박사입니다. 이전 포스팅에서는 중심화 경향(Central tendency)에 대해서 살펴보았습니다. 중심화 경향은 우리가 수집한 데이터를 대표하는 통계치를 말합니다. 최빈값, 중앙값, 그리고 평균값 등이 중심화 경향 통계치라고 할 수 있습니다. 이번 포스팅에서는 기술 통계의 마지막 부분, 바로 분산도(Variation)에 대해서 알아보도록하겠습니다. 분산도: 데이터가 어떻게 분포되어 있는지를 설명하는 통계치 분산도는 중심화 경향과 달리 수집한 자료의 대표값에는 관심이 없습니다. 분산도는 영어로 Variation으로, 다양성, 변화라고 해석할 수 있습니다. 조금 추상적인 해석이지요. 여기서 Variation 은 분포도라고 해석하시면 가장 이해하기 쉽습니다. 즉, 분산도는 수집한 데이터가 어떻..
[개념 통계 08] 중심화 경향이란 무엇인가 안녕하세요. 홍박사입니다. 기술 통계는 크게 중심화 경향과 분산도로 구분할 수 있습니다. 이번 포스팅에서는 중심화 경향이 무엇인지 한 번 이야기해 보도록하겠습니다. 중심화 경향은 영어로 Central tendency 입니다. 말 그대로 "중심으로 모이는 경향"을 뜻합니다. 더 풀어서 이야기 하자면, 자료가 주로 어떤 값에 모여있는지를 나타내는 통계를 일컬어 중심화 경향이라고 합니다. 중심화 경향: 수집한 자료 전체를 대표하는 값이 무엇인지 나타내는 통계 (대표값) "나라의 중심" 또는 "중심 세력"이란 말을 들어보셨을 겁니다. 중심에 있다는 뜻은 수집한 자료 전체를 대표한다는 의미를 내포합니다. 즉 중심화 경향은 전체 자료를 대표하는 값을 구할 때에서 사용됩니다. 중심화 경향의 대표적인 통계치들은 최빈값..