본문 바로가기

통계

(19)
[개념 통계 18] 귀무가설과 대립가설이란 무엇인가? 안녕하세요 홍박사입니다. 이번 포스팅에서는 통계적 가설검정에 대해서 다루어 볼 겁니다. 우선 가설을 어떻게 정의할 수 있을까요? [진실이라고 확증할 수는 없지만 "아마도 그럴 것이다." 라는 잠정적인 주장]을 가설이라고 말할 수 있을 것 같습니다. 연구자들은 연구하고자 하는 대상이 나타내는 현상을 관찰한 후에, 그 현상을 설명하는 가설을 설정합니다. 그리고 그 가설(Hypothesis)을 통계적인 방식으로 검정(Testing)합니다. 우리는 이를 통계적 가설검정(Hypothesis testing)이라고 부릅니다. 우리가 일반적으로 생각하는 가설은 아마 다음과 같은 것이 아닐까요. "지구는 둥글 것이다." 또는 "태양이 지구를 돌 것이다." 하지만 통계적 가설 검정은 어떠한 큰 이론을 제안하는 가설이 아닙..
[개념 통계 17] 중심극한 정리는 무엇이고 왜 중요한가? 안녕하세요. 홍박사입니다. 정말 오랜만에 포스팅을 합니다. 바쁘다는 핑계로 계속 포스팅을 미뤄오다가 마음을 다잡고 짧은 호흡으로라도 포스팅을 하는 것이 좋을 것 같다는 생각이 들었습니다. 부족한 글이지만 지금까지 이전 포스팅을 읽어주신 분들에게 감사드립니다. 이번 포스팅에서는 중심극한정리(Central Limit Theorem)가 무엇이고, 또 그것이 왜 중요한지에 대해서 말씀드리려고 합니다. 중심극한정리는 많이 들어보셨을 것입니다. 간략하게 중심극한정리를 설명하면 아래와 같습니다. 모집단이 「평균이 μ이고 표준편차가 σ인 임의의 분포」을 이룬다고 할 때, 이 모집단으로부터 추출된 표본의 「표본의 크기 n이 충분히 크다」면 표본 평균들이 이루는 분포는 「평균이 μ 이고 표준편차가σ/√n인 정규분포」에 근..
[개념 통계 15] 정규분포의 확률 계산 안녕하세요. 홍박사입니다. 이번 포스팅에서는 정규분포를 이용해서 확률을 계산하는 방법을 다루어보겠습니다. 사실 이 부분은 고등학교 과정에서 대부분 다루는 부분이라 이해하기 쉬우실 것 입니다. 우리가 조사하고자 하는 대상 X(예: 수능시험 점수)가 모수값 (평균 μ, 표준편차 s)을 가지는 정규분포를 이룬다고 합시다. 조사 대상 X (수능시험 점수) 내에서 나올 수 있는 값 x(내 시험점수)가 범위 (a, b)에 속할 확률은 정규 분포 함수를 a에서 b까지 적분한 값, 즉 면적 값입니다. 그렇다면 어떻게 정규분포의 면적값을 계산할 수 있을까요? 간단합니다. 정규분포함수 f(x)를 a-b까지 적분을 하면 됩니다. 그런데 이전 포스팅에서도 말씀드린 것처럼 조사 대상마다 서로다른 정규분포를 가지고 있기때문에 매..
[개념 통계 13] 확률 변수와 확률 함수 안녕하세요. 홍박사입니다. 정말 오랜만에 포스팅을 합니다. 6개월만입니다. 핑계지만 연구 프로젝트 진행하느라 블로그에 거의 시간을 쏟지 못했습니다. 앞으로 분발하겠습니다. 지난 포스팅에서는 확률의 기본적인 정의에 대해서 알아 보았습니다. 이번 포스팅에서는 조금 더 나아가 "확률 변수"와 "확률 분포" 그리고 "확률 함수"에 대해서 이야기해 보겠습니다. 우선 변수(Variable)이란 무엇일까요? 변수란 특정 조건에 따라 변하는 값을 의미합니다. 그렇다면 확률변수(Random variable)는 무엇에 따라 변하는 값일까요? 당연히 확률에 따라 변하는 값이겠지요. 확률 변수란 무작위 실험을 했을 때, 특정 확률로 발생하는 각각의 결과를 수치적 값으로 표현하는 변수를 말합니다. 한번에 이해하기에는 조금 어렵..
[개념 통계 12] 표본공간, 사건 그리고 확률 안녕하세요. 홍박사입니다. 이번 포스팅에는 표본공간, 사건 그리고 확률의 정의에 대해서 이야기해 보겠습니다. 초반부터 말씀드리겠습니다. 지금부터 확률 통계가 조금 어렵게 느껴지거나 거리감 있게 느껴질 수 있습니다. 어떤 분야든 기본 개념을 잡는 것이 가장 중요합니다. 물론 가장 지루하고 힘든 일입니다. 그냥 띄엄띄엄 이해하고 넘어갈 수도 있습니다. 그런다고 통계 분석을 못하는 것도 아닙니다. 하지만 통계의 재미를 느끼기 위해서는 이 지루함을 참아내셔야 합니다. 자 그럼 시작해 봅시다. 우리는 어떠한 대상의 특성을 파악하기 위해서 관찰하거나 또는 측정을 합니다. 이를 통해서 우리는 관찰값 또는 측정값을 얻을 수 있습니다. 이를 표본(sample)이라고 합니다. 이건 이전 포스팅에서 다루었던 것이라 간단하게..
[R 통계] 데이터 프레임 열 편집하기 저는 R로 전향한지 얼마 되지 않았습니다. R을 쓸 때 익숙하지 않아서 가장 힘든 것이 바로 데이터 편집입니다. 어떤 데이터를 분석할 때 가장 시간이 많이 드는 부분은 통계 분석이나 그래프 그릴 때가 아니라 "데이터를 분석하기 좋게 편집할 때"입니다. 그래서 이번 포스팅부터 R에서 데이터 편집하는 방법을 정리해 보려고 합니다. 데이터 형식 중에서 우리가 가장 많이 쓰는 데이터 프레임(data frame)을 쓰도록 하겠습니다. 데이터 프레임 형식은 우리에게 익숙한 엑셀시트 형식이라고 보시면 됩니다. 이 포스팅에 사용된 예는 R graphics Cookbook 15장: 데이터 틀 잡기를 많이 참고하였습니다. 데이터 프레임에 열 추가하기: 데이터프레임$열이름
[개념 통계 10] 분산도란 무엇인가: 표준편차와 분산 안녕하세요. 홍박사입니다. 지난 포스팅에서는 분산도 관련 통계치 중 범위, 사분위 편차, 박스플롯에 대해서 설명드렸습니다. 이번 포스팅에서는 또 다른 분산도 관련 통계치인 표준편차와 분산에 대해서 설명드리겠습니다. 우선 편차(Deviation)란 무엇일까요? 편차(Deviation): "개별 자료"와 "전체 자료 평균"의 간 차이 우리는 일상적으로 어떤 자료들 간의 값 차이가 클 때 "편차가 크다"가 크다는 말을 많이 씁니다. 통계에서 편차란 관측치(개별 자료)와 전체 자료 평균(전체 자료 집합) 간 차이를 말합니다. 즉, 개별 자료가 평균으로 부터 얼마만큼 떨어져 있는가?를 나타내는 값이 바로 편차입니다. "편차가 크다"는 말은 개별 자료들이 전체 평균과 많이 떨어져 있다는 의미입니다. 더 쉽게 말씀드..
[개념 통계 09] 분산도란 무엇인가: 범위, 사분 편차, 박스플롯 안녕하세요. 홍박사입니다. 이전 포스팅에서는 중심화 경향(Central tendency)에 대해서 살펴보았습니다. 중심화 경향은 우리가 수집한 데이터를 대표하는 통계치를 말합니다. 최빈값, 중앙값, 그리고 평균값 등이 중심화 경향 통계치라고 할 수 있습니다. 이번 포스팅에서는 기술 통계의 마지막 부분, 바로 분산도(Variation)에 대해서 알아보도록하겠습니다. 분산도: 데이터가 어떻게 분포되어 있는지를 설명하는 통계치 분산도는 중심화 경향과 달리 수집한 자료의 대표값에는 관심이 없습니다. 분산도는 영어로 Variation으로, 다양성, 변화라고 해석할 수 있습니다. 조금 추상적인 해석이지요. 여기서 Variation 은 분포도라고 해석하시면 가장 이해하기 쉽습니다. 즉, 분산도는 수집한 데이터가 어떻..