본문 바로가기

통계 노트/통계 개념 정리

[개념 통계 02] 빅데이터의 시대 왜 통계인가?


정보기술(IT)의 시대에서 데이터기술(DT)의 시대로!



중국 최대 온라인 전자상거래 업체 알리바바그룹의 회장 마윈은 "세상은 지금 IT시대에서 DT시대로 가고 있다."고 말했습니다. 여기서 DT는 데이터 기술(Data Technology)의 약자입니다. 빅데이터(Big data)의 시대라는 말을 많이 들어보셨을 것입니다. 다양한 Smart  IT 기기에서 실시간으로 수많은 정보들이 홍수처럼 쏟아지고 있습니다. 빅데이터 기술이란 이러한 형식이 서로 다른 엄청난 양의 데이터가 실시간으로 발생될 때 무질서한 것처럼 보이는 데이터 속에서 특정 또는 일정한 패턴을 찾아내는 기술이라고 할 수 있습니다. 

 

조금더 자세히 빅데이터가 무엇인지 설명해 보도록 하겠습니다일반적으로 빅데이터는 "기존의 관리 및 분석 체계로는 감당할 수 없을 정도의 거대한 데이터의 집합을 지칭"합니다빅데이터의 특성은 크게 세 가지 정도로 나눌 수 있습니다.


첫번째 특징은 당연하게도 데이터의 규모 (Volume) 입니다.

트위터(Twitter)에서는 하루 평균 1억 건 이상의 데이터가 생성되고, 유튜브(Youtube)의 하루 평균 동영상 재생건수는 40억 회를 훌쩍 넘습니다이제 다루는 데이터의 규모가 커져 제타바이트 시대로 진입하고 있습니다


두 번재 특징은 데이터 종류의 다양성 (Variety)입니다

소셜네트워크 (SNS)의 발달로 텍스트 뿐만아니라 오디오, 비디오, 위치 정보 등 다양한 형식의 데이터가 엄청나게 발생하고 있습니다즉 한 가지 데이터 형식이 아닌 다양한 형식의 데이터를 갖는 것이 빅데이터의 특성입니다빅데이터는 문자, 영상, 위치 데이터 등 다양한 데이터 종류가 존재하기 때문에 비정형화된 데이터 특징을 가지고 있다고 볼 수 있습니다.

 

세 번재 특징은 속도 (Velocity)입니다.

빅데이터는 실시간으로 데이터가 생성되고 이동됩니다.  이 때문에 빅데이터 기술은 대용량의 데이터를 빠르게 처리하고 분석할 수 있어야 합니다이러한 빅데이터는 공공 산업, 마케팅, 기업 경영, 보건 등 다양한 분야에 활용될 수 있고, 현재 많은 분야에서 빅데이터를 활용하려고 노력하고 있습니다. 대표적인 빅데이터 활용 사례로 구글 트렌드 분석 (http://www.google.co.kr/trends/)을 들 수 있을 겁니다. 구글 트렌드에 들어가서 "Big data"로 검색을 해보면 Big data의 관심도가 2011년 이후에 급격하게 증가하고 있는 것을 보여줍니다. 또한 그 키워드가 어느 지역 국가에서 관심이 많은지 그리고 관련 키워드는 어떤 것들이 있는지를 실시간으로 분석해 줍니다. 이 외에도 빅데이터의 활용 범위는 무궁무진하다고 볼 수 있습니다






그렇다면 왜 통계인가?

 


간단히 말씀드리면 통계학은 데이터에서 의미를 찾아내는 방법을 다루는 학문입니다. 따라서 빅데이터 기술의 기본은 바로 통계학입니다. 다소 과장해서 말씀드리면 데이터 기술의 시대에 통계학은 반드시 익혀야할 학문 분야입니다. 물론 모두가 빅데이터를 처리하는 데이터 사이언티스트(Data scientist)가 될 수는 없습니다. 그러나 적어도 통계적 지식을 바탕으로 데이터를 해석하고 활용하는 것은 일반인들도 할 수 있다고 생각합니다.

 

통계학은 영어로 Statistics입니다. 라틴어의 Status (국가)에서 유래되었습니다. 다시 말해 통계학은 나라를 다스리기 위해 필요한 인구(Census, Population)를 다루는 일이라고 할 수 있을 겁니다. 현대에 와서는 통계학을 다음과 같은 다양한 이름으로 부르고 있습니다. 대학교에 들어가서 아래와 같은 전공을 선택하셨다면 그냥 통계학을 공부하신다고 보시면 됩니다.


□ Data Information Science 

 Data Science 

 Decision-making Science

 Statistical Information Science 

 Statistical Science  

 Informative Statistical Science

 Information Management Science

  ....

 

그렇다면 통계학은 왜 그리고 어떻게 쓰일까요? 

아래 그림은 경험과학의 일반적인 연구절차입니다. 연구자는 어떤 현상에 대해서 가설을 설정하고 그것을 확인하기 위해 통계적 가설을 설정합니다. 다음으로 통계적 가설을 검증하기 위해 실험을 설계하여 연구자가 설정한 가설이 참인지 거짓인지 통계적으 검정하는 것이 일반적인 연구 절차입니다. 




경험 과학은 실험 또는 관찰을 통해 수집한 자료(경험)를 바탕으로 일반화된 이론을 내 놓습니다. 이론 수학처럼 책상에 앉아서 머리 속으로 이론을 만들어 내는 것이 아니라 연구자가 여러 데이터를 수집하여 그 속에 담겨있는 의미와 원리를 찾아야한다는 것입니다. 대표적으로 경험과학 분야로 사회 과학을 들 수 있습니다. 좀 이상한 질문이지만 사회 과학은 과학일까요? 인문학은 보통 우리가 생각하는 공학이나 순수 과학과는 달라서 과학이라고 부르기 힘들지 않을까요? 그렇지 않습니다. 사회 과학도 과학이죠. 어떤 분야가 "과학"이라는 명칭을 얻기 위해서는 반드시 수학적 논리가 필요합니다. 다시 말해 과학이 되기 위해서는 어떠한 현상을 수학적으로 설명 가능해야 한다는 것 입니다. 수학적으로 어떤 현상을 설명 가능하다는 것은 바로 어떤 현상을 예측을 할 수 있다는 것과 같은 말입니다.  과학의 언어는 수학입니다. 


사회 과학은 통계학 덕분에 과학이 될 수 있었습니다. 

왜냐하면 "통계는 수집한 자료(data)를 이용하여 연구가설(hypothesis)의 참 거짓을 판정하는 수학적 또는 확률적 논리를 제공"하기 때문입니다. 우리는 통계를 사용하여 사회적 현상 또는 인간 심리를 수학적으로 설명할 수 있습니다. 통계를 이용하면 보이지 않는 사회 현상과 인간 심리를 알 수 있다는 사실이 재밌지 않습니까? 자 그러면 다음 포스팅 부터는 본격적으로 기초적인 통계 개념에 대해서 말씀드리도록하겠습니다.


도움이 되셨다면 공감하트 꾹 눌러주세요~!