Statistics: 제1장 통계학의 기초
질문 & 답변
1. 통계학을 정의하라.
통계학(Statistics)이란 불확실한 환경에서 그의 상황을 분석하고 불확실성을 최소화함으로써 좀더 효과적인 의사결정을 할 수 있도록 수치자료(Numerical data)를 수집, 정리, 표현, 분석, 해석하는 수학의 한 분야이다.
- 통계학의 핵심 또는 목적은 효과적인 의사결정이다.
다음 용어를 설명하라.
(1) 통계치와 모수치
통계치(표본 통계치, Statistics)란 통계량의 특정한 값을 말한다.
즉, 통계치는 모집단에서 추출된 표본의 구성원들이 소유하고 있는 변인들의 특성을 요약한 것입니다. 따라서 통계치는 모수치에 대응되며, 표본조사를 통해 모집단의 특성을 밝힌다는 것은 표본 통계치를 통해 모수치를 추정한다는 의미입니다.
모수치(Parameter)란 모수의 특정한 값을 말한다.
즉, 모수치는 모집단의 구성원들이 소유하고 있는 변인들의 특성입니다.
(2) 모집단과 표본
모집단(Population)이란 연구자가 통계분석을 하고 결론을 내리고자 하는 어떤 기본단위의 관심 있는 특정 변수에 관해 수집한 가능한 모든 관찰치를 말한다.
모집단은 우리가 무엇을 알려고 하느냐에 따라 다르게 정의되기 때문에 모집단을 명확하게 정의하는 것은 매우 중요한 일입니다.
표본(Sample)이란 통계분석을 할 목적으로 모집단에서 추출한 그의 일부분을 말한다.
간단히 말해 표본은 모집단의 다룰 수 있을만한 크기의 부분집합입니다. 표본이 얻어지면 모집단으로부터 얻은 표본에 대해 추론(Inference) 또는 외삽법(Extrapolation)을 하기 위하여 통계적 계산이 수행됩니다.
(3) 모수와 통계량
모수(Population parameter)란 모집단의 특성을 말한다.
즉, 모집단의 표준편차, 모집단의 평균 등을 모수라 할 수 있습니다.
통계량(Statistic)이란 모집단에서 추출한 표본의 특성을 말한다.
즉, 표본을 통해서 얻어진 숫자들을 정리/요약한 것들을 말합니다.
또한, 통계량이란 표본의 몇몇 특징을 수치화한 값입니다. 표본을 입력으로, 특정한 함수를 계산함으로써 그 값을 계량하게 됩니다. 좀 더 엄밀하게, 통계학에서는 표본의 분포가 무엇이든지 상관없이 정해진 함수가 있을 때에, 표본의 함수 값을 통계량으로 정의합니다.
예를 들어, 표본의 산술 평균은 데이터의 값을 모두 더하고 데이터의 개수로 나눠줌으로써 계산됩니다. 이 때, 이 산술 평균은 하나의 통계량입니다. 이처럼 구한 표본 평균은 주로 모평균을 추정할 때에 사용됩니다. 그러나 모평균은 통계량이 아닌데, 그 이유는 표본으로부터 계산되는 값이 아니기 때문입니다.
(4) 통계적 추론
통계적 추론(Statistical inference) 또는 통계적 추측은 모집단에 대한 어떤 미지의 양상을 알기 위해 통계학을 이용하여 추측하는 과정을 말합니다. 통계학의 한 부분으로서 추론 통계학이라고 불립니다. 이것은 기술 통계학(Descriptive statistics)과 구별되는 개념입니다. 추론 통계에는 도수 확률(Frequency probability)과 사전 확률(Prior probability)을 기반으로 하는 베이즈 추론의 두 학파가 있습니다.
- 최종적으로 알고 싶은 정보는 통계량이 아닌, 모수입니다.
3. 모집단 대신 표본조사에 의존하는 이유는 무엇인가?
예를 들어, 금강에 살고 있는 물고기 전체를 조사하는 경우에는 이 물고기의 전체 개체 수조차 확인이 불가능한 상황 즉, 모집단 조사 자체가 불가능한 경우가 있을 수 있고, 이와 마찬가지로 콘크리트의 강도를 알아내기 위해서 모든 건물의 콘크리트 조각에 대해서 조사하는 것도 마치 모래밭에서 바늘을 찾는 것처럼 모집단 조사 자체가 불가능한 경우에 포함된다 할 수 있습니다. 또 다른 이유로서 모집단 조사는 표본조사에 비해 막대한 시간과 돈의 손실이 발생하기 때문에 실용성이 떨어진다고도 할 수 있습니다. 이러한 이유로 모집단 조사에 의존하는 것 대신에 표본조사에 의존하는 것이라 할 수 있습니다.
4. 기술통계학과 추리통계학을 비교 설명하라.
기술통계학과 추리통계학의 정의는 다음과 같습니다.
기술통계학이란 표본이나 모집단의 측정이나 실험을 통해 수집한 통계자료를 정보로 전환하기 위하여 표, 그래프, 요약 특성치로 정리/표현/요약/해석을 통하여 자료의 특성을 규명하는 방법과 기법을 말한다.
단순히 기술통계학은 수집된 데이터를 그래프나 표로 만들어 간단하고 단순하게 설명하기 위한 통계학이라면, 추리통계학은 이러한 기술통계학을 이용하여 결론을 도출해내는 통계학, 즉 데이터를 통해서 무엇인가를 추정해내는 과정, 그 자체를 의미하는 통계학이라 할 수 있습니다.
위의 2번에서 언급된 모집단, 모수, 표본, 통계량 등을 기술통계학과 추리통계학을 이용하여 설명하면, 모집단에서 모수를 계산하는 것과 표본을 통해서 통계량을 계산하는 것 모두 기술통계학이고, 통계량을 가지고서 모수를 추리한다면 이는 기술통계학이 아닌 추리통계학입니다.
5. 추리통계학이 오늘날 통계학의 주류를 이루는 이유는 무엇인가?
모집단(대상)이 100명 정도로 비교적 적은 숫자라면 모든 대상 하나하나를 조사할 수 있지만, 만약 그 숫자가 대상 하나하나를 조사할 수 없을 정도로 많아진다면, 이러한 경우 혹여 모집단을 전부 조사한다하더라도 막대한 비용과 시간이 소요될 것입니다. 그러므로 우리는 모집단 전체에서 표본을 추출하고, 추출된 데이터를 통해 원래의 집단의 특성을 알아낼 수만 있다면 이러한 근본적인 문제를 해결할 수 있을 것입니다. 이러한 생각에서 발생한 추리통계학은 기존의 모집단 전체를 조사하여 특성을 파악하는 방식에서 탈피하여 표본 정보에 입각하여 모집단에 관한 일반적 결론을 도출하기 때문에 위에서 상술한 근본 문제를 해결할 수 있을 뿐만 아니라 기존 방식과 동일하게 효율적으로 의사 결정을 내릴 수도 있습니다. 이러한 이유로 추리통계학이 통계학 분야에서 주류를 이루게 되었다고 말할 수 있습니다.
6. 통계분석에 있어서 연역적 방법과 귀납적 방법을 비교 설명하라.
연역법(Inductive Method)과 귀납법(Deductive Method)의 정의는 다음과 같습니다.
연역법(Inductive Method)이란 미리 알고 있는 모집단에 관한 정보에 입각해서 그로부터 추출한 표본의 특성에 대해 결론을 내리는 방법이다.
즉, 일반적인 정보를 사용하여 특수한 경우에 대해 결론을 내리는 방법입니다.
귀납법(Deductive Method)이란 표본정보에 입각해서 그것이 추출된 모집단의 특성에 대해 결론을 내리는 추리통계학과 같은 개념이다.
즉, 특수한 정보에 입각해서 일반적 결론을 이끌어 내는 방법입니다.
우리가 모집단에 대해서 어느 정도 그 특성을 알고 있을 때, 즉 데이터를 이용하여 알고 있는 결론이 맞는지/틀린지를 검증하는 방법이 연역법이라면, 귀납법은 우리가 얻은 정보를 가지고서 어떤 일반적인 결론을 내는 방법이라고 할 수 있습니다.
연역적 방법의 연구는 다음의 절차를 밟습니다.
이론 -> 가설 설정 -> 연구 설계(조직화 및 측정과정 전반에 대한 설계) -> 측정 -> 자료수집 -> 자료 분석 -> 경험적 일반화
귀납적 방법의 연구는 다음의 절차를 밟습니다.
경험적 관찰 -> 가설 설정 -> 연구 설계(조직화 및 측정과정 전반에 대한 설계) -> 측정 -> 자료수집 -> 자료 분석 -> 이론
연역적인 방법의 조사는 연구자가 사전에 미리 결과에 대해서 예언하고, 이를 검증하는 과정을 밟는 것으로, 일반적인 사실에서 특수한 사실을 이끌어낸다는 것이 그 특징입니다.
이와는 다르게 귀납적인 방법의 조사는 탐구한 자료로부터 일반적인 원리를 도출해내는 방법을 의미합니다. 특수한 사실에서 일반적인 사실을 이끌어낸다는 것이 그 특징입니다.
7. 모평균과 표본평균을 조사할 때 서로 일치하지 않을 가능성이 높은데 그 이유는 무엇인가?
표본조사의 전제로서 오차 발생을 염두에 두기 때문입니다. 사실 모집단에서 표본 즉, sample을 추출하여 이에 대한 평균을 구했을지라도 이러한 sample data들이 population data들의 성격을 온전히 반영하고 있다고 말할 수는 없습니다. 극단적으로는 추출한 sample data들이 모집단의 성격을 전혀 대표하지 않는 데이터일 수도 있습니다. 그러므로 운이 좋아 오차가 설령 존재하지 않는 상황이 있을지라도 이것이 오차의 완전한 배제를 의미하지는 않기 때문에 오차 발생은 항상 존재한다고 간주하는 것이 옳습니다. 또한, 통계학의 정의 자체에서 볼 수 있듯이, 우리는 통계학을 통해 효율적인 의사 결정을 하기 위함이지 이 학문이 100% 정확한 의사결정을 하기 위해 탄생한 학문은 아니므로 이러한 오차 발생이 전제되어 있을지라도 이것이 통계학의 정의를 위배하지는 않습니다. 그러므로 이러한 관점에서 모평균과 표본평균을 조사할 때 서로 일치하지 않을 가능성이 높은 것은 어찌보면 당연한 것이라 할 수 있겠습니다.
댓글남기기