기술통계학

기술통계학

목차

  • Step 1. 기술통계학이란
  • Step 2. 위치척도
  • Step 3. 산포척도
  • Step 4. 변수의 관련성

Step 1. 기술통계학이란


기술 통계학

일회성으로 끝나는 것이 아니라 연속성을 가지고 있으며, 객관적인 실험 결과를 수집 및 요약 그리고 분석과정을 통하여 실험결과가 갖는 특성을 표현하고 의사결정을 내리는 통계학(statistics)이라 함

통계조사를 하는 방법으로

  • 전수조사 : 조사 대상이 되는 모든 대상을 상대로 조사하는 방법
    • 모집단 : 조사 대상이 되는 모든 대상
  • 표본조사 : 개개의요소들이선정될가능성을 동등하게 부여하여 객관적이고 공정하게 일부의 요소 만을 선택하여(임의 추출; random sampling) 조사
    • 표본 : 모집단으로부터 추출된 일부 대상들의 집합

전수조사에는 시간,공간적으로 많은 제약을 따르므로 보통 표본조사를 실시

Step 2. 위치척도

양적 자료의 특성을 수치에 의하여 제공하는 두 종류의 척도 중 위치척도에 대해서 공부하자.

1) 평균

중심의 위치를 나타내는데 가장 널리 쓰이는 위치척도로 모든 측정값을 더하여 전체 도수로 나누어 얻어진 수치

  • 전수조사인 경우 모집단의 평균은 모평균 이라 함 모평균

  • 표본조사인 경우 표본의 평균을 표본평균 이라 함 표본평균

  • 이상치 : 데이터의 평균에서 멀리 떨어져 있는 값으로 평균으로 중앙의 위치를 판단에 영향을 끼침.

2) 중앙값

특이값의 유무에 크게 영향을 받는 평균의 단점을 보완하는 중심 위치의 척도로서, 관찰된 측정값을 크기 순서로 나열하여 가장 가운데 놓이는 측정값을 나타냄.

3) 최빈값

가장 많은 빈도수를 가지느 측정값을 나타냄

평균과 중앙값은 오로지 하나만 취할 수 있는 반면에, 최빈값은 존재하지 않거나 1개 이상 존재할 수 있음

모든 측정값을 반영하는 경우엔 평균, 특이값이 있는 경우 중앙값이 더 좋은 중심 위치를 나타냄

4) 분위수

확률변수의 확률분포에 대한 분위수와 동일하게 표본으로 수집된 자료들을 크기 순서로 나열하여 4등분하는 척도들을 표본사분위수라 하며, 수치가 작은 쪽부터 제1사분위수, 제2사분위수, 제3사분위수라고 한다.

제2사분위수는 전체의 중앙에 위치하므로 중앙값 이라고도 한다.

Step 3. 산포척도

두 자료집단을 특징짓는 값으로 중심의 위치인 평균과 중앙값만으로 명확하게 두 자료집단을 비교할 수 없는 경우가 존재한다.

  • e.g. (2, 4, 6, 8, 10) , (6, 6, 6, 6, 6) 해당 자료의 중앙값과 평균은 6으로 모두 같지만 확연히 다른 분포 모양을 가지고 있으므로 동일한 집단이라고 하기엔 어렵다.

그래서 중심의 위치뿐 아니라 자료의 흩어진 정도를 나타내는 척도를 함께 고려를 해야한다. 이와 같이 중심의 위치로부터 자료의 흩어진 정도를 나타내는 척도를 산포척도라고 한다.

1) 범위

범위는 가장 간단한 형태의 산포도로 해당 자료의 최대값과 최솟값의 차이이다.

  • 특이값, 최대값, 그리고 최솟값에 의해 결정되므로 불확실한 경우가 존재

2) 사분위수 범위

범위가 특이값에 크게 영향을 받는다는 단점을 보완하기 위해 사용되는 척도로 제3사분위수와 제1사분위수의 차이를 말한다.

\[IQR - Q_3 - Q_1\]

데이터가 중앙값 주위에 집중할수록 사분위수 범위는 작아진다.

3) 평균편차

  • 편차 : 데이터의 값과 평균의 차이 \(d_i = x_i - {x}_{mean}\)

평균편차는 편차에 대한 절대값들의 평균을 의미한다. 범위에 비해서 특이값에 대한 영향을 덜 받음

4) 분산과 표준편차

표준편차는 가장 널리 사용하는 산포의 척도로서, 자료집단의 관찰값들이 평균을 중심으로 밀집되거나 퍼지는 정도를 나타낸다.

클수록 중심으로부터 넓게 분포되고, 작을수록 중심에 많이 밀집하는 것의미

  • 모분산 : 모집단을 구성하는 모든 자료값과 모평균의 편차제곱에 대한 평균
    • 모분산의 양의 제곱근을 모표준편차 라고 함

모분산

  • 표본분산 : 표본에서의 관측값과 표변평균의 편차제곱합을 $n-1$로 나눈 수치
    • 아래 표본분산의 양의 제곱근 $s$를 표본표준편차 라고 함

표본분산

표준편차를 사용시 단위가 측정값의 단위와 동일하기에 단위 측면에서 해석하기가 용이함.

5) 변동계수

측정 단위가 동일하지만 평균이 큰 차이를 보이는 경우, 측정 단위가 서로 다른 경우에는 산포의 척도로 표준편차를 사용하기에는 부적절하다.

e.g. 신생아의 몸무게와 어른의 몸무게에 대한 산포도를 비교 or 키와 몸무게 비교

그래서 단위에 관계없이 양수인 값을 가지며 중심으로부터 흩어진 정도를 상대적을 나타내는 척도인 변동계수(coefficient of variation)을 사용함.

\[CV = \frac {s}{\bar x}\]