통계학 - 평균, 편차, 분산

요약

  • 평균 : 주어진 수의 합을 개수로 나눈 값으로 대표값 중 하나
  • 분산 : 값들이 퍼져있는 정도를 의미. 값이 클 수록 값들이 고르지 못하다는 의미
  • 편차 : 관측값이 평균으로부터 떨어져있는 정도를 의미.

대표값

  • 자료 전체의 특징을 하나의 수로 나타낸 값

평균

mean, average, 산술 평균, 표본 평균

  • 모든 값의 합계(sum)를 값의 개수(sample size)로 나눈 값
  • 다양한 값들이 있을 때 그 값들을 대표하는 한 개의 값
  • 확률변수의 기댓값. 모평균이라고도 함
\[\bar{x} = \frac{1}{n} \times \sum_{i=1}^{n} x_i\]

중앙값

median

  • 어떤 주어진 값들을 크기의 순서대로 정렬했을 때 전체 데이터 중 가운데에 있는 수
  • 값이 짝수 개인 경우 2개의 중앙값의 평균값
  • 극단적인 값이 있는 경우 중앙값이 평균값보다 유용

\(P(X\leq m) > \frac{1}{2}\quad\wedge\quad P(X \geq m) > \frac{1}{2}\)
(확률 분포에서 다음 식을 만족하는 실수 m이 확률분포 P의 중앙값)

최빈값

mode

  • 가장 많이 관측되는 수, 즉 주어진 값 중에서 가장 자주 나오는 값
  • 유일하지 않거나 값이 없을 수 있다
  • 평균이나 중앙값을 구하기 어려운 경우에 특히 유용

산포도

편차

deviation, 편차점수

  • 관측값에서 평균 또는 중앙값을 뺀 값으로 양수 또는 음수
  • 값의 크기 : 관측값이 평균으로부터 얼마나 떨어져 있는가를 의미
  • 집단 평균에서의 편차는 오류이며, 표집 평균에서의 편차는 잔차
  • 어떤 변인 y에서 특정 사례의 편차 d
    \(d = y - \bar{y}\)
  • 특징
    • 주어진 표본에서 편차를 모두 더하면 항상 0이 된다
      \(\sum (y - \bar{y}) = 0\)
    • 편차 D의 표준편차는 변인 Y의 표준편차와 같다
      \(s\_d = s\_y \\ \because s\_d = \sqrt{\frac{\sum (d - \bar{d})^2}{n -1}} = \sqrt{\frac{\sum (y - \bar{y})^2}{n -1}} = s\_y\)

분산

variance, 변량

  • 확률분포 또는 자료가 얼마나 퍼져 있는지를 알려 주는 수치
  • 어떤 확률변수의 분산은 그 확률변수가 기댓값으로부터 얼마나 떨어진 곳에 분포하는지를 가늠하는 숫자
    • 기댓값은 확률변수의 위치를 나타내고
    • 분산은 그것이 얼마나 넓게 퍼져 있는지를 나타낸다
  • 관측값에서 평균을 뺀 값을 제곱하고 그것을 모두 더한 후 전체 개수로 나눠서 구한다
  • 차이값의 제곱의 평균이다. 관측값에서 평균을 뺀 값인 편차를 모두 더하면 0이 나오므로 제곱해서 더한다.
  • $\mu =\operatorname {E}(X)$가 확률변수 X의 기댓값(혹은 평균)일 때, 분산 $\operatorname {var}(X)$는 다음과 같이 계산한다.
    \(\operatorname {var}(X)=\operatorname {E}((X-\mu )^{2})\)
    • 편차의 제곱의 평균으로 표현할 수 있다.
    • X의 분산은 보통 $\operatorname {var}(X)$ 또는 $\sigma_X^2$, 혹은 간단히 $\sigma^2$으로 표현한다. $\sigma$는 표준편차를 가리킨다

모분산($\sigma^2$)

population variance

  • 모집단의 분산
  • 관측값에서 모 평균을 빼고 그것을 제곱한 값을 모두 더하여 전체 데이터 수 n으로 나눈 것

표본분산($s^2$)

sample variance

  • 표본의 분산
  • 관측값에서 표본 평균을 빼고 제곱한 값을 모두 더한 것을 n-1로 나눈 것
  • 분산보다는 분산의 제곱근인 표준편차가 더 자주 사용된다

표준편차

Standard deviation

  • : 표준이 되는 편차라는 의미
    평균에 대한 오차

REF
통계의 기초인 평균, 분산, 편차