통계학 - 평균, 편차, 분산

요약

평균 : 주어진 수의 합을 개수로 나눈 값으로 대표값 중 하나
분산 : 값들이 퍼져있는 정도를 의미. 값이 클 수록 값들이 고르지 못하다는 의미
편차 : 관측값이 평균으로부터 떨어져있는 정도를 의미.

대표값

자료 전체의 특징을 하나의 수로 나타낸 값

평균

mean, average, 산술 평균, 표본 평균

모든 값의 합계(sum)를 값의 개수(sample size)로 나눈 값
다양한 값들이 있을 때 그 값들을 대표하는 한 개의 값
확률변수의 기댓값. 모평균이라고도 함

\[\bar{x} = \frac{1}{n} \times \sum_{i=1}^{n} x_i\]

중앙값

median

어떤 주어진 값들을 크기의 순서대로 정렬했을 때 전체 데이터 중 가운데에 있는 수
값이 짝수 개인 경우 2개의 중앙값의 평균값
극단적인 값이 있는 경우 중앙값이 평균값보다 유용

$P(X\leq m) > \frac{1}{2}\quad\wedge\quad P(X \geq m) > \frac{1}{2}$
(확률 분포에서 다음 식을 만족하는 실수 m이 확률분포 P의 중앙값)

최빈값

mode

가장 많이 관측되는 수, 즉 주어진 값 중에서 가장 자주 나오는 값
유일하지 않거나 값이 없을 수 있다
평균이나 중앙값을 구하기 어려운 경우에 특히 유용

산포도

편차

deviation, 편차점수

관측값에서 평균 또는 중앙값을 뺀 값으로 양수 또는 음수
값의 크기 : 관측값이 평균으로부터 얼마나 떨어져 있는가를 의미
집단 평균에서의 편차는 오류이며, 표집 평균에서의 편차는 잔차
어떤 변인 y에서 특정 사례의 편차 d
$d = y - \bar{y}$
특징
- 주어진 표본에서 편차를 모두 더하면 항상 0이 된다
  $\sum (y - \bar{y}) = 0$
- 편차 D의 표준편차는 변인 Y의 표준편차와 같다
  $s\_d = s\_y \\ \because s\_d = \sqrt{\frac{\sum (d - \bar{d})^2}{n -1}} = \sqrt{\frac{\sum (y - \bar{y})^2}{n -1}} = s\_y$

분산

variance, 변량

확률분포 또는 자료가 얼마나 퍼져 있는지를 알려 주는 수치
어떤 확률변수의 분산은 그 확률변수가 기댓값으로부터 얼마나 떨어진 곳에 분포하는지를 가늠하는 숫자
- 기댓값은 확률변수의 위치를 나타내고
- 분산은 그것이 얼마나 넓게 퍼져 있는지를 나타낸다
관측값에서 평균을 뺀 값을 제곱하고 그것을 모두 더한 후 전체 개수로 나눠서 구한다
차이값의 제곱의 평균이다. 관측값에서 평균을 뺀 값인 편차를 모두 더하면 0이 나오므로 제곱해서 더한다.
$\mu =\operatorname {E}(X)$가 확률변수 X의 기댓값(혹은 평균)일 때, 분산 $\operatorname {var}(X)$는 다음과 같이 계산한다.
$\operatorname {var}(X)=\operatorname {E}((X-\mu )^{2})$
- 편차의 제곱의 평균으로 표현할 수 있다.
- X의 분산은 보통 $\operatorname {var}(X)$ 또는 $\sigma_X^2$, 혹은 간단히 $\sigma^2$으로 표현한다. $\sigma$는 표준편차를 가리킨다

모분산($\sigma^2$)

population variance

모집단의 분산
관측값에서 모 평균을 빼고 그것을 제곱한 값을 모두 더하여 전체 데이터 수 n으로 나눈 것

표본분산($s^2$)

sample variance

표본의 분산
관측값에서 표본 평균을 빼고 제곱한 값을 모두 더한 것을 n-1로 나눈 것
분산보다는 분산의 제곱근인 표준편차가 더 자주 사용된다

표준편차

Standard deviation

: 표준이 되는 편차라는 의미

평균에 대한 오차

REF
통계의 기초인 평균, 분산, 편차

통계학 - 평균, 편차, 분산

요약

대표값

평균

중앙값

최빈값

산포도

편차

분산

모분산($\sigma^2$)

표본분산($s^2$)

표준편차

一个data和satats下的测试 04 Aug 2020

통계학 - 확률변수와 확률분포 16 Feb 2020

통계학 - 평균, 편차, 분산 03 Feb 2020

통계학 - 표본의 분포 30 Jan 2020

통계학 - 모집단과 표본추출 30 Jan 2020

통계학 - 통계학 개념 정리 24 Jan 2020