요약
- 평균 : 주어진 수의 합을 개수로 나눈 값으로 대표값 중 하나
- 분산 : 값들이 퍼져있는 정도를 의미. 값이 클 수록 값들이 고르지 못하다는 의미
- 편차 : 관측값이 평균으로부터 떨어져있는 정도를 의미.
대표값
- 자료 전체의 특징을 하나의 수로 나타낸 값
평균
mean, average, 산술 평균, 표본 평균
- 모든 값의 합계(sum)를 값의 개수(sample size)로 나눈 값
- 다양한 값들이 있을 때 그 값들을 대표하는 한 개의 값
- 확률변수의 기댓값. 모평균이라고도 함
중앙값
median
- 어떤 주어진 값들을 크기의 순서대로 정렬했을 때 전체 데이터 중 가운데에 있는 수
- 값이 짝수 개인 경우 2개의 중앙값의 평균값
- 극단적인 값이 있는 경우 중앙값이 평균값보다 유용
\(P(X\leq m) > \frac{1}{2}\quad\wedge\quad P(X \geq m) > \frac{1}{2}\)
(확률 분포에서 다음 식을 만족하는 실수 m이 확률분포 P의 중앙값)
최빈값
mode
- 가장 많이 관측되는 수, 즉 주어진 값 중에서 가장 자주 나오는 값
- 유일하지 않거나 값이 없을 수 있다
- 평균이나 중앙값을 구하기 어려운 경우에 특히 유용
산포도
편차
deviation, 편차점수
- 관측값에서 평균 또는 중앙값을 뺀 값으로 양수 또는 음수
- 값의 크기 : 관측값이 평균으로부터 얼마나 떨어져 있는가를 의미
- 집단 평균에서의 편차는 오류이며, 표집 평균에서의 편차는 잔차
- 어떤 변인 y에서 특정 사례의 편차 d
\(d = y - \bar{y}\) - 특징
- 주어진 표본에서 편차를 모두 더하면 항상 0이 된다
\(\sum (y - \bar{y}) = 0\) - 편차 D의 표준편차는 변인 Y의 표준편차와 같다
\(s\_d = s\_y \\ \because s\_d = \sqrt{\frac{\sum (d - \bar{d})^2}{n -1}} = \sqrt{\frac{\sum (y - \bar{y})^2}{n -1}} = s\_y\)
- 주어진 표본에서 편차를 모두 더하면 항상 0이 된다
분산
variance, 변량
- 확률분포 또는 자료가 얼마나 퍼져 있는지를 알려 주는 수치
- 어떤 확률변수의 분산은 그 확률변수가 기댓값으로부터 얼마나 떨어진 곳에 분포하는지를 가늠하는 숫자
- 기댓값은 확률변수의 위치를 나타내고
- 분산은 그것이 얼마나 넓게 퍼져 있는지를 나타낸다
- 관측값에서 평균을 뺀 값을 제곱하고 그것을 모두 더한 후 전체 개수로 나눠서 구한다
- 차이값의 제곱의 평균이다. 관측값에서 평균을 뺀 값인 편차를 모두 더하면 0이 나오므로 제곱해서 더한다.
- $\mu =\operatorname {E}(X)$가 확률변수 X의 기댓값(혹은 평균)일 때, 분산 $\operatorname {var}(X)$는 다음과 같이 계산한다.
\(\operatorname {var}(X)=\operatorname {E}((X-\mu )^{2})\)- 편차의 제곱의 평균으로 표현할 수 있다.
- X의 분산은 보통 $\operatorname {var}(X)$ 또는 $\sigma_X^2$, 혹은 간단히 $\sigma^2$으로 표현한다. $\sigma$는 표준편차를 가리킨다
모분산($\sigma^2$)
population variance
- 모집단의 분산
- 관측값에서 모 평균을 빼고 그것을 제곱한 값을 모두 더하여 전체 데이터 수 n으로 나눈 것
표본분산($s^2$)
sample variance
- 표본의 분산
- 관측값에서 표본 평균을 빼고 제곱한 값을 모두 더한 것을 n-1로 나눈 것
- 분산보다는 분산의 제곱근인 표준편차가 더 자주 사용된다
표준편차
Standard deviation
-
- : 표준이 되는 편차라는 의미
- 평균에 대한 오차
-
一个data和satats下的测试 04 Aug 2020
-
통계학 - 확률변수와 확률분포 16 Feb 2020
-
통계학 - 평균, 편차, 분산 03 Feb 2020
-
통계학 - 표본의 분포 30 Jan 2020
-
통계학 - 모집단과 표본추출 30 Jan 2020
-
통계학 - 통계학 개념 정리 24 Jan 2020