표본을 분석하기 위해서 가장 쉽게 파악할 수 있는 표본평균, 표본분산, 표본비율을 알아야 한다.
eg 성적 비교
- A - 영어 : 80점 / 평균 90점
- B - 수학 : 60점 / 평균 50점
-> 실제 점수가 낮더라도 평균보다 높은 점수를 받은 B가 공부를 더 잘했다고 할 수 있다
eg 점수가 60점 미만이면 과락으로 진급 누락일 때
구분 | A반 | B반 |
---|---|---|
반 평균 | 70 | 70 |
점수 분포 | 65~75 | 0~100 |
-> 진급 기준으로 보면 과락 없이 모두 통과한 A반이 더 잘했다고 볼 수 있다
표준화
정규분포(Normal distribution)
- 표본분포 중 가장 단순하고 많이 나타나는 형태
- 어떤 사건이 일어난 빈도(frequency)를 계산해서 그래프로 봤을 때 중심(평균, $\mu$)을 기준으로 좌우 대칭되는 분포 형태
- 1,2회 정도의 빈도가 낮은 사건을 횟수($n$)를 반복해서 $n \rightarrow \infty$하면 정규분포 그래프의 사건이 발생
정규분포 그래프 | 출처 : https://images.app.goo.gl/PRp4MYsRNZQ62Ebp6
표준화(Standardization)
REF 정규분포 표준화 하는 법
- 단순한 현상은 정규분포만으로 충분하지만 실제 연구에서는 복잡한 관계에 대한 분석 결과가 필요
- 여러 특성에 대한 분석 결과를 기준점을 동일하게 맞춰 서로 비교하기 쉽게 만드는 과정
출처 : https://brainstudy.tistory.com/4
표본의 분포
구분 | 특징 | 이름 | 설명 |
---|---|---|---|
표본평균의 확률분포 | 평균과 관련된 분포 | $z$분포 | 표본 개수가 충분한 경우 사용 |
$t$분포 | 표본 개수가 충분하지 못한 경우 사용 | ||
표본분산의 확률분포 | 분산의 추론과 관련된 분포 | $x^2$분포 | 한 개의 분산(표본)을 추론한 분포 직접적으로 조사 대상 설명 가능 |
$F$분포 | 두 개의 분산(표본)을 추론하는 분포 직접 이용하기보다는 추론된 분산을 이용 | ||
표본비율의 확률분포 | 비율과 관련된 분포 | $\hat{p}$분포 | 모비율을 추정하기 위해 사용 |
표본 확률분포의 종류
표본평균의 확률분포
$z$분포
표준정규분포, Standard normal dsitribution
- 표본의 개수가 충분(30개 이상)할 때 표준화 과정을 거친 정규분포
- 평균 = 0, 분산 = 1
($X$: 측정치, $\mu$: 평균, $\sigma / \sqrt{n}$: 표준오차)
$t$분포
스튜던트 $t$분포, Student’s t-distribution
- 모집단이 정규분포이고, 표본이 충분치 않은 경우 표본이 충분치 않아 정규분포를 이루지 못할 가능성이 크기 때문에 정규분포 대신 사용
- 평균 = 1, 분산 > 1
($X$: 측정치, $\mu$: 평균, $s/ \sqrt{n}$: 표준오차, $n-1$: 자유도)
$z$분포와 $t$분포의 관계
$z=\frac{X-\mu}{\sigma / \sqrt{n}} \quad$ vs $\quad t_{n-1}=\frac{X-\mu}{s/ \sqrt{n}}$
- 두 식을 비교해보면 $n$과 $n-1$을 제외하고 동일한 식
- $n \rightarrow \infty$면 $t$분포가 $z$분포로 수렴해 결국 동일한 분포가 된다
$z$분포와 $t$분포의 비교 | 출처 : 제대로 시작하는 기초 통계학(p.42)
표본분산과 확률분포
$x^2$분포
카이제곱분포, chi-squared distribution
- 신뢰구간이나 가설검정 등의 모델에서 자주 등장
- 모분산의 추정이나 계수 값을 해석하는데 사용
- 정규분포로부터 도출 -> $z$분포(표준정규분포)의 제곱에 대한 분포 –> 항상 양수
- 확률변수 $x_1, x_2, x_3, \cdots, x_n$ : 표준정규분포이면서 독립이라면
- $x_1^2, x_2^2, x_3^2, \cdots, x_n^2$ : 새로운 확률변수를 구성 -> 자유도가 $n$인 $x^2$분포
- $x^2$분포 = 확률변수 $\sum_{i=1}^{n}x_i^2$의 분포
$x^2$분포의 특성 | 출처 : 제대로 시작하는 기초 통계학(p.43)
$F$분포
F-distribution 또는 Snedecor’s F distribution 또는 Fisher–Snedecor distribution
- 두 카이제곱분포를 각각의 자유도로 나눈 후 다시 서로 나눈 값
- 분산의 동일성 여부를 판단하는 수단으로 사용
- 두 개의 분산에 관한 추론 : $F_{(v_1, v_2)}$ ($v_1, v_2$ : $X^2$에 대한 분산)*
- $x_1, x_2, x_3, \cdots, x_n$과 $y_1, y_2, y_3, \cdots, y_n$이 서로 독립
- 각각 n, m의 자유도를 가지는 $X^2$분포
- -> $\frac{v_x}{v_y}$ : $F$분포를 따르게 됨
- 분산이 같은 모집단에서 $x_n, y_n$만큼 표본 추출
-
각각의 분산
\[v_1 = \frac{s_1}{(n-1)}, v_2 = \frac{s_2}{(m-1)}\] -
각 비율
\[F = \frac{v_1}{v_2}\]: 자유도 $(n-1), (m-1)$인 $F$분포
-
$F$분포의 특성 | 출처 : 제대로 시작하는 기초 통계학(p.44)
- $F$분포의 특성
- $v_1 = v_2$(등분산) -> 1을 기준으로 값이 결정 ($F_{(50,50)}$ 그래프 참고)
- $v_1 \neq v_2$ -> 1에서 멀어짐
- 표본의 개수가 많을수록 1과 가까운 분포
표본비율의 확률분포
- 경우에 따라 비율이 평균보다 많이 사용
- eg. 점수가 700점 이상일 확률, 시험 1회 응시의 합격률 등과 같이 표본비율이 사용됨
$\hat{p}$분포
- 모비율 추정을 위해 사용
- Yes/No 형태의 어느 한 사건이 발생하는 베르누이 시행의 이항분포를 활용하여 표본비율의 분포를 구할 수 있다
REF
제대로 시작하는 기초 통계학 | 노경섭 지음
통계시각화 matplotlib : Python으로 시각화를 해보자!
-
一个data和satats下的测试 04 Aug 2020
-
통계학 - 확률변수와 확률분포 16 Feb 2020
-
통계학 - 평균, 편차, 분산 03 Feb 2020
-
통계학 - 표본의 분포 30 Jan 2020
-
통계학 - 모집단과 표본추출 30 Jan 2020
-
통계학 - 통계학 개념 정리 24 Jan 2020