Hypothesis Testing
가설 검증 순서
가설 검증은 표본을 통해 모집단에 대한 특징을 얻어내는 방법으로 그룹 혹은 모집단에 대한 주장을 체계적으로 검증할 수 있다.
가설 검증은 4가지 단계로 나뉘어진다.
- 가설 설정
- 유의 수준(significance level) 설정
- 검정 통계량(test statistics) 계산
- 가설 판단
1. 가설 설정
모집단에 대한 가설을 설정함으로써 가설 검증을 시작한다. 모집단에 대해 주장하고 싶은 가정에 반대되는 가설을 귀무 가설(null hypothesis)이라 한다. 그리고 이 가설을 사실로 가정한다. 예를 들어, 하루 평균 TV 시청 시간을 3시간이라고 가정할 수 있다.
반대로 주장하고 싶은 바를 대립 가설(alternative hypotehsis)이라 한다. 대립 가설은 귀무 가설에서 주장한 모집단의 파라미터 실제 값이 더 크거나 작거나 혹은 같지 않다라고 주장하는 것이다. 그렇다면 하루 평균 TV 시청 시간에 대한 대립 가설은 3시간이 아니다가 대립 가설이 된다.
2. 유의 수준 설정
유의 수준이란 판단을 내릴 때, 귀무 가설을 기각할 기준을 정하는 것이다. 수집된 표본을 기반으로 귀무 가설이 사실이 아니라는 것을 표본 데이터가 나올 가능도(likelihood)를 가지고 증명하려고 한다. 이때 일반적으로 5%로의 유의 수준을 사용한다. 그 말은 만약 귀무 가설이 사실일 때, 표본 데이터가 나올 확률이 5%이하라면, 우리는 표본이 해당 가설에서 나오기 어렵다고 판단하고 귀무 가설을 기각한다.
여기서 5%의 유의 수준을 활용하는 이유 중 하나는 중심극한정리에 의해 표본 평균의 분포는 정규 분포를 따르고, 95%의 표본 평균들은 2 표준 편차 내부에 속해 있기 때문이다.
3. 검정 통계량 계산
검정 통계량(test statistic)은 수학적 공식으로 연구자로 하여금 귀무 가설 하에서 해당 표본을 얻을 가능도를 결정해준다. 예를 들어, 검정 통계량을 통해 표본 평균이 실제 모평균에 비해 얼만큼 혹은 얼만큼의 표준편차만큼 떨어져 있는 지 나타내 줄 수 있다.
4. 가설 판단
검정 통계량을 바탕으로 귀무 가설에 대한 판단을 내린다. 귀무 가설 하에서 표본 결과를 얻을 확률을 p-value라고 한다. 만약 p-value가 유의 수준보다 낮다면, 귀무 가설을 기각하고 반대로 p-value가 높다면 귀무 가설을 기각하지 않는다.
오류의 종류
가설 검증을 통해 가설을 판단하게 되면 결과적으로 4가지의 결과가 나올 수 있다.
- 귀무 가설을 채택하는 판단이 맞았을 때
- 귀무 가설을 채택하는 판단이 틀렸을 때
- 귀무 가설을 기각하는 판단이 맞았을 때
- 귀무 가설을 기각하는 판단이 틀렸을 때
표로 정리하자면,
Retain the null | Reject the null | |
---|---|---|
True(Truth) | Correct(1- \(\alpha\)) | Type 1 Error(\(\alpha\)) |
False(Truth) | Type 2 Error(\(\beta\)) | Correct(1-\(\beta\)) |
귀무 가설이 사실일때, 이를 기각하는 실수하는 것을 1종 오류(Type 1 error)라고 한다. 1종 오류를 범할 확률은 결국 유의 수준과 같다.
반대로 귀무 가설이 거짓일때, 해당 가설을 채택하는 실수를 2종 오류(Type 2 error)라고 하고 \(\beta\)로 나타낸다. 여기서 틀린 귀무 가설을 기각하는 판단을 검정력(power)이라고 한다.
단일 표본 Z검정
단일 표본 z검정(one-independent sample z test)이란 모집단의 분산을 안다고 가정할 때 z분포를 이용하여 단일 모집단의 통계치와 연구자의 통계치를 비교하는 방법이다.
먼저 세가지 방향으로 가설을 세울 수 있는데, 모집단의 평균이 제시된 평균보다 크거나 작거나 혹은 같지 않다라고 주장할 수 있다. 여기서는 양측 검정(two-tailed test)를 사용하여 같지 않다를 검증해보도록 하겠다.
예시1
1994년부터 1997년에 이루어진 GRE 시험의 학생들 평균 성적이 558점이고 분산은 139라고 한다. 이때 100명의 점수를 뽑아서 평균을 냈더니 585점이 나왔다. 단일 표본 z검증을 통해 해당 평균 점수가 맞는 지 확인해보자.
- 가설 설정
먼저 귀무 가설과 대립 가설을 세운다. 모집단의 평균 성적이 558점이라고 나왔고 현재 표본에서는 585점으로 다르게 나왔다. 따라서,
\[H_0: \mu = 558\] \[H_1: \mu \neq 558\]- 유의 수준 설정
유의 수준을 일반적인 0.05로 설정한다. 즉 \(\alpha = 0.05\)로 설정한다. 모집단의 평균이 558일떄, 표본 평균이 나올 확률이 5%이하면 귀무 가설을 기각한다. 이를 검증하기 위해 z분포(표준정규분포)를 통해 검증할 것이다. 표준 정규 분포에서 양측 검증을 할 시에 0.05 부분은 모두 \(\pm 1.96\)이다. 이 값을 임계치(critical value)라 한다. 따라서 z통계량을 구했을 시에 이 값이 1.96보다 크거나 -1.96보다 작으면 5% 확률 미만인 것으로 판단한다.
- 검정 통계량(z통계량) 계산
z 통계량은 모든 표본 분포를 표준 정규 분포로 바꾼다. z 통계량 계산식은
\[z_{stat} = \frac{\bar x - \mu}{SE}, \text{where } SE = \frac{\sigma}{\sqrt{n}}\]따라서, 표본 평균과 모분산을 이용해 z 통계를 계산하면
\[SE = \frac{139}{\sqrt{100}} = 13.9\] \[z_{stat} = \frac{585-558}{13.9} = 1.94\]- 가설 판단
z 통계량과 임계치를 비교했을 때, z 통계량은 임계치를 넘지 못한다
통계량 비교
그러므로 귀무 가설을 채택하기로 한다.
독립 표본 Z 검정
위에 단일 표본 검정과 다르게 독립 표본 z검정(Indenpendent two sample z-test)은 분산을 알고 있는 두 독립적인 모집단의 평균 차이를 알고 싶을 때 사용한다. 예를 들어, A대학과 B대학 학생들의 평균 수학 점수에 차이가 있을까와 같이 두 독립적인 집단의 평균을 비교하고 싶을 때 z검정을 할 수 있다. 물론 z검정은 모집단의 분산을 알고 있다는 가정 하에 쓸 수 있다.
단일 표본 집단과 z 통계량 구하는 방법이 조금 다르고 다른 검증 부분은 같다. 독립 표본 z검정에서 z 통계량은
\[z_{stat} = \frac{\bar x_1 - \bar x_2 - \triangle }{ \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }}\]여기서 \(\triangle\)은 가정하고 있는 두 집단의 차이를 가르킨다.
예시 2
만약 평소 커피를 마시는 사람이 안 마시는 사람보다 통계학 시험을 쉽게 통과한다고 주장한다고 하자. 그리고 커피를 마시는 사람 150명, 마시지 않는 사람 250명을 뽑아 pass and fail 통계 시험을 치뤘다. 커피를 마시는 사람 중에서는 95명이 통과하였고 마시지 않는 사람 중에서는 130명이 통과하였다. 여기서 해당 주장을 검증해보자
- 가설 설정
마시는 사람과 그렇지 않은 사람이 같지 않다가 아니라 더 많이 통과한다이므로 한쪽 꼬리 검증(one-tail test)을 해야한다. 따라서 귀무, 대립 가설은
\[H_0: p1 - p2 \leq 0\] \[H_1: p1 - p2 > 0\]여기서 p1은 마신 사람의 통과율, p2는 마시지 않는 사람의 통과율을 나타낸다.
- 유의 수준 설정
일반적인 0.05 p-value를 사용하자. 한쪽 꼬리 검증이기 때문에 기존의 양측의 0.025값인 \(z_{-0.025, 0.025}=\pm 1.94\) 값을 사용하면 안된다. 구한 z 통계량이 오른쪽 rejection region보다 커야지 거절해야하므로 \(z_{0.05} = 1.645\)를 사용하여 비교한다.
- 통계량 계산
위 식을 이용하여 z value를 계산해보도록 한다. 먼저 비율의 표준편차를 구해야한다. \(\hat p = \frac{X}{n}\)에서 X는 이항 분포 B(n, p)를 따르기 때문에 분산은 \(V(x) = npq\)이다. 따라서 표본 분산은 다음과 같다.
\[E(\hat p ) = E(\frac{X}{n}) = \frac{1}{n} E(X) = \frac{1}{n} \times np = p\] \[V(\hat p) = V(\frac{X}{n}) = \frac{1}{n^2} V(X) = \frac{1}{n^2} \times npq = \frac{pq}{n}\]따라서 위의 z 통계량 식을 바꾸면 다음과 같다.
\[z_{stat} = \frac{p1-p2 - \triangle}{\sqrt{ \frac{p1(1-p1)}{n_1} + \frac{p2(1-p2)}{n_2} }}\]위 값을 대입해서 계산하면
\[z_{stat} = \frac{0.6333-0.52}{\sqrt{\frac{0.2322}{150}+ \frac{0.2496}{250}} } = \frac{0.1133}{0.0504} = 0.1133/0.0504 = 2.2480\]- 가설 판단
\(\alpha =0.05\) 에서 \(z_{0.05} = 1.645\)이고 \(z_{stat} > 1.645\) 이므로 해당 귀무 가설을 기각한다. 따라서 커피를 마시는 사람이 통계 시험을 통과할 비율이 높다고 볼 수 있다.
Reference
- Gravetter, F. J., & Wallnau, L. B. (2004). Statistics for the behavioral sciences. Belmont. CA: Thomson Wadsworth.
Leave a comment