통계. EndoTODAY 이준행

[평균치의 분석]

평균과 표준편차로 요약될 수 있는 연속변수(continuous variable)에 대한 자료를 검증하는 방법으로 대부분 모수적 검정법을 사용하고 있다. 그러나 (1) 표본의 크기가 워낙 작은 경우(의학에서는 보통 30 미만이지만 절대적인 기준은 아니다), (2) 분석변수가 순위척도(ordinal scale; -, +, ++, +++과 같이)인 경우, (3)분포가 지나치게 편이되어 있거나 분산이 같지 않아 정규분포를 가정할 수 없는 경우에는 비모수적검정법을 적용한다. 변수의 분포가 명백히 모수적인 조건을 만족하는 상황에서 표본수가 같으면 비모수적인 방법은 모수적인 방법에 비하여 검정력이 떨어지므로 가능하면 모수적 방법을 적용하는 것이 좋다. 그러나 표본의 수가 명확하게 모수적 방법을 적용할 만큼 충분치 않고 모수적방법과 비모수적방법의 결과가 상이할 때에는 비모수적방법의 결과를 선택하는게 일반적이다. 이는 융통성이 큰 비모수적방법이 귀무가설을 부정하고 따라서 차이가 있는 쪽(소위 positive result)으로 결론내기 쉽기 때문이다. 두 측정치가 서로 독립적이지 않은 경우에는 paired t-test, Wilcoxon signed rank test와 같이 '짝지은 자료의 분석'을 이용한다. SPSS 에서는 모수적방법과 비모수적방법은 다른 그룹으로 묶여 있다.

1. 독립된 두 평균치의 비교

독립표본 T 검정(t-test) : 가장 많이 쓰이는 검정법으로 표본의 수가 어느 정도 (보통 30 이상) 클 때 표본 평균치들로 이루어진 분포는 정규분포를 따르고 그 평균은 모평균과 같고 분산은 표준오차와 같다는 중심극한정리(central limit theorem)에 기초한 방법이다. 두 표본의 분산이 동일해야 하는데 이는 [Levene 등분산 F 검정]으로 확인할 수 있으며, 등분산이 가정되지 않는 경우(즉, Levene 등분산 F 검정에서 p-value가 0.05 이하인 경우)에는 읽어야 하는 유의 확률(p-value)이 다르고 상이한 결과가 나온다.

표본의 수가 너무 작아 (보통 30 미만) 모집단을 가정하기 어려울 때 사용하는 비모수적 검정법(이경우는 평균치 수차 자체는 이용하지 않고 순서를 이용한다)으로는 측정치를 순서대로 나열하여 번호를 매기고 순위의 합을 비교하는 Mann-Whitney U test가 대표적인다. (Wilcoxon rank sum test도 많이 쓰이는데 SPSS에는 포함되어 있지 않다.) 표본의 수가 작아 비모수적 방법을 사용하는 경우에도 비모수적인 검정법만을 시행하는 것 보다는 모수적 검정법을 먼저 시행하고 동시에 비모수적 검정법도 병행함이 귄장된다. 모수적 접근으로 통계적 유의성이 인정되지 못한다는 뜻은 다만 표본수가 작은게 원인일 수도 있기 때문이다.

Web에서 실행되는 t-test : t-test on the Web

2. 짝지은 두 평균치의 비교

항결핵제를 투여하기 전후의 약물농도를 비교하는 경우처럼 짝을 이룬 자료의 평균치는 두 모집단의 독립성을 인정할 수 없으므로 위의 방법을 사용할 수 없고 고유의 통계분석법을 이용해야 한다. 모수적인 방법인 paired t-test는 짝을 이룬 두 비교집단에서 개개 관측치의 차를 구하고, 그 차의 평균을 구하여 '모평균치가 0'이라는 귀무가설을 검정하는 방법이다. 비모수적인 방법인 Wilcoxon signed rank test는 각 쌍의 차들의 부호와 크기를 동시에 고려하여 검정통계량을 산출하는 방법으로 부호만을 고려하는 sign test보다 더 좋은 검정력을 가진다.

3. 세개 이상의 평균치의 비교(일원배치 분산분석법: one-way ANOVA)

세개 이상의 평균치를 비교할 때 두 집단의 비교방법인 t-test를 여러번 반복하여 판정하면 소위 overtesting이 되어 alpha-error(1종 오류:귀무가설이 옳음에도 불구하고 기각하는 오류, 즉 차이가 없음에도 불구하고 차이가 있다고 결론내리는 오류)가 증가된다. 즉 차이가 없는데도 차이가 있다고 판정내려 잘못된 positive result가 나올 수 있다. 만일 5%의 유의수준으로 하여 3번의 t-test를 했다면 t-test에 의한 판정의 오류는 5%이겠지만 전체적인 판정, 즉 3번의 판정이 동시에 가지게 되는 alpha-error는 약 14(1-(0,95)³)%가 된다. 이를 방지하기 위해서는 먼저 평균치아 아니라 분산을 가지고 비교하는 ANOVA(analysis of variance)를 시행하여 '셋 이상의 평균치들은 차이가 있는가?'(즉 같은 모집단에서 표본추출된 것인가)를 검정하고, 만약 차이가 있는 경우에는 '어느 군에서 가장 현저한가?'를 검정해야 한다. 후자를 사후검점(multiple comparison; 짝비교)이라고 하며 Duncan법, Tukey B 법이 대표적이다. 문론 전체군 비교에서 차이가 없다고 판정되면 개별군간의 비교는 필요없다.

모수적 방법인 one-way ANOVA는 (1)세가지 군이 서로 독립적이고, (2)오류없이 측정된 독립변수 값에 대한 종속변수 값의 분포는 정규분포를 따르며, (3)각 군의 분산이 같아야 한다는 세가지 가정이 성립되어야 한다. 즉 독립변수의 값들은 종속변수의 평균에 영향을 주지만 그 분산에는 영향을 주지 않는다는 전제조건이 필요하다. ANOVA는 F-분포를 따르는 F-ratio를 이용한 분석법인데 F-ratio는 표본평균치들이 가지는 분산(variance between groups, 집단간 분산, B)과 측정치들이 가지고 있는 원래의 분산(variance within groups, 집단내 분산, W)의 비이다.[F-ratio=(집단간분산/집단내 분산)]. 비모수적인 방법으로는 Kruskal-Wallis test가 있는데 이 경우에는 아직 사후검정법(multiple comparison)이 개발되어 있지 않다.

결과의 보수성: LSD < Duncan < Tukey
F값이 작이면 차이가 뚜렷하다는 의미이므로 진보적인 입장을 취하는 것도 좋으나 F 값이 크면 group간에 차이가 뚜렷하지 않다는 의미이므로 가능한 한 보수적인 입장을 취하는 것이 좋다.

Web에서 실행되는 ANOVA : ANOVA on the Web