[Paper Review] Individual Comparisons by Ranking Methods

Introduction

Wilcoxon (1945)은 비모수 통계(nonparametric statistics)의 초석이 되는 논문으로, 두 처리(treatment) 간의 차이를 순위(rank)에 기반하여 검정하는 방법을 제안한다. 전통적인 $t$-검정은 정규성 가정에 의존하는 반면, Wilcoxon의 방법은 분포 가정 없이 적용 가능하다. 이 논문은 비쌍 실험(unpaired experiment)에 대한 순위합 검정(rank sum test)과 쌍 실험(paired experiment)에 대한 부호순위 검정(signed-rank test)의 두 가지 방법을 제시한다.

비쌍 실험: 순위합 검정 (Rank Sum Test)

문제 설정

두 처리 A, B에서 각각 $n_A$, $n_B$개의 관측값을 얻는다. 두 처리의 효과가 동일한지 검정하고자 한다.

방법

두 그룹의 관측값을 합쳐 크기순으로 정렬한다.
합쳐진 $n_A + n_B$개에 대해 순위 $1, 2, \ldots, n_A + n_B$를 부여한다.
각 그룹의 순위합을 계산한다:

\[T_A = \sum_{i=1}^{n_A} R_i^{(A)}, \quad T_B = \sum_{j=1}^{n_B} R_j^{(B)}\]

두 그룹의 순위합의 합은 항상 다음을 만족한다:

\[T_A + T_B = \frac{(n_A + n_B)(n_A + n_B + 1)}{2}\]

귀무가설 하에서 $T_A$의 분포를 열거(enumeration)하여 정확 $p$-값을 계산한다.

예시: 살충제 실험

Wilcoxon은 두 종류의 살충제(fly spray)로 처리한 파리의 사망 시간을 비교하는 예시를 제시한다. 각 그룹 $n = 5$일 때, 처리 A의 순위합 $T_A$가 극단적인 값을 가지면 두 처리 간 유의미한 차이가 있다고 판단한다. 논문에서 제공하는 Table I은 소표본에서 $T$의 정확 확률 분포를 제공한다.

쌍 실험: 부호순위 검정 (Signed-Rank Test)

문제 설정

$n$개의 쌍(pair)에 대해 두 처리의 차이 $d_i = X_i^{(A)} - X_i^{(B)}$를 관측한다. 차이의 중앙값이 0인지 검정하고자 한다.

방법

각 쌍의 차이 $d_i$를 계산한다.
$d_i = 0$인 쌍은 제외한다.
$ d_i $에 대해 순위 $1, 2, \ldots, n$을 부여한다.
각 순위에 원래 $d_i$의 부호를 부여한다.
양의 순위합 $T^+$와 음의 순위합 $T^-$를 계산한다:

\[T^+ = \sum_{d_i > 0} R_i, \quad T^- = \sum_{d_i < 0} R_i\]

다음이 항상 성립한다:

\[T^+ + T^- = \frac{n(n+1)}{2}\]

$T = \min(T^+, T^-)$를 검정 통계량으로 사용하고, Table II에서 $p$-값을 결정한다.

예시: 밀 종자 처리

Wilcoxon은 15쌍의 밀 종자에 대해 두 가지 처리(일반 vs. 화학 처리)를 비교하는 예시를 제시한다. 각 쌍의 수확량 차이에 순위를 부여한 뒤, $T^+ = 96$, $T^- = 24$를 얻는다. $T = 24$가 Table II에서 유의수준 $\alpha = 0.05$의 임계값보다 작으면 귀무가설을 기각한다.

정확 확률표의 구성

Wilcoxon은 소표본($n \leq 15$)에 대한 정확 확률표를 직접 구성하였다. 귀무가설 하에서 각 부호 배정은 동일한 확률 $2^{-n}$을 가지므로, $T^+$의 가능한 모든 값에 대한 분포를 완전 열거(complete enumeration)로 계산할 수 있다. 예를 들어 $n = 5$일 때:

\[P(T^+ = k) = \frac{\text{(}T^+ = k\text{를 만드는 부호 배정의 수)}}{2^5}\]

대표본에서는 $T^+$의 평균과 분산이 다음과 같으므로 정규 근사를 사용한다:

\[E(T^+) = \frac{n(n+1)}{4}, \quad \text{Var}(T^+) = \frac{n(n+1)(2n+1)}{24}\]

동점(Ties) 처리

관측값이 동일한 경우, 해당 관측값들에 평균 순위(average rank)를 부여한다. 예를 들어, 3번째와 4번째 관측값이 동일하면 둘 다 순위 3.5를 받는다. 동점이 많을 경우 검정력이 다소 감소하지만, Wilcoxon은 실제 실험에서 동점이 소수인 경우 그 영향이 미미함을 지적한다.

모수적 방법 대비 장점

Wilcoxon 검정의 핵심적 장점은 다음과 같다:

분포 자유(distribution-free): 정규성 가정이 불필요하다.
이상값에 강건: 순위만 사용하므로 극단적 관측값의 영향이 제한된다.
소표본 적용 가능: 정확 확률표를 통해 소표본에서도 유효한 검정이 가능하다.
점근 상대 효율(ARE): 정규 모집단에서도 쌍 $t$-검정 대비 약 $3/\pi \approx 0.955$의 효율을 보여, 정규성이 성립하더라도 성능 손실이 미미하다.

Reference

Wilcoxon, F. (1945). Individual Comparisons by Ranking Methods. Biometrics Bulletin, 1(6), 80-83.

[Paper Review] Individual Comparisons by Ranking Methods

Introduction

비쌍 실험: 순위합 검정 (Rank Sum Test)

문제 설정

방법

예시: 살충제 실험

쌍 실험: 부호순위 검정 (Signed-Rank Test)

문제 설정

방법

예시: 밀 종자 처리

정확 확률표의 구성

동점(Ties) 처리

모수적 방법 대비 장점

Reference

Further Reading

[Paper Review] Sufficient Dimension Reduction Based on an Ensemble of MAVE

[Paper Review] Sliced Inverse Regression for Dimension Reduction

[Paper Review] Sliced Inverse Regression: Comment (SAVE의 기원)