Introduction
Cook & Weisberg (1991)의 이 논문은 Li (1991)의 SIR 논문에 대한 토론(Comment)이지만, 단순한 코멘트를 넘어 SAVE(Sliced Average Variance Estimation)를 최초로 제안한 중요한 논문이다. SIR이 1차 역조건부 모멘트 $E(\mathbf{z} \mid y)$만 활용하여 대칭 의존 구조를 놓치는 한계를 지적하고, 2차 역조건부 모멘트 $\text{Var}(\mathbf{z} \mid y)$를 활용하는 SAVE를 제안한다.
SIR의 Linearity Condition 재해석
Condition 3.1의 기하학적 의미
Cook & Weisberg는 Li의 linearity condition이 타원형 대칭(elliptical symmetry)의 특성화임을 보인다. 표준화된 변수 $\mathbf{z} = (\eta_1, \ldots, \eta_K)^T$와 e.d.r. 방향 $\eta$에 대해:
\[E(\mathbf{z} \mid y) = E[E(\mathbf{z} \mid \eta^T \mathbf{z}, y) \mid y]\]여기서 $E(\mathbf{z} \mid \eta^T \mathbf{z}, y) = P_\eta \mathbf{z} + E(Q_\eta \mathbf{z} \mid \eta^T \mathbf{z})$로 분해할 수 있다. $P_\eta$는 $\eta$의 열공간 위로의 사영, $Q_\eta = I - P_\eta$는 직교 여공간 위로의 사영이다.
\[E(\mathbf{z} \mid y) = E(P_\eta \mathbf{z} \mid y) + E(Q_\eta \mathbf{z} \mid \eta^T \mathbf{z}) \mid y)\]첫째 항은 e.d.r. 부분공간에 속하고, 둘째 항은 직교 여공간에 속한다. $E(\mathbf{z} \mid y)$가 e.d.r. 공간에 포함되려면 둘째 항이 0이어야 하며, 이는 $E(Q_\eta \mathbf{z} \mid \eta^T \mathbf{z}) = 0$과 동치이다. Eaton (1986)은 이 조건이 구형 대칭(spherical) 분포를 특성화함을 보였다.
실용적 함의
Linearity condition은 $\mathbf{x}$의 분포가 타원형이 아니면 성립하지 않는다. 따라서:
- 지시변수(indicator variable)가 포함된 설계에는 직접 적용이 어려움
- 다항식이나 교호작용항이 함수적으로 관련된 변수를 포함하면 주의 필요
- 그러나 Diaconis & Freedman (1984)의 결과에 의해, 고차원에서 저차원 사영은 근사적으로 정규분포를 따르므로, $p$가 크면 condition 3.1이 근사적으로 성립
SIR의 한계와 SAVE의 동기
SIR이 실패하는 구체적 예시
$\mathbf{z}i = (z_1, z_2)^T \sim N{120}(0, 1)$ i.i.d., 단일 e.d.r. 방향 $\eta^T = (1, 1)$에 대해:
\[y = (\mu + 2^{1/2} z_1 + 2^{1/2} z_2)^2\]이 모형에서 $E(\mathbf{z} \mid y)$를 계산하면:
\[E(P_\eta \mathbf{z} \mid y) = \begin{pmatrix} z_1 \\ 0 \end{pmatrix}, \quad E[E(Q_\eta \mathbf{z} \mid \eta^T \mathbf{z}) \mid y] = \begin{pmatrix} 0 \\ z_1^2/s \end{pmatrix}\]$\mu = 0$이면 $y$는 $\eta^T \mathbf{z}$에 대해 대칭이므로, $y$로 슬라이싱했을 때 슬라이스 평균이 0 근처에 모이고 SIR의 고유값이 비슷한 크기가 되어 방향 식별이 어려워진다. $\mu$가 커지면 대칭이 깨지면서 SIR이 잘 작동한다.
SAVE (Sliced Average Variance Estimation)
핵심 아이디어
SIR이 $E(\mathbf{z} \mid y)$의 변동만 보는 것에 대해, SAVE는 조건부 분산 $\text{Var}(\mathbf{z} \mid y)$의 변동을 본다. $y$에 따라 $\text{Var}(\mathbf{z} \mid y)$가 변하면, 이는 e.d.r. 공간의 정보를 담고 있다.
SAVE 행렬
\[M_{\text{SAVE}} = \sum_h (I - \text{Var}(\mathbf{z} \mid y \in I_h))^2\]여기서 합은 슬라이스 $I_h$에 대해 취한다. 이 행렬의 이론적 근거:
\[[I - \text{Var}(\mathbf{z} \mid y)]^2 = P_\eta [I - \text{Var}(\mathbf{z} \mid y)]^2 P_\eta\]$\mathbf{x}$가 정규분포일 때, $\text{Var}(\mathbf{z} \mid y)$의 고유값 $w_y$는 중복도 $p - K$를 가지며, 대응하는 고유벡터가 $Q_\eta$의 열공간을 생성한다. 따라서 $I - \text{Var}(\mathbf{z} \mid y)$의 $K$개를 제외한 나머지 고유벡터가 e.d.r. 방향을 추정한다.
SAVE가 대칭 의존 구조를 탐지하는 이유
$y = (\beta^T \mathbf{x})^2 + \varepsilon$인 경우, $E(\mathbf{z} \mid y) \approx 0$이라 SIR이 실패하지만, $\text{Var}(\mathbf{z} \mid y)$는 $y$에 따라 변한다. 구체적으로, $y$가 클 때 $\beta^T \mathbf{x}$의 조건부 분산은 작아지고(큰 제곱값은 좁은 범위의 $\beta^T \mathbf{x}$에서 발생), $y$가 작을 때는 커진다. 이 변동을 SAVE가 포착한다.
SIR vs SAVE 비교 시뮬레이션
Cook & Weisberg의 Table 1 결과 ($\eta^T = (1, 1)$, $y = (\mu + 2^{1/2}z_1 + 2^{1/2}z_2)^2$):
| $\mu$ | SIR (각도) | SAVE (각도) | pHd (각도) |
|---|---|---|---|
| 0 | 87.82° | 0.74° | 8.90° |
| 0.5 | 7.15° | 1.97° | 6.93° |
| 1 | 4.20° | 1.32° | 18.19° |
| 4 | 0.19° | 0.71° | 21.31° |
| 100 | 0.03° | 0.27° | 33.46° |
$\mu = 0$ (완전 대칭)에서 SIR은 거의 직각(87.82°)으로 실패하지만, SAVE는 0.74°로 정확하게 추정한다. $\mu$가 커지면 대칭이 깨져 SIR도 잘 작동한다.
SDR 방법론 체계에서의 위치
Cook & Weisberg의 이 논문은 SDR 방법론의 두 가지 축을 확립한다:
| 정보 원천 | 방법 | 강점 | 약점 |
|---|---|---|---|
| 1차 모멘트 $E(\mathbf{z} \mid y)$ | SIR | 단조 트렌드에 강함 | 대칭 구조 실패 |
| 2차 모멘트 $\text{Var}(\mathbf{z} \mid y)$ | SAVE | 대칭 구조 탐지 | 단조 트렌드에서 비효율 |
이후 DR (Li & Wang, 2007)이 이 두 정보를 자연스럽게 결합하고, Ensemble MAVE (Yin & Li, 2011)가 분포 가정 없이 소진적 추정을 달성한다.
Reference
- Cook, R. D. & Weisberg, S. (1991). Sliced Inverse Regression for Dimension Reduction: Comment. Journal of the American Statistical Association, 86(414), 328-332.
- Li, K.-C. (1991). Sliced Inverse Regression for Dimension Reduction. JASA, 86(414), 316-327.