Introduction
Cook & Li (2002)는 기존의 central subspace $\mathcal{S}{Y \mid X}$가 $Y \mid \mathbf{X}$의 전체 조건부 분포를 다루는 데 비해, 많은 회귀 문제에서 관심 대상은 조건부 평균 $E(Y \mid \mathbf{X})$뿐이라는 관찰에서 출발한다. 이를 위해 Central Mean Subspace (CMS) $\mathcal{S}{E(Y \mid X)}$를 도입하고, 기존 SDR 방법(OLS, pHd, SIR, SAVE)이 실제로 어떤 부분공간을 추정하는지를 CMS 관점에서 체계적으로 분석한다.
Central Mean Subspace의 정의
Definition 1: Mean Dimension-Reduction Subspace
$p \times q$ 행렬 $\boldsymbol{\alpha}$의 열공간 $\mathcal{S}(\boldsymbol{\alpha})$가 다음을 만족하면 mean dimension-reduction subspace라 한다:
\[Y \perp\!\!\!\perp E(Y \mid \mathbf{X}) \mid \boldsymbol{\alpha}^T \mathbf{X}\]이는 $E(Y \mid \mathbf{X}) = E(Y \mid \boldsymbol{\alpha}^T \mathbf{X})$와 동치이다. 즉, $\boldsymbol{\alpha}^T \mathbf{X}$만으로 조건부 평균의 모든 정보를 포착한다.
Proposition 1: 동치 조건
다음 세 조건은 동치이다:
- $Y \perp!!!\perp E(Y \mid \mathbf{X}) \mid \boldsymbol{\alpha}^T \mathbf{X}$
- $\text{Cov}(Y, E(Y \mid \mathbf{X})) \mid \boldsymbol{\alpha}^T \mathbf{X}] = 0$
- $E(Y \mid \mathbf{X})$는 $\boldsymbol{\alpha}^T \mathbf{X}$의 함수
Definition 2: Central Mean Subspace
\[\mathcal{S}_{E(Y \mid X)} = \bigcap_m \mathcal{S}_m\]모든 mean dimension-reduction subspace의 교집합이 다시 mean dimension-reduction subspace이면, 이를 CMS라 정의한다. $\mathbf{X}$의 정의역이 열린 볼록 집합이면 CMS의 존재성과 유일성이 보장된다.
Central Subspace와의 관계
항상 $\mathcal{S}{E(Y \mid X)} \subseteq \mathcal{S}{Y \mid X}$가 성립한다. 등호가 성립하는 경우: 위치 회귀(location regression) $Y \perp!!!\perp \mathbf{X} \mid E(Y \mid \mathbf{X})$에서는 $\mathcal{S}{E(Y \mid X)} = \mathcal{S}{Y \mid X}$이다.
Central subspace와 달리 CMS는 $Y$의 일대일 변환에 대해 불변이 아니다: $\mathcal{S}{E(T(Y) \mid X)} \neq \mathcal{S}{E(Y \mid X)}$ in general. 다만, central subspace는 항상 상한(upper bound): $\mathcal{S}{E(T(Y) \mid X)} \subseteq \mathcal{S}{Y \mid X}$.
기존 SDR 방법의 CMS 관점 재분류
표준화 변수
$\mathbf{Z} = \Sigma_{xx}^{-1/2}(\mathbf{X} - E(\mathbf{X}))$를 표준화 변수로 사용하면, $\mathcal{S}{E(Y \mid X)} = \Sigma{xx}^{-1/2} \mathcal{S}_{E(Y \mid Z)}$이다.
Theorem 1: OLS와 지수족 목적함수
$\gamma$를 $\mathcal{S}_{E(Y \mid Z)}$의 기저 행렬이라 하자. $E(\mathbf{Z} \mid \gamma^T \mathbf{Z})$가 $\mathbf{Z}$의 선형함수이고, 목적함수가 자연 지수족:
\[L(a + \mathbf{b}^T \mathbf{Z}, Y) = -Y(a + \mathbf{b}^T \mathbf{Z}) + \phi(a + \mathbf{b}^T \mathbf{Z})\]이면, $(\boldsymbol{\alpha}, \boldsymbol{\beta}) = \arg\min_{a, \mathbf{b}} E[L(a + \mathbf{b}^T \mathbf{Z}, Y)]$의 $\boldsymbol{\beta}$는 $\mathcal{S}_{E(Y \mid Z)}$에 속한다.
OLS는 $\phi(K) = K^2/2$에 대응한다. 따라서 OLS 계수 $\boldsymbol{\beta}_{yz} = E(Y\mathbf{Z})$는 항상 CMS의 벡터이다. 이는 OLS가 central subspace가 아닌 CMS를 추정함을 의미한다.
SIR과 SAVE의 위치
SIR과 SAVE가 추정하는 벡터는 $\mathcal{S}{Y \mid Z}$에 속하지만, 일반적으로 $\mathcal{S}{E(Y \mid Z)}$에는 속하지 않는다. $\mathcal{S}_{Y \mid Z}$를 $\eta$로 생성한다 하면:
\[E(\mathbf{Z} \mid Y) = E[E(\mathbf{Z} \mid \eta^T \mathbf{Z}, Y) \mid Y] = E[E(\mathbf{Z} \mid \eta^T \mathbf{Z}) \mid Y] = P_\eta E(\mathbf{Z} \mid Y)\]따라서 $E(\mathbf{Z} \mid Y) \in \mathcal{S}_{Y \mid Z}$이지만, $\eta$를 CMS의 기저 $\gamma$로 교체하면 두 번째 등호가 성립하지 않을 수 있다. 이는 조건부 독립 $Y \perp!!!\perp \mathbf{X} \mid \gamma^T \mathbf{X}$가 아닌 $Y \perp!!!\perp E(Y \mid \mathbf{X}) \mid \gamma^T \mathbf{X}$만 성립하기 때문이다.
Theorem 2: y-based pHd
$\gamma$를 $\mathcal{S}{E(Y \mid Z)}$의 기저, $E(\mathbf{Z} \mid \gamma^T \mathbf{Z})$가 선형, $\text{Var}(\mathbf{Z} \mid \boldsymbol{\beta}{yz}^T \mathbf{Z})$가 $Y$와 비상관이면:
\[\mathcal{S}(\boldsymbol{\beta}_{yz}, \Sigma_{yzz}) \subseteq \mathcal{S}_{E(Y \mid Z)}\]여기서 $\Sigma_{yzz} = E{(Y - E(Y))\mathbf{Z}\mathbf{Z}^T}$는 pHd의 3차 모멘트 행렬이다. pHd는 central subspace가 아닌 CMS를 직접 추정하는 방법이다.
CMS만을 요구하는 새로운 추정량 (Section 4)
Population Structure
기존 방법들은 linearity condition C.1 ($E(\mathbf{Z} \mid \gamma^T \mathbf{Z})$이 선형)과 constant covariance condition C.2 ($\text{Var}(\mathbf{Z} \mid \gamma^T \mathbf{Z})$가 $Y$와 비상관)를 필요로 한다. Cook & Li는 C.1만 요구하는 새로운 추정량 클래스를 제안한다.
Proposition 2: 잔차 기반 추정
$E(\mathbf{Z} \mid \gamma^T \mathbf{Z})$가 선형이면:
\[\mathcal{S}_{E(Y \mid Z)} = \mathcal{S}_{E(r \mid Z)} + \mathcal{S}(\boldsymbol{\beta}_{yz})\]여기서 $r = Y - E(Y) - \boldsymbol{\beta}{yz}^T \mathbf{Z}$는 모집단 OLS 잔차이다. 즉, CMS는 OLS 방향 $\boldsymbol{\beta}{yz}$와 잔차의 CMS $\mathcal{S}_{E(r \mid Z)}$의 합으로 분해된다.
$\mathcal{S}{E(r \mid Z)}$는 잔차 공분산 행렬 $\Sigma{rzz} = E(r\mathbf{Z}\mathbf{Z}^T)$의 열공간으로 추정할 수 있으며, 이는 C.2 조건이 불필요하다. 구체적으로:
\[\Sigma_{rzz} = \Sigma_{yzz} - P_{\boldsymbol{\beta}_{yz}} E(\boldsymbol{\beta}_{yz}^T \mathbf{Z})^3 / \|\boldsymbol{\beta}_{yz}\|^2\]방법론 비교 요약
| 방법 | 추정 대상 | 필요 조건 | $\dim(\mathcal{S}_{E(Y \mid X)}) = 1$일 때 |
|---|---|---|---|
| OLS ($\boldsymbol{\beta}_{yz}$) | CMS의 벡터 | C.1 | 충분 |
| SIR | $\mathcal{S}_{Y \mid X}$의 벡터 | C.1 | CMS 벡터일 수도, 아닐 수도 |
| SAVE | $\mathcal{S}_{Y \mid X}$의 벡터 | C.1 + C.2 | CMS 벡터일 수도, 아닐 수도 |
| pHd ($\Sigma_{yzz}$) | CMS의 벡터 | C.1 + C.2 | CMS에 직접 기여 |
| 새 추정량 ($\boldsymbol{\beta}{yz}, \Sigma{rzz}$) | CMS | C.1만 | 충분 |
의의
Cook & Li (2002)는 SDR 방법론을 CMS 관점에서 재분류함으로써:
- OLS와 pHd가 central subspace가 아닌 CMS를 추정한다는 사실을 밝힘
- SIR, SAVE는 central subspace를 추정하므로, 조건부 평균만 관심 있을 때 과도한 추정일 수 있음을 지적
- C.2 조건이 불필요한 새로운 CMS 추정량을 제안하여, pHd의 적용 범위를 확장
- 이후 Ensemble MAVE (Yin & Li, 2011)에서 CMS와 central subspace의 관계가 characterizing family를 통해 연결됨
Reference
- Cook, R. D. & Li, B. (2002). Dimension Reduction for Conditional Mean in Regression. The Annals of Statistics, 30(2), 455-474.