Introduction
PCA, 정준상관분석(CCA), 독립성분분석(ICA), 충분차원축소(SDR) 등 다양한 통계적 방법론에서 차원 결정(order determination) 문제가 공통적으로 등장한다. 이는 랜덤 행렬 $M$의 랭크 $d$를 추정하는 문제로 귀결된다.
기존의 차원 결정 방법은 두 가지 접근으로 나뉜다:
- 고유값 기반: scree plot의 elbow, 정보 기준(AIC, BIC), 순차 검정 — 고유값 $\hat{\lambda}_k$가 $k = d$ 이후 급격히 감소하는 패턴을 이용
- 고유벡터 기반: 부트스트랩 고유벡터의 변동성(Ye & Weiss, 2003) — $k > d$일 때 고유벡터의 부트스트랩 변동성이 급증하는 패턴을 이용
Luo & Li (2016)는 이 두 정보를 동시에 결합하는 Ladle Estimator를 제안한다. 핵심 관찰: 고유값이 가까울 때 고유벡터 변동성은 크고, 고유값이 떨어져 있을 때 변동성은 작다. 이 상보적(complementary) 패턴을 결합하면 단독 사용보다 정확한 차원 결정이 가능하다.
문제 설정
일반적 프레임워크
$(X, Y)$의 분포 $F$에 대해 행렬 값 통계적 범함수(statistical functional) $M : \mathfrak{F} \to \mathbb{R}^{p \times p}$를 정의한다. 표본 추정량은 $\hat{M} = M(F_n)$이고, 부트스트랩 추정량은 $M^* = M(F_n^*)$이다.
적용 예시
| 설정 | 행렬 $M$ | 랭크 $d$의 의미 |
|---|---|---|
| PCA | $\text{Var}(Z) - \sigma^2 I_p$ | 주성분의 수 |
| CCA | $\Sigma_{XX}^{-1/2} \Sigma_{XY} \Sigma_{YY}^{-1} \Sigma_{YX} \Sigma_{XX}^{-1/2}$ | 정준상관 벡터의 수 |
| ICA | $[E{(Z^T Z) ZZ^T} - (p+2)I_p]^2$ | 초과 첨도를 가진 성분의 수 |
| SDR (SIR) | $\text{Var}[E(Z \mid Y)]$ | 구조적 차원 |
| SDR (DR) | $E[(2I_p - A(Y, \tilde{Y}))^2]$ | 구조적 차원 |
고유값-고유벡터 패턴의 상보성
$M$의 고유값을 $\lambda_1 \geq \cdots \geq \lambda_d > 0 = \lambda_{d+1} = \cdots = \lambda_p$로 놓고, 대응하는 고유벡터를 $v_1, \ldots, v_p$라 하자.
고유값 패턴 (Scree Plot)
$\hat{\lambda}_k$는 $k \leq d$일 때 큰 값, $k > d$일 때 0에 가까운 값을 가진다. Scree plot은 $\hat{\lambda}_k$가 급격히 감소하는 elbow를 찾는다.
고유벡터 변동성 패턴
부트스트랩 고유벡터 $\hat{v}{1}^*, \ldots, \hat{v}{k}^$의 변동성을 측정하기 위해, $\hat{B}_k = (\hat{v}_1, \ldots, \hat{v}_k)$와 $B_{k,j}^ = (v_{1,j}^, \ldots, v_{k,j}^)$ 간의 부분공간 불일치를 정의한다:
\[f_n^0(k) = \begin{cases} 0, & k = 0 \\ n^{-1} \sum_{j=1}^{n_b} \{1 - |\det(\hat{B}_k^T B_{k,j}^*)|\}, & k = 1, \ldots, p-1 \end{cases}\]| 여기서 $1 - | \det(\hat{B}k^T B{k,j}^*) | $는 두 $k$-차원 부분공간의 불일치도를 0(완전 일치)과 1(완전 직교) 사이로 측정한다. |
두 가지 시나리오:
(i) $\lambda_k > \lambda_{k+1}$: $v_k$와 $v_{k+1}$은 서로 다른 고유공간에 속하므로, 모든 부트스트랩 표본에서 동일한 $k$-차원 부분공간을 추정 → $f_n(k)$가 작다
(ii) $\lambda_k = \lambda_{k+1}$: $v_k$와 $v_{k+1}$이 같은 고유공간에 속하여, 부트스트랩마다 해당 고유공간 내에서 임의의 방향이 선택됨 → $f_n(k)$가 크다
특히, $k = d$에서 $\lambda_d > 0 = \lambda_{d+1}$이므로 $f_n(d)$는 작고, $k = d+1$에서 $\lambda_{d+1} = \lambda_{d+2} = 0$이므로 $f_n(d+1)$은 크다. 따라서 $f_n(k)$는 $k = d$에서 점프가 발생한다.
상보성의 핵심
- $k \leq d$: 고유값 $\phi_n(k)$는 크고, 고유벡터 변동성 $f_n(k)$는 작다
- $k > d$: 고유값 $\phi_n(k)$는 작고, 고유벡터 변동성 $f_n(k)$는 크다
- $k = d$ 부근: 두 함수 모두 유용한 정보를 제공하며, 결합하면 더 sharp한 최솟값을 형성
Ladle Estimator
정규화
고유값과 고유벡터 변동성을 동일한 스케일로 결합하기 위해 정규화한다:
\[f_n(k) = \frac{f_n^0(k)}{1 + \sum_{i=0}^{q} f_n^0(i)}, \quad \phi_n(k) = \frac{\hat{\lambda}_{k+1}}{1 + \sum_{i=0}^{q} \hat{\lambda}_{i+1}}\]여기서 $q = \lfloor p / \log(p) \rfloor$은 탐색 범위의 상한이다. 분모의 1은 $d = p - 1$일 때의 안정성을 위해 도입된다.
목적 함수와 정의
Ladle 목적 함수는 두 정규화된 함수의 합이다:
\[g_n(k) = f_n(k) + \phi_n(k)\]Definition 1 (Ladle Estimator):
\[\hat{d} = \arg\min_{k \in \mathcal{D}(g_n)} g_n(k)\]여기서 $\mathcal{D}(g_n) = {0, 1, \ldots, q}$이다.
직관적 해석
- $k < d$: $\phi_n(k)$가 크므로 (아직 유의미한 고유값이 남아있으므로) $g_n(k)$가 크다
- $k > d$: $f_n(k)$가 크므로 (고유벡터 변동성이 증가하므로) $g_n(k)$가 크다
- $k = d$: $\phi_n(d)$와 $f_n(d)$ 모두 작으므로 $g_n(d)$가 최소
이 곡선의 형태가 국자(ladle) 모양을 닮아 Ladle Estimator라 명명되었다.
이론적 성질
가정
Assumption 1: $\hat{M} = M + E_n H(X, Y) + o_p(n^{-1/2})$. 통계적 범함수 $M$이 Fréchet 미분가능하면 자동으로 성립한다.
Assumption 2 (Self-similarity): 부트스트랩 추정량 $M^*$이 다음을 만족:
\[n^{1/2}\{\text{vech}(M^*) - \text{vech}(\hat{M})\} \xrightarrow{d} N(0, \text{Var}_F[\text{vech}\{H(X,Y)\}])\]이는 $n^{1/2}(\hat{M} - M)$의 점근 분포를 부트스트랩이 올바르게 모방함을 의미한다. 복원 추출(sampling with replacement)이 이 가정의 핵심이다.
Assumption 3: $Z_n = O_p(c_n)$이면 $E(c_n^{-1} Z_n) = O(1)$. 비음 확률변수에 대한 기술적 조건.
Theorem 1: 고유값-고유벡터 패턴의 엄밀한 특성화
$c_n = [\log{\log(n)}]^{-2}$으로 놓으면, Assumptions 1-3 하에서 거의 모든 수열 $S$에 대해:
\[f_n(k) = \begin{cases} O_p(n^{-1}), & \lambda_k > \lambda_{k+1} \\ O_p^+(c_n), & \lambda_k = \lambda_{k+1} \end{cases}\]해석: 연속적인 고유값이 서로 다르면 ($\lambda_k > \lambda_{k+1}$) 고유벡터 변동성은 $O_p(n^{-1})$로 무시할 수 있지만, 같으면 ($\lambda_k = \lambda_{k+1}$) $O_p^+(c_n)$으로 무한히 느리게 소멸한다. $c_n$의 수렴 속도가 극히 느리므로 (${\log(\log 10^4)}^{-2} \approx 0.2$), 실제로는 $O_p^+(1)$로 취급할 수 있다.
특히, $\lambda_d > 0 = \lambda_{d+1}$이므로 $f_n$은 항상 $k = d$에서 점프가 발생하며, 이는 비영(nonzero) 고유값의 중복도와 무관하다.
Theorem 2: Ladle Estimator의 일치성
Assumptions 1-3 하에서, 임의의 양반정치 행렬 $M \in \mathbb{R}^{p \times p}$, $\text{rank}(M) = d \in {0, \ldots, p-1}$에 대해:
\[\Pr\left\{\lim_{n \to \infty} \Pr(\hat{d} = d \mid S) = 1\right\} = 1\]즉, Ladle Estimator는 거의 확실히(almost surely) 일치적이다. 이 결과는 고유값의 중복도에 대한 가정 없이 성립한다.
특수한 경우: 모든 비영 고유값이 동일한 경우 ($\lambda_1 = \cdots = \lambda_d > 0$), Theorem 1에 의해 $f_n$ 자체의 최솟값도 $k = d$에서 달성되므로 $f_n$만으로도 일치적이다. 그러나 $\phi_n$을 결합하면 $k < d$에서 $g_n$의 하강 추세가 증폭되어 유한 표본 성능이 향상된다.
기존 방법과의 비교
시뮬레이션 설정
Luo & Li는 6가지 설정(PCA, CCA, ICA, SDR-SIR, SDR-DR, 비선형 SDR)에서 $p = 10$과 $p = 40$으로 실험:
| 방법 | 유형 | 튜닝 파라미터 | 적용 범위 |
|---|---|---|---|
| 순차 검정 (ST) | 고유값 기반 | 유의수준 | PCA 불가 |
| 정보 기준 (IC) | 고유값 기반 | 없음 | 설정별 다름 |
| Ye-Weiss (YW) | 고유벡터 기반 | 임계값 $\delta$ | 범용 |
| Ladle | 결합 | 없음 | 범용 |
주요 결과 ($p = 10$)
| 설정 | ST | IC | YW1 | YW2 | YW3 | Ladle |
|---|---|---|---|---|---|---|
| PCA ($d=3$) | — | 85 | 73 | 23 | — | 99 |
| CCA ($d=2$) | 92 | 97 | 89 | 36 | — | 96 |
| ICA ($d=2$) | — | 75 | 90 | 63 | — | 90 |
| SDR-SIR ($d=2$) | (78,75) | 0 | 48 | 95 | 86 | 91 |
| SDR-DR ($d=2$) | (79,96) | 4 | 87 | 89 | 27 | 98 |
| NSDR ($d=1$) | — | — | 79 | 99 | 95 | 99 |
Ladle Estimator는 모든 설정에서 안정적으로 높은 정확도를 보이며, 특정 설정에서 실패하는 다른 방법들과 달리 범용적이다.
Ladle의 장점
- 튜닝 파라미터 불필요: 순차 검정의 유의수준, Ye-Weiss의 임계값 $\delta$ 등이 필요 없다
- 범용성: PCA, CCA, ICA, SDR 등 다양한 설정에 동일하게 적용 가능
- 상보적 정보 활용: 고유값만 또는 고유벡터만 사용하는 방법보다 안정적
- 이론적 보장: 약한 가정 하에서 일치성이 증명됨
실용적 고려사항
- 부트스트랩 표본 수: 원래 표본 크기 $n$과 동일하게 설정, 복원 추출 사용
- 탐색 범위: $k \in {0, 1, \ldots, \lfloor p / \log(p) \rfloor}$. $p = 10$이면 $q = 4$, $p = 40$이면 $q = 10$
- Ladle plot: $(k, g_n(k))$의 산점도를 scree plot의 대안으로 사용. Elbow가 아닌 최솟값을 찾으므로 더 객관적
- 계산 비용: $n_b$번의 부트스트랩 각각에서 $\hat{M}^*$의 고유값 분해가 필요. $p$가 크면 비용이 증가하지만, 병렬화 가능
Reference
- Luo, W. & Li, B. (2016). Combining Eigenvalues and Variation of Eigenvectors for Order Determination. Biometrika, 103(4), 875-887.
- Ye, Z. & Weiss, R. E. (2003). Using the Bootstrap to Select One of a New Class of Dimension Reduction Methods. JASA, 98(464), 968-979.