Introduction
고차원($p \gg n$) 비모수 회귀에서 신경망은 일반적으로 학습 표본이 부족하여 사용이 어렵다. Feng & Simon (2019)은 첫 번째 층에 Sparse Group Lasso 페널티를 부과하여 소수의 입력 변수만 선택하는 Sparse-Input Neural Network(SPINN)을 제안하고, 초과 위험(excess risk)이 전체 변수 수 $p$의 로그에만 비례하여 증가함을 증명한다. 이는 신경망에 대한 최초의 고차원 변수 선택 이론을 제공하는 연구이다.
네트워크 구조
SPINN의 정형화
$L$층 신경망을 다음과 같이 정의한다. 은닉층 $a = 1, \ldots, L$에 대해:
\[z_a(x) = \psi(\theta_a z_{a-1}(x) + t_a)\]여기서 $\psi$는 활성화 함수(예: ReLU, sigmoid), $\theta_a$는 $a$번째 층의 가중치 행렬, $t_a$는 바이어스이다. $z_0(x) = x$로 놓으면, 최종 출력은:
\[f_\eta(x) = \theta_{L+1} z_L(x) + t_{L+1}\]여기서 $\eta = {\theta_1, t_1, \ldots, \theta_{L+1}, t_{L+1}}$는 전체 파라미터 집합이다.
핵심: 첫 번째 층의 구조
첫 번째 층의 가중치 행렬 $\theta_1 \in \mathbb{R}^{h_1 \times p}$에서, $j$번째 입력 변수에 연결된 가중치 벡터를 $\theta_{1, \cdot, j} \in \mathbb{R}^{h_1}$로 표기한다. 만약 $\theta_{1, \cdot, j} = 0$이면, 입력 변수 $x_j$는 네트워크의 출력에 전혀 영향을 미치지 않는다. 이것이 변수 선택의 기반이 된다.
손실 함수와 페널티
정규화된 목적함수
SPINN의 목적함수는 세 가지 구성요소로 이루어진다:
\[\hat{\eta} = \arg\min_{\eta} \frac{1}{n}\sum_{i=1}^{n} \ell(y_i, f_\eta(x_i)) + \lambda_0 \sum_{a=1}^{L+1} \|\theta_a\|_2^2 + \lambda \sum_{j=1}^{p} \Omega_\alpha(\theta_{1, \cdot, j})\]각 항의 역할:
- 경험적 손실 $\frac{1}{n}\sum \ell(y_i, f_\eta(x_i))$: 데이터 적합도. 회귀에서는 제곱 손실, 분류에서는 교차 엔트로피 등.
- Ridge 페널티 $\lambda_0 \sum_a |\theta_a|_2^2$: 모든 층의 가중치에 대한 전역적 정규화. 과적합 방지.
- Sparse Group Lasso 페널티 $\lambda \sum_j \Omega_\alpha(\theta_{1, \cdot, j})$: 첫 번째 층에만 적용. 변수 선택 유도.
Sparse Group Lasso 페널티
\[\Omega_\alpha(w) = (1 - \alpha)\|w\|_1 + \alpha\|w\|_2\]여기서 $\alpha \in [0, 1]$는 그룹 수준과 개별 수준의 희소성을 조절하는 혼합 파라미터이다:
- Group Lasso 부분 ($\alpha|w|2$): $\theta{1, \cdot, j}$ 전체를 그룹으로 묶어 0으로 수축. 그룹 전체가 0이면 입력 변수 $x_j$가 선택에서 제외된다. 이는 변수 선택을 유도한다.
- Lasso 부분 ($(1-\alpha)|w|_1$): 그룹 내 개별 가중치의 추가 희소성. 선택된 변수 내에서도 불필요한 연결을 제거한다.
$\alpha = 1$이면 순수 Group Lasso, $\alpha = 0$이면 순수 Lasso가 된다.
GIST 최적화 알고리즘
Sparse Group Lasso 페널티는 비미분 가능(non-differentiable)하므로, 일반화된 경사 하강법(Generalized Iterative Shrinkage-Thresholding, GIST)을 사용한다.
알고리즘 구조
각 반복에서 다음 세 단계를 수행한다:
Step 1: 매끄러운 부분(경험적 손실 + Ridge)에 대한 경사 하강:
\[\tilde{\eta}^{(t)} = \eta^{(t)} - s \nabla_\eta \left[\frac{1}{n}\sum_{i=1}^{n} \ell(y_i, f_{\eta^{(t)}}(x_i)) + \lambda_0 \sum_a \|\theta_a^{(t)}\|_2^2\right]\]여기서 $s$는 스텝 크기이다.
Step 2: Lasso 부분에 대한 soft-thresholding (원소별):
\[\hat{w}_k = \text{sign}(\tilde{w}_k) \max(|\tilde{w}_k| - s\lambda(1-\alpha), 0)\]Step 3: Group Lasso 부분에 대한 soft-scaling (그룹별):
\[\theta_{1, \cdot, j}^{(t+1)} = \hat{w}_j \cdot \max\left(1 - \frac{s\lambda\alpha}{\|\hat{w}_j\|_2}, 0\right)\]이 연산은 그룹 벡터 $\hat{w}_j$의 norm이 임계값 $s\lambda\alpha$ 이하이면 전체 그룹을 0으로 수축시킨다.
단조 라인 탐색
수렴을 보장하기 위해 단조 라인 탐색(monotone line search)을 적용한다. 스텝 크기 $s$를 다음 조건을 만족할 때까지 축소한다:
\[F(\eta^{(t+1)}) \leq Q_s(\eta^{(t+1)}, \eta^{(t)})\]여기서 $F$는 전체 목적함수, $Q_s$는 2차 근사 상한이다.
이론적 보장
Oracle Inequality
| 참 함수 $f^*$가 $s = | S | $개 변수만 사용하는 희소 신경망으로 근사 가능하면, SPINN 추정량 $\hat{f}$에 대해: |
여기서 $\mathcal{F}$는 신경망 함수 공간, $S$는 활성 변수 집합이다.
핵심: 초과 위험이 $p$에 대해 $\log p$로만 증가한다. 이는 $p$가 수만에서 수십만이어도 SPINN이 적용 가능함을 의미한다. $s$에 대한 의존이 $s^{5/2}$인 것은 비선형 상호작용 모델링의 대가이며, Lasso의 $s$나 SpAM의 $s$보다 크지만 복잡한 함수 근사의 이점으로 상쇄된다.
불필요 변수 가중치의 수렴
불필요한 변수 $j \notin S$에 연결된 가중치:
\[\|\theta_{1, \cdot, j}\|_2 \xrightarrow{p} 0\]즉, 불필요한 입력 변수의 가중치가 확률적으로 0에 수렴한다. 이는 신경망에서 변수 선택의 일치성을 보장하는 최초의 이론적 결과이다.
Sieve 추정 관점
SPINN은 sieve estimation 관점에서도 해석할 수 있다. 표본 크기 $n$이 증가함에 따라 은닉 유닛 수와 층 수를 함께 증가시키면, 신경망 함수 공간이 점점 확대되어 참 함수를 근사한다. 구체적으로, 은닉 유닛 수 $h = O(n^{d/(2+d)})$로 설정하면 비모수적 최적 수렴률에 근접한다.
기존 방법과의 이론적 비교
| 방법 | 초과 위험 수렴률 | 상호작용 모델링 | 고차원 적용 |
|---|---|---|---|
| Lasso | $O(s \log p / n)$ | 불가 (선형) | 가능 |
| SpAM | $O(s n^{-2/3})$ | 불가 (가법) | 가능 |
| SPINN | $O(s^{5/2} \log p / n)$ | 가능 | 가능 |
| Random Forest | 이론적 보장 부족 | 가능 | 취약 |
SPINN은 상호작용을 모델링하면서도 고차원에서 $\log p$ 스케일링을 달성하는 유일한 방법이다. Lasso와 SpAM은 각각 선형성과 가법성이라는 강한 구조적 가정을 필요로 하는 반면, SPINN은 이러한 가정 없이도 이론적 보장을 제공한다.
결론
SPINN은 첫 번째 층에 Sparse Group Lasso를 적용하여 고차원 비모수 회귀에서 변수 선택과 복잡한 함수 추정을 동시에 수행한다. Oracle inequality에 의한 $O_p(n^{-1} s^{5/2} \log p)$ 수렴률은 고차원에서도 실용적 적용이 가능함을 보장하며, GIST 알고리즘은 비미분 가능 페널티의 효율적 최적화를 가능하게 한다.
Reference
Feng, J. & Simon, N. (2019). Sparse-Input Neural Networks for High-dimensional Nonparametric Regression and Classification. arXiv:1711.07592.