Professional Documents
Culture Documents
. . . . . . . . . . . . . . . .
.
.
Fast Convergence Rate of
Multiple Kernel Learning
with Elastic-Net Regularization
.
.. .
.
† † ‡
鈴木 大慈 冨岡 亮太 杉山 将
†
東京大学大学院
情報理工学系研究科
‡
東京工業大学大学院
情報理工学研究科
2011 年 4 月 25 日
助教会発表資料
. . . . . .
Introduction Mixed-Norm-Elasticnet-MKL Mini-max レート Lp -MKL の収束レート Conclusion References
. . . . . . . . . . . . . . . .
Outline
.
. .1 Introduction
MKL とその拡張
本研究の概要
.
. .2 Mixed-Norm-Elasticnet-MKL
準備
Mixed-Elasticnet-MKL の収束レート
.
. .3 Mini-max レート
.
. .4 Lp -MKL の収束レート
.
. .5 Conclusion
. . . . . .
Introduction Mixed-Norm-Elasticnet-MKL Mini-max レート Lp -MKL の収束レート Conclusion References
. . . . . . . . . . . . . . . .
Outline
.
. .1 Introduction
MKL とその拡張
本研究の概要
.
. .2 Mixed-Norm-Elasticnet-MKL
準備
Mixed-Elasticnet-MKL の収束レート
.
. .3 Mini-max レート
.
. .4 Lp -MKL の収束レート
.
. .5 Conclusion
. . . . . .
Introduction Mixed-Norm-Elasticnet-MKL Mini-max レート Lp -MKL の収束レート Conclusion References
. . . . . . . . . . . . . . . .
MKL とその拡張
教師有りカーネル法
カーネル関数 ⇔ 再生核ヒルベルト空間 (RKHS)
k(x, x ′ ) ⇔ Hk
教師有り学習問題
1∑
n
fˆ ← min ℓ(yi , f (xi )) + C ∥f ∥Hk
f ∈Hk n
i=1
表現定理
∑
n
∃αi ∈ R s.t. fˆ(x) = αi k(xi , x)
i=1
. . . . . .
Introduction Mixed-Norm-Elasticnet-MKL Mini-max レート Lp -MKL の収束レート Conclusion References
. . . . . . . . . . . . . . . .
MKL とその拡張
カーネルの選択
カーネル法の良い点:データの構造をカーネルに詰め込める.
Challenge:どのようなカーネルを用いるか?
ガウシアン, 多項式, カイ二乗, …
沢山の特徴量の候補
. . . . . .
Introduction Mixed-Norm-Elasticnet-MKL Mini-max レート Lp -MKL の収束レート Conclusion References
. . . . . . . . . . . . . . . .
MKL とその拡張
1∑
n
fˆ ← min ℓ(yi , f (xi )) + C ∥f ∥Hk
f ∈Hk n
i=1
. . . . . .
Introduction Mixed-Norm-Elasticnet-MKL Mini-max レート Lp -MKL の収束レート Conclusion References
. . . . . . . . . . . . . . . .
MKL とその拡張
様々な正則化
L1 -MKL (Lanckriet et al., 2004; Bach et al., 2004):スパース
( M )
∑ ∑M
min L fm + C ∥fm ∥Hm
fm ∈Hm
m=1 m=1
L2 -MKL:デンス
( M )
∑ ∑
M
min L fm + C ∥fm ∥2Hm
fm ∈Hm
m=1 m=1
. . . . . .
Introduction Mixed-Norm-Elasticnet-MKL Mini-max レート Lp -MKL の収束レート Conclusion References
. . . . . . . . . . . . . . . .
MKL とその拡張
様々な正則化
L1 -MKL (Lanckriet et al., 2004; Bach et al., 2004):スパース
( M )
∑ ∑M
min L fm + C ∥fm ∥Hm
fm ∈Hm
m=1 m=1
L2 -MKL:デンス
( M )
∑ ∑
M
min L fm + C ∥fm ∥2Hm
fm ∈Hm
m=1 m=1
様々な正則化
L1 -MKL (Lanckriet et al., 2004; Bach et al., 2004):スパース
( M )
∑ ∑M
min L fm + C ∥fm ∥Hm
fm ∈Hm
m=1 m=1
L2 -MKL:デンス
( M )
∑ ∑
M
min L fm + C ∥fm ∥2Hm
fm ∈Hm
m=1 m=1
本日のお題
Mixed-Norm-Elasticnet-MKL の汎化誤差を導出.
既存のレートよりタイトなことを示す.
これからは regression
1∑
n
L(f ) = (f (xi ) − yi )2
n
i=1
を仮定.
真の関数を
∑
M
f ∗ (x) = fm∗ (x)(= E[Y |x])
m=1
と書く.
. . . . . .
Introduction Mixed-Norm-Elasticnet-MKL Mini-max レート Lp -MKL の収束レート Conclusion References
. . . . . . . . . . . . . . . .
本研究の概要
既存の研究
∥fˆ − f ∗ ∥2L2 の収束レート,d は真の非ゼロ要素の数 d=|{m | ∥fm∗ ∥Hm̸=0}|.
L1 -MKL (Koltchinskii & Yuan, 2008):
( )
1−s
− 1+s
1 d log(M)
Op d n 1+s +
n
Mixed-Norm-Elasticnet-MKL (Meier et al., 2009): mini-max では
ない. ( ( ) 1 )
log(M) 1+s
Op d
n
n
Mini-max レート (Raskutti et al., 2009)
( )
− 1+s
1 d log(M/d)
Op dn +
n
. . . . . .
Introduction Mixed-Norm-Elasticnet-MKL Mini-max レート Lp -MKL の収束レート Conclusion References
. . . . . . . . . . . . . . . .
本研究の概要
我々の結果(概要)
Mixed-Norm-Elasticnet-MKL の収束レート:
( )
1+q 1+q 2s
d log(M)
∥fˆ − f ∗ ∥2L2 = Op d 1+q+s n− 1+q+s R21+q+s + .
n
既存のレートよりタイト
真の関数 f ∗ の滑らかさ q を導入
真の関数 f ∗ の “ノルム”R2 との関係を解明
ℓ2 ボール上で mini-max 最適(既存のは ℓ∞ ボール上で最適)
. . . . . .
Introduction Mixed-Norm-Elasticnet-MKL Mini-max レート Lp -MKL の収束レート Conclusion References
. . . . . . . . . . . . . . . .
本研究の概要
既存の結果との関係
より速く,より一般的
. . . . . .
Introduction Mixed-Norm-Elasticnet-MKL Mini-max レート Lp -MKL の収束レート Conclusion References
. . . . . . . . . . . . . . . .
Outline
.
. .1 Introduction
MKL とその拡張
本研究の概要
.
. .2 Mixed-Norm-Elasticnet-MKL
準備
Mixed-Elasticnet-MKL の収束レート
.
. .3 Mini-max レート
.
. .4 Lp -MKL の収束レート
.
. .5 Conclusion
. . . . . .
Introduction Mixed-Norm-Elasticnet-MKL Mini-max レート Lp -MKL の収束レート Conclusion References
. . . . . . . . . . . . . . . .
準備
真がスパースであると仮定.
I0 := {m | ∥fm∗ ∥Hm ̸= 0}
. . . . . .
Introduction Mixed-Norm-Elasticnet-MKL Mini-max レート Lp -MKL の収束レート Conclusion References
. . . . . . . . . . . . . . . .
準備
Mercer の定理による分解:
∑∞
km (x, x ′ ) = ℓ=1 µℓ,m ϕℓ,m (x)ϕℓ,m (x ′ )
ただし,{ϕℓ,m }∞ ℓ=1 は L2 (P) 内の ONS.
.
Spectrum Condition (s) .
..
ある実数 0 < s < 1 が存在して,
µℓ,m ≤ C ℓ− s
1
. (∀ℓ, m).
.. .
.
s は RKHS の複雑さを表わす.
s が大きいと複雑,s が小さいと単純
.
Proposition (Steinwart et al. (2009)) .
..
µℓ,m ∼ ℓ− s ⇔ N(B(Hm ), ϵ, L2 (P)) ∼ ϵ−2s
1
.
.. .
.
. . . . . .
Introduction Mixed-Norm-Elasticnet-MKL Mini-max レート Lp -MKL の収束レート Conclusion References
. . . . . . . . . . . . . . . .
準備
0 ≤ q ≤ 1: 真 f ∗ の滑らかさを表わす.
fm∗ = Σq/2
m gm
∗
と表せる.
.
.. .
.
∑∞ q/2
km (x, x ′ ) := ℓ=1 µℓ,m ϕℓ,m (x)ϕℓ,m (x ′ ) に対して,
(q/2)
∫
fm∗ (x) = (q/2)
km (x, x ′ )gm∗ (x ′ )dP(x ′ ),
と書けることと同値.
. . . . . .
Introduction Mixed-Norm-Elasticnet-MKL Mini-max レート Lp -MKL の収束レート Conclusion References
. . . . . . . . . . . . . . . .
準備
s と q の関係
モデル モデル
モデル
f*
f* f*
. . . . . .
Introduction Mixed-Norm-Elasticnet-MKL Mini-max レート Lp -MKL の収束レート Conclusion References
. . . . . . . . . . . . . . . .
準備
Incoherece Condition
.
Incoherece Condition (Koltchinskii & Yuan, 2008; Meier et al., 2009) .
..
ある定数 0 < C が存在して,
.
{ ∑ }
∥ m∈I fm ∥2L2
κ(I ) := sup κ ≥ 0 | κ ≤ ∑ 2 , ∀fm ∈ Hm (m ∈ I ) ,
m∈I ∥fm ∥L2
{ }
⟨fI , gI c ⟩L2
ρ(I ) := sup | fI ∈ HI , gI c ∈ HI c , fI ̸= 0, gI c ̸= 0 .
∥fI ∥L2 ∥gI c ∥L2
I0 の内側とも外側とも見分けがつく.
. . . . . .
Introduction Mixed-Norm-Elasticnet-MKL Mini-max レート Lp -MKL の収束レート Conclusion References
. . . . . . . . . . . . . . . .
準備
その他の条件
.
Basic Condition .
.. ∑M
∗ ∗ ∗
E[Y |X ] = f (X ) = m=1 fm (X ) であり,ノイズ ϵ := Y − f (X ) は
有界:|ϵ| ≤ L.
. supX ∈X |km (X , X )| ≤ 1 (∀m).
.. .
.
.
∞-norm Bound Condition .
..
Spectrum Condition (s) と同時に次の不等式が満たされている:
.
Gaussian カーネルなど,Sobolev 空間に埋め込める空間はこれが成り
立っている.Mendelson and Neeman (2010); Steinwart et al. (2009) で
詳細な議論がされている.
. . . . . .
Introduction Mixed-Norm-Elasticnet-MKL Mini-max レート Lp -MKL の収束レート Conclusion References
. . . . . . . . . . . . . . . .
Mixed-Elasticnet-MKL の収束レート
我々の結果:Mixed-Norm-Elasticnet-MKL の収束レート
( ) M √
∑
M
(n)
∑ (n) (n)
∑
M
min L fm + λ1 ∥fm ∥2n + λ2 ∥fm ∥2Hm + λ3 ∥fm ∥2Hm .
fm ∈Hm
m=1 m=1 m=1
.
Theorem (Suzuki et al. (2011)) .
..
Spectrum Condition (s), Convolution Condition (q), Incoherence
Condition, Basic Condition, ∞-norm Bound Condition のもと,十分大き
(n) (n) (n)
な n において,あるパラメータ λ1 , λ2 , λ3 の値のもと,
( )
1+q 1+q 2s
d log(M)
∥fˆ − f ∗ ∥2L2 ≤ C ′ d 1+q+s n− 1+q+s R2,g
1+q+s
∗ + η(t)2 ,
n
√ √
が確率
. 1 − e− nt
− e− n
(∀t ≥ 1) で成り立つ.
.. .
.
√ √
ただし η(t) := max( t, t/ n) であり,R2,g ∗ を次のように定義する:
( ) 12
∑
M
R 2,g ∗ := ∥gm∗ ∥2Hm .
m=1
. . . . . .
Introduction Mixed-Norm-Elasticnet-MKL Mini-max レート Lp -MKL の収束レート Conclusion References
. . . . . . . . . . . . . . . .
Mixed-Elasticnet-MKL の収束レート
Bound の比較
q = 0 として具体的に比較
...
1 ∥fm∗ ∥Hm = 1 (m = 1, . . . , d): 大きさ一様
我々のレート:dn− 1+s +
1 d log(M)
n
→ Koltchinskii and Yuan (2010) と同じ.
...
2 ∥fm∗ ∥Hm = m−1 (m = 1, . . . , d): 大きさ急減衰
我々のレート:d 1+s n− 1+s +
1 1 d log(M)
n s
→ Koltchinskii and Yuan (2010) より d 1+s 倍だけ速い.
※有限次元 (s = 0) では起きない現象.
. . . . . .
Introduction Mixed-Norm-Elasticnet-MKL Mini-max レート Lp -MKL の収束レート Conclusion References
. . . . . . . . . . . . . . . .
Outline
.
. .1 Introduction
MKL とその拡張
本研究の概要
.
. .2 Mixed-Norm-Elasticnet-MKL
準備
Mixed-Elasticnet-MKL の収束レート
.
. .3 Mini-max レート
.
. .4 Lp -MKL の収束レート
.
. .5 Conclusion
. . . . . .
Introduction Mixed-Norm-Elasticnet-MKL Mini-max レート Lp -MKL の収束レート Conclusion References
. . . . . . . . . . . . . . . .
Mini-max レート
1+q 1+q 2s
d log(M/d)
d 1+q+s n− 1+q+s R21+q+s +
n
→我々のレートに一致.
. .. maxm ∥gm∗ ∥Hm ≤ R∞ (g ∗ が半径 R∞ の ℓ∞ ボールに含まれる)
2
1+q 2s
d log(M/d)
dn− 1+q+s R∞
1+q+s
+
n
→ q = 0, R∞ = 1 のとき,Koltchinskii and Yuan (2010) のレートに
一致.
. . . . . .
Introduction Mixed-Norm-Elasticnet-MKL Mini-max レート Lp -MKL の収束レート Conclusion References
. . . . . . . . . . . . . . . .
Outline
.
. .1 Introduction
MKL とその拡張
本研究の概要
.
. .2 Mixed-Norm-Elasticnet-MKL
準備
Mixed-Elasticnet-MKL の収束レート
.
. .3 Mini-max レート
.
. .4 Lp -MKL の収束レート
.
. .5 Conclusion
. . . . . .
Introduction Mixed-Norm-Elasticnet-MKL Mini-max レート Lp -MKL の収束レート Conclusion References
. . . . . . . . . . . . . . . .
Lp -MKL の収束レート
Lp -MKL (Kloft et al., 2009)
( M )
∑ (n)
∑
M
min L fm + λ1 ∥fm ∥pHm
fm ∈Hm
m=1 m=1
√ (∑ ) p1
∥fm∗ ∥pHm
M
η(t) := max( t, √tn ), Rp := m=1 とおく.
.
Theorem (Lp -MKL の収束レート) .
..
Spectrum Condition(s), Incoherence Condition, Basic Condition, ∞-norm
2s
1− − 2
Bound Condition のもと,λ1 = n− 1+s M
(n) 1 p(1+s)
Rp 1+s とすると,
( )
2s 2s M log(M)
∥fˆ − f ∗ ∥2L2 ≤ C n− 1+s M 1− p(1+s) Rp1+s +
1
η(t)2 ,
n
√
.が確率 1 − exp(−t) − exp(− n) で成り立つ.
.. .
.
これも Mini-max レートを達成. . . . . . .
Introduction Mixed-Norm-Elasticnet-MKL Mini-max レート Lp -MKL の収束レート Conclusion References
. . . . . . . . . . . . . . . .
Outline
.
. .1 Introduction
MKL とその拡張
本研究の概要
.
. .2 Mixed-Norm-Elasticnet-MKL
準備
Mixed-Elasticnet-MKL の収束レート
.
. .3 Mini-max レート
.
. .4 Lp -MKL の収束レート
.
. .5 Conclusion
. . . . . .
Introduction Mixed-Norm-Elasticnet-MKL Mini-max レート Lp -MKL の収束レート Conclusion References
. . . . . . . . . . . . . . . .
Conclusion
Mixed-Norm-Elasticnet–MKL の収束レートを導出.
既存研究よりタイトなレートを導出.
真 f ∗ の滑らかさ q を導入.
導出されたレートは ℓ2 ボール上の mini-max レートを達成.
Lp -MKL の収束レートも導出した.
本研究のプレプリント(arXiv) : http://arxiv.org/abs/1103.0431
slide: http://www.simplex.t.u-tokyo.ac.jp/˜s-taiji/data/IBISML2011.pdf
. . . . . .
Introduction Mixed-Norm-Elasticnet-MKL Mini-max レート Lp -MKL の収束レート Conclusion References
. . . . . . . . . . . . . . . .
Bach, F., Lanckriet, G., & Jordan, M. (2004). Multiple kernel learning,
conic duality, and the SMO algorithm. the 21st International
Conference on Machine Learning (pp. 41–48).
Caponnetto, A., & de Vito, E. (2007). Optimal rates for regularized
least-squares algorithm. Foundations of Computational Mathematics,
7, 331–368.
Kloft, M., Brefeld, U., Sonnenburg, S., Laskov, P., Müller, K.-R., & Zien,
A. (2009). Efficient and accurate ℓp -norm multiple kernel learning.
Advances in Neural Information Processing Systems 22 (pp.
997–1005). Cambridge, MA: MIT Press.
Koltchinskii, V., & Yuan, M. (2008). Sparse recovery in large ensembles
of kernel machines. Proceedings of the Annual Conference on Learning
Theory (pp. 229–238).
Koltchinskii, V., & Yuan, M. (2010). Sparsity in multiple kernel learning.
The Annals of Statistics, 38, 3660–3695.
Lanckriet, G., Cristianini, N., Ghaoui, L. E., Bartlett, P., & Jordan, M.
(2004). Learning the kernel matrix with semi-definite programming.
Journal of Machine Learning Research, 5, 27–72.
Meier, L., van de Geer, S., & Bühlmann, P. (2009). High-dimensional
additive modeling. The Annals of Statistics, 37, . 3779–3821.
. . . . .
Introduction Mixed-Norm-Elasticnet-MKL Mini-max レート Lp -MKL の収束レート Conclusion References
. . . . . . . . . . . . . . . .
. . . . . .