Jokyokai 2

Introduction Mixed-Norm-Elasticnet-MKL Mini-max レート Lp -MKL の収束レート Conclusion References
. . . . . . . . . . . . . . . .
.
.
Fast Convergence Rate of
Multiple Kernel Learning
with Elastic-Net Regularization
.
.. .
.
† † ‡
鈴木大慈冨岡亮太杉山将
†
東京大学大学院
情報理工学系研究科
‡
東京工業大学大学院
情報理工学研究科
2011 年 4 月 25 日
助教会発表資料
. . . . . .
. . . . . . . . . . . . . . . .
Outline
.
. .1 Introduction
MKL とその拡張
本研究の概要
.
. .2 Mixed-Norm-Elasticnet-MKL
準備
Mixed-Elasticnet-MKL の収束レート
.
. .3 Mini-max レート
.
. .4 Lp -MKL の収束レート
.
. .5 Conclusion
. . . . . .
. . . . . . . . . . . . . . . .
Outline
.
. .1 Introduction
MKL とその拡張
本研究の概要
.
準備
.
.
.
. .5 Conclusion
. . . . . .
. . . . . . . . . . . . . . . .
MKL とその拡張
教師有りカーネル法
カーネル関数 ⇔ 再生核ヒルベルト空間 (RKHS)
k(x, x ′ ) ⇔ Hk
教師有り学習問題
1∑
n
fˆ ← min ℓ(yi , f (xi )) + C ∥f ∥Hk
f ∈Hk n
i=1
表現定理
∑
n
∃αi ∈ R s.t. fˆ(x) = αi k(xi , x)
i=1
. . . . . .
. . . . . . . . . . . . . . . .
MKL とその拡張
カーネルの選択
カーネル法の良い点：データの構造をカーネルに詰め込める．
Challenge：どのようなカーネルを用いるか？
ガウシアン, 多項式, カイ二乗, …
沢山の特徴量の候補
→ Multiple Kernel Leaning：

凸最適化でカーネルを選択・統合
. . . . . .
. . . . . . . . . . . . . . . .
MKL とその拡張
Multiple Kernel Learning
Single Kernel Learning
1∑
n
fˆ ← min ℓ(yi , f (xi )) + C ∥f ∥Hk
f ∈Hk n
i=1
Multiple Kernel Learning (Lanckriet et al., 2004; Bach et al., 2004)

( )
∑M
1∑
n ∑M ∑M
ˆ
f = fm ← min
ˆ ℓ yi , fm (xi ) + C ∥fm ∥Hm
fm ∈Hm n
m=1 m=1
i=1 m=1
(Hm : カーネル km に対応した RKHS)

Group Lasso の無限次元への拡張
スパースな解
表現定理により有限次元最適化で解ける (Sonnenburg et al., 2006;
Rakotomamonjy et al., 2008; Suzuki & Tomioka, 2009)
. . . . . .
. . . . . . . . . . . . . . . .
MKL とその拡張
様々な正則化
L1 -MKL (Lanckriet et al., 2004; Bach et al., 2004)：スパース
( M )
∑ ∑M
min L fm + C ∥fm ∥Hm
fm ∈Hm
m=1 m=1
L2 -MKL：デンス
( M )
∑ ∑
M
min L fm + C ∥fm ∥2Hm
fm ∈Hm
m=1 m=1
. . . . . .
. . . . . . . . . . . . . . . .
MKL とその拡張
様々な正則化
( M )
∑ ∑M
fm ∈Hm
m=1 m=1
L2 -MKL：デンス
( M )
∑ ∑
M
fm ∈Hm
m=1 m=1
Elasticnet-MKL (Tomioka & Suzuki, 2009)

( M )
∑ ∑M ∑
M
min L fm + C1 ∥fm ∥Hm + C2 ∥fm ∥2Hm
fm ∈Hm
m=1 m=1 m=1
Mixed-Norm-Elasticnet-MKL (Meier et al., 2009)

( M ) M √
∑ ∑ ∑
M
min L fm + C1 ∥fm ∥2n + C2 ∥fm ∥2Hm + C3 ∥fm ∥2Hm
fm ∈Hm
m=1 m=1 m=1
∑n
ただし，∥f ∥2n := 1
n i=1
2
f (xi ) .
. . . . . .
. . . . . . . . . . . . . . . .
MKL とその拡張
様々な正則化
( M )
∑ ∑M
fm ∈Hm
m=1 m=1
L2 -MKL：デンス
( M )
∑ ∑
M
fm ∈Hm
m=1 m=1
Elasticnet-MKL (Tomioka & Suzuki, 2009)

( M )
∑ ∑M ∑
M
min L fm + C1 ∥fm ∥Hm + C2 ∥fm ∥2Hm
fm ∈Hm
m=1 m=1 m=1
Mixed-Norm-Elasticnet-MKL (Meier et al., 2009) ←本日のターゲット

( M ) M √
∑ ∑ ∑
M
min L fm + C1 ∥fm ∥2n + C2 ∥fm ∥2Hm + C3 ∥fm ∥2Hm
fm ∈Hm
m=1 m=1 m=1
∑n
ただし，∥f ∥2n := 1
n i=1
2
f (xi ) .
. . . . . .
. . . . . . . . . . . . . . . .
本研究の概要
本日のお題
Mixed-Norm-Elasticnet-MKL の汎化誤差を導出．
既存のレートよりタイトなことを示す．
これからは regression
1∑
n
L(f ) = (f (xi ) − yi )2
n
i=1
を仮定．
真の関数を
∑
M
f ∗ (x) = fm∗ (x)(= E[Y |x])
m=1
と書く．
. . . . . .
. . . . . . . . . . . . . . . .
本研究の概要
既存の研究
∥fˆ − f ∗ ∥2L2 の収束レート，d は真の非ゼロ要素の数 d=|{m | ∥fm∗ ∥Hm̸=0}|.
L1 -MKL (Koltchinskii & Yuan, 2008):
( )
1−s
− 1+s
1 d log(M)
Op d n 1+s +
n
Mixed-Norm-Elasticnet-MKL (Meier et al., 2009): mini-max では
ない． ( ( ) 1 )
log(M) 1+s
Op d
n
∑ (Koltchinskii & Yuan, 2010): mini-max レート

Mixed-Norm-L1 -MKL
達成，正則化項は m (C1 ∥fm ∥n + C2 ∥fm ∥Hm )
( )
d log(M)
Op dn− 1+s +
1
n
Mini-max レート (Raskutti et al., 2009)
( )
− 1+s
1 d log(M/d)
Op dn +
n
. . . . . .
. . . . . . . . . . . . . . . .
本研究の概要
我々の結果（概要）
Mixed-Norm-Elasticnet-MKL の収束レート：
( )
1+q 1+q 2s
d log(M)
∥fˆ − f ∗ ∥2L2 = Op d 1+q+s n− 1+q+s R21+q+s + .
n
既存のレートよりタイト
真の関数 f ∗ の滑らかさ q を導入
真の関数 f ∗ の “ノルム”R2 との関係を解明
ℓ2 ボール上で mini-max 最適（既存のは ℓ∞ ボール上で最適）
. . . . . .
. . . . . . . . . . . . . . . .
本研究の概要
既存の結果との関係
滑らかさ (q) 最適性収束レート

1−s 1
K&Y (2008) q=1 ? d 1+s n− 1+s + d log(M)
( ) 1 n
log(M) 1+s
Meier et al. (2009) q=0 × d n
1
K&Y (2010) q=0 ℓ∞ -ball dn− 1+s +d log(M)
n
1+q
− 1+q+s
IBIS2010 0≤q≤1 ℓ∞ -ball dn + d log(M)
n
( d ) 1+q+s
1+q 2s
今回 0≤q≤1 ℓ2 -ball n
R2
1+q+s
+ d log(M)
n
より速く，より一般的
. . . . . .
. . . . . . . . . . . . . . . .
Outline
.
. .1 Introduction
MKL とその拡張
本研究の概要
.
準備
.
.
.
. .5 Conclusion
. . . . . .
. . . . . . . . . . . . . . . .
準備
真がスパースであると仮定．
I0 := {m | ∥fm∗ ∥Hm ̸= 0}
∥fm∗ ∥Hm > 0 (m ∈ I0 ),

∥fm∗ ∥Hm = 0 (m ∈ I0c ).
d = |I0 | (真の非ゼロ要素の数) とおく．
. . . . . .
. . . . . . . . . . . . . . . .
準備
Spectrum Condition (s)

0 < s < 1: モデルの複雑さを表わす．
Mercer の定理による分解：
∑∞
km (x, x ′ ) = ℓ=1 µℓ,m ϕℓ,m (x)ϕℓ,m (x ′ )
ただし，{ϕℓ,m }∞ ℓ=1 は L2 (P) 内の ONS.
.
Spectrum Condition (s) .
..
ある実数 0 < s < 1 が存在して，
µℓ,m ≤ C ℓ− s
1
. (∀ℓ, m).
.. .
.
s は RKHS の複雑さを表わす．
s が大きいと複雑，s が小さいと単純
.
Proposition (Steinwart et al. (2009)) .
..
µℓ,m ∼ ℓ− s ⇔ N(B(Hm ), ϵ, L2 (P)) ∼ ϵ−2s
1
.
.. .
.
. . . . . .
. . . . . . . . . . . . . . . .
準備
Convolution Condition (q)
0 ≤ q ≤ 1: 真 f ∗ の滑らかさを表わす．
Σm : Hm → Hm を ⟨f , Σm g ⟩Hm := E[f (X )g (X )] なるものと定義する．

.
Convolution Condition (q) (Caponnetto & de Vito, 2007) .
..
∗
ある実数 0 ≤ q ≤ 1 と gm ∈ Hm が存在して，
fm∗ = Σq/2
m gm
∗
と表せる．
.
.. .
.
∑∞ q/2
km (x, x ′ ) := ℓ=1 µℓ,m ϕℓ,m (x)ϕℓ,m (x ′ ) に対して，
(q/2)
∫
fm∗ (x) = (q/2)
km (x, x ′ )gm∗ (x ′ )dP(x ′ ),
と書けることと同値．
. . . . . .
. . . . . . . . . . . . . . . .
準備
s と q の関係
モデルモデル
モデル
f*
f* f*
(a) s 大，q = 0 (b) s 大，q > 0 (c) s 小，q > 0
. . . . . .
. . . . . . . . . . . . . . . .
準備
Incoherece Condition
.
Incoherece Condition (Koltchinskii & Yuan, 2008; Meier et al., 2009) .
..
ある定数 0 < C が存在して，
. 0 < C < κ(I0 )(1 − ρ2 (I0 )).

.. .
.
{ ∑ }
∥ m∈I fm ∥2L2
κ(I ) := sup κ ≥ 0 | κ ≤ ∑ 2 , ∀fm ∈ Hm (m ∈ I ) ,
m∈I ∥fm ∥L2
{ }
⟨fI , gI c ⟩L2
ρ(I ) := sup | fI ∈ HI , gI c ∈ HI c , fI ̸= 0, gI c ̸= 0 .
∥fI ∥L2 ∥gI c ∥L2
I0 の内側とも外側とも見分けがつく.
. . . . . .
. . . . . . . . . . . . . . . .
準備
その他の条件
.
Basic Condition .
.. ∑M
∗ ∗ ∗
E[Y |X ] = f (X ) = m=1 fm (X ) であり，ノイズ ϵ := Y − f (X ) は
有界：|ϵ| ≤ L.
. supX ∈X |km (X , X )| ≤ 1 (∀m).
.. .
.
.
∞-norm Bound Condition .
..
Spectrum Condition (s) と同時に次の不等式が満たされている：
∥fm ∥∞ ≤ C ∥fm ∥1−s

L2 (P) ∥fm ∥Hm .
s
.
.. .
.
Gaussian カーネルなど，Sobolev 空間に埋め込める空間はこれが成り
立っている．Mendelson and Neeman (2010); Steinwart et al. (2009) で
詳細な議論がされている．
. . . . . .
. . . . . . . . . . . . . . . .
我々の結果：Mixed-Norm-Elasticnet-MKL の収束レート
( ) M √
∑
M
(n)
∑ (n) (n)
∑
M
min L fm + λ1 ∥fm ∥2n + λ2 ∥fm ∥2Hm + λ3 ∥fm ∥2Hm .
fm ∈Hm
m=1 m=1 m=1
.
Theorem (Suzuki et al. (2011)) .
..
Spectrum Condition (s), Convolution Condition (q), Incoherence
Condition, Basic Condition, ∞-norm Bound Condition のもと，十分大き
(n) (n) (n)
な n において，あるパラメータ λ1 , λ2 , λ3 の値のもと，
( )
1+q 1+q 2s
d log(M)
∥fˆ − f ∗ ∥2L2 ≤ C ′ d 1+q+s n− 1+q+s R2,g
1+q+s
∗ + η(t)2 ,
n
√ √
が確率
. 1 − e− nt
− e− n
(∀t ≥ 1) で成り立つ．
.. .
.
√ √
ただし η(t) := max( t, t/ n) であり，R2,g ∗ を次のように定義する:
( ) 12
∑
M
R 2,g ∗ := ∥gm∗ ∥2Hm .
m=1
. . . . . .
. . . . . . . . . . . . . . . .
Bound の比較
q = 0 として具体的に比較
Koltchinskii and Yuan (2010) のレート： dn− 1+s +

1 d log(M)
n .
1+q 1+q 2s
我々のレート： d 1+q+s n− 1+q+s R2,g
1+q+s d log(M)
∗ + n .
...
1 ∥fm∗ ∥Hm = 1 (m = 1, . . . , d): 大きさ一様
我々のレート：dn− 1+s +
1 d log(M)
n
→ Koltchinskii and Yuan (2010) と同じ．
...
2 ∥fm∗ ∥Hm = m−1 (m = 1, . . . , d): 大きさ急減衰
我々のレート：d 1+s n− 1+s +
1 1 d log(M)
n s
→ Koltchinskii and Yuan (2010) より d 1+s 倍だけ速い．
※有限次元 (s = 0) では起きない現象．
. . . . . .
. . . . . . . . . . . . . . . .
Outline
.
. .1 Introduction
MKL とその拡張
本研究の概要
.
準備
.
.
.
. .5 Conclusion
. . . . . .
. . . . . . . . . . . . . . . .
Mini-max レート
Mini-max レート：どんな推定法も超えられないレート．

q
fm∗ = Σm2 gm∗ に注意する．
(∑ ) 12
.
..
1
M
m=1 ∥g ∗ 2
∥
m Hm ≤ R2 （g ∗ が半径 R2 の ℓ2 ボールに含まれる）
1+q 1+q 2s
d log(M/d)
d 1+q+s n− 1+q+s R21+q+s +
n
→我々のレートに一致．
. .. maxm ∥gm∗ ∥Hm ≤ R∞ （g ∗ が半径 R∞ の ℓ∞ ボールに含まれる）
2
1+q 2s
d log(M/d)
dn− 1+q+s R∞
1+q+s
+
n
→ q = 0, R∞ = 1 のとき，Koltchinskii and Yuan (2010) のレートに
一致．
. . . . . .
. . . . . . . . . . . . . . . .
Outline
.
. .1 Introduction
MKL とその拡張
本研究の概要
.
準備
.
.
.
. .5 Conclusion
. . . . . .
. . . . . . . . . . . . . . . .
Lp -MKL の収束レート
Lp -MKL (Kloft et al., 2009)
( M )
∑ (n)
∑
M
min L fm + λ1 ∥fm ∥pHm
fm ∈Hm
m=1 m=1
√ (∑ ) p1
∥fm∗ ∥pHm
M
η(t) := max( t, √tn ), Rp := m=1 とおく．
.
Theorem (Lp -MKL の収束レート) .
..
Spectrum Condition(s), Incoherence Condition, Basic Condition, ∞-norm
2s
1− − 2
Bound Condition のもと，λ1 = n− 1+s M
(n) 1 p(1+s)
Rp 1+s とすると，
( )
2s 2s M log(M)
∥fˆ − f ∗ ∥2L2 ≤ C n− 1+s M 1− p(1+s) Rp1+s +
1
η(t)2 ,
n
√
.が確率 1 − exp(−t) − exp(− n) で成り立つ．
.. .
.
これも Mini-max レートを達成． . . . . . .
. . . . . . . . . . . . . . . .
Outline
.
. .1 Introduction
MKL とその拡張
本研究の概要
.
準備
.
.
.
. .5 Conclusion
. . . . . .
. . . . . . . . . . . . . . . .
Conclusion
Mixed-Norm-Elasticnet–MKL の収束レートを導出．
既存研究よりタイトなレートを導出．
真 f ∗ の滑らかさ q を導入．
導出されたレートは ℓ2 ボール上の mini-max レートを達成．
Lp -MKL の収束レートも導出した．
本研究のプレプリント（arXiv）： http://arxiv.org/abs/1103.0431
slide: http://www.simplex.t.u-tokyo.ac.jp/˜s-taiji/data/IBISML2011.pdf
. . . . . .
. . . . . . . . . . . . . . . .
Bach, F., Lanckriet, G., & Jordan, M. (2004). Multiple kernel learning,
conic duality, and the SMO algorithm. the 21st International
Conference on Machine Learning (pp. 41–48).
Caponnetto, A., & de Vito, E. (2007). Optimal rates for regularized
least-squares algorithm. Foundations of Computational Mathematics,
7, 331–368.
Kloft, M., Brefeld, U., Sonnenburg, S., Laskov, P., Müller, K.-R., & Zien,
A. (2009). Efficient and accurate ℓp -norm multiple kernel learning.
Advances in Neural Information Processing Systems 22 (pp.
997–1005). Cambridge, MA: MIT Press.
Koltchinskii, V., & Yuan, M. (2008). Sparse recovery in large ensembles
of kernel machines. Proceedings of the Annual Conference on Learning
Theory (pp. 229–238).
Koltchinskii, V., & Yuan, M. (2010). Sparsity in multiple kernel learning.
The Annals of Statistics, 38, 3660–3695.
Lanckriet, G., Cristianini, N., Ghaoui, L. E., Bartlett, P., & Jordan, M.
(2004). Learning the kernel matrix with semi-definite programming.
Journal of Machine Learning Research, 5, 27–72.
Meier, L., van de Geer, S., & Bühlmann, P. (2009). High-dimensional
additive modeling. The Annals of Statistics, 37, . 3779–3821.
. . . . .
. . . . . . . . . . . . . . . .
Mendelson, S., & Neeman, J. (2010). Regularization in kernel learning.

The Annals of Statistics, 38, 526–565.
Rakotomamonjy, A., Bach, F., Canu, S., & Y., G. (2008). SimpleMKL.
Journal of Machine Learning Research, 9, 2491–2521.
Raskutti, G., Wainwright, M., & Yu, B. (2009). Lower bounds on
minimax rates for nonparametric regression with additive sparsity and
smoothness. In Advances in neural information processing systems 22,
1563–1570. Cambridge, MA: MIT Press.
Sonnenburg, S., Rätsch, G., Schäfer, C., & Schölkopf, B. (2006). Large
scale multiple kernel learning. Journal of Machine Learning Research,
7, 1531–1565.
Steinwart, I., Hush, D., & Scovel, C. (2009). Optimal rates for
regularized least squares regression. Proceedings of the Annual
Conference on Learning Theory (pp. 79–93).
Suzuki, T., & Tomioka, R. (2009). SpicyMKL. arXiv:0909.5026.
Suzuki, T., Tomioka, R., & Sugiyama, M. (2011). Fast convergence rate
of multiple kernel learning with elastic-net regularization.
arXiv:1103.0431.
. . . . . .
. . . . . . . . . . . . . . . .
Tomioka, R., & Suzuki, T. (2009). Sparsity-accuracy trade-off in MKL.

NIPS 2009 Workshop:: Understanding Multiple Kernel Learning
Methods. Whistler. arXiv:1001.2615.
. . . . . .

Jokyokai 2

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Jokyokai 2

Uploaded by

Copyright:

Available Formats

Introduction Mixed-Norm-Elasticnet-MKL Mini-max レート Lp -MKL の収束レート Conclusion References

→ Multiple Kernel Leaning：

Multiple Kernel Learning

Single Kernel Learning

Multiple Kernel Learning (Lanckriet et al., 2004; Bach et al., 2004)

(Hm : カーネル km に対応した RKHS)

Elasticnet-MKL (Tomioka & Suzuki, 2009)

Mixed-Norm-Elasticnet-MKL (Meier et al., 2009)

Elasticnet-MKL (Tomioka & Suzuki, 2009)

Mixed-Norm-Elasticnet-MKL (Meier et al., 2009) ←本日のターゲット

∑ (Koltchinskii & Yuan, 2010): mini-max レート

滑らかさ (q) 最適性 収束レート

∥fm∗ ∥Hm > 0 (m ∈ I0 ),

d = |I0 | (真の非ゼロ要素の数) とおく．

Spectrum Condition (s)

Convolution Condition (q)

Σm : Hm → Hm を ⟨f , Σm g ⟩Hm := E[f (X )g (X )] なるものと定義する．

(a) s 大，q = 0 (b) s 大，q > 0 (c) s 小，q > 0

. 0 < C < κ(I0 )(1 − ρ2 (I0 )).

∥fm ∥∞ ≤ C ∥fm ∥1−s

Koltchinskii and Yuan (2010) のレート： dn− 1+s +

Mini-max レート：どんな推定法も 超えられないレート．

Mendelson, S., & Neeman, J. (2010). Regularization in kernel learning.

Tomioka, R., & Suzuki, T. (2009). Sparsity-accuracy trade-oﬀ in MKL.

You might also like

滑らかさ (q) 最適性収束レート

Mini-max レート：どんな推定法も超えられないレート．