You are on page 1of 31

Introduction Mixed-Norm-Elasticnet-MKL Mini-max レート Lp -MKL の収束レート Conclusion References

. . . . . . . . . . . . . . . .

.
.
Fast Convergence Rate of
Multiple Kernel Learning
with Elastic-Net Regularization
.
.. .

.
† † ‡
鈴木 大慈 冨岡 亮太 杉山 将


東京大学大学院
情報理工学系研究科

東京工業大学大学院
情報理工学研究科

2011 年 4 月 25 日
助教会発表資料

. . . . . .
Introduction Mixed-Norm-Elasticnet-MKL Mini-max レート Lp -MKL の収束レート Conclusion References
. . . . . . . . . . . . . . . .

Outline

.
. .1 Introduction
MKL とその拡張
本研究の概要

.
. .2 Mixed-Norm-Elasticnet-MKL
準備
Mixed-Elasticnet-MKL の収束レート

.
. .3 Mini-max レート

.
. .4 Lp -MKL の収束レート

.
. .5 Conclusion

. . . . . .
Introduction Mixed-Norm-Elasticnet-MKL Mini-max レート Lp -MKL の収束レート Conclusion References
. . . . . . . . . . . . . . . .

Outline

.
. .1 Introduction
MKL とその拡張
本研究の概要

.
. .2 Mixed-Norm-Elasticnet-MKL
準備
Mixed-Elasticnet-MKL の収束レート

.
. .3 Mini-max レート

.
. .4 Lp -MKL の収束レート

.
. .5 Conclusion

. . . . . .
Introduction Mixed-Norm-Elasticnet-MKL Mini-max レート Lp -MKL の収束レート Conclusion References
. . . . . . . . . . . . . . . .
MKL とその拡張

教師有りカーネル法
カーネル関数 ⇔ 再生核ヒルベルト空間 (RKHS)

k(x, x ′ ) ⇔ Hk

教師有り学習問題

1∑
n
fˆ ← min ℓ(yi , f (xi )) + C ∥f ∥Hk
f ∈Hk n
i=1

表現定理

n
∃αi ∈ R s.t. fˆ(x) = αi k(xi , x)
i=1

. . . . . .
Introduction Mixed-Norm-Elasticnet-MKL Mini-max レート Lp -MKL の収束レート Conclusion References
. . . . . . . . . . . . . . . .
MKL とその拡張

カーネルの選択

カーネル法の良い点:データの構造をカーネルに詰め込める.

Challenge:どのようなカーネルを用いるか?
ガウシアン, 多項式, カイ二乗, …
沢山の特徴量の候補

→ Multiple Kernel Leaning:


凸最適化でカーネルを選択・統合

. . . . . .
Introduction Mixed-Norm-Elasticnet-MKL Mini-max レート Lp -MKL の収束レート Conclusion References
. . . . . . . . . . . . . . . .
MKL とその拡張

Multiple Kernel Learning

Single Kernel Learning

1∑
n
fˆ ← min ℓ(yi , f (xi )) + C ∥f ∥Hk
f ∈Hk n
i=1

Multiple Kernel Learning (Lanckriet et al., 2004; Bach et al., 2004)


( )
∑M
1∑
n ∑M ∑M
ˆ
f = fm ← min
ˆ ℓ yi , fm (xi ) + C ∥fm ∥Hm
fm ∈Hm n
m=1 m=1
i=1 m=1

(Hm : カーネル km に対応した RKHS)


Group Lasso の無限次元への拡張
スパースな解
表現定理により有限次元最適化で解ける (Sonnenburg et al., 2006;
Rakotomamonjy et al., 2008; Suzuki & Tomioka, 2009)

. . . . . .
Introduction Mixed-Norm-Elasticnet-MKL Mini-max レート Lp -MKL の収束レート Conclusion References
. . . . . . . . . . . . . . . .
MKL とその拡張

様々な正則化
L1 -MKL (Lanckriet et al., 2004; Bach et al., 2004):スパース
( M )
∑ ∑M
min L fm + C ∥fm ∥Hm
fm ∈Hm
m=1 m=1

L2 -MKL:デンス
( M )
∑ ∑
M
min L fm + C ∥fm ∥2Hm
fm ∈Hm
m=1 m=1

. . . . . .
Introduction Mixed-Norm-Elasticnet-MKL Mini-max レート Lp -MKL の収束レート Conclusion References
. . . . . . . . . . . . . . . .
MKL とその拡張

様々な正則化
L1 -MKL (Lanckriet et al., 2004; Bach et al., 2004):スパース
( M )
∑ ∑M
min L fm + C ∥fm ∥Hm
fm ∈Hm
m=1 m=1

L2 -MKL:デンス
( M )
∑ ∑
M
min L fm + C ∥fm ∥2Hm
fm ∈Hm
m=1 m=1

Elasticnet-MKL (Tomioka & Suzuki, 2009)


( M )
∑ ∑M ∑
M
min L fm + C1 ∥fm ∥Hm + C2 ∥fm ∥2Hm
fm ∈Hm
m=1 m=1 m=1

Mixed-Norm-Elasticnet-MKL (Meier et al., 2009)


( M ) M √
∑ ∑ ∑
M
min L fm + C1 ∥fm ∥2n + C2 ∥fm ∥2Hm + C3 ∥fm ∥2Hm
fm ∈Hm
m=1 m=1 m=1
∑n
ただし,∥f ∥2n := 1
n i=1
2
f (xi ) .
. . . . . .
Introduction Mixed-Norm-Elasticnet-MKL Mini-max レート Lp -MKL の収束レート Conclusion References
. . . . . . . . . . . . . . . .
MKL とその拡張

様々な正則化
L1 -MKL (Lanckriet et al., 2004; Bach et al., 2004):スパース
( M )
∑ ∑M
min L fm + C ∥fm ∥Hm
fm ∈Hm
m=1 m=1

L2 -MKL:デンス
( M )
∑ ∑
M
min L fm + C ∥fm ∥2Hm
fm ∈Hm
m=1 m=1

Elasticnet-MKL (Tomioka & Suzuki, 2009)


( M )
∑ ∑M ∑
M
min L fm + C1 ∥fm ∥Hm + C2 ∥fm ∥2Hm
fm ∈Hm
m=1 m=1 m=1

Mixed-Norm-Elasticnet-MKL (Meier et al., 2009) ←本日のターゲット


( M ) M √
∑ ∑ ∑
M
min L fm + C1 ∥fm ∥2n + C2 ∥fm ∥2Hm + C3 ∥fm ∥2Hm
fm ∈Hm
m=1 m=1 m=1
∑n
ただし,∥f ∥2n := 1
n i=1
2
f (xi ) .
. . . . . .
Introduction Mixed-Norm-Elasticnet-MKL Mini-max レート Lp -MKL の収束レート Conclusion References
. . . . . . . . . . . . . . . .
本研究の概要

本日のお題

Mixed-Norm-Elasticnet-MKL の汎化誤差を導出.
既存のレートよりタイトなことを示す.

これからは regression

1∑
n
L(f ) = (f (xi ) − yi )2
n
i=1

を仮定.
真の関数を

M
f ∗ (x) = fm∗ (x)(= E[Y |x])
m=1

と書く.

. . . . . .
Introduction Mixed-Norm-Elasticnet-MKL Mini-max レート Lp -MKL の収束レート Conclusion References
. . . . . . . . . . . . . . . .
本研究の概要

既存の研究
∥fˆ − f ∗ ∥2L2 の収束レート,d は真の非ゼロ要素の数 d=|{m | ∥fm∗ ∥Hm̸=0}|.
L1 -MKL (Koltchinskii & Yuan, 2008):
( )
1−s
− 1+s
1 d log(M)
Op d n 1+s +
n
Mixed-Norm-Elasticnet-MKL (Meier et al., 2009): mini-max では
ない. ( ( ) 1 )
log(M) 1+s
Op d
n

∑ (Koltchinskii & Yuan, 2010): mini-max レート


Mixed-Norm-L1 -MKL
達成,正則化項は m (C1 ∥fm ∥n + C2 ∥fm ∥Hm )
( )
d log(M)
Op dn− 1+s +
1

n
Mini-max レート (Raskutti et al., 2009)
( )
− 1+s
1 d log(M/d)
Op dn +
n
. . . . . .
Introduction Mixed-Norm-Elasticnet-MKL Mini-max レート Lp -MKL の収束レート Conclusion References
. . . . . . . . . . . . . . . .
本研究の概要

我々の結果(概要)

Mixed-Norm-Elasticnet-MKL の収束レート:
( )
1+q 1+q 2s
d log(M)
∥fˆ − f ∗ ∥2L2 = Op d 1+q+s n− 1+q+s R21+q+s + .
n

既存のレートよりタイト
真の関数 f ∗ の滑らかさ q を導入
真の関数 f ∗ の “ノルム”R2 との関係を解明
ℓ2 ボール上で mini-max 最適(既存のは ℓ∞ ボール上で最適)

. . . . . .
Introduction Mixed-Norm-Elasticnet-MKL Mini-max レート Lp -MKL の収束レート Conclusion References
. . . . . . . . . . . . . . . .
本研究の概要

既存の結果との関係

滑らかさ (q) 最適性 収束レート


1−s 1
K&Y (2008) q=1 ? d 1+s n− 1+s + d log(M)
( ) 1 n
log(M) 1+s
Meier et al. (2009) q=0 × d n
1
K&Y (2010) q=0 ℓ∞ -ball dn− 1+s +d log(M)
n
1+q
− 1+q+s
IBIS2010 0≤q≤1 ℓ∞ -ball dn + d log(M)
n
( d ) 1+q+s
1+q 2s
今回 0≤q≤1 ℓ2 -ball n
R2
1+q+s
+ d log(M)
n

より速く,より一般的

. . . . . .
Introduction Mixed-Norm-Elasticnet-MKL Mini-max レート Lp -MKL の収束レート Conclusion References
. . . . . . . . . . . . . . . .

Outline

.
. .1 Introduction
MKL とその拡張
本研究の概要

.
. .2 Mixed-Norm-Elasticnet-MKL
準備
Mixed-Elasticnet-MKL の収束レート

.
. .3 Mini-max レート

.
. .4 Lp -MKL の収束レート

.
. .5 Conclusion

. . . . . .
Introduction Mixed-Norm-Elasticnet-MKL Mini-max レート Lp -MKL の収束レート Conclusion References
. . . . . . . . . . . . . . . .
準備

真がスパースであると仮定.

I0 := {m | ∥fm∗ ∥Hm ̸= 0}

∥fm∗ ∥Hm > 0 (m ∈ I0 ),


∥fm∗ ∥Hm = 0 (m ∈ I0c ).

d = |I0 | (真の非ゼロ要素の数) とおく.

. . . . . .
Introduction Mixed-Norm-Elasticnet-MKL Mini-max レート Lp -MKL の収束レート Conclusion References
. . . . . . . . . . . . . . . .
準備

Spectrum Condition (s)


0 < s < 1: モデルの複雑さを表わす.

Mercer の定理による分解:
∑∞
km (x, x ′ ) = ℓ=1 µℓ,m ϕℓ,m (x)ϕℓ,m (x ′ )
ただし,{ϕℓ,m }∞ ℓ=1 は L2 (P) 内の ONS.
.
Spectrum Condition (s) .
..
ある実数 0 < s < 1 が存在して,

µℓ,m ≤ C ℓ− s
1

. (∀ℓ, m).
.. .

.
s は RKHS の複雑さを表わす.
s が大きいと複雑,s が小さいと単純
.
Proposition (Steinwart et al. (2009)) .
..
µℓ,m ∼ ℓ− s ⇔ N(B(Hm ), ϵ, L2 (P)) ∼ ϵ−2s
1

.
.. .

.
. . . . . .
Introduction Mixed-Norm-Elasticnet-MKL Mini-max レート Lp -MKL の収束レート Conclusion References
. . . . . . . . . . . . . . . .
準備

Convolution Condition (q)

0 ≤ q ≤ 1: 真 f ∗ の滑らかさを表わす.

Σm : Hm → Hm を ⟨f , Σm g ⟩Hm := E[f (X )g (X )] なるものと定義する.


.
Convolution Condition (q) (Caponnetto & de Vito, 2007) .
..

ある実数 0 ≤ q ≤ 1 と gm ∈ Hm が存在して,

fm∗ = Σq/2
m gm

と表せる.
.
.. .

.
∑∞ q/2
km (x, x ′ ) := ℓ=1 µℓ,m ϕℓ,m (x)ϕℓ,m (x ′ ) に対して,
(q/2)


fm∗ (x) = (q/2)
km (x, x ′ )gm∗ (x ′ )dP(x ′ ),

と書けることと同値.
. . . . . .
Introduction Mixed-Norm-Elasticnet-MKL Mini-max レート Lp -MKL の収束レート Conclusion References
. . . . . . . . . . . . . . . .
準備

s と q の関係

モデル モデル

モデル

f*
f* f*

(a) s 大,q = 0 (b) s 大,q > 0 (c) s 小,q > 0

. . . . . .
Introduction Mixed-Norm-Elasticnet-MKL Mini-max レート Lp -MKL の収束レート Conclusion References
. . . . . . . . . . . . . . . .
準備

Incoherece Condition

.
Incoherece Condition (Koltchinskii & Yuan, 2008; Meier et al., 2009) .
..
ある定数 0 < C が存在して,

. 0 < C < κ(I0 )(1 − ρ2 (I0 )).


.. .

.
{ ∑ }
∥ m∈I fm ∥2L2
κ(I ) := sup κ ≥ 0 | κ ≤ ∑ 2 , ∀fm ∈ Hm (m ∈ I ) ,
m∈I ∥fm ∥L2
{ }
⟨fI , gI c ⟩L2
ρ(I ) := sup | fI ∈ HI , gI c ∈ HI c , fI ̸= 0, gI c ̸= 0 .
∥fI ∥L2 ∥gI c ∥L2

I0 の内側とも外側とも見分けがつく.

. . . . . .
Introduction Mixed-Norm-Elasticnet-MKL Mini-max レート Lp -MKL の収束レート Conclusion References
. . . . . . . . . . . . . . . .
準備

その他の条件

.
Basic Condition .
.. ∑M
∗ ∗ ∗
E[Y |X ] = f (X ) = m=1 fm (X ) であり,ノイズ ϵ := Y − f (X ) は
有界:|ϵ| ≤ L.
. supX ∈X |km (X , X )| ≤ 1 (∀m).
.. .

.
.
∞-norm Bound Condition .
..
Spectrum Condition (s) と同時に次の不等式が満たされている:

∥fm ∥∞ ≤ C ∥fm ∥1−s


L2 (P) ∥fm ∥Hm .
s
.
.. .

.
Gaussian カーネルなど,Sobolev 空間に埋め込める空間はこれが成り
立っている.Mendelson and Neeman (2010); Steinwart et al. (2009) で
詳細な議論がされている.

. . . . . .
Introduction Mixed-Norm-Elasticnet-MKL Mini-max レート Lp -MKL の収束レート Conclusion References
. . . . . . . . . . . . . . . .
Mixed-Elasticnet-MKL の収束レート

我々の結果:Mixed-Norm-Elasticnet-MKL の収束レート
( ) M √

M
(n)
∑ (n) (n)

M
min L fm + λ1 ∥fm ∥2n + λ2 ∥fm ∥2Hm + λ3 ∥fm ∥2Hm .
fm ∈Hm
m=1 m=1 m=1

.
Theorem (Suzuki et al. (2011)) .
..
Spectrum Condition (s), Convolution Condition (q), Incoherence
Condition, Basic Condition, ∞-norm Bound Condition のもと,十分大き
(n) (n) (n)
な n において,あるパラメータ λ1 , λ2 , λ3 の値のもと,
( )
1+q 1+q 2s
d log(M)
∥fˆ − f ∗ ∥2L2 ≤ C ′ d 1+q+s n− 1+q+s R2,g
1+q+s
∗ + η(t)2 ,
n
√ √
が確率
. 1 − e− nt
− e− n
(∀t ≥ 1) で成り立つ.
.. .

.
√ √
ただし η(t) := max( t, t/ n) であり,R2,g ∗ を次のように定義する:
( ) 12

M
R 2,g ∗ := ∥gm∗ ∥2Hm .
m=1
. . . . . .
Introduction Mixed-Norm-Elasticnet-MKL Mini-max レート Lp -MKL の収束レート Conclusion References
. . . . . . . . . . . . . . . .
Mixed-Elasticnet-MKL の収束レート

Bound の比較

q = 0 として具体的に比較

Koltchinskii and Yuan (2010) のレート: dn− 1+s +


1 d log(M)
n .
1+q 1+q 2s
我々のレート: d 1+q+s n− 1+q+s R2,g
1+q+s d log(M)
∗ + n .

...
1 ∥fm∗ ∥Hm = 1 (m = 1, . . . , d): 大きさ一様
我々のレート:dn− 1+s +
1 d log(M)
n
→ Koltchinskii and Yuan (2010) と同じ.
...
2 ∥fm∗ ∥Hm = m−1 (m = 1, . . . , d): 大きさ急減衰
我々のレート:d 1+s n− 1+s +
1 1 d log(M)
n s
→ Koltchinskii and Yuan (2010) より d 1+s 倍だけ速い.

※有限次元 (s = 0) では起きない現象.

. . . . . .
Introduction Mixed-Norm-Elasticnet-MKL Mini-max レート Lp -MKL の収束レート Conclusion References
. . . . . . . . . . . . . . . .

Outline

.
. .1 Introduction
MKL とその拡張
本研究の概要

.
. .2 Mixed-Norm-Elasticnet-MKL
準備
Mixed-Elasticnet-MKL の収束レート

.
. .3 Mini-max レート

.
. .4 Lp -MKL の収束レート

.
. .5 Conclusion

. . . . . .
Introduction Mixed-Norm-Elasticnet-MKL Mini-max レート Lp -MKL の収束レート Conclusion References
. . . . . . . . . . . . . . . .

Mini-max レート

Mini-max レート:どんな推定法も 超えられないレート.


q
fm∗ = Σm2 gm∗ に注意する.
(∑ ) 12
.
..
1
M
m=1 ∥g ∗ 2

m Hm ≤ R2 (g ∗ が半径 R2 の ℓ2 ボールに含まれる)

1+q 1+q 2s
d log(M/d)
d 1+q+s n− 1+q+s R21+q+s +
n
→我々のレートに一致.
. .. maxm ∥gm∗ ∥Hm ≤ R∞ (g ∗ が半径 R∞ の ℓ∞ ボールに含まれる)
2

1+q 2s
d log(M/d)
dn− 1+q+s R∞
1+q+s
+
n
→ q = 0, R∞ = 1 のとき,Koltchinskii and Yuan (2010) のレートに
一致.

. . . . . .
Introduction Mixed-Norm-Elasticnet-MKL Mini-max レート Lp -MKL の収束レート Conclusion References
. . . . . . . . . . . . . . . .

Outline

.
. .1 Introduction
MKL とその拡張
本研究の概要

.
. .2 Mixed-Norm-Elasticnet-MKL
準備
Mixed-Elasticnet-MKL の収束レート

.
. .3 Mini-max レート

.
. .4 Lp -MKL の収束レート

.
. .5 Conclusion

. . . . . .
Introduction Mixed-Norm-Elasticnet-MKL Mini-max レート Lp -MKL の収束レート Conclusion References
. . . . . . . . . . . . . . . .

Lp -MKL の収束レート
Lp -MKL (Kloft et al., 2009)
( M )
∑ (n)

M
min L fm + λ1 ∥fm ∥pHm
fm ∈Hm
m=1 m=1

√ (∑ ) p1
∥fm∗ ∥pHm
M
η(t) := max( t, √tn ), Rp := m=1 とおく.
.
Theorem (Lp -MKL の収束レート) .
..
Spectrum Condition(s), Incoherence Condition, Basic Condition, ∞-norm
2s
1− − 2
Bound Condition のもと,λ1 = n− 1+s M
(n) 1 p(1+s)
Rp 1+s とすると,
( )
2s 2s M log(M)
∥fˆ − f ∗ ∥2L2 ≤ C n− 1+s M 1− p(1+s) Rp1+s +
1
η(t)2 ,
n

.が確率 1 − exp(−t) − exp(− n) で成り立つ.
.. .

.
これも Mini-max レートを達成. . . . . . .
Introduction Mixed-Norm-Elasticnet-MKL Mini-max レート Lp -MKL の収束レート Conclusion References
. . . . . . . . . . . . . . . .

Outline

.
. .1 Introduction
MKL とその拡張
本研究の概要

.
. .2 Mixed-Norm-Elasticnet-MKL
準備
Mixed-Elasticnet-MKL の収束レート

.
. .3 Mini-max レート

.
. .4 Lp -MKL の収束レート

.
. .5 Conclusion

. . . . . .
Introduction Mixed-Norm-Elasticnet-MKL Mini-max レート Lp -MKL の収束レート Conclusion References
. . . . . . . . . . . . . . . .

Conclusion

Mixed-Norm-Elasticnet–MKL の収束レートを導出.
既存研究よりタイトなレートを導出.
真 f ∗ の滑らかさ q を導入.
導出されたレートは ℓ2 ボール上の mini-max レートを達成.
Lp -MKL の収束レートも導出した.

本研究のプレプリント(arXiv) : http://arxiv.org/abs/1103.0431
slide: http://www.simplex.t.u-tokyo.ac.jp/˜s-taiji/data/IBISML2011.pdf

. . . . . .
Introduction Mixed-Norm-Elasticnet-MKL Mini-max レート Lp -MKL の収束レート Conclusion References
. . . . . . . . . . . . . . . .

Bach, F., Lanckriet, G., & Jordan, M. (2004). Multiple kernel learning,
conic duality, and the SMO algorithm. the 21st International
Conference on Machine Learning (pp. 41–48).
Caponnetto, A., & de Vito, E. (2007). Optimal rates for regularized
least-squares algorithm. Foundations of Computational Mathematics,
7, 331–368.
Kloft, M., Brefeld, U., Sonnenburg, S., Laskov, P., Müller, K.-R., & Zien,
A. (2009). Efficient and accurate ℓp -norm multiple kernel learning.
Advances in Neural Information Processing Systems 22 (pp.
997–1005). Cambridge, MA: MIT Press.
Koltchinskii, V., & Yuan, M. (2008). Sparse recovery in large ensembles
of kernel machines. Proceedings of the Annual Conference on Learning
Theory (pp. 229–238).
Koltchinskii, V., & Yuan, M. (2010). Sparsity in multiple kernel learning.
The Annals of Statistics, 38, 3660–3695.
Lanckriet, G., Cristianini, N., Ghaoui, L. E., Bartlett, P., & Jordan, M.
(2004). Learning the kernel matrix with semi-definite programming.
Journal of Machine Learning Research, 5, 27–72.
Meier, L., van de Geer, S., & Bühlmann, P. (2009). High-dimensional
additive modeling. The Annals of Statistics, 37, . 3779–3821.
. . . . .
Introduction Mixed-Norm-Elasticnet-MKL Mini-max レート Lp -MKL の収束レート Conclusion References
. . . . . . . . . . . . . . . .

Mendelson, S., & Neeman, J. (2010). Regularization in kernel learning.


The Annals of Statistics, 38, 526–565.
Rakotomamonjy, A., Bach, F., Canu, S., & Y., G. (2008). SimpleMKL.
Journal of Machine Learning Research, 9, 2491–2521.
Raskutti, G., Wainwright, M., & Yu, B. (2009). Lower bounds on
minimax rates for nonparametric regression with additive sparsity and
smoothness. In Advances in neural information processing systems 22,
1563–1570. Cambridge, MA: MIT Press.
Sonnenburg, S., Rätsch, G., Schäfer, C., & Schölkopf, B. (2006). Large
scale multiple kernel learning. Journal of Machine Learning Research,
7, 1531–1565.
Steinwart, I., Hush, D., & Scovel, C. (2009). Optimal rates for
regularized least squares regression. Proceedings of the Annual
Conference on Learning Theory (pp. 79–93).
Suzuki, T., & Tomioka, R. (2009). SpicyMKL. arXiv:0909.5026.
Suzuki, T., Tomioka, R., & Sugiyama, M. (2011). Fast convergence rate
of multiple kernel learning with elastic-net regularization.
arXiv:1103.0431.
. . . . . .
Introduction Mixed-Norm-Elasticnet-MKL Mini-max レート Lp -MKL の収束レート Conclusion References
. . . . . . . . . . . . . . . .

Tomioka, R., & Suzuki, T. (2009). Sparsity-accuracy trade-off in MKL.


NIPS 2009 Workshop:: Understanding Multiple Kernel Learning
Methods. Whistler. arXiv:1001.2615.

. . . . . .

You might also like