関連した異なるRKHSの見方を表した図
関数解析学 (数学 の一分野)において、再生核ヒルベルト空間 (RKHS )(さいせいかくヒルベルトくうかん、英 : reproducing kernel hilbert space)は、点評価が連続線形汎函数 であるような関数から成るヒルベルト空間 である。点評価が連続線形であるとは、大雑把に言えば、RKHSに属する関数
f
{\displaystyle f}
と
g
{\displaystyle g}
がノルムとして近い(
‖
f
−
g
‖
{\textstyle \Vert f-g\Vert }
が小さい)とき、
f
{\displaystyle f}
と
g
{\displaystyle g}
は各点でも近い(
|
f
(
x
)
−
g
(
x
)
|
{\displaystyle |f(x)-g(x)|}
が任意の
x
{\displaystyle x}
で小さい)ということである。逆は必ずしも成り立つ必要は無い。例えば、ノルムを一様ノルム としたとき関数列
sin
n
(
x
)
{\displaystyle \sin ^{n}(x)}
は各点収束 するが一様収束 しない。(ただし、一様ノルムは極化恒等式 を満たさないためにいかなる内積 からも誘導されないから、これは反例ではない。)
関数のヒルベルト空間であってRKHSでないものを作るのは簡単ではない。[ 1] しかし、いくつかの例は見つかっている。[ 2] [ 3]
L 2 空間 は関数のヒルベルト空間ではない(したがってRKHSではない)が、関数の同値類のヒルベルト空間ではある(例えば、
f
(
x
)
=
0
{\displaystyle f(x)=0}
と
g
(
x
)
=
1
Q
{\displaystyle g(x)=1_{\mathbb {Q} }}
で定義された
f
{\displaystyle f}
と
g
{\displaystyle g}
はL 2 では同値である)。一方、 L 2 ノルムがノルムであるようなRKHSは存在する。例として、帯域制限関数の空間がある(詳細は後)。
RKHSは、その中の任意の関数を再生するような核と関係している。関数を「再生する」とは、関数の定義域内の任意の
x
{\displaystyle x}
に対して、その関数の「
x
{\displaystyle x}
での評価」が、核から生成される関数との内積をとることで可能である、ということである。そのような再生核は、評価関数が全て連続である時かつその時に限って存在する。
再生核が最初に提唱されたのは調和関数 や重調和方程式 の境界値問題 に関するStanislaw Zarembaの1907年の研究である。同時期に、James Mercerは積分方程式 の理論における再生性を満たすような関数を研究した。その後再生核のアイデアは20年近く放置されたが、セゲー・ガーボル 、ステファン・ベルグマン (英語版 ) 、サロモン・ボホナー による論文で再び触れられるようになった。その後1950年代前半にナフマン・アロンシャイン とステファン・ベルグマンがこのテーマを体系的に発展させた。[ 4]
再生核ヒルベルト空間には、複素解析 や調和解析 、量子力学 など様々な応用がある。その中でも特に、RKHS内で経験損失を最小化するような関数は訓練データで評価された核関数の線形結合 で書けるというリプレゼンター定理 (英語版 ) のおかげで、統計的学習理論 (英語版 ) の分野で再生核ヒルベルト空間が重要である。これは、経験損失最小化問題を無限次元の最適化問題から有限次元最適化問題へ簡単かできるために、実用上有用な結果である。
簡単のため、ここでは実数値ヒルベルト空間の概要を説明する。この理論は簡単に複素数値関数に拡張することができ、したがって解析関数 空間であるような再生核ヒルベルト空間の重要な例を多く含んでいる。[ 5]
X
{\displaystyle X}
を集合 とし、
H
{\displaystyle H}
を、
X
{\displaystyle X}
上で各点での加算とスカラー倍が定義された実数値関数 から成るヒルベルト空間 とする。ヒルベルト空間
H
{\displaystyle H}
での評価汎関数とは、点
x
∈
X
{\displaystyle x\in X}
について、関数を受け取って
L
x
:
f
↦
f
(
x
)
∀
f
∈
H
{\displaystyle L_{x}:f\mapsto f(x){\text{ }}\forall f\in H}
と評価する線形汎関数である。
H
{\displaystyle H}
が再生核ヒルベルト空間 であるとは、任意の
x
∈
X
{\displaystyle x\in X}
について、
L
x
{\displaystyle L_{x}}
が
H
{\displaystyle H}
上の任意の
f
{\displaystyle f}
で連続であることである。同値な条件は、
L
x
{\displaystyle L_{x}}
が
H
{\displaystyle H}
上の有界作用素 である、つまり
|
L
x
(
f
)
|
:=
|
f
(
x
)
|
≤
M
x
‖
f
‖
H
∀
f
∈
H
.
{\displaystyle |L_{x}(f)|:=|f(x)|\leq M_{x}\,\|f\|_{H}\qquad \forall f\in H.\,}
(1 )
を満たす
M
x
>
0
{\displaystyle M_{x}>0}
が存在することである。任意の
x
∈
X
{\displaystyle x\in X}
について
M
x
<
∞
{\displaystyle M_{x}<\infty }
でなければならないが、
sup
x
M
x
=
∞
{\textstyle \sup _{x}M_{x}=\infty }
でも良い。
性質 (1 ) は、内積が存在し、かつ定義域の任意の点で
H
{\displaystyle H}
の任意の関数を評価できるための最も弱い条件であるが、このままでは応用に使いづらい。性質 (1 ) から、
H
{\displaystyle H}
上の関数
f
{\displaystyle f}
の評価汎関数が、
f
{\displaystyle f}
とある関数
K
x
{\displaystyle K_{x}}
の内積で得られることが導かれ、こちらをRKHSの定義とする方が直感的である。この関数
K
x
{\displaystyle K_{x}}
は再生核 [要出典 ] と呼ばれる。RKHSはこの「再生核」から名前が来ている。正確には、リースの表現定理 から、
X
{\displaystyle X}
の任意の点
x
{\displaystyle x}
に対して、
H
{\displaystyle H}
のただ1つの要素
K
x
{\displaystyle K_{x}}
が存在して、再生性
f
(
x
)
=
L
x
(
f
)
=
⟨
f
,
K
x
⟩
H
∀
f
∈
H
.
{\displaystyle f(x)=L_{x}(f)=\langle f,\ K_{x}\rangle _{H}\quad \forall f\in H.}
(2 )
が成り立つ。
K
x
{\displaystyle K_{x}}
は
X
{\displaystyle X}
から
R
{\displaystyle \mathbb {R} }
(複素ヒルベルト空間なら
C
{\displaystyle \mathbb {C} }
)への関数であり、
H
{\displaystyle H}
の要素であるから、
K
x
(
y
)
=
L
y
(
K
x
)
=
⟨
K
x
,
K
y
⟩
H
,
{\displaystyle K_{x}(y)=L_{y}(K_{x})=\langle K_{x},\ K_{y}\rangle _{H},}
が成り立つ。ただし、
K
y
∈
H
{\displaystyle K_{y}\in H}
は
L
y
{\displaystyle L_{y}}
を生むような
H
{\displaystyle H}
の元である。
これによって、
H
{\displaystyle H}
の再生核が以下の関数
K
:
X
×
X
→
R
{\displaystyle K:X\times X\to \mathbb {R} }
として定義できる。
K
(
x
,
y
)
=
⟨
K
x
,
K
y
⟩
H
.
{\displaystyle K(x,y)=\langle K_{x},\ K_{y}\rangle _{H}.}
定義から、
K
:
X
×
X
→
R
{\displaystyle K:X\times X\to \mathbb {R} }
(複素なら
C
{\displaystyle \mathbb {C} }
)は対称(複素なら共役対称)であり、正定値でもある、つまり
∑
i
,
j
=
1
n
c
i
c
j
K
(
x
i
,
x
j
)
=
∑
i
=
1
n
c
i
⟨
K
x
i
,
∑
j
=
1
n
c
j
K
x
j
⟩
H
=
⟨
∑
i
=
1
n
c
i
K
x
i
,
∑
j
=
1
n
c
j
K
x
j
⟩
H
=
‖
∑
i
=
1
n
c
i
K
x
i
‖
H
2
≥
0
{\displaystyle \sum _{i,j=1}^{n}c_{i}c_{j}K(x_{i},x_{j})=\sum _{i=1}^{n}c_{i}\left\langle K_{x_{i}},\sum _{j=1}^{n}c_{j}K_{x_{j}}\right\rangle _{H}=\left\langle \sum _{i=1}^{n}c_{i}K_{x_{i}},\sum _{j=1}^{n}c_{j}K_{x_{j}}\right\rangle _{H}=\left\|\sum _{i=1}^{n}c_{i}K_{x_{i}}\right\|_{H}^{2}\geq 0}
が任意の
n
∈
N
,
x
1
,
…
,
x
n
∈
X
,
and
c
1
,
…
,
c
n
∈
R
.
{\displaystyle n\in \mathbb {N} ,x_{1},\dots ,x_{n}\in X,{\text{ and }}c_{1},\dots ,c_{n}\in \mathbb {R} .}
で成り立つ。[ 6] Moore–Aronszajnの定理 (下に説明あり) は、ある種これの逆であり、関数
K
{\displaystyle K}
がこれらの条件を満たすならば、
K
{\displaystyle K}
が再生核であるような
X
{\displaystyle X}
上の関数のヒルベルト空間が存在する、という主張である。
周波数帯域有限 (英語版 ) な連続関数 の集合
H
{\displaystyle H}
はRKHSであることを以下に示す。遮断周波数 として定数
0
<
a
<
∞
{\displaystyle 0<a<\infty }
をとり、ヒルベルト空間を以下のように定義する。
H
=
{
f
∈
C
(
R
)
∣
supp
(
F
)
⊂
[
−
a
,
a
]
}
{\displaystyle H=\{f\in C(\mathbb {R} )\mid \operatorname {supp} (F)\subset [-a,a]\}}
ただし、
C
(
R
)
{\displaystyle C(\mathbb {R} )}
は自乗可積分な連続関数の集合であり、
F
(
ω
)
=
∫
−
∞
∞
f
(
t
)
e
−
i
ω
t
d
t
{\textstyle F(\omega )=\int _{-\infty }^{\infty }f(t)e^{-i\omega t}\,dt}
は
f
{\displaystyle f}
のフーリエ変換 である。ヒルベルト空間の内積として、
⟨
f
,
g
⟩
L
2
=
∫
−
∞
∞
f
(
x
)
⋅
g
(
x
)
¯
d
x
.
{\displaystyle \langle f,g\rangle _{L^{2}}=\int _{-\infty }^{\infty }f(x)\cdot {\overline {g(x)}}\,dx.}
と定義する。フーリエ逆変換から
f
(
x
)
=
1
2
π
∫
−
a
a
F
(
ω
)
e
i
x
ω
d
ω
.
{\displaystyle f(x)={\frac {1}{2\pi }}\int _{-a}^{a}F(\omega )e^{ix\omega }\,d\omega .}
が成り立つ。コーシー=シュワルツの不等式 とプランシュレルの定理 より、任意の
x
{\displaystyle x}
について以下が成り立つ。
|
f
(
x
)
|
≤
1
2
π
∫
−
a
a
2
a
|
F
(
ω
)
|
2
d
ω
=
1
π
a
2
∫
−
∞
∞
|
F
(
ω
)
|
2
d
ω
=
a
π
‖
f
‖
L
2
.
{\displaystyle |f(x)|\leq {\frac {1}{2\pi }}{\sqrt {\int _{-a}^{a}2a|F(\omega )|^{2}\,d\omega }}={\frac {1}{\pi }}{\sqrt {{\frac {a}{2}}\int _{-\infty }^{\infty }|F(\omega )|^{2}\,d\omega }}={\sqrt {\frac {a}{\pi }}}\|f\|_{L^{2}}.}
この不等式より評価汎函数が有界であり、したがって
H
{\displaystyle H}
がRKHSであることが示せた。
この例での核関数
K
x
{\displaystyle K_{x}}
は
K
x
(
y
)
=
a
π
sinc
(
a
π
(
y
−
x
)
)
=
sin
(
a
(
y
−
x
)
)
π
(
y
−
x
)
.
{\displaystyle K_{x}(y)={\frac {a}{\pi }}\operatorname {sinc} \left({\frac {a}{\pi }}(y-x)\right)={\frac {\sin(a(y-x))}{\pi (y-x)}}.}
で表される。上の式で定義された
K
x
(
y
)
{\displaystyle K_{x}(y)}
のフーリエ変換は、
∫
−
∞
∞
K
x
(
y
)
e
−
i
ω
y
d
y
=
{
e
−
i
ω
x
if
ω
∈
[
−
a
,
a
]
,
0
otherwise
,
{\displaystyle \int _{-\infty }^{\infty }K_{x}(y)e^{-i\omega y}\,dy={\begin{cases}e^{-i\omega x}&{\text{if }}\omega \in [-a,a],\\0&{\textrm {otherwise}},\end{cases}}}
である。したがって、プランシュレルの定理 より
⟨
f
,
K
x
⟩
L
2
=
∫
−
∞
∞
f
(
y
)
⋅
K
x
(
y
)
¯
d
y
=
1
2
π
∫
−
a
a
F
(
ω
)
⋅
e
i
ω
x
d
ω
=
f
(
x
)
.
{\displaystyle \langle f,K_{x}\rangle _{L^{2}}=\int _{-\infty }^{\infty }f(y)\cdot {\overline {K_{x}(y)}}\,dy={\frac {1}{2\pi }}\int _{-a}^{a}F(\omega )\cdot e^{i\omega x}\,d\omega =f(x).}
となり、核の再生性を実際に確認できた。
この
K
x
{\displaystyle K_{x}}
はディラックのデルタ関数 の「帯域制限版」であり、遮断周波数
a
{\displaystyle a}
が無限に行くと
K
x
(
y
)
{\displaystyle K_{x}(y)}
は
δ
(
y
−
x
)
{\displaystyle \delta (y-x)}
に収束する。
ここまで、再生核ヒルベルト空間から、対称で正定値 (英語版)な再生核関数を定義してきた。一方ムーア・アロンシャインの定理は逆方向の定理である。つまり、対称で正定値な核を1つとると、再生核ヒルベルト空間がただ1つに定まるという定理である。この定理は当初「アロンシャインの再生核定理」と呼ばれていたが、彼がE・H・ムーア の名を定理につけた。
定理
K
{\displaystyle K}
を集合
X
{\displaystyle X}
上の対称正定値核とすると、
K
{\displaystyle K}
が再生核であるような
X
{\displaystyle X}
上のヒルベルト空間がただ1つ存在する。
証明
X
{\displaystyle X}
上の任意の
x
{\displaystyle x}
に対して
K
x
=
K
(
x
,
⋅
)
{\displaystyle K_{x}=K(x,\cdot )}
と定義する。
H
0
{\displaystyle H_{0}}
を
{
K
x
:
x
∈
X
}
{\displaystyle \{K_{x}:x\in X\}}
の線形空間とする。
H
0
{\displaystyle H_{0}}
上の内積を以下のように定義する。
⟨
∑
j
=
1
n
b
j
K
y
j
,
∑
i
=
1
m
a
i
K
x
i
⟩
H
0
=
∑
i
=
1
m
∑
j
=
1
n
a
i
b
j
K
(
y
j
,
x
i
)
,
{\displaystyle \left\langle \sum _{j=1}^{n}b_{j}K_{y_{j}},\sum _{i=1}^{m}a_{i}K_{x_{i}}\right\rangle _{H_{0}}=\sum _{i=1}^{m}\sum _{j=1}^{n}{a_{i}}b_{j}K(y_{j},x_{i}),}
この定義から
K
(
x
,
y
)
=
⟨
K
x
,
K
y
⟩
H
0
{\displaystyle K(x,y)=\left\langle K_{x},K_{y}\right\rangle _{H_{0}}}
を得る。内積の対称性は
K
{\displaystyle K}
の対称性から示せ、内積の正定値性も
K
{\displaystyle K}
の正定値性から示せる。
H
0
{\displaystyle H_{0}}
を内積に関して完備にしたものを
H
{\displaystyle H}
とする。
H
{\displaystyle H}
は以下の形で表される関数で構成される。
f
(
x
)
=
∑
i
=
1
∞
a
i
K
x
i
(
x
)
where
lim
n
→
∞
sup
p
≥
0
‖
∑
i
=
n
n
+
p
a
i
K
x
i
‖
H
0
=
0.
{\displaystyle f(x)=\sum _{i=1}^{\infty }a_{i}K_{x_{i}}(x)\quad {\text{where}}\quad \lim _{n\to \infty }\sup _{p\geq 0}\left\|\sum _{i=n}^{n+p}a_{i}K_{x_{i}}\right\|_{H_{0}}=0.}
すると、再生性(2 )を示せる:
⟨
f
,
K
x
⟩
H
=
∑
i
=
1
∞
a
i
⟨
K
x
i
,
K
x
⟩
H
0
=
∑
i
=
1
∞
a
i
K
(
x
i
,
x
)
=
f
(
x
)
.
{\displaystyle \langle f,K_{x}\rangle _{H}=\sum _{i=1}^{\infty }a_{i}\left\langle K_{x_{i}},K_{x}\right\rangle _{H_{0}}=\sum _{i=1}^{\infty }a_{i}K(x_{i},x)=f(x).}
一意性を証明するために、
G
{\displaystyle G}
を、
K
{\displaystyle K}
が再生核であるような、関数から成るヒルベルト空間とする。
X
{\displaystyle X}
の任意の
x
{\displaystyle x}
と
y
{\displaystyle y}
について、
⟨
K
x
,
K
y
⟩
H
=
K
(
x
,
y
)
=
⟨
K
x
,
K
y
⟩
G
.
{\displaystyle \langle K_{x},K_{y}\rangle _{H}=K(x,y)=\langle K_{x},K_{y}\rangle _{G}.}
線形性より
⟨
⋅
,
⋅
⟩
H
=
⟨
⋅
,
⋅
⟩
G
{\displaystyle \langle \cdot ,\cdot \rangle _{H}=\langle \cdot ,\cdot \rangle _{G}}
が
{
K
x
:
x
∈
X
}
{\displaystyle \{K_{x}:x\in X\}}
の張る空間上で成り立つ。
G
{\displaystyle G}
は完備であって
H
0
{\displaystyle H_{0}}
を含むから、
H
0
{\displaystyle H_{0}}
を完備化したものを含む、つまり
H
⊂
G
{\displaystyle H\subset G}
。
ここから、逆に
G
{\displaystyle G}
の任意の要素が
H
{\displaystyle H}
の要素であることであることを示したい。
f
{\displaystyle f}
を
G
{\displaystyle G}
の要素とする。
H
{\displaystyle H}
は
G
{\displaystyle G}
の部分空間だから、
f
H
∈
H
{\displaystyle f_{H}\in H}
と
f
H
⊥
∈
H
⊥
{\displaystyle f_{H^{\perp }}\in H^{\perp }}
を使って
f
=
f
H
+
f
H
⊥
{\displaystyle f=f_{H}+f_{H^{\perp }}}
と分解できる。今
x
∈
X
{\displaystyle x\in X}
について、
K
{\displaystyle K}
が
G
{\displaystyle G}
と
H
{\displaystyle H}
の再生核であるから、
f
(
x
)
=
⟨
K
x
,
f
⟩
G
=
⟨
K
x
,
f
H
⟩
G
+
⟨
K
x
,
f
H
⊥
⟩
G
=
⟨
K
x
,
f
H
⟩
G
=
⟨
K
x
,
f
H
⟩
H
=
f
H
(
x
)
,
{\displaystyle f(x)=\langle K_{x},f\rangle _{G}=\langle K_{x},f_{H}\rangle _{G}+\langle K_{x},f_{H^{\bot }}\rangle _{G}=\langle K_{x},f_{H}\rangle _{G}=\langle K_{x},f_{H}\rangle _{H}=f_{H}(x),}
が成り立つ。
K
x
{\displaystyle K_{x}}
は
H
{\displaystyle H}
に属するから
G
{\displaystyle G}
での
f
H
⊥
{\displaystyle f_{H^{\bot }}}
との内積が0となる事実を使った。上の式から
G
{\displaystyle G}
で
f
=
f
H
{\displaystyle f=f_{H}}
が成り立ち、証明完了となる。
マーサーの定理 (英語版 ) を使えば、積分作用素を通して対称正定値核
K
{\displaystyle K}
を特徴づけることができ、RKHSの新たな視点を得ることが出来る。
X
{\displaystyle X}
を狭義正で有限なボレル測度
μ
{\displaystyle \mu }
があるようなコンパクト集合であるとし、
K
:
X
×
X
→
R
{\displaystyle K:X\times X\to \mathbb {R} }
を連続対称正定値関数とする。積分作用素
T
K
:
L
2
(
X
)
→
L
2
(
X
)
{\displaystyle T_{K}:L_{2}(X)\to L_{2}(X)}
を以下のように定義する。
[
T
K
f
]
(
⋅
)
=
∫
X
K
(
⋅
,
t
)
f
(
t
)
d
μ
(
t
)
{\displaystyle [T_{K}f](\cdot )=\int _{X}K(\cdot ,t)f(t)\,d\mu (t)}
ただし、
L
2
(
X
)
{\displaystyle L_{2}(X)}
は
μ
{\displaystyle \mu }
の測度の下で自乗可積分な関数の空間である。
マーサーの定理によると、積分作用素
T
K
{\displaystyle T_{K}}
の固有値と固有関数が
K
{\displaystyle K}
のテイラー展開を意味している。したがって、この固有値と固有関数を使って、再生核が
K
{\displaystyle K}
であるようなRKHSを構成できる。詳細は以下の通りである。
上記の仮定のもとでは、
T
K
{\displaystyle T_{K}}
はコンパクトで連続で自己随伴で正定値な作用素である。自己随伴な作用素についてのスペクトル定理 より、
lim
i
→
∞
σ
i
=
0
{\textstyle \lim _{i\to \infty }\sigma _{i}=0}
たる減少列
(
σ
i
)
i
≥
0
{\displaystyle (\sigma _{i})_{i}\geq 0}
が存在して、
L
2
(
X
)
{\displaystyle L_{2}(X)}
の正規直交基底
{
φ
i
}
{\displaystyle \{\varphi _{i}\}}
を用いて
T
K
φ
i
(
x
)
=
σ
i
φ
i
(
x
)
{\displaystyle T_{K}\varphi _{i}(x)=\sigma _{i}\varphi _{i}(x)}
と表せる。
T
K
{\displaystyle T_{K}}
の正定値性より、任意の
i
{\displaystyle i}
に対して
σ
i
>
0
{\displaystyle \sigma _{i}>0}
となる。更に、
T
K
{\displaystyle T_{K}}
は連続関数の空間
C
(
X
)
{\displaystyle C(X)}
へ連続的に写像するから、連続関数を固有ベクトルとできる。つまり、任意の
i
{\displaystyle i}
に対して
φ
i
∈
C
(
X
)
{\displaystyle \varphi _{i}\in C(X)}
である。したがって、マーサーの定理から、
K
{\displaystyle K}
は固有値と連続な固有写像を用いて以下のように書ける。
K
(
x
,
y
)
=
∑
j
=
1
∞
σ
j
φ
j
(
x
)
φ
j
(
y
)
{\displaystyle K(x,y)=\sum _{j=1}^{\infty }\sigma _{j}\,\varphi _{j}(x)\,\varphi _{j}(y)}
ただし、上の式は、任意の
x
,
y
∈
X
{\displaystyle x,y\in X}
に対して
lim
n
→
∞
sup
u
,
v
|
K
(
u
,
v
)
−
∑
j
=
1
n
σ
j
φ
j
(
u
)
φ
j
(
v
)
|
=
0
{\displaystyle \lim _{n\to \infty }\sup _{u,v}\left|K(u,v)-\sum _{j=1}^{n}\sigma _{j}\,\varphi _{j}(u)\,\varphi _{j}(v)\right|=0}
が成り立つことを意味している。このような級数表現は、
K
{\displaystyle K}
のマーサー核やマーサー表現と呼ばれる。
更に、再生核が
K
{\displaystyle K}
であるようなRKHS
H
{\displaystyle H}
は以下のように与えられる。
H
=
{
f
∈
L
2
(
X
)
|
∑
i
=
1
∞
⟨
f
,
φ
i
⟩
L
2
2
σ
i
<
∞
}
{\displaystyle H=\left\{f\in L_{2}(X)\,{\Bigg \vert }\,\sum _{i=1}^{\infty }{\frac {\left\langle f,\varphi _{i}\right\rangle _{L_{2}}^{2}}{\sigma _{i}}}<\infty \right\}}
ここで、
H
{\displaystyle H}
の内積は以下の式である。
⟨
f
,
g
⟩
H
=
∑
i
=
1
∞
⟨
f
,
φ
i
⟩
L
2
⟨
g
,
φ
i
⟩
L
2
σ
i
.
{\displaystyle \left\langle f,g\right\rangle _{H}=\sum _{i=1}^{\infty }{\frac {\left\langle f,\varphi _{i}\right\rangle _{L_{2}}\left\langle g,\varphi _{i}\right\rangle _{L_{2}}}{\sigma _{i}}}.}
である。RKHSのこのような表現は、確率や統計で応用があり、例えば確率過程でのカルーネン・レーベ変換 (英語版 ) やカーネル主成分分析 (英語版 ) などがある。
特徴写像とは、特徴空間と呼ばれるヒルベルト空間
F
{\displaystyle F}
に移す写像
φ
:
X
→
F
{\displaystyle \varphi \colon X\rightarrow F}
である。これまでの章では、有界連続な評価関数と、正定値関数と、積分作用素の間の関係を見てきた。この章では、特徴写像を使った別のRKHSの表現を説明する。
特徴写像は
K
(
x
,
y
)
=
⟨
φ
(
x
)
,
φ
(
y
)
⟩
F
.
{\displaystyle K(x,y)=\langle \varphi (x),\varphi (y)\rangle _{F}.}
(3 )
を通して核を定義する。
K
{\displaystyle K}
は明らかに対称であり、更に
F
{\displaystyle F}
での内積の性質から正定値性も得られる。逆に、各正定値関数と対応する再生核ヒルベルト空間には、(3 )が成り立つような特徴写像が無限にある。
例えば、簡単なものでは
F
=
H
{\displaystyle F=H}
、任意の
x
∈
X
{\displaystyle x\in X}
に対して
φ
(
x
)
=
K
x
{\displaystyle \varphi (x)=K_{x}}
とすれば良い。このようにすれば、再生性から(3 )が成り立つ。他に典型的な特徴写像の例としては、前の章の積分作用素に関連したもので、
F
=
ℓ
2
{\displaystyle F=\ell ^{2}}
、
φ
(
x
)
=
(
σ
i
φ
i
(
x
)
)
i
{\displaystyle \varphi (x)=({\sqrt {\sigma _{i}}}\varphi _{i}(x))_{i}}
とするものもある。
核と特徴写像の間のこのような関係から、正定値関数(
H
{\displaystyle H}
の内積としての再生核)の新しい理解の仕方が得られる。更に、各特徴写像から、正定値関数の定義を通してRKHSを自然に定義できる。
最後に、特徴写像から、RKHSの新しい観点を明らかにするような関数空間を構築できる。以下の線形空間を考える。
H
φ
=
{
f
:
X
→
R
∣
∃
w
∈
F
,
f
(
x
)
=
⟨
w
,
φ
(
x
)
⟩
F
,
∀
x
∈
X
}
.
{\displaystyle H_{\varphi }=\{f:X\to \mathbb {R} \mid \exists w\in F,f(x)=\langle w,\varphi (x)\rangle _{F},\forall {\text{ }}x\in X\}.}
H
ψ
{\displaystyle H_{\psi }}
上のノルムを以下のように定義できる。
‖
f
‖
φ
=
inf
{
‖
w
‖
F
:
w
∈
F
,
f
(
x
)
=
⟨
w
,
φ
(
x
)
⟩
F
,
∀
x
∈
X
}
.
{\displaystyle \|f\|_{\varphi }=\inf\{\|w\|_{F}:w\in F,f(x)=\langle w,\varphi (x)\rangle _{F},\forall {\text{ }}x\in X\}.}
H
φ
{\displaystyle H_{\varphi }}
は、核が
K
(
x
,
y
)
=
⟨
φ
(
x
)
,
φ
(
y
)
⟩
F
{\displaystyle K(x,y)=\langle \varphi (x),\varphi (y)\rangle _{F}}
で定義されたRKHSとなる。この表現では、RKHSの要素は特徴空間の要素同士の内積であり、したがってRKHSの世周防は超空間として見ることができる。RKHSのこの見方は、機械学習でのカーネル法 と関係がある。[ 7]
RKHSの有用な性質として以下のようなものがある。
(
X
i
)
i
=
1
p
{\displaystyle (X_{i})_{i=1}^{p}}
を集合の列とし、
(
K
i
)
i
=
1
p
{\displaystyle (K_{i})_{i=1}^{p}}
をそれぞれ
(
X
i
)
i
=
1
p
{\displaystyle (X_{i})_{i=1}^{p}}
上の正定値関数とする。すると、
K
(
(
x
1
,
…
,
x
p
)
,
(
y
1
,
…
,
y
p
)
)
=
K
1
(
x
1
,
y
1
)
⋯
K
p
(
x
p
,
y
p
)
{\displaystyle K((x_{1},\ldots ,x_{p}),(y_{1},\ldots ,y_{p}))=K_{1}(x_{1},y_{1})\cdots K_{p}(x_{p},y_{p})}
は
X
=
X
1
×
⋯
×
X
p
{\displaystyle X=X_{1}\times \dots \times X_{p}}
上の核である。
X
0
⊂
X
{\displaystyle X_{0}\subset X}
とすると、
K
{\displaystyle K}
の定義域を
X
0
×
X
0
{\displaystyle X_{0}\times X_{0}}
に制限したものもまた再生核となる。
任意の
x
∈
X
{\displaystyle x\in X}
について
K
(
x
,
x
)
=
1
{\displaystyle K(x,x)=1}
となるように正規化した
K
{\displaystyle K}
を考える。
X
{\displaystyle X}
上の擬距離空間を以下のように定義する。
d
K
(
x
,
y
)
=
‖
K
x
−
K
y
‖
H
2
=
2
(
1
−
K
(
x
,
y
)
)
∀
x
∈
X
.
{\displaystyle d_{K}(x,y)=\|K_{x}-K_{y}\|_{H}^{2}=2(1-K(x,y))\qquad \forall x\in X.}
コーシー=シュワルツの不等式 より、
K
(
x
,
y
)
2
≤
K
(
x
,
x
)
K
(
y
,
y
)
=
1
∀
x
,
y
∈
X
.
{\displaystyle K(x,y)^{2}\leq K(x,x)K(y,y)=1\qquad \forall x,y\in X.}
このこの不等式から、
K
{\displaystyle K}
は入力間の類似性測度 (英語版 ) と見ることができる。
x
,
y
∈
X
{\displaystyle x,y\in X}
が似ていれば
K
(
x
,
y
)
{\displaystyle K(x,y)}
は1に近くなり、
x
,
y
∈
X
{\displaystyle x,y\in X}
が似ていなければ、
K
(
x
,
y
)
{\displaystyle K(x,y)}
は0に近くなる。
{
K
x
∣
x
∈
X
}
{\displaystyle \{K_{x}\mid x\in X\}}
によって生成される空間の閉包は
H
{\displaystyle H}
と一致する。[ 7]
K
(
x
,
y
)
=
⟨
x
,
y
⟩
{\displaystyle K(x,y)=\langle x,y\rangle }
であるようなRKHSである。
この核に対応するRKHS
H
{\displaystyle H}
は、
‖
f
‖
H
2
=
‖
β
‖
2
{\displaystyle \|f\|_{H}^{2}=\|\beta \|^{2}}
を満たす
β
{\displaystyle \beta }
で
f
(
x
)
=
⟨
x
,
β
⟩
{\displaystyle f(x)=\langle x,\beta \rangle }
と表される関数で構成された双対空間である。
K
(
x
,
y
)
=
(
α
⟨
x
,
y
⟩
+
1
)
d
,
α
∈
R
,
d
∈
N
{\displaystyle K(x,y)=(\alpha \langle x,y\rangle +1)^{d},\qquad \alpha \in \mathbb {R} ,d\in \mathbb {N} }
他の一般的な核として、
K
(
x
,
y
)
=
K
(
‖
x
−
y
‖
)
{\displaystyle K(x,y)=K(\|x-y\|)}
を満たすものがある。例えば以下がある。
ガウシアン (自乗指数 )核 :
K
(
x
,
y
)
=
e
−
‖
x
−
y
‖
2
2
σ
2
,
σ
>
0
{\displaystyle K(x,y)=e^{-{\frac {\|x-y\|^{2}}{2\sigma ^{2}}}},\qquad \sigma >0}
ラプラシアン核 :
K
(
x
,
y
)
=
e
−
‖
x
−
y
‖
σ
,
σ
>
0
{\displaystyle K(x,y)=e^{-{\frac {\|x-y\|}{\sigma }}},\qquad \sigma >0}
この核で定義されたRKHS
H
{\displaystyle H}
にある関数
f
{\displaystyle f}
の自乗ノルムは以下の通りである。[ 8]
‖
f
‖
H
2
=
∫
R
(
1
σ
f
(
x
)
2
+
σ
f
′
(
x
)
2
)
d
x
.
{\displaystyle \|f\|_{H}^{2}=\int _{\mathbb {R} }{\Big (}{\frac {1}{\sigma }}f(x)^{2}+\sigma f'(x)^{2}{\Big )}\mathrm {d} x.}
次にベルグマン核 の例を説明する。
X
{\displaystyle X}
を有限集合とし、
X
{\displaystyle X}
上の全ての複素数値関数から構成される空間を
H
{\displaystyle H}
とする。すると、
H
{\displaystyle H}
の要素は複素数列と解釈することができる。内積を複素ベクトルとしての内積で定義すると、
K
x
{\displaystyle K_{x}}
は
x
{\displaystyle x}
で1となり他で0となるような関数となる。つまり
K
(
x
,
y
)
=
{
1
x
=
y
0
x
≠
y
{\displaystyle K(x,y)={\begin{cases}1&x=y\\0&x\neq y\end{cases}}}
となるから、
K
(
x
,
y
)
{\displaystyle K(x,y)}
は単位行列と考えることができる。この場合、
H
{\displaystyle H}
は
C
n
{\displaystyle \mathbb {C} ^{n}}
と同型である。
X
=
D
{\displaystyle X=\mathbb {D} }
(
D
{\displaystyle \mathbb {D} }
は単位円板 )の場合はより複雑である。ベルグマン空間
H
2
(
D
)
{\displaystyle H^{2}(\mathbb {D} )}
は、
D
{\displaystyle \mathbb {D} }
上の二乗可積分 な正則関数 の空間である。
H
2
(
D
)
{\displaystyle H^{2}(\mathbb {D} )}
の再生核は
K
(
x
,
y
)
=
1
π
1
(
1
−
x
y
¯
)
2
{\displaystyle K(x,y)={\frac {1}{\pi }}{\frac {1}{(1-x{\overline {y}})^{2}}}}
であることが示せる。最後に、
L
2
(
R
)
{\displaystyle L^{2}(\mathbb {R} )}
の要素であって帯域幅が
2
a
{\displaystyle 2a}
であるような帯域制限関数の空間は、再生核が
K
(
x
,
y
)
=
sin
a
(
x
−
y
)
π
(
x
−
y
)
{\displaystyle K(x,y)={\frac {\sin a(x-y)}{\pi (x-y)}}}
この章では、RKHSの定義をベクトル値関数空間に拡張する。この拡張は、マルチタスク学習 (英語版 ) や多様体正則化 (英語版 ) で特に重要である。ベクトル値関数空間となって生じる主な違いは、再生核
Γ
{\displaystyle \Gamma }
が、
X
{\displaystyle X}
の任意の要素
x
,
y
{\displaystyle x,y}
に対して半正定値行列であるような対称関数であることである。より厳密には、ベクトル値RKHS(vvRKHS)は、任意の
c
∈
R
T
{\displaystyle c\in \mathbb {R} ^{T}}
と
x
∈
X
{\displaystyle x\in X}
について
Γ
x
c
(
y
)
=
Γ
(
x
,
y
)
c
∈
H
for
y
∈
X
{\displaystyle \Gamma _{x}c(y)=\Gamma (x,y)c\in H{\text{ for }}y\in X}
と
⟨
f
,
Γ
x
c
⟩
H
=
f
(
x
)
⊺
c
.
{\displaystyle \langle f,\Gamma _{x}c\rangle _{H}=f(x)^{\intercal }c.}
となるような関数
f
:
X
→
R
T
{\displaystyle f:X\rightarrow \mathbb {R} ^{T}}
のヒルベルト空間と定義される。この2つ目の性質がスカラー値の場合の再生性に対応している。この定義でも、スカラー値RKHSで見ていたような積分作用素、有界評価関数、特徴空間との関係が成り立つ。 vvRKHSの同値な定義として有界な評価汎関数のあるベクトル値ヒルベルト空間をとり、Rieszの表現定理から再生核の唯一存在性を示すことができる。Mercerの定理もベクトル値に拡張することができ、したがってvvRKHSの特徴写像による見方も得られる。最後に、
{
Γ
x
c
:
x
∈
X
,
c
∈
R
T
}
{\displaystyle \{\Gamma _{x}c:x\in X,c\in \mathbb {R} ^{T}\}}
の張る空間の閉包が
H
{\displaystyle H}
と一致することも示せ、ここでスカラー値の場合と似た性質が得られる。
要素ごとに見ることでvvRKHSを直感的に理解できる。
Λ
=
{
1
,
…
,
T
}
{\displaystyle \Lambda =\{1,\dots ,T\}}
とする。空間
X
×
Λ
{\displaystyle X\times \Lambda }
と対応する再生核
γ
:
X
×
Λ
×
X
×
Λ
→
R
.
{\displaystyle \gamma :X\times \Lambda \times X\times \Lambda \to \mathbb {R} .}
(4 )
を考える。上に述べたとおり、この再生核に対応するRKHSは
{
γ
(
x
,
t
)
:
x
∈
X
,
t
∈
Λ
}
{\displaystyle \{\gamma _{(x,t)}:x\in X,t\in \Lambda \}}
が張る空間の閉包で与えられる。ただし、任意のペア
(
x
,
t
)
,
(
y
,
s
)
∈
X
×
Λ
{\displaystyle (x,t),(y,s)\in X\times \Lambda }
に対して
γ
(
x
,
t
)
(
y
,
s
)
=
γ
(
(
x
,
t
)
,
(
y
,
s
)
)
{\displaystyle \gamma _{(x,t)}(y,s)=\gamma ((x,t),(y,s))}
である。
スカラー値RKHSとの関係は、行列値核が(4 )の核と以下の式で関連していることから分かる。
Γ
(
x
,
y
)
(
t
,
s
)
=
γ
(
(
x
,
t
)
,
(
y
,
s
)
)
.
{\displaystyle \Gamma (x,y)_{(t,s)}=\gamma ((x,t),(y,s)).}
更に、(4 )の形の核は上の式で行列値核を定義する。では、写像
D
:
H
Γ
→
H
γ
{\displaystyle D:H_{\Gamma }\to H_{\gamma }}
を
(
D
f
)
(
x
,
t
)
=
⟨
f
(
x
)
,
e
t
⟩
R
T
{\displaystyle (Df)(x,t)=\langle f(x),e_{t}\rangle _{\mathbb {R} ^{T}}}
と定義する。ただし、
e
t
{\displaystyle e_{t}}
は
R
T
{\displaystyle \mathbb {R} ^{T}}
の直交基底の
t
{\displaystyle t}
番目の要素である。
D
{\displaystyle D}
は全単射であり、
H
Γ
{\displaystyle H_{\Gamma }}
と
H
γ
{\displaystyle H_{\gamma }}
の間の等長写像となる。
vvRKHSのこのような見方はマルチタスク学習で有用ではあるものの、この等長変換はベクトル値の場合の研究をスカラー値の場合の研究に帰結させるものではない。実際、この等長変換によってもともとの核の性質がたびたび無くなり、スカラー値核や入力空間が複雑になりすぎる。[ 9] [ 10] [ 11]
行列値再生核の中でも重要な種類に、スカラー値核と
T
{\displaystyle T}
次元対称半正定値行列の積で表されるような、分離可能核と呼ばれるものがある。これまでの議論の観点から表せば、分離可能核は
X
{\displaystyle X}
の任意の要素
x
,
y
{\displaystyle x,y}
と
T
{\displaystyle T}
の任意の要素
s
,
t
{\displaystyle s,t}
に対して以下の式で表される。
γ
(
(
x
,
t
)
,
(
y
,
s
)
)
=
K
(
x
,
y
)
K
T
(
t
,
s
)
{\displaystyle \gamma ((x,t),(y,s))=K(x,y)K_{T}(t,s)}
スカラー値核が入力間の依存関係を表現していたのに対して、行列値核は入力と出力の両方の依存関係を表現していることが分かる。
最後に、このような理論は更に関数空間の関数空間に拡張できるが、このような空間での核を得るのはより難しい。[ 7]
ReLU関数 は通常
f
(
x
)
=
max
{
0
,
x
}
{\displaystyle f(x)=\max\{0,x\}}
で定義され、活性化関数としてReLU関数が使われているニューラルネットワークの構造の中枢である。 再生核ヒルベルト空間を使ってReLUに似た非線形関数を構築することができる。以下、実際に構築の仕方を紹介し、そこから ReLUが活性化関数に使われているニューラルネットワークの表現力を導出する過程を説明する。
ヒルベルト空間として、
f
(
0
)
=
0
{\displaystyle f(0)=0}
であって導関数が自乗可積分な関数の空間
H
=
L
2
1
(
0
)
[
0
,
∞
)
{\displaystyle {\mathcal {H}}=L_{2}^{1}(0)[0,\infty )}
を考える。内積は以下のように定義する。
⟨
f
,
g
⟩
H
=
∫
0
∞
f
′
(
x
)
g
′
(
x
)
d
x
{\displaystyle \langle f,g\rangle _{\mathcal {H}}=\int _{0}^{\infty }f'(x)g'(x)\,dx}
再生核を構成するためには密な部分空間を考えれば十分であるから、
f
∈
C
1
[
0
,
∞
)
{\displaystyle f\in C^{1}[0,\infty )}
かつ
f
(
0
)
=
0
{\displaystyle f(0)=0}
とする(?)。微分積分学の基本公式から
f
(
y
)
=
∫
0
y
f
′
(
x
)
d
x
=
∫
0
∞
G
(
x
,
y
)
f
′
(
x
)
d
x
=
⟨
K
y
,
f
⟩
{\displaystyle f(y)=\int _{0}^{y}f'(x)\,dx=\int _{0}^{\infty }G(x,y)f'(x)\,dx=\langle K_{y},f\rangle }
となる。ただし
G
(
x
,
y
)
=
{
1
,
x
<
y
0
,
otherwise
{\displaystyle G(x,y)={\begin{cases}1,&x<y\\0,&{\text{otherwise}}\end{cases}}}
K
(
x
,
y
)
=
K
y
(
x
)
=
∫
0
x
G
(
z
,
y
)
d
z
=
{
x
,
0
≤
x
<
y
y
,
otherwise.
=
min
(
x
,
y
)
{\displaystyle K(x,y)=K_{y}(x)=\int _{0}^{x}G(z,y)\,dz={\begin{cases}x,&0\leq x<y\\y,&{\text{otherwise.}}\end{cases}}=\min(x,y)}
更に
X
×
X
=
[
0
,
∞
)
×
[
0
,
∞
)
{\displaystyle X\times X=[0,\infty )\times [0,\infty )}
上のmin関数はReLU関数で以下のように表現できる。
min
(
x
,
y
)
=
x
−
ReLU
(
x
−
y
)
=
y
−
ReLU
(
y
−
x
)
{\displaystyle \min(x,y)=x-\operatorname {ReLU} (x-y)=y-\operatorname {ReLU} (y-x)}
この式を使って、リプレゼンター定理 (英語版 ) をこのRKHSにを適用すると、ニューラルネットワークにおいてReLU活性化関数を使うのが最適だと証明できる。[要出典 ]
^ Alpay, D., and T. M. Mills. "A family of Hilbert spaces which are not reproducing kernel Hilbert spaces." J. Anal. Appl. 1.2 (2003): 107–111.
^ Z. Pasternak-Winiarski, "On weights which admit reproducing kernel of Bergman type", International Journal of Mathematics and Mathematical Sciences, vol. 15, Issue 1, 1992.
^ T. Ł. Żynda, "On weights which admit reproducing kernel of Szeg¨o type", Journal of Contemporary Mathematical Analysis (Armenian Academy of Sciences), 55, 2020.
^ Okutmustur
^ Paulson
^ Durrett
^ a b c Rosasco
^ Berlinet, Alain and Thomas, Christine. Reproducing kernel Hilbert spaces in Probability and Statistics, Kluwer Academic Publishers, 2004
^ De Vito
^ Zhang
^ Alvarez
Alvarez, Mauricio, Rosasco, Lorenzo and Lawrence, Neil, “Kernels for Vector-Valued Functions: a Review,” https://arxiv.org/abs/1106.6251 , June 2011.
Aronszajn, Nachman (1950). “Theory of Reproducing Kernels”. Transactions of the American Mathematical Society 68 (3): 337–404. doi :10.1090/S0002-9947-1950-0051437-7 . JSTOR 1990404 . MR 51437 .
Berlinet, Alain and Thomas, Christine. Reproducing kernel Hilbert spaces in Probability and Statistics , Kluwer Academic Publishers, 2004.
Cucker, Felipe; Smale, Steve (2002). “On the Mathematical Foundations of Learning”. Bulletin of the American Mathematical Society 39 (1): 1–49. doi :10.1090/S0273-0979-01-00923-5 . MR 1864085 .
De Vito, Ernest, Umanita, Veronica, and Villa, Silvia. "An extension of Mercer theorem to vector-valued measurable kernels," arXiv :1110.4017 , June 2013.
Durrett, Greg. 9.520 Course Notes, Massachusetts Institute of Technology, https://www.mit.edu/~9.520/scribe-notes/class03_gdurett.pdf , February 2010.
Kimeldorf, George; Wahba, Grace (1971). “Some results on Tchebycheffian Spline Functions” . Journal of Mathematical Analysis and Applications 33 (1): 82–95. doi :10.1016/0022-247X(71)90184-3 . MR 290013 . http://www.stat.wisc.edu/~wahba/ftp1/oldie/kw71.pdf .
Okutmustur, Baver. “Reproducing Kernel Hilbert Spaces,” M.S. dissertation, Bilkent University, http://www.thesis.bilkent.edu.tr/0002953.pdf , August 2005.
Paulsen, Vern. “An introduction to the theory of reproducing kernel Hilbert spaces,” http://www.math.uh.edu/~vern/rkhs.pdf .
Steinwart, Ingo; Scovel, Clint (2012). “Mercer's theorem on general domains: On the interaction between measures, kernels, and RKHSs”. Constr. Approx. 35 (3): 363–417. doi :10.1007/s00365-012-9153-3 . MR 2914365 .
Rosasco, Lorenzo and Poggio, Thomas. "A Regularization Tour of Machine Learning – MIT 9.520 Lecture Notes" Manuscript, Dec. 2014.
Wahba, Grace, Spline Models for Observational Data , SIAM , 1990.
Zhang, Haizhang; Xu, Yuesheng; Zhang, Qinghui (2012). “Refinement of Operator-valued Reproducing Kernels” . Journal of Machine Learning Research 13 : 91–136. http://www.jmlr.org/papers/volume13/zhang12a/zhang12a.pdf .