利用者:Tredirand/sandbox/1

ここはTredirandさんの利用者サンドボックスです。編集を試したり下書きを置いておいたりするための場所であり、百科事典の記事ではありません。ただし、公開の場ですので、許諾されていない文章の転載はご遠慮ください。

登録利用者は自分用の利用者サンドボックスを作成できます（サンドボックスを作成する、解説）。

データサイエンス > 機械学習 > 生成モデル > Tredirand/sandbox/1

変分オートエンコーダー（Variational Auto-Encoder: VAE）とは、ニューラルネットワークを使った生成モデルの１つである。原論文ではまず、確率分布に対するパラメーター最適化アルゴリズムであるオートエンコーディング変分ベイズアルゴリズム（Auto-Encoding Variational Bayes (AEVB) algorithm）を導入し、その応用例として変分オートエンコーダーを導入しているので、本項でもこれにならい、まずはオートエンコーディング変分ベイズアルゴリズムから説明する。

オートエンコーディング変分ベイズアルゴリズムの概要

セッティング

今、データ集合 $X=\{\mathbf {x} ^{(1)},\ldots ,\mathbf {x} ^{(N)}\}$ が各 $i =1,..., N$ に対し、以下のように生成されていると仮定する^#原論文^:2.1節：

まず潜在変数 $z (i)$ が何らかの確率密度関数 $p_{\theta }(\mathbf {z} )$ に従って選ばれ、
$x (i)$ が $z (i)$ に依存した何らかの確率密度関数 $p_{\theta }(\mathbf {x} |\mathbf {z} )$ に従って選ばれる。

ここで $θ$ は何らかのパラメーターであり、 $θ$ の真の値 $θ *$ は未知である。また $p_{\theta }(\mathbf {z} )$ 、 $p_{\theta }(\mathbf {x} |\mathbf {z} )$ に従って値を選ぶのは計算量的に容易であるものとする。

一方、潜在変数の事後分布の確率密度関数 $p_{\theta }(\mathbf {z} |\mathbf {x} )$ は容易には計算できず、（容易に計算できる）確率密度関数 $q_{\phi }(\mathbf {x} |\mathbf {z} )$ により、近似する事を考える^#原論文^:2.1節。ここで $\phi$ はパラメーターである。

我々は、 $q_{\phi }(\mathbf {x} |\mathbf {z} )$ が $p_{\theta }(\mathbf {z} |\mathbf {x} )$ をどの程度よく近似しているかを測る尺度として、以下の関数（変分下界と呼ばれる）を考える^#原論文^:2.2節：

{\mathcal {L}}(\theta ,\phi ,\mathbf {x} ):=\log p_{\theta }(\mathbf {x} )-\mathrm {KL} (q_{\phi }(\mathbf {z} |\mathbf {x} )\|p_{\theta }(\mathbf {z} |\mathbf {x} ))

ここでKLはカルバック・ライブラー情報量である。カルバック・ライブラー情報量は常に非負である（ギブスの不等式）ので、 ${\mathcal {L}}(\theta ,\phi ,\mathbf {x} )$ は自己情報量 $\log p_{\theta }(\mathbf {x} )$ の下界になっており、 $q_{\phi }(\mathbf {x} |\mathbf {z} )$ が $p_{\theta }(\mathbf {z} |\mathbf {x} )$ を（カルバック・ライブラー情報量の意味で）よく近似しているほど $\log p_{\theta }(\mathbf {x} )$ に近づく。

目標

我々の目標は、与えられたデータ集合 $X=\{\mathbf {x} ^{(1)},\ldots ,\mathbf {x} ^{(N)}\}$ に対し、下界 $\sum _{i=1}^{N}{\mathcal {L}}(\theta ,\phi ,\mathbf {x} ^{(i)})$ が可能な限り大きくなるパラメーターの組 $(\theta ,\phi )$ を見つける事である。

これができれば特に以下の事ができるようになる：

見つけた $θ$ を使う事で $p_{\theta }(\mathbf {z} )$ 、 $p_{\theta }(\mathbf {x} |\mathbf {z} )$ に従う確率変数 $z$ 、 $x$ を生成する生成モデルを作成
$q_{\phi }(\mathbf {z} |\mathbf {x} )$ により $p_{\theta }(\mathbf {z} |\mathbf {x} )$ を推定

後述する生成モデルである変分オートエンコーダーは、 $x$ の生成モデルが作れるという上述の事実をニューラルネットワークに適用する事で得られる。

アルゴリズム

しかし前述した変分下界 ${\mathcal {L}}(\theta ,\phi ,\mathbf {x} )$ は一般には計算が簡単ではない。そこで我々は、 $q_{\phi }(\mathbf {x} |\mathbf {z} )$ が適切な仮定を満たすという条件下、SGVB推定量（Stochastic Gradient Variational Bayes estimator、確率的勾配変分ベイズ推定量）という、変分下界の推定量を導入する^#原論文^:2.3節。

オートエンコーディング変分ベイズアルゴリズム（Auto-Encoding VB (AEVB) algorithm）は与えられたデータ集合 $X=\{\mathbf {x} ^{(1)},\ldots ,\mathbf {x} ^{(N)}\}$ に対し、確率勾配法を用いてSGVB推定量を極大化するものである^#原論文^:2.3節。

他の推論アルゴリズムとの比較

本章で想定しているセッティングにおいて、既知の手法に対する本手法の優位性は以下の通りである^#原論文^:2.1節：

最尤法は本章のセッティングでは $p_{\theta }(\mathbf {x} )=\int p_{\theta }(\mathbf {x} |\mathbf {z} )p_{\theta }(\mathbf {z} )\mathrm {d} \mathbf {z}$ が容易に計算できるケースでないと使えないが、本手法はそうでないケースにも使える
EMアルゴリズムは $p_{\theta }(\mathbf {z} |\mathbf {x} )$ の計算が容易であるケースでないと使えないが、本手法はそうでないケースにも使える。
変分ベイズ法は $p_{\theta }(\mathbf {z} |\mathbf {x} )$ が平均場近似できる場合にしか使えないが、本手法はそうでないケースにも使える。
モンテカルロEMアルゴリズムは実行速度が遅い為大きなデータ集合に対しては使えないが本手法は大きなデータ集合に対しても使える。

例えば $p_{\theta }(\mathbf {x} |\mathbf {z} )$ がニューラルネットワークにより定義されているケースでは、上述した既知の手法は使えないが、本手法であれば適用できる。後述する変分オートエンコーダーはまさにこのケースであり、 $p_{\theta }(\mathbf {x} |\mathbf {z} )$ をニューラルネットワークにより定義している。

変分オートエンコーダーの概要

変分オートエンコーダーとは、オートエンコーディング変分ベイズアルゴリズムを使って学習するニューラルネットワーク（原論文では1層もしくは2層のパーセプトロン^#原論文^{:Appendix C}）ベースの生成モデルである。

セッティング

変分オートエンコーダーでは、潜在変数 $z$ が従う確率密度関数 $p_{\theta }(\mathbf {z} )$ が標準正規分布

\mathbf {z} \sim {\mathcal {N}}({\boldsymbol {0}},I)

...(D1)

に従っており^#原論文^{:Appendix B}、 $x$ の従う条件つき確率密度関数 $p_{\theta }(\mathbf {x} |\mathbf {z} )$ が

\mathbf {x} \sim {\mathcal {N}}({\boldsymbol {\mu }}_{D},{\boldsymbol {\sigma }}_{D}^{2}I)

、ここで

({\boldsymbol {\mu }}_{D},{\boldsymbol {\sigma }}_{D}^{2})=D_{\theta }(\mathbf {z} )

...(D2)

という形であるものとする^#原論文^{:Appendix C.2}。上で $D_{\theta }(\cdot )$ はパラメーター $θ$ を持つニューラルネットワークである。

さらに事後分布 $p_{\theta }(\mathbf {z} |\mathbf {x} )$ を近似する条件つき確率密度関数 $q_{\phi }(\mathbf {x} |\mathbf {z} )$ として

\mathbf {z} \sim {\mathcal {N}}({\boldsymbol {\mu }}_{E},{\boldsymbol {\sigma }}_{E}^{2}I)

、ここで

({\boldsymbol {\mu }}_{E},{\boldsymbol {\sigma }}_{E}^{2})=E_{\phi }(\mathbf {x} )

　　…(E1)

という形のものを考える^#原論文^{:Appendix C.2}。上で $E_{\phi }(\cdot )$ はパラメーター $\phi$ を持つニューラルネットワークである。

$z$ の次元は $x$ の次元より短く取る。これは $E_{\theta }(\cdot )$ を用いる事で、データ $x$ をもっと短いデータ $z$ に「圧縮」し、 $D_{\phi }(\cdot )$ を用いる事で $z$ から $x$ を「復元」できる事を意味する（ただし実際には $E_{\theta }(\cdot )$ や $D_{\phi }(\cdot )$ の後に正規乱数を取る操作があるので、「圧縮」したデータを「復元」しても元に戻らない）。このため符号理論との類推から、 $E_{\theta }(\cdot )$ をエンコーダー、 $D_{\phi }(\cdot )$ をデコーダーと呼ぶ。

アルゴリズム

変分オートエンコーダーの学習アルゴリズムは与えられたデータ集合 $X=\{\mathbf {x} ^{(1)},\ldots ,\mathbf {x} ^{(N)}\}$ に対し、以上のような状況下でオートエンコーディング変分ベイズアルゴリズムを用いる事で、２つのニューラルネットワーク $D_{\theta }(\cdot )$ 、 $E_{\phi }(\cdot )$ のパラメーター $θ$ 、 $\phi$ を決定するものである。

一方、変分オートエンコーダーの生成アルゴリズムでは、まずは(D1)式のように標準正規分布に従い $z$ を生成し、生成した $z$ と学習済みの $θ$ を使って(D2)式のように $z$ を生成する。

オートエンコーディング変分ベイズアルゴリズムの詳細

以下、概要の章で定義した記号は説明なく用いる。

SGVB推定量

概要の章で述べたように、オートエンコーディング変分ベイズアルゴリズムで考えている変分下界

{\mathcal {L}}(\theta ,\phi ,\mathbf {x} ):=\log p_{\theta }(\mathbf {x} )-\mathrm {KL} (q_{\phi }(\mathbf {z} |\mathbf {x} )\|p_{\theta }(\mathbf {z} |\mathbf {x} ))

は一般には計算が簡単ではない為、SGVB推定量という、変分下界の推定量を導入する必要があった^#原論文^:2.3節。本節ではSGVB推定量の詳細を述べる。

仮定

SGVB推定量を導入する為、何らかの（容易に計算可能な）可微分関数と（容易にサンプルを抽出できる）確率分布 ${\mathcal {E}}$ を用いて

\mathbf {z} =g_{\phi }(\mathbf {x} ,{\boldsymbol {\varepsilon }})

、ここで

{\boldsymbol {\varepsilon }}\sim {\mathcal {E}}

　　　...(P1)

とする事で確率密度関数 $q_{\phi }(\mathbf {z} |\mathbf {x} )$ に従ったサンプルを抽出できる事を仮定する^#原論文^:2.3節。

なお変分オートエンコーダーの場合は(E1)より

{\mathcal {E}}={\mathcal {N}}(\mathbf {0} ,I)

、

g_{\phi }(\mathbf {x} ,{\boldsymbol {\varepsilon }})={\boldsymbol {\mu }}_{E}+{\boldsymbol {\sigma }}_{E}^{2}\odot {\boldsymbol {\varepsilon }}

　　　...(P2)

とすればこの仮定が満たされる事がわかる。ここで「 $\odot$ 」は成分毎の積である。

後でSGVB推定量を定義する際に仮定(P1)を使う事で、本来は確率分布 $q_{\phi }(\mathbf {z} |\mathbf {x} )$ で定義する部分を可微分で確定的な関数 $g$ に置き換える事でSGVB推定量の可微分性を保証する。これによりSGVB推定量を微分して勾配法により $(\theta ,\phi )$ の最適解を求める事ができるようになる。原論文ではこのように確率分布を可微分な確定的関数に置き換えるテクニックをreparameterization trickと呼んでいる^#原論文^:2.4節。

推論量

簡単な計算により変分下界は

{\mathcal {L}}(\theta ,\phi ,\mathbf {x} )=\mathbb {E} _{q_{\phi }(\mathbf {z} |\mathbf {x} )}[\log p_{\theta }(\mathbf {x} |\mathbf {z} ))]-\mathrm {KL} (q_{\phi }(\mathbf {x} |\mathbf {z} )\|p(\mathbf {z} ))

と書き換えられる事が示せる（ここで $\mathbb {E} [\cdot ]$ は期待値である）ので、仮定(P1)を用いる事で ${\mathcal {L}}(\theta ,\phi ,\mathbf {x} )$ の値を推定するSGVB推定量を

{\tilde {\mathcal {L}}}(\theta ,\phi ,\mathbf {x} ,({\boldsymbol {\varepsilon }}^{(\ell )})_{\ell =1,\ldots ,L})):={1 \over L}\sum _{\ell =1}^{L}\log p_{\theta }(\mathbf {x} |g_{\phi }(\mathbf {x} ,{\boldsymbol {\varepsilon }}^{(\ell )}))-\mathrm {KL} (q_{\phi }(\mathbf {x} |\mathbf {z} )\|p(\mathbf {z} ))

　　　...(L1)

により定義する^#原論文^:2.3節。ここで ${\boldsymbol {\varepsilon }}^{(\ell )}$ （ $\ell =1,\ldots ,L$ ）は ${\mathcal {E}}$ から独立に抽出した乱数であり、 $L$ はハイパーパラメーターである。

SGVB推定量を計算するにはカルバック・ライブラー情報量 $\mathrm {KL} (q_{\phi }(\mathbf {x} |\mathbf {z} )\|p(\mathbf {z} ))$ を計算できる必要がある。原論文ではこの値が計算できないときの為の推定量も提案しているが^#原論文^:2.3節、本項では割愛する。

アルゴリズム

オートエンコーディング変分ベイズアルゴリズムは確率的勾配法によりSGVB推定量を極大化する $θ$ 、 $\phi$ を求めるものである^#原論文^{:2.3節 Algorithm 1}。以下で $L$ 、 $M$ はハイパーパラメーターである。

データ集合 $X=\{\mathbf {x} ^{(1)},\ldots ,\mathbf {x} ^{(N)}\}$ を入力として受け取る。
$θ$ 、 $\phi$ を初期化する。
θ、 $\phi$ $\phi$ が事前に定められた収束条件を満たすまで以下を繰り返す
- $X$ のサイズ $M$ の部分集合 $X'$ をランダムに選ぶ
- 各 $\mathbf {x} \in X'$ に対し ${\boldsymbol {\varepsilon }}_{\mathbf {x} }^{(1)},\ldots ,{\boldsymbol {\varepsilon }}_{\mathbf {x} }^{(L)}$ を ${\mathcal {E}}$ に従って選ぶ。
- $\sum _{\mathbf {x} \in X'}\nabla _{\theta ,\phi }{\tilde {\mathcal {L}}}(\theta ,\phi ,\mathbf {x} ,({\boldsymbol {\varepsilon }}_{\mathbf {x} }^{(\ell )})_{\ell =1,\ldots ,L})$ を使って $θ$ 、 $\phi$ を更新
$θ$ 、 $\phi$ を出力

変分オートエンコーダーの詳細

すでに述べたように、変分オートエンコーダーの学習アルゴリズムは、 $p_{\theta }(\mathbf {z} )$ 、 $p_{\theta }(\mathbf {x} |\mathbf {z}$ 、 $q_{\phi }(\mathbf {x} |\mathbf {z} )$ からのサンプリングが(D1)、(D2)、(E1)に従ってできるケースにおいてオートエンコーディング変分ベイズアルゴリズムを実行するというものである。

従って変分オートエンコーダーの学習アルゴリズムを書きくだす上で必要となる作業は、(D1)、(D2)、(E1)に従っているケースにおいてオートエンコーディング変分ベイズアルゴリズムにおけるSGVB推定量が具体的にどのような形になるのかを調べるだけである。

SGVB推定量の具体的な形

本節では変分オートエンコーダーのケースにおいてSGVB推定量

{\tilde {\mathcal {L}}}(\theta ,\phi ,\mathbf {x} ,({\boldsymbol {\varepsilon }}^{(\ell )})_{\ell =1,\ldots ,L}))={1 \over L}\sum _{\ell =1}^{L}\log p_{\theta }(\mathbf {x} |g_{\phi }(\mathbf {x} ,{\boldsymbol {\varepsilon }}^{(\ell )}))-\mathrm {KL} (q_{\phi }(\mathbf {x} |\mathbf {z} )\|p(\mathbf {z} ))

　　　...(L1、再掲)

の具体的な形を求める。

(P2)、(E1)、(D2)より、

({\boldsymbol {\mu }}_{E},{\boldsymbol {\sigma }}_{E}^{2})=E_{\phi }(\mathbf {x} )

、

({\boldsymbol {\mu }}_{D}^{(\ell )},({\boldsymbol {\sigma }}_{D}^{(\ell )})^{2})=D_{\theta }({\boldsymbol {\mu }}_{E}+{\boldsymbol {\sigma }}_{E}^{2}\odot {\boldsymbol {\varepsilon }}^{(\ell )})

とすると、 $p_{\theta }(\mathbf {x} |g_{\phi }(\mathbf {x} ,{\boldsymbol {\varepsilon }}^{(\ell )}))$ が正規分布 ${\mathcal {N}}({\boldsymbol {\mu }}_{D}^{(\ell )},({\boldsymbol {\sigma }}_{D}^{(\ell )})^{2}I)$ の確率密度関数であることから、

\log p_{\theta }(\mathbf {x} |g_{\phi }(\mathbf {x} ,{\boldsymbol {\varepsilon }}^{(\ell )}))=-{\frac {K}{2}}\log 2\pi -{\frac {1}{2}}\sum _{k=1}^{K}\left({(x_{k}-\mu _{D,k}^{(\ell )})^{2} \over (\sigma _{D,k}^{(\ell )})^{2}}-\log \sigma _{D,k}^{(\ell )}\right)

である。ここで $K$ は $x$ のデータ長であり、 $x k$ 、 $μ (l) D,k$ 、 $σ (l) D,k$ はそれぞれ $x$ 、 $μ (l) D$ 、 $σ (l) D$ の第 $k$ 成分である。

一方、(L1)の第2項を具体的に計算すると以下のようになる^#原論文^{:Appendix D}：

\mathrm {KL} (q_{\phi }(\mathbf {x} |\mathbf {z} )\|p(\mathbf {z} ))={1 \over 2}\sum _{j=1}^{J}\left(1-\mu _{E,j}{}^{2}-\sigma _{E,j}{}^{2}+\log \sigma _{E,j}{}^{2}\right)

ここで $J$ は $z$ のデータ長であり、 $μ E,j$ 、 $σ E,j$ はそれぞれ $μ E$ 、 $σ E$ の第 $j$ 成分である。

まとめると、

{\tilde {\mathcal {L}}}(\theta ,\phi ,\mathbf {x} ,({\boldsymbol {\varepsilon }}^{(\ell )})_{\ell =1,\ldots ,L}))=-{\frac {K}{2}}\log 2\pi -{1 \over L}\sum _{\ell =1}^{L}\sum _{k=1}^{K}\left({(x_{k}-\mu _{D,k}^{(\ell )})^{2} \over (\sigma _{D,k}^{(\ell )})^{2}}-\log \sigma _{D,k}^{(\ell )}\right)-{1 \over 2}\sum _{j=1}^{J}\left(1-\mu _{E,j}{}^{2}-\sigma _{E,j}{}^{2}+\log \sigma _{E,j}{}^{2}\right)

　　　...(L2)

ここで、

({\boldsymbol {\mu }}_{E},{\boldsymbol {\sigma }}_{E}^{2})=((\mu _{E,j})_{j=1,\ldots ,J},((\sigma _{E,j})_{j=1,\ldots ,J})=E_{\phi }(\mathbf {x} )

({\boldsymbol {\mu }}_{D}^{(\ell )},({\boldsymbol {\sigma }}_{D}^{(\ell )})^{2})=((\mu _{D,j}^{(\ell )})_{j=1,\ldots ,K},((\sigma _{D,j}^{(\ell )})_{j=1,\ldots ,K})=D_{\theta }({\boldsymbol {\mu }}_{E}+{\boldsymbol {\sigma }}_{E}^{2}\odot {\boldsymbol {\varepsilon }}^{(\ell )})

アルゴリズム

以上の結果から、変分オートエンコーダーは以下のようになる：

学習：

オートエンコーディング変分ベイズアルゴリズムを実行。ただし ${\mathcal {E}}={\mathcal {N}}(\mathbf {0} ,I)$ とし、 ${\tilde {\mathcal {L}}}$ は(L2)のものを使う。

生成：

学習済みの $\phi$ を入力として受けとる
${\mathcal {N}}(\mathbf {0} ,I)$ に従って $z$ を選ぶ
$({\boldsymbol {\mu }}_{D},{\boldsymbol {\sigma }}_{D}^{2})=D_{\phi }(\mathbf {z} )$ を計算する。
${\mathcal {N}}({\boldsymbol {\mu }}_{D},{\boldsymbol {\sigma }}_{D}^{2}I)$ に従って $x$ を選び、 $x$ を出力する。

参考文献

原論文
- Diederik P Kingma; Max Welling (2014年5月1日). “Auto-Encoding Variational Bayes” (PDF). arXiv. 2020年2月1日閲覧。
関連論文
- Diederik P. Kingma; Danilo J. Rezende, Shakir Mohamed, Max Welling (2014年10月31日). “Semi-Supervised Learning with Deep Generative Models” (PDF). arXiv. 2020年2月1日閲覧。
解説論文
- Diederik P. Kingma; Max Welling (2019年12月11日). “An Introduction to Variational Autoencoders” (PDF). arXiv. 2020年2月1日閲覧。
- Carl Doersch (2016年8月13日). “Tutorial on Variational Autoencoders” (PDF). arXiv. 2020年2月27日閲覧。