コンテンツにスキップ

利用者:U256/利用者:U256/ニューラルスケーリング則

機械学習において、スケーリング則(すけーりんぐそく、: neural scaling law)は、ニューラルネットワークのパラメータに関するスケーリング則である。[1][2]

概要[編集]

一般的に、ニューラルネットワークモデルは、モデルの大きさ、訓練データの大きさ、訓練のコスト、訓練後の性能という4つのパラメータにより特徴付けられる。4つのパラメータは実数として正確に定義することができ、また単純な統計則に従うことが経験的に知られている。これらのパラメータは通常、(パラメータ数、データセットの大きさ、計算コスト、損失)と表記される。

モデルの大きさ[編集]

ほとんどの場合、モデルの大きさとはパラメータ数を指す。しかし、Mixture-of-Expert モデル[3]といったスパースモデルにおいてはその限りではない。スパースモデルの推論には、パラメータ全体の一部のみが利用される。それと比べて、他のほとんどのニューラルネットワークモデル(Transformer など)では、推論時にはいつもすべてのパラメータが利用される。

参考文献[編集]

  1. ^ Bahri, Yasaman; Dyer, Ethan (12 February 2021). "Explaining Neural Scaling Laws". arXiv:2102.06701 [cs.LG]。
  2. ^ Hestness, Joel; Narang, Sharan (1 December 2017). "Deep Learning Scaling is Predictable, Empirically". arXiv:1712.00409 [cs.LG]。
  3. ^ Rajbhandari, Samyam; Li, Conglong; Yao, Zhewei; Zhang, Minjia; Aminabadi, Reza Yazdani; Awan, Ammar Ahmad; Rasley, Jeff; He, Yuxiong (2022-06-28). “DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale” (英語). Proceedings of the 39th International Conference on Machine Learning (PMLR): 18332–18346. https://proceedings.mlr.press/v162/rajbhandari22a.html. 

[[Category:統計学の法則]] [[Category:冪乗則]] [[Category:ニューラルネットワーク]]