利用者:U256/スケーリング則
機械学習において、スケーリング則(すけーりんぐそく、英: neural scaling law)は、ニューラルネットワークのパラメータに関するスケーリング則である。[1][2]
概要
[編集]一般的に、ニューラルネットワークモデルは、モデルの大きさ、訓練データセットの大きさ、訓練のコスト、訓練後の性能という4つのパラメータにより特徴付けられる。4つのパラメータは実数として正確に定義することができ、また単純な統計則に従うことが経験的に知られている。これらのパラメータは通常、(パラメータ数、データセットの大きさ、計算コスト、損失)と表記される。
モデルの大きさ
[編集]ほとんどの場合、モデルの大きさとはパラメータ数を指す。しかし、Mixture-of-Expert モデル[3]といったスパースモデルにおいてはその限りではない。スパースモデルの推論には、パラメータ全体の一部のみが利用される。それと比べて、他のほとんどのニューラルネットワークモデル(Transformer など)では、常にすべてのパラメータを利用して推論が行われる。
訓練データセットの大きさ
[編集]訓練データセットの大きさは通常、それに含まれるデータ点の数で定量化される。モデルの学習には豊富で多様な情報源が必要であるため、訓練データセットはより大きなものが好まれる。これにより、モデルを未知のデータを適用した際の汎化性能が向上する。[4] しかし、訓練データセットを大きくすることは、モデルの訓練に必要な計算リソースと時間が増加することも意味する。
ほとんどの大規模言語モデルで用いられている「事前に訓練し、微調整する」方法では、事前訓練データセットと微調整データセットと呼ばれる、2種類の訓練データセットが用いられる。これらの大きさはモデルの性能にそれぞれ異なる影響を及ぼす。一般的に、微調整には事前訓練時と比べて1%未満の大きさのデータセットが用いられる。[5]
微調整には少数の高品質なデータで十分であり、より多くのデータを用いても性能が向上しない場合もある。[5]
訓練コスト
[編集]訓練コストは通常、時間(訓練にどれだけの時間が必要か)と計算リソース(訓練にはどれだけの計算能力とメモリが必要か)の観点から測られる。特筆すべきは、訓練コストは効率的な訓練アルゴリズム、最適化されたソフトウェア、GPU や TPU 上での並列計算により大幅に削減できることである。
ニュラルネットワークモデルの訓練コストは、モデルの大きさ、訓練データセットの大きさ、訓練アルゴリズムの複雑さ、利用可能な計算リソースといった要素の関数として考えることができる。[4] 特に、訓練データセットを2倍に増やすことは、必ずしも訓練コストが2倍になることを意味しない。これは、あるデータセット(これを1エポックとして扱う)に対して何回もモデルを訓練することがあるためである。
性能
[編集]ニューラルネットワークモデルの性能は、与えられた入力から、どれほど正確に出力を予測できるかで評価される。一般的な評価指標としては以下がある。[4]
- 識別タスクにおける、正解率、適合率、再現率、F1 スコア(英: accuracy, precision, recall, F1 score)
- 回帰タスクにおける、平均二乗誤差(MSE)や平均絶対誤差(MAE)
- 言語モデルにおける、トークンあたりの負の対数尤度(パープレキシティの対数)
- 他のモデルに対するイロレーティング(例: コンピュータチェス[6]や人間による評価[7])
モデルの性能は、より多くのデータ、より大きなモデル、異なる訓練アルゴリズムの併用、過適合の防止、検証データセットによる早期終了により改善することができる。
参考文献
[編集]- ^ Bahri, Yasaman; Dyer, Ethan (12 February 2021). "Explaining Neural Scaling Laws". arXiv:2102.06701 [cs.LG]。
- ^ Hestness, Joel; Narang, Sharan (1 December 2017). "Deep Learning Scaling is Predictable, Empirically". arXiv:1712.00409 [cs.LG]。
- ^ Rajbhandari, Samyam; Li, Conglong; Yao, Zhewei; Zhang, Minjia; Aminabadi, Reza Yazdani; Awan, Ammar Ahmad; Rasley, Jeff; He, Yuxiong (2022-06-28). “DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale” (英語). Proceedings of the 39th International Conference on Machine Learning (PMLR): 18332–18346 .
- ^ a b c Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press.
- ^ a b Zhou, Chunting; Liu, Pengfei; Xu, Puxin; Iyer, Srini; Sun, Jiao; Mao, Yuning; Ma, Xuezhe; Efrat, Avia et al. (2023-05-01). LIMA: Less Is More for Alignment .
- ^ Andy L. Jones, Scaling Scaling Laws with Board Games
- ^ LMSYS Chatbot leaderboard
[[Category:統計学の法則]]
[[Category:冪乗則]]
[[Category:ニューラルネットワーク]]