コンテンツにスキップ

英文维基 | 中文维基 | 日文维基 | 草榴社区

利用者:Dai2chi/ESPゲーム

能動学習、または、アクティブ・ラーニング: Active learning)とは、機械学習における特別な学習手法の一つで、学習アルゴリズムユーザー(または、他の情報源)に対して対話的に問合せ、望んだ出力をラベル付けしてもらうことができる手法である[1][2][3]統計学の領域では、最適計画法英語版と呼ばれることもある[4]。また、その問合せの対象となる情報源は「教師」または「オラクル」と呼ばれる。

ラベル付けされていないデータがたくさんあるが、人間によるラベリングが高価である状況を考える。そのような場合に、学習アルゴリズムが能動的にユーザーや教師にラベルを問い合わせることできる、対話的な教師あり学習を能動学習と呼ぶ。学習アルゴリズムが問い合わせる学習データを能動的に選択することによって、能動学習では、問題を学習するために必要なデータ数を通常の教師あり学習と比べてはるかに少なくできることが多い。

大規模な能動学習プロジェクトは、Amazon Mechanical Turkのようなクラウドソーシングプラットフォームなどを活用することがある。そのような場合には多くの人が能動学習の繰り返しの中に参加することになる(ヒューマン・イン・ザ・ループ英語版)。

定義

[編集]

扱うすべてのデータの集合をTとおく。例えば、 タンパク質工学の問題においてT は、すでにある興味深い活性を持つと知られるすべてのタンパク質と、他の活性が未知であるすべてのタンパク質を含んでいる。

各回(i回目)の繰り返しごとに、集合Tは3つの部分集合に分割される。

  1. : そのラベルが明らかなデータ
  2. : そのラベルが明らかでないデータ
  3. : TU,i の部分集合で、(教師に)ラベル付けされるために選択されたデータ

能動学習における現在の研究のほとんどは、TC,iに含めるデータを選択するための最適な方法について扱っている。

手法

[編集]
  • Membership Query Synthesis: 学習アルゴリズム自身が、基礎となる自然分布から独自の学習データを生成する手法。例えば、人間と動物の画像からデータセットが構成される時、学習アルゴリズムは画像内に写る「脚」を切り取った画像を教師に送信し、それが動物のものか人間のものか問い合わせることができる。この手法は特に、データセットが小さい場合に有効である[5]
  • Pool-Based Sampling: この手法では、全体のデータから取り出されたデータに自信度(学習アルゴリズムがいかにそのデータを「理解」できたかの指標)が割り当てられる。次に、学習アルゴリズムはもっとも低い自信度を持つデータらを選択し、教師にそのラベルを問い合わせる。
  • Stream-Based Selective Sampling: この手法では、ラベル付けされていないデータは1度、学習アルゴリズムによって、問合せパラメータ―に対する各データの情報量を評価される。学習アルゴリズムはその結果をもとに、ラベルを割り当てるか、教師に問い合わせるかをデータごとに自身で決定する。

問合せ戦略

[編集]

どのデータを教師にラベル付けしてもらうかを決定するアルゴリズム(問合せ戦略)は、その目的に基づいて、いくつかの異なるカテゴリに分類できる[1]

  • 探索と活用のバランス: ラベルを問い合わせるデータの選択は、データの表現空間上の探索と活用のジレンマとしてみられる。この戦略では、能動学習の問題をバンディット問題として扱うことで、探索と活用のバランスを図る。例えば、Bouneffoufらは、Active Thompson Sampling (ATS)という逐次アルゴリズムを提案している[6]。このアルゴリズムでは、繰り返しの各回において、データプールに標本分布を割り当て、その分布から1つの標本を抽出し、その標本のラベルをオラクルに問い合わせる。
  • モデルの変化を期待する: 現在のモデルを最も変化させるようなデータのラベルを問い合わせる戦略。
  • 誤差減少を期待する: モデルの汎化誤差英語版を最も減少させるようなデータのラベルを問い合わせる戦略。
  • 能動学習のための指数勾配探索[7]: この論文では、著者らはEG-active(Exponentiated Gradient, 指数勾配)という逐次アルゴリズムを提案している。このアルゴリズムは既存のランダム探索を最適化した能動学習手法よりも精度を向上させている。
  • ランダムサンプリング: 標本はランダムに選択される[8]
  • 不確実性サンプリング: label those points for which the current model is least certain as to what the correct output should be.
    • Entropy Sampling: The entropy formula is used on each sample, and the sample with the highest entropy is considered to be the least certain.[8]
    • Margin Sampling: The sample with the smallest difference between the two highest class probabilities is considered to be the most uncertain.[8]
    • Least Confident Sampling: The sample with the smallest best probability is considered to be the most uncertain.[8]
  • Query by committee: a variety of models are trained on the current labeled data, and vote on the output for unlabeled data; label those points for which the "committee" disagrees the most
  • Querying from diverse subspaces or partitions:[9] When the underlying model is a forest of trees, the leaf nodes might represent (overlapping) partitions of the original feature space. This offers the possibility of selecting instances from non-overlapping or minimally overlapping partitions for labeling.
  • Variance reduction: label those points that would minimize output variance, which is one of the components of error.
  • Conformal prediction英語版: predicts that a new data point will have a label similar to old data points in some specified way and degree of the similarity within the old examples is used to estimate the confidence in the prediction.[10]
  • Mismatch-first farthest-traversal: The primary selection criterion is the prediction mismatch between the current model and nearest-neighbour prediction. It targets on wrongly predicted data points. The second selection criterion is the distance to previously selected data, the farthest first. It aims at optimizing the diversity of selected data.[11]
  • User Centered Labeling Strategies: Learning is accomplished by applying dimensionality reduction to graphs and figures like scatter plots. Then the user is asked to label the compiled data (categorical, numerical, relevance scores, relation between two instances.[12]

A wide variety of algorithms have been studied that fall into these categories.[1][4]

Minimum marginal hyperplane

[編集]

Some active learning algorithms are built upon support-vector machines (SVMs) and exploit the structure of the SVM to determine which data points to label. Such methods usually calculate the margin英語版, W, of each unlabeled datum in TU,i and treat W as an n-dimensional distance from that datum to the separating hyperplane.

Minimum Marginal Hyperplane methods assume that the data with the smallest W are those that the SVM is most uncertain about and therefore should be placed in TC,i to be labeled. Other similar methods, such as Maximum Marginal Hyperplane, choose data with the largest W. Tradeoff methods choose a mix of the smallest and largest Ws.

関連項目

[編集]

脚注

[編集]
  1. ^ a b c Settles, Burr (2010). Active Learning Literature Survey. Computer Sciences Technical Report 1648. University of Wisconsin–Madison. http://pages.cs.wisc.edu/~bsettles/pub/settles.activelearning.pdf 2014年11月18日閲覧。. 
  2. ^ Rubens, Neil; Elahi, Mehdi; Sugiyama, Masashi; Kaplan, Dain (2016). “Active Learning in Recommender Systems”. In Ricci, Francesco; Rokach, Lior; Shapira, Bracha. Recommender Systems Handbook (2 ed.). Springer US. doi:10.1007/978-1-4899-7637-6. hdl:11311/1006123. ISBN 978-1-4899-7637-6. http://machinelearning202.pbworks.com/f/Rubens-Active-Learning-RecSysHB2010.pdf 
  3. ^ Das, Shubhomoy; Wong, Weng-Keen; Dietterich, Thomas; Fern, Alan; Emmott, Andrew (2016). “Incorporating Expert Feedback into Active Anomaly Discovery”. In Bonchi, Francesco; Domingo-Ferrer, Josep; Baeza-Yates, Ricardo et al.. IEEE 16th International Conference on Data Mining. IEEE. pp. 853–858. doi:10.1109/ICDM.2016.0102. ISBN 978-1-5090-5473-2 
  4. ^ a b Olsson, Fredrik (April 2009). A literature survey of active machine learning in the context of natural language processing. SICS Technical Report T2009:06. http://eprints.sics.se/3600/. 
  5. ^ Wang, Liantao; Hu, Xuelei; Yuan, Bo; Lu, Jianfeng (2015-01-05). “Active learning via query synthesis and nearest neighbour search”. Neurocomputing 147: 426–434. doi:10.1016/j.neucom.2014.06.042. http://espace.library.uq.edu.au/view/UQ:344582/UQ344582_OA.pdf. 
  6. ^ Bouneffouf, Djallel; Laroche, Romain; Urvoy, Tanguy; Féraud, Raphael; Allesiardo, Robin (2014). “Contextual Bandit for Active Learning: Active Thompson”. In Loo, C. K.; Yap, K. S.; Wong, K. W. et al.. Neural Information Processing. Lecture Notes in Computer Science. 8834. pp. 405–412. doi:10.1007/978-3-319-12637-1_51. ISBN 978-3-319-12636-4. HAL Id: hal-01069802. https://hal.archives-ouvertes.fr/hal-01069802 
  7. ^ Bouneffouf, Djallel (8 January 2016). “Exponentiated Gradient Exploration for Active Learning”. Computers 5 (1): 1. arXiv:1408.2196. doi:10.3390/computers5010001. 
  8. ^ a b c d Faria, Bruno; Perdigão, Dylan; Brás, Joana; Macedo, Luis (2022). “The Joint Role of Batch Size and Query Strategy in Active Learning-Based Prediction - A Case Study in the Heart Attack Domain”. Progress in Artificial Intelligence: 464–475. doi:10.1007/978-3-031-16474-3_38. 
  9. ^ shubhomoydas/ad_examples” (英語). GitHub. 2018年12月4日閲覧。
  10. ^ Makili, Lázaro Emílio; Sánchez, Jesús A. Vega; Dormido-Canto, Sebastián (2012-10-01). “Active Learning Using Conformal Predictors: Application to Image Classification”. Fusion Science and Technology 62 (2): 347–355. doi:10.13182/FST12-A14626. ISSN 1536-1055. 
  11. ^ Zhao, Shuyang; Heittola, Toni; Virtanen, Tuomas (2020). “Active learning for sound event detection” (英語). IEEE/ACM Transactions on Audio, Speech, and Language Processing. arXiv:2002.05033. 
  12. ^ Bernard, Jürgen; Zeppelzauer, Matthias; Lehmann, Markus; Müller, Martin; Sedlmair, Michael (June 2018). “Towards User-Centered Active Learning Algorithms”. Computer Graphics Forum 37 (3): 121–132. doi:10.1111/cgf.13406. ISSN 0167-7055. 

引用エラー: <references> で定義されている name "hybrid" の <ref> タグは、先行するテキスト内で使用されていません。
引用エラー: <references> で定義されている name "multi" の <ref> タグは、先行するテキスト内で使用されていません。

引用エラー: <references> で定義されている name "single-pass" の <ref> タグは、先行するテキスト内で使用されていません。