利用者:青子守歌/即時削除に対する統計的解析

この文書は私論です。一部のウィキペディアンが助言や意見を記したものです。広く共有されている考え方もあれば、少数意見の見解もあります。内容の是非については慎重に検討してください。

この文書の要旨: 最近のウィキペディア日本語版における即時削除の統計的解析を行なうことで、即時削除の運用、あるいはウィキペディア日本語版の運用への参考資料となります。

即時削除とは、削除依頼での審議を必要としない削除のことであり、単純な荒らしやイタズラなどの低質な投稿などを含んでいます。

この即時削除されたページについて統計的解析を加えることで、ウィキペディア日本語版における即時削除現状を把握し、それをもって、即時削除やウィキペディア日本語版全体の運用に対する知見を与えることができます。

データ

データは、利用者:青子守歌/即時削除に対する統計的解析/script.jsと利用者:青子守歌/即時削除に対する統計的解析/script2.jsを使って抽出したものです。また、その数値データは利用者:青子守歌/即時削除に対する統計的解析/データから利用可能です。

解析

解析データに対して、例えば編集フィルターなどで「あるサイズ以下の記事を問題のある作成として検出する」ことを念頭に、解析を行ないます。

基礎的解析

作成された記事（即時削除されたものも現存したものも含む）の初版サイズは、そのほとんど（約95[%]）が10,000 [byte]以下です。
現存する記事の約75[%]が、初版サイズが1,000-10,000バイトにあります。また、10[%]程度が初版サイズが700 [byte]以下です。
現存する記事の初版サイズは概ね正規分布で、対して、即時削除された記事の初版サイズは対数分布しています。
即時削除のうち、適用回数の多い基準順に、記事1、全般3、全般4、全般2となっており、この4つだけで全即時削除基準の8割以上を占めます。

仮定

#基礎的解析の結果を踏まえて、以下の様な仮定をおきます。

即時削除された記事を検出すべき対象（正常検出）、現存する記事を検出すべきでない対象（誤検出）とみなします。
WP:CSD#全般1、WP:CSD#全般2、WP:CSD#全般3、WP:CSD#記事1で削除された記事を、「荒らしやイタズラ、テスト投稿などの記事でないもの」とみなします（全体の約75[%]がこのグループに属します）。
WP:CSD#全般4、WP:CSD#全般5で削除された記事を「内容に問題があったもの」とみなします（全体の約20[%]がこのグループに属します）。

閾値

閾値を変化させた時の、正常検出と誤検出の割合です。

閾値による各種類の検出割合
閾値 [byte]	正常検出 [%]			誤検出 [%]
閾値 [byte]	記事でないもの	内容に問題があったもの	総計	誤検出 [%]
50	26	3	21	0.5
100	39	8	33	1
300	67	27	56	3
500	76	38	65	7
1000	85	58	76	17
2000	91	76	86	47

考察

#解析データに対して考察を加えます。

編集フィルターでの検出

まず前提として、閾値を上げれば、正常検出される数は増えますが、誤検出の量も増えます。ですので、許容できる誤検出の割合以下で、なるべく閾値をあげることが、検出精度の向上につながります。

さて、#基礎的解析での結果の通り、正常検出と誤検出は分布形状が異なり、特に、小さいサイズの領域においてその割合に大きな差があるため、この差を利用して、検出精度をあげることが可能と考えられます。具体的には、現存する記事は1000[byte]手前から急にその数が増えるため、その周辺が「許容できる誤検出の割合」になると考えられます。

また、グラフを見ると分かる通り、正常検出であっても、「記事でないもの」と「問題のあるもの」はその増加傾向が異なっており、「問題のあるもの」の方が、増加開始が遅い（平均して初版サイズが大きい）、つまり検出しづらい傾向にあります。

以上を踏まえて#閾値をみると、

2000[byte]では、誤検出の割合が1/2近くにまで達するため、誤差が大きすぎると考えられます。
1000[byte]では、3/4程度が正常に検出でき、「記事でないもの」は4/5、「問題のあるもの」は1/2程度と高い検出率ですが、同時に、1/7程度の誤検出が発生します。
500[byte]では、「記事でないもの」3/4程度検出できますが、「問題のあるもの」の検出率は半分を切ります。ただし、誤検出の割合は1ケタ（1/14程度）になります。
300[byte]では、全体でも1/2程度、「問題のあるもの」の検出率も1/4程度あります。誤検出の割合は5[%]以下（1/33程度）になります。
100[byte]以下では、誤検出の割合が1[%]以下になりほとんど誤検出がなくなりますが、全体の検出率も1/4程度になります。

つまり、閾値の設定は

誤検出の割合に対してある程度寛容なら、1000[byte]
「記事でないもの」の検出率を高くしたいなら、500[byte]
誤検出を極力減らしたい場合は、300[byte]
誤検出をほぼなくしたい場合は、100あるいは50[byte]

というようになると考えられます。