利用者:青子守歌/IPユーザーが作成した新規記事に関する基礎的解析

ウィキペディア日本語版では、以前から「IPユーザーによる新規記事の作成を禁止しませんか」という提案が何度か出されています。 結局のところ、このような制限を設けた場合には

長所
少なくないと思われるIPユーザーによる低質な新規記事作成(荒らし行為を含む)を抑制することができ、結果的に削除(管理者にしかできず、削除依頼等で人的資源を必要とする)などのメンテナンス労力を軽減できる。
短所
良質な記事を作成するIPユーザーをも一律排除することになり、結果的にウィキペディア日本語版の記事数の成長を妨げる。

という長所と短所が存在し、つまるところ「IPユーザーが新規作成した記事はどれほど有用なのか(低質で削除しなければならなくなる記事がどれほどなのか、禁止した場合に妨害される良質な記事はどれほどなのか)」という評価が大きな争点となります。 しかしこのような議論において、その多くは「禁止した方がいいと思う」「禁止すると問題があると思う」と、どこか感覚的な議論がなされてきました。

そこで、ここでは、例として2009/11/02 00:00 - 24:00 (UTC)に標準名前空間に新規作成されたページ(記事とリダイレクト、以後は「記事等」と呼びます)について、IPユーザーが新規作成した記事に関するデータの提供と基礎的な解析を行い、感覚的ではなくもう少し数値的な状況把握をすることを目的とします。

なお、今回用いたデータおよび解析項目は、有用性評価のための「十分な質と量を持った完璧なもの」ではないことに注意してください。

データの抽出[編集]

データの抽出方法および抽出したデータを示します。

新規作成数[編集]

新規作成された記事の件数について、2009/11/03 19:50 (UTC)時点での特別:新しいページを用いて、データを抽出しました。

記事等の新規作成件数
リダイレクト 全て IPユーザーのみ
含む 416件 129件
含まず 262件 95件
各件数は実際に抽出した生データのページへリンク(少々データ量が大きいので注意)

なお、特別:新しいページは、閲覧時点で存在しているページのみを表示するため、このデータは「2009/11/02 00:00 - 24:00 (UTC)に作成され、かつ2009/11/03 19:50 (UTC)時点では削除されていない記事等」のデータとなります。

削除件数[編集]

2009/11/03 19:50 (UTC)時点での特別:ログ/deleteを用いてデータの抽出を行ないました。

2009/11/02 00:00 - 2009/11/03 19:50 (UTC)で削除された記事等の全件数は137件でした。 このうち、2009/11/02 00:00 - 24:00 (UTC)にIPユーザーによって新規作成された記事等に対する削除は47件でした。 またさらにこのうち、2009/11/03 19:50 (UTC)時点では存在しているものの削除依頼に提出されており潜在的な削除可能性があるものが3件存在します。

基礎的解析[編集]

図1: 投稿データ量でクラス分けされた記事の数

データの抽出によって得られたデータを簡単に基礎的な事柄について解析を行ないます。

新規作成数に対する記事の割合
標準名前空間における新規作成数に対する記事の割合、つまり「記事/(記事+リダイレクト)」は、登録利用者も含めた全作成記録においては約63[%]、IPユーザーのみに限ると約74[%]でした。
このデータでは、新規作成される記事等のうち、概ね1/3から1/4程度がリダイレクトであり、IPユーザーの方が記事の割合が高いという結果になりました。
全作成数に対するIPユーザー作成数の割合
全作成数に対するIPユーザー作成数の割合、つまり「IPユーザー作成数/(登録利用者作成数+IPユーザー作成数)」は、リダイレクトを含めれば約31[%]、記事のみでは36[%]でした。
このデータでは、概ね1/3程度がIPユーザーによって作成されており、また、記事の方がIPユーザー割合が若干高いという結果になりました。
IPユーザーによる純新規作成数に対する削除割合
IPユーザーによって新規作成された記事等でデータ抽出時点で削除されたものも含めた純作成数に対する削除件数の割合、つまり「IPユーザーによる作成で、削除/(抽出時点までに削除+抽出時点で存在)」は、27[%]でした。
このデータでは、IPユーザーによって新規に作成される記事は、概ね1/4が比較的早い段階で即時削除されているという結果となりました。
記事の初版データ量
記事に初版で書かれた文章のデータ量をクラス分けしました。グラフにすると図1のようになります。
このデータでは、登録利用者で見られるような6[kb]を超える大きな記事はIP利用者では書かれていない、という結果となりました。

まとめ[編集]

ここまでで、いくつかのデータを抽出し、それらに対していくつかの解析を試みました。

このデータをどのように解釈し、有用性をどう評価するかは、これを読んでいるあなた次第です。 例えば、「IPユーザーによって新規作成された記事は、約1/4以上が削除されている」と聞いて「そんなにたくさんあるのか!」と思うか「たったそれだけか」と思うかは、人によって違うでしょう。「そもそも2009/11/2のデータだけ出されても何も評価しようがない」というのもまともな意見です。

ただし、数値的なデータとして表わすことで変わる思いもあるだろうと思います。 このデータおよび解析が、少しでも議論の参考になるのであれば、それで十分だと思っています。