利用者:Hisagi/統計関連

このページでは、ウィキペディアの統計関連ページの更新方法を説明します。(まだ書きかけです) 更新作業には、プログラミング、データベース処理、表計算のいずれかの基礎知識が必要となります。

Wikipedia:全言語版の統計[編集]

内容[編集]

基本となる統計ページです。Wikipedia:全言語版の統計 - 記事数の推移Wikipedia:日本語版の統計は、このページのデータを流用しています。

順位 純記事数での順位です。同位の場合は同じ数字を振っていますが、並べる順番は「純記事数→総項目数→編集数」としています。なお、metaのページでは No. としており、記事数が同じでも異なる「番号」が振られています。
言語 日本語表記の言語名です。英語版ウィキペディアのように、その言語のウィキペディアについての記事がある場合は 解説 としてリンクを張っています。
(en) 原語表記ですが、リンク先は英語版の(言語の)記事です。これはあまり好ましくないように思いますが、MediaWikiでは原語表記が一般的であることと、日本語話者(≒日本人)にとって英語以外の言語はあまり有用ではないため、このようなことになっています。見出しの (en) は直した方が良いかもしれません。なお、原語表記については {{#language:}} を使用しています。
WP MediaWikiで採用されている言語コードで、リンク先は各言語のウィキペディア(メインページ)です。
純記事数 純記事数です。リンク先は、各言語版の統計ページのソース(HTMLのソースとも、Wiki記法のソースとも異なります)です。
総項目数 全名前空間を合わせたページ数です。
編集数 全名前空間を合わせた編集回数です。リンク先は、各言語版の統計ページです。
管理者数 管理者数です。リンク先は、各言語版の管理者リストです。リダイレクトになっているので、修正しようと思っていたのですが、そのままになっています。
登録者数 登録利用者数です。リンク先は、各言語版の登録利用者リストです。
画像数 画像名前空間にあるファイル数です。リンク先は、各言語版の画像リストです。以前(2007年)は一部の言語版において、この数値がマイナスになっていましたが、現在では直っているようです。
質というよりは「活発さ」の指標と考えた方が良いでしょう。英語では "Depth" といいます。以前は
質 =(編集数÷純記事数)×(記事以外のページ数÷純記事数)
という計算式で定義されていたのですが、metaでは2007年10月下旬頃から、日本語版では(気づくのが)遅れて2008年1月から
=(編集数÷総項目数)×(記事以外のページ数÷純記事数)2
という式で算出するようになりました。metaのページ冒頭では "stub ratio"(スタブ率)などという語が用いられていますが、いわゆるスタブとは何ら関係ありません。(実際に計算すれば、あるいはmetaのノートを読めば分かるかと思います)

ページ名[編集]

このページは過去に何度も名前を変えています。2007年以降の変遷を挙げると Wikipedia:ウィキペディアの一覧ウィキペディアの一覧Wikipedia:全言語版の統計 のようになります。元のWikipedia:ウィキペディアの一覧には、metaにある言語系統ごとの一覧m:List of Wikipedias by language familyを翻訳して上書きしようと考えていますが、未だ着手していません。


更新方法 A[編集]

以下は、表計算ソフトさえあれば出来る簡単な方法です。ただし、言語版の数に増減があったときは使えません。また、それぞれの言語版の間で(データ取得時の)時間差が少し大きくなります(最大で2分から4分ほど)。

0. 準備
  1. Microsoft Excelなどの表計算ソフトをお持ちでなければ、OpenOffice.orgをインストールしてください。表計算機能 "Calc" だけで結構です。レジストリに書き込むのが嫌な方はOpenOffice.org Portableを使用すると良いでしょう。
  2. Unicodeが扱え、改行やタブ等を置換できるエディタをお持ちでなければ、インストールしてください。個人的には、EmEditorの無料版をおすすめします。
1. 更新の前に
  1. Wikimediaウィキの一覧に表示されているウィキペディアの言語数と、m:Wikimedia Newsで告知されている新規開設された言語版(閉鎖の場合は載らないようです)を確認します。更新の直前ではなく、日頃からチェックしておいた方が良いでしょう。
  2. 言語版の増減にs23.orgがまだ対応していない場合は、今回の更新は諦めるか、更新方法Bを使用してください。(s23.orgのスクリプトが新規開設の言語版に対応するまで、3日から2週間ほどかかります)
  3. 閉鎖された言語版がある場合は、interlangのある記事を確認して、多いようであればWikipedia:Bot作業依頼に出してください。
参考までに、2007年1月から2008年5月までの新規開設・閉鎖を挙げておきます。
言語
2007年 3月 ベラルーシ語(タラシケヴィツァ)版 (be-x-old) 開設
5月 客家語版 (hak) 開設、 カビル語版 (kab) 開設
11月 ビコール語版 (bcl) 開設、 シベリア語版 (ru-sib) 閉鎖
2008年 1月 クリミア・タタール語版 (crh) 開設、 ザーターフリジア語版 (stq) 開設、 下ソルブ語版 (dsb) 開設
3月 クリンゴン語版 (tlh) 閉鎖
5月 エストレマドゥーラ語版 (ext) 開設、 贛方言版 (gan) 開設、 フィジー・ヒンディー語版 (hif) 開設、 カラカルパク語版 (kaa) 開設、 モクシャ語版 (mdf) 開設、 エルジャ語版 (myv) 開設、 サハ語版 (sah) 開設、 スラナン語版 (srn) 開設、 シレジア語版 (szl) 開設
2. エディタでの整形(1)
  1. s23.orgの統計表(MediaWikiのソース形式)をテキストエディタにコピーします。
  2. 以下の操作を行います。
    • 空行を除去。
    • 数値中の区切り(半角スペース)をコンマに置換。
    • 「plainlinksneverexpand」を「plainlinks」に置換。(必須ではないですが、無駄ですし邪魔なので)
  3. エスケープシーケンスにチェックを入れて、「\n|-\n| 」を「\n」に、「\n| 」を「\t」に置換。(タブ区切りの表形式になります)
3. 表計算で整形
  1. 表計算ソフトを開き、それコピーします。また、Wikipedia:全言語版の統計の表部分も同様にタブ区切りに変換してコピーします。
  2. 過去の版のテキスト部分と、最新の統計データをマージします。
4. エディタでの整形(2)
  1. エディタにコピーして、先ほどの逆の操作を行い、MediaWikiのソース形式に変換します。
  2. 投稿。

更新方法 B[編集]

以下は、私が使用している方法です。少しだけ面倒になりますが、新規開設・閉鎖の言語版があったときでも対応できますし、データ取得時刻の差が小さくて済みます(最大40秒ほど)。

この節は執筆の途中です この節は書きかけです。

Wikipedia:全言語版の統計 - 記事数の推移[編集]

以下の4つのサブページを更新します。上3つは、先に更新したWikipedia:全言語版の統計のデータを流用します。最後の、マイルストーンのはen:Wikipedia:Milestone statisticsのデータを使用します。

Wikipedia:日本語版の統計[編集]

Wikipedia:全言語版の統計のデータを使用します。棒グラフのサイズは、ソースに書いてあります。

Template:ウィキペディア各言語版[編集]

この節は執筆の途中です この節は書きかけです。